CN103597485A - 模式提取装置及其方法 - Google Patents

模式提取装置及其方法 Download PDF

Info

Publication number
CN103597485A
CN103597485A CN201280027950.2A CN201280027950A CN103597485A CN 103597485 A CN103597485 A CN 103597485A CN 201280027950 A CN201280027950 A CN 201280027950A CN 103597485 A CN103597485 A CN 103597485A
Authority
CN
China
Prior art keywords
pattern
candidate
project
extraction
candidate pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201280027950.2A
Other languages
English (en)
Other versions
CN103597485B (zh
Inventor
樱井茂明
早川留美
江川诚二
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Publication of CN103597485A publication Critical patent/CN103597485A/zh
Application granted granted Critical
Publication of CN103597485B publication Critical patent/CN103597485B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0004Industrial image inspection
    • G06T7/001Industrial image inspection using an image reference approach

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种模式提取装置,从包含多个项目的对象信息提取反映项目间的关联性的模式,其具有:第一存储部,其存储多个所述对象信息;候补模式生成部,其根据分别包含于所述多个对象信息中的各项目,生成由相互不同的两个以上项目构成的候补模式;候补评价值计算部,其根据所述已生成的候补模式在各所述多个对象信息中出现的出现频度,计算所述候补模式的提取评价值;模式提取部,其判定所述已计算的提取评价值满足规定阈值的候补模式,并提取满足所述阈值的候补模式;第二存储部,其存储所述项目间的关联度,所述候补评价值计算部识别所述候补模式中的各项目间的关联度,根据基于所识别的关联度的加权值和所述出现频度,计算所述提取评价值。

Description

模式提取装置及其方法
技术领域
本发明的实施方式涉及从包含多个项目的对象信息提取项目的组合模式的控制。
背景技术
在现有技术中,为了分析各种活动或事物,人们研究用于从多个项目构成的对象信息中高效地提取与分析目的等相应的特定模式,即项目组合的装置或方法。
专利文献
专利文献1:(日本发明专利)特开2003-76937号公报
发明内容
本发明提供一种从包括项目的多个对象信息,反映项目间的关联性、提取特定的模式的模式提取装置及其方法。
本实施方式的模式提取装置,其从包含多个项目的对象信息中提取相互不同的两个以上项目的组合的模式,具有:第一存储部,其存储多个所述对象信息;候补模式生成部,其根据分别包含于所述多个对象信息中的各项目,生成由相互不同的两个以上项目构成的候补模式;候补评价值计算部,其根据所述已生成的候补模式在各所述多个对象信息中出现的出现频度,计算所述候补模式的提取评价值;模式提取部,其判定所述已计算的提取评价值满足规定阈值的候补模式,并提取满足所述阈值的候补模式;和第二存储部,其存储所述项目间的关联度,所述候补评价值计算部识别所述候补模式中的各项目间的关联度,根据基于所识别的关联度的加权值和所述出现频度,计算所述提取评价值。
附图说明
图1为表示第一实施方式的模式提取装置的构成例的图,是表示构成本装置的各部分之间关系的方框图。
图2为表示作为保存在数据存储部中的对象信息的业务群的一个例子的图。
图3为表示存储在项目间信息存储部中的关联度列表的一个例子的图。
图4为用于说明模式提取装置的操作的流程图。
图5为用于说明项目提取部进行的处理的子流程。
图6为表示长度为1的候补模式的频度和支持度的一个例子的图。
图7为表示存储于模式存储部的长度为1的模式的一个例子的图。
图8为用于说明候补模式生成部进行的处理的子流程。
图9为用于说明候补评价值计算部进行的处理的子流程。
图10为表示长度为2的候补模式的频度和关联性支持度的一个例子的图。
图11为表示存储于模式存储部的长度为2的模式的一个例子的图。
图12为表示长度为3的候补模式的频度和关联性支持度的一个例子的图。
图13为表示存储于模式存储部的长度为3的模式的一个例子的图。
图14为用于说明模式提取装置的另一实施方式的动作的流程图。
附图标记说明
100  模式提取装置
10   数据存储部
20   项目间信息存储部
30   项目提取部
40   候补模式生成部
50   候补频度计算部
60   候补评价值计算部
70   候补评价部
80   模式存储部
具体实施方式
下面,参照附图说明实施方式。
本实施方式的模式提取装置,在包含多个项目(信息要素)的对象信息为多个的情形下,利用项目间的关系,执行从该多个对象信息中提取项目的特征性组合(模式)的控制。
另外,用语“模式”通常是指两个以上项目的组合,在下面的说明中,也存在对于单一项目使用用语“模式”的情形。另一方面,用语“模式”从狭义上来说是指具有上述“项目的特征性组合”的模式。称用于提取上述狭义模式的、作为候补的模式为“模式的候补”或“候补模式”。
本装置可用于,例如在超市等日用品销售中,找出购入商品的特征性组合;在银行业务中,找出店铺特性与工作失误种类之间的特征性因果关系;在推荐节目时,找出视听者的特性与视听履历之间视听者的偏好等领域。但是,这些仅为例子本发明并不限定于此。
下面,以超市等的日用品(食品)零售业的商品为项目,对利用本装置进行处理的情形加以说明。具体来说,对以下情形进行说明,即在某超市的食品销售卖场中,为了提取、获得顾客已购买的商品(食品)的特征性组合(即“模式”),而以顾客的一张收据为一个对象信息(业务),以收据中记载的商品(食品名称等名字)为项目而进行处理。
图1~图13是表示第一实施方式的图。图1是本实施方式的模式提取装置100的框图,图中连接各方框的箭头表示数据的流向。本装置包括:作为存储多个对象信息的业务集合的第一存储部的数据存储部10;作为存储与项目间关联性相关的信息的第二存储部的项目间信息存储部20;从业务集合中提取项目的项目提取部30;使用提取的项目生成基于相互不同的两个以上项目的组合的模式候补(候补模式)的候补模式生成部40;计算候补模式出现在业务中的频度的候补频度计算部50;使用候补模式的频度和上述与项目间关联性相关的信息,计算候补模式的提取评价值的候补评价值计算部60;以所计算的提取评价值中满足基准值的候补模式为模式,并提取该模式的候补评价部70;和模式存储部80。
本装置通过将执行后述各个处理的程序数据存储于未图示的硬盘装置等外部存储介质,将该程序读入个人电脑(PC)来实现。此时,例如该计算机的硬盘装置或内存等存储器起到数据存储部10、项目间信息存储部20、模式存储部80的功能,CPU等控制设备起到项目提取部30、候补模式生成部40、候补频度计算部50、候补评价值计算部60及候补评价部70的功能,而构成各功能模块。
数据存储部10在后述的一系列处理之前,起到对对象信息业务集合(下面称作“业务群”)的数据进行存储的业务存储部的功能,并且保存后述的与最小支持度相关的数据和表示项目排列优先度的数据。
图2表示作为存储在数据存储部10中的对象信息的业务群的一个例子。业务是由多个项目(该例子中,作为实际购入的商品为“鸡肉”、“猪肉”、“牛肉”、“金枪鱼”、“竹夹鱼”、“啤酒”这六种即六个项目)中一个以上的项目构成,图2中表示以A01、A02、A03、A04、A05这五个业务为业务群,将其存储(保存)于数据存储部10的规定存储区域的情形。
在以超市等日用品零售业为对象时,记录有购入商品一览的一张收据相当于一个业务(例如A01)。该例子中不着眼于收据中记载的商品金额、购买个数,而仅着眼于与商品是否被购入相关的信息。因此,如图2所示,在数据存储部10中,仅以商品名称的信息为项目,即使购入数量为多个也只是存储一个商品名称而非多个。
在本实施方式中,作为存储于数据存储部10的业务群的数据结构中,使用于识别各业务的业务号码(A01~A05),与表示构成该业务的项目一览的项目列表(该例子中为购入列表)相对应。A01~A05的各业务由购入列表所示1个或多个项目构成。即,业务A01包括4个项目(也就是说4种商品,下面相同),业务A02包括3个项目,业务A03包括4个项目,业务A04包括两个项目,业务A05包括3个项目。在各业务中,各项目利用逗号等规定符号分割从而加以识别。这里为了简单明了,对构成业务群的所有业务都由多个项目组成的情形进行说明,但只要包含一个以上项目,即可成为业务。
另外,存储于数据存储部10的与最小支持度相关的数据是由分析者等预先设定的数值数据,在本实施方式中,该数值是用于提取后述的频繁出现项目的基准值(阈值),并且也用作从包含多个项目的候补模式提取特征性模式的基准值(阈值)。可利用未图示的鼠标或键盘等输入装置的操作,在处理之前,根据构成被使用的业务群的业务个数、项目构成等,任意对最小支持度的数值数据进行设定、变更等。
下面对最小支持度的数值为40%以上的情形进行说明,但并不仅限定于该值。下面对最小支持度的数值一律设定为40%时的情况进行说明,但可按照模式的次数和长度(即,构成该模式的项目个数)预先设定不同的数值。
进而,生成后述候补模式时参照表示存储于数据存储部10的项目的排列优先度的数据,在本例子中,优先度从高到低排序为“鸡肉”、“猪肉”、“牛肉”、“金枪鱼”、“竹夹鱼”、“啤酒”。可在处理之前利用未图示的鼠标或键盘等输入装置的操作,任意对该数据进行设定、变更等。本实施方式的优先度是对构成模式的多个项目的排列顺序加以规定的信息,用于按照例如品名的类别顺序、类别内的品名顺序、字典或字母顺序等一定的规则排列多个项目。通过利用该优先度可顺利且快速的进行例如候补模式的生成处理。
在后述的一系列处理之前,项目间信息存储部20存储构成要使用的与业务群中的各项目之间的关联性相关的信息(下面也称为“项目间联系”。)的数据。项目间联系的数据是各项目相互间(也包括同一项目间)关联度的数据,更详细地说,是表示关联度高低的数值数据,在本实施方式中,项目间的关联度越高数值越大。
图3表示存储于项目间信息存储部20的项目间联系的一个例子。本例子中,作为项目间联系,使用以行列配置业务群中的各项目的数据表。此处,项目间联系是以从0到1之间的数值表示项目与项目之间具有何种程度的关系,下面称该数值为“关联度”。关联度定义为:项目间的关系越强(关联度越高)该值越大,关系越弱(关联度越低)该值越小。另外,对于同一项目的关联度赋予最大值“1”。在处理之前,利用未图示的鼠标或键盘等输入装置的操作,分析者可根据作为处理对象的业务项目的上位概念的类别个数或类别构造等,对关联度的具体数值进行任意设定、变更等。
在图3的例子中,作为存储于项目间信息存储部20的项目间联系,对业务群中的n个项目在行(i)方向和列(j)方向上进行排列,利用由数值表示的两个项目间关系的矩阵(下面该矩阵也称为“关联度矩阵”)形式,而使用记录有各项目间关联度值的关联度矩阵表。该关联度矩阵表中,1为最大值,项目间的关联度越高记录的数值越大。具体来说,对于同一项目之间(“鸡肉”和“鸡肉”,“猪肉”和“猪肉”等)记录最大值1,对于不同项目(“鸡肉”和“猪肉”,“鸡肉”和“啤酒”等)彼此,记录与项目间关系强度相应的数值。该例子中,项目所属的类别相同时,即同为肉类(“鸡肉”和“猪肉”,“鸡肉”和“牛肉”,“猪肉”和“牛肉”)、同为鱼类(“金枪鱼”和“竹夹鱼”)时,记录中等程度的关联度数值0.5。另一方面,项目所属的类别不同时,即上述肉类所属的项目、鱼类所属的项目与属于饮料类别项目的啤酒之间由于没有关联,而记录关联度数值0。
在本实施方式中,也可将“项目间联系”称为不想作为模式(组合)而提取的项目间关联性数值。即,对于同一项目间的组合(“鸡肉”和“鸡肉”,“猪肉”和“猪肉”等)设定最大值(在本例子中为1),以使其在分析时不作为模式而提取,对于类别相同的项目的组合(例如“鸡肉”和“猪肉”)设定为在分析时不容易作为模式而提取的数值(本例子中为0.5),对于类别完全不同的项目的组合(例如“鸡肉”和“啤酒”)设定为在分析时容易作为模式而提取的数值(本例子中为0)。
项目提取部30读取存储于数据存储部10的业务群数据,从读取的数据提取频繁出现的项目。具体来说,项目提取部30从数据存储部10提取构成每个业务的项目,计算每个所提取的项目的出现频度,即出现该项目的业务的数量(下面也称为“项目频度”)。从项目提取部30向候补模式生成部40发送计算的项目频度信息。项目提取部30根据所计算的项目频度,计算对于该项目的支持度,仅将该计算值在预先在数据存储部10中设定的最小支持度(本例子中为40%)以上的项目作为频繁出现项目,存储于模式存储部80。
此处,对于任意一个项目(it)的支持度的具体计算方法如下述公式1所示。
【公式1】
候补模式生成部40参照业务群,生成由项目集合构成的模式的候补。具体来说,候补模式生成部40读取存储于后述模式存储部80的长度m的模式(m=1的上述频繁出现项目或者后述高阶(m为2以上)的模式),参照数据存储部10内的业务群,根据频繁出现项目或模式生成满足规定条件长度为m+1的模式的候补(候补模式)。在候补模式生成部40所生成的候补模式中有3次以上的模式,即,对于每两个频繁出现项目排列形成的2次模式(参照图10)、长度为2以上的模式(参照图11),在该模式的项目中增加满足规定条件的项目的三次以上的模式(参照图12)。关于规定条件和候补模式生成部40进行的处理如后述说明。
另外,存储于模式存储部80的高次模式是,出现在业务群的多个业务中长度为2以上(二次以上)的模式中,作为具有项目特征性组合的模式而被提取、存储的模式,对于该提取、存储处理的详细内容如后述说明。
候补频度计算部50对于每个候补模式计算由候补模式生成部40生成的在候补模式的业务群中出现的出现频度(业务数),将该计算的每个候补模式的频度值发送给候补评价值计算部60。
候补评价值计算部60使用来自候补频度计算部50的每个候补模式的出现频度值、和上述项目间联系(关联度排列表),作为对于候补模式的评价值,以使相对于构成该模式的项目数量的增加单调减小的方式,计算反映了项目间关联性的评价值(提取评价值)。下面,称该评价值为“关联性支持度”。候补评价值计算部60计算每个候补模式的关联性支持度,并将该计算的关联性支持度的数值发送给候补评价部70。
候补评价部70对于每个候补模式判断来自候补评价值计算部60的关联性支持度的数值是否满足规定的基准值,将判断为满足该基准值的候补模式的数据存储于模式存储部80。在本实施方式中,候补评价部70参照在数据存储部10中设定的最小支持度,判断该候补模式的关联性支持度的数值是否在最小支持度(本例子中为40%)以上,将最小支持度以上的候补模式的数据存储于模式存储部80。通过该处理,提取候补模式内的“模式”,即提取具有项目特征性组合的模式,并存储于模式存储部80的存储区域。
当模式存储部80根据项目提取部30或候补评价部70保存频繁出现的项目或模式的数据时,向候补模式生成部40发送表示该数据被存储的通知,并向候补模式生成部40提供被存储的模式的数据。存储于模式存储部80频繁出现的项目或模式的数据,可伴随着存储通过自动或用户对输入装置的操作,适当的在未图示的LCD等显示部显示,或利用未图示的打印机等打印输出。
下面参照流程图对模式提取装置100的详细处理内容进行说明。
本实施方式的模式提取装置100从图4的流程图的步骤S1开始进行处理。步骤S1中,项目提取部30读取存储在数据存储部10中的业务群。通过该处理,构成上述业务的项目数据被读入每个业务号码的CPU工作区域(RAM)。图2的实例中,对于业务A01的项目读入“鸡肉”、“金枪鱼”、“竹夹鱼”、“啤酒”的数据,对于业务A02的项目读入“鸡肉”、“猪肉”、“啤酒”的数据,对于业务A03的项目读入“鸡肉”、“猪肉”、“金枪鱼”、“啤酒”的数据,对于业务A04的项目读入“牛肉”、“竹夹鱼”的数据,对于业务A05的项目读入“鸡肉”、“金枪鱼”、“竹夹鱼”的数据。
步骤S2中,候补评价值计算部60读取存储在项目间信息存储部20中的项目间联系。通过该处理,在图3中记录于上述关联度排列表的各项目间的数值数据被读入CPU的工作区域(RAM)。被读入的数值数据在计算后述提取评价值的处理时使用。
之后的步骤S3中,项目提取部30根据图5的子流程提取并存储出现频度高的项目(频繁出现项目)。首先,项目提取部30检索步骤S2中读取的业务集合,提取构成业务的所有项目种类(步骤S31)。例如为图2的业务集合时,项目提取部30提取“鸡肉”、“猪肉”、“牛肉”、“金枪鱼”、“竹夹鱼”、“啤酒”这六种项目。本实施方式中,将提取的项目作为候补项目进行处理,也就是说作为可能成为具有特征性模式的候补的1次(长度为1)候补模式处理(参照图6)。
之后,项目提取部30对于取出的各项目,对每个项目进行下述步骤S32至步骤S35的处理。首先,项目提取部30对取出的各项目内的一个项目,参照在步骤S2中读取的业务群,计算该项目出现的业务个数(步骤S32),作为项目频度。例如,为图2的业务群时,由于项目“鸡肉”包含于业务A01、A02、A03、A05中,因此“鸡肉”的频度被算为“4”。
之后,项目提取部30根据计算的该项目的频度,由上述公式1计算对于项目的支持度(步骤S33),判断该数值是否在预先设定于数据存储部10的最小支持度以上(步骤S34)。例如,当计算频度为4的上述项目“鸡肉”时,由于业务的总数为5,因此其支持度为(4/5×100=)80%。
此时,在所计算的项目支持度为存储在数据存储部10中的最小支持度(本例子中为40%)以上时,项目提取部30在步骤S35将该项目作为频繁出现的项目存储于模式存储部80,并进行下一步骤S36。相反的,当计算的项目支持度在最小支持度(40%)以下时,项目提取部30不将该项目存储于模式存储部80,并将其从模式对象中排除(废弃该项目的数据),并进行下一步骤S36。在步骤S36中,项目提取部30判断在步骤S31中提取的所有项目的处理是否完成,当未完成时返回步骤S32,重复上述步骤S32至步骤S35的处理,另一方面,当所有项目的处理都完成时进行下一步骤S37。
这样,在所计算的支持度为80%的上述项目“鸡肉”的情形下,由于在最小支持度(40%)以上(在步骤S34为是),因此作为频繁出现的项目存储于模式存储部80。同样的,对于其他项目“猪肉”、“牛肉”、“金枪鱼”、“竹夹鱼”、“啤酒”,也利用项目提取部30分别计算频度为“2”、“1”、“3”、“3”、“3”(步骤S32),支持度分别为“40%”、“20%”、“60%”、“60%”、“60%”(步骤S33),如图6所示,作为长度为1的候补模式,计算各项目的频度和支持度。之后,由于本例子中设定的最小支持度为40%,因此只有不满足最小支持度的项目“牛肉”被从模式的对象中排除(在步骤S34为否),如图7所示,除了“牛肉”,将“鸡肉”、“猪肉”、“金枪鱼”、“竹夹鱼”、“啤酒”作为频繁出现项目存储于模式存储部80。
此时,为了进行后述长度为2以上的候补模式的生成处理,项目提取部30,参照保存在数据存储部10中的表示上述项目的排列优先度的数据,由此根据预先规定的顺序,对存储于模式存储部80的频繁出现的项目进行排列。在本实施方式中,如图6所示,以“鸡肉”、“猪肉”、“金枪鱼”、“竹夹鱼”、“啤酒”的优先顺序排列各模式。如上所述,通过进行步骤S3(步骤S31至步骤S36)的一系列处理,不满足最小支持度的项目(本例子中为“牛肉”)被从模式候补中排除,由于不作为高次候补模式的要素,因此可大幅减少了计算机的处理负荷,缩短提取高次模式的时间。另外,在本实施方式中,频繁出现的项目被认为是构成模式的项目数量(模式的长度)为1的“模式”(即特征性组合)。
在步骤S37中,项目提取部30参照模式存储部80判断是否存在频繁出现的项目,判断为存在时作为成功提取了项目进行步骤S4,另一方面,在判断为不存在时,作为提取项目失败结束本装置的处理。即,在步骤S3的处理中,1个频繁出现的项目都未提取时,结束本装置的处理。
在步骤S4中,候补模式生成部40按照图8的子流程进行生成模式候补的处理。首先,候补模式生成部40在步骤S41中设定从模式存储部80取出的模式长度(m值)。具体来说,候补模式生成部40在第一次执行步骤S41时,将模式长度m值设定为1(m=1),从第二次执行步骤S41开始将模式长度m值加1(m=m+1)。
接着,候补模式生成部40,在存储于模式存储部80的模式(长度为1的频繁出现项目或长度为2以上的模式)之中,判断之前步骤设定的长度m的模式是否为两个以上(步骤S42),在判断为否,即0个或只有1个时,因无法生成候补模式,而处理结束;在判断为是,即有两个以上时,取出全部的相应的模式(步骤S43),进行步骤S44。在步骤S44中,候补模式生成部40判断所取出的全部模式中是否有与候补模式生成条件一致的两个模式,在判断为否时,因不能生成候补模式处理结束;在判断为是时,进行下一步骤S45。
在本实施方式中,作为步骤S44的候补模式生成条件,设定为“从最前面开始到m-1个的模式是相同的项目,最后的一个项目不同”。但在前提下,在各模式中,项目必需按照预先规定的顺序排列。在本例子中,如上所述,由于按照“鸡肉”、“猪肉”、“牛肉”、“金枪鱼”、“竹夹鱼”、“啤酒”的顺序赋予优先度,因此根据该优先度排列各模式。
候补模式生成部40取出两个满足步骤S44的候补模式生成条件的模式(步骤S45),并排列不同的项目,生成比在步骤S41中设定的模式长度m大1的模式候补(候补模式)(步骤S46)。
即,步骤S46中的候补模式生成部40对于取出的两个模式中共同的m-1个项目,使相互不同的最后两个项目按照项目顺序排列,生成1个具有(m-1+2=)m+1的模式长度的候补模式。之后,候补模式生成部40向候补频度计算部50发送所生成的候补模式(步骤S47)。而且,知道候补模式生成部40生成所有长度m+1的候补模式为止重复步骤S45到步骤S48的处理,判断所有的都已生成时结束步骤S4的处理。即,通过重复实施这样的提取模式和生成模式候补,从存储于模式存储部80的长度为m的频繁出现项目或模式中生成具有m+1模式长度的所有模式候补。
下面,列举具体例子详细说明候补模式的生成处理。
例如,设定步骤S41中的模式长度m为1,在模式存储部80中存储如图7所示长度为1的模式(即频繁出现项目)。此时,由于各项目被按照如上所述的“鸡肉”、“猪肉”、“牛肉”、“金枪鱼”、“竹夹鱼”、“啤酒”的顺序赋予优先度,因此存储于模式存储部80中的频繁出现项目除了“牛肉”,被按照“鸡肉”、“猪肉”、“金枪鱼”、“竹夹鱼”、“啤酒”的顺序排列。
此时,由于图7中的各模式都是长度m为1,因此经过步骤S42在步骤S43被全部取出。另一方面,对于步骤S44的候补模式生成条件,模式的长度m为1时,由于共同的项目个数1个都没有(即是0个),因此变为“从开头到m-1个为止的模式为同一项目”和“最后的一个项目不同”,满足图7的任意两个模式的组合条件。因此,候补模式生成部40根据上述条件的优先度,按照“鸡肉、猪肉”、“鸡肉、金枪鱼”、“鸡肉、竹夹鱼”、“鸡肉、啤酒”、“猪肉、金枪鱼”、“猪肉、竹夹鱼”、“猪肉、啤酒”、“金枪鱼、竹夹鱼”、“金枪鱼、啤酒”、“竹夹鱼、啤酒”的顺序取出两个模式(步骤S45),在步骤S46生成长度为2的10种模式候补(二次候补模式)(参照图10)。向候补频度计算部50提供该生成的10个候补模式的信息,每个候补模式反复执行后述的步骤S5至步骤S9的处理。之后,当对所有的10个候补模式的处理完成时,返回步骤S9至步骤S5的处理。
在步骤S5中,候补频度计算部50判断从候补模式生成部40提供的候补模式中,是否存在未完成计算频度处理的候补模式,当存在未完成处理的候补模式时,取出一个候补模式并进行下一步骤S6;当所有的候补模式的计算频度处理都完成时,返回有关生成候补模式的本装置处理的步骤S4。
下面的步骤S6至步骤S10为对于取出的一个候补模式的处理。首先,在步骤S6中,候补频度计算部50通过参照在步骤S1中读取的业务集合,对于取出的一个模式候补计算该候补的出现频度,即计算包括该候补模式的业务个数。
例如,图2所示的业务集合是在步骤S1读取、在步骤S4设定的模式长度m为2的业务集合,当作为在步骤S6的模式候补“鸡肉、猪肉”被取出时,由于该模式候补包含于A02和A03的业务中,因此作为该出现频度计算为2(参照图10)。同样的,关于其他的候补模式“鸡肉、金枪鱼”、“鸡肉、竹夹鱼”、“鸡肉、啤酒”、“猪肉、金枪鱼”、“猪肉、竹夹鱼”、“猪肉、啤酒”、“金枪鱼、竹夹鱼”、“金枪鱼、啤酒”、“竹夹鱼、啤酒”的出现频度分别计算为3、2、3、1、0、2、2、2、1。
在步骤S7中,候补评价值计算部60使用步骤S6计算的候补模式的出现频度、和步骤S2读取的项目间联系(关联度排列表),评价构成该模式的项目间的关联性,由此,计算提取评价值(下面称为“关联性支持度”),对于该提取评价值,该频度越低其值越小,越是由关联性高的项目构成的模式其值越小。
具体来说,如图9的流程图所示,候补评价值计算部60从步骤S6计算的出现频度计算该候补模式的支持度(步骤S71)。此处,候补模式支持度的计算与上述公式1相同,将公式中的“包括项目的业务的个数”替换为“包括模式的业务的个数”就可以。在步骤S72中,候补评价值计算部60提取所有包含于该候补模式的两个项目的组合。在步骤S73中,候补评价值计算部60参照(识别)在步骤S2从项目间信息存储部20读取的项目间联系,提取与所提取的组合相应的关联度。之后,候补评价值计算部60根据所提取的关联度计算加权值(步骤S74),将计算的加权值应用于在步骤S71中计算的支持度,由此计算该候补模式的提取评价值(关联性支持度f(p))(步骤S75)。
此处,需要对上述加权值和关联性支持度f(p)定义为:相对于模式长度m的增加而单调减少。具体来说,对于关联性支持度f(p)相对于两个模式或模式候补p1和p2,在(p1是p2的子集)的关系成立时,使f(p1)≥f(p2)的关系成立。也就是说,候补评价值计算部60在计算加权值时,必须对于模式长度m使权衡(trade-off)的关系成立。
上述加权值和关联性支持度的定义及计算公式可以是多种多样的。例如,作为候补评价值计算部60计算的加权值的定义,可将从规定值(例如1)减去提取的关联度得到的数值作为加权值。或者,作为候补评价值计算部60计算的加权值的定义,可使提取的关联度和加权值的合计值保持为固定值(例如1),将该合计值和提取的关联度间的差值作为加权值。
在本实施方式中,作为候补评价值计算部60计算的加权值的定义例子,定义为下述公式2所示的关联性支持度f(p)。
【公式2】
Figure BDA0000432151090000141
在公式2的第一项中,s(iti、itj)表示项目iti和项目itj之间的关联度。另外,max{s(iti、itj)}是构成模式的所有项目(iti、itj)间关联度中的最大值。
在公式2中,作为加权值的第一项,使用构成模式的任意项目间的关联度最大值(max),从固定值1减去该关联度最大值。因此,作为加权值的第一项,当模式长度m增大时,项目间的关联度最大值单调递增,从固定值1减去该最大值得到单调递减的数值。另外,在公式2的第二项中,分母(业务总数)的值是固定值,而分子的值随着模式长度m的增加单调递减。因此可以认为,将第一项乘以第二项使其为固定倍数的关联性支持度f(p)相对于模式长度m的增加单调递减。
例如,对于模式长度m为2的“鸡肉、猪肉”,“鸡肉”和“猪肉”的关联度如图3所示设定为0.5。因此,加权值的公式2的第一项的数值计算为(1-0.5=)0.5。如上所述,计算“鸡肉、猪肉”的频度为2。因此,“鸡肉、猪肉”的关联性支持度f(p)计算为(0.5×2/5×100=)20%。另一方面,对于相同模式长度m为2的“鸡肉、金枪鱼”,由于“鸡肉”和“金枪鱼”的关联度设定为0,因此公式2的第一项的数值计算为(1-0=)1。这样,在步骤S7中,候补评价值计算部60作为“鸡肉、金枪鱼”的关联性支持度f(p),计算为(1×3/5×100=)60%(步骤S75)。同样的,“鸡肉、竹夹鱼”、“鸡肉、啤酒”、“猪肉、金枪鱼”、“猪肉、竹夹鱼”、“猪肉、啤酒”、“金枪鱼、竹夹鱼”、“金枪鱼、啤酒”、“竹夹鱼、啤酒”的关联性支持度如图10的关联性支持度栏所示,分别计算为40%、60%、20%、0%、40%、20%、40%、20%。
在步骤S8中,候补评价部70对存储于数据存储部10的最小支持度数值,与计算的候补模式关联性支持度f(p)的值进行比较,判断该关联性支持度f(p)的值是否满足作为阈值的最小支持度数值。此时,当该候补的关联性支持度f(p)在最小支持度(本例子中为40%)以上时,候补评价部70将该候补模式作为“模式”即作为具有项目的特征性组合的模式记录,从而进行下一步骤S9。另一方面,当关联性支持度未满足最小支持度时,不将该候补记录于模式存储部80而使其返回步骤S5进行处理,并开始对下一候补模式进行处理。
在步骤S9中,对于由候补评价部70判断为记录的模式候补,将其作为具有项目的特征性组合的模式存储于模式存储部80。例如,如图10所示,当对模式长度为2的候补模式计算关联性支持度时,由于本例子中存储于数据存储部10的最小支持度为40%,因此如图10所示的10个候补模式之中,对“鸡肉、金枪鱼”、“鸡肉、竹夹鱼”、“鸡肉、啤酒”、“猪肉、啤酒”、“金枪鱼、啤酒”的候补模式判断为满足步骤S8基准值,该5个模式作为模式如图11所示记录于模式存储部80。相反,对“鸡肉、猪肉”、“猪肉、金枪鱼”、“猪肉、竹夹鱼”、“金枪鱼、竹夹鱼”、“竹夹鱼、啤酒”的候补模式判断为不满足步骤S8基准值,不将其存储于模式存储部80,并废弃该候补模式的数据。因此,使“鸡肉、猪肉”、“猪肉、金枪鱼”、“猪肉、竹夹鱼”、“金枪鱼、竹夹鱼”、“竹夹鱼、啤酒”的候补模式从长度为3的候补模式生成对象中除去。
之后,在本例子中,在对如图10所示的10个二次候补模式全部完成步骤S6至步骤S9的处理时,经过步骤S5返回步骤S4的处理,开始生成长度为3的三次候补模式。
即,在模式存储部80中,除了图7所示的频繁出现的项目,如图11所示,长度为2的模式(二次模式)根据上述项目优先度,按照“鸡肉、金枪鱼”、“鸡肉、竹夹鱼”、“鸡肉、啤酒”、“猪肉、啤酒”、“金枪鱼、啤酒”的顺序被存储。从该状态开始,在步骤S41中,候补模式生成部40将模式长度m设定为2。
接着,候补模式生成部40经过步骤S42,取出所有长度m为2图11中的各模式(步骤S43),为了将两个长度为2的模式组合,判断是否满足候补模式生成条件(步骤S44)。
对于步骤S44的候补模式生成条件,当长度m为2时,由于共同的项目个数最大为1,因此“鸡肉、金枪鱼”和“鸡肉、竹夹鱼”中,由于“前面的m-1个模式”也就是说“最初的项目”“鸡肉”是共同的,且最后一个项目相互不同,因此满足候补模式生成条件。与此不同,“鸡肉、金枪鱼”和“猪肉、啤酒”中,由于“前面的m-1个模式”即“最初的项目”不一致,因此不满足候补模式生成条件。
候补模式生成部40如上所述在步骤S44中判断是否满足候补模式生成条件,判断“鸡肉、金枪鱼”和“鸡肉、竹夹鱼”、“鸡肉、金枪鱼”和“鸡肉、啤酒”、“鸡肉、竹夹鱼”和“鸡肉、啤酒”这三组满足候补模式生成条件,在步骤S45将该三组取出。进而,候补模式生成部40在步骤S46中,分别从“鸡肉、金枪鱼”和“鸡肉、竹夹鱼”生成“鸡肉、金枪鱼、竹夹鱼”,从“鸡肉、金枪鱼”和“鸡肉、啤酒”生成“鸡肉、金枪鱼、啤酒”,从“鸡肉、竹夹鱼”和“鸡肉、啤酒”生成“鸡肉、竹夹鱼、啤酒”(参照图12),作为长度为3的三次候补模式。向候补频度计算部50提供该生成的3个候补模式“鸡肉、金枪鱼、竹夹鱼”、“鸡肉、金枪鱼、啤酒”、“鸡肉、竹夹鱼、啤酒”的信息,各候补模式分别反复执行上述的步骤S5至步骤S9的处理。之后,当这三个候补模式的处理全部结束时,从步骤S9返回步骤S5的处理。
具体来说,在步骤S5中,候补频度计算部50从候补模式生成部40提供的候补模式中取出未处理的一个候补模式“鸡肉、金枪鱼、竹夹鱼”,进行步骤S6的频度计算处理。此时,由于“鸡肉、金枪鱼、竹夹鱼”包含于业务A01和A05中,因此由候补频度计算部50计算频度为“2”(步骤S6),由候补评价值计算部60计算支持度为40(%)(步骤S71)。
接着,候补评价值计算部60从候补模式“鸡肉、金枪鱼、竹夹鱼”中提取两个项目的所有组合“鸡肉、金枪鱼”、“鸡肉、竹夹鱼”、“金枪鱼、竹夹鱼”(步骤S72),提取作为该组合对应的关联度0、0、0.5(步骤S73),作为上述公式2的第一项的加权值,从提取的关联度计算(1-max{0,0,0.5}),即(1-0.5=)0.5(步骤S74)。另外,由于作为“鸡肉、金枪鱼、竹夹鱼”的支持度计算为“40”,因此,在步骤S75中,候补评价值计算部60计算“鸡肉、竹夹鱼、金枪鱼”的关联性支持度f(p)为(0.5×40=)20%(参照图12)。此时,由于关联性支持度不满足最小支持度(40%)(步骤S8为否),因此不作为模式记录而返回步骤S5的处理。
接着,在步骤S5,候补频度计算部50从候补模式生成部40提供的长度为3的候补模式中取出未处理的一个候补模式“鸡肉、金枪鱼、啤酒”,进行步骤S6的频度计算处理。此时,由于“鸡肉、金枪鱼、啤酒”包含于业务A01和A03中,因此由候补频度计算部50计算频度为“2”(步骤S6),由候补评价值计算部60计算支持度为40(%)(步骤S71)。
接着,候补评价值计算部60从候补模式“鸡肉、金枪鱼、啤酒”中提取两个项目的所有组合“鸡肉、金枪鱼”、“鸡肉、啤酒”、“金枪鱼、啤酒”(步骤S72),提取作为该组合对应的关联度0、0、0(步骤S73),作为上述公式2的第一项的加权值,从提取的关联度计算(1-max{0,0,0})即(1-0=)1(步骤S74)。另外,由于“鸡肉、金枪鱼、啤酒”的支持度计算为“40”,因此,在步骤S75中,候补评价值计算部60计算“鸡肉、金枪鱼、啤酒”的关联性支持度f(p)为(1×40=)40%(参照图12)。此时,由于关联性支持度在最小支持度的阈值(40%)以上,因此候补模式“鸡肉、金枪鱼、啤酒”作为“模式”,即作为“具有项目特征性的组合的候补模式”,在步骤S9中将其存储于模式存储部80(参照图13)。
进而,在步骤S5中,候补频度计算部50从候补模式生成部40提供的候补模式中取出未处理的一个候补模式“鸡肉、竹夹鱼、啤酒”,进行步骤S6的频度计算处理。此时,由于“鸡肉、竹夹鱼、啤酒”仅包含于业务A01中,因此由候补频度计算部50计算频度为“1”(步骤S6),由候补评价值计算部60计算支持度为20(%)(步骤S71)。
接着,候补评价值计算部60从候补模式“鸡肉、竹夹鱼、啤酒”中提取两个项目的所有组合“鸡肉、竹夹鱼”、“鸡肉、啤酒”、“竹夹鱼、啤酒”(步骤S72),提取作为该组合对应的关联度0、0、0(步骤S73),作为上述公式2的第一项的加权值,从提取的关联度计算(1-max{0,0,0})即(1-0=)1(步骤S74)。另外,由于作为“鸡肉、竹夹鱼、啤酒”的支持度计算为“20”,因此,在步骤S75中,候补评价值计算部60计算“鸡肉、竹夹鱼、啤酒”的关联性支持度f(p)为(1×20=)20%(参照图12)。此时,由于关联性支持度不满足最小支持度(40%)(步骤S8为否),因此不作为模式记录而返回步骤S5的处理。
之后,在本例子中,当图12所示的3个三次候补模式的所有步骤S6至步骤S9的处理都完成时,经过步骤S5返回步骤S4的处理。此时,设定模式长度m为3(步骤S41),由于在模式存储部80中仅存储一个如图13所示的长度m为3的模式,因此无法取出满足候补模式生成条件的模式组合并生成长度为4的候补模式(步骤S42为否)。因此,此时候补模式生成部40不能在步骤S45中生成候补模式,结束本装置的处理。
如上所述,在模式长度为3时,如图13所示,仅将3个候补模式中的“鸡肉、金枪鱼、啤酒”作为模式提取,并存储于模式存储部80。即,对于包含高关联度项目的“鸡肉、竹夹鱼、金枪鱼”即使频度同样为“2”,计算的加权值以及提取评价值(关联性支持度)也相对低,无法成为提取对象。另外,对于仅由关联度低的项目构成的“鸡肉、竹夹鱼、啤酒”,也由于频度低计算的关联性支持度低,还是无法作为提取对象。
如上述例子,长度为2的候补模式“鸡肉、竹夹鱼”、“鸡肉、啤酒”、“竹夹鱼、啤酒”的关联性支持度f(p)分别为40%、60%、20%(参照图10),包含该3个候补模式长度为3的候补模式“鸡肉、竹夹鱼、啤酒”的关联性支持度f(p)为20%(参照图12)。因此,根据候补评价值计算部60使用公式2计算的运算结果,可以确认随着模式长度的增加,作为提取评价值的关联性支持度单调递减。
如上所述,本实施方式的模式提取装置100计算对候补模式的提取评价值时考虑项目间的关联性,在计算包含关联性高的项目的候补模式的加权值时,使其数值相对小,由此包含关联性高的项目的候补模式相对来说难以提取,对于分析者来说是显而易见的。并可防止提取由相互关联性高的项目构成的模式,可高效地提取出能够引起分析者的兴趣的、由相互关联性低的项目构成的模式。
具体来说,在不考虑项目间的关联性,仅根据最小支持度来提取模式时,会从图2的业务中提取出出现频度为2的候补模式,即同为肉类的“鸡肉、猪肉”或同为鱼类的“金枪鱼、竹夹鱼”。这样的由相互关联性高的项目构成的模式对于分析者有强烈的显而易见(明显)的印象,不是能够引起兴趣的模式。与此相对,由于本实施方式的模式提取装置100仅将候补模式中由具有一定程度出现频度且关联性低的项目构成的候补模式作为提取对象,因此可以避免作为模式提取上述“鸡肉、猪肉”或“金枪鱼、竹夹鱼”。
进而,作为本实施方式说明的对象信息的业务,为了便于说明,仅例示了极小规模构造,但实际上是处理大量项目的种类,并且以大量的业务为对象。因此,不考虑项目间的关联性,仅根据最小支持度提取模式时,有可能提取大量由相互关联性高的项目构成的模式,由“猪肉、竹夹鱼”这样的类别不同的商品(项目)构成的模式,有可能被埋没在大量同种类商品的模式中。因此,如果不考虑项目间的关联性,仅根据最小支持度提取模式时,极难高效的发现分析者感兴趣的模式。
与此相对,在本实施方式的模式提取控制中,如上所述,考虑项目间的关联性,从项目间信息存储部20提取包含于候补模式的各项目间的关联度,根据提取的关联度计算加权值,将该加权值应用于基于该候补模式业务中出现的频度的支持度,因此可高效的提取由关联性不高的项目构成的模式。这样,通过本实施方式的模式提取装置100,可高效的发现分析者感兴趣的重要模式。
模式提取装置的构成并不仅限于上述实施方式。例如,作为提取评价值的关联性支持度的计算方法,使用了公式2,但作为满足单调性的关联性支持度的定义公式,也可用下述公式3、公式4来定义。
【公式3】
Figure BDA0000432151090000191
【公式4】
Figure BDA0000432151090000201
此处,在使用公式3时,在作为加权值的第一项使项目间的关联度相加,当该相加结果为1以上时,第一项以及该关联性支持度f(p)的值变为0。因此认为公式3也可以作为相对于模式长度(项目构成数量的增加)单调递减的定义。
另一方面,在使用公式4时,由于在作为加权值的第一项使项目间的关联度相乘,因此当直接使用实施方式的关联度排列的数值时,例如为“鸡肉”和“啤酒”时,第一项以及该关联性支持度f(p)的值为0。因此,此时作为项目间联系的另一个实施方式,可将相同项目间的关联度设定为0,将关联性最低的项目间关联度设定为1。
另外,在上述实施方式中,根据项目提取部30执行的步骤S37进行的判断:当在模式存储部80中没有频繁出现的项目时,结束本装置的处理结束,但不仅限于此,也可以当在步骤S37中判断为没有频繁出现的项目时,项目提取部30进行从最小支持度数值(上述例子中为40%)减去规定数值(例如20%)的处理,然后再次进行频繁项目提取(步骤S3)的处理,以使该减法处理后的最小支持度以上的支持度的项目作为频繁出现项目被提取。此时,优选在显示部上适当显示,表示要使最小支持度的值减小并进行计算的意思的信息,以及在计算中使用的最小支持度的值。
进而,与上述情况相反,当要提取的、存储于模式存储部80的频繁出现的项目非常多时,例如可作为提取对象的频繁出现项目为预先设定的规定数量以上,或在步骤S31中提取的项目中有预设的规定比例(%)以上的项目作为频繁出现的项目被存储时,项目提取部30也可以进行使最小支持度数值增加规定值(例如20%)的处理,然后再次进行步骤S3的处理,以使该变更后的最小支持度以上的支持度的项目作为频繁出现项目被提取。此时,也优选适当地在显示部上显示,表示使最小支持度数值增加并进行计算的信息,以及在计算中所使用的最小支持度的值,以使分析者得知该情况。
进而,可对长度为2以上的候补模式的最小支持度也进行相同的处理。图14为用于说明模式提取装置的另一实施方式的操作的流程图,当在步骤S5中判断为没有未处理的候补时,在步骤S51中,判断模式存储部80内是否有模式,在有模式时返回步骤S4,另一方面,在没有模式时在步骤S52中进行从最小支持度数值(上述例子中为40%)减去规定数值(例如20%)的处理,并该变更后的最小支持度在此对每个候补模式进行步骤S8的判断处理。
在存储于模式存储部80的模式个数,不足(少于)预先规定的数量,或超过(多于)预先规定的数量时,也可以进行减少最小支持度数值的处理,或增大最小支持度数值的处理,并对每个候补模式再次进行步骤S8的判断处理。
在上述实施方式中,作为存储于项目间信息存储部20的项目间联系,对两个项目的项目间关系进行了关联度的定义,但不仅限于此,项目间联系可以是,通过相对于项目的增多赋予单调性并使其保持,而对三个以上项目进行关联度的定义。
在上述实施方式中,以使用为了找出日常用品的销售中购入商品的特征性组合的模式提取装置100为例进行了说明,但不仅限于此,也可应用于其他各种各样的工作中。例如,作为在银行工作中,为找出店铺特性和工作失误的种类之间的特征性因果关系而使用的例子,可将每个店铺作为一个业务,将该店铺发生的失误种类作为项目。另外,作为推荐节目时,在视听者的特性和视听履历之间发现视听者的偏好等领域使用的一个例子,可将每个视听者作为一个业务,将该视听者视听的节目作为项目。
上述各个处理,可由计算机可执行的程序来实现,安装了该程序的计算机可作为执行实施方式中各处理的信息处理装置来工作。例如可进行下述操作,将该程序存储于未图示的辅助存储装置,CPU等控制部向主存储装置读取存储于辅助存储装置的程序,控制部执行在主存储装置读取的该程序,使计算机执行实施方式中的各个处理。
上述程序可以是以存储于计算机可读取的存储介质的状态,应用于计算机,也可通过互联网等网络下载到计算机。作为计算机可读取的存储介质,可列举CD-ROM等光盘、DVD-ROM等相变光盘、MO(Magnet Optical)或MD(Mini Disk)等光磁盘、软盘(登记商标)或可移动硬盘等磁盘、闪存卡(登记商标)、智能媒介、SD存储卡、记忆棒等存储卡。另外,特殊设计构成的集成电路(IC芯片等)等硬件装置也可作为存储介质
在上述实施方式中,图1所示的各部分由1台计算机构成,但不仅限于此,可适当地使图1所示的各部分由不同的服务器装置等实现,也可由通过网络等通信线路连接的计算机系统构成。
以上对本发明的实施方式进行了说明,但是本实施例只是一个提示的例子,并不构成对本发明范围的限制。能够以其他各种方式实施新的实施方式,在不脱离本发明的技术思想的范围内,能够进行各种省略、替换和变更。这些实施方式及其变形也包括在本发明的范围和技术思想的范围内,并且包含在与权利要求记载的发明等同的范围内。

Claims (5)

1.一种模式提取装置,其从包含多个项目的对象信息中提取相互不同的两个以上项目的组合的模式,其特征在于,具有:
第一存储部,其存储多个所述对象信息;
候补模式生成部,其根据分别包含于所述多个对象信息中的各项目,生成由相互不同的两个以上项目构成的候补模式;
候补评价值计算部,其根据所述已生成的候补模式在各所述多个对象信息中出现的出现频度,计算所述候补模式的提取评价值;
模式提取部,其判定所述已计算的提取评价值满足规定阈值的候补模式,并提取满足所述阈值的候补模式;和
第二存储部,其存储所述项目间的关联度,
所述候补评价值计算部识别所述候补模式中的各项目间的关联度,根据基于所识别的关联度的加权值和所述出现频度,计算所述提取评价值。
2.根据权利要求1所述的模式提取装置,其特征在于,
所述候补评价值计算部根据,在任意的两个候补模式p1、p2中,当候补模式p1是候补模式p2的子集时,候补模式p2的提取评价值为候补模式p1的提取评价值以下的单调性成立的定义,计算所述提取评价值。
3.根据权利要求1或2所述的模式提取装置,其特征在于,
所述候补评价值计算部从所述第二存储部提取所述候补模式中的项目间的关联度,并将从固定值减去所述提取的关联度得到的值作为所述加权值进行计算。
4.一种模式提取方法,其从包含多个项目的对象信息中提取相互不同的两个以上项目的组合的模式,其特征在于,包括:
在存储区域存储多个所述对象信息的步骤;
根据分别包含于所述多个对象信息中的各项目,生成由相互不同的两个以上项目构成的候补模式的步骤;
在存储区域存储所述项目间的关联度的步骤;
根据所述已生成的候补模式在各所述多个对象信息中出现的出现频度,计算所述候补模式的提取评价值的步骤;
判定所述已计算的提取评价值满足规定阈值的候补模式,并提取满足所述阈值的候补模式的步骤,
在计算所述候补模式的提取评价值的步骤中,识别所述候补模式中的各项目间的关联度,根据基于所识别的关联度的加权值和所述出现频度,计算所述提取评价值。
5.一种计算机程序,其特征在于,
对于将包含多个项目的对象信息和所述项目间的关联度存储于规定的存储区域,并执行对所述对象信息中相互不同的两个以上项目的组合的模式进行提取的模式提取处理的计算机,使该计算机实现:
根据分别包含于所述多个对象信息中的各项目,生成由相互不同的两个以上项目构成的候补模式的功能;
根据所述已生成的候补模式在所述多个对象信息中出现的出现频度,计算所述候补模式的提取评价值的功能;
判定所述已计算的提取评价值满足规定阈值的候补模式,并提取满足所述阈值的候补模式的功能,
在计算所述候补模式的提取评价值的功能中,识别所述候补模式中的各项目间的关联度,根据基于所识别的关联度的加权值和所述出现频度,计算所述提取评价值。
CN201280027950.2A 2011-06-08 2012-05-25 模式提取装置及其方法 Active CN103597485B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2011-128596 2011-06-08
JP2011128596A JP5455978B2 (ja) 2011-06-08 2011-06-08 パターン抽出装置及び方法
PCT/JP2012/003433 WO2012169137A1 (ja) 2011-06-08 2012-05-25 パターン抽出装置及び方法

Publications (2)

Publication Number Publication Date
CN103597485A true CN103597485A (zh) 2014-02-19
CN103597485B CN103597485B (zh) 2017-11-03

Family

ID=47295729

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280027950.2A Active CN103597485B (zh) 2011-06-08 2012-05-25 模式提取装置及其方法

Country Status (5)

Country Link
US (1) US9569835B2 (zh)
EP (1) EP2720154A4 (zh)
JP (1) JP5455978B2 (zh)
CN (1) CN103597485B (zh)
WO (1) WO2012169137A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110462651A (zh) * 2017-04-06 2019-11-15 天瑟咨询有限公司 模型变量候补生成装置及方法
CN114287017A (zh) * 2019-08-29 2022-04-05 富士通株式会社 模式提取程序、装置以及方法

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103778245B (zh) * 2014-02-13 2017-04-05 北京奇艺世纪科技有限公司 一种识别用户评论的方法及装置
JP6223889B2 (ja) 2014-03-31 2017-11-01 株式会社東芝 パターン発見装置、およびプログラム
CN105488144A (zh) * 2015-11-25 2016-04-13 四川诚品电子商务有限公司 商品评论信息中重复信息处理方法
US20230004902A1 (en) * 2019-12-06 2023-01-05 Nippon Telegraph And Telephone Corporation Value element evaluation apparatus, value element evaluation method and program

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6173280B1 (en) * 1998-04-24 2001-01-09 Hitachi America, Ltd. Method and apparatus for generating weighted association rules
EP1376397A2 (en) * 2002-06-21 2004-01-02 Hitachi, Ltd. Method of extracting item patterns across a plurality of databases, a network system and a processing apparatus
CN101853282A (zh) * 2010-05-20 2010-10-06 清华大学 用户跨网站购物模式信息的抽取系统和方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7269516B2 (en) * 2001-05-15 2007-09-11 Psychogenics, Inc. Systems and methods for monitoring behavior informatics
JP3851786B2 (ja) * 2001-05-31 2006-11-29 株式会社東芝 品質機能展開表のチェック方法及びプログラム
JP2003076937A (ja) 2001-09-06 2003-03-14 Shinichi Morishita 結合ルールの抽出方法、抽出システムおよび結合ルール抽出プログラム
JP4621716B2 (ja) * 2007-08-13 2011-01-26 東芝テック株式会社 人物行動分析装置,方法及びプログラム
JP2009199446A (ja) 2008-02-22 2009-09-03 Toshiba Corp 時系列パターン発見装置及び方法
US20100306029A1 (en) 2009-06-01 2010-12-02 Ryan Jolley Cardholder Clusters
WO2010140504A1 (ja) 2009-06-02 2010-12-09 日本電気株式会社 推薦情報提供システム、装置、方法及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6173280B1 (en) * 1998-04-24 2001-01-09 Hitachi America, Ltd. Method and apparatus for generating weighted association rules
EP1376397A2 (en) * 2002-06-21 2004-01-02 Hitachi, Ltd. Method of extracting item patterns across a plurality of databases, a network system and a processing apparatus
CN101853282A (zh) * 2010-05-20 2010-10-06 清华大学 用户跨网站购物模式信息的抽取系统和方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
FENG TAO等: "Weighted Association Rule Mining using weighted support and significance framework", 《KDD 03 PROCEEDINGS OF THE NINTH ACM SIGKDD INTERNATIONAL CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110462651A (zh) * 2017-04-06 2019-11-15 天瑟咨询有限公司 模型变量候补生成装置及方法
CN110462651B (zh) * 2017-04-06 2024-09-17 天瑟咨询有限公司 模型变量候补生成装置及方法
CN114287017A (zh) * 2019-08-29 2022-04-05 富士通株式会社 模式提取程序、装置以及方法

Also Published As

Publication number Publication date
EP2720154A4 (en) 2015-04-08
JP2012256185A (ja) 2012-12-27
WO2012169137A1 (ja) 2012-12-13
JP5455978B2 (ja) 2014-03-26
US9569835B2 (en) 2017-02-14
US20140112549A1 (en) 2014-04-24
CN103597485B (zh) 2017-11-03
EP2720154A1 (en) 2014-04-16

Similar Documents

Publication Publication Date Title
JP6744882B2 (ja) 行動パターン探索システム、および行動パターン探索方法
CN103597485A (zh) 模式提取装置及其方法
JP2009015661A (ja) 商品販売データ処理装置
CN111062768A (zh) 一种网上商城的商品推荐方法及商品推荐系统
EP3543943A1 (en) Purchase information utilization system, purchase information utilization method, and program
CN106919609B (zh) 产品信息推送方法和装置
US7584187B2 (en) System, detecting method and program
JP2001216369A (ja) 商品購入データ処理システム及び商品購入データ処理方法
CN118096292A (zh) 一种基于云购物的智能推荐方法及系统
CN104751234B (zh) 一种用户资产的预测方法及装置
JP2019220057A (ja) 購買情報活用システム及び購買情報活用方法、及びプログラム
Mirajkar et al. Data mining based store layout architecture for supermarket
JP5993717B2 (ja) 広告提供システム
CN113077292B (zh) 一种用户分类方法、装置、存储介质及电子设备
JPH0934873A (ja) 顧客分類方法およびシステム
JP6472206B2 (ja) 商品提案システムおよび商品提案方法ならびに商品提案プログラム
CN106557475B (zh) 蹊径选择方法及装置
CN117273863B (zh) 一种基于用户需求预测的信息推送方法及电子商务系统
US20230109001A1 (en) Predicting the Value of an Asset Using Machine-Learning Techniques
JP2005092721A (ja) マーケット情報分析装置、マーケット情報分析システム、マーケット情報分析方法及びプログラム
JP5170787B2 (ja) 投稿文書分析装置、投稿文書分析方法、および、投稿文書分析装置用プログラム
US11972470B2 (en) Systems and methods for identifying item substitutions
JP5458058B2 (ja) 商品名同一性判定装置および商品名同一性判定プログラム
JP4706688B2 (ja) データ処理装置、そのコンピュータプログラムおよびデータ処理方法
KR102653483B1 (ko) 인공지능에 기반하여 미술품의 가격을 예측하는 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant