CN114402312A - 模式搜索程序、模式搜索装置以及模式搜索方法 - Google Patents
模式搜索程序、模式搜索装置以及模式搜索方法 Download PDFInfo
- Publication number
- CN114402312A CN114402312A CN201980100302.7A CN201980100302A CN114402312A CN 114402312 A CN114402312 A CN 114402312A CN 201980100302 A CN201980100302 A CN 201980100302A CN 114402312 A CN114402312 A CN 114402312A
- Authority
- CN
- China
- Prior art keywords
- attribute
- pattern
- priority
- attributes
- patterns
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24578—Query processing with adaptation to user needs using ranking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2246—Trees, e.g. B+trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Computational Mathematics (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Computing Systems (AREA)
- Mathematical Analysis (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Algebra (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供模式搜索程序、模式搜索装置以及模式搜索方法。基于有关多个属性模式所包含的各属性的在多个样本中的出现集合的包含关系,来决定多个属性模式所包含的各属性的优先级,其中,上述多个属性模式分别表示一个以上的属性,根据基于决定的优先级的搜索顺序,来进行多个属性模式中的每个属性模式是否是显露模式的判定,在进行判定的处理中,在第一属性模式在多个样本中的出现频率为第二属性模式在多个样本中的出现频率以上的情况下,不进行有关第一属性模式的判定,其中,第二属性模式具有第一属性模式所包含的属性中的除了优先级最低的属性以外的所有属性。
Description
技术领域
本发明涉及模式搜索程序、模式搜索装置以及模式搜索方法。
背景技术
近年来,正在积极开展通过解析收集到的数据来发现新的见解的数据挖掘。在这样的数据挖掘中,例如,通过从分别具有属性的多个数据中提取符合规定条件的数据,并且,确定在提取出的数据间共有的特征性的趋势,来发现新的见解。
具体而言,在如上述这样的数据挖掘中,例如,通过提取在满足目标条件的数据中出现频率较高,并且,在不满足目标条件的数据中出现频率较低的属性模式(以下,也称为显露模式(Emerging pattern)),来发现新的见解(例如,参照非专利文献1)。
非专利文献1:A.M.Garcia-Vico et al.,“An overview of emerging patternmining in supervised descriptive rule discovery:taxonomy,empirical study,trends,and prospects”,WIREs Data Mining and Knowledge Discovery 2018,8:e1231.doi:10.1002/widm.1231
在这里,在如上述这样的数据挖掘中,存在根据解析结果的用途等,在从数据的收集到解析的时间上设置制约的情况。另外,在数据挖掘中进行解析的数据量呈逐年增加的趋势。因此,如上述这样的数据挖掘的实施需要尽可能高效地进行。
然而,在数据挖掘中进行的显露模式的提取一般而言是计算处理的成本较高的处理,且存在从数据的收集到解析需要长时间的情况。因此,在进行数据解析的企业、研究机构等,需要降低提取显露模式所需的计算处理成本。
发明内容
因此,在一个侧面,本发明的目的在于提供一种能够降低提取显露模式所需的计算处理成本的模式搜索程序、模式搜索装置以及模式搜索方法。
在实施方式的一个方式中,使计算机执行如下处理:基于有关多个属性模式所包含的各属性的在多个样本中的出现集合的包含关系,来决定上述多个属性模式所包含的各属性的优先级,其中,上述多个属性模式分别表示一个以上的属性;以及根据基于决定的上述优先级的搜索顺序,来进行上述多个属性模式中的每个属性模式是否是显露模式的判定,在进行上述判定的处理中,在第一属性模式在上述多个样本中的出现频率为第二属性模式在上述多个样本中的出现频率以上的情况下,不进行有关上述第一属性模式的上述判定,其中,上述第二属性模式具有上述第一属性模式所包含的属性中的除了上述优先级最低的属性以外的所有属性。
根据一个侧面,能够降低提取显露模式所需的计算处理成本。
附图说明
图1是对信息处理系统10的结构进行说明的图。
图2是对信息处理装置1的硬件结构进行说明的图。
图3是信息处理装置1的功能的框图。
图4是对第一实施方式中的模式搜索处理进行说明的流程图。
图5是对第一实施方式中的模式搜索处理进行说明的流程图。
图6是对第一实施方式中的模式搜索处理进行说明的流程图。
图7是对第一实施方式中的模式搜索处理进行说明的流程图。
图8是对第一实施方式中的模式搜索处理进行说明的流程图。
图9是对第一实施方式中的模式搜索处理进行说明的流程图。
图10是对第一实施方式中的模式搜索处理进行说明的流程图。
图11是对第一实施方式中的模式搜索处理进行说明的流程图。
图12是对第一实施方式中的模式搜索处理进行说明的流程图。
图13是对数据集D的具体例进行说明的图。
图14是对包含数据集D中的属性模式的出现集合以及出现频率的表的具体例进行说明的图。
图15是对S12和S13的处理的具体例进行说明的图。
图16是对在图6至图8中说明的模式判定处理的具体例进行说明的图。
图17是对在图6至图8中说明的模式判定处理的具体例进行说明的图。
图18是对数据集D的具体例进行说明的图。
图19是对在图9至图12中说明的其他模式判定处理的具体例进行说明的图。
图20是对在图9至图12中说明的其他模式判定处理的具体例进行说明的图。
图21是对在图9至图12中说明的其他模式判定处理的具体例进行说明的图。
图22是对在图9至图12中说明的其他模式判定处理的具体例进行说明的图。
图23是对在图9至图12中说明的其他模式判定处理的具体例进行说明的图。
图24是对在图9至图12中说明的其他模式判定处理的具体例进行说明的图。
具体实施方式
[信息处理系统的结构]
首先,对信息处理系统10的结构进行说明。图1是对信息处理系统10的结构进行说明的图。
如图1所示,信息处理系统10例如包含信息处理装置1和操作终端2。信息处理装置1经由因特网等网络NW与操作终端2连接。
在图1所示的例子中,信息处理装置1例如进行有关经由操作终端2输入的多个数据(以下,也称为多个样本)所包含的属性模式中的每个属性模式是否是显露模式的判定。
具体而言,本实施方式中的信息处理装置1基于有关多个属性模式所包含的各属性的在多个样本中的出现集合的包含关系,来决定多个属性模式所包含的各属性的优先级,其中,上述多个属性模式分别表示一个以上的属性。而且,信息处理装置1根据基于决定的优先级的搜索顺序,来进行多个属性模式中的每个属性模式是否是显露模式的判定。应予说明,本实施方式中的显露模式(Emerging pattern)是指在满足目标条件的数据中出现的频率较高,并且,在不满足目标条件的数据中出现的频率较低的属性模式。
在这里,每当进行各属性模式是否是显露模式的判定(以下,也仅称为判定),信息处理装置1就判定属性模式(以下,也称为第一属性模式)在多个样本中的出现频率是否为具有第一属性模式所包含的属性中的除了优先级最低的属性以外的所有属性的属性模式(以下,也称为第二属性模式)在多个样本中的出现频率以上。而且,在与第一属性模式对应的出现频率为与第二属性模式对应的出现频率以上的情况下,信息处理装置1不进行第一属性模式的判定。
即,在第一属性模式的出现频率不低于第二属性模式的出现频率的情况下,本实施方式中的信息处理装置1判定为第一属性模式不是未包含其他显露模式的显露模式(以下,也称为极小的显露模式)。因此,在提取极小的显露模式是处理目的的情况下,信息处理装置1根据第一属性模式的出现频率不低于第二属性模式的出现频率的检测,省略对第一属性模式的判定的实施。
进一步,为了创建许多如上述那样能够省略判定的实施的第一属性模式,本实施方式中的信息处理装置1预先进行多个属性模式所包含的各属性的排序(决定各属性的优先级)。
由此,信息处理装置1能够降低提取显露模式所需的计算处理成本。具体而言,信息处理装置1能够降低提取极小的显露模式所需的计算处理成本。
[信息处理系统的硬件结构]
接下来,对信息处理系统10的硬件结构进行说明。图2是对信息处理装置1的硬件结构进行说明的图。
如图2所示,信息处理装置1具有作为处理器的CPU101、存储器102、通信装置103以及存储介质104。各部经由总线105相互连接。
存储介质104例如具有存储程序110的程序储存区域(未图示),程序110用于进行搜索显露模式的处理(以下,也称为模式搜索处理)。另外,存储介质104例如具有存储进行模式搜索处理时所使用的信息的存储部130(以下,也称为信息储存区域130)。此外,存储介质204例如也可以是HDD(Hard Disk Drive:硬盘驱动器)、SSD(Solid State Drive:固态驱动器)。
CPU101执行从存储介质104加载到存储器102的程序110来进行模式搜索处理。
另外,通信装置103例如与网络NW进行通信。
[信息处理系统的功能]
接下来,对信息处理系统10的功能进行说明。图3是信息处理装置1的功能的框图。
如图3所示,信息处理装置1例如通过CPU101、存储器102等硬件与程序110有机配合,来实现包含信息管理部111、信息接收部112、位次决定部113、模式判定部114以及信息发送部115的各种功能。
另外,如图3所示,信息处理装置1例如将包含多个样本的数据集D、图表信息131、位次信息132以及模式信息133存储至信息储存区域130。
信息管理部111例如将经由操作终端2输入的数据集D存储至信息储存区域130。
信息接收部112例如接收开始显露模式的搜索的内容的指示(以下,也称为搜索指示)。具体而言,信息接收部112例如接收经由操作终端2输入的搜索指示。
位次决定部113基于有关多个属性模式所包含的各属性的在多个样本中的出现集合的包含关系,来决定多个属性模式所包含的各属性的优先级。而且,信息管理部111例如将表示由位次决定部113决定的各属性的优先级的位次信息132存储至信息储存区域130。
模式判定部114根据基于由位次决定部113决定的优先级的搜索顺序,来进行多个属性模式中的每个属性模式是否是显露模式的判定。在该情况下,模式判定部114判定第一属性模式在多个样本中的出现频率是否从第二属性模式在多个样本中的出现频率减少。而且,在判定为与第一属性模式对应的出现频率从与第二属性模式对应的出现频率减少的情况下,模式判定部114不进行第一属性模式的判定。
之后,模式判定部114例如确定判定为是显露模式的属性模式中的极小的显露模式。而且,信息管理部111例如将表示模式判定部114判定为是极小的显露模式的属性模式的模式信息133存储至信息储存区域130。
信息发送部115例如将被存储于信息储存区域130的模式信息133发送至操作终端2。对于图表信息131的具体例后述。
[第一实施方式]
接下来,对第一实施方式进行说明。图4至图12是对第一实施方式中的模式搜索处理进行说明的流程图。另外,图13至图24是对第一实施方式中的模式搜索处理的详细内容进行说明的图。
[数据集的具体例]
首先,对第一实施方式中的数据集D的具体例进行说明。图13是对数据集D的具体例进行说明的图。具体而言,图13的(A)是对数据集D中包含正例的样本(满足目标条件的样本)的数据集DP的具体例进行说明的图。另外,图13的(B)是对数据集D中包含负例的样本(不满足目标条件的样本)的数据集DN的具体例进行说明的图。
图13所示的数据集D作为项目具有设定数据集D所包含的各样本的识别信息的“ID”、以及设定各样本所包含的属性的“属性”。
具体而言,在图13的(A)所示的数据集DP中,在“ID”为“1”的样本的“属性”中,设定有“已婚”。另外,在“ID”为“2”的样本的“属性”中,设定有“男性”和“已婚”,在“ID”为“3”的样本的“属性”中,设定有“男性”、“30多岁”以及“已婚”。
另一方面,在图13的(B)所示的数据集DN中,在“ID”为“4”的样本的“属性”中,设定有表示未设定属性的“无”。另外,在“ID”为“5”的样本的“属性”中,设定有“男性”和“已婚”,在“ID”为“6”的样本的“属性”中,设定有“男性”和“30多岁”。
[属性模式的出现集合以及出现频率的具体例]
接下来,对数据集D中的属性模式的出现集合以及出现频率的具体例进行说明。图14是对包含数据集D中的属性模式的出现集合以及出现频率的表的具体例进行说明的图。
图14所示的表作为项目具有设定各属性模式的识别信息的“属性模式”。另外,图14所示的表作为项目具有“出现集合(DP)”和“出现频率(DP)”,其中,“出现集合(DP)”设定数据集DP所包含的样本中包含在“属性模式”中设定的属性中的每个属性的样本的“ID”,“出现频率(DP)”设定在“出现集合(DP)”中设定的属性的数量。并且,图14所示的表作为项目具有“出现集合(DN)”和“出现频率(DN)”,其中,“出现集合(DN)”设定数据集DN所包含的样本中包含在“属性模式”中设定的属性中的每个属性的样本的“ID”,“出现频率(DN)”设定在“出现集合(DN)”中设定的属性的数量。此外,在“属性模式”中设定有“无”的样本(第一行样本)是对应于不包含属性的属性模式的样本。
具体而言,在图14所示的表中,例如,在“属性模式”为“无”的样本(第一行样本)中,作为“出现集合(DP)”设定有“1”、“2”以及“3”,作为“出现频率(DP)”设定有“3”,作为“出现集合(DN)”设定有“4”、“5”以及“6”,作为“出现频率(DN)”设定有“3”。
另外,在图14所示的表中,例如,在“属性模式”为“男性”的样本(第二行样本)中,作为“出现集合(DP)”设定有“2”和“3”,作为“出现频率(DP)”设定有“2”,作为“出现集合(DN)”设定有“5”和“6”,作为“出现频率(DN)”设定有“2”。省略有关图14所包含的其他数据的说明。
此外,数据集D所包含的各样本中具有属性模式x的样本的出现集合Occ(x,D)通过以下的式(1)来计算。
[式1]
另外,数据集D所包含的各样本中的属性模式x的出现频率frq(x,D)通过以下的式(2)来计算。
[式2]
frq(x,D)=|Occ(x,D)|···(式2)
[位次决定处理(1)]
接下来,对模式搜索处理中决定多个属性模式所包含的各属性的优先级的处理(以下,也称为位次决定处理)进行说明。图4是对位次决定处理进行说明的流程图。
如图4所示,信息处理装置1的信息接收部112例如待机,直到接收经由操作终端2输入的搜索指示(S11的“否”)。
而且,在接收到搜索指示的情况下(S11的“是”),信息处理装置1的位次决定部113对多个样本中的负例的出现集合具有包含关系的每两个属性,分别生成从出现集合较小的属性朝向出现集合较大的属性的有向边(S12)。
接着,位次决定部113根据在S12的处理中生成的每个有向边生成有向无环图(S13)。之后,信息处理装置1的信息管理部111例如生成表示由位次决定部113生成的有向无环图的信息亦即图表信息131并存储至信息储存区域130。以下,对S12以及S13的处理的具体例进行说明。
[S12以及S13的处理的具体例]
图15是对S12和S13的处理的具体例进行说明的图。
在图14中说明的表中,在“属性模式”中设定的属性模式中的每一个所包含的属性为“男性”、“30多岁”以及“已婚”。而且,在图14中说明的表中,在“属性模式”为“男性”的样本(第二行样本)的“出现集合(DN)”中,设定有“5”和“6”,在“属性模式”为“30多岁”的样本(第三行样本)的“出现集合(DN)”中,设定有“6”,在“属性模式”为“已婚”的样本(第四行样本)的“出现集合(DN)”中,设定有“5”。
即,在图14中说明的表示出作为与“30多岁”对应的负例的出现集合的“6”包含于作为与“男性”对应的负例的出现集合的“5”和“6”。另外,在图14中说明的表示出作为与“已婚”对应的负例的出现集合的“5”包含于作为与“男性”对应的负例的出现集合的“5”和“6”。
因此,位次决定部113在S12的处理中,生成将与“30多岁”对应的顶点作为输出源、将与“男性”对应的顶点作为输出目的地的有向边SD1。另外,位次决定部113在S12的处理中,生成将与“已婚”对应的顶点作为输出源、将与“男性”对应的顶点作为输出目的地的有向边SD2。
而且,位次决定部113在S13的处理中,如图15的(A)所示,通过使用生成的有向边SD1以及有向边SD2连结各属性亦即“男性”、“30多岁”以及“已婚”,生成有向无环图GR1。
返回到图4,位次决定部113参照在S13的处理中生成的有向无环图(存储于信息储存区域130的图表信息131),以每个有向边中的输出源的属性成为高于输出目的地的属性的位次的方式,来决定多个属性模式所包含的各属性的优先级(S14)。然后,信息管理部111例如将表示在S14的处理中决定的优先级的位次信息132存储至信息储存区域130。
具体而言,例如,如图15的(B)所示,位次决定部113通过以输出源的顶点中的每个顶点比输出目的地的顶点靠前的方式进行排序,将各属性的位次决定为“30多岁”、“已婚”以及“男性”的顺序。
[位次决定处理(2)]
接下来,对与在图4中说明的位次决定处理不同的内容的位次决定处理(以下,也称为其他位次决定处理)进行说明。图5是对其他位次决定处理进行说明的流程图。
如图5所示,信息接收部112例如待机,直到接收经由操作终端2输入的搜索指示(S21的“否”)。
而且,在接收到搜索指示的情况下(S21的“是”),位次决定部113以多个样本中的负例的出现频率较小的属性的优先级成为更高的方式,来决定多个属性模式所包含的各属性的优先级,(S22)。然后,信息管理部111例如将表示在S22的处理中决定的优先级的位次信息132存储至信息储存区域130。
即,例如,在多个属性模式所包含的属性中,在某个属性的负例的出现集合包含其他属性的负例的出现集合的情况下,能够判断为该某个属性的出现频率大于其他属性的出现频率。因此,位次决定部113基于各属性的出现频率的大小关系,也能够决定各属性的属性位次。以下,对S22的处理的具体例进行说明。
[S22的处理的具体例]
在图14中说明的表中,在“属性模式”中设定的各个属性模式所包含的属性为“男性”、“30多岁”以及“已婚”。而且,在图14中说明的表中,在“属性模式”为“男性”的样本(第二行样本)的“出现频率(DN)”,设定有“2”,在“属性模式”为“30多岁”的样本(第三行样本)的“出现频率(DN)”,设定有“1”,在“属性模式”为“已婚”的数据(第四行数据)的“出现频率(DN)”,设定有“1”。
即,在图14中说明的表示出作为与“30多岁”对应的负例的出现频率的“1”小于作为与“男性”对应的负例的出现频率的“2”。另外,在图14中说明的表示出作为与“已婚”对应的负例的出现频率的“1”小于作为与“男性”对应的负例的出现频率的“2”。
因此,位次决定部113在S22的处理中,例如,将各属性的位次决定为“30多岁”、“已婚”以及“男性”的顺序。
[模式判定处理(1)]
接下来,对模式搜索处理中的判定多个属性模式是否是显露模式的处理(以下,也称为模式判定处理)进行说明。图6至图8是对模式判定处理进行说明的流程图。
如图6所示,信息处理装置1的模式判定部114例如待机,直到成为模式判定定时(S31的“否”)。模式判定定时例如可以是位次决定处理结束后的定时。另外,模式判定定时例如也可以是经由操作终端2输入了开始模式判定处理的内容的指示的定时。
而且,在模式判定定时到来的情况下(S31的“是”),模式判定部114根据在S14的处理或者S22的处理中决定的各属性的优先级,来确定多个属性模式中的与前端的搜索顺序对应的属性模式(S32)。
具体而言,模式判定部114例如在以各属性模式所包含的属性成为按照在S14等的处理中决定的优先级的字典式顺序的方式来决定多个属性模式的搜索顺序的情况下,确定与前端的搜索顺序建立对应关系的属性模式。
此外,在不包含属性的属性模式包含于多个属性模式的情况下,模式判定部114进行不包含属性的属性模式的确定,作为与前端的搜索顺序建立对应关系的属性模式。
具体而言,在图14中说明的表中,在“属性模式”中设定的数据包含“无”、“男性”、“30多岁”、“已婚”、“男性、30多岁”、“男性、已婚”、“30多岁、已婚”以及“男性、30多岁、已婚”。因此,在S32的处理中,模式判定部114将“无”决定为与前端的搜索顺序对应的属性模式。
接着,模式判定部114对在S32的处理中确定出的属性模式是否是显露模式进行判定(S33)。
其结果是,在判定为在S32的处理中确定出的属性模式是显露模式的情况下(S34的“是”),如图7所示,信息管理部111将表示在S32的处理中确定出的属性模式的模式信息133存储至信息储存区域130(S41)。
之后,模式判定部114判定是否在S32的处理、S44的处理或者S52的处理中所有属性模式确定完毕(S42)。模式判定部114对于在S34的处理中,判定为在S32的处理中确定出的属性模式不是显露模式的情况下也同样地(S34的“否”)进行S42的处理。
其结果是,在判定为在S32的处理、S44的处理或者S52的处理中未确定完毕所有属性模式的情况下(S42的“否”),模式判定部114根据在S14的处理或S22的处理中决定的各属性的优先级,确定在S32的处理、S44的处理或S52的处理中尚未确定的属性模式中的与下一个搜索顺序对应的属性模式(S44)。
具体而言,在图14中说明的表中,在“属性模式”中设定的数据包含“无”、“男性”、“30多岁”、“已婚”、“男性、30多岁”、“男性、已婚”、“30多岁、已婚”以及“男性、30多岁、已婚”。因此,当在S14的处理等中决定的各属性的位次为“30多岁”、“已婚”以及“男性”的顺序的情况下,在第一次的S44的处理中,模式判定部114将“30多岁”决定为与下一个搜索顺序对应的属性模式。
然后,模式判定部114判定在S44的处理中确定出的属性模式的负例的出现频率是否低于具有在S44的处理中确定出的属性模式所包含的属性中的除了优先级最低的属性以外的所有属性的属性模式的出现频率(S45)。
具体而言,当在S44的处理中确定出的属性模式为“30多岁”的情况下,具有在S44的处理中确定出的属性模式所包含的属性中的除了优先级最低的属性以外的所有属性的属性模式为“无”。因此,在该情况下,模式判定部114进行有关与“30多岁”对应的负例的出现频率是否低于与“无”对应的负例的出现频率的判定。
其结果是,如图8所示,在判定为在S44的处理中确定出的属性模式的负例的出现频率不低于具有在S44的处理中确定出的属性模式所包含的属性中的除了优先级最低的属性以外的所有属性的属性模式的出现频率的情况下(S51的“否”),模式判定部114将对在S44的处理中确定出的属性模式追加其他属性而成的其他属性模式中的每个属性模式确定为不进行S53的处理的属性模式(S52)。
即,在判定为在S44的处理中确定出的属性模式的负例的出现频率不低于具有在S44的处理中确定出的属性模式所包含的属性中的除了优先级最低的属性以外的所有属性的属性模式的出现频率的情况下,信息处理装置1能够判定为对在S44的处理中确定出的属性模式追加其他属性而成的其他属性模式中不包含极小的显露模式。因此,例如,在如上述那样检测出出现频率未减少的情况下,信息处理装置1决定省略有关在S44的处理中确定出的属性模式的判定的实施以及有关对在S44的处理中确定出的属性模式追加其他属性而成的其他属性模式的判定的实施。
由此,信息处理装置1能够降低提取极小的显露模式所需的计算处理成本。
另一方面,在判定为在S44的处理中确定出的属性模式的出现频率低于具有在S44的处理中确定出的属性模式所包含的属性中的除了优先级最低的属性以外的所有属性的属性模式的出现频率的情况下(S51的“是”),模式判定部114对在S44的处理中确定出的属性模式是否是显露模式进行判定(S53)。
而且,当判定为在S44的处理中确定出的属性模式是显露模式的情况下(S54的“是”),信息管理部111将表示在S44的处理中确定出的属性模式的模式信息133存储至信息储存区域130(S55)。之后,模式判定部114进行S52以后的处理。
即,当在S44的处理中确定出的属性模式是显露模式的情况下,能够判断为对在S44的处理中确定出的属性模式追加其他属性而成的其他属性模式不会是极小的显露模式。因此,当判定为在S44的处理中确定出的属性模式是显露模式的情况下,模式判定部114省略有关对在S44的处理中确定出的属性模式追加其他属性而成其他属性模式的判定的实施。
而且,在S52的处理后、或者当判定为在S44的处理中确定出的属性模式不是显露模式的情况下(S54的“否”),模式判定部114进行S42以后的处理。
之后,当在S42的处理中,判定为在S33的处理、S44的处理或者S52的处理中所有属性模式确定完毕的情况下(S42的“是”),信息处理装置1的信息发送部115例如将信息储存区域130中存储的模式信息133中的表示极小的显露模式的信息发送至操作终端2(S43)。
具体而言,在该情况下,模式判定部114根据信息储存区域130中存储的模式信息133所表示的属性模式来确定极小的显露模式。而且,信息发送部115发送表示由模式判定部114确定出的极小的显露模式的信息。以下,对在图6至图8中说明的模式判定处理的具体例进行说明。
[模式判定处理的具体例(1)]
图16和图17是对在图6至图8中说明的模式判定处理的具体例进行说明的图。
图16和图17所示的例子是将各属性模式与各节点建立有对应关系的树形结构。而且,在图16和图17所示的例子中,与各节点建立有对应关系的左侧的数字表示在图14中说明的数据中的与各节点对应的属性模式的正例的出现频率,与各节点建立有对应关系的右侧的数字表示在图14中说明的数据中的与各节点对应的属性模式的负例的出现频率。此外,以下,在各属性模式的正例的出现频率为1以上,并且,各属性模式的负例的出现频率为0的情况下,判定为各属性模式是显露模式的情况进行说明。
(不包含属性的属性模式的搜索)
首先,在S32的处理中,模式判定部114确定在图14中说明的表中所包含的属性模式中的与第一个搜索顺序对应的属性模式亦即“无”。而且,如图16所示,模式判定部114例如将确定出的“无”与根节点建立对应关系。
在这里,在图16所示的例子中,与作为属性模式的“无”对应的正例的出现频率以及负例的出现频率分别为“3”。因此,在S33的处理中,模式判定部114判定为“无”不是显露模式。
(包含“30多岁”的属性模式的搜索)
接下来,在S44的处理中,模式判定部114确定在图14中说明的表中所包含的属性模式中的与第二个搜索顺序对应的属性模式亦即“30多岁”。另外,如图16所示,模式判定部114例如将确定出的“30多岁”与根节点的子节点建立对应关系。
在这里,在图16所示的例子中,与作为属性模式的“30多岁”对应的节点的负例的出现频率亦即“1”低于与“无”对应的节点的负例的出现频率亦即“3”。因此,在S53的处理中,模式判定部114进行有关“30多岁”是否是显露模式的判定。具体而言,在图16所示的例子中,与“30多岁”对应的正例的出现频率和负例的出现频率分别为“1”。因此,在S53的处理中,模式判定部114判定为“30多岁”不是显露模式。
(包含“30多岁”和“已婚”的属性模式的搜索)
接下来,在S44的处理中,模式判定部114确定在图14中说明的表中所包含的属性模式中的与第三个搜索顺序对应的属性模式亦即“30多岁、已婚”。另外,如图16所示,模式判定部114例如将确定出的“30多岁、已婚”与“30多岁”所对应的子节点建立对应关系。
在这里,在图16所示的例子中,与“30多岁、已婚”对应的节点的负例的出现频率亦即“0”低于与“30多岁”对应的节点的负例的出现频率亦即“1”。因此,在S53的处理中,模式判定部114进行有关“30多岁、已婚”是否是显露模式是否的判定。具体而言,在图16所示的例子中,与“30多岁、已婚”对应的正例的出现频率和负例的出现频率分别为“1”和“0”。因此,在S53的处理中,模式判定部114判定为“30多岁、已婚”是显露模式。
因此,在S52的处理中,模式判定部114决定省略对“30多岁、已婚”追加新的属性而成的属性模式的判定。具体而言,在该情况下,模式判定部114省略有关与第四个搜索顺序对应的属性模式亦即“30多岁、已婚、男性”的判定。
(包含“30多岁”和“男性”的属性模式的搜索)
接下来,在S44的处理中,模式判定部114确定在图14中说明的表中所包含的属性模式中的与第五个搜索顺序对应的属性模式亦即“30多岁、男性”。另外,如图16所示,模式判定部114例如将确定出的“30多岁、男性”与“30多岁”所对应的第二个子节点建立对应关系。
在这里,在图16所示的例子中,与“30多岁、男性”对应的节点的负例的出现频率亦即“1”不低于与“30多岁”对应的节点的负例的出现频率亦即“1”。因此,模式判定部114在S53的处理中不进行有关“30多岁、男性”是否是显露模式的判定。
(包含“已婚”的属性模式的搜索)
接下来,在S44的处理中,模式判定部114确定在图14中说明的表中所包含的属性模式中的与第六个搜索顺序对应的属性模式亦即“已婚”。另外,如图16所示,模式判定部114例如将确定出的“已婚”与根节点的第二个子节点建立对应关系。
在这里,在图16所示的例子中,与“已婚”对应的节点的负例的出现频率亦即“1”低于与“无”对应的节点的负例的出现频率亦即“3”。因此,在S53的处理中,模式判定部114进行有关“已婚”是否是显露模式的判定。具体而言,在图16所示的例子中,与“已婚”对应的正例的出现频率和负例的出现频率分别为“3”和“1”。因此,在S53的处理中,模式判定部114判定为“已婚”不是显露模式。
(包含“已婚”和“男性”的属性模式的搜索)
接下来,在S44的处理中,模式判定部114确定在图14中说明的表中所包含的属性模式中的与第七个搜索顺序对应的属性模式亦即“已婚、男性”。另外,如图16所示,模式判定部114例如将确定出的“已婚、男性”与“已婚”所对应的子节点建立对应关系。
在这里,在图16所示的例子中,与“已婚、男性”对应的节点的负例的出现频率亦即“1”不低于与“已婚”对应的节点的负例的出现频率亦即“1”。因此,在S53的处理中,模式判定部114不进行有关“已婚、男性”是否是显露模式的判定。
(包含“男性”的属性模式的搜索)
接下来,在S44的处理中,模式判定部114确定在图14中说明的表中所包含的属性模式中的与第八个搜索顺序对应的属性模式亦即“男性”。另外,如图16所示,模式判定部114例如将确定出的“男性”与根节点的第三个子节点建立对应关系。
在这里,在图16所示的例子中,与“男性”对应的节点的负例的出现频率亦即“2”低于与“无”对应的节点的负例的出现频率亦即“3”。因此,在S53的处理中,模式判定部114进行有关“男性”是否是显露模式的判定。具体而言,在图16所示的例子中,与“男性”对应的正例的出现频率和负例的出现频率分别为“2”和“2”。因此,在S53的处理中,模式判定部114判定为“男性”不是显露模式。
即,如图17所示,模式判定部114省略有关对作为显露模式的属性模式(对应于“○”的属性模式)追加其他属性而成的其他属性模式的判定的实施。另外,如图17所示,模式判定部114省略有关能够判定为不可能是极小的显露模式的属性模式(对应于“×”的属性模式)的判定的实施。
由此,模式判定部114能够抑制进行有关各属性模式是否是显露模式的判定的次数,并且提取存在是极小的显露模式的可能性的显露模式。
[模式判定处理(2)]
接下来,对与在图6至图8中说明的模式判定处理不同的内容的模式判定处理(以下,也称为其他模式判定处理)进行说明。图9至图12是说明其他模式判定处理的流程图。
如图9所示,模式判定部114例如待机,直到模式判定定时到来(S61的“否”)。
而且,在模式判定定时到来的情况下(S61的“是”),模式判定部114根据在S14的处理或S22的处理中决定的各属性的优先级,来确定多个属性模式中的与前端的搜索顺序对应的属性模式(S62)。
具体而言,例如,在以各属性模式所包含的属性成为按照在S14等处理中决定的优先级的字典式顺序的方式来决定多个属性模式的搜索顺序的情况下,模式判定部114进行与前端的搜索顺序建立对应关系的属性模式的确定。
接着,模式判定部114对在S62的处理中确定出的属性模式是否是显露模式进行判定(S63)。
其结果是,当判定为在S62的处理中确定出的属性模式是显露模式的情况下(S64的“是”),如图10所示,信息管理部111将表示在S62的处理中确定出的属性模式的模式信息133存储至信息储存区域130(S71)。
之后,模式判定部114判定是否在S62的处理、S75的处理或者S82的处理中所有的属性模式确定完毕(S72)。模式判定部114当在S64的处理中,判定为在S62的处理中确定出的属性模式不是显露模式的情况下也同样地(S64的“否”)进行S72的处理。
其结果是,当判定为在S62的处理、S75的处理或者S82的处理中所有属性模式未确定完毕的情况下(S72的“否”),模式判定部114进行重新决定多个属性模式所包含的各属性的优先级的处理(以下,也称为重新决定处理)(S74)。
即,在图9至图12所示的其他模式判定处理中,每当进行各属性模式是否是显露模式的判定,就重新决定各属性的优先级。
由此,信息处理装置1可以创建更多的能够省略各属性模式是否是显露模式的判定的实施的状况。以下,对重新决定处理进行说明。
[重新决定处理]
图12是说明重新决定处理的流程图。
模式判定部114根据在S14的处理、S22的处理或者S74的处理中已经决定(重新决定)的各属性的优先级,确定在S62的处理、S75的处理或者S82的处理中尚未确定的属性模式中的与下一个搜索顺序对应的属性模式(S101)。
然后,模式判定部114确定具有在S101的处理中确定出的属性模式所包含的属性中的除了优先级最低的属性以外的所有属性的属性模式(S102)。
接着,模式判定部114确定与在S102的处理中确定出的属性模式的出现集合对应的一个以上的样本(S103)。
具体而言,模式判定部114例如确定数据集DN所包含的多个样本中的、包含S102的处理中确定出的属性模式的出现集合的一个以上的样本。
而且,模式判定部114对在S103的处理中确定出的一个以上的样本中的每个样本,确定在S14的处理、S22的处理或者S74的处理中已经决定的优先级低于在S102的处理中确定出的属性模式所包含的各属性的一个以上的属性(S104)。
之后,模式判定部114基于针对在S104的处理中确定出的一个以上的属性的在S103的处理中确定出的一个以上的样本中的负例的出现集合的包含关系,来重新决定在S104的处理中确定出的一个以上的属性的优先级(S105)。
此外,当对在S102的处理中确定出的属性模式已经进行了S103以后的处理的情况下,模式判定部114也可以省略S103以后的处理的执行。
返回到图10,模式判定部114根据在S74的处理中决定的各属性的优先级,确定在S62的处理、S75的处理或者S82的处理中尚未确定的属性模式中的、与下一个搜索顺序对应的属性模式(S75)。
而且,模式判定部114判定在S75的处理中确定出的属性模式的负例的出现频率是否低于具有在S75的处理中确定出的属性模式所包含的属性中的除了优先级最低的属性以外的所有属性的属性模式的出现频率(S76)。
其结果是,如图11所示,当判定为在S75的处理中确定出的属性模式的负例的出现频率不低于具有在S75的处理中确定出的属性模式所包含的属性中的除了优先级最低的属性以外的所有属性的属性模式的出现频率的情况下(S81的“否”),模式判定部114根据在S62的处理、S75的处理或者S82的处理中尚未确定的属性模式,将对在S74的处理中确定出的属性模式追加其他属性而成的其他属性模式中的每个属性模式确定为不进行S83的处理的属性模式(S82)。
即,当判定为在S75的处理中确定出的属性模式的出现频率不低于具有在S75的处理中确定出的属性模式所包含的属性中的除了优先级最低的属性以外的所有属性的属性模式的出现频率的情况下,信息处理装置1判定为对在S75的处理中确定出的属性模式追加其他属性而成的其他属性模式不包含极小的显露模式。因此,例如,在如上述那样检测出出现频率未减少的情况下,信息处理装置1决定省略有关在S75的处理中确定出的属性模式的判定的实施、以及有关对在S75的处理中确定出的属性模式追加其他属性而成的其他属性模式的判定的实施。
进一步,信息处理装置1为了在图4和图5中说明的位次决定处理中,如上述那样创建较多的能够省略判定的实施的状况,预先决定多个属性模式所包含的各属性的优先级。
由此,信息处理装置1能够降低提取极小的显露模式所需的计算处理成本。
另一方面,当判定为在S75的处理中确定出的属性模式的出现频率低于具有在S75的处理中确定出的属性模式所包含的属性中的除了优先级最低的属性以外的所有属性的属性模式的出现频率的情况下(S81的“是”),模式判定部114对在S75的处理中确定出的属性模式是否是显露模式进行判定(S83)。
而且,当判定为在S75的处理中确定出的属性模式是显露模式的情况下(S84的“是”),信息管理部111将表示在S75的处理中确定出的属性模式的模式信息133存储至信息储存区域130(S85)。之后,模式判定部114进行S82以后的处理。
即,当在S75的处理中确定出的属性模式是显露模式的情况下,能够判断为对在S75的处理中确定出的属性模式追加其他属性而成的其他属性模式不会是极小的显露模式。因此,当判定为在S75的处理中确定出的属性模式是显露模式的情况下,模式判定部114省略有关对在S75的处理中确定出的属性模式追加其他属性而成的其他属性模式的判定的实施。
而且,在S82的处理后、或者判定为在S75的处理中确定出的属性模式不是显露模式的情况下(S84的“否”),模式判定部114进行S72以后的处理。
其结果是,当在S72的处理中判定为在S63的处理、S75的处理或者S82的处理中所有属性模式确定完毕的情况下(S72的“是”),信息发送部115将存储于信息储存区域130的模式信息133中的表示极小的显露模式的信息发送至操作终端2(S73)。
具体而言,在该情况下,模式判定部114例如根据存储于信息储存区域130的模式信息133所表示的属性模式,来确定极小的显露模式。而且,信息发送部115发送表示由模式判定部114确定出的极小的显露模式的信息。以下,对在图9至图12中说明的其他模式判定处理的具体例进行说明。
[模式判定处理的具体例(2)]
图18至图24是对在图9至图12中说明的其他模式判定处理的具体例进行说明的图。
图19、图21、图22以及图24所示的例子是将各属性模式与各节点建立对应关系的树形结构。而且,在图19等所示的例子中,与各节点建立有对应关系的左侧的数字表示与各节点对应的属性模式的正例的出现频率,与各节点建立有对应关系的右侧的数字表示与各节点对应的属性模式的负例的出现频率。此外,以下,作为在各属性模式的正例的出现频率为1以上,并且各属性模式的负例的出现频率为0的情况下,判定为各属性模式是显露模式的结构进行说明。
[数据集的具体例]
首先,对在图9至图12中说明的其他模式判定处理的说明中使用的数据集D的具体例进行说明。图18是对数据集D的具体例进行说明的图。具体而言,图18的(A)是对包含正例的样本的数据集DP的具体例进行说明的图。另外,图18的(B)对包含负例的样本的数据集DP的具体例进行说明的图。
图18所示的数据集D具有与在图13中说明的数据集D相同的项目。
具体而言,在图18的(A)所示的数据集DP中,在“ID”为“1”的样本的“属性”中,设定有“c”和“e”,在“ID”为“2”的样本的“属性”中,设定有“b”、“c”以及“e”。另外,在“ID”为“3”的样本的“属性”中,设定有“a”、“b”以及“d”,在“ID”为“4”的样本的“属性”中,设定有“a”、“b”以及“d”。
另一方面,在图18(B)所示的数据集DN中,在“ID”为“5”的样本的“属性”中,设定有“d”,在“ID”为“6”的样本的“属性”中,设定有“c”和“d”。另外,在图18的(B)所示的数据集DN中,在“ID”为“7”的样本的“属性”中,设定有“a”、“b”以及“c”,在“ID”为“8”的样本的“属性”中,设定有“a”、“b”、“c”以及“d”。
[其他模式判定处理的具体例]
接下来,对在图9至图12中说明的其他模式判定处理的具体例进行说明。
(不包含属性的属性模式的搜索)
首先,在S62的处理中,模式判定部114确定与前端的搜索顺序对应的属性模式亦即“无”。另外,模式判定部114例如如图19所示将确定出的“无”与根节点建立对应关系。
在这里,在图19所示的例子中,与“无”对应的正例的出现频率以及负例的出现频率分别为“4”。因此,在S63的处理中,模式判定部114判定为“无”不是显露模式。
(包含“a”的属性模式的搜索)
接下来,在S74的处理(重新决定处理)中,模式判定部114将多个属性模式所包含的各属性的优先级重新决定为“a”、“b”、“c”以及“d”的顺序。然后,在S75的处理中,模式判定部114根据各属性的优先级,确定与下一个搜索顺序对应的属性模式亦即“a”。另外,例如,如图19所示,模式判定部114将确定出的“a”与根节点所对应的子节点建立对应关系。
在这里,在图19所示的例子中,与“a”对应的节点的负例的出现频率亦即“2”低于与“无”对应的节点的负例的出现频率亦即“4”。因此,在S81的处理中,模式判定部114进行有关“a”是否是显露模式的判定。具体而言,在图19所示的例子中,与“a”对应的正例的出现频率以及负例的出现频率分别为“2”。因此,在S83的处理中,模式判定部114判定为“a”不是显露模式。
(包含“a”和“d”的属性模式的搜索)
接下来,在S74的处理中,模式判定部114根据之前决定(重新决定)的各属性的优先级亦即“a”、“b”、“c”以及“d”,将“a、b”确定为与下一个搜索顺序对应的属性模式。而且,模式判定部114将“a”确定为包含确定出的属性模式所包含的属性中的除了优先级最低的属性以外的属性的属性模式。
接着,在S74的处理中,模式判定部114将在图18的(B)中说明的数据集DN所包含的样本中的与第三行和第四行分别对应的样本确定为包含确定出的属性模式亦即“a”的样本。而且,如图20的(A)所示,模式判定部114确定对应于第三行的样本所包含的属性中的优先级低于“a”的属性亦即“b”和“c”。另外,如图20的(A)所示,模式判定部114确定对应于第四行的样本所包含的属性中的优先级低于“a”的属性亦即“b”、“c”以及“d”。进一步,模式判定部114将确定出的各属性的优先级重新决定为“d”、“b”以及“c”的顺序。
之后,在S75的处理中,模式判定部114根据包含“b”、“c”以及“d”的各属性的优先级(“b”、“c”以及“d”),将“a、d”确定为与下一个搜索顺序对应的属性模式。另外,例如,如图19所示,模式判定部114将确定出的“a、d”与“a”所对应的子节点建立对应关系。
在这里,在图19所示的例子中,与“a、d”对应的节点的负例的出现频率亦即“1”低于与“a”对应的节点的负例的出现频率亦即“2”。因此,在S81的处理中,模式判定部114进行有关“a、d”是否是显露模式的判定。具体而言,在图19所示的例子中,与“a、d”对应的正例的出现频率以及负例的出现频率分别为“2”和“1”。因此,在S83的处理中,模式判定部114判定为“a、d”不是显露模式。
(包含“a”、“b”以及“d”的属性模式的搜索)
接下来,在S74的处理中,模式判定部114根据之前决定(重新决定)的各属性的优先级亦即“d”、“b”以及“c”,将“a、b、d”确定为与下一个搜索顺序对应的属性模式。而且,模式判定部114将“a、d”确定为包含确定出的属性模式所包含的属性中的除了优先级最低的属性以外的属性的属性模式。
接着,在S74的处理中,模式判定部114将在图18的(B)中说明的数据集DN所包含的样本中的对应于第四行的样本确定为包含作为属性模式的“a、d”的样本。而且,如图20的(B)所示,模式判定部114确定对应于第四行的样本所包含的属性中的优先级低于“d”的属性亦即“b”和“c”。进一步,模式判定部114将确定出的各属性的优先级重新决定为“b”和“c”的顺序。
之后,在S75的处理中,模式判定部114根据重新决定的各属性的优先级,将“a、b、d”确定为与下一个搜索顺序对应的属性模式。另外,例如,如图19所示,模式判定部114将确定出的“a、b、d”与“a、d”所对应的子节点建立对应关系。
在这里,在图19所示的例子中,与“a、b、d”对应的节点的负例的出现频率亦即“1”不低于与“a、d”对应的节点的负例的出现频率亦即“1”。因此,在S82的处理中,模式判定部114决定不进行有关“a、b、d”是否是显露模式的判定。
(包含“a”、“c”以及“d”的属性模式的搜索)
接下来,在S75的处理中,模式判定部114根据包含已经决定的“b”和“c”的各属性的优先级(“b”和“c”),将“a、c、d”确定为与下一个搜索顺序对应的属性模式。另外,例如,如图19所示,模式判定部114将确定出的“a、c、d”与“a、d”所对应的第二个子节点建立对应关系。
在这里,在图19所示的例子中,与“a、c、d”对应的节点的负例的出现频率亦即“1”不低于与“a、d”对应的节点的负例的出现频率亦即“1”。因此,在S82的处理中,模式判定部114决定不进行有关“a、c、d”是否是显露模式的判定。
(包含“a”和“b”的属性模式的搜索)
接下来,在S75的处理中,模式判定部114根据包含已经决定的“b”、“c”以及“d”的各属性的优先级(“d”、“b”以及“c”),将“a、b”确定为与下一个搜索顺序对应的属性模式。另外,例如,如图21所示,模式判定部114将确定出的“a、b”与“a”所对应的第二个子节点建立对应关系。
在这里,在图21所示的例子中,与“a、b”对应的节点的负例的出现频率亦即“2”不低于与“a”对应的节点的负例的出现频率亦即“2”。因此,在S82的处理中,模式判定部114决定不进行有关“a、b”是否是显露模式的判定。
(包含“a”和“c”的属性模式的搜索)
接下来,在S75的处理中,模式判定部114根据包含已经决定的“b”、“c”以及“d”的各属性的优先级(“d”、“b”以及“c”),将“a、c”确定为与下一个搜索顺序对应的属性模式。另外,例如,图21所示,模式判定部114将确定出的“a、c”与“a”所对应的第三个子节点建立对应关系。
在这里,在图21所示的例子中,与“a、c”对应的节点的负例的出现频率亦即“2”不低于与“a”对应的节点的负例的出现频率亦即“2”。因此,在S82的处理中,模式判定部114决定不进行有关“a、c”是否是显露模式的判定。
(包含“b”的属性模式的搜索)
接下来,在S75的处理中,模式判定部114根据包含已经决定的“a”、“b”、“c”以及“d”的各属性的优先级(“a”、“b”、“c”以及“d”),将“b”确定为与下一个搜索顺序对应的属性模式。另外,例如,如图22所示,模式判定部114将确定出的“b”与“无”所对应的第二个子节点建立对应关系。
在这里,在图22所示的例子中,与“b”对应的节点的负例的出现频率亦即“2”低于与“无”对应的节点的负例的出现频率亦即“4”。因此,在S81的处理中,模式判定部114进行有关“b”是否是显露模式的判定。具体而言,在图22所示的例子中,与“b”对应的正例的出现频率以及负例的出现频率分别为“3”和“2”。因此,在S83的处理中,模式判定部114判定为“b”不是显露模式。
(包含“b”和“d”的属性模式的搜索)
接下来,在S74的处理中,模式判定部114根据包含已经决定的“a”、“b”、“c”以及“d”的各属性的优先级(“a”、“b”、“c”以及“d”),将“b、c”确定为与下一个搜索顺序对应的属性模式。而且,模式判定部114将“b”确定为包含确定出的属性模式所包含的属性中的除了优先级最低的属性以外的属性的属性模式。
接着,在S74的处理中,模式判定部114将在图18的(B)中说明的数据集DN所包含的样本中的分别对应于第三行和第四行的样本确定为包含作为属性模式的“b”的样本。而且,如图23的(A)所示,模式判定部114确定对应于第三行的样本所包含的属性中的优先级低于“b”的属性亦即“c”。另外,如图23的(A)所示,模式判定部114确定对应于第四行的样本所包含的属性中的优先级低于“b”的属性亦即“c”和“d”。进一步,模式判定部114将确定出的各属性的优先级决定为“d”和“c”的顺序。
之后,在S75的处理中,模式判定部114根据重新决定的各属性的优先级,将“b、d”确定为与下一个搜索顺序对应的属性模式。另外,例如,如图22所示,模式判定部114将确定出的“b、d”与“b”所对应的子节点建立对应关系。
在这里,在图22所示的例子中,与“b、d”对应的节点的负例的出现频率亦即“1”低于与“b”对应的节点的负例的出现频率亦即“2”。因此,在S81的处理中,模式判定部114进行有关“b、d”是否是显露模式的判定。具体而言,在图22所示的例子中,与“b、d”对应的正例的出现频率以及负例的出现频率分别是“2”和“1”。因此,在S83的处理中,模式判定部114判定为“b、d”不是显露模式。
(包含“b”、“c”以及“d”的属性模式的搜索)
接下来,在S74的处理中,模式判定部114根据之前决定(重新决定)的各属性的优先级亦即“d”和“c”,将“b、c、d”确定为与下一个搜索顺序对应的属性模式。而且,模式判定部114将“b、d”确定为包含确定出的属性模式所包含的属性中的除了优先级最低的属性以外的属性的属性模式。
接着,在S74的处理中,模式判定部114将在图18的(B)中说明的数据集DN所包含的样本中的对应于第四行的样本确定为包含作为属性模式的“b、d”的样本。而且,如图23的(B)所示,模式判定部114确定对应于第四行的样本所包含的属性中的优先级低于“d”的属性亦即“c”
之后,在S75的处理中,模式判定部114将“b、c、d”确定为与下一个搜索顺序对应的属性模式。另外,如图22所示,模式判定部114例如将确定出的“b、c、d”与“b、d”所对应的子节点建立对应关系。
在这里,在图22所示的例子中,与“b、c、d”对应的节点的负例的出现频率亦即“1”不低于与“b、d”对应的节点的负例的出现频率亦即“1”。因此,在S82的处理中,模式判定部114决定不进行有关“b、c、d”是否是显露模式的判定。
(包含“b”和“c”的属性模式的搜索)
接下来,在S75的处理中,模式判定部114根据包含已经决定的“a”、“b”、“c”以及“d”的各属性的优先级(“a”、“b”、“c”以及“d”),将“b、c”确定为与下一个搜索顺序对应的属性模式。另外,例如,如图24所示,模式判定部114将确定出的“b、c”与“d”所对应的第二个子节点建立对应关系。
在这里,在图24所示的例子中,与“b、c”对应的节点的负例的出现频率亦即“2”不低于与“b”对应的节点的负例的出现频率亦即“2”。因此,在S82的处理中,模式判定部114决定不进行有关“b、c”是否是显露模式的判定。
像这样,本实施方式中的信息处理装置1基于有关多个属性模式所包含的各属性的在多个样本中的出现集合的包含关系,来决定多个属性模式所包含的各属性的优先级。而且,信息处理装置1根据基于决定的优先级的搜索顺序,来进行多个属性模式中的每个属性模式是否是显露模式的判定。
在这里,每当进行各属性模式是否是显露模式的判定,信息处理装置1就判定第一属性模式(接下来进行判定的属性模式)在多个样本中的出现频率是否低于第二属性模式(具有第一属性模式所包含的属性中的除了优先级最低的属性以外的所有属性的属性模式)在多个样本中的出现频率。而且,在判定为对应于第一属性模式的出现频率不低于对应于第二属性模式的出现频率的情况下,信息处理装置1不进行有关第一属性模式的判定。
即,本实施方式中的信息处理装置1在第一属性模式的出现频率不低于第二属性模式的出现频率的情况下,判定为第一属性模式不是极小的显露模式。因此,在提取极小的显露模式是处理目的的情况下,信息处理装置1根据第一属性模式的出现频率不低于第二属性模式的出现频率的检测,省略有关第一属性模式的判定的实施。
进一步,本实施方式中的信息处理装置1为了创建许多如上述那样能够省略判定的实施的第一属性模式,预先进行多个属性模式所包含的各属性的排序。
由此,信息处理装置1能够降低提取显露模式所需的计算处理成本。具体而言,信息处理装置1能够降低提取极小的显露模式所需的计算处理成本。
附图标记说明
1…信息处理装置;2…操作终端;10…信息处理系统;NW…网络。
Claims (12)
1.一种模式搜索程序,其特征在于,
使计算机执行如下处理:
基于有关多个属性模式所包含的各属性的在多个样本中的出现集合的包含关系,来决定上述多个属性模式所包含的各属性的优先级,其中,上述多个属性模式分别表示一个以上的属性;以及
根据基于决定的上述优先级的搜索顺序,来进行上述多个属性模式中的每个属性模式是否是显露模式的判定,
在进行上述判定的处理中,在第一属性模式在上述多个样本中的出现频率为第二属性模式在上述多个样本中的出现频率以上的情况下,不进行有关上述第一属性模式的上述判定,其中,上述第二属性模式具有上述第一属性模式所包含的属性中的除了上述优先级最低的属性以外的所有属性。
2.根据权利要求1所述的模式搜索程序,其特征在于,
在决定上述优先级的处理中,
对于具有上述包含关系的每两个属性,分别生成从上述出现集合较小的属性朝向上述出现集合较大的属性的有向边,
根据所生成的每个上述有向边来生成有向无环图,
基于所生成的上述有向无环图,来决定上述多个属性模式所包含的各属性的优先级。
3.根据权利要求2所述的模式搜索程序,其特征在于,
在决定上述优先级的处理中,参照上述有向无环图,以每个上述有向边中的输出源的属性成为比输出目的地的属性靠前的顺序的方式,来决定上述多个属性模式所包含的各属性的优先级。
4.根据权利要求3所述的模式搜索程序,其特征在于,
在进行上述判定的处理中,以各属性模式所包含的属性成为按照上述优先级的字典式顺序的方式,来决定上述多个属性模式的搜索顺序。
5.根据权利要求4所述的模式搜索程序,其特征在于,
上述多个属性模式包括不包含上述属性的属性模式,
在进行上述判定的处理中,以不包含上述属性的属性模式的搜索顺序成为最早的方式,来决定上述多个属性模式的搜索顺序。
6.根据权利要求1所述的模式搜索程序,其特征在于,
在决定上述优先级的处理中,基于有关上述多个属性模式所包含的各属性的在上述多个样本中的出现频率,来决定上述多个属性模式所包含的各属性的优先级。
7.根据权利要求6所述的模式搜索程序,其特征在于,
在决定上述优先级的处理中,以在上述多个样本中的出现频率更大的属性的优先级成为更高的方式,来决定上述多个属性模式所包含的各属性的优先级。
8.根据权利要求1所述的模式搜索程序,其特征在于,
在进行上述判定的处理中,在上述第一属性模式在上述多个样本中的出现频率不低于上述第二属性模式在上述多个样本中的出现频率的情况下,不进行有关对上述第一属性模式追加其他属性而成的其他属性模式的上述判定。
9.根据权利要求1所述的模式搜索程序,其特征在于,
在进行上述判定的处理中,每当进行上述判定,就重新决定上述第一属性模式。
10.根据权利要求9所述的模式搜索程序,其特征在于,
在进行上述判定的处理中,
从上述多个样本中,确定与上述第二属性模式的出现集合对应的一个以上的样本,
对确定出的上述一个以上的样本中的每个样本,确定上述多个属性模式所包含的属性中的、上述优先级低于上述第二属性模式所包含的各属性的一个以上的属性,
基于有关确定出的上述一个以上的属性的在上述一个以上的样本中的出现集合的包含关系,来重新决定上述一个以上的属性的优先级,
根据基于重新决定的上述优先级的搜索顺序,来进行上述第一属性模式的重新决定。
11.一种模式搜索装置,其特征在于,具有:
位次决定部,基于有关多个属性模式所包含的各属性的在多个样本中的出现集合的包含关系,来决定上述多个属性模式所包含的各属性的优先级,其中,上述多个属性模式分别表示一个以上的属性;以及
模式判定部,根据基于决定的上述优先级的搜索顺序,来进行上述多个属性模式中的每个属性模式是否是显露模式的判定,
上述模式判定部在接下来要进行上述判定的第一属性模式在上述多个样本中的出现频率为第二属性模式在上述多个样本中的出现频率以上的情况下,不进行有关上述第一属性模式的上述判定,其中,上述第二属性模式具有上述第一属性模式所包含的属性中的除了上述优先级最低的属性以外的所有属性。
12.一种模式搜索方法,其特征在于,
使计算机执行如下处理:
基于有关多个属性模式所包含的各属性的在多个样本中的出现集合的包含关系,来决定上述多个属性模式所包含的各属性的优先级,其中,上述多个属性模式分别表示一个以上的属性;以及
根据基于决定的上述优先级的搜索顺序,来进行上述多个属性模式中的每个属性模式是否是显露模式的判定,
在进行上述判定的处理中,在接下来要进行上述判定的第一属性模式在上述多个样本中的出现频率为第二属性模式在上述多个样本中的出现频率以上的情况下,不进行针对上述第一属性模式的上述判定,其中,上述第二属性模式具有上述第一属性模式所包含的属性中的除了上述优先级最低的属性以外的所有属性。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2019/038528 WO2021064798A1 (ja) | 2019-09-30 | 2019-09-30 | パターン探索プログラム、パターン探索装置及びパターン探索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114402312A true CN114402312A (zh) | 2022-04-26 |
Family
ID=75337765
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980100302.7A Pending CN114402312A (zh) | 2019-09-30 | 2019-09-30 | 模式搜索程序、模式搜索装置以及模式搜索方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11960491B2 (zh) |
EP (1) | EP4040304A4 (zh) |
JP (1) | JP7265204B2 (zh) |
CN (1) | CN114402312A (zh) |
WO (1) | WO2021064798A1 (zh) |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0668066A (ja) | 1992-08-20 | 1994-03-11 | Fuji Electric Co Ltd | 判別条件生成方法 |
US20050192960A1 (en) | 2002-11-01 | 2005-09-01 | Fujitsu Limited | Feature-pattern output apparatus, feature-pattern output method, and computer product |
WO2004040477A1 (ja) | 2002-11-01 | 2004-05-13 | Fujitsu Limited | 特徴パターン出力装置 |
US7716229B1 (en) * | 2006-03-31 | 2010-05-11 | Microsoft Corporation | Generating misspells from query log context usage |
US8495701B2 (en) * | 2008-06-05 | 2013-07-23 | International Business Machines Corporation | Indexing of security policies |
US8689172B2 (en) * | 2009-03-24 | 2014-04-01 | International Business Machines Corporation | Mining sequential patterns in weighted directed graphs |
EP2602724A4 (en) * | 2010-08-06 | 2016-08-17 | Intellectual Business Machines Corp | METHOD FOR GENERATING A STRUCTURE AND A PROGRAM AND SYSTEM THEREFOR |
JP2018194980A (ja) * | 2017-05-15 | 2018-12-06 | 富士通株式会社 | 判定プログラム、判定方法および判定装置 |
US11609949B2 (en) * | 2018-11-20 | 2023-03-21 | Google Llc | Methods, systems, and media for modifying search results based on search query risk |
-
2019
- 2019-09-30 EP EP19948043.5A patent/EP4040304A4/en active Pending
- 2019-09-30 CN CN201980100302.7A patent/CN114402312A/zh active Pending
- 2019-09-30 JP JP2021550757A patent/JP7265204B2/ja active Active
- 2019-09-30 WO PCT/JP2019/038528 patent/WO2021064798A1/ja unknown
-
2022
- 2022-02-22 US US17/676,926 patent/US11960491B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US20220171783A1 (en) | 2022-06-02 |
EP4040304A1 (en) | 2022-08-10 |
EP4040304A4 (en) | 2022-09-14 |
WO2021064798A1 (ja) | 2021-04-08 |
JP7265204B2 (ja) | 2023-04-26 |
US11960491B2 (en) | 2024-04-16 |
JPWO2021064798A1 (zh) | 2021-04-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9361343B2 (en) | Method for parallel mining of temporal relations in large event file | |
KR101617696B1 (ko) | 데이터 정규표현식의 마이닝 방법 및 장치 | |
US20180004751A1 (en) | Methods and apparatus for subgraph matching in big data analysis | |
US11907659B2 (en) | Item recall method and system, electronic device and readable storage medium | |
US20140298321A1 (en) | Installation control method and installation control apparatus | |
CN105183923A (zh) | 新词发现方法及装置 | |
WO2011070980A1 (ja) | 辞書作成装置 | |
KR102260631B1 (ko) | 중복 이미지 파일 검색 방법 및 장치 | |
US20190362187A1 (en) | Training data creation method and training data creation apparatus | |
CN108153728B (zh) | 一种关键词确定方法及装置 | |
CN110060740A (zh) | 一种非冗余基因集聚类方法、系统及电子设备 | |
JP2018132965A (ja) | 障害解析プログラム、障害解析装置及び障害解析方法 | |
US9524354B2 (en) | Device, method, and program for processing data with tree structure | |
US20150058272A1 (en) | Event correlation detection system | |
CN107590233B (zh) | 一种文件管理方法及装置 | |
CN112287102A (zh) | 数据挖掘方法和装置 | |
CN114402312A (zh) | 模式搜索程序、模式搜索装置以及模式搜索方法 | |
JP2011191834A (ja) | 文書分類方法、文書分類装置、およびプログラム | |
CN117493169A (zh) | 一种Java依赖库版本间API行为不兼容性检测方法、装置、设备及介质 | |
JPWO2011070979A1 (ja) | 辞書作成装置、単語収集方法、及び、プログラム | |
CN113468866B (zh) | 非标准json串的解析方法及装置 | |
KR101815968B1 (ko) | 그룹 분리 기능을 제공하기 위한 악성코드 분류 시스템 및 그 방법 | |
WO2016013175A1 (ja) | テキスト処理システム、テキスト処理方法およびテキスト処理プログラム | |
US10649982B2 (en) | Automated database updating and curation | |
JP2008102641A (ja) | 検索装置、検索方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |