CN101430704A - 支持分类规则创建的方法和装置 - Google Patents
支持分类规则创建的方法和装置 Download PDFInfo
- Publication number
- CN101430704A CN101430704A CNA2008101781455A CN200810178145A CN101430704A CN 101430704 A CN101430704 A CN 101430704A CN A2008101781455 A CNA2008101781455 A CN A2008101781455A CN 200810178145 A CN200810178145 A CN 200810178145A CN 101430704 A CN101430704 A CN 101430704A
- Authority
- CN
- China
- Prior art keywords
- classifying rules
- feature mode
- classification
- stored
- storage part
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
支持分类规则创建的方法和装置。本发明恰当地支持为新数据项创建分类规则。该方法包括以下步骤:将新数据项和新数据项的类别存储到存储部中;从存储在正确答案数据存储部中的数据提取各包括一条件和对应类别的多个特征模式,并且将所述特征模式存储到特征模式存储部中,所述条件包括存储在存储部中的新数据项的特征元素,所述正确答案数据存储部存储多个数据项和这些数据项的类别;以及将存储在所述特征模式存储部中的特征模式分组为第一集合和第二集合,并将分组结果存储在分组数据存储部中,第一集合的特征模式与存储在所述存储部中的新数据项的类别相匹配,而第二集合的特征模式与所述新数据项的类别不匹配。从而,自动生成作为候选分类规则的特征模式,此外,能够从第一集合中选择特定特征模式作为此后应用的分类规则。
Description
本申请是原案申请号为200510131906.8的发明专利申请(申请日:2005年12月15日,发明名称:支持分类规则创建的方法和装置)的分案申请。
技术领域
本发明涉及一种支持创建与数据项相对应的分类规则的方法。
背景技术
传统上,当根据用户创建的分类规则对数据项进行分类时,存在如下问题:
(1)当添加数据时添加和/或修改规则
通常,逐一添加待分类数据项。在这种情况下,由于不能只根据预先创建的分类规则对待添加数据项进行分类,所以需要随时添加新规则和/或修改现有规则。然而,创建有效的分类规则并不容易。
(2)分类规则与分类数据项之间的一致性
在将多个数据项归类到与先前类别不同的类别中时,由于对规则进行了添加和/或修改,所以该规则与经分类数据项不一致并将该规则称为不一致规则。在根据预定义类别树对数据项进行分类的目录类型检索业务(directory type search service)中,希望具有保证分类结果在更新规则库之前和更新规则库之后相同的装置。为了解决该问题,验证是否根据所添加和/或修改的规则将已分类数据项归类到与先前所识别的类别相同的类别中,即,验证是否存在不一致性。如果存在不一致性,则对所添加和/或修改的规则进行反复修改,直到消除不一致性。用于该验证的成本很高,因此希望开发一种自动生成没有不一致性的规则的技术。
(3)分类规则之间的一致性
存在其中根据所添加和/或修改的规则以及其它规则将已知数据项归类到不同类别的情况,即,创建了冲突规则的情况。例如,根据“如果满足P和Q,则将其归类到C1”的第一规则和“如果满足P和R,则将其归类到C2”的第二规则,将满足“P、Q以及R”的数据项分别归类到C1和C2。如果C1与C2不同,则第一规则与第二规则为冲突规则。由于规则库应当最终将各数据项归类到单一类别,所以当发生冲突时,需要一种解决冲突的装置。因此,已知一种预先确定规则评估顺序并且随后使用最先匹配的规则来确定分类目标的类别的方法(第一匹配方法)。然而,如果存在多个冲突规则,则规则应用顺序将强烈影响分类目标的类别,因此难以确定各单独规则的有效性。因此,重要的是防止冲突规则的创建,但是这通常难以实现。
此外,例如,JP-A-2002-157262公开了如下一种技术,该技术用于在分类系统客观并且复杂的情况下为用户提供用于对用户想要登记的分类规则的有效性进行评价的信息。更具体地,在一种支持在用于基于分类规则将电子文档归类到多个类别中的文档分类系统中定义分类规则的方法中,通过将由用户通过输入设备输入的分类规则应用于多个经分类电子文档,来计算所应用的分类规则的可靠度和对分类准确度的提高或维持的贡献度,并将计算结果通过输出设备通知给用户。然而,该系统不具有生成候选分类规则的功能。因此,用户必须精通分类系统和这些电子文档的特征,而不熟练的用户很难创建分类规则。此外,仅考虑新创建的规则可能会导致与已有规则的冲突。但是,此公报没有考虑该问题。
如上所述,根据背景技术,很难为新数据项生成适当的分类规则,并且很难解决与已有分类规则的冲突。
发明内容
因此,本发明一个目的是提供一种支持对新数据项适当地创建分类规则的方法。
根据本发明的支持创建分类规则的方法包括以下步骤:将新数据项和新数据项的类别存储到存储部中;从存储在正确答案数据存储部中的数据提取各包括一个条件和对应类别的多个特征模式,并且将所述特征模式存储到特征模式存储部中,所述条件包括存储在存储部中的新数据项的特征元素,所述正确答案数据存储部存储多个数据项和这些数据项的类别;以及将存储在所述特征模式存储部中的特征模式分组为第一集合和第二集合,并将分组结果存储在分组数据存储部中,第一集合的特征模式与存储在所述存储部中的新数据项的类别相匹配,而第二集合的特征模式与所述新数据项的类别不匹配。
从而,自动生成作为候选分类规则的特征模式,此外,能够从第一集合中选择特定特征模式作为此后应用的分类规则。
此外,根据本发明的方法可以包括以下步骤:从分类规则存储部提取其条件部分满足存储在所述存储部中的新数据项的分类规则,并将提取的分类规则存储到提取分类规则存储部中,所述分类规则存储部存储多个分类规则,每个分类规则都由数据项的条件部分和对应类别组成。此外,第一集合可以具有第一组和第二组。所述第一组可以是存储在特征模式存储部中的分别包括第一特定条件和与存储在所述存储部中的新数据项的类别相匹配的类别的特征模式组。所述提取分类规则存储部可以存储满足所述第一特定条件的分类规则。第二组可以是不包括在任意第一组中的特征模式的组。此外,第二集合可以包括存储在所述特征模式存储部中的如下特征模式的第三组,即,所述特征模式分别包括第二特定条件和与存储在所述存储部中的新数据项的类别不同的类别。所述提取分类规则存储部可以存储满足所述第二特定条件的分类规则。因此,可以按照经排列的形式呈现特征模式的属性和关联、与存储在分类规则存储部中的分类规则的关联等。此外,通过这种呈现,还可以解决冲突。
此外,上述分组步骤可以包括生成分类规则的第四组的步骤,所述分类规则存储在所述提取分类规则存储部中并与第一组相对应。
此外,根据本发明的方法进一步包括以下步骤:确定包括在第一组中的特征模式的数目是否满足涉及包括在与第一组相关联的第三组中的特征模式数目的条件;将包括在第一组中的特征模式的条件改变成包括取反规则的条件;以及,如果包括在第三组中的特征模式的数目满足涉及包括在与第三组相关联的第一组中的特征模式数目的条件,则将包括在第三组中的特征模式的条件改变成包括取反规则的条件。通过执行这种处理,减少了规则数目并可以构造用户容易理解的规则库。另外,可预期未来的通过使条件部分满足将来添加的数据项(例如,产品数据)的求反而简化的规则的效率。
此外,根据本发明的方法进一步包括以下步骤:根据包括在所述第一集合、所述第二集合以及一第三集合中的各特征模式的特征元素计算特征模式的分数,并且将该分数与所述特征模式相关联地存储在所述分组数据存储部中,所述第三集合是从存储在所述提取分类规则存储部中的所有分类规则中排除了包括在第四组中的分类规则的集合。从而,可以确定要呈现给用户的优先级或要作为分类规则采用的优先级。
此外,根据本发明的方法进一步包括以下步骤:向用户呈现包括在第一集合中的特征模式;从该用户接受对该特征模式的指定;将指定的特征模式存储到所述分类规则存储部中;识别与包括该指定特征模式的第一组相关联的第三组,并将包括在所识别的第三组中的特征模式存储到所述分类规则存储部中;以及识别与包括该指定特征模式的第一组对应的第四组,并从所述分类规则存储部去除包括在该第四组中的分类规则。从而,可以正确地更新分类规则存储部。
此外,根据本发明的方法进一步包括以下步骤:按存储在分组数据存储部中的特征模式的分数的降序,将存储在该分组数据存储部中的特征模式作为新分类规则登记到分类规则存储部中,直到随着存储在正确答案存储部中的数据项的误分类的发生次数而变化并预先对其定义公式的错误率增加为止。从而,可以自动生成新分类规则。
可以创建用于使计算机执行根据本发明的上述方法的程序,并将该程序存储在诸如软盘、CD-ROM、光磁盘、半导体存储器以及硬盘的存储介质或存储装置中。此外,可以通过网络以数字信号发布该程序。另外,将中间处理结果临时存储在诸如主存储器的存储装置中。
附图说明
图1是本发明的实施例的框图;
图2是示出存储在正确答案数据DB中的数据示例的图;
图3是示出存储在分类规则DB中的数据示例的图;
图4是示出根据本发明实施例的主处理的流程图的图;
图5是示出用于新产品数据的输入屏面的示例的图;
图6是用于说明出现模式(emerging pattern)的图;
图7是示出冲突解决处理的流程图的图;
图8是用于说明对满足的定义的图;
图9是示出冲突解决表的第一示例的图;
图10是示出冲突解决表的第二示例的图;
图11是示出分类规则生成处理的流程图的第一示例的图;
图12是示出分类规则生成处理的流程图的第二示例的图;
图13是示出分类规则登记处理的流程图的第一示例的图;
图14是示出分类规则登记处理的流程图的第二示例的图;
图15是示出分类规则登记处理的流程图的第三示例的图;
图16是示出分类规则登记处理的流程图的第三示例的图;
图17是示出在分类规则登记处理的第一示例和第二示例中显示的屏面的另一示例的图;以及
图18是示出一种计算机系统的图。
具体实施方式
图1是根据本发明实施例的用于支持创建分类规则的装置的框图。本实施例示出其中将产品数据当作数据项的示例。然而,数据项并不限于产品数据。该用于支持创建分类规则的装置包括:产品数据输入单元1,用于从用户接收一对新产品的产品名称和正确类别的输入;新产品数据存储部3,用于存储输入的数据;正确答案数据DB 9,其中登记有一对预先输入的产品名称和分类数据(类别);特征模式提取器5,用于使用存储在新产品数据存储部3和正确答案数据DB 9中的数据来生成稍后描述的特征模式;特征模式存储部15,用于存储由特征模式提取器5生成的特征模式数据;分类规则DB 11,用于存储现有分类规则的数据;分类规则提取器7,用于通过使用存储在新产品数据存储部3和分类规则DB 11中的数据来提取与该新产品相关联的规则;提取分类规则存储部13,用于存储由分类规则提取器7提取的分类规则数据;分组处理器17,用于使用存储在特征模式存储部15和提取分类规则存储部13中的数据,来生成冲突解决表并执行其它处理;处理结果数据存储部19,用于存储作为分组处理器17等生成的结果的冲突解决表;分类规则生成器23,用于使用存储在处理结果数据存储部19和正确答案数据DB 9中的数据,执行对分类规则的条件部分的条件的求反、分数(score)的计算以及其它处理;以及分类规则登记处理器21,用于使用存储在处理结果数据存储部19和正确答案数据DB 9中的数据来执行到分类规则DB 11的登记和其它处理。
图2示出了存储在正确答案数据DB9中的数据的示例。在图2的示例中,与各产品名称相关联地登记多个类别。产品名称可以是诸如广告语(catch phase)的产品名称,也可以是该产品的简单名称。这些类别分别包括预定类别树中的相关节点的名称和类别代码(未示出)。
图3示出了存储在分类规则DB 11中的数据的示例。在图3的示例中,与条件部分相关联地登记结论部分(类别)。该条件部分包括由一个关键字组成的条件、通过利用“与”组合的多个关键字构成的条件等。位于该多个关键字之间的空格指示“与”。此外,通过使用多个“与”,可以表示具有“或”组合的规则。此外,对于关键字,可以包括求反,即,“”(“非”)。
接下来,参照图4到图17,对通过图1所示的支持创建分类规则的装置执行的处理进行描述。首先,该支持创建分类规则的装置的产品数据输入单元1提示用户输入新产品的产品名称和正确类别,接受来自用户的新产品的产品名称和正确类别的输入,以将输入数据存储到新产品数据存储部3中(图4:步骤S1)。例如,显示如图5所示的屏面来提示用户输入数据。在图5所示的屏面示例中,提供了产品名称输入栏、正确类别输入栏以及“执行”按钮。当用户将数据输入到这些输入栏中并点击“执行”按钮时,执行以下处理。在本发明的实施例中,逐件地对新产品进行输入。
接下来,特征模式提取器5从正确答案数据DB 9提取由存储在新产品数据存储部3中的新产品的产品名称的特征元素组成的全部特征模式,构造特征模式集合P,并将该特征模式集合P存储在特征模式存储部15中(步骤S3)。例如,该特征模式是出现模式。出现模式是其发生频率在类别之间显著变化的模式。例如,通过分析词素或者单词或短语的分离处理来提取特征元素。如图6所示,类P包括9个记录,而类N包括5个记录。在图6的示例中,对诸如天气预测(outlook)、气温、湿度以及风的天气数据进行处理。天气预测是多云、有雨以及晴朗中的一个。气温是炎热、温暖以及寒冷中的一个。湿度是高、低以及正常中的一个。风是“有风”或“无风”。在此情况下,从图6的数据提取的由特征元素(晴朗、温暖、高、有风)组成的出现模式如下:“晴朗”“温暖”“有风”=>P,“晴朗”“高”=>N,“晴朗”“温暖”“高”=>N,以及“晴朗”“高”“有风”=>N。此外,对于出现模式的详细提取方法,请参见在此通过引用并入的″The Space of Jumping Emerging Patters and ItsIncremental Maintenance Algorithm″,Jinyan Li,etc.,Int’1 Conf.On Machine Learning 2000,pp 551-558,″DeEPs:A New Instance-basedDiscovery and Classification System″,Jinyan Li,etc.,July 16,2001,Machine Learning Vol.54.No.2,pp.99-124,等。
此时尚不存在支持通过使用这种出现模式对规则库进行更新操作的想法,并且即使对于专家来说,自动地生成候选分类规则也是很困难的。
例如,在新产品的产品名称是“来自保加利亚的玫瑰果酱-给你花般甜美的气息和味道”的情况下,将“保加利亚”、“玫瑰”、“果酱”、“花”、“味道”、“气息”以及“你”提取为特征元素。然后,假设从正确答案数据DB9提取出以下特征模式:由关键字“油”与“保加利亚”和正确类别“香味”组成的特征模式、由关键字“果酱”与“气息”和正确类别“果酱”组成的特征模式、由关键字“果酱”与“玫瑰”和正确类别“果酱”组成的特征模式、由关键字“你”与“花”和正确类别“果酱”组成的特征模式、由关键字“你”与“果酱”和正确类别“果酱”组成的特征模式、由关键字“果酱”与“花”和正确类别“果酱”组成的特征模式、由关键字“你”与“气息”和正确类别“果酱”组成的特征模式、由关键字“果酱”与“气息”和正确类别“果酱”组成的特征模式、由关键字“果酱”与“保加利亚”和正确类别“果酱”组成的特征模式、由关键字“保加利亚”与“气息”和正确类别“果酱”组成的特征模式、由关键字“你”与“保加利亚”和正确类别“果酱”组成的特征模式、由关键字“花”与“保加利亚”和正确类别“果酱”组成的特征模式、由关键字“花”、“粉红”与“玫瑰”和正确类别“宴会/花”组成的特征模式以及由关键字“花”、“玫瑰”与“气息”和正确类别“果酱”组成的特征模式。
在新产品的产品名称是“其它英语会话/词汇,Masuda的学习方法,你可以容易地记住英语单词”的情况下,将“英语会话”、“词汇”、“学习”、“英语单词”以及“Masuda”提取为特征元素。然后,假设从正确答案数据DB 9提取出以下特征模式:由关键字“英语”与“学习”和正确类别“字典/翻译”组成的特征模式、由关键字“学习”与“电子”和正确类别“字典/翻译”组成的特征模式、由关键字“系统”与“学习”和正确类别“字典/翻译”组成的特征模式、由关键字“设置”与“学习”和正确类别“字典/翻译”组成的特征模式、由关键字“学习”与“字典”和正确类别“字典/翻译”组成的特征模式、由关键字“词汇”和正确类别“教育”组成的特征模式、由关键字“Masuda”和正确类别“教育”组成的特征模式、由关键字“方法”和正确类别“教育”组成的特征模式、以及由关键字“英语会话”与“学习”和正确类别“教育”组成的特征模式。
然后,分类规则提取器7从分类规则DB 11提取其条件部分满足存储在新产品数据存储部3中的新产品的产品名称的所有分类规则,构造分类规则集合S,并将该分类规则集合S存储在提取分类规则存储部13中(步骤S5)。通过将登记在分类规则DB 11中的所述所有分类规则应用于新产品的产品名称,如果分类规则的条件部分满足新产品的产品名称,则通过使用该分类规则构造分类集合S。
例如,在新产品的产品名称是“来自保加利亚的玫瑰果酱-给你花般甜美的气息和味道”的情况下,假设提取了如下分类规则:包括条件部分“保加利亚”和结论部分“香味”的分类规则,和包括条件部分“花”与(^)“玫瑰”和结论部分“宴会/花”的分类规则。
此外,在新产品的产品名称是“其它英语会话/词汇,Masuda的学习方法,你可以容易地记住英语单词”的情况下,假设提取如下分类规则:包括条件部分“英语词汇”和结论部分“教育”的分类规则,和包括条件部分“学习”和结论部分“字典/翻译”的分类规则。
然后,分组处理器17使用存储在提取分类规则存储部13和特征模式存储部15中的数据来执行冲突解决处理(步骤S7)。利用图7到图10来描述该冲突解决处理。执行该冲突解决处理,以通过生成冲突解决表使用户容易了解多个分类规则的冲突状态。分组处理器17从存储在特征模式存储部15中的特征模式集合P提取特征模式p=>c(p为一个或多个关键字的集合,c为正确类别)(步骤S21)。例如,在上述第一示例中,假设提取出由关键字“果酱”与“保加利亚”和正确类别“果酱”组成的特征模式。
因此,分组处理器17提取分类规则集合S的子集S(p),其由满足特征模式p=>c的模式P的分类规则组成,并将该子集S(p)的数据存储在处理结果数据存储部19中(步骤S23)。当在上述第一示例中提取出由关键字“果酱”与“保加利亚”和正确类别“果酱”组成的特征模式的情况下,提取包括条件部分“保加利亚”和结论部分“香味”的分类规则作为子集S(p)。此外,以下利用图8来描述满足的定义。
在图8中,最外面的矩形表示包括所有产品的整体U,左侧的圆表示其产品名称包括“保加利亚”的产品集合A,右侧的圆表示其产品名称包括“果酱”的产品集合B,下面的圆表示其产品名称包括“玫瑰”的产品集合C。此外,在与集合A到C对应的这些圆中存在相互交叠的部分。当假设与集合A相对应的圆和与集合B相对应的圆的相交叠的部分是区域d时,包括在区域d中的产品在其产品名称满足条件“保加利亚”与“果酱”的产品组中。区域d被包括在与集合A相对应的圆中。在如图8所示的图中,如果与分类规则的条件部分相对应的区域(在本示例中与集合A相对应的圆)包括与模式p(在本示例中的区域d)相对应的区域,则将它称为“满足的”。
此外,假设分类规则是“保加利亚”与“玫瑰”=>“香味”并且特征模式是“果酱”与“保加利亚”=>“果酱”。满足条件“果酱”与“保加利亚”的产品集合对应于如上所述的区域d。与之对照,满足条件“保加利亚”与“玫瑰”的产品集合对应于其中从与集合A相对应的圆中去除区域e的区域。即,其对应于其中从与集合A相对应的圆中去除了对应于集合A的圆与对应于集合C的圆的交叠区域后的区域。其中从与集合A相对应的圆中去除了区域e的区域并不总是包括与模式p相对应的区域d。因此,不能说分类规则“保加利亚”与“玫瑰”=>“香味”的条件部分“满足”模式p。
分组处理器17确定子集S(p)是否为空(步骤S25)。在子集S(p)为空的情况下,将在步骤S21处提取的模式p=>c加入集合FΦ(步骤S27)。在上述第一示例中,当在步骤S21处提取由关键字“果酱”与“气息”和正确类别“果酱”组成的特征模式的情况下,因为不存在满足特征模式的模式p的任何分类规则,所以将由关键字“果酱”与“气息”和正确类别“果酱”组成的特征模式加入集合FΦ。将集合FΦ的数据存储在处理结果数据存储部19中。然后,处理进行到步骤S33。
与之对照,在子集S(p)不为空的情况下,分组处理器17从分类规则的子集S(p)提取一个分类规则L=>R(步骤S29)。在上述示例中,提取出包括条件部分“保加利亚”和结论部分“香味”的分类规则。然后,在特征模式p=>c的正确类别c与分类规则L=>R的结论部分R相一致的情况下,将在步骤S21处提取的特征模式p=>c加入集合TL=>R。在特征模式p=>c的正确类别c与分类规则L=>R的结论部分R不一致的情况下,将特征模式p=>c加入集合FL=>R(步骤S31)。在上述示例中,因为分类规则的结论部分是“香味”,而特征模式的正确类别是“果酱”,所以满足“c≠R”。因此,将特征模式p=>c加入集合FL=>R。此外,在特征模式p=>c是由关键字“油”与“保加利亚”和正确类别“香味”组成的特征模式的情况下,满足“c=R”。因此,将特征模式p=>c加入集合TL=>R。将集合FL=>R和集合TL=>R的数据存储在处理结果数据存储部19中。
回到对图7的说明,确定是否已处理了子集S(p)中的所有分类规则(步骤S33)。在存在尚未处理的分类规则的情况下,处理返回到步骤S29。在已处理完子集S(p)的所有分类规则的情况下,确定是否已处理完特征模式集合P的所有特征模式(步骤S35)。在特征模式集合P中存在尚未处理的特征模式的情况下,处理返回到步骤S21。
通过执行这种处理,对于第一示例,生成了图9所示的冲突解决表。在图9的示例中,集合FΦ包括以下特征模式:由关键字“果酱”与“气息”和正确类别“果酱”组成的特征模式、由关键字“果酱”与“玫瑰”和正确类别“果酱”组成的特征模式、由关键字“你”与“花”和正确类别“果酱”组成的特征模式、由关键字“你”与“果酱”和正确类别“果酱”组成的特征模式、由关键字“果酱”与“花”和正确类别“果酱”组成的特征模式、由关键字“你”与“气息”和正确类别“果酱”组成的特征模式、由关键字“果酱”与“气息”和正确类别“果酱”组成的特征模式。与其条件部分(L)为“保加利亚”并且其结论部分(R)为“香味”的分类规则相对应的集合T保加利亚=>香味包括由关键字“油”与“保加利亚”和正确类别“香味”组成的特征模式。此外,与分类规则“保加利亚”=>“香味”相对应的集合F保加利亚=>香味包括由关键字“果酱”与“保加利亚”和正确类别“果酱”组成的特征模式、由关键字“保加利亚”与“气息”和正确类别“果酱”组成的特征模式、由关键字“你”与“保加利亚”和正确类别“果酱”组成的特征模式、以及由关键字“花”与“保加利亚”和正确类别“果酱”组成的特征模式。此外,与其条件部分(L)为“花”与“玫瑰”并且其结论部分(R)为“宴会/花”的分类规则相对应的集合T花玫瑰=>宴会/花包括由关键字“花”、“粉红”与“玫瑰”和正确类别“宴会/花”组成的特征模式。此外,与分类规则“花”、“玫瑰”=>“宴会/花”相对应的集合F花玫瑰=,宴会/花包括由关键字“花”、“玫瑰”与“气息”和正确类别“果酱”组成的特征模式。
对于上述第二示例,生成了如图10所示的冲突解决表。在图10的示例中,集合FΦ包括由关键字“词汇”和正确类别“教育”组成的特征模式、由关键字“Masuda”和正确类别“教育”组成的特征模式以及由关键字“方法”和正确类别“教育”组成的特征模式。与其条件部分(L)为“学习”并且其结论部分(R)为“字典/翻译”的分类规则相对应的集合T学习=>字典/翻译包括由关键字“英语”与“学习”和正确类别“字典/翻译”组成的特征模式、由关键字“学习”与“电子”和正确类别“字典/翻译”组成的特征模式、由关键字“系统”与“学习”和正确类别“字典/翻译”组成的特征模式、由关键字“集合”与“学习”和正确类别“字典/翻译”组成的特征模式、以及由关键字“学习”与“字典”和正确类别“字典/翻译”组成的特征模式。此外,与分类规则“学习”=>“字典/翻译”相对应的集合F学习=>字典/翻译包括由关键字“英语会话”与“学习”和正确类别“教育”组成的特征模式。
在这种冲突解决表中,在相反模式列中的分类规则L=>R与对应集合FL=>R是相互冲突的规则。在将它们两者都存储在分类规则DB 11中的情况下,如果未对分类规则设置优先级则会发生错误分类。然而,在选择一致模式列中的对应集合TL=>R来代表分类规则L=>R的情况下,可以解决该冲突。
通过将图9或图10所示的冲突解决表呈现给用户,可以显示分类规则的冲突状态。在了解该表的上述意思之后,用户可以指示以下操作:例如在相反模式中选择适当的特征模式以将所选特征模式添加到分类规则DB 11,此外在一致模式列中选择对应特征模式并将所选特征模式添加到分类规则DB 11,并且进一步从分类规则DB 11排除分类规则列中的对应分类规则。此外,还可以执行解决冲突所需的其它指示。
此外,即使通过将包括在相反模式列中的特征模式归类到第一集合,并将包括在一致模式列中的特征模式归类到第二集合,用户也能够在了解特征模式的特性之后,指示将特征模式添加到分类规则DB11。
回到对图4的说明,分类规则生成器23使用存储在处理结果数据存储部19中的数据执行分类规则生成处理(步骤S9)。以下利用图11和图12对该处理进行详细描述。
下面根据图11描述第一分类规则生成处理。分类规则生成器23根据存储在处理结果数据存储部19中的数据识别出一个分类规则L=>R(步骤S41)。然后,识别出在与处理结果数据存储部19中的所识别的分类规则L=>R相对应的集合TL=>R和集合FL=>R中包括的特征模式,并确定是否满足|TL=>R|<<|FL=>R|(步骤S43)。|TL=>R|表示包括在集合TL=>R中的特征模式的数目,|FL=>R|表示包括在集合FL=>R中的特征模式的数目。例如,预先设置阈值,并确定|TL=>R|与|FL=>R|之差是否等于或大于该阈值。
在满足|TL=>R|<<|FL=>R|的情况下,分类规则生成器23执行对集合FL=>R的规则的求反(步骤S45)。例如,当处理其条件部分(L)为“保加利亚”并且其结论部分(R)是“香味”的分类规则L=>R时,对应集合FL=>R的特征模式|FL=>R|的数目为4。此外,因为对应集合TL=>R的特征模式|TL=>R|的数目为1,所以推定满足步骤S43处的条件。因此,对以下特征模式执行规则的求反:由关键字“果酱”与“保加利亚”和正确类别“果酱”组成的特征模式、由关键字“保加利亚”与“气息”和正确类别“果酱”组成的特征模式、由关键字“你”与“保加利亚”和正确类别“果酱”组成的特征模式以及由关键字“花”与“保加利亚”和正确类别“果酱”组成的特征模式。在此,关键字“保加利亚”是共有的,而另一关键字互不相同。然而,由于对应的集合TL=>R包括由关键字“油”与“保加利亚”和正确类别“香味”组成的特征模式,所以如果将“油”用于产品名称,则正确类别变成“香味”。因此,如果特征模式包括“保加利亚”,但是不包括“油”,则无法在没有冲突的情况下采纳该分类规则。在该步骤S45处,使用对集合TL=>R的特征模式中包括的“油”的求反来生成由关键字“保加利亚”与“油”和正确类别“果酱”组成的特征模式。尽管图9所示的集合F保加利亚=>香味包括所述4个特征模式,但可将集合F保加利亚=>香味替换成通过对该规则的求反而新生成的特征模式集合。
通过执行对规则的这种求反,减少了规则的数目。因此,可以构造人们容易理解的规则库。此外,通过对规则的求反,预期条件部分更有可能满足将来要添加的产品数据,并且还预期改进未来效率。
另一方面,在不满足|TL=>R|<<|FL=>R|的情况下,处理转到步骤S47。在步骤S45之后,或者,在步骤S43处不满足上述条件的情况下,分类规则生成器23判断是否已完成对所有分类规则L=>R的处理(步骤S47)。如果存在尚未处理的分类规则,则处理返回步骤S41。
另一方面,在已处理完所有分类规则L=>R的情况下,分类规则生成器23通过集合FL=>R和FΦ构造分类规则候选集合F,并将分类规则候选集合F的数据存储在处理结果数据存储部19中(步骤S49)。
此外,分类规则生成器23根据正确答案数据DB 9计算分类规则候选集合F中包括的特征元素(关键字)v的出现率score(v),并将计算出的score(v)存储在存储设备中(步骤S51)。例如,针对诸如“保加利亚”、“油”以及“果酱”的关键字计算出现率。
然后,分类规则生成器23识别出分类规则候选集合F中包括的一个特征模式p=>c(步骤S53),并计算Score(p=>c)=∑pscore(v)(步骤S55)。在该步骤中,计算模式p中包括的关键字的score(v)的和。然后,判断是否已处理完分类规则候选集合F中的所有特征模式(步骤S57)。如果存在任何尚未处理的特征模式,则处理返回步骤S53。另一方面,在已处理完分类规则候选集合F中的所有特征模式的情况下,根据Score(p=>c)值对分类规则候选集合F中的特征模式进行排序,并将结果存储在处理结果数据存储部19中(步骤S59)。然后,处理返回原处理。
从而,执行了对规则的求反并区分了分类规则候选集合F中的特征模式的优先次序。此外,在图11的处理流程中,因为在随后的处理中由用户选择的特征模式是与相反模式相对应的特征模式,所以只对与该相反模式相对应的特征模式执行规则的求反。
此外,可以执行图12而非图11中所示的处理作为分类规则生成处理。即,分类规则生成器23基于存储在处理结果数据存储部19中的数据识别出一个分类规则L=>R(步骤S61)。然后,识别出在与处理结果数据存储部19中的分类规则L=>R相对应的集合TL=>R和集合FL=>R中包括的特征模式,并判断是否满足|TL=>R|<<|FL=>R|(步骤S63)。
在满足条件|TL=>R|<<|FL=>R|的情况下,分类规则生成器23执行对集合FL=>R的规则的求反(步骤S65)。另一方面,在不满足条件|TL=>R|<<|FL=>R|的情况下,处理进行到步骤S67。在步骤S65之后,或者在满足步骤S63处的条件的情况下,确定是否已处理完所有分类规则L=>R(步骤S67)。如果存在任何尚未处理的分类规则,则处理返回到步骤S61。
在已处理完所有分类规则L=>R的情况下,根据存储在处理结果数据存储部19中的数据识别出一个分类规则L=>R(步骤S69)。然后,识别出在与处理结果数据存储部19中的分类规则L=>R相对应的集合TL=>R和集合FL=>R中包括的特征模式,并判断是否满足|TL=>R|>>|FL=>R|(步骤S71)。
在满足条件|TL=>R|>>|FL=>R|的情况下,分类规则生成器23执行对集合TL=>R的规则的求反(步骤S73)。在上述第二示例中,集合TL=>R包括以下特征模式:由关键字“英语”与“学习”和正确类别“字典/翻译”组成的特征模式、由关键字“学习”与“电子”和正确类别“字典/翻译”组成的特征模式、由关键字“系统”与“学习”和正确类别“字典/翻译”组成的特征模式、由关键字“集合”与“学习”和正确类别“字典/翻译”组成的特征模式、以及由关键字“学习”与“字典”和正确类别“字典/翻译”组成的特征模式。另一方面,对应集合FL=>R包括由关键字“英语会话”与“学习”和正确类别“教育”组成的特征模式。因此,关键字“学习”是共有的,但是在还包括关键字“英语会话”的情况下,正确类别变成“教育”。因此,通过对“英语会话”求反,将集合TL=>R改变成包括由关键字“学习”与“英语会话”和正确类别“字典/翻译”组成的特征模式的集合。图10所示的集合T学习=>字典/翻译包括5个特征模式,但是集合T学习=>字典/翻译由通过执行对规则的求反而新生成的特征模式集合来替代。
另一方面,如果不满足条件|TL=>R|>>|FL=>R|,则处理进行到步骤S75。在步骤S73之后,或者在满足步骤S71处的条件的情况下,分类规则生成器23判断是否已处理完所有分类规则L=>R(步骤S75)。如果存在任何尚未处理的分类规则,则处理返回到步骤S69。
在已处理完所有分类规则L=>R的情况下,分类规则生成器23通过集合FL=>R和FΦ构造分类规则候选集合F,通过所有集合TL=>R构造分类规则候选集合T,通过从包括所有已有分类规则的集合S排除包括所有冲突规则的集合G来构造分类规则候选集合(S-G),构造分类规则候选集合(S-G)∪F∪T(其为集合F、集合T以及集合(S-G)的并集),并将分类规则候选集合(S-G)∪F∪T的数据存储在处理结果数据存储部19中(步骤S77)。另外,按照下列公式定义分类规则候选集合F、分类规则候选集合T以及集合G。此外,如上所述,集合FΦ包括在分类规则候选集合F中。
此外,分类规则生成器23根据正确答案数据DB 9计算分类规则候选集合(S-G)∪F∪T中包括的各特征元素(关键字)v的出现率score(v),并将计算出的score(v)存储在存储装置中(步骤S79)。
然后,分类规则生成器23识别出包括在分类规则候选集合(S-G)∪F
∪T中的一个特征模式p=>c(步骤S81)。接下来,计算Score(p=>c)=∑pscore(v),并将计算结果与所识别出的特征模式p=>c相关联地存储在处理结果数据存储部19中(步骤S83)。在步骤S83中,计算模式p中包括的关键字的score(v)的和。然后,判断是否已处理完分类规则候选集合(S-G)∪F∪T中的所有特征模式(步骤S85)。如果在分类规则候选集合(S-G)∪F∪T中存在任何尚未处理的特征模式,则处理返回到步骤S81。在已处理完分类规则候选集合(S-G)∪F∪T中的所有特征模式的情况下,根据Score(p=>c)对分类规则候选集合(S-G)∪F∪T中的所有特征模式进行排序,并将排序结果存储在处理结果数据存储部19中(步骤S87)。然后,处理返回到原处理。
由此,执行了对规则的求反并区分了分类规则候选集合(S-G)∪F∪T中的特征模式的优先次序。此外,在图12的处理流程中,只对与相反模式和一致模式相对应的特征模式执行规则的求反,这是因为在随后的处理中待登记到分类规则DB11中的特征模式是与该相反模式或一致模式相对应的特征模式。
在图11和图12的示例中,对包括在集合FΦ和集合FL=>R中的特征模式进行排序,但是可以将该优先级提供给集合FL=>R中的特征模式。
回到对图4的说明,接下来,分类规则登记处理器21通过使用处理结果数据存储部19对分类规则进行登记,并更新分类规则DB 11(步骤S11)。下面参照图13到16对该处理进行详细描述。
图13示出了分类规则登记处理的第一示例。在图11所示的处理之后执行该处理。然而,可以略去步骤S41到步骤S47。分类规则登记处理器21以基于Score(p=>c)的排序次序列出存储在处理结果数据存储部19中的分类规则候选集合F的特征模式,并将它们显示在显示设备上以提示用户选择任意特征模式(步骤S91)。在上述第一示例中,列出了以下特征模式:由关键字“果酱”与“气息”和正确类别“果酱”组成的特征模式、由关键字“果酱”与“玫瑰”和正确类别“果酱”组成的特征模式、由关键字“你”与“花”和正确类别“果酱”组成的特征模式、由关键字“你”与“果酱”和正确类别“果酱”组成的特征模式、由关键字“果酱”与“花”和正确类别“果酱”组成的特征模式、由关键字“你”与“气息”和正确类别“果酱”组成的特征模式、由关键字“果酱”与“气息”和正确类别“果酱”组成的特征模式、由关键字“保加利亚”与“油”和正确类别“果酱”组成的特征模式、以及由关键字“花”、“玫瑰”与“气息”和正确类别“果酱”组成的特征模式。用户在所列出的特征模式中选择要登记到分类规则DB 11中的特征模式。
然后,分类规则登记处理器21接受来自用户对特征模式p=>c的选择(步骤S93)。接下来,从处理结果数据存储部19中的分类规则候选集合F中排除所选特征模式p=>c(步骤S95)。此外,针对包括所选特征模式p=>c的集合FL=>R来检索处理结果数据存储部19(步骤S97)。然后,识别出与集合FL=>R相对应的分类规则L=>R,并从分类规则DB 11将该分类规则L=>R作为冲突规则排除(步骤S99)。另外,在已从分类规则DB11排除该分类规则L=>R的情况下,跳过步骤S99。此外,在该特征模式是从集合FΦ选出的情况下,因为不存在对应的分类规则L=>R,所以跳过步骤S99。
此外,分类规则登记处理器21将包括在对应集合TL=>R中的所有特征模式附加地登记到分类规则DB11中(步骤S101)。当已登记该特征模式时也跳过步骤S101。在该特征模式是从集合FΦ选出的情况下,因为不存在对应的TL=>R,所以跳过步骤S101。此外,将所选特征模式p=>c附加地登记到分类规则DB11中(步骤S103)。
例如,在上述第一示例中,当选择由关键字“保加利亚”与“油”和正确类别“果酱”组成的特征模式时,将该特征模式附加地登记到分类规则DB 11中,并从分类规则DB 11排除包括条件部分“保加利亚”和结论部分“香味”的分类规则。此外,将由关键字“油”与“保加利亚”和正确类别“香味”组成的特征模式附加地登记到分类规则DB 11中。
然后,分类规则登记处理器21判断用户是否指示终止对特征模式的选择(步骤S105)。如果用户尚未指示终止对特征模式的选择,则处理返回步骤S91。另一方面,当用户指示终止对特征模式的选择时,处理返回原处理。
由此,将在与相反模式相关联的特征模式中用户认为有必要的特征模式添加到分类规则DB 11中,排除导致冲突的已登记分类规则,并添加与对应一致模式相关联的特征模式。因此,当添加新产品时,可以在没有分类规则的优先次序并且不会引起冲突的情况下对分类规则DB 11进行更新。
另外,尽管在图13中未示出,但是将新产品的产品名称和正确类别登记到正确答案数据DB 9中。
此外,在图11的处理之后,可以执行图14所示的处理。然而,在图11中可以略去步骤S41到步骤S47。即,分类规则登记处理器21在处理结果数据存储部19中识别出包括在分类规则集合S(p)中并且其对应集合FL=>R不为空的分类规则L=>R,并从分类规则DB 11排除掉所有这些分类规则L=>R(步骤111)。
此外,分类规则登记处理器21在处理结果数据存储部19中识别出包括在与所删除的冲突规则L=>R相对应的集合TL=>R中的特征模式,并将所有所识别出的特征模式附加地登记到分类规则DB 11中(步骤S113)。
然后,分类规则登记处理器21根据基于Score(p=>c)的排序次序列出存储在处理结果数据存储部19中的分类规则候选集合F的特征模式,并显示该列表以提示用户在显示设备上选择任意特征模式(步骤S115)。然后,接受来自用户对特征模式p=>c的选择(步骤S117),并将所选特征模式p=>c附加地登记到分类规则DB 11中(步骤S119)。
随后,分类规则登记处理器21判断用户是否指示终止对特征模式的选择(步骤S121)。如果用户没有指示终止对特征模式的选择,则处理返回步骤S117。另一方面,当用户指示终止对特征模式的选择时,处理返回原处理。
由此,排除导致不一致的分类规则,并添加了与一致模式相关联并由于所述排除而变得必要的特征模式,并且根据用户的指令登记与相反模式相关联的特征模式。执行这种处理,还使得能够在不对分类规则DB 11中的分类规则执行优先次序排序并且不会引起分类规则DB 11中的冲突的情况下,积累能够处理新产品的分类规则。
另外,在从分类规则候选集合F排除了所选特征模式的情况下,处理可以从步骤S121返回步骤S115。
接下来,利用图15和图16说明分类规则登记处理的第三示例。当通过图12的处理生成分类规则候选集合(S-G)∪F∪T时执行该处理。另外,本处理与上述两个示例不同,其自动选择要登记到分类规则DB11中的分类规则。此外,通过图12的处理计算出的分数(score)(即,Score的值)限定了本处理的次序。
在第三示例中,采用按照该分数的次序添加分类规则的方法,并且当分类规则的添加对规则库的准确度的改进没有贡献时,终止对该规则的添加。从而,构造包括具有高分数并具有最高准确度的规则的规则库。首先,分类规则登记处理器21将包括在正确答案数据DB9中的所有正确答案数据归类为集合U,并将包括在其产品数量最大的类别δ中的正确答案数据归类为集合D(步骤S131)。在本实施例中,确定类别δ为默认类别,并将未经任何规则进行分类的数据归类到类别δ中。此外,最初,分类规则登记处理器21构造未经分类数据集合W(=U)(步骤S133)。将这些集合的数据存储在工作存储部区域中。此外,将X、Y、Z设定为X=Φ、Y=Φ、Z=Φ(步骤S135)。X是通过分类规则对其进行的分类是正确的产品的集合。Y是通过分类规则对其进行的分类是错误的产品的集合。Z是从现在开始生成的分类规则的集合。X∪Y意味着经分类的产品的集合。
此外,分类规则登记处理器21计算preDrr=(|Y|+|W-D|)/|U|,并将计算结果存储到存储部中(步骤S137)。|Y|表示包括在集合Y中的元素数目(大小)。类似地,|W-D|表示包括在集合W与集合D的差集W-D中的元素数目,而|U|表示集合U中的元素数目。另外,因为Y=Φ,所以在不包括在类别δ中的产品被误分类的假设下,在该步骤中计算出的preErr是初始错误率。
接下来,分类规则登记处理器21提取出包括在分类规则候选集合(S-G)∪F∪T中一个特征模式p=>c,其按Score(p=>c)的降序存储在处理结果数据存储部19中(步骤S139)。然后,从正确答案数据DB9提取满足在步骤S139处提取的特征模式p=>c的条件部分p的所有产品,并通过所提取的产品来构造集合E(步骤S141)。例如,将集合E的数据存储在工作存储部区域中。
此外,分类规则登记处理器21从集合E提取一个产品e(步骤S143),并确定是否满足e∈W(步骤S145)。即,确定是否已通过添加的分类规则对产品e进行了分类。在产品e不包括在未经分类数据集合W中的情况下,处理经由分支末端B进行到图16的步骤S155。在产品e包括在未经分类数据集合W中的情况下,处理经由分支末端A进行到图16的步骤S147。
然后,分类规则登记处理器21将在步骤S139处提取的特征模式p=>c添加到集合Z(Z=Z∪{p=>c}),并将产品e从未经分类数据集合W中去除(W=W-{e})(步骤S147)。因为将特征模式附加地登记到集合Z的次序与所述优先级相一致,所以在集合Z中也保持了该次序。此外,判断根据在步骤S139处提取的特征模式p=>c的产品e的分类目标类别是否与原始分类目标类别c相匹配(步骤S149)。如果根据在步骤S139处提取的特征模式p=>c的产品e的分类目标类别与原始分类目标类别c不匹配,则因为这是误分类,而将产品e添加到集合Y(步骤S151)。在根据在步骤S139处提取的特征模式p=>c的产品e的分类目标类别与原始分类目标类别c相匹配的情况下,因为该特征模式将该产品归类到正确类别,所以将该产品e添加到集合X中(步骤S153)。
然后,分类规则登记处理器21判断是否已处理完集合E中的所有产品e(步骤S155)。如果集合E中存在任何尚未处理的产品e,则处理经由分支末端C返回到图15的步骤S143。在集合E中不存在尚未处理的产品e的情况下,计算错误率Err=(|Y|+|W-D|)/|U|,并将错误率Err存储在存储设备中(步骤S157)。另外,包括在集合W中的产品可以包括在集合D中,并且包括在集合E中的产品可以包括在集合D中。因此,通过处理集合E,尽管|Y|增大了,但是|W-D|的减少可以小于|Y|的增大量。例如,即使从集合W排除了产品e,在产品e包括在集合D中的情况下,包括在集合W与集合D的差集W-D中的产品数量也不会减少。
然后,分类规则登记处理器21判断是否满足Err>PreErr(步骤S159)。在Err大于PreErr的情况下,从集合Z去除在步骤S139处识别的特征模式p=>c(步骤S163)。然后,处理返回到原处理。在Err小于PreErr的情况下,设定PreErr=Err(步骤S161)。然后,判断是否已处理完包括在分类规则候选集合(S-G)∪F∪T中的所有特征模式(步骤S165)。如果存在任何尚未处理的模式,则处理经由分支末端D返回到步骤S139。
由此,将特征模式作为分类规则添加到集合Z,直到错误率增加为止。然后,当在步骤S165处判断已处理完包括在分类规则候选集合(S-G)∪F∪T中的所有特征模式时,分类规则登记处理器21通过集合Z对分类规则DB11进行更新(步骤S167)。
通过执行上述处理,可以创建能够适当地处理新产品的分类规则。
尽管以上已对本发明实施例进行了阐述,但是本发明并不限于上述实施例。在该说明中,描述了包括对规则进行求反在内的处理流程,但是并不总是必须执行对规则的求反。在不对规则执行求反的情况下,例如,对于图15和图16,可以略去用于生成冲突解决表的处理。
此外,图1的多个功能块并非总是分别对应于实际程序模块。
此外,如上所述,可以将用于支持创建分类规则的装置配置成分立形式,或者可以将其配置成通过一个或多个服务器实现上述功能,并通过经由网络连接的终端来登记新产品数据。
此外,在图13和图14中呈现给用户的屏面可以是图17所示的一种屏面。在图13和图14的说明中,根据Score的值列举关键字。然而,如图17所示,可以将屏面配置成包括:“关键字提取结果”,表示对新产品的产品名称进行单词或短语分离或语素分析的结果;正确类别代码;分类规则检索结果(本示例中不存在),其为在分类规则DB 11中针对能够对新产品的产品名称正确地分类的规则的检索结果;集合FΦ(生成新分类规则);以及除集合FΦ以外的冲突解决表。在此情况下,用户点击要登记到分类规则DB 11中的规则,以使得该系统将它们登记到分类规则DB 11中。
此外,用于支持创建分类规则的装置是如图18所示计算机设备。即,如图18所示,通过总线2519连接下列设备:存储器2501(存储装置)、CPU 2503(处理器)、硬盘驱动器(HDD)2505、连接到显示装置2509的显示控制器2507、用于可移动盘2511的驱动装置2513、输入装置2515、以及用于与网络相连接的通信控制器2517。在HDD 2505中存储有用于执行本实施例中的上述处理的操作系统(OS)和应用程序,并且当由CPU 2503执行时,从HDD 2505将它们读取到存储器2501。如有需要,CPU 2503对显示控制器2507、通信控制器2517以及驱动装置2513进行控制,并使它们执行必要的操作。此外,将中间处理数据存储在存储器2501中,若有必要,将它存储在HDD 2505中。在本发明的本实施例中,将用于实现上述功能的应用程序存储在可移动盘2511中并对其进行发布,然后从驱动装置2513将该应用程序安装到HDD 2505中。可以通过诸如因特网的网络和通信控制器2517将该应用程序安装到HDD 2505中。在上述计算机中,诸如CPU 2503和存储器2501的硬件、OS和必要的应用程序系统地相互协作,从而实现上文详细描述的各种功能。
尽管已针对本发明具体优选实施例对本发明进行了描述,但是本领域的技术人员可以提出各种改变和变型,并且本发明旨在包括落入所附权利要求的范围内的这些改变和变型。
Claims (2)
1、一种支持创建分类规则的方法,其包括以下步骤:
将新数据项和所述新数据项的类别存储到存储部中;
从存储在正确答案数据存储部中的数据提取各包括一条件和对应类别的特征模式,并且将所述特征模式存储到分组数据存储部中,所述条件包括存储在所述存储部中的所述新数据项的特征元素,所述正确答案数据存储部存储数据项和所述数据项的类别;以及
按存储在所述分组数据存储部中的所述特征模式的分数的降序将存储在所述分组数据存储部中的所述特征模式作为新分类规则登记到所述分类规则存储部中,直到随着存储在正确答案数据存储部中的所述数据项的误分类的发生次数而变化并预先对其定义公式的错误率增加为止。
2、一种用于支持创建分类规则的装置,其包括:
存储单元,用于将新数据项和所述新数据项的类别存储到存储部中;
提取器,用于从存储在正确答案数据存储部中的数据提取各包括一条件和对应类别的特征模式,并且将所述特征模式存储到分组数据存储部中,所述条件包括存储在所述存储部中的所述新数据项的特征元素,所述正确答案数据存储部存储数据项和所述数据项的类别;以及
登记单元,按存储在所述分组数据存储部中的所述特征模式的分数的降序将存储在所述分组数据存储部中的所述特征模式作为新分类规则登记到所述分类规则存储部中,直到随着存储在正确答案存储部中的所述数据项的误分类的发生次数而变化并预先对其定义公式的错误率增加为止。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005239194A JP4429236B2 (ja) | 2005-08-19 | 2005-08-19 | 分類ルール作成支援方法 |
JP2005239194 | 2005-08-19 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2005101319068A Division CN1916895A (zh) | 2005-08-19 | 2005-12-15 | 支持分类规则创建的方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101430704A true CN101430704A (zh) | 2009-05-13 |
Family
ID=37737893
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2005101319068A Pending CN1916895A (zh) | 2005-08-19 | 2005-12-15 | 支持分类规则创建的方法和装置 |
CNA2008101781455A Pending CN101430704A (zh) | 2005-08-19 | 2005-12-15 | 支持分类规则创建的方法和装置 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2005101319068A Pending CN1916895A (zh) | 2005-08-19 | 2005-12-15 | 支持分类规则创建的方法和装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8176050B2 (zh) |
JP (1) | JP4429236B2 (zh) |
CN (2) | CN1916895A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112612660A (zh) * | 2020-12-16 | 2021-04-06 | 海光信息技术股份有限公司 | 规格信息数据库创建方法、芯片挑选方法及装置和系统 |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5075111B2 (ja) * | 2008-12-29 | 2012-11-14 | 株式会社日立ハイテクノロジーズ | 画像分類基準更新方法、プログラムおよび画像分類装置 |
CN102063489B (zh) * | 2010-12-29 | 2012-12-19 | 东北大学 | 基于隐含分类信息的模式匹配方法 |
WO2012095971A1 (ja) * | 2011-01-13 | 2012-07-19 | 三菱電機株式会社 | 分類ルール生成装置、分類ルール生成方法、分類ルール生成プログラム及び記録媒体 |
CN107122980B (zh) * | 2011-01-25 | 2021-08-27 | 阿里巴巴集团控股有限公司 | 识别商品所属类目的方法和装置 |
WO2012116208A2 (en) * | 2011-02-23 | 2012-08-30 | New York University | Apparatus, method, and computer-accessible medium for explaining classifications of documents |
JP2012203668A (ja) * | 2011-03-25 | 2012-10-22 | Sony Corp | 情報処理装置、物体認識方法、プログラム及び端末装置 |
JP5389106B2 (ja) * | 2011-06-27 | 2014-01-15 | ヤフー株式会社 | カテゴリ分類確認装置及び方法 |
JP5880052B2 (ja) * | 2012-01-10 | 2016-03-08 | 富士ゼロックス株式会社 | 文書処理装置及びプログラム |
JP6020031B2 (ja) | 2012-10-19 | 2016-11-02 | 富士通株式会社 | 抽出プログラム、抽出装置及び抽出方法 |
US20140180738A1 (en) * | 2012-12-21 | 2014-06-26 | Cloudvu, Inc. | Machine learning for systems management |
JP6003561B2 (ja) | 2012-11-15 | 2016-10-05 | 富士通株式会社 | 抽出プログラム、抽出装置及び抽出方法 |
JP5962471B2 (ja) * | 2012-11-30 | 2016-08-03 | 富士通株式会社 | 抽出プログラム、抽出装置及び抽出方法 |
US10423889B2 (en) | 2013-01-08 | 2019-09-24 | Purepredictive, Inc. | Native machine learning integration for a data management product |
US9275331B2 (en) * | 2013-05-22 | 2016-03-01 | International Business Machines Corporation | Document classification system with user-defined rules |
US9218574B2 (en) | 2013-05-29 | 2015-12-22 | Purepredictive, Inc. | User interface for machine learning |
US9646262B2 (en) | 2013-06-17 | 2017-05-09 | Purepredictive, Inc. | Data intelligence using machine learning |
US20160019622A1 (en) * | 2014-07-18 | 2016-01-21 | Collectors Universe, Inc. | System for aggregating, comparing and acquiring collectibles, methods and uses thereof |
US11042929B2 (en) | 2014-09-09 | 2021-06-22 | Oracle Financial Services Software Limited | Generating instruction sets implementing business rules designed to update business objects of financial applications |
CN110753939B (zh) * | 2017-06-07 | 2024-03-01 | 三菱电机楼宇解决方案株式会社 | 数据名称分类辅助装置 |
US11960530B2 (en) | 2019-05-31 | 2024-04-16 | Pfu Limited | File management device, file management method, and non-transitory computer readable medium |
WO2020240820A1 (ja) | 2019-05-31 | 2020-12-03 | 株式会社Pfu | ファイル管理装置、ファイル管理方法、及びプログラム |
US11314783B2 (en) | 2020-06-05 | 2022-04-26 | Bank Of America Corporation | System for implementing cognitive self-healing in knowledge-based deep learning models |
US20210397940A1 (en) * | 2020-06-10 | 2021-12-23 | Nvidia Corporation | Behavior modeling using client-hosted neural networks |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0877010A (ja) * | 1994-09-07 | 1996-03-22 | Hitachi Ltd | データ分析方法および装置 |
GB2321364A (en) * | 1997-01-21 | 1998-07-22 | Northern Telecom Ltd | Retraining neural network |
US6336109B2 (en) * | 1997-04-15 | 2002-01-01 | Cerebrus Solutions Limited | Method and apparatus for inducing rules from data classifiers |
JP3209163B2 (ja) * | 1997-09-19 | 2001-09-17 | 日本電気株式会社 | 分類装置 |
JP2000029902A (ja) * | 1998-07-15 | 2000-01-28 | Nec Corp | 構造化文書分類装置およびこの構造化文書分類装置をコンピュータで実現するプログラムを記録した記録媒体、並びに、構造化文書検索システムおよびこの構造化文書検索システムをコンピュータで実現するプログラムを記録した記録媒体 |
EP1049030A1 (en) * | 1999-04-28 | 2000-11-02 | SER Systeme AG Produkte und Anwendungen der Datenverarbeitung | Classification method and apparatus |
US6917839B2 (en) * | 2000-06-09 | 2005-07-12 | Intellectual Assets Llc | Surveillance system and method having an operating mode partitioned fault classification model |
US6842751B1 (en) * | 2000-07-31 | 2005-01-11 | International Business Machines Corporation | Methods and apparatus for selecting a data classification model using meta-learning |
JP2002202984A (ja) | 2000-11-02 | 2002-07-19 | Fujitsu Ltd | ルールベースモデルに基づくテキスト情報自動分類装置 |
JP2002157262A (ja) | 2000-11-20 | 2002-05-31 | Hitachi Ltd | 分類ルール定義支援方法 |
US20020147694A1 (en) * | 2001-01-31 | 2002-10-10 | Dempsey Derek M. | Retraining trainable data classifiers |
US7043075B2 (en) * | 2001-09-27 | 2006-05-09 | Koninklijke Philips Electronics N.V. | Computer vision system and method employing hierarchical object classification scheme |
AU2002330830A1 (en) | 2002-08-22 | 2004-03-11 | Agency For Science, Technology And Reseach | Prediction by collective likelihood from emerging patterns |
-
2005
- 2005-08-19 JP JP2005239194A patent/JP4429236B2/ja not_active Expired - Fee Related
- 2005-11-17 US US11/281,956 patent/US8176050B2/en not_active Expired - Fee Related
- 2005-12-15 CN CNA2005101319068A patent/CN1916895A/zh active Pending
- 2005-12-15 CN CNA2008101781455A patent/CN101430704A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112612660A (zh) * | 2020-12-16 | 2021-04-06 | 海光信息技术股份有限公司 | 规格信息数据库创建方法、芯片挑选方法及装置和系统 |
CN112612660B (zh) * | 2020-12-16 | 2024-02-13 | 海光信息技术股份有限公司 | 规格信息数据库创建方法、芯片挑选方法及装置和系统 |
Also Published As
Publication number | Publication date |
---|---|
US8176050B2 (en) | 2012-05-08 |
US20070043690A1 (en) | 2007-02-22 |
JP2007052744A (ja) | 2007-03-01 |
JP4429236B2 (ja) | 2010-03-10 |
CN1916895A (zh) | 2007-02-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101430704A (zh) | 支持分类规则创建的方法和装置 | |
CN106294425B (zh) | 商品相关网络文章之自动图文摘要方法及系统 | |
CN110532451A (zh) | 针对政策文本的检索方法和装置、存储介质、电子装置 | |
US9898464B2 (en) | Information extraction supporting apparatus and method | |
KR101755409B1 (ko) | 컨텐츠 추천 시스템 및 방법 | |
CN108846097B (zh) | 用户的兴趣标签表示方法、文章推荐方法、及装置、设备 | |
CN103810162B (zh) | 推荐网络信息的方法和系统 | |
KR20210036184A (ko) | 사용자 취향정보 파악 방법 및 사용자 취향 정보에 기반한 아이템 추천 모듈 | |
CN112631997A (zh) | 数据处理方法、装置、终端及存储介质 | |
CN101452443B (zh) | 逻辑结构模型创建辅助设备和方法 | |
CN108496190A (zh) | 用于从电子数据结构中提取属性的注释系统 | |
CN110134845A (zh) | 项目舆情监控方法、装置、计算机设备及存储介质 | |
KR101660463B1 (ko) | 컨텐츠 추천 시스템 및 방법 | |
CN110188165A (zh) | 合同模板获取方法、装置、存储介质和计算机设备 | |
CN107491447A (zh) | 建立查询改写判别模型、查询改写判别的方法和对应装置 | |
CN113706251A (zh) | 基于模型的商品推荐方法、装置、计算机设备和存储介质 | |
KR102185733B1 (ko) | 프로필 자동생성서버 및 방법 | |
CN113515699A (zh) | 信息推荐方法及装置、计算机可读存储介质、处理器 | |
CN117420998A (zh) | 一种客户端ui交互组件生成方法、装置、终端及介质 | |
CN110263318A (zh) | 实体名称的处理方法、装置、计算机可读介质及电子设备 | |
CN117112775A (zh) | 自动填写输入表单以生成列表的技术 | |
WO2007011714A9 (en) | Method and system for automatically extracting data from web sites | |
CN115168700A (zh) | 一种基于预训练算法的信息流推荐方法、系统及介质 | |
CN115033799A (zh) | 一种商品搜索方法、系统及存储介质 | |
CN114519073A (zh) | 一种基于图谱关系挖掘的产品配置推荐方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20090513 |