CN101911067A - 信息过滤系统、信息过滤方法以及信息过滤程序 - Google Patents
信息过滤系统、信息过滤方法以及信息过滤程序 Download PDFInfo
- Publication number
- CN101911067A CN101911067A CN2008801242829A CN200880124282A CN101911067A CN 101911067 A CN101911067 A CN 101911067A CN 2008801242829 A CN2008801242829 A CN 2008801242829A CN 200880124282 A CN200880124282 A CN 200880124282A CN 101911067 A CN101911067 A CN 101911067A
- Authority
- CN
- China
- Prior art keywords
- mentioned
- information
- learning
- classification
- study
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90339—Query processing by using parallel associative memories or content-addressable memories
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
字符串匹配部(110)通过输入文档(801)与匹配条件信息(109)表示的分类关键字的字符串匹配来确定输入文档(801)的类型。学习数据(209)表示各类型的统计信息。分类部(220)根据输入文档(801)与学习数据(209)表示的统计信息的对应比率确定输入文档(801)的类型。正确答案比较部(120)比较字符串匹配部(110)确定的类型与正确答案信息(803)的类型。学习部(210)比较分类部(220)确定的类型与正确答案信息(803)的类型。错误率计算部(310)根据正确答案比较部(120)的比较结果与学习部(210)的比较结果计算字符串匹配型过滤器部(100)与学习型过滤器部(200)的分类错误率。结果输出部(320)将由分类错误率小的过滤器确定出的类型作为分类对象文档(804)的分类结果(301)而输出。
Description
技术领域
本发明涉及例如对输入文档进行分类的信息过滤系统、信息过滤方法以及信息过滤程序。
背景技术
信息过滤是指,通过是否与用户事先设定的要求(过滤条件)符合,来自动地挑选信息的信息处理。在信息过滤中,一般采用如下方法:为了提高过滤的精度,使用通过机械学习进行的文档的自动分类技术,通过用户指定的反馈来追加或者变更过滤条件(专利文献1)。将其称为学习型过滤器。
进而,作为用于提高过滤的精度的方法,还有组合了具有不同的过滤条件的多个学习型过滤器的过滤方法(专利文献2)。在该方法中,多个过滤器的输出(对过滤条件的适应性)根据用户的指定而合成,成为最终输出。
专利文献1:日本特开平9-288683号公报
专利文献2:日本特开2001-229164号公报
发明内容
但是,在这样的学习型过滤器中,存在在学习量少的初始状态下过滤精度较低这样的课题。为了解决该课题,例如,在系统的运用前准备充分的量的学习样品数据,直到得到充分的精度为止系统进行学习即可。但是,在学习样品数据的制作中需要通过人工识别是否与要求(过滤条件)符合。因此,在实际的系统中难以准备充分的量的学习样品数据。
另外,在由于环境变化(例如,企业内的组织改变)等,而用户的要求、过滤对象的数据内容在短时间内大幅变化这样的情况下,在该变化时过滤精度临时大幅降低。而且,存在如下课题:在通过用户指定的反馈而使学习型过滤器追随该变化的情况下,为了使过滤精度返回到原来而需要时间。
本发明是为了解决例如上述那样的课题而完成的,其目的在于提供一种信息过滤系统,即使在学习量少的初始状态时或者用户要求、或对象数据内容大幅变化时,也可以确保一定水平的过滤精度。
本发明提供一种信息过滤系统,其特征在于,具备:
第1过滤器部,从输入设备输入属于多个种类中的至少任意一个种类的文档数据,使用CPU(Central Processing Unit,中央处理单元)来执行确定所输入的上述文档数据所属的种类的规定的分类处理,将输入的上述文档数据所属的种类确定为第1分类信息;
第2过滤器部,从输入设备输入上述文档数据,使用CPU来执行与上述第1过滤器部的上述分类处理不同的规定的分类处理,将输入的上述文档数据所属的种类确定为第2分类信息;
第1正确答案比较部,使用CPU,对将预先确定了所属的种类的多个学习文档数据分别作为上述文档数据而由上述第1过滤器部确定出的上述多个学习文档数据的上述第1分类信息、与表示预先确定的上述所属的种类的上述多个学习文档数据的正确答案信息进行比较,根据比较结果来生成表示上述第1分类信息是否与上述正确答案信息一致的上述多个学习文档数据的第1学习结果信息,将生成的上述多个学习文档数据的上述第1学习结果信息存储在存储设备中;
第2正确答案比较部,使用CPU,对将上述多个学习文档数据分别作为上述文档数据而由上述第2过滤器部确定出的上述多个学习文档数据的上述第2分类信息、与上述多个学习文档数据的上述正确答案信息进行比较,根据比较结果来生成表示上述第2分类信息是否与上述正确答案信息一致的上述多个学习文档数据的第2学习结果信息,将生成的上述多个学习文档数据的上述第2学习结果信息存储在存储设备中;
错误率计算部,使用CPU,根据上述第1正确答案比较部生成的上述多个上述学习文档数据的上述第1学习结果信息,计算表示上述第1分类信息与上述正确答案信息不一致的比例的第1错误率,并且使用CPU,根据上述第2正确答案比较部生成的上述多个上述学习文档数据的上述第2学习结果信息,计算表示上述第2分类信息与上述正确答案信息不一致的比例的第2错误率;以及
结果输出部,使用CPU,根据将分类为特定的种类的对象即分类对象文档数据作为上述文档数据而由上述第1过滤器部确定出的上述第1分类信息、将上述分类对象文档数据作为上述文档数据而由上述第2过滤器部确定出的上述第2分类信息、上述错误率计算部计算出的上述第1错误率、以及上述错误率计算部计算出的上述第2错误率,确定上述分类对象文档数据所属的种类,将确定出的种类作为分类结果而输出到输出设备。
上述第1过滤器部是具备如下部件的学习型过滤器部:
学习部,从输入设备输入多组上述学习文档数据与上述正确答案信息的组,根据上述多组使用CPU来执行将属于各种类的各学习文档数据中通用的统计信息作为学习数据而生成的统计处理,将通过上述统计处理生成的上述学习数据存储在存储设备中;以及
学习型分类部,从输入设备输入上述分类对象文档数据,使用CPU,针对每个种类,计算上述分类对象文档数据对应于由上述学习部生成的上述学习数据表示的上述统计信息的比率而作为分类概率,根据每个种类的上述分类概率来确定上述分类对象文档数据所属的种类。
上述学习部使用贝叶斯理论、SVM(Support Vector Machine,支持向量机)、神经网络模型或其它学习型算法进行上述统计处理。
上述第2过滤器部是如下字符串匹配型过滤器部:
从输入设备输入上述文档数据,从将属于各种类的分类关键字预先存储为匹配条件信息的存储设备中输入上述匹配条件信息,使用CPU,执行判定上述匹配条件信息表示的各种类的上述分类关键字是否包含在上述文档数据中的字符串匹配处理,将通过上述字符串匹配处理判定为包含在上述文档数据中的上述分类关键字所属的种类确定为上述文档数据所属的种类。
上述字符串匹配型过滤器部使用决定性有限自动机来进行上述字符串匹配处理。
上述字符串匹配型过滤器部将表示上述分类关键字的上述决定性有限自动机的状态迁移表作为上述匹配条件信息而执行上述字符串匹配处理。
上述字符串匹配型过滤器部使用非决定性有限自动机来进行上述字符串匹配处理。
上述结果输出部在上述第1错误率小于上述第2错误率的情况下,将上述第1分类信息作为上述分类结果而输出,在上述第2错误率小于上述第1错误率的情况下,将上述第2分类信息作为上述分类结果而输出。
上述结果输出部用规定的数值来表示上述第1分类信息与上述第2分类信息,根据上述第1错误率对上述第1分类信息进行加权,并且根据上述第2错误率对上述第2分类信息进行加权,计算加权后的上述第1分类信息与加权后的上述第2分类信息的平均值而作为加权平均值,对计算出的加权平均值与规定的阈值进行比较,根据比较结果输出上述分类结果。
上述匹配条件信息将多个上述分类关键字中的特定的上述分类关键字表示为特定关键字,
上述结果输出部输出上述特定关键字所属的种类,而作为由上述字符串匹配型过滤器部判定为包括上述特定关键字的上述分类对象文档数据的上述分类结果。
上述错误率计算部根据在规定的期间内生成的上述第1学习结果信息来计算上述第1错误率,并且根据在上述规定的期间内生成的上述第2学习结果信息来计算上述第2错误率。
上述学习型过滤器部具备第1学习型过滤器部与第2学习型过滤器部,
上述第1学习型过滤器部与上述第2学习型过滤器部分别具备上述学习部与上述学习型分类部,
上述第1学习型过滤器部的上述学习部与上述第2学习型过滤器部的上述学习部执行分别不同的上述统计处理,
上述第1分类信息表示第1学习分类信息和第2学习分类信息,其中,第1学习分类信息表示由上述第1学习型过滤器部的上述学习型分类部确定出的上述种类,第2学习分类信息表示由上述第2学习型过滤器部的上述学习型分类部确定出的上述种类。
上述结果输出部在将上述第1分类信息作为上述分类结果而输出的情况下,求出上述第1学习分类信息表示的上述种类与上述第2学习分类信息表示的上述种类的逻辑和,将求出的上述逻辑和表示的上述种类作为上述分类结果而输出。
上述结果输出部在将上述第1分类信息作为上述分类结果而输出的情况下,根据上述第1学习分类信息表示的上述种类的上述分类概率与上述第2学习分类信息表示的上述种类的上述分类概率,输出上述分类结果。
上述结果输出部在将上述第1分类信息作为上述分类结果而输出的情况下,根据上述第1学习分类信息的上述第1错误率对上述第1学习分类信息进行加权,并且根据上述第1学习分类信息的上述第1错误率对上述第1学习分类信息进行加权,计算加权后的上述第1学习分类信息与加权后的上述第2学习分类信息的平均值而作为加权平均值,对计算出的加权平均值与规定的阈值进行比较,根据比较结果输出上述分类结果。
上述学习型过滤器部具备多个上述学习部与上述学习型分类部的组,
多个上述学习部执行分别不同的上述统计处理,
上述第1分类信息表示由各组的上述学习型分类部分别确定出的上述种类,
上述结果输出部在将上述第1分类信息作为上述分类结果而输出的情况下,将在最多的组中确定的上述种类作为上述分类结果而输出。
本发明提供一种信息过滤方法,其特征在于,
第1过滤器部进行第1过滤器处理,其中,从输入设备输入属于多个种类中的至少任意一个种类的文档数据,使用CPU(CentralProcessing Unit)来执行确定所输入的上述文档数据所属的种类的规定的分类处理,将输入的上述文档数据所属的种类确定为第1分类信息,
第2过滤器部进行第2过滤器处理,其中,从输入设备输入上述文档数据,使用CPU来执行与上述第1过滤器部的上述分类处理不同的规定的分类处理,将输入的上述文档数据所属的种类确定为第2分类信息;
第1正确答案比较部进行第1正确答案比较处理,其中,使用CPU,对将预先确定了所属的种类的多个学习文档数据分别作为上述文档数据而由上述第1过滤器部确定出的上述多个学习文档数据的上述第1分类信息、与表示预先确定的上述所属的种类的上述多个学习文档数据的正确答案信息进行比较,根据比较结果,生成表示上述第1分类信息是否与上述正确答案信息一致的上述多个学习文档数据的第1学习结果信息,将生成的上述多个学习文档数据的上述第1学习结果信息存储在存储设备中,
第2正确答案比较部进行第2正确答案比较处理,其中,使用CPU,对将上述多个学习文档数据分别作为上述文档数据而由上述第2过滤器部确定出的上述多个学习文档数据的上述第2分类信息、与上述多个学习文档数据的上述正确答案信息进行比较,根据比较结果来生成表示上述第2分类信息是否与上述正确答案信息一致的上述多个学习文档数据的第2学习结果信息,将生成的上述多个学习文档数据的上述第2学习结果信息存储在存储设备中,
错误率计算部进行错误率计算处理,其中,使用CPU,根据上述第1正确答案比较部生成的上述多个上述学习文档数据的上述第1学习结果信息,计算表示上述第1分类信息与上述正确答案信息不一致的比例的第1错误率,并且使用CPU,根据上述第2正确答案比较部生成的上述多个上述学习文档数据的上述第2学习结果信息,计算表示上述第2分类信息与上述正确答案信息不一致的比例的第2错误率;以及
结果输出部进行结果输出处理,其中,使用CPU,根据将分类成特定的种类的对象即分类对象文档数据作为上述文档数据而由上述第1过滤器部确定出的上述第1分类信息、将上述分类对象文档数据作为上述文档数据而由上述第2过滤器部确定出的上述第2分类信息、上述错误率计算部计算出的上述第1错误率、以及上述错误率计算部计算出的上述第2错误率,确定上述分类对象文档数据所属的种类,将确定出的种类作为分类结果而输出到输出设备。
本发明提供一种信息过滤程序,其特征在于,使计算机执行上述信息过滤方法。
根据本发明,例如,通过结果输出部根据由第1过滤器部确定出的第1分类信息、由第2过滤器部确定出的第2分类信息、以及各过滤器部的错误率来输出分类结果,信息过滤系统可以确保一定等级的过滤精度。
附图说明
图1是实施方式1中的信息过滤系统900的功能结构图。
图2是示出实施方式1中的信息过滤系统900的外观的一个例子的图。
图3是示出实施方式1中的信息过滤系统900的硬件资源的一个例子的图。
图4是示出实施方式1中的学习结果生成处理的流程的流程图。
图5是示出实施方式1中的DFA的状态迁移表的一个例子的图。
图6是示出实施方式1中的信息过滤系统900的过滤处理的流程的流程图。
图7是示出实施方式1中的信息过滤系统900的运用步骤的流程图。
图8是实施方式2中的信息过滤系统900的功能结构图。
(标号说明)
100:字符串匹配型过滤器部;101:符合信息;102:符合错误有无信息;108:分类关键字;109:匹配条件信息;110:字符串匹配部;120:正确答案比较部;190:字符串匹配型过滤器存储部;200、200a、200b、200c:学习型过滤器部;201:分类信息;202:分类错误有无信息;209:学习数据;210:学习部;220:分类部;290:学习型过滤器存储部;300:结果判定部;301:分类结果;308:错误率信息;309:学习结果信息;310:错误率计算部;320:结果输出部;390:结果判定存储部;400:学习型过滤器集合部;801:输入文档;802:学习用文档;803:正确答案信息;804:分类对象文档;900:信息过滤系统;901:显示装置;902:键盘;903:鼠标;904:FDD;905:CDD;906:打印机装置;907:扫描器装置;910:系统单元;911:CPU;912:总线;913:ROM;914:RAM;915:通信板;920:磁盘装置;921:OS;922:视窗系统;923:程序组;924:文件组;931:电话机;932:传真机;940:因特网;941:网关;942:LAN。
具体实施方式
实施方式1
图1是实施方式1中的信息过滤系统900的功能结构图。
根据图1,以下说明实施方式1中的信息过滤系统900的功能结构。
信息过滤系统900具备字符串匹配型过滤器部100、学习型过滤器部200以及结果判定部300。
字符串匹配型过滤器部100(第2过滤器部)具备字符串匹配部110、正确答案比较部120以及字符串匹配型过滤器存储部190,从输入设备输入属于多个分类类型(分类种类)中的至少任意一个类型的输入文档801(学习用文档802、分类对象文档804),对输入文档801使用CPU执行字符串匹配处理(规定的分类处理的一个例子),将输入文档801所属的类型确定为符合信息101(第2分类信息)。
字符串匹配型过滤器存储部190是存储字符串匹配型过滤器部100使用的各种信息的存储设备。例如,在字符串匹配型过滤器存储部190中,预先存储有表示属于各类型的分类关键字108的匹配条件信息109。
字符串匹配部110从字符串匹配型过滤器存储部190输入匹配条件信息109,使用CPU来执行判定匹配条件信息109所示的各类型的分类关键字108是否包含在输入文档801中的字符串匹配处理。然后,字符串匹配部110将判定为包含在输入文档801中的分类关键字108所属的类型设为该输入文档801的符合信息101。例如,字符串匹配部110使用决定性有限自动机(automaton)或者非决定性有限自动机来进行字符串匹配处理。在通过决定性有限自动机来进行字符串匹配处理的情况下,将表示分类关键字108的决定性有限自动机的状态迁移表作为匹配条件信息109而预先存储在字符串匹配型过滤器存储部190中。字符串匹配部110使用预先存储在字符串匹配型过滤器存储部190中的状态迁移表来执行字符串匹配处理。例如,在信息过滤系统900的运用开始前生成该状态迁移表,并存储在字符串匹配型过滤器存储部190中。
正确答案比较部120(第2正确答案比较部)使用CPU,对字符串匹配部110确定出的学习用文档802(学习文档数据)的符合信息101、与表示预先确定的学习用文档802所属的类型的正确答案信息803进行比较。接下来,正确答案比较部120根据比较结果来生成表示符合信息101是否与正确答案信息803一致的符合错误有无信息102(第2学习结果信息)。然后,正确答案比较部120将生成的符合错误有无信息102作为学习结果信息309而存储在结果判定存储部390中。正确答案比较部120对多个学习用文档802,针对每个学习用文档802生成符合错误有无信息102并将其存储。
学习型过滤器部200(第1过滤器部)具备学习部210、分类部220以及学习型过滤器存储部290,从输入设备输入输入文档801,使用CPU来执行学习型过滤器处理(与字符串匹配型过滤器部100的分类处理不同的规定的分类处理的一个例子),将输入文档801所属的类型确定为分类信息201(第1分类信息)。
学习型过滤器存储部290是存储学习型过滤器部200使用的各种信息的存储设备。例如,在学习型过滤器存储部290中,针对每个类型将属于该类型的各输入文档801中通用的统计信息存储为学习数据209。
学习部210从输入设备输入多组学习用文档802与正确答案信息803的组,使用CPU来执行基于所输入的多组的统计处理,将通过统计处理生成的学习数据209存储在学习型过滤器存储部290中。例如,学习部210使用贝叶斯(Bayesian)理论、SVM(Support VectorMachine,支持向量机)或者神经网络模型来进行统计处理。
分类部220(学习型分类部)从输入设备输入分类为特定的类型的对象即分类对象文档804(分类对象文档数据),针对每个类型,利用CPU计算分类对象文档804相对于由学习部210生成的学习数据209表示的统计信息所对应的比率,作为分类概率。然后,分类部220根据每个类型的分类概率,将分类对象文档804所属的类型确定为分类信息201。
另外,学习部210(第1正确答案比较部)使用CPU,对分类部220确定出的学习用文档802的分类信息201与正确答案信息803进行比较。接下来,学习部210根据比较结果来生成表示分类信息201是否与正确答案信息803一致的分类错误有无信息202(第2学习结果信息)。然后,学习部210将生成的分类错误有无信息202作为学习结果信息309而存储在结果判定存储部390中。学习部210对多个学习用文档802,针对每个学习用文档802生成分类错误有无信息202并将其存储。
结果判定部300具备错误率计算部310、结果输出部320以及结果判定存储部390,将分类对象文档804的分类结果301输出到输出设备。
结果判定存储部390是存储结果判定部300使用的各种信息的存储设备。例如,在结果判定存储部390中,存储字符串匹配型过滤器部100的正确答案比较部120生成的多个符合错误有无信息102、学习型过滤器部200的学习部210生成的多个分类错误有无信息202,而作为学习结果信息309。另外例如,在结果判定存储部390中,存储字符串匹配型过滤器部100的分类错误率、学习型过滤器部200的分类错误率而作为错误率信息308。
错误率计算部310根据字符串匹配型过滤器部100的正确答案比较部120生成的多个符合错误有无信息102,使用CPU来计算表示符合信息101与正确答案信息803不一致的比例的字符串匹配型过滤器部100的分类错误率(第2错误率)。另外,错误率计算部310根据学习型过滤器部200的学习部210生成的多个分类错误有无信息202,使用CPU来计算表示分类信息201与正确答案信息803不一致的比例的学习型过滤器部200的分类错误率(第1错误率)。将错误率计算部310计算出的字符串匹配型过滤器部100的分类错误率以及学习型过滤器部200的分类错误率在结果判定存储部390中存储为错误率信息308。
另外,错误率计算部310根据在规定的期间内生成的学习结果信息309来计算出字符串匹配型过滤器部100的分类错误率与学习型过滤器部200的分类错误率。
此处,分类错误率是指,从100%减去分类正确答案率而得到的值,所以可以将计算分类错误率置换为计算分类正确答案率。即,错误率计算部310还可以被称为计算分类正确答案率。
结果输出部320根据字符串匹配型过滤器部100的字符串匹配部110确定出的符合信息101、学习型过滤器部200的分类部220确定出的分类信息201、以及错误率计算部310计算出的错误率信息308,使用CPU来确定分类对象文档804所属的类型。然后,结果输出部320将确定出的类型作为分类结果301而输出到输出设备。其相当于,结果输出部320根据符合信息101、分类信息201、以及各过滤器部的分类正确答案率来确定分类对象文档804的类型。
例如,结果输出部320在字符串匹配型过滤器部100的分类错误率比学习型过滤器部200的分类错误率小的情况下将符合信息101表示的类型作为分类结果301而输出,在学习型过滤器部200的分类错误率比字符串匹配型过滤器部100的分类错误率小的情况下将分类信息201表示的类型作为分类结果301而输出。其相当于,在字符串匹配型过滤器部100的分类正确答案率比学习型过滤器部200的分类正确答案率大的情况下将符合信息101表示的类型作为分类结果301而输出,在学习型过滤器部200的分类正确答案率比字符串匹配型过滤器部100的分类正确答案率大的情况下将分类信息201表示的类型作为分类结果301而输出。
另外例如,结果输出部320用规定的数值来表示符合信息101与分类信息201,根据字符串匹配型过滤器部100的分类错误率对符合信息101进行加权,并且根据学习型过滤器部200的分类错误率对分类信息201进行加权。接下来,结果输出部320计算加权后的符合信息101与加权后的分类信息201的平均值而作为加权平均值。然后,结果输出部320对计算出的加权平均值与规定的阈值进行比较,根据比较结果来输出分类结果301。
另外例如,在匹配条件信息109中,预先设定应作为分类结果而优先的特定的关键字(优先关键字)。然后,在字符串匹配型过滤器部100的字符串匹配部110判定为在分类对象文档804中不包含优先关键字的情况下,结果输出部320与字符串匹配型过滤器部100和学习型过滤器部200的分类错误率的大小、加权平均值等无关地,将优先关键字所属的类型输出为分类结果301。
图2是示出实施方式1中的信息过滤系统900的外观的一个例子的图。
在图2中,信息过滤系统900具备系统单元910、具有CRT(Cathode Ray Tube,阴极射线管)、或LCD(液晶)显示画面的显示装置901、键盘902(Key Board:K/B)、鼠标903、FDD904(FlexibleDisk Drive,软盘驱动器)、CDD905(高密度盘装置)、打印机装置906、以及扫描器装置907等硬件资源,用电缆、或信号线来连接它们。
系统单元910是计算机,通过电缆与传真机932、电话机931连接,并且经由LAN942(局域网)、网关941与因特网940连接。
图3是示出实施方式1中的信息过滤系统900的硬件资源的一个例子的图。
在图3中,信息过滤系统900具备执行程序的CPU911(CentralProcessing Unit,还被称为中央处理装置、处理装置、运算装置、微处理器、微计算机、以及处理器)。CPU911经由总线912与ROM913、RAM914、通信板915、显示装置901、键盘902、鼠标903、FDD904、CDD905、打印机装置906、扫描器装置907、以及磁盘装置920连接,对这些硬件设备进行控制。也可以代替磁盘装置920,而使用光盘装置、存储卡读写装置等存储装置。
RAM914是易失性存储器的一个例子。ROM913、FDD904、CDD905、以及磁盘装置920的存储介质是非易失性存储器的一个例子。它们是存储设备、存储装置或者存储部的一个例子。另外,存储有输入数据的存储设备是输入设备、输入装置或者输入部的一个例子,存储有输出数据的存储设备是输出设备、输出装置或者输出部的一个例子。
通信板915、键盘902、扫描器装置907、以及FDD904等是输入设备、输入装置或者输入部的一个例子。
另外,通信板915、显示装置901、以及打印机装置906等是输出设备、输出装置或者输出部的一个例子。
通信板915与传真机932、电话机931、以及LAN942等连接。通信板915不限于LAN942,而也可以与因特网940、ISDN等WAN(广域网)等连接。在与因特网940或者ISDN等WAN连接的情况下,无需网关941。
在磁盘装置920中,存储有OS921(操作系统)、视窗系统922、程序组923、以及文件组924。由CPU911、OS921、以及视窗系统922执行程序组923的程序。
在上述程序组923中,存储有执行在实施方式中说明为“~部”的功能的程序。由CPU911读出程序并执行该程序。
在文件组924中,在实施方式中,将执行了“~部”的功能时的“~的判定结果”、“~的计算结果”、及“~的处理结果”等结果数据、在执行“~部”的功能的程序之间交换的数据、其他信息、数据、信号值、变量值、以及参数存储为“~文件”、“~数据库”的各项目。符合信息101、匹配条件信息109、分类信息201、学习数据209、分类结果301、错误率信息308、以及学习结果信息309等是包含在文件组924中的电子数据的一个例子。
将“~文件”、“~数据库”存储在盘、存储器等记录介质中。由CPU911通过读写电路将存储在盘、存储器等存储介质中的信息、数据、信号值、变量值、以及参数读出到主存储器、高速缓存存储器中,而用于抽出、检索、参照、比较、运算、计算、处理、输出、印刷、以及显示等CPU的动作。在抽出、检索、参照、比较、运算、计算、处理、输出、印刷、以及显示的CPU的动作的期间,将信息、数据、信号值、变量值、以及参数临时存储在主存储器、高速缓存存储器、以及缓冲存储器中。
另外,在实施方式中说明的流程图的箭头的部分主要表示数据、信号的输入输出,将数据、信号值记录在RAM914的存储器、FDD904的软盘、CDD905的高密度盘、磁盘装置920的磁盘、其他光盘、迷你盘、以及DVD(Digital Versatile Disc,数字通用盘)等记录介质中。另外,通过总线912、信号线、电缆、以及其他传送介质,联机传送数据、信号值。
另外,在实施方式中说明为“~部”的部分,既可以是“~电路”、“~装置”、以及“~设备”,并且,也可以是“~阶段”、“~步骤”、以及“~处理”。即,说明为“~部”的部分也可以通过存储在ROM913中的固件来实现。或者、也可以仅通过软件,或者仅通过元件、设备、基板、以及布线等硬件,或者通过软件与硬件的组合,进而通过与固件的组合来实施。将固件与软件作为程序,而存储在磁盘、软盘、光盘、高密度盘、迷你盘、以及DVD等记录介质中。程序由CPU911读出,并由CPU911执行。即,信息过滤程序等程序使计算机作为“~部”而发挥功能。或者,使计算机执行“~部”的步骤、方法。
图4是示出实施方式1中的学习结果生成处理的流程的流程图。
以下,参照图4,对信息过滤系统900生成学习数据209、学习结果信息309以及错误率信息308的方法进行说明。
构成信息过滤系统900的各部使用CPU来执行以下说明的各处理。
<S110:第2学习分类处理>
字符串匹配型过滤器部100的字符串匹配部110根据匹配条件信息109对学习用文档802进行字符串匹配,输出符合信息101。
以下,详细说明第2学习分类处理(S110)。
首先,字符串匹配部110从输入设备输入学习用文档802。
由用户预先确定学习用文档802所属的类型。
接下来,字符串匹配部110从字符串匹配型过滤器存储部190输入匹配条件信息109。
在系统的运用前或者系统的运用中由用户设定匹配条件信息109并存储在字符串匹配型过滤器存储部190中。在匹配条件信息109中,针对每个类型设定了1个以上的属于对输入文档801进行分类的各类型的分类关键字108。
分类关键字108既可以是固定的用语,也可以是正规表现。例如,在匹配条件信息109中,作为属于“公司信息(机密信息的一个例子)”类型的分类关键字108,设定了“公司外机密”这样的固定的用语、或者、“公司*外*机密”这样的正规表现。“*”表示任意的1个文字或者任意的字符串(连续的多个文字、文字组),在“公司*外*机密”中还包括如“公司_外_机密”(“_”表示空格)这样在文字间包括空格的情形。即,对于正规表现,在1个标记中,可以将由于标记变化引起的不同的多个标记表示为相同意思的单词。标记变化是指,汉字后边标记的假名、发音符号(长音符)、以及空格的有无。通过用正规表现来表示分类关键字108,字符串匹配部110不仅可以将简单的用语设为匹配对象,而且还可以将复杂的表现设为匹配对象。
另外,用户也可以将各分类种类分别分成多个组,并且针对每个组设定分类关键字108,对匹配条件信息109进行详细化、分层化。
例如,为了使信息过滤系统900检测机密信息,用户也可以将机密文档分成“个人信息”、“顾客信息”、以及“新技术信息”等类型,作为属于“个人信息”类型的组而设置“姓名”、“住址”等,作为属于“姓名”组的分类关键字108而设定“姓名”、”住址”、各个姓名(“铃木”、“佐藤”、以及“田中”等)、地名(“东京都”、“千代田区”等)等单词(包括正规表现)。在该情况下,表示“姓名”、“住址”、各个姓名、以及地名的各分类关键字108属于机密文档的“个人信息”类型。
另外例如,用户也可以针对表示机密的等级的每个级别对各类型进行分组。
另外例如,用户也可以按照时间单位(1年单位、1个月单位等)对各类型进行分组。将公司设立时的部署名(包括简称)设为分类关键字108的组、将在XXXX年YY月ZZ日通过组织改正变更的部署名设为分类关键字108的组是按照时间单位区分的组的一个例子。
用户既可以针对每个分类关键字108进行追加、变更以及删除而设定匹配条件信息109,也可以针对每个组或者每个类型设定匹配条件信息109。
匹配条件信息109表示由用户设定的“1个以上的类型”、“属于各类型的1个以上的组”以及“属于各组的1个以上的分类关键字108”。另外,用ID(Identifier,标识符)来识别各组。
匹配条件信息109既可以是罗列了类型、组以及分类关键字108的文本文件,也可以是表示DFA(Deterministic Finite Automaton,决定性有限自动机)的状态迁移表的表文件。
在作为DFA已知的方法中,对表示各分类关键字108的正规表现的匹配条件进行编译,生成表示匹配条件的状态迁移表,根据该状态迁移表来进行字符串匹配。
预先,通过对匹配条件进行编译并将状态迁移表保存为匹配条件信息109,可以无需系统起动时的编译时间,而使系统的起动处理高速化。
在DFA的状态迁移表中,将文字的排列顺序表示为“状态(例如,状态0、状态1、...)”,将“当前的状态”与“接下来的文字”表示为表的列项目以及行项目,将“当前的状态”与“接下来的文字”的组合表示为“接下来的状态”。字符串匹配部110从输入文档801依次输入文字,与输入的文字对应地从“当前的状态”向“接下来的状态”反复状态迁移,在“当前的状态”成为最终状态(表示分类关键字108的开头文字至最终文字的排列顺序的状态)的情况下,判定为该分类关键字108包含在输入文档801中。
图5是示出实施方式1中的DFA的状态迁移表的一个例子的图。
例如,用图5的状态迁移表来表示“abc”这样的分类关键字108。其中,在图5中,仅针对“a”、“b”、“c”这3个文字示出状态迁移,对其他文字(例如,“d”、“e”、...“z”)进行省略。
在图5中,第1列中示出的“状态0”、“状态1”、“状态2”、以及“状态3”表示当前的状态,第1行中示出的“a”、“b”、以及“c”表示新的输入文字(接下来的文字),第2行2列至第5行4列的值表示接下来的状态。
“状态0”表示没有输入分类关键字108的开头文字“a”的状态。
“状态1”表示输入了类关键字108的开头文字“a”的状态。
“状态2”表示接着“a”输入了“b”的状态。
“状态3”表示接着“ab”输入了“c”的最终状态。
在当前的状态是“状态0”的情况下,如果接下来的文字是“a”,则状态迁移到“状态1”,如果接下来的文字是“b”或者“c”,则状态保持“状态0”。
在当前的状态是“状态1”的情况下,如果接下来的文字是“a”则状态保持“状态1”,如果接下来的文字是“b”则状态迁移到“状态2”,如果接下来的文字是“c”则状态返回到“状态0”。
在当前的状态是“状态2”的情况下,如果接下来的文字是“a”,则状态返回到“状态1”,如果接下来的文字是“b”,则状态返回到“状态0”,如果接下来的文字是“c”则状态迁移到最终状态即“状态3”。
即,仅限于文字的排列顺序是“a→b→c”的情况,状态成为表示“abc”这样的分类关键字108的最终状态。
字符串匹配部110在从字符串匹配型过滤器存储部190输入了匹配条件信息109后,进行判定对匹配条件信息109设定的各分类关键字108是否包含在学习用文档802中的字符串匹配处理。
例如,在字符串匹配处理中,使用C语言的strstr函数、grep、sed、及perl等工具、以及其他正规表现库。
字符串匹配处理既可以是将对匹配条件信息109设定的各分类关键字108作为检索关键字而检索学习用文档802的处理,也可以是对包含在学习用文档802中的各词与对匹配条件信息109设定的各分类关键字108进行比较的处理。例如,通过形态分析来抽出包含在学习用文档802中的各词。
然后,字符串匹配部110根据字符串匹配处理的结果来生成符合信息101,将生成的符合信息101输出到正确答案比较部120。
符合信息101表示学习用文档802(输入文档801的一个例子)符合哪个类型的匹配条件(分类关键字108)、即学习用文档802属于哪个类型。符合信息101表示的类型(学习用文档802符合匹配条件的类型)表示字符串匹配部110确定出的学习用文档802所属的类型。
例如,字符串匹配部110在字符串匹配处理中,当判定为属于某类型(例如,“个人信息”)的多个分类关键字108中的至少1个分类关键字108(例如,“姓名”)包含于学习用文档802中的情况下,判定为学习用文档802属于该类型(“个人信息”)。然后,字符串匹配部110将学习用文档802符合该类型(“个人信息”)的匹配条件这样的信息设定到符合信息101。
另外例如,字符串匹配部110在字符串匹配处理中,对学习用文档802针对每个类型计算分类关键字108的出现次数(比特数)的合计值。然后,字符串匹配部110判定为学习用文档802属于所属的分类关键字108的出现次数的合计值是规定的阈值以上的类型,将学习用文档802符合该类型的匹配条件这样的信息设定到符合信息101。例如,将阈值设为“10”。此时,字符串匹配部110判定是否在学习用文档802内的合计10个以上的部位包含了“姓名”、“住址”、各个姓名、地名等属于“个人信息”的各分类关键字108。然后,字符串匹配部110在判定为在10个以上部位包含了属于“个人信息”的各分类关键字108的情况下,判定为学习用文档802属于“个人信息”。
符合信息101既可以针对所有类型表示“符合”或者“不符合”,也可以并非以类型单位而按照组单位来表示“符合”或者“不符合”。
接下来,对图4的第2正确答案比较处理(S120)进行说明。
<S120:第2正确答案比较处理>
在S110后,字符串匹配型过滤器部100的正确答案比较部120对符合信息101与正确答案信息803进行比较,将符合错误有无信息102积蓄为学习结果信息309。
以下,对第2正确答案比较处理(S120)进行详细说明。
首先,正确答案比较部120输入字符串匹配部110在S110中输出的符合信息101,并且从输入设备输入正确答案信息803。
接下来,正确答案比较部120对符合信息101与正确答案信息803进行比较,判定符合信息101与正确答案信息803是否一致。
正确答案信息803与学习用文档802构成组,设定了由用户预先确定出的学习用文档802所属的类型。对正确答案信息803设定的类型相对1个学习用文档802既可以是1个也可以是多个。
例如,设为对正确答案信息803设定1个类型。此时,正确答案比较部120在对正确答案信息803设定的类型以符合信息101表示为“符合”的情况下,判定为符合信息101与正确答案信息803一致。
另外例如,设为对正确答案信息803设定多个类型。此时,正确答案比较部120在针对对正确答案信息803设定的多个类型中的至少1个类型,符合信息101表示“符合”的情况下,判定为符合信息101与正确答案信息803一致。另外,正确答案比较部120也可以仅在针对对正确答案信息803设定的多个类型的全部,符合信息101表示“符合”的情况下,判定为符合信息101与正确答案信息803一致。另外,正确答案比较部120也可以针对每个类型判定符合信息101与正确答案信息803是否一致。
然后,正确答案比较部120将表示判定结果的符合错误有无信息102作为学习结果信息309而积蓄在结果判定存储部390中。
符合错误有无信息102将符合信息101与正确答案信息803的一致表示为“正确答案”,将符合信息101与正确答案信息803的不一致表示为“错误”。
接下来,对图4的第1学习分类处理(S130)进行说明。
<S130:第1学习分类处理>
学习型过滤器部200的分类部220根据学习数据209对学习用文档802进行分类,输出分类信息201。
以下,对第1学习分类处理(S130)进行详细说明。
首先,分类部220从输入设备输入学习用文档802,并且从学习型过滤器存储部290输入学习数据209。
学习数据209是学习部210根据正确答案信息803生成的统计信息,针对文档的每个类型设定了属于该类型的各输入文档801中通用的统计信息。例如,在学习数据209中,作为统计信息,设定了属于该类型的文档中出现的各用语的出现频度。
以下,设为在学习数据209中针对每个类型设定了各用语的出现频度。
出现频度是指,例如,针对每一个输入文档801的出现次数、或针对每文字数的出现次数。
接下来,分类部220抽出包含在学习用文档802中的各词,计算从学习用文档802中抽出的各词的出现频度。
例如,对于包含在学习用文档802中的各词,既可以将对学习数据209设定的用语作为检索关键字而检索学习用文档802来抽出,也可以通过针对学习用文档802的形态解析来抽出。
接下来,分类部220对包含在学习用文档802中的各词的出现频度与对学习数据209设定的各用语的出现频度进行比较,确定学习用文档802所属的类型。
例如,分类部220根据包含在学习用文档802中的各词的出现频度与对学习数据209设定的各用语的出现频度,计算学习用文档802属于每个类型的概率(分类概率)。然后,分类部220将分类概率最高的类型、或分类概率是规定的阈值(分类概率的第1阈值)以上的类型确定为学习用文档802所属的类型。
例如,根据朴素·贝叶斯(Naive Bayesian)分类法,通过下式1来计算分类概率。
[式1]
此处,
P(ck|dm):输入文档dm属于分类类型ck的分类概率
ck:分类类型
dm:输入文档801
xi:包含在输入文档dm中的词
P(ck)=(属于分类类型ck的学习用文档802的数量)/(所有学习用文档802的数量)
P(xi|ck)=(在属于分类类型ck的学习用文档802中包括词xi的文档的数量)/(属于分类类型ck的学习用文档802的数量)。
然后,分类部220将确定出的学习用文档802所属的类型作为分类信息201而输出到学习部210。另外,也可以在分类信息201中设定类型的分类概率。
接下来,对图4的第1正确答案比较处理(S140)进行详细说明。
<S140:第1正确答案比较处理>
在S130后,学习型过滤器部200的学习部210对分类信息201与正确答案信息803进行比较,将分类错误有无信息202积蓄为学习结果信息309。
以下,对第1正确答案比较处理(S140)进行详细说明。
首先,学习部210输入分类部220输出的分类信息201,并且从输入设备输入正确答案信息803。
接下来,学习部210对分类信息201与正确答案信息803进行比较,判定符合信息101与正确答案信息803是否一致。
例如,设为对正确答案信息803设定1个类型。此时,学习部210当在分类信息201中示出对正确答案信息803设定的类型的情况下,判定为分类信息201与正确答案信息803一致。
另外例如,设为对正确答案信息803设定多个类型。此时,学习部210在分类信息201中示出对正确答案信息803设定的多个类型中的至少1个类型的情况下,判定为分类信息201与正确答案信息803一致。另外,学习部210也可以仅在分类信息201中示出了对正确答案信息803设定的多个类型的全部的情况下,判定为符合信息101与正确答案信息803一致。另外,学习部210也可以针对每个类型,判定分类信息201与正确答案信息803是否一致。
然后,学习部210将表示判定结果的分类错误有无信息202作为学习结果信息309而积蓄在结果判定存储部390中。
分类错误有无信息202将分类信息201与正确答案信息803的一致表示为“正确答案”,将分类信息201与正确答案信息803的不一致表示为“错误”。
接下来,对图4的学习处理(S150)进行说明。
<S150:学习处理>
学习部210根据第1正确答案比较处理(S140)的判定结果来判定是否需要学习(S151),在判定为需要学习的情况下,根据学习用文档802与正确答案信息803生成学习数据209(S152)。
以下,对S151与S152进行详细说明。
<S151:是否需要学习判定处理>
学习部210在第1正确答案比较处理(S140)中判定为分类信息201与正确答案信息803不一致的情况下,判定为需要学习,在第1正确答案比较处理(S140)中判定为分类信息201与正确答案信息803一致的情况下判定为无需学习。
学习是指,学习数据209的生成。
仅在分类信息201与正确答案信息803不一致的情况下,即仅在发生了分类错误的情况下,通过生成学习数据209,不需要的学习减少,可以实现学习时间的削减、分类精度的提高。
另外,学习部210也可以根据在第1学习分类处理(S130)中分类部220计算出的分类概率或者正确答案信息803表示的类型来判定是否需要学习。
例如,也可以设为即使在判定为分类信息201与正确答案信息803一致的情况下,在对分类信息201设定的类型的分类概率是规定的阈值(分类概率的第2阈值)以下的情况下,学习部210判断为没有进行充分的学习,而判定为需要学习。由此,可以进一步提高分类精度。
另外例如,也可以设为不论分类信息201与正确答案信息803是一致还是不一致,在对正确答案信息803设定的类型是特定的类型的情况下,学习部210都判定为需要学习。例如,在“个人信息”是特定的类型的情况下,属于“个人信息”类型的学习用文档802一定成为学习的对象。
另外,也可以设为不论分类信息201与正确答案信息803是一致还是不一致,学习部210一定判定为需要学习,而将所有学习用文档802作为学习对象。即,也可以不执行是否需要学习判定处理(S151)。
在判定为不需要学习的情况下,接下来,执行S160。
<S152:学习数据生成处理>
在S151中判定为需要学习的情况下,学习部210对学习用文档802进行分析而计算学习用文档802的统计信息,将计算出的统计信息作为属于与学习用文档802相同的类型的输入文档801的统计信息而反映在学习数据209中。
例如,学习部210根据使用了贝叶斯理论(贝叶斯统计)、SVM或者神经网络模型的算法来进行统计处理,而计算学习用文档802的统计信息。
例如,统计信息如上所述表示各用语的出现频度。
<S160>
接下来,信息过滤系统900(例如,字符串匹配型过滤器部100、学习型过滤器部200)判定是否处理了由用户输入的所有学习用文档802。
在存在未处理的学习用文档802的情况下,对未处理的学习用文档802执行S110~S150的各处理。即,字符串匹配型过滤器部100以及学习型过滤器部200针对每个学习用文档802执行S110~S150的各处理。
在判定为处理了所有学习用文档802的情况下,接下来,执行错误率计算处理(S170)。
<S170:错误率计算处理>
在对所有学习用文档802执行了S110~S150的各处理后,结果判定部300的错误率计算部310根据学习结果信息309计算字符串匹配型过滤器部100的分类错误率与学习型过滤器部200的分类错误率。
以下,对错误率计算处理(S170)进行详细说明。
首先,结果判定部300的错误率计算部310从结果判定存储部390输入学习结果信息309。在学习结果信息309中包括从字符串匹配型过滤器部100的正确答案比较部120输出的各符合错误有无信息102与从学习型过滤器部200的学习部210输出的各分类错误有无信息202。即,学习结果信息309针对每个学习用文档802,表示字符串匹配型过滤器部100的分类是否正确以及学习型过滤器部200的分类是否正确。
接下来,错误率计算部310根据学习结果信息309计算下式2,计算字符串匹配型过滤器部100的分类错误率与学习型过滤器部200的分类错误率。
分类错误率=错误发生数/学习文档数...(式2)
“错误发生数”是指,设定了“错误”的符合错误有无信息102或者分类错误有无信息202的数量。
“学习文档数”是指,学习用文档802的总数。另外,“学习文档数”表示设定了“错误”的符合错误有无信息102与设定了“正确答案”的符合错误有无信息102的合计数(符合错误有无信息102的总数)或者设定了“错误”的分类错误有无信息202与设定了“正确答案”的分类错误有无信息202的合计数(分类错误有无信息202的总数)。
错误率计算部310也可以使用在一定期间内积蓄的学习结果信息309来计算最近的分类错误率。在分类对象文档804中包含大量的新的用语这样的情况下发生分类错误。即,分类错误的发生频度随着时间的经过而变化,旧的分类精度信息变得不重要。因此,错误率计算部310通过考虑最近的分类错误的发生频度,可以应对分类错误的发生频度的变化。例如,在一定期间内积蓄的学习结果信息309是指,依照新生成的顺序的规定的件数的学习结果信息309(例如,最新的100件的学习结果信息309)。另外例如,一定期间内积蓄的学习结果信息309是指,以分类错误率的计算时、或生成了最新的学习结果信息309的时刻为基准而在过去的规定的时间内生成的学习结果信息309(例如,在过去1个月内生成的学习结果信息309)。
然后,错误率计算部310将字符串匹配型过滤器部100的分类错误率与学习型过滤器部200的分类错误率作为错误率信息308而存储在结果判定存储部390中。
错误率信息308是用分类错误率来表示字符串匹配型过滤器部100的分类可靠性与学习型过滤器部200的分类可靠性的信息。
以上说明了学习结果生成处理(S110~S170)。在上述学习结果生成处理(S110~S170)中,字符串匹配型过滤器部100执行的处理(S110~S120)与学习型过滤器部200执行的处理(S130~S150)是相互独立的处理,也可以并行处理。例如,信息过滤系统900也可以将字符串匹配型过滤器部100的处理设为一个线程,并且将学习型过滤器部200的处理设为另一个线程,对字符串匹配型过滤器部100的处理与学习型过滤器部200的处理进行多线程处理。通过对字符串匹配型过滤器部100的处理与学习型过滤器部200的处理进行并行处理,学习结果生成处理(S110~S170)所需的处理时间被缩短。
通过上述学习结果生成处理(S110~S170),生成学习数据209、学习结果信息309以及错误率信息308。
图6是示出实施方式1中的信息过滤系统900的过滤处理的流程的流程图。
以下,根据图6,说明使用通过学习结果生成处理(S110~S170)生成的学习数据209以及错误率信息308,确定分类对象文档804所属的类型的过滤方法。
构成信息过滤系统900的各部使用CPU来执行以下说明的各处理。
<S210:第2分类处理>
字符串匹配型过滤器部100的字符串匹配部110与第2学习分类处理(S110)同样地,根据匹配条件信息109对分类对象文档804进行字符串匹配,输出符合信息101。
在S210中,字符串匹配的对象不是学习用文档802而是分类对象文档804,符合信息101的输出目的地不是正确答案比较部120而是结果判定部300的结果输出部320。
<S220:第1分类处理>
学习型过滤器部200的分类部220与第1学习分类处理(S130)同样地,根据学习数据209对分类对象文档804进行分类,输出分类信息201。
在S220中,分类对象不是学习用文档802而是分类对象文档804,分类信息201的输出目的地不是学习部210而是结果判定部300的结果输出部320。
<S230:结果输出处理>
结果判定部300的结果输出部320根据符合信息101、分类信息201、以及错误率信息308,输出分类结果301。
以下,对结果输出处理(S230)进行详细说明。
首先,结果输出部320输入字符串匹配型过滤器部100的字符串匹配部110在S210的处理中输出的符合信息101,输入学习型过滤器部200的分类部220在S220的处理中输出的分类信息201,从结果判定存储部390输入错误率信息308。
接下来,结果输出部320根据符合信息101、分类信息201以及错误率信息308,确定分类对象文档804所属的类型。
例如,结果输出部320参照错误率信息308,将由分类错误率小(分类可靠性大)的过滤器部(字符串匹配型过滤器部100或者学习型过滤器部200)确定出的类型选择为分类对象文档804所属的类型。
即,如果字符串匹配型过滤器部100的分类错误率小于学习型过滤器部200的分类错误率,则结果输出部320将在字符串匹配型过滤器部100的符合信息101中设定为“符合”的类型作为分类对象文档804的类型。另外,如果学习型过滤器部200的分类错误率小于字符串匹配型过滤器部100的分类错误率,则结果输出部320将在学习型过滤器部200的分类信息201中设定的类型作为分类对象文档804的类型。另外,结果输出部320在字符串匹配型过滤器部100的分类错误率与学习型过滤器部200的分类错误率相同(或者差在规定的范围内)的情况下,求出在符合信息101中设定为“符合”的类型与在分类信息201中设定的类型的逻辑和,将逻辑和表示的各类型设为分类对象文档804的类型。例如,在符合信息101中设定为“符合”的类型是A与B,在分类信息201中设定的类型是B与C,则分类对象文档804的类型成为A、B以及C。
另外例如,结果输出部320根据符合信息101与分类信息201的加权平均值和规定的阈值的比较结果,来确定分类对象文档804所属的类型。
此时,结果输出部320用规定的数值来表示符合信息101与分类信息201。例如,符合信息101被映射为“0”,分类信息201被映射为“1”。
接下来,结果输出部320通过下式3,计算基于对符合信息101的数值进行加权后的符合信息101的加权值与对分类信息201的数值进行加权后的分类信息201的加权值的加权平均值。在下式3中,利用相对两个过滤器部的分类正确答案率(=1-分类错误率)(分类可靠性)的合计值的各过滤器部的分类正确答案率,对符合信息101与分类信息201进行加权。
加权平均值
=匹配型过滤器结果
×(匹配型过滤器正确答案率/(匹配型过滤器正确答案率+学习型过滤器正确答案率))
+学习型过滤器结果
×(学习型过滤器正确答案率/(匹配型过滤器正确答案率+学习型过滤器正确答案率))
...(式3)
“匹配型过滤器结果”是指,符合信息101的数值(例如,“0”)。
“学习型过滤器结果”是指,分类信息201的数值(例如,“1”)。
“匹配型过滤器正确答案率”是指,字符串匹配型过滤器部100的分类正确答案率。
“学习型过滤器正确答案率”是指,学习型过滤器部200的分类正确答案率。
式3的第1项(匹配型过滤器结果×(...学习型过滤器正确答案率))表示符合信息101的加权值,式3的第2项(学习型过滤器结果×(学习型过滤器正确答案率))表示分类信息201的加权值。
然后,结果输出部320对通过上述式3计算出的加权平均值与规定的阈值进行比较,根据比较结果来确定分类对象文档804的类型。
例如,在符合信息101的数值是“0”、分类信息201的数值是“1”、字符串匹配型过滤器部100的分类正确答案率是“0.6(60%)”、学习型过滤器部200的分类正确答案率是“0.4(40%)”的情况下,加权平均值成为“0.4(=(0×0.6)+(1×0.4))。此时,如果阈值是“0.5”,则加权平均值(0.4)小于阈值,与阈值相比接近符合信息101的值(0),所以结果输出部320将在符合信息101中设定为“符合”的类型作为分类对象文档804的类型。另外,如果阈值是“0.3”,则加权平均值(0.4)是阈值以上,与阈值相比接近分类信息201的值(1),所以结果输出部320将在分类信息201中设定的类型作为分类对象文档804的类型。
即,结果输出部320在加权平均值小于阈值的情况下,将映射了小于阈值的值的一方的过滤器部所确定的类型作为分类对象文档804的类型,在加权平均值是阈值以上的情况下,将映射了阈值以上的值的一方的过滤器部所确定的类型作为分类对象文档804的类型。
与加权平均值的比较中使用的阈值表示重视哪个过滤器部的结果的程度。
另外例如,结果输出部320对各过滤器部的分类正确答案率乘上表示针对各过滤器部的结果的重要度的加权系数,对加权后的各过滤器部的分类正确答案率进行比较,将加权后的分类正确答案率大的一方的过滤器部所确定的类型作为分类对象文档804的类型。
在字符串匹配型过滤器部100的分类正确答案率与学习型过滤器部200的分类正确答案率都是“0.5(50%)”、符合信息101的加权系数是“0.7”、分类信息201的加权系数是“1.0”的情况下,结果输出部320对加权后的字符串匹配型过滤器部100的分类正确答案率“0.35(=0.5×0.7)”与加权后的学习型过滤器部200的分类正确答案率“0.5(=0.5×1.0)”进行比较。然后,由于学习型过滤器部200的加权后的分类正确答案率更大,所以结果输出部320将学习型过滤器部200所确定的类型作为分类对象文档804的类型。
另外例如,结果输出部320将在分类信息201中设定的类型的分类概率与规定的阈值(分类概率的第3阈值)进行比较,在分类概率是阈值以上的情况下,将在分类信息201中设定的类型作为分类对象文档804的类型,在分类概率小于阈值的情况下,将在符合信息101中设定为“符合”的类型作为分类对象文档804的类型。即,结果输出部320根据在分类信息201中设定的类型的分类概率的大小来确定分类对象文档804的类型。
另外例如,在字符串匹配型过滤器部100的匹配条件信息109中预先设定了优先关键字,并且在符合信息101中设定了优先关键字所属的类型的“符合”的情况下,结果输出部320与分类错误率的大小、加权平均值无关地,将优先关键字所属的类型作为分类对象文档804所属的类型。
例如,在匹配条件信息109中,对属于类型的各分类关键字108进行分组,在用ID来识别各组的情况下,用64比特整数来表示各组的ID,并且将最上位比特使用为优先标志。该情况下的优先关键字是属于对ID的优先标志设定了“1”的组(优先组)的所有分类关键字108。
在机密信息检测的应用领域中,有时在机密信息中也要求对某特定的内容(输入文档801)进行100%检测。例如,是用户希望对包括表示特定的顾客的“xxx株式会社”这样的记述的文档进行100%检测的情况等。在这样的情况下,设定了优先关键字的信息过滤系统900也不依赖于统计的方法(学习型过滤器部200的分类方法),而可以对包括优先关键字的特定的文档进行100%确定。
另外,在由于用户的环境的变化等而应检测的用语的词汇(分类关键字108)大幅增加的情况下,用户将增加量的各新用语作为“新技术信息”类型的新的1组,并对该新的组设定优先标志,从而可以针对“新技术信息”类型从信息过滤系统900中得到高精度的分类结果301。对新用语的组设定了优先标志的信息过滤系统900针对包括新用语的学习用文档802在通过学习型过滤器部200进行的学习没有结束的时刻,也与新用语对应地将分类对象文档804分类为“新技术信息”类型,可以抑制分类结果301的精度降低。进而,通过信息过滤系统900针对“新技术信息”类型高精度地输出分类结果301,用户可以将属于“新技术信息”类型的分类对象文档804作为学习用文档802而反馈给信息过滤系统900,提高学习型过滤器部200的分类精度。
确定了分类对象文档804所属的类型的结果输出部320在分类结果301中设定所确定的类型,将分类结果301输出到输出设备。
结果输出部320通过设定由分类可靠性高的一方的过滤器部确定的类型,可以提高分类结果301的精度。
另外,结果输出部320也可以将由没有选择的一方的过滤器部确定的类型也作为参考信息而设定到分类结果301。由此,可以催促用户综合性地判断结果。
在上述过滤处理(S210~S230)中,也可以对字符串匹配型过滤器部100的处理(S210)与学习型过滤器部200的处理(S220)进行并行处理。通过对字符串匹配型过滤器部100的处理与学习型过滤器部200的处理进行并行处理,过滤处理(S210~S220)所需的处理时间被缩短。
通过上述过滤处理(S210~S230),输出表示分类对象文档804所属的类型的分类结果301。
信息过滤系统900针对输入的每个分类对象文档804,执行上述过滤处理(S210~S230)。
图7是示出实施方式1中的信息过滤系统900的运用步骤的流程图。
以下,根据图7,对实施方式1中的信息过滤系统900的运用方法进行说明。
<S310:匹配条件设定处理>
首先,用户定义分类关键字108来生成匹配条件信息109,将生成的匹配条件信息109存储在字符串匹配型过滤器部100的字符串匹配型过滤器存储部190中。
<S320:学习结果生成处理>
接下来,用户对信息过滤系统900输入学习用文档802以及正确答案信息803,使信息过滤系统900执行根据图4说明的学习结果生成处理(S110~S170)。信息过滤系统900执行学习结果生成处理(S110~S170)来生成学习结果信息309。
但是,用户也可以不必执行学习结果生成处理(S320)。
<S330:过滤处理>
接下来,用户对信息过滤系统900输入分类对象文档804,使信息过滤系统900执行根据图6说明的过滤处理(S210~S230)。信息过滤系统900通过执行过滤处理(S210~S230)来输出分类结果301。
<S340:反馈判定处理>
接下来,用户根据分类结果301,判断是否需要将分类对象文档804作为学习用文档802而反馈到信息过滤系统900。
在判定为无需反馈的情况下,用户使处理进入到S360。
通过分类对象文档804的反馈,信息过滤系统900可以提高学习型过滤器部200的分类精度。用户考虑与用户作业量的折衷(trade-off)来判断是否反馈即可。通过反馈所有过滤器通过文档(输出了分类结果301的所有分类对象文档804),信息过滤系统900加快学习型过滤器部200的分类精度的提高。但是,用户通常通过仅将符合特定的条件(例如,分类为“新技术用语”类型的条件)的分类对象文档804作为反馈对象这样的最低限的用户作业,可以使信息过滤系统900提高学习型过滤器部200的分类精度。
<S350:学习数据生成处理>
在S340中判断为需要反馈的用户将分类对象文档804作为学习用文档802而输入到信息过滤系统900,并且生成分类对象文档804的正确答案信息803,将生成的正确答案信息803输入到信息过滤系统900。在输入了学习用文档802与正确答案信息803的信息过滤系统900中,学习型过滤器部200根据学习用文档802与正确答案信息803,执行图4中说明的学习数据生成处理(S152),生成学习数据209。
<S360>
用户判断是否使信息过滤系统900处理了所有分类对象文档804。
在存在未处理的分类对象文档804的情况下,用户使处理返回到S310。
在对所有分类对象文档804结束了处理的情况下,用户结束信息过滤系统900的运用。
在上述说明中以机密信息文档的分类为例子,但信息过滤系统900的分类对象不限于机密信息,而可以广泛用于一般的文档的分类。另外,在上述说明中以日语文档的分类为例子,但信息过滤系统900的分类对象不限于日语文档,而对任何文字代码的文档都可以应用。另外,在上述说明中作为非学习型过滤器的例子举出了字符串匹配型过滤器部100。但是,即使是如学习型过滤器部200那样通过学习来生成分类条件(学习数据209)的过滤器,在通过预先进行的学习来预先生成分类条件,而不进行追加学习的情况下,由于分类条件被固定,所以可以将该过滤器考虑为非学习型过滤器。
在实施方式1中,对以下那样的信息过滤系统900进行了说明。
信息过滤系统900具备2个以上的针对输入文档801判定相应于多个规定的分类中的哪一个的过滤器(字符串匹配型过滤器部100、学习型过滤器部200)。
另外,信息过滤系统900具备根据各过滤器的结果(符合信息101、分类信息201)判定输入文档801的分类的最终结果(分类结果301)的学习型过滤器部200。
过滤器中的至少1个是如下学习型过滤器部200:将附加了表示对多个分类相应于哪个分类的正确答案信息803的学习取样输入文档(学习用文档802)作为输入而进行学习来更新学习数据209,根据该学习数据来判定过滤对象输入文档(分类对象文档804)相应于哪个分类。
各过滤器在学习动作时,对正确答案信息803与学习取样输入文档的分类结果(符合信息101、分类信息201)进行比较,进行是否为错误的判定,输出错误信息(符合错误有无信息102、分类错误有无信息202)。
结果判定部300分别积蓄各过滤器的错误信息,计算各个过滤器的错误率。
结果判定部300在分类动作时,根据各过滤器的判定结果(符合信息101、分类信息201)与错误信息来输出最终结果(分类结果301)。
另外,在信息过滤系统900中,上述过滤器中的至少1个(字符串匹配型过滤器部100)是在学习动作时不进行学习数据(匹配条件信息109)的更新,而仅进行错误信息(符合错误有无信息102)的输出的非学习型过滤器。
另外,结果判定部300将错误率小的过滤器的结果作为最终结果而输出。
另外,结果判定部300根据错误率,取得各过滤器的判定结果的加权平均,输出最终结果。
另外,结果判定部300在积蓄错误信息时,积蓄过去一定件数的错误信息。
另外,非学习型过滤器对输入文档进行基于1个以上的匹配条件(分类关键字108)的字符串匹配,将匹配结果是否与正确答案信息803符合作为判定结果(符合错误有无信息102)。
另外,将匹配条件表示为匹配条件ID和与其对应的匹配条件的组(group)的集合。
字符串匹配过滤器针对各个匹配条件ID中的每个匹配条件ID输出是否符合的判定结果。
结果判定部300在输入文档801符合于特定的匹配条件ID的情况下,与其他结果无关地将其作为最终结果而输出。
另外,字符串匹配过滤器进行基于决定性有限自动机(DFA)的字符串匹配。
另外,字符串匹配过滤器对匹配条件进行编译而制作状态迁移表,将该状态迁移表保存为匹配条件文件,使用匹配条件文件表示的状态迁移表来执行匹配处理。
另外,字符串匹配过滤器进行基于非决定性有限自动机(NFA)的字符串匹配。
实施方式2.
在实施方式2中,对具有多个学习型过滤器的信息过滤系统900进行说明。
以下,主要说明与实施方式1不同的事项,省略说明的事项与实施方式1相同。
图8是实施方式2中的信息过滤系统900的功能结构图。
以下,根据图8,对实施方式2中的信息过滤系统900的功能结构进行说明。
信息过滤系统900具备学习型过滤器部200a、学习型过滤器部200b、以及学习型过滤器部200c等多个学习型过滤器部200。将多个学习型过滤器部200作为学习型过滤器集合部400。
学习型过滤器部200a、学习型过滤器部200b、以及学习型过滤器部200c等各学习型过滤器部200与实施方式1的学习型过滤器部200同样地,具备学习部210、分类部220以及学习型过滤器存储部290(省略图示),具有与实施方式1的学习型过滤器部200相同的功能。
但是,各学习型过滤器部200的学习部210执行分别不同的统计处理。例如,学习型过滤器部200a的学习部210进行基于贝叶斯理论的统计处理,学习型过滤器部200b的学习部210进行基于SVM的统计处理,学习型过滤器部200c的学习部210进行基于神经网络模型的统计处理。由此,各学习型过滤器部200分别生成独自的学习数据209,根据各自的学习数据209来生成分类信息201。
通过各学习型过滤器部200进行不同的统计处理,由至少某一个学习型过滤器部200正确地对分类对象文档804进行分类的可能性变高,分类结果301的分类精度提高。
各学习型过滤器部200分别将针对分类对象文档804的分类信息201输出到结果输出部320。
在结果判定存储部390中,作为学习结果信息309,积蓄有字符串匹配型过滤器部100的符合错误有无信息102与各学习型过滤器部200的分类错误有无信息202。
错误率计算部310既可以将针对每个学习型过滤器部200计算出的各分类错误率作为学习型过滤器集合部400的分类错误率,也可以将各学习型过滤器部200的分类错误率合并而计算学习型过滤器集合部400的分类错误率。例如,学习型过滤器集合部400的分类错误率成为各学习型过滤器部200的分类错误率的平均值、各学习型过滤器部200的分类错误率中的最大值或者最小值。
错误率信息308表示字符串匹配型过滤器部100的分类错误率与学习型过滤器集合部400的分类错误率。
结果输出部320根据字符串匹配型过滤器部100的分类错误率与学习型过滤器集合部400的分类错误率,与实施方式1同样地,确定分类对象文档804所属的类型,将确定出的类型作为分类结果301而输出。
例如,结果输出部320在字符串匹配型过滤器部100的分类错误率小于学习型过滤器集合部400的合并的分类错误率的情况下,将字符串匹配型过滤器部100所确定出的类型设为分类对象文档804所属的类型,在学习型过滤器集合部400的合并的分类错误率小于字符串匹配型过滤器部100的分类错误率的情况下,将学习型过滤器集合部400所确定出的类型设为分类对象文档804所属的类型。
另外例如,结果输出部320将由字符串匹配型过滤器部100与各学习型过滤器部200中的分类错误率最小的过滤器确定出的类型设为分类对象文档804所属的类型。
另外,结果输出部320将合并了各学习型过滤器部200的分类信息201的结果作为学习型过滤器集合部400所确定出的类型。
例如,结果输出部320通过多数决定法(majority vote)来合并各分类信息201。即,结果输出部320将在各学习型过滤器部200的分类信息201中设定的类型中的、在最多的分类信息201中设定的类型作为学习型过滤器集合部400所确定出的类型。
另外例如,结果输出部320将在各分类信息201中设定的各类型的逻辑和作为合并结果。
另外例如,结果输出部320与实施方式1同样地,计算各分类信息201的加权平均值,对计算出的加权平均值与规定的阈值进行比较,根据比较结果来选择1个(或者多个)分类信息201,将选择出的分类信息201作为合并结果。
另外例如,结果输出部320与实施方式1同样地,对加权后的各学习型过滤器部200的分类正确答案率进行比较,将分类正确答案率最大的学习型过滤器部200的分类信息201作为合并结果。
另外例如,结果输出部320对在各分类信息201中设定的类型的分类概率进行比较,将分类概率最高的类型作为合并结果。
另外,结果输出部320也可以通过多数决定法、逻辑和、加权平均值、以及加权分类正确答案率等对字符串匹配型过滤器部100的符合信息101与各学习型过滤器部200的分类信息201进行合并,将合并结果作为分类对象文档804所属的类型。
例如,在由于希望检测属于机密信息的分类对象文档804,所以消除检测遗漏被优先,而过剩检测增加也可以这样的情况下,将通过逻辑和得到的合并结果作为分类对象文档804所属的类型的方法是有效的。
另外例如,在希望将检测遗漏与过剩检测都抑制为最小限这样的情况下,将通过多数决定法得到的合并结果作为分类对象文档804所属的类型的方法是有效的。
另外,信息过滤系统900的外观、硬件资源、学习结果生成处理、过滤处理、以及运用步骤等与实施方式1相同。
在实施方式2中,对以下那样的的信息过滤系统900进行了说明。
结果输出部320合并多个学习型过滤器的输出(分类信息201)而视为1个学习型过滤器输出。
另外,结果输出部320在合并多个学习型过滤器的输出而视为1个学习型过滤器输出时,通过逻辑和来合并各个学习型过滤器的输出。
另外,结果输出部320在合并多个学习型过滤器的输出而视为1个学习型过滤器输出时,通过多数决定法来合并各个学习型过滤器的输出。
Claims (18)
1.一种信息过滤系统,其特征在于,具备:
第1过滤器部,从输入设备输入属于多个种类中的至少任意一个种类的文档数据,使用CPU(Central Processing Unit,中央处理单元)来执行确定所输入的上述文档数据所属的种类的规定的分类处理,将输入的上述文档数据所属的种类确定为第1分类信息;
第2过滤器部,从输入设备输入上述文档数据,使用CPU来执行与上述第1过滤器部的上述分类处理不同的规定的分类处理,将输入的上述文档数据所属的种类确定为第2分类信息;
第1正确答案比较部,使用CPU,对将预先确定了所属的种类的多个学习文档数据分别作为上述文档数据而由上述第1过滤器部确定出的上述多个学习文档数据的上述第1分类信息、与表示预先确定的上述所属的种类的上述多个学习文档数据的正确答案信息进行比较,根据比较结果来生成表示上述第1分类信息是否与上述正确答案信息一致的上述多个学习文档数据的第1学习结果信息,将生成的上述多个学习文档数据的上述第1学习结果信息存储在存储设备中;
第2正确答案比较部,使用CPU,对将上述多个学习文档数据分别作为上述文档数据而由上述第2过滤器部确定出的上述多个学习文档数据的上述第2分类信息、与上述多个学习文档数据的上述正确答案信息进行比较,根据比较结果来生成表示上述第2分类信息是否与上述正确答案信息一致的上述多个学习文档数据的第2学习结果信息,将生成的上述多个学习文档数据的上述第2学习结果信息存储在存储设备中;
错误率计算部,使用CPU,根据上述第1正确答案比较部生成的上述多个上述学习文档数据的上述第1学习结果信息,计算表示上述第1分类信息与上述正确答案信息不一致的比例的第1错误率,并且使用CPU,根据上述第2正确答案比较部生成的上述多个上述学习文档数据的上述第2学习结果信息,计算表示上述第2分类信息与上述正确答案信息不一致的比例的第2错误率;以及
结果输出部,使用CPU,根据将分类为特定的种类的对象即分类对象文档数据作为上述文档数据而由上述第1过滤器部确定出的上述第1分类信息、将上述分类对象文档数据作为上述文档数据而由上述第2过滤器部确定出的上述第2分类信息、上述错误率计算部计算出的上述第1错误率、以及上述错误率计算部计算出的上述第2错误率,确定上述分类对象文档数据所属的种类,将确定出的种类作为分类结果而输出到输出设备。
2.根据权利要求1所述的信息过滤系统,其特征在于,
上述第1过滤器部是具备如下部件的学习型过滤器部:
学习部,从输入设备输入多组上述学习文档数据与上述正确答案信息的组,根据上述多组使用CPU来执行将属于各种类的各学习文档数据中通用的统计信息作为学习数据而生成的统计处理,将通过上述统计处理生成的上述学习数据存储在存储设备中;以及
学习型分类部,从输入设备输入上述分类对象文档数据,使用CPU,针对每个种类,计算上述分类对象文档数据对应于由上述学习部生成的上述学习数据表示的上述统计信息的比率而作为分类概率,根据每个种类的上述分类概率来确定上述分类对象文档数据所属的种类。
3.根据权利要求2所述的信息过滤系统,其特征在于,
上述学习部使用贝叶斯理论、SVM(Support Vector Machine,支持向量机)、和神经网络模型中的某一个进行上述统计处理。
4.根据权利要求3所述的信息过滤系统,其特征在于,
上述第2过滤器部是如下字符串匹配型过滤器部:
从输入设备输入上述文档数据,从将属于各种类的分类关键字预先存储为匹配条件信息的存储设备中输入上述匹配条件信息,使用CPU,执行判定上述匹配条件信息表示的各种类的上述分类关键字是否包含在上述文档数据中的字符串匹配处理,将通过上述字符串匹配处理判定为包含在上述文档数据中的上述分类关键字所属的种类确定为上述文档数据所属的种类。
5.根据权利要求4所述的信息过滤系统,其特征在于,
上述字符串匹配型过滤器部使用决定性有限自动机来进行上述字符串匹配处理。
6.根据权利要求5所述的信息过滤系统,其特征在于,
上述字符串匹配型过滤器部将表示上述分类关键字的上述决定性有限自动机的状态迁移表作为上述匹配条件信息而执行上述字符串匹配处理。
7.根据权利要求4所述的信息过滤系统,其特征在于,
上述字符串匹配型过滤器部使用非决定性有限自动机来进行上述字符串匹配处理。
8.根据权利要求4所述的信息过滤系统,其特征在于,
上述结果输出部在上述第1错误率小于上述第2错误率的情况下,将上述第1分类信息作为上述分类结果而输出,在上述第2错误率小于上述第1错误率的情况下,将上述第2分类信息作为上述分类结果而输出。
9.根据权利要求4所述的信息过滤系统,其特征在于,
上述结果输出部用规定的数值来表示上述第1分类信息与上述第2分类信息,根据上述第1错误率对上述第1分类信息进行加权,并且根据上述第2错误率对上述第2分类信息进行加权,计算加权后的上述第1分类信息与加权后的上述第2分类信息的平均值而作为加权平均值,对计算出的加权平均值与规定的阈值进行比较,根据比较结果输出上述分类结果。
10.根据权利要求4所述的信息过滤系统,其特征在于,
上述匹配条件信息将多个上述分类关键字中的特定的上述分类关键字表示为特定关键字,
上述结果输出部输出上述特定关键字所属的种类,作为由上述字符串匹配型过滤器部判定为包括上述特定关键字的上述分类对象文档数据的上述分类结果。
11.根据权利要求4所述的信息过滤系统,其特征在于,
上述错误率计算部根据在规定的期间内生成的上述第1学习结果信息来计算上述第1错误率,并且根据在上述规定的期间内生成的上述第2学习结果信息来计算上述第2错误率。
12.根据权利要求2所述的信息过滤系统,其特征在于,
上述学习型过滤器部具备第1学习型过滤器部与第2学习型过滤器部,
上述第1学习型过滤器部与上述第2学习型过滤器部分别具备上述学习部与上述学习型分类部,
上述第1学习型过滤器部的上述学习部与上述第2学习型过滤器部的上述学习部执行分别不同的上述统计处理,
上述第1分类信息表示第1学习分类信息和第2学习分类信息,其中,第1学习分类信息表示由上述第1学习型过滤器部的上述学习型分类部确定出的上述种类,第2学习分类信息表示由上述第2学习型过滤器部的上述学习型分类部确定出的上述种类。
13.根据权利要求12所述的信息过滤系统,其特征在于,
上述结果输出部在将上述第1分类信息作为上述分类结果而输出的情况下,求出上述第1学习分类信息表示的上述种类与上述第2学习分类信息表示的上述种类的逻辑和,将求出的上述逻辑和表示的上述种类作为上述分类结果而输出。
14.根据权利要求12所述的信息过滤系统,其特征在于,
上述结果输出部在将上述第1分类信息作为上述分类结果而输出的情况下,根据上述第1学习分类信息表示的上述种类的上述分类概率与上述第2学习分类信息表示的上述种类的上述分类概率,输出上述分类结果。
15.根据权利要求12所述的信息过滤系统,其特征在于,
上述结果输出部在将上述第1分类信息作为上述分类结果而输出的情况下,根据上述第1学习分类信息的上述第1错误率对上述第1学习分类信息进行加权,并且根据上述第1学习分类信息的上述第1错误率对上述第1学习分类信息进行加权,计算加权后的上述第1学习分类信息与加权后的上述第2学习分类信息的平均值而作为加权平均值,对计算出的加权平均值与规定的阈值进行比较,根据比较结果输出上述分类结果。
16.根据权利要求2所述的信息过滤系统,其特征在于,
上述学习型过滤器部具备多个上述学习部与上述学习型分类部的组,
多个上述学习部执行分别不同的上述统计处理,
上述第1分类信息表示由各组的上述学习型分类部分别确定出的上述种类,
上述结果输出部在将上述第1分类信息作为上述分类结果而输出的情况下,将在最多的组中确定的上述种类作为上述分类结果而输出。
17.一种信息过滤方法,其特征在于,
第1过滤器部进行第1过滤器处理,其中,从输入设备输入属于多个种类中的至少任意一个种类的文档数据,使用CPU(CentralProcessing Unit)来执行确定所输入的上述文档数据所属的种类的规定的分类处理,将输入的上述文档数据所属的种类确定为第1分类信息,
第2过滤器部进行第2过滤器处理,其中,从输入设备输入上述文档数据,使用CPU来执行与上述第1过滤器部的上述分类处理不同的规定的分类处理,将输入的上述文档数据所属的种类确定为第2分类信息;
第1正确答案比较部进行第1正确答案比较处理,其中,使用CPU,对将预先确定了所属的种类的多个学习文档数据分别作为上述文档数据而由上述第1过滤器部确定出的上述多个学习文档数据的上述第1分类信息、与表示预先确定的上述所属的种类的上述多个学习文档数据的正确答案信息进行比较,根据比较结果,生成表示上述第1分类信息是否与上述正确答案信息一致的上述多个学习文档数据的第1学习结果信息,将生成的上述多个学习文档数据的上述第1学习结果信息存储在存储设备中,
第2正确答案比较部进行第2正确答案比较处理,其中,使用CPU,对将上述多个学习文档数据分别作为上述文档数据而由上述第2过滤器部确定出的上述多个学习文档数据的上述第2分类信息、与上述多个学习文档数据的上述正确答案信息进行比较,根据比较结果来生成表示上述第2分类信息是否与上述正确答案信息一致的上述多个学习文档数据的第2学习结果信息,将生成的上述多个学习文档数据的上述第2学习结果信息存储在存储设备中,
错误率计算部进行错误率计算处理,其中,使用CPU,根据上述第1正确答案比较部生成的上述多个上述学习文档数据的上述第1学习结果信息,计算表示上述第1分类信息与上述正确答案信息不一致的比例的第1错误率,并且使用CPU,根据上述第2正确答案比较部生成的上述多个上述学习文档数据的上述第2学习结果信息,计算表示上述第2分类信息与上述正确答案信息不一致的比例的第2错误率;以及
结果输出部进行结果输出处理,其中,使用CPU,根据将分类成特定的种类的对象即分类对象文档数据作为上述文档数据而由上述第1过滤器部确定出的上述第1分类信息、将上述分类对象文档数据作为上述文档数据而由上述第2过滤器部确定出的上述第2分类信息、上述错误率计算部计算出的上述第1错误率、以及上述错误率计算部计算出的上述第2错误率,确定上述分类对象文档数据所属的种类,将确定出的种类作为分类结果而输出到输出设备。
18.一种信息过滤程序,其特征在于,使计算机执行权利要求17所述的信息过滤方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2008/050048 WO2009087757A1 (ja) | 2008-01-08 | 2008-01-08 | 情報フィルタリングシステム、情報フィルタリング方法および情報フィルタリングプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101911067A true CN101911067A (zh) | 2010-12-08 |
Family
ID=40852882
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2008801242829A Pending CN101911067A (zh) | 2008-01-08 | 2008-01-08 | 信息过滤系统、信息过滤方法以及信息过滤程序 |
Country Status (5)
Country | Link |
---|---|
US (1) | US8442926B2 (zh) |
JP (1) | JP5079019B2 (zh) |
KR (1) | KR101139192B1 (zh) |
CN (1) | CN101911067A (zh) |
WO (1) | WO2009087757A1 (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9152953B2 (en) | 2012-02-10 | 2015-10-06 | International Business Machines Corporation | Multi-tiered approach to E-mail prioritization |
US9256862B2 (en) | 2012-02-10 | 2016-02-09 | International Business Machines Corporation | Multi-tiered approach to E-mail prioritization |
CN105359139A (zh) * | 2013-06-24 | 2016-02-24 | 日本电信电话株式会社 | 安全信息管理系统及安全信息管理方法 |
CN105408896A (zh) * | 2013-07-30 | 2016-03-16 | 日本电信电话株式会社 | 信息管理装置和信息管理方法 |
CN105955951A (zh) * | 2016-04-29 | 2016-09-21 | 中山大学 | 一种消息过滤的方法及装置 |
CN107533651A (zh) * | 2015-05-11 | 2018-01-02 | 株式会社东芝 | 识别装置、识别方法及程序 |
CN111143708A (zh) * | 2018-11-02 | 2020-05-12 | 丰田博图导航信息技术有限公司 | 搜索装置、搜索方法、搜索程序以及记录介质 |
CN111382357A (zh) * | 2020-03-06 | 2020-07-07 | 吉林农业科技学院 | 一种基于大数据的信息推荐系统 |
CN112036135A (zh) * | 2020-11-06 | 2020-12-04 | 腾讯科技(深圳)有限公司 | 一种文本处理方法和相关装置 |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8316030B2 (en) * | 2010-11-05 | 2012-11-20 | Nextgen Datacom, Inc. | Method and system for document classification or search using discrete words |
JP5460887B2 (ja) | 2011-01-13 | 2014-04-02 | 三菱電機株式会社 | 分類ルール生成装置及び分類ルール生成プログラム |
US9836455B2 (en) * | 2011-02-23 | 2017-12-05 | New York University | Apparatus, method and computer-accessible medium for explaining classifications of documents |
US8768071B2 (en) * | 2011-08-02 | 2014-07-01 | Toyota Motor Engineering & Manufacturing North America, Inc. | Object category recognition methods and robots utilizing the same |
US9251289B2 (en) * | 2011-09-09 | 2016-02-02 | Microsoft Technology Licensing, Llc | Matching target strings to known strings |
US10204387B2 (en) * | 2013-05-08 | 2019-02-12 | Nmetric, Llc | Sequentially configuring manufacturing equipment to reduce reconfiguration times |
US9864781B1 (en) | 2013-11-05 | 2018-01-09 | Western Digital Technologies, Inc. | Search of NAS data through association of errors |
US9213702B2 (en) * | 2013-12-13 | 2015-12-15 | National Cheng Kung University | Method and system for recommending research information news |
CN104750724B (zh) * | 2013-12-30 | 2019-10-25 | 亿阳信通股份有限公司 | 一种消息过滤方法和装置 |
US10467259B2 (en) * | 2014-06-17 | 2019-11-05 | Maluuba Inc. | Method and system for classifying queries |
US20160065605A1 (en) * | 2014-08-29 | 2016-03-03 | Linkedin Corporation | Spam detection for online slide deck presentations |
MX2019001676A (es) * | 2016-08-09 | 2019-09-18 | Ripcord Inc | Sistemas y metodos para etiquetar registros electronicos. |
CN107066882B (zh) * | 2017-03-17 | 2019-07-12 | 平安科技(深圳)有限公司 | 信息泄露检测方法及装置 |
US11972490B2 (en) | 2018-07-20 | 2024-04-30 | Kbc Groep Nv | Determining a category of a request by word vector representation of a natural language text string with a similarity value |
EP3598377A1 (en) * | 2018-07-20 | 2020-01-22 | KBC Groep NV | Improved claim handling |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH069054B2 (ja) * | 1988-01-22 | 1994-02-02 | 日本電気株式会社 | 文書自動分類装置 |
JPH05204975A (ja) | 1992-01-30 | 1993-08-13 | Hitachi Ltd | 情報フィルタリング装置及びそのフィルタリング方法 |
JP3472032B2 (ja) | 1995-04-24 | 2003-12-02 | 株式会社東芝 | 情報フィルタ装置及び情報フィルタ方法 |
US6076082A (en) * | 1995-09-04 | 2000-06-13 | Matsushita Electric Industrial Co., Ltd. | Information filtering method and apparatus for preferentially taking out information having a high necessity |
JP3244005B2 (ja) | 1995-09-04 | 2002-01-07 | 松下電器産業株式会社 | 情報フィルタ装置及び情報フィルタリング方法 |
US6901392B1 (en) | 1995-09-04 | 2005-05-31 | Matsushita Electric Industrial Co., Ltd. | Information filtering method and apparatus for preferentially taking out information having a high necessity |
JP4067603B2 (ja) * | 1997-07-27 | 2008-03-26 | 株式会社ジャストシステム | 文書分類装置、文書分類プログラムが記憶された記憶媒体、及び文書分類方法 |
JP3344953B2 (ja) | 1998-11-02 | 2002-11-18 | 松下電器産業株式会社 | 情報フィルタ装置及び情報フィルタリング方法 |
JP2000331013A (ja) | 1999-05-19 | 2000-11-30 | Matsushita Electric Ind Co Ltd | 情報問いあわせ支援装置及び情報問いあわせ支援方法 |
JP2001229164A (ja) | 2000-02-15 | 2001-08-24 | Oki Electric Ind Co Ltd | 情報フィルタリングシステム |
US6654744B2 (en) * | 2000-04-17 | 2003-11-25 | Fujitsu Limited | Method and apparatus for categorizing information, and a computer product |
JP4017354B2 (ja) * | 2000-04-17 | 2007-12-05 | 富士通株式会社 | 情報分類装置および情報分類プログラム |
US6687697B2 (en) * | 2001-07-30 | 2004-02-03 | Microsoft Corporation | System and method for improved string matching under noisy channel conditions |
JP2003067304A (ja) | 2001-08-27 | 2003-03-07 | Kddi Corp | 電子メールフィルタリングシステム、電子メールフィルタリング方法、電子メールフィルタリングプログラム及びそれを記録した記録媒体 |
US7246128B2 (en) * | 2002-06-12 | 2007-07-17 | Jordahl Jena J | Data storage, retrieval, manipulation and display tools enabling multiple hierarchical points of view |
US20050060643A1 (en) * | 2003-08-25 | 2005-03-17 | Miavia, Inc. | Document similarity detection and classification system |
JP3804017B2 (ja) | 2003-08-27 | 2006-08-02 | 株式会社ウィザーズ | 電子メールシステム |
US7266562B2 (en) * | 2005-02-14 | 2007-09-04 | Levine Joel H | System and method for automatically categorizing objects using an empirically based goodness of fit technique |
US7873584B2 (en) * | 2005-12-22 | 2011-01-18 | Oren Asher | Method and system for classifying users of a computer network |
KR100793378B1 (ko) * | 2006-06-28 | 2008-01-11 | 엔에이치엔(주) | 외래어 발음 유사성 비교 및 추천 단어 방법 및 그 시스템 |
-
2008
- 2008-01-08 US US12/811,755 patent/US8442926B2/en not_active Expired - Fee Related
- 2008-01-08 WO PCT/JP2008/050048 patent/WO2009087757A1/ja active Application Filing
- 2008-01-08 JP JP2009548827A patent/JP5079019B2/ja not_active Expired - Fee Related
- 2008-01-08 CN CN2008801242829A patent/CN101911067A/zh active Pending
- 2008-01-08 KR KR1020107014651A patent/KR101139192B1/ko not_active IP Right Cessation
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9256862B2 (en) | 2012-02-10 | 2016-02-09 | International Business Machines Corporation | Multi-tiered approach to E-mail prioritization |
WO2013118089A3 (en) * | 2012-02-10 | 2016-08-25 | International Business Machines Corporation | Multi-tiered approach to e-mail prioritization |
US9152953B2 (en) | 2012-02-10 | 2015-10-06 | International Business Machines Corporation | Multi-tiered approach to E-mail prioritization |
CN105359139B (zh) * | 2013-06-24 | 2019-04-09 | 日本电信电话株式会社 | 安全信息管理系统及安全信息管理方法 |
CN105359139A (zh) * | 2013-06-24 | 2016-02-24 | 日本电信电话株式会社 | 安全信息管理系统及安全信息管理方法 |
US10789366B2 (en) | 2013-06-24 | 2020-09-29 | Nippon Telegraph And Telephone Corporation | Security information management system and security information management method |
CN105408896A (zh) * | 2013-07-30 | 2016-03-16 | 日本电信电话株式会社 | 信息管理装置和信息管理方法 |
CN107533651A (zh) * | 2015-05-11 | 2018-01-02 | 株式会社东芝 | 识别装置、识别方法及程序 |
CN107533651B (zh) * | 2015-05-11 | 2021-05-04 | 株式会社东芝 | 识别装置、识别方法及计算机可读取的记录介质 |
CN105955951B (zh) * | 2016-04-29 | 2018-12-11 | 中山大学 | 一种消息过滤的方法及装置 |
CN105955951A (zh) * | 2016-04-29 | 2016-09-21 | 中山大学 | 一种消息过滤的方法及装置 |
CN111143708A (zh) * | 2018-11-02 | 2020-05-12 | 丰田博图导航信息技术有限公司 | 搜索装置、搜索方法、搜索程序以及记录介质 |
CN111382357A (zh) * | 2020-03-06 | 2020-07-07 | 吉林农业科技学院 | 一种基于大数据的信息推荐系统 |
CN111382357B (zh) * | 2020-03-06 | 2020-12-22 | 吉林农业科技学院 | 一种基于大数据的信息推荐系统 |
CN112036135A (zh) * | 2020-11-06 | 2020-12-04 | 腾讯科技(深圳)有限公司 | 一种文本处理方法和相关装置 |
Also Published As
Publication number | Publication date |
---|---|
JP5079019B2 (ja) | 2012-11-21 |
KR20100100933A (ko) | 2010-09-15 |
WO2009087757A1 (ja) | 2009-07-16 |
US8442926B2 (en) | 2013-05-14 |
JPWO2009087757A1 (ja) | 2011-05-26 |
US20100280981A1 (en) | 2010-11-04 |
KR101139192B1 (ko) | 2012-04-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101911067A (zh) | 信息过滤系统、信息过滤方法以及信息过滤程序 | |
De Jonge et al. | An introduction to data cleaning with R | |
US8620875B2 (en) | Fraud analysis in a contact database | |
US20170316066A1 (en) | Concept-based analysis of structured and unstructured data using concept inheritance | |
CN104702492B (zh) | 垃圾消息模型训练方法、垃圾消息识别方法及其装置 | |
US8949204B2 (en) | Efficient development of a rule-based system using crowd-sourcing | |
US20050198563A1 (en) | Assisted form filling | |
US9104709B2 (en) | Cleansing a database system to improve data quality | |
GB2417109A (en) | Automatic document indexing and classification system | |
CN112232944B (zh) | 一种评分卡创建方法、装置和电子设备 | |
AU2022416661A1 (en) | Systems and methods for detection and correction of anomalies | |
US11816112B1 (en) | Systems and methods for automated process discovery | |
US20230028717A1 (en) | Representing Confidence in Natural Language Processing | |
Pakhchanyan et al. | Machine learning for categorization of operational risk events using textual description | |
US7672912B2 (en) | Classifying knowledge aging in emails using Naïve Bayes Classifier | |
US10120652B2 (en) | System and method for representing software development requirements into standard diagrams | |
CN117648635B (zh) | 敏感信息分类分级方法及系统、电子设备 | |
Zumel et al. | Preparing data for analysis using R | |
JP7391343B1 (ja) | 情報処理装置及び情報処理方法 | |
Göbbels | Hawkes Processes in Large-Scale Service Systems: Improving service management at ING | |
CN118429081A (zh) | 贷款申请请求的处理方法、装置以及电子设备 | |
CN116244634A (zh) | 数据挖掘方法、装置、设备、存储介质及程序产品 | |
CN117493996A (zh) | 一种警情级联分类模型的构建方法 | |
CN115329723A (zh) | 基于小样本学习的用户圈层挖掘方法、装置、介质及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20101208 |