CN101449264A - 用于转导数据分类的方法和系统以及使用机器学习方法的数据分类方法 - Google Patents

用于转导数据分类的方法和系统以及使用机器学习方法的数据分类方法 Download PDF

Info

Publication number
CN101449264A
CN101449264A CNA2007800011979A CN200780001197A CN101449264A CN 101449264 A CN101449264 A CN 101449264A CN A2007800011979 A CNA2007800011979 A CN A2007800011979A CN 200780001197 A CN200780001197 A CN 200780001197A CN 101449264 A CN101449264 A CN 101449264A
Authority
CN
China
Prior art keywords
file
data
data point
sorter
mark
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2007800011979A
Other languages
English (en)
Other versions
CN101449264B (zh
Inventor
毛里蒂乌斯·A·R·施密特勒
克里斯托弗·K·哈里斯
罗兰·博雷
安东尼·萨拉
妮古拉·卡鲁索
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kofax Inc
Original Assignee
Kofax Image Products Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kofax Image Products Inc filed Critical Kofax Image Products Inc
Priority to CN201610972541.XA priority Critical patent/CN107180264A/zh
Publication of CN101449264A publication Critical patent/CN101449264A/zh
Application granted granted Critical
Publication of CN101449264B publication Critical patent/CN101449264B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Abstract

本发明公开了一种用于分类数据的系统、方法、数据处理装置和制品。还公开了使用机器学习方法的数据分类方法。

Description

用于转导数据分类的方法和系统以及使用机器学习方法的数据分类方法
技术领域
本发明主要涉及用于数据分类的方法和装置。具体地,本发明提供了改进的转导机器学习方法。本发明还涉及使用机器学习方法的新的应用。
背景技术
在信息时代、以及近期各行各业(包括,特别是,扫描文件、网上资料、搜索引擎数据、文本数据、图像、音频数据文件,等等)电子数据的大爆炸,如何处理数据已经变得非常重要。
刚刚开始探索的一个领域是非人工数据分类。在许多分类方法中,机器或计算机必须依据人工输入以及建立的规则设置和/或人工建立的训练样例学习。在使用训练样例的机器学习中,学习样例的数量通常比所需估算的参数数量小,即,满足由训练样例所给定的限制条件的解的数量更大。机器学习的一项挑战在于去发现一种不管欠缺限定仍归纳完好的解决方案。因此需要克服这些和/或其它现有技术的问题。
还进一步需要各种类型的机器学习方法的实际应用。
发明内容
在一个基于计算机的系统中,根据本发明的一个实施例,一种用于数据分类的方法,包括:接收有标记数据点,每一个所述有标记数据点具有至少一个标记,指示该数据点是被纳入一个指定类别的数据点的训练样例,还是从一个指定类别被排除的数据点的训练样例;接收无标记数据点;接收所述有标记数据点和无标记数据点的至少一个预设的成本因子;通过迭代计算,使用所述至少一个成本因子,以及所述有标记数据点和无标记数据点作为训练样例,使用最大熵判别(MED),训练一个转导分类器,其中,对于每一次迭代计算,调整无标记数据点的成本因子作为一个期望标记值的函数,并根据数据点组成员概率的估算,调整一个数据点标记的先验概率;将训练的分类器用于分类所述无标记数据点、有标记数据点、和输入数据点中的至少一个;并将所述分类的数据点或其衍生物的类别输出给一个用户、另一系统、和另一过程中的至少一个。
根据本发明的另一个实施例,一种用于数据分类的方法,包括向计算机系统提供需要使用的可执行程序代码,并在计算机系统上执行,所述程序代码包括多个指令,用于:访问存储在计算机存储器的有标记数据点,每一个所述有标记数据点具有至少一个标记,指示该数据点是被纳入一个指定类别的数据点的训练样例,还是从一个指定类别被排除的数据点的训练样例;从计算机存储器访问无标记的数据点;从计算机存储器访问所述有标记数据点和无标记数据点的至少一个预设的成本因子;通过迭代计算,使用所述至少一个成本因子,以及存储的有标记数据点和存储的无标记数据点作为训练样例,训练一个最大熵判别(MED)转导分类器,其中,对于每一次迭代计算,调整无标记数据点成本因子作为一个期望标记值的函数,并根据一个数据点组成员概率的估算,调整所述数据点标记的先验概率;将训练的分类器用于分类所述无标记数据点、有标记数据点、和输入数据点中的至少一个;并将所述分类的数据点或其衍生物的类别输出给一个用户、另一系统、和另一过程中的至少一个。
根据本发明的另一个实施例,一种数据处理装置,包括:至少一个存储器,用于存储:(i)有标记数据点,所述每一个有标记数据点具有至少一个标记,指示该数据点是被纳入一个指定类别的数据点的训练样例,还是从一个指定类别被排除的数据点的训练样例;(ii)无标记数据点;和(iii)所述有标记数据点和无标记数据点的至少一个预设的成本因子;以及一个转导分类器训练器,以使用所述至少一个存储的成本因子,以及存储的有标记数据点和存储的无标记数据点作为训练样例,使用转导的最大熵判别(MED),循环地训练转导分类器,其中,对于每一次MED迭代计算,调整无标记数据点成本因子作为一个期望标记值的函数,并根据一个数据点组成员概率的估算,调整所述数据点标记的先验概率;
其中,由转导分类器训练器训练的分类器用于分类无标记数据点、有标记数据点、以及输入数据点中的至少一个;
其中,所述分类的数据点或其衍生物的类别,被输出给一个用户、另一系统、和另一过程中的至少一个。
根据本发明的另一个实施例,一种制品,包括:一个计算机可读的程序存储介质,该介质确切地包含有一个或多个计算机可执行的指令程序,以执行一种数据分类的方法,包括:接收有标记数据点,每一个所述有标记数据点具有至少一个标记,指示该数据点是被纳入一个指定类别的数据点的训练样例,还是从一个指定类别被排除的数据点的训练样例;接收无标记数据点;接收所述有标记数据点和无标记数据点的至少一个预设的成本因子;使用所述至少一个存储的成本因子,以及存储的有标记数据点和存储的无标记数据点作为训练样例,利用迭代的最大熵判别(MED)计算,训练一个转导分类器,其中,在每一次MED迭代计算中,调整无标记数据点的成本因子作为一个期望标记值的函数,并根据一个数据点组成员概率的估算,调整一个数据点标记先验概率;将训练的分类器用于分类所述无标记数据点、有标记数据点、以及输入数据点中的至少一个;并将分类的数据点或其衍生物的类别输出给一个用户、另一系统、以及另一过程中的至少一个。
在一个基于计算机的系统中,根据本发明的另一个实施例,一种无标记数据的分类方法,包括:接收有标记数据点,每一个所述有标记数据点具有至少一个标记,指示该数据点是被纳入一个指定类别的数据点的训练样例,还是从一个指定类别被排除的数据点的训练样例;接收有标记和无标记数据点;接收有标记数据点和无标记数据点的先验标记概率信息;接收所述有标记数据点和无标记数据点的至少一个预设的成本因子;根据所述数据点的标记先验概率,确定每一个有标记和无标记数据点的期望的标记;重复下面的子步骤,直至数据值足够收敛。
·为每一个与数据点的期望标记的绝对值成比例的无标记数据点生成一个调节的成本值;
·通过确定判定函数,给定被纳入训练和被排除训练的样例,使用所述有标记和无标记数据点作为训练样例,训练一个分类器,根据它们的期望标记,该判定函数将KL发散最小化为判定函数参数的先验概率分布;
·使用所述训练的分类器,确定所述有标记和无标记数据点的分类分值;
·将训练的分类器的输出校准为组成员概率;
·根据所述确定的组成员概率,更新所述无标记数据点的标记先验概率;
·利用所述更新的标记先验概率和之前确定的分类分值,使用最大熵判别(MED),确定所述标记和界限概率分布;
·使用之前确定的标记概率分布,计算新的期望标记;和
·通过将之前迭代的所述期望标记插入所述新的期望标记,为每一个数据点更新期望标记。
输入数据点或其衍生物的一个分类被输出给一个用户、另一系统、以及另一过程中的至少一个。
根据本发明的另一个实施例,一种文件分类方法,包括:接收至少一个有标记的种子文件,其具有标记分配的已知置信级别;接收无标记文件;接收至少一个预设的成本因子;使用所述至少一个预设的成本因子、所述至少一个种子文件、以及所述无标记文件,通过迭代计算训练一个转导分类器,其中,对于每一次迭代计算,调整所述成本因子作为一个期望标记值的函数;在至少部分迭代之后,为所述无标记文件存储置信分值;以及将具有最高置信分值的无标记文件的标识符输出给一个用户、另一系统、以及另一过程中的至少一个。
根据本发明的另一个实施例,一种用于分析与法律查询相关的文件的方法,包括:接收与法律事件相关的文件;对所述文件执行一种文件分类方法;以及基于其分类,输出至少部分文件的标识符。
根据本发明的另一个实施例,一种清理数据的方法,包括:接收多个有标记的数据项;为多个类别的每一个选取所述数据项的子集;在每一个子集中,将所述数据项的偏差设置成约为零;将不在所述子集中的数据项的偏差设置成一个不为约零的预设值;使用所述偏差、所述子集中的数据项、以及所述不在子集中的数据项作为训练样例,通过迭代计算训练一个转导分类器;将所述训练的分类器应用于所述每一个有标记的数据项,以分类所述每一个数据项;以及将所述输入数据项或其衍生物的分类输出给一个用户、另一系统、另一过程中的至少一个。
根据本发明的另一个实施例,一种用于核对发票与实体的关联性的方法,包括:基于与第一个实体相关的发票格式训练一个分类器;访问多张被标记为与所述第一实体和其它实体中的至少一个相关的发票;使用所述分类器对发票执行一种文件分类方法;以及输出至少一张发票的标识符,该发票具有较高的概率与所述第一个实体不相关。
根据本发明的另一个实施例,一种用于管理病历的方法,包括:基于医疗诊断训练一个分类器;访问多个病历;使用所述分类器对所述病历执行一种文件分类方法;以及输出至少一个病历的标识符,该病历具有较低的概率与所述医疗诊断相关。
根据本发明的另一个实施例,一种用于人脸识别的方法,包括:接收至少一个人脸的有标记种子图像,所述种子图像具有一个已知的置信级别;接收无标记图像;接收至少一个预设的成本因子;通过迭代计算,使用所述至少一个预设的成本因子、至少一个种子图像、以及所述无标记的图像,训练一个转导分类器,其中,对于每一次迭代计算,调整所述成本因子作为一个期望的标记值的函数;在至少部分迭代之后,为所述无标记种子图像存储一个置信分值;以及将具有最高置信分值的无标记图像的标识符输出给一个用户、另一系统、另一过程中的至少一个。
根据本发明的另一个实施例,一种用于分析现有技术文件的方法,包括:基于一个搜索查询训练一个分类器;访问多个现有技术文件;使用所述分类器对至少部分所述现有技术文件执行一种文件分类方法;以及基于其分类,输出至少部分所述现有技术文件的标识符。
根据本发明的另一个实施例,一种使专利分类适应文件内容变动的方法,包括:接收至少一个有标记的种子文件;接收无标记的文件;使用所述至少一个种子文件和所述无标记文件训练一个转导分类器;使用所述分类器,将具有一个高于预设阈值的置信级别的无标记文件归类到多个现有的类别;使用所述分类器,将具有一个低于预设阈值的置信级别的无标记文件归类到至少一个新的类别;使用分类器,将至少部分所述已分类的文件重新归类到所述现有的类别和所述至少一个新的类别;以及将所述已分类文件的标识符输出给一个用户、另一系统、以及另一过程中的至少一个。
根据本发明的另一个实施例,一种用于将文件与权利要求匹配的方法,包括:基于一件专利或专利申请的至少一项权利要求训练一个分类器;访问多个文件;使用所述分类器对至少部分所述文件执行一种文件分类方法;以及基于其分类,输出至少部分所述文件的标识符。
根据本发明的另一个实施例,一种专利或专利申请的分类方法,包括:基于多个已知属于一个特定专利分类的文件训练一个分类器;接收一件专利或专利申请的至少一部分;使用所述分类器对所述专利或专利申请的所述至少一部分执行一种文件分类方法;以及输出所述专利或专利申请的分类,其中,所述文件分类方法是一个是/否分类方法。
根据本发明的另一个实施例,一种适应文件内容变动的方法,包括:接收至少一个有标记种子文件;接收无标记文件;接收至少一个预设的成本因子;使用所述至少一个预设的成本因子、所述至少一个种子文件、以及所述无标记文件,训练一个转导分类器;使用所述分类器,将具有高于一个预设阈值的置信级别的无标记文件归类到多个类别;使用所述分类器,将至少部分所述分类的文件重新归类到多个类别;以及将所述已分类文件的标识符输出给一个用户、另一系统、以及另一过程中的至少一个。
根据本发明的另一个实施例,一种分离文件的方法,包括:接收有标记的数据;接收一组无标记文件;基于所述有标记的数据和无标记文件,使用转导改写概率分类规则;根据所述概率分类规则,更新用于文件分离的权重;确定所述一组文件中分离的位置;将所述确定的分离位置的指示符输出给一个用户、另一系统、以及另一过程中的至少一个;以及给文件打上代码,该代码与所述指示符相关。
根据本发明的另一个实施例,一种文件搜索的方法,包括:接收一个搜索查询;基于所述搜索查询检索文件;输出所述文件;为至少部分所述文件接收用户键入的标记,所述标记指示所述文件与所述搜索查询之间的相关性;基于所述搜索查询和用户键入的标记训练一个分类器;使用所述分类器对所述文件执行一个文件分类方法,以对所述文件重新分类;以及基于其分类,输出至少部分所述文件的标识符。
附图说明
图1为期望标记作为分类分值的一个函数的曲线图,该分类分值通过使用适用于标记归纳的MED判别学习而获得。
图2为一组由转导MED学习获得的判定函数的迭代计算的示意图。
图3为一组根据本发明一个实施例的由改进的转导MED学习获得的判定函数的迭代计算的示意图。
图4为根据本发明一个实施例,使用一个调节的成本因子,一个用于分类无标记数据的控制流程图。
图5为根据本发明一个实施例,使用用户定义的先验概率信息,一个用于分类无标记数据的流程控制图。
图6为根据本发明一个实施例,利用调节的成本因子和先验概率信息,使用最大熵判别,一个用于分类无标记数据的详细控制流程图。
图7为显示实施此处描述的不同实施例的网络结构的网络图。
图8为一个有代表性的,与用户设备相关的硬件环境的系统框图。
图9为代表本发明的一个实施例的装置的框图。
图10为由根据一个实施例执行的分类过程的流程图。
图11为由根据一个实施例执行的分类过程的流程图。
图12为由根据一个实施例执行的分类过程的流程图。
图13为由根据一个实施例执行的分类过程的流程图。
图14为由根据一个实施例执行的分类过程的流程图。
图15为由根据一个实施例执行的分类过程的流程图。
图16为由根据一个实施例执行的分类过程的流程图。
图17为由根据一个实施例执行的分类过程的流程图。
图18为由根据一个实施例执行的分类过程的流程图。
图19为由根据一个实施例执行的分类过程的流程图。
图19为由根据一个实施例执行的分类过程的流程图。
图20为由根据一个实施例执行的分类过程的流程图。
图21为由根据一个实施例执行的分类过程的流程图。
图22为本发明一个实施例的方法,用于一个第一文件分类系统的控制流程图。
图23为本发明一个实施例的方法,用于一个第二文件分类系统的控制流程图。
图24为由根据一个实施例执行的分类过程的流程图。
图25为由根据一个实施例执行的分类过程的流程图。
图26为由根据一个实施例执行的分类过程的流程图。
图27为由根据一个实施例执行的分类过程的流程图。
图28为由根据一个实施例执行的分类过程的流程图。
图29为由根据一个实施例执行的分类过程的流程图。
具体实施方式
下列的描述是目前预期的实现本发明的最佳方法,该描述的目的是为了说明本发明的一般原理,并不意味着限制此处所述的本发明的内容。而且,此处所描述的特定特征可与各种不同可能的组合和排列中的每一个其它描述的特征相结合。
除非另在此处特别定义,所有术语都给予其最广的可能的解释,包括从说明书中暗示的意思,和本领域技术人员理解的意思,以及如字典、论文等所定义的意思。
文本分类
文本数据分类的好处和需求已非常巨大,并且已经有多种分类方法被使用。下面讨论用于文本数据的分类方法:
为增加其效用和智能,要求诸如计算机之类的机器能够分类(或识别)一个不断扩大的范围内的对象。例如,计算机可使用光学字符识别来分类手写或扫描的数字和文字,使用图案识别来分类图像,如人脸、指纹、战斗机等等,或者使用语音识别来分类声音、语音等等。
机器还被要求能够分类文本信息对象,例如文本计算机文件或文档。文本分类的应用是多样且重要的。例如,文本分类可用于管理文本信息对象以将其归入一个预定的类别或分类的层次结构。这样,发现(或找到)与特定主题有关的文本信息对象就被简化了。文本分类可用于将适当的文本信息对象路由至适当的人群或地点。这样,信息服务可将涉及各种主题(如,商务、体育、股票市场、足球、特定公司、特定足球队)的文本信息对象路由至具有不同兴趣的人群。文本分类可用于过滤文本信息对象,以使个人免受不需要的文本内容(如不需要和未经请求的电子邮件,也称为垃圾电子邮件,或“垃圾”)的侵扰。正如从这些示例中可以得知的那样,文本分类具有多种激动人心和重要的应用。
基于规则的分类
在某些实例中,必须基于某种公认的逻辑,利用绝对确定性对文件内容进行分类。一个基于规则的系统可用于实现此类分类。基本上,基于规则的系统使用产生式规则的形式:
IF条件,THEN事实。
所述条件可以包括文本信息是否包括某些单词或短语,具有特定的语法,或具有特定的属性。例如,如果文本内容具有单词“收盘”,短语“纳斯达克”和数字,则将其分类为“股票市场”文本。
在过去的约10年里,其它类型的分类器已被逐渐地使用。尽管这类分类器不像基于规则的分类器那样使用静态、预定的逻辑,但是在许多应用中,它们优于基于规则的分类器。这类分类器通常包括一个学习元件和一个执行元件。这类分类器包括神经网络、贝叶斯网络、以及支持向量机。尽管每个这类分类器都已熟知,但为了方便读者,下面简要介绍各种分类器。
具有学习和执行元件的分类器
正如上节的末尾所提到的那样,在许多应用中,具有学习和执行元件的分类器优于基于规则的分类器。再次重申,这些分类器可以包括神经网络、贝叶斯网络和支持向量机。
神经网络
神经网络基本上是相同处理元件(也称为神经元)的多层、层次排列。各神经元可具有一个或多个输入,但只有一个输出。通过一个系数对各神经元输入进行加权。神经元的输出通常是其加权输入和偏差值之和的一个函数。这个函数,也称为激活函数,通常是一个S形函数。即,该激活函数可以是S形单调递增,且当其(多个)输入分别接近正负无穷大时,渐进逼近固定值(如+1,0,—1)。S形函数和单个神经的权重和偏差值确定神经元对输入信号的响应或“兴奋性”。
在神经元的层次排列中,一层内的神经元的输出可分配作为下一层内一个或多个神经元的输入。典型的神经网络可包括一个输入层和两(2)个不同层;即,一个输入层,一个中间神经元层,和一个输出神经元层。请注意,所述输入层的节点不是神经元。更确切地讲,输入层的节点仅有一个输入,并主要提供未处理的输入给下一层的输入。如果,例如神经网络将被用于识别在20×15像素阵列中的一个数字字符,该输入层可以具有300个神经元(即输入的每一个像素),且输出阵列可以具有10个神经元(即10个数字中的每一个)。
神经网络的使用一般包括两(2)个连续的步骤。第一,初始化神经网络,并根据具有已知输出值(或分类)的已知输入训练该网络。一旦神经网络被训练,它就能用于分类未知的输入。通过将神经元的权重和偏差设置为随机值(通常由一个高斯分布生成),神经网络可被初始化。然后使用一连串的具有已知输出(或分类)的输入,训练该神经网络。在将训练输入提供给神经网络时,调整(例如根据已知的反向传播技术)神经权重和偏差值,以使每一个单一训练模式的神经网络的输出逼近或匹配该已知输出。基本上,权重空间的梯度下降被用于最小化输出误差。这样,使用连续训练输入的学习,朝着权重和偏差的局部最优解收敛。即,权重和偏差被调整至最小误差。
实际操作中,通常并不将该系统训练成收敛到最优解的某一点。相反,系统将被“过度训练”,致使其对于训练数据过于专业,且可能不善于分类与训练集有些不同的输入。因此,在其训练的不同时期,在一组验证数据上对该系统进行试验。当系统的性能在验证集上不再改进时,训练停止。
一旦训练完成,就可使用该神经网络,根据在训练期间确定的权重和偏差,分类未知输入。如果该神经网络能有把握地分类未知输入,某个输出层中的神经元的一个输出将会远高于其它输出。
贝叶斯网络
通常,贝叶斯网络使用假设,作为数据(如,输入特征向量)和预测(如,分类)之间的媒介。对于给定的数据(“P(假设|数据)”),每一个假设的概率可以被估算。使用假设的后验概率,从所述假设获得预测,以对每一个假设的单个预测进行加权。给定数据D,预测X的概率可以表示为:
P ( X | D ) = Σ i P ( X | D , H i ) P ( H i | D ) = Σ i P ( X | H i ) P ( H i | D )
其中,Hi为第i个假设。最大化给定D(P(Hi|D))的Hi的概率的最大可能性的假设Hi被称为最大后验假设(或“HMAP”),且可表示为:
P(X|D)~P(X|HMAP)
使用贝叶斯法则,给定数据D,假设Hi的概率可表示为:
P ( H i | D ) = P ( D | H i ) P ( H i ) P ( D )
数据D的概率保持不变。因此,为找到HMAP,必须最大化分子。
分子的第一项表示:给定假设i,可能观察到该数据的概率。分子的第二项表示:分配给所述给定假设i的先验概率。
贝叶斯网络包括变量和变量之间的有向边,由此定义一个有向无环图(即“DAG”)。每一个变量可假设为有限数量的互斥状态中的任意值。对于每一个变量A,其具有母变量B1…Bn,有一个附属概率表(P(A|B1…Bn)。贝叶斯网络的所述结构编码了所述假设,给定其母变量,每一个变量有条件地独立于其非子变量。
假设贝叶斯网络的结构已知,且变量可观察,则只需学习条件概率列表集合。直接使用来自一组学习样例的统计,可估算这些列表。如果该结构已知,而某些变量是隐藏的,则学习就类似于上述的神经网络学习。
下面介绍简单的贝叶斯网络的示例。变量“MML”可代表“我的草坪的湿度”(moisture of my lawn),且可以具有状态“湿”和“干”。MML变量可具有“下雨”和“我的洒水器打开”母变量,每一个都具有“是”和“否”状态。另一个变量,“MNL”可代表“我的邻居的草坪的湿度”,且可以具有状态“湿”和“干”。MNL变量可共享“下雨”母变量。在本例中,预测可以是我的草坪是“湿”还是“干”。该预测可以基于假设(i):如果下雨,我的草坪将会湿的概率(x1)和假设(ii):如果我的洒水器打开,我的草坪将会湿的概率(x2)。下过雨的概率或我的洒水器打开的概率可取决于其它变量。例如,如果我的邻居的草坪是湿的,而他们没有洒水器,那很可能下过雨了。
如上所述,像神经网络的例子一样,可训练贝叶斯网络中的条件概率表。其优点在于,通过允许提供先验知识,可缩短该学习过程。然而不幸的是,条件概率的先验概率常常是未知的,此时使用统一的先验概率。
本发明的一个实施例可执行至少两(2)个基本函数中的一(1)个,即生成分类器的参数,并分类对象,如文本信息对象。
基本上,基于一组训练样例,为分类器生成参数。可以从一组训练样例生成一组特征向量。该组特征向量的特征可被简化。将生成的参数可包括一个定义的单调(如S形)函数和一个权重向量。该权重向量可通过SVM训练的方式确定(或通过其它已知的技术)。可通过最优化方法确定该单调(如S形)函数。
文本分类器包括一个权重向量和一个定义的单调(如,S形)函数。基本上,本发明的文本分类器的输出可表示为:
O c = 1 1 + e A ( w ρ c · x ρ ) + B
其中:
Oc=类别c的分类输出;
wc=与类别c相关的权重向量参数;
x=基于未知文本信息对象的(简化的)特征向量;
A和B是个单调(如,S形)函数的可调节参数;
由表达式(2)计算输出比由表达式(1)计算输出快。
根据被分类对象的形式,分类器可以(i)将文本信息对象转换为特征向量,和(ii)将特征向量简化为具有较少元素的简化特征向量。
转导机器学习
在商业上,现有技术中当前使用的自动分类系统是基于规则或者利用归纳型机器学习,即,使用人工标记训练样例。相比于转导方法,两种方法通常都需要大量人工设置工作。由基于规则的系统或归纳型方法提供的解决方案是静态解决方案,若没有人工工作,它就不能适应漂移分类概念。
归纳型机器学习用于将属性或关系归因于基于表征(即,基于一个或少数的观察或经验)的类型;或基于有限的观察重现模式来制定法则。归纳型机器学习包括从观察到的训练案例中推理,以建立一般规则,该规则接着用于测试实例。
特殊地,优选实施例使用转导机器学习方法。转导机器学习是一个有效的方法,可以避免这些缺陷。
转导机器方法能够从非常少的一组有标记训练样例中学习,自动适应漂移分类概念,并自动纠正标记的训练样例。这些优势使得转导机器学习成为一个有趣且有价值的方法,适合各种商业应用。
转导在数据中学习模式。通过不仅从有标记数据而且从无标记数据中学习,转导扩展了归纳型学习的概念。这使得转导能够学习并非从有标记数据中捕获或仅部分从有标记数据中捕获的模式。因此,相比基于规则的系统或基于归纳型学习的系统,转导能够适应动态变化的环境。这个能力使得转导能够用于文件搜索、数据清理、寻址漂移分类概念等等。
下面描述利用支持向量机(SVM)分类以及最大熵判别(MED)框架的转导分类的实施例。
支持向量机
支持向量机(SVM)是一种文本分类所采用的方法,通过使用正规化理论的概念对可能的解设置限制,该方法处理了大量解的问题,以及由此产生的泛化问题。例如,一个二元SVM分类器从所有准确分隔训练数据的超平面中选取最大化界限的超平面作为解。最大界限正规化在训练数据被准确地分类的限制条件下,满足了前述在泛化和记忆之间选择合适权衡的学习问题。对训练数据的限制记忆了数据,而正规化则保证了合适的泛化。归纳分类从具有已知标记的训练样例中学习,即,每个训练样例的组成员是已知的。当归纳分类从已知标记中学习,转导分类从有标记以及无标记数据中确定分类规则。一个转导SVM分类的示例如表1所示。
转导SVM分类的原理
Require:Data matrix X of labeled training examples and their labels Y.
Require:Data matrix X′of the unlabeled training examples.
Require:A list of all possible labels assignments of the unlabeled training examples
Figure A200780001197D00281
1:MaximumMargin=0
2:
Figure A200780001197D00282
{Included label assignment of unlabeled training examples.}
3:for all label assignments 
Figure A200780001197D00283
 in the list of label assignments do
4:    CurrentMaximumMargin:=MaximizeMargin(X,Y,X′,
Figure A200780001197D0028104151QIETU
)
5:    if CurrentMaximumMargin>MaximumMargin then
6:       MaximumMargin:=CurrentMaximumMargin
7:       
Figure A200780001197D00284
8:    end if
9:end for
表1
表1显示了利用支持向量机的转导分类的原理。解由超平面给出,该超平面针对无标记数据的所有可能的标记分配产生最大界限。所述可能的标记分配随着无标记数据的数量呈指数增长,且对于实际上可用的方法,表1的算法必须被估算。该估算的例子在T.Joachims,Transductive inference for text classification using support vector machines,Technical report,Universitact Dortmund,LAS VIII,1999(Joachims)中有描述。
表1中对于标记分配的均匀分布表示,一个无标记数据点具有1/2的概率成为该组的正面样例和具有1/2的概率成为负面样例,即,y=+1(正面样例)和y=—1(负面样例)这两种可能的标记分配机会相等,且最终的期望标记为0。为0的标记期望可由一个等于1/2的固定的类别先验概率获得,或由具有均匀先验分布的一个随机变量的类别先验概率(即一个未知的类别先验概率)获得。因此,在不等于1/2的已知类别先验概率的应用中,通过结合该附加信息可改进该算法。例如,不是使用表1中的标记分配的均匀分布,而是根据类别先验概率,优先选择某些标记分配,而不是其它标记分配。然而,在较小却具有较高标记分配的界限解与较大但具有较低标记分配的界限解之间作出权衡是困难的。标记分配的概率和界限是不同尺度的。
最大熵判别
另一种分类的方法,最大熵判别(MED)(参看,如,T.Jebara,Machine LearningDiscriminative and Generative,Kluwer Academic Publishers)(Jebara)没有碰到与SVM相关的问题,因为判定函数正规化项以及标记分配正规化项都是来源于针对解的先验概率分布,因此都在相同的概率尺度上。因而,如果类别先验,以及由此的标记先验已知时,转导MED分类优于转导SVM分类,因为它允许先验标记知识以有原则的方式结合。
归纳MED分类假设一个判定函数参数的先验分布、一个偏差项的先验分布,和一个界限的先验分布。它选择最接近于先验分布的那个分布作为这些参数的最终分布,并产生一个准确地分类数据点的期望判定函数。
形式上,例如给定一个线性分类器,问题表述如下:寻找超平面参数分布p(Θ),偏差分布p(b),数据点分类界限p(γ),其联合概率分布具有一个最小的库尔贝克莱伯勒发散(Kullback Leibler divergence)KL赋予结合的各个先验分布p0,即
min p ( Θ ) , p ( γ ) , p ( b ) = KL ( p ( Θ ) p ( γ ) p ( b ) | | p 0 ( Θ ) p 0 ( γ ) p 0 ( b ) ) - - - ( 1 )
受制于限制条件
∀ t : ∫ dΘdγdbp ( Θ ) p ( γ ) p ( b ) ( y t ( Θ X t - b ) ) - y t ) ≥ 0 , - - - ( 2 )
其中ΘXt是分隔超平面权重向量与第t个数据点的特征向量之间的点积。由于标记分配yt为已知且固定,无需二元标记分配的先验分布。因此,将归纳MED分类泛化为转导MED分类的简便方法,是将二元标记分配作为受限于可能的标记分配的先验分布参数来处理。转导MED的例子如表2所示。
转导MED分类
Require:Data Matrix X of labeled and unlabeled training examples.
Require:Label prior probabilities p0(y)for labeled and unlabeled training examples.
1:<Y>:=ExpectedLabel(p0(y)){Expected label determined from the trainingexamples’label prior probabilities.}
2:while-converged do
3:    W:=MinimizeKLDivergence(X,<Y>)
4:    Y′:=InduceLabels(W,X,p0(y))
5:    <Y>:=∈<Y>+(1-∈)Y′
6.end while
表2
对于有标记数据,标记先验分布是一个δ函数,因而能有效地确定标记为+1或—1。对于无标记数据,假设一个标记先验概率p0(y),分配给每一个无标记数据点一个y=+1的正标记的概率为p0(y),而一个y=—1的负标记的概率为1—p0(y)。假设一个非信息标记先验(p0(y)=1/2),产生一个与上述转导SVM分类类似的转导MED分类。
如在转导SVM分类的情况那样,上述MED算法的实际可适用的实施方法必须估算对于全部可能的标记分配的搜索。该方法在T.Jaakkola,M.Meila,and T.Jebara,Maximum entropy discrimination,Technical Report AITR-1668,Massachusetts Institute ofTechnology,Artificial Intelligence Laboratory,1999(Jaakkola)中有描述,其选择一个近似值,将过程分解为两个步骤,类似于一个期望值最大化(EM)公式。在该公式中,需要解决两个问题。第一步,相当于在EM算法中的M步骤,当根据当前标记分配的最佳猜测,准确地分类所有数据点时,类似于界限的最大值。第二步,相当于E步骤,使用在M步骤中确定的分类结果,并为每一个样例的组成员估算新的值。我们称该第二步骤为标记归纳。大致的描述如表2所示。
此处引用的Jakkola的方法的特殊实施方法,假设一个具有超平面参数的零平均值和单位方差的高斯函数,一个具有偏差参数的零平均值和方差的高斯函数,公式exp[-c(1-γ)]的一个界限先验,其中γ为数据点的界限,c为成本因子,以及一个如上所述无标记数据的二元标记先验概率p0(y)。下面所讨论的转导分类算法Jaakkola,在此引用,由于简易性和不丧失通用性的缘故,故假设1/2的标记先验概率。
对于给定超平面参数的一个固定概率分布,标记归纳步骤决定标记概率分布。使用上述的界限和标记先验,产生如下标记归纳步骤的目标函数(参看表2):
Figure A200780001197D00311
其中λt为第t个训练样例拉格朗日乘子(Lagrange Multiplier),st为在前述M步骤中确定的其分类分值,c为成本因子。训练样例求和中的前两项从界限先验分布中获得,而第三项由标记先验分布给定。通过最大化
Figure A200780001197D0031105021QIETU
,拉格朗日乘子被确定,并由此确定无标记数据的标记概率分布。如式3中可看出,数据点独自作用于目标函数,因此每一个拉格朗日乘子的确定与其它拉格朗日乘子无关。例如,为了最大化一个具有高绝对值的分类分值|st|的无标记数据点的作用,需要一个小的拉格朗日乘子λt,而一个具有小的值|st|的无标记数据点,则需利用一个大的拉格朗日乘子,最大化它对
Figure A200780001197D0031105021QIETU
的作用。另一方面,无标记数据点的一个期望标记<y>作为其分类分值s和拉格朗日乘子λ的函数表示为:
<y>=tanh(λs)                                        (4)
图1显示了期望标记<y>作为一个分类分值s的函数,其使用成本因子c=5和c=1.5。通过使用成本因子c=5和c=1.5求解公式3,确定用于产生图1的拉格朗日乘子。由图1可知,界限之外的无标记数据点,即|s|>1,具有接近于0的期望标记<y>,接近于界限的数据点,即|s|≈1,产生最高的绝对期望标记值,以及接近于超平面的数据点,即|s|<∈,产生|<y>|<∈。当|s|→∞,<y>→0的非直观标记分配的原因在于所决定的判别方法,该方法只要满足分类限制,就试图保持尽可能地接近先验分布。它不是一个由表2的已知方法所选择的近似值的人工产物,即一个算法,该算法彻底地搜索所有可能的标记分配,并由此确保找出全局最优解,且同样将接近或等于零的期望标记分配给在界限之外的无标记数据。再次重申,如上所述,那是判别观点所期望的。在界限之外的数据点对于分隔样例并不重要,因此所有这些数据点的单个概率分布回复到了它们的先验分布。
Jaakkola的转导分类算法的M步骤,在此引用,确定了超平面参数的概率分布、偏差项、以及在限制的条件下最接近于各自的先验分布的数据点的界限,
&ForAll; t : s t &lang; y t &rang; - &lang; &gamma; t &rang; &GreaterEqual; 0 - - - ( 5 )
其中,st为第t个数据点分类分值,<yt>为其期望的标记,<γt>为其期望的界限。对于有标记数据,期望的标记是固定的,为<y>=+1或<y>=—1。无标记数据的期望标记位于区间(—1,+1)之内,且在标记归纳步骤中被估算。根据公式5,由于分类分值由期望标记决定,无标记数据须满足比有标记数据更严格的分类限制。此外,给定期望标记的关系式,作为分类分值的一个函数,参看图1,接近于分隔超平面的无标记数据具有最严格的分类限制,因为它们的分值以及期望标记的绝对值|<yt>|小。给定上述先验分布的M步骤的完全目标函数为:
Figure A200780001197D00322
第一项由高斯超平面参数先验分布获得,第二项为界限先验正规化项,最后一项为偏差先验正规化项,由具有零平均值和方差
Figure A200780001197D0032110639QIETU
的高斯先验获得。偏差项的先验分布可理解为一个类别先验概率的先验分布。因此,对应于所述偏差先验分布的正规化项限制了正面样例与负面样例的权重。参看公式6,偏差项的作用被最小化,以防超平面上的正面样例的集体拉动等于负面样例的集体拉动。由于偏差先验,拉格朗日乘子的集体限制就由数据点的期望标记加权,并因此无标记数据比有标记数据的限制更少。因而,无标记数据具有比有标记数据更强的影响最终解的能力。
总之,在Jaakkola的转导分类算法的M步骤,在此引用,无标记数据需要比有标记数据满足更严格的分类限制,且它们对于解的累积权重比有标记数据的限制更少。另外,具有一个接近于零的期望标记的无标记数据,位于当前M步骤的界限之内的,对解的影响最大。这样,如图2所示,通过将该算法应用于数据集,可以图解说明公式化E和M步骤的净效应。数据集包括两个有标记样例,一个位于x位置—1的负面样例(x),和一个+1的正面样例(+),以及沿x轴、位于—1与+1之间的六个无标记样例(o)。叉(x)表示一个有标记负面样例,加号(+)表示一个有标记正面样例,以及圆圈(o)表示无标记数据。不同的图表示分隔的超平面,由M步骤的不同的迭代决定。最终的解由Jaakkaola的转导MED分类器决定,在此引用,正面有标记训练样例被错误分类。图2显示了M步骤的多次迭代。在M步骤的第一次迭代,未考虑无标记数据,且分隔的超平面位于x=0。一个具有负x值的无标记数据点比任何其它无标记数据更接近于这个分隔的超平面。在随后的标记归纳步骤,它将被分配以最小的|<y>|,相应地,在下一个M步骤,它具有最大的权限将超平面推向正面有标记样例。期望标记<y>的特定形状作为一个由选定的成本因子(参看图1)确定的分类分值的函数,与无标记数据点的特定间隔相结合产生了桥联效应,在每一个连续的M步骤,分隔的超平面越来越靠近正面样例。直观地讲,M步骤遭受一种近视的困扰,最接近于当前分隔超平面的无标记数据点最能确定该平面的最终位置,而远离的数据点并不很重要。最终,由于偏差先验项限制了无标记数据的集体拉动少于有标记数据的集体拉动,因而分隔超平面移到超出正面标记样例,产生一个最终的解,图2中的第15次迭代,其将正面标记样例进行了错误的分类。在图2中使用了一个 &sigma; b 2 = 1 的偏差方差和一个c=10的成本因子。利用 &sigma; b 2 = 1 , 任何在范围9.8<c<13之内的成本因子产生一个将某一正面标记样例进行错误的分类的最终超平面。而所有在区间9.8<c<13之外的成本因子,在两个有标记样例之间的任何地方,产生分隔的超平面。
该算法的不稳定性并不仅局限于图2所示的样例,当应用Jaakkola方法时,在此引用,还经历了局限于现实世界数据集,包括为本领域技术人员所熟知的路透社数据集。表2中所述的该方法的固有的不稳定性为该实施方式的一个主要缺陷,且限制了其通用性,尽管Jaakkola方法可能在本发明的某些实施例中实施。
本发明一个优选方法采用使用最大熵判别(MED)的框架的转导分类。容易理解,本发明的不同实施例,适用于分类,也同样适用于其它使用转导的MED学习问题,包括,但不限于,转导MED复原和图像模式。
通过假设一个参数的先验概率分布,最大熵判别限制并减少可能的解。根据在期望的解准确地描述训练数据的限制下,最接近于假设的先验概率分布的概率分布,最终解为所有可能解的期望值。所有解的先验概率分布映射到一个正规化项,即,选择了一个特定的先验分布,就已经选择了一个特定的正规化。
由支持向量机实施的判别估计在从少量的样例的学习中是有效的。本发明实施例的方法和装置与支持向量机一样都具有该特点,并且不会估算比解决给定的问题所必要的参数更多的参数,并因此产生一个稀疏解。与生成模式估算相比,生成模式估算试图解释基础过程,通常需要比判别估算更高的统计。另一方面,生成模式更加灵活,故可用于各种各样的问题。另外,生成模式估算能直接包括先验知识。通过使用最大熵判别,本发明实施例的方法和装置缩短了纯判别模式估算(如,支持向量机学习)与生成模式估算之间的差距。
如表3中所示的本发明的实施例的方法是一个改进的转导MED分类算法,其不具有前述在Jaakkola(在此引用)的方法中所存在的不稳定的问题。区别包括,但不限于,在本发明实施例中,每个数据点都具有其自身的成本因子,与其绝对标记期望值|<y>|成比例。另外,根据估计组成员概率作为数据点到判定函数的距离的函数,在各M步骤之后,更新每一个数据点的标记先验概率。本发明实施例的方法如以下表3所示:
改进的转导MED分类
Require:Data matrix X of labeled and unlabeled training examples
Require:Label prior probabilities p0(y)for labeled and unlabeled training examples.
Require:Global cost factor c.
1:<Y>:ExpectedLabel(p0(y)){Expected label determined from the training
examples’label prior probabilities.}
2:while-converged do
3:    C:=|<Y>|c{Scale each training example’s cost factor by the absolute value of
its expected label.}
4:      W:=MinimizeKLDivergence(X,<Y>,C)
5:      p0(y):=EstimateClassProbability(W,<Y>)
6:      Y′:=InduceLabels(W,X,p0(y),C)
7:      <Y>:=∈<Y>+(1-∈)Y′
8:end while
表3
通过|<y>|调节数据点成本因子,缓和了无标记数据对于超平面上的集体拖动的作用比有标记数据更强的问题,因为现在无标记数据的成本因子比有标记数据的成本因子要小,也就是说,各无标记数据点对于最终解的单独作用总是小于有标记数据点的单独作用。然而,倘若无标记数据的总量远大于有标记数据的数量,无标记数据仍然能比有标记数据更多地影响最终解。另外,利用估算的类别概率,将成本因子调节与更新标记先验概率结合,解决了上述桥联效应的问题。在第一个M步骤,无标记数据具有小的成本因子,产生一个期望标记,作为分类分值的函数,其相当平坦(见图1),相应地,在某种程度上,所有无标记数据被允许继续拉动超平面,虽然仅有较小的权重。另外,由于标记先验概率的更新,远离分隔的超平面的无标记数据没有被分配一个接近于0的期望标记,但在多次迭代之后,分配一个接近于y=+1或y=—1的标记,并由此逐渐地被看作有标记数据处理。
在本发明实施例的方法的一个特定实施中,通过假设一个具有判定函数参数Θ的零平均值和单位方差的一个高斯先验:
p 0 ( &Theta; ) = 1 ( 2 n ) n e - 1 2 &Theta; t &Theta; , .
判定函数参数的先验分布结合了即将到来的特定分类问题的重要先验知识。其它对于分类问题比较重要的判定函数参数的先验分布例如多项分布,泊松分布、柯西分布(Breit-Wigner)、麦克斯韦玻耳兹曼分布或玻色—爱因斯坦分布。
判定函数阈值b的先验分布由具有平均值μb和方差
Figure A200780001197D00352
的高斯分布给定:
p 0 ( b ) = 1 2 &pi; &sigma; b e - 1 ( b - &mu; b ) 2 &sigma; b 2 - - - ( 8 )
作为数据点的分类界限γi的先验分布
p 0 ( &gamma; t ) = ce - c ( 1 + 1 c - &gamma; t ) - - - ( 9 )
被选定,其中c为成本因子。该先验分布与Jaakkola(在此引用)中使用的先验分布不同,Jaakkola的表达式为exp[—c(1—γ)]。优选地,式9所给出的表达式优于Jaakkola(在此引用)使用的表达式,因为即使成本因子小于1,式9也会产生一个正面期望界限,而当c<1时,exp[—c(1—γ)]产生一个负面期望界限。
给定这些先验分布,可直接确定相应的分配函数Z(参看样例T.M.Cover and J.A.Thomas,Elements of Information Theory,John Wiley&Sons,Inc.)(Cover),且目标函数
Figure A200780001197D00355
根据Jaakkola(在此引用),M步骤的目标函数为
以及E步骤的目标函数为
Figure A200780001197D00362
其中st为第t个数据点的分类分值,在前面的M步骤中确定,p0,1(yt)为数据点的二元标记先验概率。对于有标记数据,标记先验初始化为p0,1(yt)=1,而对于无标记数据,标记先验初始化为p0,1(yt)=1/2的非信息先验,或类别先验概率。
这里命名为M步骤的部分描述了解决M步骤目标函数的算法。同样地,这里命名为E步骤的部分描述了E步骤算法。
在表3第5行的估算类别概率(Estimate Class Probability)步骤,使用了训练的数据以确定校准参数,用于将分类分值变成组成员概率,即类别的概率给定分值p(c|s)。用于将分值校准估算为概率的相关方法在J.Platt,Probabilistic outputs for support vectormachines and comparison to regularized likelihood methods,pages 61-74,2000(Platt)以及B.Zadrozny and C.Elkan,Transforming classifier scores into accurate multi-classprobability estimates,2002(Zadrozny)中有描述。
特别参看图3,叉(x)表示一个有标记负面样例,加号(+)表示有标记正面样例,和圆圈(o)表示无标记数据。不同的曲线表示以M步骤的不同迭代确定的分隔超平面。第20次迭代显示了由改进的转导MED分类器决定的最终解。图3所示为改进的转导MED分类算法,应用于上述的小型数据集。使用的参数为c=10, &sigma; b 2 = 1 , μb=0。不同的c产生位于x≈—0.5,和x=0之间的分隔超平面,当c<3.5时,超平面位于一个x<0的无标记数据的右侧,而当c≥3.5时,超平面位于该无标记数据点的左侧。
特别参看图4,图示了一个控制流程,显示了本发明实施例的分类无标记数据的方法。方法100在步骤102开始,在步骤104访问存储数据106。该数据存储在存储单元且包括有标记数据、无标记数据以及至少一个预设的成本因子。数据106包括具有分配的标记的数据点。分配的数据点识别有标记数据点是否将被纳入一个特定的类别,还是从一个特定类别被排除。
一旦数据在步骤104被访问,本发明实施例的方法在步骤108接着使用数据点的标记信息,确定该数据点的标记先验概率。然后,在步骤110,根据所述标记先验概率,确定该数据点的期望标记。随着期望标记在步骤110中被计算,连同有标记数据,无标记数据和成本因子,步骤112包括通过调节成本因子无标记数据点,对转导MED分类器进行迭代训练。在每一次迭代计算中,无标记数据点的成本因子被调节。这样,MED分类器从计算的反复迭代中学习。训练的分类器接着在步骤116访问输入数据114。然后该训练的分类器在步骤118完成分类输入数据的步骤,并在步骤120终止。
容易理解,106的无标记数据和输入数据114可以从一个单一的来源获得。由此,输入数据/无标记数据可用于步骤112的迭代过程,该过程随后在步骤118中用于分类。而且,本发明实施例考虑,输入数据114可包括一个反馈机构,以将输入数据提供给在106的存储数据,以便112的MED分类器可动态地从输入的新数据中学习。
特别参看图5,图示了一个控制流程图,显示了本发明实施例的另一种无标记数据的分类方法,包括用户定义的先验概率信息。方法200始于步骤202,在步骤204访问存储数据206。该数据206包括有标记数据、无标记数据、一个预设的成本因子、以及由用户提供的先验概率信息。206的有标记数据包括具有分配的标记的数据点。所述分配的标记识别该标记的数据点是将被纳入一个特定的类别还是从一个特定类别被排除。
在步骤208,期望的标记由206的数据计算。然后,该期望的标记在步骤210中连同有标记数据、无标记数据和成本因子被一起使用,以引导一个转导MED分类器的迭代训练。210的迭代计算在每一次计算中,调节无标记数据的成本因子。计算继续,直至分类器被正确地训练。
然后,训练的分类器在步骤214访问来自输入数据212的输入数据。训练的分类器接下来可以在步骤216完成分类输入数据的步骤。图4中所述的过程和方法,输入数据和无标记数据可以从一个单一的来源获得,且在206和212都可以进入系统。这样,输入数据212可在210影响训练,以便该过程可随着连续的输入数据动态地随时间变化。
在图4和图5中所示的两个方法中,一个监视器可确定系统有没有达到收敛。当MED计算的每一次迭代之间的超平面的变化降到一个预设的阈值以下,可确定收敛。在本发明的另一实施例中,当确定的期望标记的变化降到一个预设的阈值以下,可确定所述阈值。如果达到收敛,则迭代训练过程可以停止。
特别参看图6,显示了本发明方法的至少一个实施例的迭代训练过程的更加详细的控制流程图。过程300始于步骤302,在步骤304,来自数据306的数据被访问,该数据可以包括有标记数据、无标记数据、至少一个预设的成本因子,以及先验概率信息。306的有标记数据点包括一个标记,该标记识别所述数据点是否是将被纳入一个指定类别的数据点的训练样例,还是将被一个指定类别排除的数据点的训练样例。306的先验概率信息包括有标记数据集和无标记数据集的概率信息。
在步骤308,期望标记由来自步骤306的先验概率信息的数据确定。在步骤310中,每一个无标记数据集的成本因子相对于数据点的期望标记的绝对值成比例调节。然后通过确定一个判定函数,在步骤312训练一个MED分类器,即根据有标记和无标记数据的期望标记,利用有标记和无标记数据作为训练样例,最大化在被纳入的训练样例和被排除的训练样例之间的界限。在步骤314,使用步骤312的训练的分类器确定分类分值。在步骤316,分类分值被校准为组成员概率。在步骤318,根据组成员概率更新标记先验概率信息。在步骤320执行一个MED计算,以确定标记和界限概率分布,其中,前面确定的分类分值在MED计算中使用。结果,新的期望标记在步骤322计算,并且在步骤324,使用来自步骤322的计算更新该期望标记。在步骤326,该方法确定是否达到收敛。如果是,该方法在步骤328终止。如果未达到收敛,则从步骤310开始,完成该方法的另一次迭代。重复迭代直至达到收敛,从而实现MED分类器的迭代训练。当判定函数在每一次MED迭代计算之间的变化降到一个预设值以下时,达到收敛。在本发明另一个实施例中,当确定的期望标记值的变化降到一个预设的阈值以下时,达到收敛。
图7显示了根据一个实施例的一个网络体系结构700。如图所示,提供了多个远程网络702,包括第一远程网络702和第二远程网络704。网关707可连接在远程网络702与邻近网络708之间。在本网络体系结构700的环境下,网络704、706的每一个都可以采用任意形式,包括但并不限于:局域网、广域网,如因特网、公共开关电话网络(PSTN)、内部电话网,等等。
在使用中,网关707作为从远程网络702到邻近网络708的入口点。由此,网关707可用作一个路由器,能管理一个到达网关707的给定的数据包,以及一个开关,其为给定的数据包进出网关707提供实际的路径。
进一步包括至少一个与所述邻近网络708连接的数据服务器714,其可以通过网关707从远程网络702访问。需注意的是,数据服务器714可以包括任何类型的计算机设备/组件。与每个数据服务器714连接的是多个用户设备716。这些用户设备716可以包括台式计算机、膝上型计算机、手提式计算机、打印机或任何其它逻辑设备。需注意的是,在一个实施例中,用户设备717也可以直接连接于任意网络。
一台传真机720或一系列传真机720可连接于一个或多个网络704、706、708。
需注意的是,数据库和/或附加组件可以与连接于网络704、706、708的任意类型的网络元件一起使用或整合在其中。在本描述的环境下,网络元件优选为网络的任意组件。
根据一个实施例,图8显示了一个与图7的用户设备716有关的典型硬件环境。该图显示了一个典型工作站的硬件结构,具有一个中央处理器810,如一个微处理器,以及多个通过系统总线812相互连接的其它单元。
图8所示的工作站包括随机存取存储器(RAM)814,只读存储器(ROM)816,I/O适配器818,用于连接外围设备(如与总线812连接的磁盘存储单元820),用户接口适配器822,用于将键盘824、鼠标826、扬声器828、话筒832、和/或其它用户接口设备,如触摸屏和数码相机(图未示),连接于总线812,通信适配器834,用于将工作站连接于通信网络835(如,数据处理网络),以及显示适配器836,用于将总线812与显示设备838连接。
特别参看图9,显示了本发明一个实施例的装置414。本发明的一个实施例包括用于存储标记数据416的存储设备814。每一个标记数据点416都包括一个标记,指示该数据点是被纳入一个指定类别的数据点的训练样例,还是从一个指定类别被排除的数据点的训练样例。存储器814还存储无标记数据418,先验概率数据420和成本因子422。
处理器810访问来自存储器814的数据,并使用转导MED计算训练一个二元分类器,使其能够分类无标记数据。通过使用成本因子以及来自有标记和无标记数据训练样例,处理器810使用迭代转导计算,并调节该成本因子作为期望标记值的一个函数,从而影响成本因子数据422的数据,该数据然后再次输入处理器810。因此,成本因子422随着处理器810的MED分类的每一次迭代而变化。一旦处理器810充分地训练了一个MED分类器,处理器接着就能指导该分类器将无标记数据归类到已分类的数据424。
现有技术的转导SVM和MED公式造成潜在的标记分配呈指数增长,且近似值须向实际应用发展。在本发明的另一个实施例中,介绍了不同的转导MED分类的公式,无需遭受呈指数增长的可能的标记分配,并允许一个常规的闭型解(closed formsolution)。对于线性分类器,问题表述如下:找到超平面参数分布p(Θ),偏差分布p(b),数据点分类界限p(γ),其结合的概率分布相比结合的各自的先验分布p0具有一个最小化库乐伯克累积勒发散(Kullback Leibler divergence)KL,即
min p ( &Theta; ) , p ( &gamma; ) , p ( b ) = KL ( p ( &Theta; ) p ( &gamma; ) p ( b ) | | p 0 ( &Theta; ) p 0 ( &gamma; ) p 0 ( b ) ) - - - ( 13 )
受制于以下有标记数据的限制
&ForAll; t : &Integral; d&Theta;d&gamma;dbp ( &Theta; ) p ( &gamma; ) p ( b ) ( y t ( &Theta; X t - b ) ) - &gamma; t ) &GreaterEqual; 0 - - - ( 14 )
以及受制于以下无标记数据的限制
&ForAll; t &prime; : &Integral; d&Theta;d&gamma;dbp ( &Theta; ) p ( &gamma; ) p ( b ) ( ( &Theta; X t &prime; - b ) 2 ) - &gamma; t &prime; ) &GreaterEqual; 0 - - - ( 15 )
其中ΘXt为分隔的超平面的权重向量与第t个数据点的特征向量之间的点积。无需标记的先验分布。有标记数据根据其已知的标记被限制在分隔的超平面的右侧,而对于无标记数据的唯一要求是,它们到超平面的距离的平方大于界限。总之,本发明的实施例找到了一个分隔的超平面,它是在最接近于选定的先验概率,准确地分隔有标记数据,以及在界限之间没有无标记数据之间的一个权衡。其优点在于,无需引入标记的先验分布,因而,避免了潜在的标记分配指数增长的问题。
在本发明另一个实施例的特定实施中,使用用于超平面参数的公式7、8和9中给定的先验分布、偏差、和界限,得到以下分配函数:
Z ( &lambda; ) = 1 ( 2 &pi; ) n + 1 &sigma; b &Integral; d&Theta;db e - 1 2 &Theta; T &Theta; - 1 2 ( b - &mu; b &sigma; b ) 2 + &Sigma; t &lambda; t y t ( &Theta; T X t - b ) + &Sigma; t &lambda; t ( &Theta; T X t - v ) 2
( &Pi; t &Integral; p 0 ( &gamma; t ) e &Sigma; t &lambda; t &gamma; t d &gamma; t ) ( &Pi; t &prime; &Integral; p 0 ( &gamma; t &prime; ) e &Sigma; t &lambda; t &gamma; t d &gamma; t &prime; ) - - - ( 16 )
其中下标t为有标记数据的下标,而t’为无标记数据的下标。
引入符号:
Z = ( &Theta; b ~ &mu; b ) , U = ( X - 1 ) ,
Figure A200780001197D00407
G 2 = &Sigma; t &prime; U t &prime; U t &prime; T , G3=G1-2G2
和W=∑tλtγtUt-2∑t′λt′γt′Ut′
公式16可改写为如下:
在积分之后,产生下列分配函数:
Figure A200780001197D00411
即,最终的目标函数为:
Figure A200780001197D00412
+ &mu; b &Sigma; t y t &lambda; t - &mu; b 2 &Sigma; t &lambda; t &prime;
+ &Sigma; t ( 1 + 1 c ) &lambda; t + log ( 1 - &lambda; t c ) - - - ( 20 )
+ &Sigma; t &prime; ( 1 + 1 c ) &lambda; t &prime; + log ( 1 - &lambda; t &prime; c ) .
如在这里称为M步骤的段落中论述的已知标记的情况那样,目标函数
Figure A200780001197D0041111527QIETU
可通过应用类似的方法求解。不同之处在于,最大界限项的二次型中的矩阵
Figure A200780001197D0041111602QIETU
当前具有非对角项。
除了分类,本发明采用最大熵判别框架的方法还存在多种应用。例如,MED可用于解决数据的分类。总之,可用于任何种类的判别函数和先验分布、复原和图像模式(T.Jebara,Machine Learning Discriminative and Generative,Kluwer Academic Publishers)(Jebara)。
本发明实施例的应用可以用公式表示成具有已知标记的纯归纳学习问题,以及具有有标记和无标记训练样例的转导学习问题。在后面的实施例中,表3中描述的转导MED分类算法的改进对于普通转导MED分类、转导MED复原、图像模式的转导MED学习都同样适用。这样,对于本公开的目的及其从属的权利要求,词语“分类”可包括复原或图像模式。
M步骤
根据式11,M步骤的目标函数为:
Figure A200780001197D00416
+ &Sigma; t ( 1 + 1 c ) &lambda; t + &Sigma; t log ( 1 - &lambda; t c ) , - - - ( 21 )
t|0≤λt≤c},
其中拉格朗日乘子λt由最大化JM确定。
忽略冗余限制λt<c,上述两个问题的拉格朗日算符为:
Figure A200780001197D00421
+ &Sigma; t ( 1 + 1 c ) &lambda; t + &Sigma; t log ( 1 - &lambda; t c ) ,
+ &Sigma; t &delta; t &lambda; t ,
&ForAll; t : 0 &le; &lambda; t &le; c , &delta; t &GreaterEqual; 0 , &delta; t &lambda; t = 0 . - - - ( 22 )
对于最优性必要且充分的KKT条件为:
Figure A200780001197D00425
+ ( 1 + 1 c ) - 1 c - &lambda; t + &delta; t
= - &Sigma; t &prime; &lang; y t &rang; &lang; y t &prime; &rang; &lambda; t &prime; K ( X t , X t &prime; ) - &sigma; b 2 &lang; t t &rang; &Sigma; t &prime; &lambda; t &prime; &lang; y t &prime; &rang; - &mu; b &lang; y t &rang;
+ &lang; y t &rang; &lang; y t &rang; ( 1 + 1 c ) - &lang; y t &rang; &lang; y t &rang; ( c - &lambda; t ) + &delta; t
= &lang; y t &rang; ( - &Sigma; t &prime; &lang; y t &prime; &rang; &lambda; t &prime; K ( X t , X t &prime; ) - &sigma; b 2 &Sigma; t &prime; &lambda; t &prime; &lang; y t &prime; &rang; - &mu; b + 1 &lang; y t &rang; ( 1 + 1 c ) - 1 &lang; y t &rang; ( c - &lambda; t ) ) + &delta; t
= &lang; y t &rang; ( - F t - &sigma; b 2 &Sigma; t &prime; &lambda; t &prime; &lang; y t &prime; &rang; - &mu; b ) + &delta; t = 0
&ForAll; t : 0 &delta; t &GreaterEqual; 0 , &delta; t &lambda; t = 0 - - - ( 23 )
其中Ft为:
F t = &Sigma; t &prime; &lang; y t &prime; &rang; &lambda; t &prime; K ( X t , X t &prime; ) + 1 &lang; y t &rang; ( 1 + 1 c ) - 1 &lang; y t &rang; ( c - &lambda; t ) - - - ( 24 )
在最优解中,偏差等于期望偏差 &lang; b &rang; = &sigma; b 2 &Sigma; t &lambda; t &lang; y t &rang; + &mu; b 得到:
<yt>(-Ft-<b>)+δt=0                       (25)
通过考虑δtλt=0限制的两种情况,可总结出这些公式。第一种情况所有λt=0,以及第二种所有0<λt<c。无需考虑第三种,如S.Keerthi,S.Shevade,C.Bhattacharhyya,and K.Murthy,Improvements to platt’ssmo algorithm for svm classifier design,1999(Keerthi),中所描述,应用于SVM算法;在此公式中,势函数(potential function)保持λt≠c。
&lambda; t = 0 , &delta; t &GreaterEqual; 0 &DoubleRightArrow; ( F t + &lang; b &rang; ) &lang; y t &rang; &GreaterEqual; 0 - - - ( 26 )
0 < &lambda; t < c , &delta; t = 0 &DoubleRightArrow; ( F t + &lang; b &rang; ) &GreaterEqual; 0 - - - ( 27 )
这些情况下某些数据点t会存在干扰,直至达到最优解。即,当λt为非零时,Ft≠-<b>,或当λt为零时,Ft<yt><-<b><yt>。不幸的是,没有最优解λt,就无法计算<b>。对于这个问题的一个好的解决方法是借鉴Keerthi(再次在此引用)的方法,通过构建下列三个集合:
I0={t:0<λt<c}           (28)
I1={t:<yt>>0,λt=0}    (29)
I4={t:<yt><0,λt=0}    (30)
通过使用这些集合,使用下面的定义,我们可以限定最优性条件的最大极限干扰。I0中的元素为干扰,只要它们不等于-<b>,因此,来自I0的最大和最小的Ft为成为干扰的候选。当Ft<-<b>时,I1中的元素为干扰,因此,如果存在的话,来自I1的最小元素为最大极限干扰。最后,当Ft>-<b>时,在I4中的元素为干扰,其从I4干扰候选中产生最大元素。因此,-<b>受到如下所示的这些集合的“最小”和“最大”值的限制:
- b up = F min t { F t : t &Element; I 0 &cup; I 1 } - - - ( 31 )
- b low = F max t { F t : t &Element; I 0 &cup; I 1 } - - - ( 32 )
由于在最优解中,-bup和-blow必须相等的缘故,即-<b>,然后,减小-bup与-blow的差距将会推动训练算法收敛。另外,差距也可以作为一种确定数值收敛的方法被测定。
如前所述,只有达到收敛,才能知道b的值=<b>。另一个实施例的方法的区别在于,一次只能优化一个样例。因此,每隔一次,启发式训练将在I0中的样例与所有样例之间交替使用。
E步骤
公式12中E步骤的目标函数为
Figure A200780001197D00441
其中st为在之前的M步骤中确定的第t个数据点的分类分值。拉格朗日乘子λt由最大化确定。
忽略冗余限制λt<c,上述两个问题的拉格朗日算符为:
Figure A200780001197D00443
&ForAll; t : 0 &le; &lambda; t &le; c , &delta; t &GreaterEqual; 0 , &delta; t &lambda; t = 0
对于最优性必要且充分的KKT条件为:
&PartialD; L &prime; ( &lambda; ) &PartialD; t &lambda; t = ( 1 - 1 c ) - 1 c - &lambda; t - s t P 0 , t ( + 1 ) e &lambda; t s t - P 0 , t ( - 1 ) e - &lambda; t s t P 0 , t ( + 1 ) e &lambda; t s t + P 0 , t ( - 1 ) e - &lambda; t s t + &delta; t = 0 . - - - ( 35 )
由于对样例进行了因式分解,只要忽略样例,通过优化KKT条件对拉格朗日乘子的求解可以完成。
对于有标记样例,期望标记<yt>具有P0,1(yt)=1和P0,1(-yt)=0,简化KKT条件为:
&PartialD; L E ( &lambda; ) &PartialD; &lambda; t = ( 1 - 1 c ) - 1 c - &lambda; t - s t &lang; y t &rang; + &delta; t = 0 - - - ( 36 )
并生成作为有标记样例的拉格朗日乘子的解:
&lambda; t = c - 1 - c &lang; y t &rang; s t ( 1 - 1 c ) &lang; y t &rang; s t - - - ( 37 )
对于无标记样例,公式35不能分解求解,但必须通过使用,如对每个满足公式35的无标记样例的拉格朗日乘子进行线性搜索,来确定。
下面为多个非限制的样例,其可通过上述所例举的方法、及其推导或变化,以及其它现有技术已知的方法实现。每一个例子包括优选的运算,结合可选的运算或参数,其可在基本的优选方法论中实施。
在实施例中,如图10所示,有标记数据点在步骤1002被接收,每一个数据点具有至少一个标记,指示该数据点是被纳入一个特定类别的数据点的训练样例,还是从一个特定类别被排除的数据点的训练样例。另外,无标记数据点在步骤1004被接收,同时接收所述有标记数据点和无标记数据点的至少一个预设成本因子。所述数据点可以包括任何介质,如单词、图像、声音等等。有标记和无标记数据点的先验概率信息也可以被接收。而且,被纳入的训练样例的标记可映射为第一个数值,如+1等,而被排除的训练样例可映射为第二个数值,如—1等。另外,所述有标记数据点、无标记数据点、输入数据点、以及有标记数据点和无标记数据点的至少一个预设成本因子可存入计算机存储器。
进一步,在步骤1006,使用所述至少一个成本因子,以及有标记数据点和无标记数据点作为训练样例,通过迭代计算,一个转导MED分类器被训练。对于每一次迭代计算,调整无标记数据点成本因子作为一期望标记值,例如一个数据点的期望标记的绝对值等,的函数,并根据数据点组成员概率的估算调整数据点标记先验概率,由此确保稳定性。而且,转导分类器可学习使用有标记和无标记数据的先验概率信息,这进一步提高了稳定性。训练转导分类器的迭代步骤可以重复,直至达到数据值的收敛,例如,当转导分类器的判定函数的变化降到一个预设的阈值以下时、当确定的期望标记值的变化降到一个预设的阈值以下时,等等。
此外,在步骤1008,训练的分类器用于分类所述无标记数据点、有标记数据点、和输入数据点中的至少一种。输入数据点可在分类器被训练之前或之后接收,或根本不接收。而且,根据它们的期望标记,利用所述有标记和无标记数据点作为学习样例,可确定判定函数,给定被纳入和被逐出的训练样例,该判定函数可将KL发散最小化为判定函数参数的先验概率分布。换言之,该判定函数可以使用判定函数参数的多项式分布,由最小的KL发散来确定。
在步骤1010,分类的数据点的类别,或其衍生物,被输出给一个用户、另一系统、和另一过程中的至少一个。系统可以是远程的或当地的。类别的衍生物的例子可以是,但并不限于,分类的数据点本身、分类数据点的表征或标志符、或者主文件/文档,等等。
在另一个实施例中,计算机系统使用并执行计算机可执行程序代码。该程序代码包括用于访问存储于计算机存储器的有标记数据点的指令,每一个所述有标记数据点具有至少一个标记,指示该数据点是否为被纳入一个指定类别的数据点的训练样例,还是从一个指定类别中被排除的数据点的训练样例。另外,计算机代码包括用于从计算机存储器访问无标记数据点的指令,以及从计算机存储器访问有标记数据点和无标记数据点的至少一个预设成本因子的指令。存储于计算存储器的有标记和无标记数据点的先验概率信息也可以被访问。而且,被纳入的训练样例的标记可映射为第一个数值,如+1等,而被排除的训练样例可映射为第二个数值,如—1等。
进一步,程序代码包括这样的指令,所述指令使用至少一个存储的成本因子、以及存储的有标记数据点和存储的无标记数据点作为训练样例,通过迭代计算训练转导分类器。而且,对于每一次迭代计算,调整无标记数据点成本因子作为该数据点的期望标记值,例如数据点的期望标记的绝对值,的一个函数。而且,对于每一次迭代,先验概率信息可以根据数据点的组成员概率的估算进行调整。训练转导分类器的迭代步骤可被重复,直至数据值达到收敛,例如,当转导分类器的判定函数的变化降到一个预设的阈值以下时、当确定的期望标记值的变化降到一个预设的阈值以下时,等等。
另外,程序代码包括这样的指令,所述指令用于训练分类器,对无标记数据点、有标记数据点、和输入数据点中的至少一种进行分类,以及用于输出所述分类的数据点的类别或其衍生物的指令,将类别输出给一个用户、另一个系统、和另一个过程中的至少一个。而且,根据它们的期望标记,利用所述有标记和无标记数据点作为学习样例,可确定判定函数,给定被纳入和被排除的训练样例,该判定函数可将KL发散最小化为判定函数参数的先验概率分布。
在另一个实施例中,数据处理装置包括至少一个存储器,用于存储:(i)有标记数据点,每一个所述有标记数据点具有至少一个标记,指示该数据点是被纳入一个指定类别的数据点的训练样例,还是从一个指定类别被排除的数据点的训练样例;(ii)无标记数据点;和(iii)所述有标记数据点和无标记数据点的至少一个预设成本因子。所述存储器还可以存储有标记和无标记数据点的先验概率信息。而且,被纳入的训练样例的标记可映射为第一个数值,如+1等,而被排除的训练样例可映射为第二个数值,如—1等。
另外,所述数据处理装置包括一个转导分类训练器,以利用所述至少一个成本因子,以及所述有标记数据点和无标记数据点作为训练样例,使用转导的最大熵判别(MED),迭代地训练所述转导分类器。此外,在每一次MED迭代计算,调整所述无标记数据点成本因子作为该数据点的期望标记值,例如一个数据点的期望标记的绝对值等,的一个函数。而且,在每一次MED迭代计算,先验概率信息可以根据一个数据点组成员概率的估计被调整。该装置还可以包括一个用于确定数据值收敛的装置,如,当转导分类器计算的判定函数的变化降到一个预设的阈值以下时、当确定的期望标记值的变化降到一个预设的阈值以下时,等等,以及一旦确定收敛,则终止计算。
另外,训练的分类器用于分类无标记数据点、有标记数据点、和输入数据点中的至少一种。而且,根据它们的期望标记,利用所述有标记和无标记数据点作为学习样例,可确定判定函数,给定被纳入和被排除的训练样例,该判定函数可将KL发散最小化为判定函数参数的先验概率分布。而且,分类的数据点的类别,或其衍生物,输出给一个用户、另一系统、和另一过程中的至少一个。
在另一个实施例中,一个制品,包括计算机可读的程序存储介质,该介质确切地包括一个或多个计算机可执行的指令程序,以执行数据分类的方法。在使用中,接收有标记数据点,每个有标记数据点具有至少一个标记,指示该数据点是被纳入一个指定类别的数据点的训练样例,还是从一个指定类别被排除的数据点的训练样例。另外,接收无标记数据点,以及所述有标记数据点和无标记数据点的至少一个预设的成本因子。有标记数据点和无标记数据点的先验概率信息也可以存入计算机存储器。而且,被纳入的训练样例的标记可映射为第一个数值,如+1等,而被排除的训练样例可映射为第二个数值,如—1,等。
进一步,使用至少一个存储的成本因子和存储的有标记数据点和无标记数据点作为训练样例,利用迭代的最大熵判别(MED)计算,训练转导分类器。在MED计算的每一次迭代中,调整无标记数据点成本因子作为该数据点的期望标记值,例如一个数据点的期望标记的绝对值等,的一个函数。而且,在每一次MED迭代计算,先验概率信息可以根据一个数据点组成员概率的估算被调整。训练转导分类器的迭代步骤可被重复,直至达到数据值收敛,例如,当转导分类器的判定函数的变化降到一个预设的阈值以下时、当确定的期望标记值的变化降到一个预设的阈值以下时,等等。
另外,从计算机存储器访问输入数据点,训练的分类器用于分类所述无标记数据点、有标记数据点、以及输入数据点中的至少一种。而且,根据它们的期望标记,利用所述有标记和无标记数据点当作学习样例,可确定判定函数,给定被纳入和被排除的训练样例,该判定函数可将KL发散最小化为判定函数参数的先验概率分布。而且,分类的数据点的类别,或其衍生物,被输出给一个用户、另一系统、和另一过程中的至少一个。
在另一个实施例中,提供了一种用于在一个基于计算机的系统中分类无标记数据的方法。在使用中,有标记数据点被接收,每一个所述有标记数据点具有至少一个标记,指示该数据点是被纳入一个指定类别的数据点的训练样例,还是从一个指定类别被排除的数据点的训练样例。
另外,有标记和无标记数据点被接收,有标记数据点和无标记数据点的先验标记概率信息也被接收。而且,有标记数据点和无标记数据点的至少一个预设成本因子也被接收。
而且,每一个有标记和无标记数据点的期望标记根据该数据点的标记先验概率被确定。重复下面的子步骤,直至数据值足够收敛。
·为每一个与数据点的期望标记的绝对值成比例的无标记数据点生成一个调节的成本值;
·通过确定判定函数,给定被纳入训练和被逐出训练的样例,使用所述有标记和无标记数据点作为训练样例,训练一个最大熵判别(MED)分类器,根据它们的期望标记,该判定函数将KL发散最小化为判定函数参数的先验概率分布;
·使用所述训练的分类器,确定所述有标记和无标记数据点的分类分值;
·将训练的分类器的输出校准为组成员概率;
·根据所述确定的组成员概率,更新所述无标记数据点的标记先验概率;
·利用所述更新的标记先验概率和之前确定的分类分值,使用最大熵判别(MED),确定所述标记和界限概率分布;
·使用之前确定的标记概率分布,计算新的期望标记;和
·通过将之前迭代的所述期望标记插入所述新的期望标记,为每一个数据点更新期望标记。
而且,输入数据点的类别或其衍生物,被输出给一个用户、另一系统、和另一过程中的至少一个。
当判定函数的变化降到一个预设的阈值以下时,达到收敛。此外,当确定的期望标记值的变化降到一个预设的阈值以下时,也可以达到发散。而且,被纳入的训练样例的标记可具有任意值,如+1,且被排除的训练样例可具有任意值,如—1。
在本发明的一个实施例中,一种用于分类文件的方法如图11所示。在使用中,在步骤1100,接收至少一个具有已知置信级别的种子文件,并接收无标记文件和至少一个预设成本因子。该种子文件和其它项可以从计算机存储器、用户、网络连接等被接收,且可以在一个来自执行该方法的系统的请求后被接收。所述至少一个种子文件可以具有一个该文件是否被纳入一个指定类别的指示标记,可以含有一个关键字列表,或具有任何其它有助于分类文件的特征。而且,在步骤1102,通过迭代计算,使用至少一个预设成本因子、至少一个种子文件、以及无标记文件,训练一个转导分类器,其中,对于每一次迭代计算,调整成本因子作为一个期望标记值的函数。有标记和无标记文件的数据点标记先验概率也可以被接收,其中,对于每一次迭代计算,可以根据数据点组成员概率的估计,调整所述数据点标记先验概率。
另外,在至少部分迭代之后,在步骤1104为无标记文件存储置信分值,且在步骤1106,具有最高置信分值的无标记文件的标识符被输出给一个用户、另一系统、和另一过程中的至少一个。该标识符可以是该文件本身的电子副本、其部分、其标题、其名称、指向文件的指针,等等。而且,置信分值可以在每一次迭代之后存储,其中,在每一次迭代之后,具有最高置信分值的无标记文件的标识符被输出。
本发明的一个实施例能够查询将初始文件与其余文件链接的模式。查询的目标是一个这种模式查询证明为特别有价值的区域。例如,在审前法律查询(pre-trial legaldiscovery)中,针对手头上诉讼的可能的链接,须研究大量的文件。最终目的为了发现“确凿的证据”。在另一个例子中,对于发明人、专利审查员,以及专利律师的共同的任务,就是通过对现有技术的检索,评估一项技术的新颖性。特别地,该任务为搜索所有公布的专利和其它出版物,并在这个集合中发现可能与审查新颖性的特定技术有关的文件。
查询的任务包括在一组数据中找到一个文件或一组文件。给定一个初始文件或概念,用户可能想要发现与该初始文件或概念有关的文件。然而,初始文件或概念与目标文件之间关系的见解,即,将要查询的文件,仅在查询过之后,才能很好地理解。通过学习有标记和无标记文件、概念等,本发明能学习单个或多个初始文件与目标文件之间的模式和关系。
在本发明的另一个实施例中,一种用于分析与法律查询相关的文件的方法如图12所示。在使用中,在步骤1200接收与法律事件相关的文件。这些文件可以包括文件本身的电子副本、其部分、其标题、其名称、指向文件的指针,等等。另外,在步骤1202,对文件执行一种文件分类方法。进一步地,在步骤1204,基于其分类输出至少部分文件的标识符。可选地,这些文件之间的链接的标识也被输出。
所述文件识别方法可以包括任何类型的过程,如一个转导过程等等。例如,可以使用前述的任何归纳或转导方法。在一个优选的方法中,使用至少一个预设成本因子、至少一个种子文件、以及与法律事件有关的文件,通过迭代计算训练一个转导分类器。对于每一次迭代计算,成本因子优选地调整作为一个期望标记值的函数,训练的分类器被用于分类接收的文件。该过程还可以包括为有标记和无标记文件接收一个数据点标记先验概率,其中,对于每一次迭代计算,根据一个数据点组成员概率的估算,调整所述数据点标记先验概率。另外,所述文件分类方法还可以包括一个或多个支持向量机过程和最大熵判别过程。
在另一个实施例中,一种分析现有技术文件的方法如图13所示。在使用中,在步骤1300,基于一个搜索查询训练一个分类器。在步骤1302,多个现有技术文件被访问。这些现有技术可以包括在一个给定日期前,公众可以任何形式获得的任何信息。该现有技术也可以包括在一个给定日期前,公众还不能以任何形式获得的任何信息。例举的现有技术文件可以是任意类型的文件,如专利局的出版物、取自数据库的数据、收集的现有技术、网页的部分,等等。而且,在步骤1304,使用所述分类器对至少部分所述的现有技术文件执行一种文件分类方法,且在步骤1306,基于其分类,输出至少部分所述的现有技术文件的标识符。所述文件分类技术可以包括一个或多个过程,包括一个支持向量机过程、一个最大熵判别过程,或前述的任意归纳或转导方法。也或者,所述文件之间链接的表征也可以被输出。在另一个实施例中,至少部分现有技术文件之间相关性的分值基于其分类被输出。
所述搜索查询可以包括专利公开的至少一部分。例举的专利公开包括,由发明人总结其发明而产生的公开、临时专利申请、非临时专利申请、国外专利或专利申请等等。
在一个优选的方法中,所述搜索查询包括一件专利或专利申请的权利要求的至少一部分。在另一个方法中,所述搜索查询包括一件专利或专利申请的摘要的至少一部分。在另一个方法中,所述搜索查询包括一件专利或专利申请的发明概要的至少一部分。
图27显示了一种用于将文件与权利要求匹配的方法。在步骤2700,基于一件专利或专利申请的至少一项权利要求训练一个分类器。因此,一项或多项权利要求,或其一部分,可用于训练分类器。在步骤2702,多个文件被访问。这些文件可包括现有技术文件,描述潜在的侵权或占先使用产品的文件。在步骤2704,使用所述分类器对至少部分文件执行一种文件分类方法。在步骤2706,基于其分类,输出至少部分文件的标识符。至少部分文件的相关分值也可以基于其分类被输出。
本发明的一个实施例可用于专利申请的分类。在美国,例如,现如今专利和专利申请使用美国专利分类(USPC)系统,根据其主题被分类。该任务现在由人工完成,因此成本高且费时。这种人工分类还受到人为错误的制约。解决这个任务的复杂性在于,可将专利或专利申请分成多个种类。
根据一个实施例,图28显示了一种用于分类专利申请的方法。在步骤2800,基于多个已知属于一个特定专利分类的文件训练一个分类器。这些文件通常可以是专利或专利申请(或其一部分),但也可以是描述特定专利分类的目标主题的概要文件。在步骤2802,一件专利或专利申请的至少一部分被接收。所述部分可以包括:权利要求、发明概要、摘要、说明书、名称,等等。在步骤2804,使用所述分类器对所述专利或专利申请的至少一部分执行一种文件分类方法。在步骤2806,所述专利或专利申请的分类被输出。可选地,用户可以手动地校验部分或全部专利申请的分类。
所述文件分类方法优选地为一种是/否分类方法。换句话说,如果文件在正确的类别内的概率高于一个阈值,则判定为是,该文件属于该类别。如果文件在正确的类别内的概率低于一个阈值,则判定为否,该文件不属于该类别。
图29显示了另一个用于分类专利申请的方法。在步骤2900,使用一个分类器对一件专利或专利申请的至少一部分执行一种文件分类方法,该分类器事先基于至少一个与一个特定专利分类相关的文件被训练。同样的,所述文件分类方法优选为一种是/否分类方法。在步骤2902,所述专利或专利申请的分类被输出。
在图28和图29所示的两种方法中,可以使用不同的分类器重复各自的方法,所述分类器事先基于多个已知属于一个不同的专利分类的文件被训练。
正式地,专利的分类应当基于权利要求。然而,也希望执行匹配介于(任何IP相关内容)和(任何IP相关内容)。作为一个例子,一种方法使用专利的说明书进行训练,并根据专利申请的权利要求对专利申请进行分类。另一种方法使用说明书和权利要求进行训练,并基于摘要分类。在特别优选的方法中,无论专利或申请的哪个部分被用于训练,在分类时使用相同类型的内容,即如果系统根据权利要求进行训练,则分类基于权利要求。
所述文件分类方法可以包括任何类型的过程,例如一个转导过程等等。例如,可使用上述的任何归纳或转导方法。在一个优选的方法中,所述分类器可以是一个转导分类器,且所述转导分类器使用至少一个预设成本因子、至少一个种子文件、和现有技术文件,通过迭代计算进行训练,其中,对于每一次迭代计算,调整所述成本因子作为一个期望标记值的函数,且所述训练的分类器可用于分类所述现有技术文件。所述种子文件和现有技术文件的一个数据点标记先验概率也可以被接收,其中,对于每一次迭代计算,可以根据一个数据点组成员概率的估算,调整所述数据点标记先验概率。种子文件可以是任何文件,如专利局的出版物、取自数据库的数据、一组现有技术、网站、专利公开等。
在一个方法中,图14描述了本发明的一个实施例。在步骤1401,一组数据被读取。在该组数据内,和用户有关的文件的发现是需要的。在步骤1402,单个或多个初始种子文件被标记。所述文件可以是任何种类的文件,例如专利局的出版物、取自数据库的数据、一组现有技术、网站等等。也可以一串不同的关键字或由用户提供的文件安排转导过程。在步骤1406,使用有标记数据和一个给定集合中的一组无标记数据,训练一个转导分类器。在迭代转导过程中的每一个标记归纳步骤,在标记归纳过程中确定的置信分值被存储。在步骤1408,一旦完成训练,就向用户显示在标记归纳步骤中获得高置信分值的文件。这些具有高置信分值的文件代表与用户查询目的相关的文件。该显示可以按照标记归纳步骤的时间先后顺序,从初始种子文件开始,一直到在最后的标记归纳步骤中被发现的最后一组文件。
本发明的另一实施例涉及数据清理和精确分类,例如与自动化的商业过程相结合。所述清理和分类方法可以包括任何类型的过程,例如一个转导过程等。例如,可以使用上述任何转导或归纳方法。在一个优选的方法中,根据数据库的期望清洁度,进入数据库的密钥被用作与置信级别相关的标记。然后,该标记连同相关的置信级别,即期望标记,被用于训练一个转导分类器,该分类器修正所述标记(密钥),以实现对数据库中数据的更为可靠的管理。例如,发票必须首先根据开出发票的公司或个人被分类,以实现自动数据提取,例如确定总金额、订单编号、产品数量、装运地址等等。通常,设立一个自动分类系统需要训练样例。然而,由顾客提供的训练样例常常含有错误分类的文件或其它干扰,如传真封页,为了获得准确的分类,在训练所述自动分类系统之前,这些文件必须被识别并移除。在另一个实施例中,在病例的领域,有助于检测由医生所写的报告与其诊断报告之间的不一致性。
在另一个实施例中,众所周知,专利局需要经历连续的重新分类过程,其中,他们(1)评估他们的干扰分类法的一个现存分支,(2)重建该分类法以均匀地分布过度拥挤的节点,以及(3)将现存的专利重新分类到新的结构。这里的转导学习方法为专利局以及他们外包的用来做这项工作的公司所用,以重新评估他们的分类法,并帮助他们(1)为一个给定的主分类建立新的分类法,(2)重新分类现存的专利。
转导从有标记和无标记数据学习,由此从有标记到无标记的转变是流畅的。图谱的一端是具有完美的现有知识的有标记数据,如,给定的标记无一例外都是正确的。在另一端为没有给定现有知识的无标记数据。带有某种程度干扰的组编的数据组成错误分类的数据,并位于图谱的两个极端之间的某处。由数据组织给出的标记在某种程度上可以肯定地认为是正确的,但并不完全。因此,转变可被用于清理现有的数据组编,通过在一个给定的数据组织之内假设一个特定的出错程度,并在标记分配的现有知识中把这些解释为不确定性。
在一个实施例中,一种清理数据的方法如图5所示。在使用中,在步骤1500,多个有标记数据项被接收,在步骤1502,为多个类别中的每一个类别选取所述数据项的子集。另外,在步骤1504,将每一个子集中的数据项的不确定性设置成约为零,在步骤1506,将不在所述子集中的数据项的不确定性设置成一个不约为零的预设值。进一步,在步骤1508,通过迭代计算,使用所述不确定性、子集中的数据项、以及不在子集中的数据项作为训练样例,训练一个转导分类器,并在步骤1510,训练的分类器用于每一个有标记数据项,以分类每一个所述数据项。而且,输入数据项的分类,或其衍生物,在步骤1512被输出给一个用户、另一系统、和另一过程中的至少一个。
进一步,所述子集可随机选取,并可以由用户选取和校验。至少部分所述数据项的标记可以基于其分类被改变。而且,在分类后,具有低于一个预设的阈值的置信级别的数据项的标识符被输出给用户。所述标识符可以是该文件本身的电子副本、其部分、其标题、其名称、指向该文件的指针,等等。
在本发明的一个实施例中,如图16所示,在步骤1600,启动一个清理过程的两个选项被呈现给用户。在步骤1602,一个选项为全自动清理,对于每一个概念或类别,随机地选取特定数量的文件,并假设它们被正确地组编。或者,在步骤1604,一定数量的文件可被打上标记,以人工检查及校验是否每一个概念或类别的一个或多个标记分配被准确地组编。在步骤1606,数据中干扰程度的一个估计被接收。在步骤1610,使用在步骤1608中的已校验的(人工校验或随机选取)数据和未校验的数据,训练所述转导分类器。一旦训练结束,文件根据新的标记被重新组编。在步骤1612,在标记分配中具有低于一个特定阈值的低置信级别的文件,被显示给用户,以用于人工检查。在步骤1614,根据转导标记分配,在标记分配中具有高于一个特定阈值的置信级别的文件被自动校对。
在另一个实施例中,一种用于管理病历的方法如图17所示。在使用中,在步骤1700,一个分类器基于医疗诊断被训练,在步骤1702,多个病历被访问。另外,在步骤1704,使用所述分类器对所述病历执行一种文件分类方法,且具有低概率的与医疗诊断相关性的至少一个病历的标识符,在步骤1706被输出。该文件分类方法包括任何类型的过程,如一个转导过程等,且可以包括上述一个或多个任意的归纳或转导方法,包括支持向量机过程、最大熵判别过程等等。
在一个实施例中,所述分类器可以是一个转导分类器,且所述转导分类器可以通过迭代计算,使用至少一个预设的成本因子、至少一个种子文件、以及病历被训练,其中,对于每一次迭代计算,调整所述成本因子作为期望标记值的一个函数,且训练的分类器可用于分类所述病历。种子文件和病历的数据点标记先验概率也可以被接收,其中,对于每一次迭代计算,可以根据数据点组成员概率的估算,调整所述数据点标记先验概率。
本发明的另一实施例描述了动态、漂移的分类概念。例如,在形式处理申请中,分类文件,使用文件的版面信息和/或内容信息对文件进行分类,以分类所述文件用于进一步的处理。在许多申请中,文件不是固定不变的,而是随时间而变化。例如,文件的内容和/或版面可能因为新的立法而改变。转导分类自动适应这些变化,产生相同或类似的分类准确性,而不受漂移的分类概念的影响。与基于规则的系统或归纳分类方法相比,无需人工调节,不会由于概念漂移而影响准确性。这个方法的一个例子是发票处理,其传统地包括归纳学习,或使用利用发票版面的基于规则的系统。对于这些传统的系统,如果版面发生变化,则系统必须通过标记新的训练数据或确定新的规则来人工重新设置。然而,转导的使用通过自动适应发票版面上的微小变化,使得人工重新设置变得不再必要。在另一个实施例中,转导分类可用于分析客户投诉,以监测这些投诉性质的变化。例如,一家公司可自动地将产品变化与客户投诉相链接。
转导也可用于新闻文章的分类。例如,有关战争、恐怖袭击的新闻文章,始于针对2001年9月11日阿富汗战争的恐怖份子袭击,直至有关伊拉克当今局势的新闻故事,都可以使用转导自动识别。
在另一个实施例中,生物分类(α分类学)可以随时间而改变,通过进化,新的物种产生,而其它物种灭绝。随着分类概念随时间的改变,分类纲要或分类学的该项和其它规则是可以动态变化的。
通过使用必须被归类为无标记数据的输入数据,转导可以识别漂移分类概念,并由此自动地适应变化的分类纲要。例如,图18显示了本发明的一个给定漂移分类概念使用转导的实施例。文件组Dt在时间tt进入系统,如步骤1802所示。在步骤1804,使用迄今为止积累的有标记和无标记数据训练一个转导分类器Ct,在步骤1806,文件组Dt中的文件被分类。如果使用人工模式,在步骤1808中被确定为具有低于一个用户提供的阈值的置信级别的文件,在步骤1810被呈现给用户以用于人工检查。如步骤1812所示,在自动模式中,一个具有置信级别的文件触发了一个新的类别的创建,该类别被加入系统,然后该文件就被归于该新的类别。在步骤1820A-B,具有高于上述选定阈值的置信级别的文件被分类到当前的类别1至N。在步骤tt之前已经被分类到当前类别的所有当前类别的文件,在步骤1822由分类器Ct重新分类,且在步骤1824和1826,所有不再被分类到上述指定类别的文件,被移入新的类别。
在另一个实施例中,一种适应文件内容变动的方法如图19所示。文件内容可以包括,但不限于,图像内容、文本内容、版面、编号,等等。变动的例子可以包括时间的变化、风格的变化(由2个或更多个人处理一个或多个文件),应用过程的变化、版面的变动,等等。在步骤1900,接收至少一个有标记种子文件、以及无标记文件和至少一个预设成本因子。所述文件可以包括,但不局限于,客户投诉、发票、表格文件、收据,等等。另外,在步骤1902,使用所述至少一个预设成本因子,至少一个种子文件,以及无标记文件,训练一个转导分类器。而且,在步骤1904,具有大于一个预设的阈值的置信级别的无标记文件,使用分类器被分类到多个类别,且在步骤1906,所述分类的文件的至少一部分,使用分类器被重新分类到多个类别。进一步,在步骤1908,所述分类的文件的标识符被输出给一个客户、另一系统、以及另一过程中的至少一个。所述标识符可以是文件本身的电子副本、其部分、其标题、其名称、指向文件的指针,等等。而且,产品变化可以与客户投诉等相链接。
另外,具有低于一个预设阈值的置信级别的无标记文件可被移入一个或多个新的类别。而且,通过迭代计算,使用至少一个预设的成本因子、至少一个种子文件、以及所述无标记文件,可以训练一个转导分类器,其中,对于每一次迭代计算,调整所述成本因子作为一个期望标记值的函数,并使用所述训练的分类器分类所述无标记文件。而且,所述种子文件和无标记文件的数据点标记先验概率可以被接收,其中,对于每一次迭代计算,根据一个数据点组成员概率的估算,调整所述数据点标记先验概率。
在另一个实施例中,一种使专利分类适应文件内容的变动的方法如图20所示。在步骤2000,接收至少一个有标记种子文件,以及无标记文件。所述无标记文件可以包括任何类型的文件,如,专利申请、法律文件、信息公开表格、文件修正,等等。种子文件可以包括专利、专利申请等等。在步骤2002,使用所述至少一个种子文件和无标记文件训练一个转导分类器,以及使用所述分类器将具有高于一个预设阈值的置信级别的无标记文件分类到多个现有的类别。所述分类器可以是任何类型的分类器,例如转导分类器等,且所述文件分类方法可以是任何方法,例如支持向量机方法、最大熵判别方法等等。例如,可使用上述的任何归纳或转导方法。
而且,在步骤2004,使用所述分类器将所述具有低于一个预设阈值的置信级别的无标记文件分类到至少一个新的类别,且在步骤2006,使用所述分类器将至少部分所述分类的文件重新分类到现有的类别以及至少一个新的类别。进一步,在步骤2008,所述分类的文件的标识符被输出给一个用户、另一系统、和另一过程中的至少一个。而且,可以使用至少一个预设的成本因子、所述搜索查询、以及所述文件,通过迭代计算,训练所述转导分类器,其中,对于每一次迭代计算,调整所述成本因子作为一个期望标记值的函数,且所述训练的分类器可用于分类所述文件。进一步,所述搜索查询和文件的数据点先验概率可以被接收,其中,对于每一次迭代计算,根据一个数据点组成员概率的估算,调整所述数据点先验概率。
在本发明的另一个实施例中,描述了在文件分离领域的文件漂移。一个应用的例子包括抵押文件的过程。包括一系列不同的借贷文件,例如借贷申请、批准、请求、数量等的借贷文件夹被扫描,且在进一步处理之前,必须确定在一系列图像中的不同的文件。使用的文件不是固定不变的,而是可随时间变化。例如,在借贷文件夹中,使用的纳税申请表格,可根据法律法规的变化而随时间变化。
文件分离解决了在一系列图像中发现文件或子文件界限的问题。一般产生一系列图像的例子是数字扫描仪或多功能外围设备(MFP)。如在分类的实施例中,转导可用于文件分离,以处理文件及其界限随时间的漂移问题。静态的分离系统,如基于规则的系统或基于归纳学习方法的系统,不能自动地适应漂移分离概念。无论何时发生漂移,这些静态分离系统的表现性能随时间而降低。为了保持其初始水平的性能,要么人工调整规则(就基于规则的系统来说),要么人工标记新的文件并重新学习系统(就归纳学习方法来说)。无论哪一种都是费时费财。应用转导到文件分离,使得系统得以改进,其可自动适应在分离概念中的漂移。
在一个实施例中,一种分离文件的方法如图21所示。在步骤2100,接收有标记数据,且在步骤2102,接收一组无标记文件。这些数据和文件可以包括合法的查询文件、官方通知、网页数据、代理律师公函等等。另外,在步骤2104,基于所述有标记数据和无标记文件,使用转导,概率性分类规则被调整,且在步骤2106中,根据概率性分类规则,更新用于文件分离的权重。而且,在步骤2108中,确定在一组文件中分离的位置,且在步骤2110,确定的在一组文件中分离的位置的指示符被输出给一个用户、另一系统、以及另一过程中的至少一个。所述指示符可以是文件本身的电子副本、其部分、其标题、其名称、指向文件的指针,等等。进一步,在步骤2112,文件被打上编码,所述编码与所述指示符有关。
图22显示了本发明所使用的用于文件分离的分类方法和设备的实施过程。在数字式扫描之后,使用自动文件分离以减少涉及文件分离和识别的人工工作。通过使用推理算法,将文件分离方法与分类规则相结合以自动分离多组页面,使用这里所述的分类方法,以减少来自所有可得到信息的最有可能的分离。本发明的一个例子如图22所示,本发明的转导MED的分类方法被用于文件分离。具体地,文件页面2200被放入数字扫描仪2202或MFP,并被转成一组数字图像2204。所述文件页面可以是来自任何类型文件的页面,如专利局的出版物、取自数据库的数据、现有技术的集合、网站等等。在步骤2206,输入一组数字图像,以动态适应使用转导的概率性分类规则。步骤2206使用一组图像2204作为无标记数据和有标记数据2208。在步骤2210,概率性网络中的权重被更新,并被用于基于动态适应分类规则的自动文件分离。输出步骤2212为自动放入分离图像的动态自适应,这样,一组数字化的页面2214被隔行扫描成分离器页面2216的自动图像,在步骤2212,将分离器页面自动插入到图像序列。在本发明的一个实施例中,软件生成的分离器页面2216也可以指示紧随所述分离器页面2216的文件的类型。此处描述的系统自动地适应文件随时间而发生的漂移分离概念,而不必担心会像基于规则的静态系统或基于方法的归纳型机器学习那样出现分离准确度的降低。在表单处理(form processing)申请中,漂移分离或分类概念的一个常见的例子是,如之前所提到的,文件由于新的法律法规而产生变化。
另外,如图22所示的系统可改为如图23所示的系统,其页面2300放入数字扫描仪2302或MFP转换为一组数字图像2304。该组数字图像在步骤2306被输入,以使用转导动态适应概率性分类规则。步骤2306使用该组图像2304作为无标记数据和有标记数据2308。步骤2310,根据所采用的动态自适应分类规则,更新用于自动文件分离的概率性网络中的权重。在步骤2312,不是如图18所述的插入分离器页面图像,而是步骤2312动态地适应自动插入分离信息,并用编码的描述标记所述文件图像。由此,文件页面图像可被输入一个图像处理数据库2316,且所述文件可通过软件标识符访问。
本发明的另一个实施例可使用转导进行人脸识别。如上所述,使用转导具有诸多优势,例如,仅需相对少量的训练样例,在训练中使用无标记样例的能力,等等。利用上述优势,转导人脸识别可用于犯罪侦查。
例如,国土安全部必需保证恐怖份子不得登上商用班机。机场筛选过程的一部分可以是在机场安检处采集每个乘客的相片,并尝试识别该人。系统初始可以使用少量的样例进行训练,该样例来自于可得到的可能是恐怖份子的有限的照片。在其它法律执法数据库中的、同一恐怖份子的无标记照片也可用于训练。因此,转导训练器不仅可以运用最初稀疏的数据建立功能性人脸识别系统,并且还可以使用其它来源的无标记样例以增强性能。在处理了机场安检处采集的照片后,转导系统能够比归纳系统更为精确地识别可疑人物。
在另一个实施例中,一种用于人脸识别的方法如图24所示。在步骤2400,至少一个人脸的有标记种子图像被接收,该种子图像具有已知的置信级别。该至少一个种子图像可以具有一个标记,指示该图像是否被纳入一个指定的类别。另外,在步骤2400,无标记图像被接收,如,从警察局、政府机构、失踪儿童数据库、机场安全,或任何其它地方,并接收至少一个预设的成本因子。而且,在步骤2402,通过迭代计算,使用所述至少一个预设的成本因子、至少一个种子图像,和无标记图像,训练一个转导分类器,其中,对于每一次迭代计算,调整所述成本因子作为一个期望标记值的函数。在至少多次迭代之后,在步骤2404,为所述无标记种子图像存储一个置信分值。
进一步,在步骤2406,具有最高置信分值的无标记文件的标识符被输出给一个用户、另一系统、和另一过程中的至少一个。所述标识符可以是该文件本身的电子副本、其部分、其标题、其名称、指向文件的指针,等等。而且,每一次迭代之后可以存储置信分值,其中,在每一次迭代之后,输出具有最高置信分值的无标记图像的标识符。另外,可以接收用于所述有标记和无标记图像的数据点标记先验概率,其中,对于每一次迭代计算,可以根据一个数据点组成员概率的估计,调整所述数据点标记先验概率。进一步,第三张人脸的无标记图像,如来自上述机场安全样例,可被接收,所述第三张无标记图像可与具有最高置信分值的至少部分图像比较,且如果确信该第三张无标记图像中的人脸与种子图像中的人脸是相同的,则可以输出所述第三个无标记图像的标识符。
本发明的另一个实施例通过提供反馈给文件检索系统,使用户能够改进他们的搜索结果。例如,当在一个互联网搜索引擎(专利或专利申请搜索产品等)上执行一项搜索时,用户可以得到大量对应于其搜索查询的结果。本发明的一个实施例使用户能够从搜索引擎浏览建议的结果,并告知搜索引擎一个或多个所得结果的相关性,如,“接近,但不是我真正想要的”、“绝对不是”等等。当用户提供反馈给搜索引擎时,更好的结果按照优先顺序给用户浏览。
在一个实施例中,一种用于文件搜索的方法如图25所示。在步骤2500,接收一个搜索查询。该搜索查询可以是任何类型的查询,包括区分大小写的查询、布尔查询、近似匹配查询、结构化查询,等等。在步骤2502,获得基于搜索查询的文件。另外,在步骤2504,输出所述文件,且在步骤2506,用于至少部分文件的用户键入的标记被接收,该标记指示所述文件与搜索查询之间的相关性。例如,用户可以指示从所述查询返回的一个特定结果是相关还是无关。而且,在步骤2508,基于所述搜索查询和用户键入的标记,一个分类器被训练,且在步骤2510,使用所述分类器对所述文件执行一种文件分类方法,以重新分类所述文件。进一步,在步骤2512,基于其分类,输出至少部分文件的标识符。所述标识符可以是文件本身的电子副本、其部分、其标题、其名称、指向文件的指针,等等。所述重新分类的文件也可以被输出,条件是那些具有最高置信度的文件被首先输出。
所述文件分类方法可以包括任何类型的过程,如,转导过程、支持向量机过程、最大熵判别过程,等等。可以使用上述任何归纳或转导方法。在一个优选的方法中,所述分类器可以是一个转导分类器,且通过迭代计算,使用至少一个预设的成本因子、所述搜索查询,以及所述文件,可以训练所述转导分类器,其中,对于每一次迭代计算,调整所述成本因子作为一个期望标记值的函数,且所述训练的分类器可以用于分类所述文件。另外,用于所述搜索查询和文件的一个数据点标记先验概率可以被接收,其中,对于每一次迭代计算,根据一个数据点组成员概率的估算,可以调整所述数据点标记先验概率。
本发明的另一个实施例可以用于改进ICR/OCR,以及语音识别。例如,许多语音识别程序和系统的实施例需操作者重复许多单词以训练所述系统。本发明可以首先对一个用户的声音监听一段预定的时间,以收集“未分类”的内容,如,监听电话谈话。结果是,当用户开始训练该识别系统时,该系统利用转导学习,以利用所述监听的语音来协助构建一个记忆模型。
在另一个实施例中,一种用于核对一张发票与一个实体的关联性的方法如图26所示。在步骤2600,基于与第一实体相关的发票格式训练一个分类器。该发票格式可以是指发票上记号的实际布局,或发票上的特征,如关键词、发票号码、客户姓名,等等。另外,在步骤2602,被标记作为与所述第一实体和其它实体中的至少一个相联系的多张发票被访问,且在步骤2604,使用所述分类器对所述发票执行一种文件分类方法。例如,上述的任何归纳或转导方法可以用作一种文件分类方法。例如,所述文件分类方法可以包括一个转导过程、支持向量机过程、最大熵判别过程,等等。而且,在步骤2606,输出至少一张所述发票的标识符,该发票具有较高的概率与所述第一实体不相关。
进一步,所述分类器可以是任何类型的分类器,例如,一个转导分类器,且通过迭代计算,使用至少一个预定的成本因子、至少一个种子文件,以及所述发票,可以训练所述转导分类器,其中,对于每一次迭代计算,调整所述成本因子作为一个期望标记值的函数,并使用所述训练的分类器分类所述发票。而且,用于所述种子文件和发票的一个数据点标记先验概率可以被接收,其中,对于每一次迭代计算,根据一个数据点组成员概率的估算,调整所述数据点标记先验概率。
这里说描述的实施例的一个优点是转导算法的稳定性。这个稳定性通过调节所述成本因子和调节所述标记先验概率来实现。例如,在一个实施例中,通过迭代分类,使用至少一个成本因子、有标记数据点和无标记数据点作为训练样例,训练一个转导分类器。对于每一次迭代计算,调节所述无标记数据点的成本因子作为一个期望的标记值的函数。此外,对于每一次迭代计算,根据一个数据点组成员概率的估算调节一个数据点先验概率。
工作站可以在一个操作系统上具有常驻内存,该操作系统例如微软
Figure A200780001197D0060112249QIETU
操作系统(OS)、MAC操作系统,或UNIX操作系统。应当理解,优选实施例也可以在不同于那些提到的平台和操作系统上实施。一个优选的实施例可以使用JAVA、XML、C和/或C++语言、或者其它编程语言编写,结合面向对象的程序设计方法。可以使用面向对象的程序设计(OOP),其已经越来越多地被用来开发复杂的应用。
上述应用使用转导学习以克服数据集非常稀少的问题,该问题困扰着归纳型人脸识别系统。转导学习的这个方面并不限于此项应用,也可以用于解决其它由于数据集稀少说引起的机器学习问题。
在此处公开发明的各种实施例的范围和精神之内,本领域技术人员可设计出不同的变化。而且,以上公开的实施例的各种特征可单独使用,或相互之间的不同组合,且并不局限于以上描述的特定组合。因此,权利要求的范围不限于这些描述的实施例。

Claims (127)

1、在一个基于计算机的系统中,一种用于数据分类的方法,其特征在于包括:
接收有标记数据点,每一个所述有标记数据点具有至少一个标记,指示该数据点是被纳入一个指定的类别的数据点的训练样例,还是从一个指定的类别被排除的数据点的训练样例;
接收无标记数据点;
接收所述有标记数据点和无标记数据点的至少一个预设的成本因子;
通过迭代计算,使用所述至少一个成本因子,以及所述有标记数据点和无标记数据点作为训练样例,使用最大熵判别(MED),训练一个转导分类器,其中,对于每一次迭代计算,调节所述无标记数据点成本因子作为一个期望标记值的函数,并根据一个数据点组成员概率的估算,调节一个数据点标记先验概率;
使用所述训练的分类器分类所述无标记数据点、所述有标记数据点、以及输入数据点中的至少一个;和
将所述分类的数据点的类别或其衍生物输出给一个用户、另一系统、和另一过程中的至少一个。
2、根据权利要求1所述的方法,其特征在于:所述函数为一个数据点的期望标记的绝对值。
3、根据权利要求1所述的方法,其特征在于:还包括接收有标记和无标记数据点的先验概率信息的步骤。
4、根据权利要求3所述的方法,其特征在于:所述转导分类器使用所述有标记和无标记数据的先验概率信息学习。
5、根据权利要求1所述的方法,其特征在于:还包括使用判定函数参数的一个高斯先验,给定所述被纳入和被排除的训练样例,根据它们的期望标记,利用所述有标记和无标记数据作为训练样例,确定具有最小的KL发散的判定函数的步骤。
6、根据权利要求1所述的方法,其特征在于,还包括使用判定函数参数的多项式先验分布,确定具有最小的KL散度的判定函数的步骤。
7、根据权利要求1所述的方法,其特征在于:重复训练一个转导分类器的迭代步骤,直至达到数据值的收敛。
8、根据权利要求7所述的方法,其特征在于:当所述转导分类器的所述判定函数的变化降到一个预设的阈值以下时,达到收敛。
9、根据权利要求7所述的方法,其特征在于:当确定的期望标记值的变化降到一个预设的阈值以下时,达到收敛。
10、根据权利要求1所述的方法,其特征在于:所述被纳入的训练样例的标记的值为+1,而所述被排除的训练样例的标记的值为—1。
11、根据权利要求1所述的方法,其特征在于:所述被纳入的样例的标记被映射到第一个数值,而所述被排除的样例的标记被映射到第二个数值。
12、根据权利要求1所述的方法,其特征在于还包括:
将所述有标记数据点存入一个计算机存储器;
将所述无标记数据点存入一个计算机存储器;
将所述输入数据点存入一个计算机存储器;和
将所述有标记数据点和无标记数据点的所述至少一个预设的成本因子存入一个计算机存储器。
13、一种用于数据分类的方法,其特征在于包括:
提供计算机可执行程序代码,以在一个计算机系统上使用并执行,所述程序代码包括指令用于:
访问存储于计算机存储器的有标记数据点,每一个所述有标记数据点具有至少一个标记,指示该数据点是被纳入一个指定类别的数据点的训练样例,还是从一个指定类别被排除的数据点的训练样例;
从计算机存储器访问所述无标记数据点;
从计算机存储器访问所述有标记数据点和无标记数据点的至少一个预设的成本因子;
通过迭代计算,使用所述至少一个存储的成本因子,以及存储的有标记数据点和存储的无标记数据点作为训练样例,训练一个最大熵判别(MED)转导分类器,其中,对于每一次迭代计算,调节所述无标记数据点成本因子作为一个期望标记值的函数,并根据一个数据点组成员概率的估算,调节一个数据点先验概率;
使用所述训练的分类器分类所述无标记数据点、所述有标记数据点、以及输入数据点中的至少一个;和
将所述分类的数据点的类别或其衍生物输出给一个用户、另一系统、和另一过程中的至少一个。
14、根据权利要求13所述的方法,其特征在于:所述函数为一个数据点的期望标记的绝对值。
15、根据权利要求13所述的方法,其特征在于:还包括访问存储于计算机存储器的有标记和无标记数据点的先验概率信息的步骤。
16、根据权利要求15所述的方法,其特征在于:对于每一次迭代,根据一个数据点组成员概率的估算,调整所述先验概率信息。
17、根据权利要求13所述的方法,其特征在于:还包括指令,给定所述被纳入和被排除的训练样例,根据它们的期望标号,利用所述有标记和无标记数据作为学习样例,所述指令用于将具有最小的KL发散的判定函数确定为所述判定函数参数的先验分布。
18、根据权利要求13所述的方法,其特征在于:重复训练一个转导分类器的迭代步骤,直至达到数据值的收敛。
19、根据权利要求18所述的方法,其特征在于:当所述转导分类器的所述判定函数的变化降到一个预设的阈值以下时,达到收敛。
20、根据权利要求18所述的方法,其特征在于:当所述确定的期望标记值的变化降到一个预设的阈值以下时,达到收敛。
21、根据权利要求13所述的方法,其特征在于:所述被纳入的训练样例的标记的值为+1,而所述被排除的训练样例的标记的值为—1。
22、根据权利要求13所述的方法,其特征在于:所述被纳入的样例的标记被映射到第一个数值,而所述被排除的样例的标记被映射到第二个数值。
23、一个数据处理装置,其特征在于:包括:
至少一个存储器,用于存储:(i)有标记数据点,其中,每一个所述有标记数据具有至少一个标记,指示该数据点是被纳入一个指定类别的数据点的训练样例,还是从一个指定类别被排除的数据点的训练样例;(ii)无标记数据点;和(iii)所述有标记数据点和无标记数据点的至少一个预设的成本因子;和
一个转导分类器训练器,用于使用所述至少一个存储的成本因子,以及存储的有标记数据点和存储的无标记数据点作为训练样例,使用转导最大熵判别(MED),迭代地培训所述转导分类器,其中,在每一次迭代MED计算,调节所述无标记数据点的成本因子作为一个期望标记值的函数,并根据一个数据点组成员概率的估算,调节一个数据点标记先验概率;
其中,由所述转导分类器训练器训练的一个分类器用于分类所述无标记数据点、有标记数据点、以及输入数据点中的至少一个;
其中,所述分类的数据点的类别或其衍生物,被输出给一个用户、另一系统、和另一过程中的至少一个。
24、根据权利要求23所述的装置,其特征在于:所述函数为一个数据点的期望标记的绝对值。
25、根据权利要求23所述的装置,其特征在于:所述存储器还存储有标记和无标记数据点的先验概率信息。
26、根据权利要求25所述的装置,其特征在于:在每一次迭代MED计算,根据一个数据点组成员概率的估算,调节所述先验概率信息。
27、根据权利要求23所述的装置,其特征在于:还包括一个处理器,给定所述被纳入和被排除的训练样例,根据它们的期望标号,利用所述有标记和无标记数据作为学习样例,所述处理器用于将具有最小的KL发散的判定函数确定为所述判定函数参数的先验分布。
28、根据权利要求23所述的装置,其特征在于:还包括一个装置,用于确定数据值的收敛,以及当确定收敛时终止计算。
29、根据权利要求28所述的装置,其特征在于:当所述转导分类器计算的判定函数的变化降到一个预设的阈值以下时,达到收敛。
30、根据权利要求28所述的装置,其特征在于:当所述确定的期望标记值的变化降到一个预设的阈值以下时,达到收敛。
31、根据权利要求23所述的装置,其特征在于:所述被纳入的训练样例的标记的值为+1,而所述被排除的训练样例的标记的值为—1。
32、根据权利要求23所述的方法,其特征在于:所述被纳入的样例的标记被映射到第一个数值,而所述被排除的样例的标记被映射到第二个数值。
33、一种制品,其特征在于:包括一个由计算机可读的程序存储介质,该介质确切地包括一个或多个计算机可执行的指令程序,以执行一种数据分类方法,包括:
接收有标记数据点,每一个所述有标记数据点具有至少一个标记,指示该数据点是被纳入一个指定类别的数据点的训练样例,还是从一个指定的类别被排除的数据点的训练样例;
接收无标记数据点;
接收所述有标记数据点和无标记数据点的至少一个预设的成本因子;
使用所述至少一个存储的成本因子,以及存储的有标记数据点和存储的无标记数据点作为训练样例,利用迭代的最大熵判别(MED)计算,训练一个转导分类器,其中,在每一次迭代MED计算中,调节所述无标记数据点的成本因子作为一个期望标记值的函数,并根据一个数据点组成员概率的估算,调节一个数据点标记先验概率;
使用所述训练的分类器分类所述无标记数据点、有标记数据点、以及输入数据点中的至少一个;和
将所述分类的数据点的类别或其衍生物,输出给一个用户、另一系统、以及另一过程中的至少一个。
34、根据权利要求33所述的制品,其特征在于:所述函数为一个数据点的期望标记的绝对值。
35、根据权利要求33所述的制品,其特征在于:还包括将有标记和无标记数据点的先验概率信息存储于一个计算机存储器的步骤。
36、根据权利要求35所述的制品,其特征在于:在每一次迭代MED计算中,根据一个数据点组成员概率,调整所述先验概率信息。
37、根据权利要求33所述的制品,其特征在于:还包括给定所述被纳入和被排除的训练样例,根据它们的期望标号,利用所述有标记和无标记数据作为学习样例,将具有最小的KL发散的判定函数确定为所述判定函数参数的先验分布的步骤。
38、根据权利要求33所述的制品,其特征在于:重复训练一个转导分类器的迭代步骤,直至达到数据值的收敛。
39、根据权利要求38所述的制品,其特征在于:当所述转导分类的判定函数的变化降到一个预设的阈值以下时,达到收敛。
40、根据权利要求38所述的方法,其特征在于:当所述确定的期望标记值的变化降到一个预设的阈值以下时,达到收敛。
41、根据权利要求33所述的方法,其特征在于:所述被纳入的训练样例的标记的值为+1,而所述被排除的训练样例的标记的值为—1。
42、根据权利要求33所述的方法,其特征在于:所述被纳入的样例的标记被映射到第一个数值,而所述被排除的样例的标记被映射到第二个数值。
43、在一个基于计算机的系统中,一种分类无标记数据的方法,其特征在于包括:
接收有标记数据点,每一个所述有标记数据点具有至少一个标记,指示该数据点是被纳入一个指定类别的数据点的训练样例,还是从一个指定类别被排除的数据点的训练样例;
接收有标记和无标记数据点;
接收有标记数据点和无标记数据点的先验标记概率信息;
接收所述有标记数据点和无标记数据点的至少一个预设的成本因子;
根据所述数据点的标记先验概率,为每一个有标记和无标记数据点确定期望的标记;
重复下面的子步骤,直至数据值的实质性收敛:
·为每一个与数据点的期望标记的绝对值成比例的无标记数据点生成一个调节的成本值;
·通过确定判定函数训练一个分类器,给定被纳入训练和被排除训练的样例,根据它们的期望标记,使用所述有标记和无标记数据点作为训练样例,该判定函数将KL发散最小化为判定函数参数的先验概率分布;
·使用所述训练的分类器,确定所述有标记和无标记数据点的分类分值;
·将训练的分类器的输出校准为组成员概率;
·根据所述确定的组成员概率,更新所述无标记数据点的标记先验概率;
·利用所述更新的标记先验概率和之前确定的分类分值,使用最大熵判别(MED),确定标记和界限概率分布;
·使用之前确定的标记概率分布,计算新的期望标记;和
·通过将之前迭代的所述期望标记插入所述新的期望标记,为每一个数据点更新期望标记。
将输入数据点的类别或其衍生物输出给一个用户、另一系统、以及另一过程中的至少一个。
44、根据权利要求43所述的方法,其特征在于:当所述判定函数的变化降到一个预设的阈值以下时,达到收敛。
45、根据权利要求43所述的方法,其特征在于:当所述确定的期望标记值的变化降到一个预设的阈值以下时,达到收敛。
46、根据权利要求43所述的方法,其特征在于:所述被纳入的训练样例的标记的值为+1,而所述被排除的训练样例的标记的值为—1。
47、一种文件分类方法,其特征在于包括:
接收至少一个有标记种子文件,其具有标记分配的已知置信级别;
接收无标记文件;
接收至少一个预设的成本因子;
通过迭代计算,使用所述至少一个预设的成本因子、所述至少一个种子文件、以及所述无标记文件,训练一个转导分类器,其中,对于每一次迭代计算,调节所述成本因子作为一个期望标记值的函数;
在至少部分迭代之后,为所述无标记文件存储置信分值;和
将具有最高置信分子的无标记文件的标识符输出给一个用户、另一系统、以及另一过程中的至少一个。
48、根据权利要求47所述的方法,其特征在于:所述至少一个种子文件具有关键字列表。
49、根据权利要求47所述的方法,其特征在于:在每一次迭代之后,存储置信分值,其中,在每一次迭代之后,输出具有最高置信分值的无标记文件的标识符。
50、根据权利要求47所述的方法,其特征在于:还包括为所述有标记和无标记文件接收一个数据点标记先验概率,其中,对于每一次迭代计算,根据一个数据点组成员概率的估算,调节所述数据点先验概率。
51、一种用于分析与法律检索相关的文件的方法,其特征在于包括:
接收与法律事件相关的文件;
对所述文件执行一种文件分类方法;和
基于其分类,输出至少部分所述文件的标识符。
52、根据权利要求51所述的方法,其特征在于:所述文件分类方法包括一个转导过程。
53、根据权利要求51所述的方法,其特征在于:还包括通过迭代计算,使用至少一个预设成本因子、至少一个种子文件、以及所述与法律事件相关的文件,训练一个转导分类器,其中,对于每一次迭代计算,调节所述成本因子作为一个期望标记值的函数,并使用所述训练的分类器分类所述收到的文件。
54、根据权利要求53所述的方法,其特征在于:还包括为所述有标记和无标记文件接收一个数据点标记先验概率,其中,对于每一次迭代计算,根据一个数据点组成员概率的估算,调整所述数据点标记先验概率。
55、根据权利要求51所述的方法,其特征在于:所述文件分类方法包括一个支持向量机过程。
56、根据权利要求51所述的方法,其特征在于:所述文件分类方法包括一个最大熵判别过程。
57、根据权利要求51所述的方法,其特征在于:还包括输出所述文件之间联系的表征。
58、一种清理数据的方法,其特征在于包括:
接收多个有标记数据项;
为多个类别的每一个选取数据项的子集;
将每一个子集中的数据项的不确定性设置成约为零;
将不在所述子集中的数据项的不确定性设置成一个不约为零的预设值;
通过迭代计算,使用所述不确定性、所述子集中的数据项、以及不在所述子集中的数据项作为训练样例,训练一个转导分类器;
将所述训练的分类器用于每一个所述的有标记数据项,以分类每一个数据项;和
将所述输入数据项的分类或其衍生物,输出给一个用户、另一系统、另一过程中的至少一个。
59、根据权利要求58所述的方法,其特征在于:所述子集是随机选取的。
60、根据权利要求58所述的方法,其特征在于:所述子集是由用户选取并核对。
61、根据权利要求58所述的方法,其特征在于:还包括基于分类,改变至少部分所述数据项的标记。
62、根据权利要求58所述的方法,其特征在于:在分类之后,具有低于一个预设阈值的置信级别的数据项的标识符被输出给用户。
63、一种用于核对发票与实体的相关性的方法,其特征在于包括:
基于与第一实体相关的发票格式,训练一个分类器;
访问多张发票,该发票被标记为与所述第一实体和其它实体中的至少一个相关;
使用所述分类器,对所述发票执行一种文件分类方法;和
输出具有较高的概率与所述第一实体不相关的至少一张发票的标识符。
64、根据权利要求63所述的方法,其特征在于:所述文件分类方法包括一个转导过程。
65、根据权利要求64所述的方法,其特征在于:所述分类器是一个转导分类器,且还包括通过迭代计算,使用至少一个预设的成本因子、至少一个种子文件、以及所述发票,训练所述转导分类器,其中,对于每一次迭代计算,调节所述成本因子作为一个期望标记值的函数,并使用所述训练的分类器分类所述发票。
66、根据权利要求65所述的方法,其特征在于:还包括为所述种子文件和发票接收一个数据点标记先验概率,其中,对于每一次迭代计算,根据一个数据点组成员概率的估算,调节所述数据点标记先验概率。
67、根据权利要求63所述的方法,其特征在于:所述文件分类方法包括一个支持向量机过程。
68、根据权利要求65所述的方法,其特征在于:所述文件分类方法包括一个最大熵判别过程。
69、一种用于管理病历的方法,其特征在于包括:
基于医疗诊断,训练一个分类器;
访问多个病历;
使用所述分类器,对所述病历执行一种文件分类方法;和
输出具有较低的概率与所述医疗诊断相关的至少一个所述病历的标识符。
70、根据权利要求69所述的方法,其特征在于:所述文件分类方法包括一个转导过程。
71、根据权利要求70所述的方法,其特征在于:所述分类器是一个转导分类器,且还包括通过迭代计算,使用至少一个预设的成本因子、至少一个种子文件,以及所述病历,训练所述转导分类器,其中,对于每一次迭代计算,调节所述成本因子作为一个期望标记值的函数,并使用所述训练的分类器分类所述病历。
72、根据权利要求71所述的方法,其特征在于:还包括为所述种子文件和病历接收一个数据点标记先验概率,其中,对于每一次迭代计算,根据一个数据点组成员概率的估算,调节所述数据点标记先验概率。
73、根据权利要求69所述的方法,其特征在于:所述文件分类方法包括一个支持向量机过程。
74、根据权利要求69所述的方法,其特征在于:所述文件分类方法包括一个最大熵判别过程。
75、一种人脸识别方法,其特征在于包括:
接收一张人脸的至少一个有标记种子图像,该种子图像具有一个已知的置信级别;
接收无标记图像;
接收至少一个预设的成本因子;
通过迭代计算,使用所述至少一个预设的成本因子、所述至少一个种子图像、以及所述无标记图像,训练一个转导分类器,其中,对于每一次迭代计算,调节所述成本因子作为一个期望标记值的函数;
在至少部分迭代之后,为所述无标记种子图像存储置信分值;和
将具有最高置信分值的无标记图像的标识符输出给一个用户、另一系统、另一过程中的至少一个。
76、根据权利要求75所述的方法,其特征在于:所述至少一个种子图像具有一个标记,指示该图像是否被纳入一个指定的类别。
77、根据权利要求75所述的方法,其特征在于:每一次迭代后存储置信分值,其中,在每一次迭代后,具有最高置信分值的无标记图像的标识符被输出。
78、根据权利要求75所述的方法,其特征在于:还包括为所述有标记和无标记图像接收一个数据点标记先验概率;其中,对于每一次迭代计算,根据一个数据点组成员概率的估算,调节所述数据点标记先验概率。
79、根据权利要求75所述的方法,其特征在于:还包括接收一张人脸的第三个无标记图像,将所述第三个无标记图像与至少部分具有最高置信分值的图像比较,且如果确信第三个无标记图像中的人脸与所述种子图像中的人脸是相同的,则输出所述第三个无标记图像的标识符。
80、一种分析现有文件的方法,其特征在于包括:
基于一个搜索查询,训练一个分类器;
访问多个现有技术文件;
使用所述分类器,对至少部分所述现有技术文件执行一种文件分类方法;和
基于其分类,输出至少部分所述现有技术文件的标识符。
81、根据权利要求80所述的方法,其特征在于:所述文件分类方法包括一个转导过程。
82、根据权利要求81所述的方法,其特征在于:所述分类器是一个转导分类器,且还包括通过迭代计算,使用至少一个预设的成本因子、至少一个种子文件、以及所述现有技术文件,训练所述转导分类器;其中,对于每一次迭代计算,调节所述成本因子作为一个期望标记值的函数,并使用所述训练的分类器分类所述现有技术文件。
83、根据权利要求82所述的方法,其特征在于:还包括为所述种子文件和现有技术文件接收一个数据点标记先验概率;其中,对于每一次迭代计算,根据一个数据点组成员概率的估算,调节所述数据点标记先验概率。
84、根据权利要求80所述的方法,其特征在于:所述搜索查询包括一件专利公开的至少一部分。
85、根据权利要求80所述的方法,其特征在于:所述搜索查询包括一件专利或专利申请的权利要求的至少一部分。
86、根据权利要求80所述的方法,其特征在于:所述搜索查询包括一件专利或专利申请的摘要的至少一部分。
87、根据权利要求80所述的方法,其特征在于:所述搜索查询包括一件专利或专利申请的发明概要的至少一部分。
88、根据权利要求80所述的方法,其特征在于:所述文件分类方法包括一个支持向量机过程。
89、根据权利要求80所述的方法,其特征在于:所述文件分类方法包括一个最大熵判别过程。
90、根据权利要求80所述的方法,其特征在于:所述现有技术文件为专利局的出版物。
91、根据权利要求80所述的方法,其特征在于:还包括输出所述文件之间联系的表征。
92、根据权利要求80所述的方法,其特征在于:还包括基于其分类,输出至少部分所述现有技术方法文件的相关性分值。
93、一种用于使专利分类适应文件内容的变化的方法,其特征在于包括:
接收至少一个有标记种子文件;
接收一个无标记文件;
使用所述至少一个种子文件和所述无标记文件,训练一个转导分类器;
使用所述分类器,将具有高于一个预设阈值的置信级别的无标记文件分类到多个现有的类别;
使用所述分类器,将具有低于一个预设阈值的置信级别的无标记文件分类到至少一个新的类别;
使用所述分类器,将至少部分所述分类的文件重新分类到所述现有的类别和所述至少一个新的类别;和
将所述分类的文件的标识符输出给一个用户、另一系统、以及另一过程中的至少一个。
94、根据权利要求93所述的方法,其特征在于:所述分类器是一个转导分类器,且还包括通过迭代计算,使用至少一个预设的成本因子、所述搜索查询、以及所述文件,训练所述转导分类器,其中,对于每一次迭代计算,调节所述成本因子作为一个期望标记值的函数,并使用所述训练的分类器分类所述文件。
95、根据权利要求94所述的方法,其特征在于:还包括为所述搜索查询和文件接收一个数据点标记先验概率;其中,对于每一次迭代计算,根据一个数据点组成员概率的估算,调节所述数据点标记先验概率。
96、根据权利要求93所述的方法,其特征在于:所述文件分类方法包括一个支持向量机过程。
97、根据权利要求93所述的方法,其特征在于:所述文件分类方法包括一个最大熵判别过程。
98、根据权利要求93所述的方法,其特征在于:所述无标记文件为专利申请。
99、根据权利要求93所述的方法,其特征在于:所述至少一个种子文件选自一个专利和一个专利申请。
100、一种将文件与权利要求匹配的方法,其特征在于包括:
基于一件专利或专利申请的至少一项权利要求,训练一个分类器;
访问多个文件;
使用所述分类器,对至少部分所述文件执行一种文件分类方法;和
基于其分类,输出至少部分所述文件的标识符。
101、根据权利要求100所述的方法,其特征在于:还包括基于其分类,输出至少部分所述文件的相关性分值。
102、根据权利要求100所述的方法,其特征在于:所述文件为现有技术文件。
103、根据权利要求100所述的方法,其特征在于:所述文件描述产品。
104、一种分类专利或专利申请的方法,其特征在于包括:
基于多个已知属于一个特定专利分类的文件,训练一个分类器;
接收一件专利或专利申请的至少一部分;
使用所述分类器,对所述专利或专利申请的所述至少一部分执行一种文件分类方法;和
输出所述专利或专利申请的分类,
其中,所述文件分类方法是一个是/否分类方法。
105、根据权利要求104所述的方法,其特征在于:所述文件选自专利和专利申请。
106、根据权利要求105所述的方法,其特征在于:所述专利或专利申请的至少一部分包括专利或专利申请的权利要求的至少一部分。
107、根据权利要求105所述方法,其特征在于:所述专利或专利申请的至少一部分包括专利或专利申请的摘要的至少一部分。
108、根据权利要求105所述方法,其特征在于:所述专利或专利申请的至少一部分包括专利或专利申请的发明概要的至少一部分。
109、一种用于分类专利或专利申请的方法,其特征在于包括:
使用一个分类器,对一件专利或专利申请的至少一部分执行一种文件分类方法,该分类器基于与一个特定专利分类相关的至少一个文件而被训练,其中,所述文件分类方法是一个是/否分类方法;和
输出所述专利或专利申请的分类。
110、根据权利要求109所述的方法,其特征在于:还包括使用一个不同的分类器重复所述方法,该分类器基于多个已知属于第二个专利分类的文件而被训练。
111、根据权利要求109所述的方法,其特征在于:所述专利或专利申请的至少一部分包括专利或专利申请的权利要求的至少一部分。
112、根据权利要求109所述的方法,其特征在于:所述专利或专利申请的至少一部分包括专利或专利申请的摘要的至少一部分。
113、根据权利要求109所述的方法,其特征在于:所述专利或专利申请的至少一部分包括专利或专利申请的发明概要的至少一部分。
114、一种适应文件内容变化的方法,其特征在于包括:
接收至少一个有标记种子文件;
接收无标记文件;
接收至少一个预设的成本因子;
使用所述至少一个预设的所述成本因子、至少一个种子文件、以及所述无标记文件,训练一个转导分类器;
使用所述分类器,将具有高于一个预设阈值的置信级别的无标记文件分类到多个类别;
使用所述分类器,将至少部分所述分类的文件重新分类到多个类别;和
将所述分类的文件的标识符输出给一个用户、另一系统、以及另一过程中的至少一个。
115、根据权利要求114所述的方法,其特征在于:还包括将具有低于一个预设阈值的置信级别的无标记文件移入一个或多个新的类别。
116、根据权利要求114所述的方法,其特征在于:还包括通过迭代计算,使用至少一个预设的成本因子、所述至少一个种子文件、以及所述无标记文件,训练所述转导分类器;其中,对于每一次迭代计算,调节所述成本因子作为一个期望标记值的函数,并使用所述训练的分类器分类所述无标记文件。
117、根据权利要求116所述的方法,其特征在于:还包括为所述种子文件和无标记文件接收一个数据点标记先验概率;其中,对于每一次迭代计算,根据一个数据点组成员概率的估算,调节所述数据点标记先验概率。
118、根据权利要求114所述的方法,其特征在于:所述无标记文件为客户投诉,且还包括将产品变化与客户投诉相联系。
119、根据权利要求114所述的方法,其特征在于:所述无标记文件为发票。
120、一种分离文件的方法,其特征在于包括:
接收有标记数据;
接收一组无标记文件;
基于所述有标记数据和无标记文件,使用转导,自适应概率性分类规则;
根据所述概率性分类规则,更新用于文件分离的权重;
确定在一组文件中分离的位置;
将确定的该组文件中分离的位置的标识符输出给一个用户、另一系统、以及另一过程中的至少一个;和
给所述文件标记代码,该代码与所述标识符有关。
121、一种文件搜索的方法,其特征在于包括:
接收一个搜索查询;
基于所述搜索查询,获取文件;
输出所述文件;
为至少部分所述文件接收用户键入的标记,所述标记指示该文件与所述搜索查询的相关性;
基于所述搜索查询和用户键入的标记,训练一个分类器;
使用所述分类器,对所述文件执行一种文件分类方法,以重新分类所述文件;和
基于其分类,输出至少部分所述文件的标识符。
122、根据权利要求121所述的方法,其特征在于:所述文件分类方法包括一个转导过程。
123、根据权利要求122所述的方法,其特征在于:所述分类器是一个转导分类器,且还包括通过迭代计算,使用至少一个预设的成本因子、所述搜索查询、以及所述文件,训练所述转导分类器,其中,对于每一次迭代计算,调节所述成本因子作为一个期望标记值的函数,并使用所述训练的分类器分类所述文件。
124、根据权利要求123所述的方法,其特征在于:还包括为所述搜索查询和文件接收一个数据点标记先验概率;其中,对于每一次迭代计算,根据一个数据点组成员概率的估算,调节所述数据点标记先验概率。
125、根据权利要求121所述的方法,其特征在于:所述文件分类方法包括一个支持向量机过程。
126、根据权利要求121所述的方法,其特征在于:所述文件分类方法包括一个最大熵判别过程。
127、根据权利要求121所述的方法,其特征在于:所述重新分类的文件被输出,那些具有最高置信度的文件被首先输出。
CN200780001197.9A 2006-07-12 2007-06-07 用于转导数据分类的方法和系统以及使用机器学习方法的数据分类方法 Active CN101449264B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610972541.XA CN107180264A (zh) 2006-07-12 2007-06-07 用于对文档和数据的转导分类方法

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US83031106P 2006-07-12 2006-07-12
US60/830,311 2006-07-12
US11/752,634 2007-05-23
US11/752,673 2007-05-23
US11/752,691 2007-05-23
US11/752,719 2007-05-23

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN201610972541.XA Division CN107180264A (zh) 2006-07-12 2007-06-07 用于对文档和数据的转导分类方法

Publications (2)

Publication Number Publication Date
CN101449264A true CN101449264A (zh) 2009-06-03
CN101449264B CN101449264B (zh) 2016-11-30

Family

ID=

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324628A (zh) * 2012-03-21 2013-09-25 腾讯科技(深圳)有限公司 一种针对发布文本的行业分类方法和系统
CN104574729A (zh) * 2015-01-28 2015-04-29 无锡物联网产业研究院 一种报警方法、装置及系统
CN106815605A (zh) * 2017-01-23 2017-06-09 上海上讯信息技术股份有限公司 一种基于机器学习的数据分类方法及设备
CN107358019A (zh) * 2017-05-25 2017-11-17 上海交通大学医学院附属瑞金医院 适用于概念漂移的医疗方案的推荐系统及方法
CN107480879A (zh) * 2017-08-09 2017-12-15 郑州星睿水利科技有限公司 水文职工业务知识考评方法及系统
CN108463795A (zh) * 2016-04-05 2018-08-28 汤森路透全球资源无限公司 自助分类系统
CN108701259A (zh) * 2016-03-14 2018-10-23 华为技术有限公司 使用二元分类器处理的数据来生成规则的系统和方法
CN108734359A (zh) * 2018-06-08 2018-11-02 上海电机学院 一种风电功率预测数据预处理方法
CN110506280A (zh) * 2017-08-22 2019-11-26 华为技术有限公司 神经网络训练系统、方法和计算机可读存储介质
CN113239804A (zh) * 2021-05-13 2021-08-10 杭州睿胜软件有限公司 图像识别方法、可读存储介质及图像识别系统
TWI802247B (zh) * 2022-01-26 2023-05-11 台灣松下電器股份有限公司 自適應配置網頁版面方法與伺服系統

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002092006A (ja) * 2000-07-21 2002-03-29 Ford Motor Co テーマに基く文書分類システム
WO2002095534A2 (en) * 2001-05-18 2002-11-28 Biowulf Technologies, Llc Methods for feature selection in a learning machine
US20050256680A1 (en) * 2004-01-28 2005-11-17 Microsoft Corporation Exponential priors for maximum entropy models
US20060093208A1 (en) * 2004-10-29 2006-05-04 Fayin Li Open set recognition using transduction

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002092006A (ja) * 2000-07-21 2002-03-29 Ford Motor Co テーマに基く文書分類システム
GB2369698A (en) * 2000-07-21 2002-06-05 Ford Motor Co Theme-based system and method for classifying patent documents
WO2002095534A2 (en) * 2001-05-18 2002-11-28 Biowulf Technologies, Llc Methods for feature selection in a learning machine
US20050256680A1 (en) * 2004-01-28 2005-11-17 Microsoft Corporation Exponential priors for maximum entropy models
US20060093208A1 (en) * 2004-10-29 2006-05-04 Fayin Li Open set recognition using transduction

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MARCIN OLOF SZUMMER: "Learning frmo Partially Labeled Data", 《MIT PHD THESIS》 *
TONY JEBARA: "Discriminative, Generative and Imitative Learning", 《MIT PHD THESIS》 *

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324628B (zh) * 2012-03-21 2016-06-08 腾讯科技(深圳)有限公司 一种针对发布文本的行业分类方法和系统
CN103324628A (zh) * 2012-03-21 2013-09-25 腾讯科技(深圳)有限公司 一种针对发布文本的行业分类方法和系统
CN104574729A (zh) * 2015-01-28 2015-04-29 无锡物联网产业研究院 一种报警方法、装置及系统
CN104574729B (zh) * 2015-01-28 2020-07-24 无锡感知金服物联网科技有限公司 一种报警方法、装置及系统
US10824951B2 (en) 2016-03-14 2020-11-03 Huawei Technologies Co., Ltd. System and method for rule generation using data processed by a binary classifier
CN108701259A (zh) * 2016-03-14 2018-10-23 华为技术有限公司 使用二元分类器处理的数据来生成规则的系统和方法
CN108463795A (zh) * 2016-04-05 2018-08-28 汤森路透全球资源无限公司 自助分类系统
CN106815605A (zh) * 2017-01-23 2017-06-09 上海上讯信息技术股份有限公司 一种基于机器学习的数据分类方法及设备
CN107358019A (zh) * 2017-05-25 2017-11-17 上海交通大学医学院附属瑞金医院 适用于概念漂移的医疗方案的推荐系统及方法
CN107480879A (zh) * 2017-08-09 2017-12-15 郑州星睿水利科技有限公司 水文职工业务知识考评方法及系统
CN110506280A (zh) * 2017-08-22 2019-11-26 华为技术有限公司 神经网络训练系统、方法和计算机可读存储介质
CN108734359A (zh) * 2018-06-08 2018-11-02 上海电机学院 一种风电功率预测数据预处理方法
CN108734359B (zh) * 2018-06-08 2021-10-01 上海电机学院 一种风电功率预测数据预处理方法
CN113239804A (zh) * 2021-05-13 2021-08-10 杭州睿胜软件有限公司 图像识别方法、可读存储介质及图像识别系统
CN113239804B (zh) * 2021-05-13 2023-06-02 杭州睿胜软件有限公司 图像识别方法、可读存储介质及图像识别系统
TWI802247B (zh) * 2022-01-26 2023-05-11 台灣松下電器股份有限公司 自適應配置網頁版面方法與伺服系統

Also Published As

Publication number Publication date
CN107180264A (zh) 2017-09-19

Similar Documents

Publication Publication Date Title
US7937345B2 (en) Data classification methods using machine learning techniques
US7761391B2 (en) Methods and systems for improved transductive maximum entropy discrimination classification
JP5364578B2 (ja) トランスダクティブデータ分類のための方法およびシステム、ならびに機械学習手法を用いたデータ分類方法
US7958067B2 (en) Data classification methods using machine learning techniques
Bazan et al. The rough set exploration system
US7107254B1 (en) Probablistic models and methods for combining multiple content classifiers
CN112241481B (zh) 基于图神经网络的跨模态新闻事件分类方法及系统
US8332343B2 (en) Solution recommendation based on incomplete data sets
US20080086432A1 (en) Data classification methods using machine learning techniques
US7415449B2 (en) Solution recommendation based on incomplete data sets
Nezhadi et al. Ontology alignment using machine learning techniques
CN112199508B (zh) 一种基于远程监督的参数自适应农业知识图谱推荐方法
CN112257841A (zh) 图神经网络中的数据处理方法、装置、设备及存储介质
Bonaccorso Hands-On Unsupervised Learning with Python: Implement machine learning and deep learning models using Scikit-Learn, TensorFlow, and more
Al-Rasheed Identification of important features and data mining classification techniques in predicting employee absenteeism at work.
CN111612519A (zh) 一种识别金融产品潜在客户的方法、装置及存储介质
Haroon et al. Application of machine learning in forensic science
Alfaro et al. Ensemble learning for the partial label ranking problem
Elhebir et al. A novel ensemble approach to enhance the performance of web server logs classification
Lv et al. A two-route CNN model for bank account classification with heterogeneous data
CN101449264B (zh) 用于转导数据分类的方法和系统以及使用机器学习方法的数据分类方法
CN101449264A (zh) 用于转导数据分类的方法和系统以及使用机器学习方法的数据分类方法
Patil et al. Efficient processing of decision tree using ID3 & improved C4. 5 algorithm
Calma Active Learning with Uncertain Annotators: Towards Dedicated Collaborative Interactive Learning
Klawonn Combining Supervised Machine Learning and Structured Knowledge for Difficult Perceptual Tasks

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant