CN112005253A - 到相关类别的分类 - Google Patents
到相关类别的分类 Download PDFInfo
- Publication number
- CN112005253A CN112005253A CN201880092879.3A CN201880092879A CN112005253A CN 112005253 A CN112005253 A CN 112005253A CN 201880092879 A CN201880092879 A CN 201880092879A CN 112005253 A CN112005253 A CN 112005253A
- Authority
- CN
- China
- Prior art keywords
- category
- value
- vector
- answer
- machine learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000013598 vector Substances 0.000 claims abstract description 259
- 238000010801 machine learning Methods 0.000 claims abstract description 113
- 238000012360 testing method Methods 0.000 claims abstract description 59
- 238000000034 method Methods 0.000 claims abstract description 47
- 238000012549 training Methods 0.000 claims abstract description 44
- 241000282472 Canis lupus familiaris Species 0.000 description 45
- 241000282326 Felis catus Species 0.000 description 16
- 238000013459 approach Methods 0.000 description 10
- 235000006040 Prunus persica var persica Nutrition 0.000 description 7
- 235000006029 Prunus persica var nucipersica Nutrition 0.000 description 6
- 244000017714 Prunus persica var. nucipersica Species 0.000 description 6
- 244000144730 Amygdalus persica Species 0.000 description 5
- 230000008901 benefit Effects 0.000 description 5
- 230000000875 corresponding effect Effects 0.000 description 5
- 238000009826 distribution Methods 0.000 description 5
- 235000013399 edible fruits Nutrition 0.000 description 5
- 239000000203 mixture Substances 0.000 description 5
- 238000010606 normalization Methods 0.000 description 5
- 241000282412 Homo Species 0.000 description 4
- 241001465754 Metazoa Species 0.000 description 4
- 241000234295 Musa Species 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 241000894007 species Species 0.000 description 4
- 235000005979 Citrus limon Nutrition 0.000 description 3
- 244000131522 Citrus pyriformis Species 0.000 description 3
- 240000000560 Citrus x paradisi Species 0.000 description 3
- 241000282454 Ursus arctos Species 0.000 description 3
- 241001147416 Ursus maritimus Species 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 235000021018 plums Nutrition 0.000 description 3
- 235000008733 Citrus aurantifolia Nutrition 0.000 description 2
- 241000196324 Embryophyta Species 0.000 description 2
- 235000018290 Musa x paradisiaca Nutrition 0.000 description 2
- 240000005809 Prunus persica Species 0.000 description 2
- 235000011941 Tilia x europaea Nutrition 0.000 description 2
- 241000282453 Ursus americanus Species 0.000 description 2
- 235000021015 bananas Nutrition 0.000 description 2
- 235000021028 berry Nutrition 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000009472 formulation Methods 0.000 description 2
- 239000004571 lime Substances 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000008775 paternal effect Effects 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 241000282465 Canis Species 0.000 description 1
- 241000282461 Canis lupus Species 0.000 description 1
- 241000283153 Cetacea Species 0.000 description 1
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 1
- 241000233866 Fungi Species 0.000 description 1
- 240000006909 Tilia x europaea Species 0.000 description 1
- 238000010521 absorption reaction Methods 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 235000020971 citrus fruits Nutrition 0.000 description 1
- 210000000078 claw Anatomy 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 229910052500 inorganic mineral Inorganic materials 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 239000011707 mineral Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000011435 rock Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 239000004575 stone Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/192—Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
- G06V30/194—References adjustable by an adaptive method, e.g. learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/68—Food, e.g. fruit or vegetables
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
一种训练机器学习系统的方法,该方法包括:针对测试案例在类别识别方面训练机器学习系统,其中,机器学习系统输出答案向量,并且将答案向量和控制向量进行比较,其中控制向量包括三个不同的值,该值包括:针对测试案例的匹配类别的第一值;针对测试案例的不匹配类别的第二值;以及针对与测试案例的匹配类别有关的第一类别的第三值,其中,第三值与第一值不同,并且第三值与第二值不同。
Description
背景技术
人类似乎具有与生俱来的分类的能力。人为分类是复杂的,并且不是很好理解的。这已经使得开发基于机器的分类的方法是有挑战性的。作为结果,基于机器的分类已经采取了与人为分类不同的路径。例如,当今社会继续把机器没有能力识别变形的字母和数字用作将对系统的访问限于人类的方式。这种变形的字母和数字可以是“全自动区分计算机和人类的图灵测试”或CAPTCHA。
附图说明
附图图示了本文中描述的原理的各种示例并且是说明书的一部分。所图示的示例并不限制权利要求的范围。
图1示出了根据与本说明书一致的示例的用于训练机器学习系统的方法。
图2示出了根据与本说明书一致的示例的用于训练机器学习系统的系统。
图3示出了根据与本说明书一致的示例的用于将数字类别标识符集合转换成控制向量集合的系统的示例。
图4示出了与本说明书一致的类别标识训练系统。
图5示出了根据与本说明书一致的示例的用于将预先存在的类别信息映射到类别向量和控制向量中的示例。
图6示出了根据与本说明书一致的示例的包括机器学习系统的类别标识系统,该机器学习系统被训练成从图像来确定取向。
遍及附图,相同的附图标记指示类似但不一定相同的元件。各图不一定是按比例的,并且某些部分的大小可能被放大或最小化以更清楚地图示所示示例。附图提供与本描述一致的示例和/或实现方式。然而,本描述不限于附图中所示的示例和/或实现方式。
具体实施方式
机器如何实行分类的一个挑战是机器产生的错误答案的质量。并非所有不正确的答案都是同等地错误的。取而代之,一些答案更不正确,而一些答案更加正确。例如,在图像分类系统中,如果示出了油桃的图像,则将该图像标识为自行车比将该图像标识为李子更不正确。与自行车和油桃相比,油桃和李子更加相关。类似地,数字和/或评级的类别在相邻类别之间比在远距离类别之间具有更多关系。例如,如果按1到5的标度给电影评级,其中“真实”值为4,则3或5的错误分类的不正确程度低于1或2的错误分类的不正确程度,1或2的错误分类更加远离真实值。类似地,考虑尝试根据图像来估计人类年龄的系统。如果该人类实际上是50岁,则46的答案比20的答案更加准确。
类别也可能基于它们的具体性而更加正确或更不正确。例如,如果图像示出了渡鸦,则将该图像标识为乌鸦是不正确的。然而,将该图像标识为鸟类既是正确的、又不如将该图像标识为渡鸦那么正确。儿童和/或非专家可以通过对象的类别名称来命名项目,这是因为他们尚未得知正被考虑的特定对象的具体名称。这也是具有有限词汇量的第二语言的人员所使用的一种技术,其中该技术被称为“迂回曲折的说法(circumlocution)”。对于某些情况,类别名称是足够的标识。例如,当一组工具中有一个锤子时,对“锤子”的引用可能是足够的。在这种情况下,在仅有一个锤子的情况下,“带有黄色手柄的羊角锤”的标识可能是无益的,并且在一些情况下可能是浪费的。多余的信息可能与手头的任务无关,并且可能需要花费附加的时间或努力来处理。因此,一旦已经基于情境唯一地标识了某物,附加的子分类可能是不太有用的。
当实行类别识别时,机器学习系统可以具有类别集合。机器学习系统输出一向量,该向量具有以下值:该值针对的是将输入和与该向量的索引值相关联的类别进行比较的结果。例如,如果存在匹配,则该系统可以将值1指派给与该类别相对应的答案向量中的空间。在这种情况下,值1被用来指示匹配。如果不存在匹配,则该系统可以将值0指派给与该类别相对应的答案向量中的空间。在这种情况下,值0被用来指示不匹配。值1和0被用作占位符,其具有适合于匹配的任一个值和用于不匹配的任一个不同的值。例如,匹配可以由第一个值来表示,而不匹配可以由第二个不同的值来表示。值0和1由于其紧凑性(能够以单个二进制位来表示)而经常被用在计算机科学和逻辑中。尽管在这种方案中,1通常被用来表示TRUE或匹配,而0被用来表示FALSE或不匹配,但是可以在不脱离本公开的范围的情况下表示实际值与信息之间的其他关联。例如,可以将TRUE和/或FALSE的值切换,和/或用其他值来替换它们。该系统可以使用浮点值、负数和/或其他值来表示TRUE、FALSE和/或中间值。例如,甚至可以设想使用文本字符串来表示这些值。可以在不脱离本公开的范围的情况下以任何合理的格式对信息进行编码。倾向于将0用于FALSE并且将1用于TRUE、其中中间值表示与TRUE类别相关联的类别,这是由于其与计算机科学中的默认值的一致性。然而,该二进制兼容方法对于实现本说明书的主题来说并不是必要的。
例如,考虑如下系统:其中答案向量表示基本方向(北、东、南、西),其具有从0(无关)到1(所命名的方向)的范围。这种构造不会防止在相反方向上的部分正值,因此机器学习系统可能会输出在北和南两者中都包含非零值的答案。相比之下,还可以将输出组织为范围从1到-1的两个值,使得类别向量取而代之地表示(北-南、东-西)。因此,答案向量(1,0)将表示北,而答案向量(-1,0)表示南,这两个答案都不具有东-西分量。该方法可以在约束机器学习系统的潜在答案的范围方面提供益处。
一些机器学习系统可以在其答案向量中输出概率数组,其中该向量中的每个值对应于与相关联的类别匹配的概率。在一些实例中,在与学习集合中的“真实”值进行比较之前,将这种答案向量归一化。归一化可以包括将最大百分比设置成1,而将其余值设置成0。答案向量可以经受二次处理以产生答案。在许多情况下,该答案是与答案向量中的最大概率(或最大量值)相关联的类别。然而,如下面讨论的,当向量包括重叠的类别时,可以对此进行修改。在其中父类别具有答案向量中的最大概率的实例中,确定父类别的子类别是否在高于阈值的情况下匹配可能是有用的。如果子类别在高于阈值的情况下匹配,则可以将子类别的标识选择为答案,这是由于子类别提供了更多信息。例如,金毛寻回犬的图像既是狗的图像、又是金毛寻回犬的图像。然而,金毛寻回犬的答案相比于狗的答案提供了更多信息,这是因为金毛寻回犬包括父类别(狗)的属性。在一些实例中,答案可能包括父类别和子类别两者,例如,“狗:金毛寻回犬”。
在学习集合案例的情况下提供的“真实”值可以是具有单个值1(匹配)以及其余值为0(不匹配)的控制向量。机器学习系统可以测量答案向量与控制向量之间的差。这两个向量之间的这种差可以被用来向机器学习系统提供关于答案向量的质量的反馈。机器学习系统可以使用最小化、最大化或其他类型的方法,这取决于为机器学习系统所选择的参数。例如,最小化可以被表示为答案与真实值之间的每个值的差的绝对值之和。该最小化可以是答案向量与答案向量之间的差的平方和。可以容易地替换其他最小化函数。在其他方法中,可以将该系统设计成使控制向量与答案向量之间的差最大化。可以像Argmin方法那样容易地应用Argmax方法。类似地,在不脱离本公开的范围的情况下,可以使用用于向机器学习系统提供反馈的其他比较。
考虑具有(苹果,桃,李子,油桃,自行车,树)作为前六个类别的类别向量。对于李子的学习集合图像,控制向量可以是(0,0,1,0,0,0)。因此,李子的答案是正确的,并且所有其他答案都不正确。值得注意的是,所有其他答案都是同等地不正确的。因此,当示出了李子的图像时,如果该系统回答(将该图像标识为)桃,则该系统会被扣去与该系统将李子标识为自行车的情况下相同数量的点。该方法可以使产生正确答案的系统最大化。然而,该方法的代价是没有使不正确的答案偏向最像正确答案的那些答案。这是因为在用于训练机器学习系统的控制向量中,相关类别的权重中不存在偏向。
现在,考虑使用如下训练集合控制向量:该训练集合控制向量考虑了类别之间的关系。这种控制向量可以是(0.1——苹果是水果,0.3——桃是水果并且形状类似,1.0——李子仍然是李子,0.5——油桃是水果、形状类似并且具有类似的光滑外皮,0——自行车与李子不具有自然关系,0.01——树与李子具有很少的关系)。使用该控制向量产生了与先前控制向量不同的结果。在该控制向量中,不正确的分类被更重地加权(即,非零的,或者与非匹配值不同)。这将增加不正确答案的概率。然而,并非所有不正确的答案都被相同地加权。例如,桃和油桃与树和自行车相比被更重地加权,以便使机器学习系统的答案向量偏向。作为结果,相比于自行车的不正确答案,该系统更有可能提供桃的不正确答案。此外,取决于确定的目的,桃的答案可能是可接受的答案。例如,如果询问的问题是“这些图像中的哪一个示出了有硬核的水果”,则将李子的图像错误标识为桃不会产生与将李子的图像错误标识为自行车相同的错误。类似地,“图像中的项目是否可被人类食用”的问题可能会容忍某些类型的错误标识。当类别之间的关系与正被考虑的问题相关时,更接近的不正确答案可能是同等地正确的输出答案。例如,对于数字类别而言,与类别内的差异相比,类别之间的差可能不是有意义的或者可能很小。例如,估计某人是20岁还是21岁对于确定合法购买酒类的能力是有意义的,但是在确定是否向他们提供退休人员特色午餐时很可能不是有意义的。数字类别也可以被提供有如上所描述的父类别,因此该系统可以将年龄分类成父类别25-30、31-35、36-40等,同时具有按下面的年龄的子类别。该方法允许对结果的“估计”,同时在机器标识的准确性支持确定更窄类别时允许子类别(例如(26,27,28,29,30))的标识。
认识到被表征对象的较大类别或父类别的标识可能足以回答所询问的问题是有用的。假设专家系统被要求审查监控录像、并标识出浆果灌木丛上的某些浆果发生了什么。在没有标识出所涉及的鸟的属和种的情况下,“鸟吃掉了它们”的答案可能是足够的。这类似于人类如何给对象进行分类。例如,通过一图像,一个人可能将该图像标识为红鸟,但是其并不足够了解以确定该图像是主红雀。对于一些用途而言,对红鸟的标识可能足以回答该问题。
在上面关于增加机器学习系统所产生的不正确分类的质量而讨论了类别之间的相似性的使用。然而,所描述的方法也可以被用来增加正确分类的置信度。在相关分类的情况下,正确答案并不是具有全零和单个一的向量。取而代之,正确答案应当反映类别之间的重叠程度。换句话说,李子的图片应当部分地被排列为油桃或桃,这是因为它们之间存在图像中的相似性。因此,基于如通过输入数据评定的相似性,输出答案向量的系统应当包括这些相关联的类别的概率。在这个意义上,答案向量是从1(匹配)到0(不相关)的各种类别之间的关系值的分布。
考虑要处理的鸟的图像。存在具有各种相似性程度的多个鸟的形状。然而,该图像还示出了与红苹果的图像的不寻常关联。来自该关联的这种颜色信息可以提供该鸟是主红雀(或至少是鲜红色的鸟)的辅助验证。此外,不具有强元素“鸟”的“主红雀”的答案可能是不正确的,或者至少使附加考虑有必要。类似地,具有类似大小、形状等的相关的鸟的其他类别应当具有由答案向量中的非零值表示的相似性。这种重叠的再次不存在就是主要标识可能不正确的辅助指示。
可以呈现如下类别:该类别是被分类的对象的特征和/或特点。例如,颜色和/或颜色组合可以提供用于帮助区分动物图像的有效方式。白色的大熊是北极熊,而棕色的大熊可能是棕熊或黑熊。无论如何,北极熊、棕熊和黑熊的类别之间存在相似性,但是辅助类别的关联可以帮助确认该确定以及减少不正确的匹配。在这个意义上,许多类别的答案向量类似于“指纹”或化学图谱(除了其不指示例如键能吸收),它示出了所标识的类别与答案向量中的其他类别的相似性。对这种值的另一种使用是答案向量中的这些非零、非一的值,使得它们可以被用来创建更好的控制向量。例如,可能难以确定不同相关类别之间的图像中的百分比关联应当是多少。然而,提供估计、并且然后基于经训练的机器学习系统的答案向量来修改它们可以允许控制向量逼近由该机器学习系统所评定的输入的关联的真实度量。
类似地,关联值中存在较宽肩部(shoulder)和/或不对称性可能指示一个值相比于另一个值具有更高可能性。考虑针对年龄的类别向量(0岁、1岁、2岁等)。如果答案向量在34和35处相等但是在36处急剧下降,并且在37旁边接近零,同时在28附近终止之前具有朝向较低值的宽肩部,则这可以充当34与35之间的决胜局(tie breaker)。
在其他示例当中,本说明书描述了一种用于训练机器学习系统的方法,该方法包括:针对测试案例在类别标识方面训练机器学习系统,其中机器学习系统输出答案向量,并且答案向量与控制向量被进行比较,其中控制向量包括三个不同的值,这些值包括:针对测试案例的匹配类别的第一值;针对测试案例的不匹配类别的第二值;以及针对与测试案例的匹配类别有关的第一类别的第三值,其中第三值与第一值不同,并且第三值与第二值不同。
在其他示例当中,本说明书还描述了类别标识训练系统,其包括:处理器和通信地耦合到处理器的存储器,存储器包含指令,该指令在被执行时使处理器进行如下操作:在类别标识方面训练机器学习系统,其中机器学习系统输出答案向量,并且答案向量中的值对应于类别,其中类别包括第一类别以及第一类别中的第一子类别,并且其中与子类别相对应的答案向量中的值确定机器学习系统是否将输出标识为第一子类别、以及是否不将输出标识为第一类别。
本说明书还描述了一种类别标识系统,其包括:机器学习系统,机器学习系统包括处理器和相关联的存储器;其中针对答案向量来训练机器学习系统,其中答案向量中的位置对应于不同的基本方向,并且使得答案向量的值可以被组合以生成取向。
现在转到附图,图1示出了根据与本说明书一致的示例的用于训练机器学习系统的方法(100)。方法(100)包括:针对测试案例在类别标识方面训练机器学习系统,其中机器学习系统输出答案向量,并且答案向量与控制向量被进行比较,其中控制向量包括三个不同的值,这些值包括:针对测试案例的匹配类别的第一值;针对测试案例的不匹配类别的第二值;以及针对与测试案例的匹配类别有关的第一类别的第三值,其中第三值与第一值不同,并且第三值与第二值不同。
方法(100)是用于训练机器学习系统的方法。机器学习系统的输出是包含针对各种类别的一组值的答案向量。将答案向量与作为测试案例的一部分而提供的控制向量进行比较。控制向量包括针对匹配类别的第一值。控制向量包括不匹配类别的第二值。控制向量包括针对不是匹配类别但是与匹配类别有关的类别的第三值。对第三值的包含允许机器学习系统在差点命中(near miss)与无关类别之间进行区分。
机器学习系统是用于将信息分类到类别中的系统。存在各种各样的机器学习系统,每种机器学习系统具有其自己的益处和缺陷。示例包括贝叶斯网络、聚类算法、支持向量机、最近邻机器、Q学习、时间差(TD)、深度对抗性网络、神经网络、决策树等。机器学习系统是使用训练集合来训练的。训练集合包括案例集合,每个案例包括输入以及指示针对该输入的正确答案的控制向量。
输入取决于机器学习系统正在被训练以便处理的信息的类型。例如,输入可以是图像、一系列图像,诸如视频、三维模型、文本、文档、音频剪辑、医疗文件、评论、意见、评估等。输入可以接收预处理以便标准化输入的格式。信息源可以被划分成多个输入。例如,可以将医疗历史划分成不同的时间帧,以提供不同级别的知识,并且教导疾病的进程以增强早期检测。
机器学习系统接收输入并且产生答案向量。答案向量包括一系列值。该向量中的每个值与类别相关联。类别可以存储在类别向量中。类别可以存储在数据库和/或另一数据结构中。在一些实例中,该向量的值限于0到1的范围。例如,0可以表示输入与相关联的类别的不匹配,而1表示输入与相关联的类别之间的匹配。还可以包括0与1之间的值。例如,这些值可以表示输入与相关联的类别之间的匹配概率。
例如,考虑类别向量(苹果,鸟,房子)。机器学习系统被提供了红房子的输入。机器学习系统输出答案向量(0.01,0,0.99),这指示该图像有1%的机会是苹果,该图像有0%的机会是有鸟,并且该图像有99%的机会是房子。要注意的是,概率之和总计为1(或100%)。该系统可以作为值来输出匹配,并且然后将其归一化为1。例如,这可以使用SoftMax算法来进行。存在用于归一化的各种各样的方法,并且所描述的发明并不需要归一化和/或使用任何特定算法来实行归一化。
现在考虑类别向量(猫,狗,灵缇,香蕉)。第二和第三类别是强相关的。所有灵缇都是狗,但是并非所有狗都是灵缇。此外,猫和狗共享一些共同的物理特征,包括腿、尾巴(在一些情况下)、毛皮、牙齿等。相比之下,香蕉与其他类别共享非常少的特征,从而是有区别的和/或无关的。
现在,如果将灵缇的图像提供给专家系统,理想的输出将类似于(0,1,1,0)。如果将其归一化,则这些值将被归一化为(0,0.5,0.5,0)。在实践中,由于猫与狗之间的外观相似性,该系统可能会输出(0.3,1,1,0)的答案向量,其可以被归一化为(0.13,0.43,0.43,0),其中这些值被截短。第一类别的适当权重将取决于专家系统将猫和狗视为类似类别的程度。猫和狗越类似,类别猫将接收到的权重就越大。类似地,虽然每个灵缇都是狗,但是灵缇的图像与一般的狗和/或类别狗的图像相比可能看起来更像灵缇的图像。因此,在一些示例中,由于灵缇相比于狗的系统标识与图像之间的更紧密匹配,第三类别的值可能超过第一类别的值。由于这两个类别之间的关系(即,灵缇是狗的子集),该系统应当向狗提供显著的权重。
在这里,这两个类别之间的关系导致了针对多个类别的非零值。如果因为该图像属于灵缇而针对控制向量(0,0,1,0)来训练该系统,则机器学习系统会偏斜(skew),并且认为该图像同等地不能表示狗和香蕉,这是不正确的。取而代之,通过使用具有表示匹配、不相关和相关的至少三个值的控制向量,增加了训练的质量。因此,控制向量(0.2,0.4,0.4,0.0)对该系统进行训练,该图像是灵缇但也是狗,并且与猫具有一些相似性,但是与香蕉无关。该类别关系信息可以减少与该图像不相关联的未命中的实例。
如上面讨论的,类别向量可以存储与答案向量和控制向量相关联的类别。类别向量可以被存储为向量。类别向量可以存储在数据库和/或另一数据结构中。类别向量的类别可以是向量的索引。例如,如果类别是从1到5的整数,诸如当表示等级和/或类似材料时,索引可以用作类别标识符。当类别具有自然进程时,索引可以用作针对类别名称的代理。例如,考虑由临床医生使用的疼痛测量标度,该标度使用示出了各种级别的不适的一系列面部来表示疼痛,该索引可以用于将类别映射到数字,和/或反之亦然。类似地,可以通过颜色的光谱和/或其他位置将颜色编入索引。在这种情况下,对类别进行排序以使得相邻类别具有共性可以为使用索引值来创建控制向量提供基础。可以被指派给次序的类别集合可以从对类别进行排序中受益,以使得该索引隐含了关于与该索引接近的值中的类别相似性的信息。例如,杜威十进制系统任意地指派宽泛类别,但是相关类别具有类似的数字,从而允许基于索引(杜威十进制数字)来估计类别(主题)的相似性。
类别向量可以映射树和/或类似结构。例如,类别可以包含子类别的向量。例如,考虑具有索引1的类别(狗),可以将子类别编入索引作为子类别向量的索引值,例如,1.1=(哈巴狗),1.2=(金毛寻回犬),1.3=(拉布拉多寻回犬)。在以这种方式进行构造时,索引值包含了关于相关联的类别的附加关系数据。例如,所有子类别被包含在相关联的类别中,因此自动化系统可以确定哈巴狗、金毛寻回犬和拉布拉多寻回犬全部都是狗。
在一些示例中,类别向量是从现有分层结构中提取的。各种各样的领域包括到归类事物的分类学方法,该归类事物包括地理区域、天体对象、动物、矿物、植物、花、真菌等。在一些示例中,这些分类法可以被自动提取并且被编码在类别向量中。来自分类法的信息然后可以被用来生成类别的控制向量,其中向群组中的其他类别给出第一值、针对父类别给出第二值、针对该类别中的任何子类别给出第三值等。虽然限制类别的层数可能是有用的,但是该结构还允许在标识了新的类别和/或关系时调整类别的灵活性。
测试案例是被用来训练机器学习系统的示例。测试案例包括被提供给机器学习系统的输入。测试案例包括用以确定控制向量的信息。该信息可以是控制向量、答案向量和/或类别向量的索引值。在一些示例中,控制向量由人类基于类别之间的关系来提供、更新和/或审查。在示例中,控制向量由处理器使用索引值来计算。可以通过将答案与类别向量进行比较来从测试案例中所提供的答案来确定索引值。
控制向量是包含一系列值的向量,其针对每个类别有一个值,该每个类别具有答案向量中的值。可以将控制向量视为测试案例的真实值。机器学习系统被调整和/或进行自我调整,以使答案向量与通过训练集合的相关联的控制向量之间的差最小化。如果训练集合是有代表性的,则当机器学习系统被应用于训练集合之外的输入时,这种最小化应当使误差最小化。确实,如果训练集合是完整的,则可以将查找系统与训练集合一起使用,以便每次都提供“正确答案”。然而,这种训练集合将不合理地很大,并且将消耗不合理的工作量来针对所有实例定义正确答案。所以取而代之,在认识到训练集合的大小与准确性之间存在权衡的情况下使用训练集合来训练机器学习系统。
控制向量中的值包括第一值,该第一值指示相关联的类别与被提供给机器学习系统的输入之间的匹配。该值可以是1。该值可以是控制向量中的最大值。
控制向量中的值包括第二值。该第二值指示相关联的类别与被提供给机器学习系统的测试案例中的输入材料之间的不匹配以及关系的缺乏。该值可以是0。
控制向量中的值包括第三值,该第三值指示相关联的类别与匹配类别相关。与第一和第三值相关联的类别可以具有父/子关系,这两种类别可以都是较大群组的一部分,类别可以共享性质、属性等。第三值可以在第一值与第二值之间。第三值相对于第一值和第二值的值可以指示真实类别与关联于第三值的相关类别之间的关系程度。
控制向量可以是以下函数的特定实例:
其中phi(i,j)是从任何合适的成本函数中选择的成本函数,该函数会对类i与类j之间有多远进行惩罚。直观上,该公式表述(formulation)类似于softmax层的公式表述。然而,惩罚是在归一化的概率分布中被编码的。以这种形式,与最初的类相对应的元素将具有较高值,而随着索引远离真实的类而移动,附近的元素将使其值衰减。因此,这种编码自然地适应类别向量中的关系信息,而无需对例如序数类(ordinal class)进行显式编码。
图2示出了根据与本说明书一致的示例的用于训练机器学习系统(210)的系统(200)。机器学习系统(210)接收测试案例输入(224),机器学习系统(210)使用该测试案例输入(224)来生成答案向量(212)。测试案例(220)为机器学习系统(210)提供测试案例输入(224)。测试案例(220)还提供了包括第一、第二和第三值(在图2中被示为α、β和γ)的控制向量(222)。将控制向量(222)和答案向量(212)进行比较,并且计算答案向量(212)与控制向量(222)之间的求和差(summed difference)(230),并且将该求和差反馈回到机器学习系统(210)。包含针对控制向量(222)和答案向量(212)中的位置的类别标识符的类别向量(240)可以是可用的。答案向量(212)和类别向量(240)中的信息可以被用来提供来自机器学习系统的输出,即,机器学习系统基于测试案例输入(224)而指派给测试案例(220)的类别。
系统(200)是用于训练机器学习系统(210)的系统。
机器学习系统(210)包括处理器和相关联的存储器。处理器还可以支持系统(200)的其他操作。在一些示例中,系统(200)包括可以支持专用和/或变化的任务的多个处理器。
答案向量(212)是基于测试案例输入(224)的来自机器学习系统(210)的输出。答案向量(212)包括针对多个类别中的每个类别的值。类别可以存储在类别向量(240)中。在从机器学习系统(210)接收到答案向量(212)之后,答案向量(212)可以经受后处理。在示例中,在从机器学习系统(210)接收到答案向量(212)之后,将答案向量(212)归一化为1的长度和/或总和。
测试案例(220)包括测试案例输入(224)以及可以被用来生成控制向量的信息。该信息可以包括与测试案例输入(224)相关联的索引。在示例中,测试案例(220)包括作为测试案例输入(224)的家猫的图片、以及标识“猫”。系统(200)可以查阅类别向量(240)以确定与“猫”相关联的索引值。例如,系统(200)可以解析类别向量(240),直到系统(200)找到命名为“猫”的类别。与类别“猫”相关联的索引可以被用来获得控制向量(222)。在示例中,基于该索引来计算控制向量(222)。可以基于该索引以及类别索引(240)的结构来计算控制向量(222)。在示例中,从查找表中获得控制向量(222)。
测试案例输入(224)是被提供给机器学习系统(210)以产生答案向量(212)的信息。机器学习系统(210)基于测试案例输入(224)以及已经使用测试案例(220)的训练集合进行开发的机器学习系统(210)的属性来确定答案向量(212)。在充分地训练了机器学习系统(210)之后,提供输入(包括除了来自训练时所使用的测试案例(220)的那些输入之外的输入)将产生答案向量(212),该答案向量(212)标识了与该输入相关联的类别。因此,最终猫的图像可以作为输入被提供给机器学习系统(210),从而使机器学习系统(210)返回答案向量(212),其中答案向量(212)指示具有索引的答案值,然后可以将该索引应用于类别向量以提取类别标识符“猫”。
控制向量(222)是针对测试案例(220)的“真实答案”。控制向量(222)指示在完美优化之后答案向量(212)应当获得的值。实际上,控制向量(222)与答案向量(212)之间始终将会存在一些差。这些差来自于各种各样的来源,并且包括以下因素,诸如:训练集合中的限制、通过计算和/或通过人类将关系值向控制向量的不正确指派、测试案例输入(224)对相关联的类别的非代表性。例如,考虑包括狗的100个图像的训练集合,机器学习系统的“理想的狗”可以被认为是训练集合的测试案例(220)的测试案例输入(224)的合成物。该合成物为机器学习系统(210)定义了类别“狗”,并且参数具有一些灵活性以覆盖各种各样的狗的图像,包括训练集合中未使用的图像。然而,狗的任何特定图像不太可能看起来像该合成物,取而代之,不同的图像以不同的方式变化:一些具有较大的狗、一些具有较小的狗、不同的颜色、不同的比例、不同的肌理等。因此,没有任何单个测试案例(220)有可能完美地匹配与答案向量(212)相关联的合成物。
尽管该讨论围绕“狗”类别,但是答案向量(212)可以包括针对各种各样类别的非零(或非不相关联的)值。例如,猫的图像与狗的图像之间可能存在轻微的关系,狼的图像与狗的图像之间可能存在较强的关系,狐狸的图像与狗的图像之间可能存在中等程度的关系,鲸鱼的图像与狗的图像之间没有关系等等。控制向量(222)包括针对与正确类别有关的类别的第三值(例如,中间值γ)。可以基于直觉和/或计算来手动确定和/或指派针对第三值的这些权重。这些权重也可以使用训练集合来迭代地确定。例如,初始地可以使用公式或基于专业估计来生成权重。在已经训练了该系统之后,则可以更新控制向量(222)中的权重来反映由机器学习系统(210)产生的答案向量(212)中的值。然后可以进行附加训练,并且再次更新控制向量(222)中的权重。这种迭代方法认识到,不同类别之间的关系可能不容易估计。例如,对相似性的人类评定可以与机器学习系统(210)进行的评定不同。利用交互式方法,在训练了机器学习系统(210)之后,控制向量(222)被更新以反映答案向量(212)的学习值。在一些示例中,可以在使用机器学习系统(210)时更新这些值。如果用户反馈可以纠正错误的分类以避免重复的错误,则这可能尤其有用。
答案向量(212)与控制向量(222)之间的求和差(230)作为反馈被提供给机器学习系统(210),以评估机器学习系统(210)在评定测试案例输入(224)时做得有多好。可以以各种各样的方式来计算求和差(230)。在示例中,求和差(230)是这两个向量中的每个值的差的平方和的平方根。求和差(230)也可以是一阶的,并且对这两个向量中的每个值的差的绝对值进行求和平均(sum average)。用于例如使用不同的幂(例如,平方相比于线性)来计算求和差(230)的不同方法也可能在主要类别与相关联的类别的影响之间产生不同的分布,即使当第三值保持恒定时亦如此。类似地,控制向量的不同值之间的比率可以被用来调整结果。可以被用来确定答案向量(212)与控制向量(222)之间的差的其他技术的一些示例包括但不限于:交叉熵、Kullback-Leibler散度、Jensen-Shannon散度、Bregman散度(使用平均向量)、总和最小二乘(sum least square)、总和线性差分(sum linear difference)、最小距离估计等。所描述的方法不取决于对任何特定方法或技术的使用来比较答案向量(212)和控制向量(222)从而向机器学习系统(210)提供反馈。
类别向量(240)提供了使机器学习系统(210)的活动与用户可理解的类别协调一致的能力。类别信息由答案向量(212)和控制向量中的索引值来表示。机器学习系统(210)优化测试案例输入(224),以产生具有与控制向量(222)的最小求和差(230)的答案向量(212)。那些操作中没有一个使用存储在类别向量(240)中的类别标识符。换句话说,如果机器学习系统被指示猫的图像是“独角兽”,则机器学习系统(210)将学习将它们标识为独角兽,而不是标识为猫。类似地,系统(210)将序数类别标识符视为彼此不相关,除非做出努力来将该关系信息包括在控制向量(222)中。尽管类别标识符可以存储在类别向量(240)中,但是可以使用用于存储和检索类别标识符的其他方法,包括数据结构和数据库。
在处理多种人类语言时,分类和处理的这种语言独立性是有用的。即,对于在不同语言中相同和/或非常类似的想法/概念,可以从特定于语言的类别向量(240)来提供特定于语言的名称,而无需重新训练整个机器学习系统(210)。这倾向于在谨慎的(discreet)对象(诸如,在图像的模式识别中标识的对象)的情况下更好地工作。在示例中,类别向量(240)是包含以不同人类语言存在的类别名称的类别向量(240)的二维数组。某些类别标识(比如数值)尤其适合于在不同语言之间传递,而几乎没有具体性损失。类似地,与更抽象和/或哲学的概念相比,物理对象的更具体的类别更易于在语言之间移动。
图3示出了根据与本说明书一致的示例的用于将类别向量(240)中的数字类别标识符集合转换成控制向量集合(222-1至222-5)的系统(300)的示例。在该系统中,具有相关联的存储器(352)的处理器(350)将类别向量(240)中的类别标识为连续的整数。虽然在该示例中整数开始于1,但是它们可以开始和结束于任何值。类别标识符可以是整数或分数、实数等。相邻类别之间的增量可以是统一的和/或可以变化。例如,类别向量(240)可以包括1、2、4、8、16等的值。类别向量(240)可以是(0.1,0.4,0.7,0.8,0.9,0.99,0.999,1)。类别被组织成使得基于相似性对类别值进行排序。
对于数字而言,这可以被认为是,具有索引X的任何类别值都具有:类别向量(x)>类别向量(x-1)并且类别向量(x)<类别向量(x+1)。其中类别向量是类别名称的向量。对于非数字类别而言,确定类别之间的关系的次序和值更加困难。例如,柠檬更像橙子还是葡萄柚。对于柑橘类水果的父类别而言,也许诸如(柠檬,酸橙,橙子,葡萄柚)之类的类别向量可以是正确的,但是(酸橙,柠檬,葡萄柚,橙子)可以是同等地正确的。此外,一种向量次序对于酸度的测量而言可能是正确的,而对于其中水果的外皮颜色是更大因素的图像而言,不同的向量次序可能是正确的。
使用自动化方法来提供控制向量的非零、非1值减少了使用类别之间的关系以增加机器学习系统(210)的分类准确性的劳动密集型部分。在这种方法中,控制向量将第一值指派给控制向量的类别,即,如果针对给定输入的答案为3,则该向量中与类别3相关联的值被设置为1。接下来,将相邻类别设置为第三值。通过将索引向上调整1以及向下调整1来标识相邻类别。其余类别被指派有针对不相关类别的第二值。
可以提供附加规则,例如,远离该类别的两个类别也可以被指派有非零关联。如果类别向量(240)是非线性的,和/或在相邻类别之间具有不相等的间距,则可以调整用以定义控制向量(222)的等式来反映该信息。
考虑被设计成检测未成年人饮酒的机器学习系统(210)。类别值可以是人类的年龄。去往机器学习系统(210)的输入可以是图像。因此,类别向量(240)可以从(18、19、20、21、22、23等)来运行。然而,由于在美国21的年龄关于酒类消费的重要性,因此该系统可以针对21岁的年龄线的相反侧上的答案提供较低值,以减少跨过该法律限制的错误标识。因此,针对21岁的控制向量可以是例如(0,0,0,1,0.3,0.2)。可以为针对不同年龄的其他控制向量布置类似的结构。将20岁错误标识为18岁可能对酒类管制有很小的后果,而将20岁错误标识为21岁可能具有更大的后果。在答案中提供非对称偏向的能力允许该系统减少不可接受的错误的比率。
在一些示例中,类别之间的关系信息是从另一来源中提取的。与数字相关联的以上类别被视为示例,但是可放在线性标度内的任何内容都可以利用所讨论的邻接(adjacency)方法。
对于二维组织的类别,该组织更加难。例如,考虑地理信息,按东-西或南-北对城市的组织可能不如分割那么有用(同样,这取决于机器学习系统(210)进行的分类的目的)。因此,当存在多个轴时,基于关于各种类别的附加信息来实行计算可能是有用的。例如,该系统可以基于地理分割、人口、教育水平、行业类型、开放空间、住房价格和/或任何数量的其他因素来确定其他城市的“相关性”。这些因素应当与所询问的问题有关。例如,在相邻区域中使用花粉测量可以允许估计没有传感器的区域中的花粉水平。在考虑住房估价时,使用类似定价的都市区域可能是相关的。
与使用单维类别数组相比,使用多个维度来定义类别更具挑战性。线性类别数组与多维评定之间的结构的一个中间来源是树。树可以被用来映射相关项目,并且提供子类别和超类别。此外,不同项目的许多树和/或分类法已经可用于如下数据库和来源中,其中可以使用自动化和/或半自动化过程来提取该结构。自然科学信息广泛地可用于这种结构(例如,Carl Linnaeus的生物归类系统)中。在示例中,共享群组中的项目被指派有第三值,例如,属中的种。属也可以被指派有第三值(或第一值)。更远的种可以基于它们在该树上距测试案例类别的距离而被指派有预定值。
图4示出了与本说明书一致的类别标识训练系统(400)。该系统(400)包括:处理器(350)和通信地耦合到处理器的存储器(352),存储器(352)包含指令,该指令在被执行时使处理器进行如下操作:在类别标识方面训练机器学习系统(210),其中机器学习系统(210)输出答案向量(212),并且答案向量(212)中的值对应于类别,其中类别包括第一类别以及第一类别中的第一子类别,并且其中与子类别相对应的答案向量(212)中的值确定机器学习系统(210)是否将输出标识为第一子类别、以及是否不将输出标识为第一类别。
在图4中所示的示例中,类别向量(240)包括狗、贵宾犬、大丹犬和约克夏犬作为类别。因此,类别向量(240)包括类别以及该类别的子类别。考虑被提供给在针对这些类别的训练集合上训练的机器学习系统(210)的贵宾犬的图像。贵宾犬是狗的一种类型。因此,系统可以输出狗或贵宾犬,并且产生真实答案。所描述的方法提供了“最窄可靠答案”。因此,如果贵宾犬高于阈值,则该系统报告贵宾犬,即使狗是评级最高的类别亦如此。
该方法开始于由机器学习系统(210)提供的答案向量(212)。图4中的答案向量(212)尚未归一化。然而,可以在归一化的答案向量(212)的情况下进行类似的方法。
系统(400)标识答案向量(212)中的最大值。在没有重叠类别的系统中,该最大值将继续是系统(400)提供的答案。然后,系统(400)确定具有最大值的类别是否具有任何子类别(466)。如果没有子类别,则不需要确定该输入是否更恰当地描述了子类别,并且系统(400)在(468)处输出具有答案向量(212)中的最大值的类别。
如果该类别具有子类别,则系统(400)标识具有最大值的子类别。然后,将该子类别与阈值进行比较。阈值可以是绝对值。阈值可以是相对于答案向量(212)中的最大值的值。例如,如果答案向量(子类别索引)/答案向量(父类别索引)>70%(阈值),则可以报告该子类别作为答案(472)。将比率用作阈值可以允许独立于归一化来工作,这是因为它针对未归一化和归一化的答案向量(212)都提供相同的值。如果该子类别的值高于阈值,则该系统输出该子类别作为答案(472)。如果该子类别的值低于阈值,则该系统输出该类别作为答案(468)。
可以将该相同方法应用于类别中的子类别等等。因此,系统(400)提供高于阈值的最窄标识,从而允许在机器学习系统(210)中同时评估类别和子类别的集合。
图5示出了根据与本说明书一致的示例的用于将预先存在的类别信息映射到类别向量(240)和控制向量(222)中的示例。图5在左侧示出了针对犬科群组的动物的类别向量(240)。右边是基于可以使用自动化系统产生的各种品种、种、属和科(family)的关系的控制向量(222)。因此这种分类法已经可用,因此利用不同类型的动物、岩石、植物、天体等之间的关系信息的能力提供了一种用于在不使用人类输入以及针对值的主观判断力决定(judgement call)的情况下合并类别之间的关系信息的方式。这种分类法还可用于在无需人类干预的情况下提供对关系的至少初始评定的自动化。
图6示出了类别标识系统,其包括:机器学习系统(210),机器学习系统包括处理器(350)和相关联的存储器(352);其中针对控制向量(222)来训练机器学习系统(210),其中控制向量(222)中的位置对应于不同的基本方向,并且使得由机器学习系统(210)产生的答案向量(212)的值可以被组合以生成取向。
如上面讨论的,各种类别的值可以被用作对机器学习系统(210)进行的类别确定的辅助验证。然而,非最大值中的信息也可以被用来实行对输入的表征。图6描述了一种用于使用这种信息来从诸如图像之类的输入(464)中提取取向的特定方法。
采用机器学习系统(210)。针对一种类型的输入(464)来训练机器学习系统(210),该输入诸如具有在控制向量(222)中编码的取向信息的图像。因此,机器学习系统(210)被训练成不标识图像的主题,而是标识该图像面向哪个方向。初始训练集合可以包括面向北、南、东和西的图像,其中控制向量(222)仅具有1和0(或标识匹配取向和不匹配取向的第一数字和第二数字)。控制向量(222)可以交替地是两个值(一个是北/南并且一个是东/西)。在一个示例中,这些值从+1至0至-1地运行。这些值可以被适配于另一个标度,例如0至1。
然后,可以向机器学习系统(210)提供测试图像,该测试图像具有在两个基本方向(例如,北-西)之间的取向。系统(210)将在答案向量(212)的北和西这两个位置中输出值。然后,这两个值可以被用来基于答案向量(212)的组份的相对权重来重构所提供的图像上的取向。
尽管该示例描述了从图像中提取取向信息,但是所描述的方法可以与各种各样不同类型的模式识别和分类解决方案一起使用。类似地,具有如下控制向量(222)的训练系统的益处提供了优于二进制匹配/不匹配方法的许多益处:该控制向量包括表示类别-匹配、类别-无关、以及类别-相关的三个类型的值。
使用所描述的方法的另一个示例是基于图像对距离进行分类。在该示例中,去往机器学习系统(210)的输入可以是图像。针对该图像中的所选择(并且在一些情况下是所有)的像素,机器学习系统(210)确定距该像素的距离。距离可以在类别的线性标度集合内,例如2米、4米、6米、8米、10米等。距离可以在类别的指数标度集合内,例如1米、2米、4米、8米、16米等。可以在测试案例(220)的情况下提供针对每个所评定像素的正确答案。该提供的答案可以被用来针对每个像素生成控制向量(222)。控制向量(222)包括针对所提供的答案或“正确”答案的第一值,其中针对相邻类别具有减小的但非零的值,直到类别与期望答案足够远以达到零(或表示不匹配的值)。
在示例中,控制向量(222)是第一值与所计算的衰减因子的向量的乘积。例如,如果像素在5米处,并且该系统正在使用类别的线性集合,该线性集合具有上述2米的分离,则所计算的衰减值的向量可能开始于值(e-3,e-1,e-1,e-3,e-5)。每个值是e的指数幂,该指数幂是该值与“正确”值之间的差的绝对值的负幂。这种分布指示:4米和6米两者是同等地可接受的答案(因为两者距5的“真实”值都是1米),其中2米和8米相比于更远距离而受青睐。在一些示例中,当衰减值下降到阈值(例如,10%、5%和/或1%)以下时,可以将其舍入到零以减小计算复杂性。
类似地,如果使用了类别的非线性集合(2间距的幂),则针对5米处的像素的控制向量(222)可能是(e-4,e-3,e-1,e-3,e-11)。该分布指示4米的类别被认为是最正确的答案(这是因为4米与在测试案例(220)的情况下提供的控制或“真实”答案相距1米)。2米和8米的类别是下一个最正确的答案,这是因为每一个都与测试案例(220)值5相差3米。最后,1米的类别相比于距真实答案的最远分离(其是16米的类别)稍受青睐。再次,这些幂基于在测试案例(220)的情况下提供的值与类/类别标识符之间的差的绝对值。这是用于使用等式和/或其他计算以基于类别标识符和测试案例(220)值来产生控制向量(222)的方式的简单示例。例如具有线性减小、二阶减小和/或其他衰减公式表述的其他这种公式可以类似地被用来便于计算控制向量(222)。
如上所描述,用于本示例的phi等式为e^(-1*(abs(i-j))),其中abs是绝对值,i是在测试案例(220)的情况下提供的点的控制值,并且j是类别名称中的值。如上面讨论的,phi等式在阈值以下时可以被舍入到零。可以在后续操作中对phi等式所产生的值进行归一化。如上面讨论的,提供远离“真实”值的衰减值减少了对差点命中但错误的答案的惩罚。这进而有利于机器学习系统(210)对差点命中相比于远未命中(far miss)的提供。结果是,错误答案更有可能来自相关类别,并且在一些实例中,相关类别的答案对于该答案的预期用途而言将是足够正确的。距离的估计是很好的示例,这是因为一个或两个类别的未命中可能不会影响实际有用性、也就是说答案的正确性。例如,如果答案是50,则机器学习系统(210)的答案46和/或52可以被同等地用作距离的估计。
将领会到的是,在本说明书所描述的原理内,存在大量的变化。还应当领会到的是,所描述的示例仅仅是示例,并且不意图以任何方式限制权利要求的范围、适用性或构造。
Claims (15)
1.一种用于训练机器学习系统的方法,所述方法包括:
针对测试案例在类别标识方面训练机器学习系统,其中机器学习系统输出答案向量,并且答案向量与控制向量被进行比较,其中控制向量包括三个不同的值,所述值包括:
针对测试案例的匹配类别的第一值;
针对测试案例的不匹配类别的第二值;以及
针对与测试案例的匹配类别有关的第一类别的第三值,其中第三值与第一值不同,并且第三值与第二值不同。
2.根据权利要求1所述的方法,其中类别标识中的类别包括一系列数字。
3.根据权利要求2所述的方法,其中类别标识中的类别包括整数集合,所述整数包括所述集合中的最小整数与所述集合中的最大整数之间的全部整数。
4.根据权利要求1所述的方法,其中测试案例包括图像。
5.根据权利要求1所述的方法,其中测试案例包括三维模型。
6.根据权利要求1所述的方法,其中第三值是由处理器基于类别标识符来计算的。
7.根据权利要求2所述的方法,其中匹配案例以及与匹配类别有关的第一类别具有以1而分离的类别标识符。
8.根据权利要求7所述的方法,进一步包括针对与测试案例的匹配类别有关的第二类别的第四值,其中匹配案例以及与匹配类别有关的第二类别具有以1而分离的类别标识符,第一类别和第二类别的类别标识符以2而分离,并且第三值与第四值不同。
9.一种类别标识训练系统,其包括:
处理器;以及
通信地耦合到处理器的存储器,存储器包含指令,所述指令在被执行时使处理器进行如下操作:
在类别标识方面训练机器学习系统,其中机器学习系统输出答案向量,并且答案向量中的值对应于类别,其中类别包括第一类别以及第一类别中的第一子类别,并且其中与子类别相对应的答案向量中的值确定机器学习系统是否将输出标识为第一子类别、以及是否不将输出标识为第一类别。
10.根据权利要求9所述的系统,其中类别和子类别是从数据库中提取的。
11.根据权利要求9所述的系统,进一步包括超类别,其中超类别包括具有共性的类别的群组。
12.根据权利要求9所述的系统,其中类别和子类别是从现有分类法提取的。
13.一种类别标识系统,其包括:
机器学习系统,其包括处理器和相关联的存储器;其中针对答案向量来训练机器学习系统,其中答案向量中的位置对应于不同的基本方向,并且使得答案向量的值可以被组合以生成取向。
14.根据权利要求13所述的系统,其中去往机器学习系统的输入是图像。
15.根据权利要求14所述的系统,其中测试案例包括以基本方向和答案向量定向的图像,答案向量包括指示与所述图像的基本方向取向的匹配的单个值,并且答案向量的其余值指示与其余基本方向的不匹配。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/US2018/055057 WO2020076309A1 (en) | 2018-10-09 | 2018-10-09 | Categorization to related categories |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112005253A true CN112005253A (zh) | 2020-11-27 |
Family
ID=70165274
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880092879.3A Pending CN112005253A (zh) | 2018-10-09 | 2018-10-09 | 到相关类别的分类 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11494429B2 (zh) |
CN (1) | CN112005253A (zh) |
WO (1) | WO2020076309A1 (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090119095A1 (en) * | 2007-11-05 | 2009-05-07 | Enhanced Medical Decisions. Inc. | Machine Learning Systems and Methods for Improved Natural Language Processing |
US20140306953A1 (en) * | 2013-04-14 | 2014-10-16 | Pablo Garcia MORATO | 3D Rendering for Training Computer Vision Recognition |
CN106095872A (zh) * | 2016-06-07 | 2016-11-09 | 北京高地信息技术有限公司 | 用于智能问答系统的答案排序方法及装置 |
US20170301002A1 (en) * | 2016-04-15 | 2017-10-19 | Wal-Mart Stores, Inc. | Vector-based data storage methods and apparatus |
US9830534B1 (en) * | 2015-12-16 | 2017-11-28 | A9.Com, Inc. | Object recognition |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5268684A (en) | 1992-01-07 | 1993-12-07 | Ricoh Corporation | Apparatus for a neural network one-out-of-N encoder/decoder |
US7409404B2 (en) * | 2002-07-25 | 2008-08-05 | International Business Machines Corporation | Creating taxonomies and training data for document categorization |
US7912246B1 (en) | 2002-10-28 | 2011-03-22 | Videomining Corporation | Method and system for determining the age category of people based on facial images |
US20040208376A1 (en) * | 2003-04-18 | 2004-10-21 | Winbond Electronics Corp. | Pattern recognition device and method |
US9792359B2 (en) * | 2005-04-29 | 2017-10-17 | Entit Software Llc | Providing training information for training a categorizer |
US8065246B2 (en) | 2008-10-14 | 2011-11-22 | Xerox Corporation | Clustering and classification employing softmax function including efficient bounds |
US8489603B1 (en) * | 2009-10-23 | 2013-07-16 | Amazon Europe Holdings Technologies Scs | Automatic item categorizer |
FR3050788B1 (fr) * | 2016-04-27 | 2018-11-23 | D-Innovation | Robinet de degustation |
-
2018
- 2018-10-09 US US17/047,435 patent/US11494429B2/en active Active
- 2018-10-09 CN CN201880092879.3A patent/CN112005253A/zh active Pending
- 2018-10-09 WO PCT/US2018/055057 patent/WO2020076309A1/en active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090119095A1 (en) * | 2007-11-05 | 2009-05-07 | Enhanced Medical Decisions. Inc. | Machine Learning Systems and Methods for Improved Natural Language Processing |
US20140306953A1 (en) * | 2013-04-14 | 2014-10-16 | Pablo Garcia MORATO | 3D Rendering for Training Computer Vision Recognition |
US9830534B1 (en) * | 2015-12-16 | 2017-11-28 | A9.Com, Inc. | Object recognition |
US20170301002A1 (en) * | 2016-04-15 | 2017-10-19 | Wal-Mart Stores, Inc. | Vector-based data storage methods and apparatus |
CN106095872A (zh) * | 2016-06-07 | 2016-11-09 | 北京高地信息技术有限公司 | 用于智能问答系统的答案排序方法及装置 |
Non-Patent Citations (1)
Title |
---|
侯博议;陈群;杨婧颖;李战怀;: "无监督的中文商品属性结构化方法", 软件学报, no. 02 * |
Also Published As
Publication number | Publication date |
---|---|
US11494429B2 (en) | 2022-11-08 |
WO2020076309A1 (en) | 2020-04-16 |
US20210224314A1 (en) | 2021-07-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | Combination of classifiers with optimal weight based on evidential reasoning | |
Barbiero et al. | Entropy-based logic explanations of neural networks | |
Nowak et al. | The CLEF 2011 Photo Annotation and Concept-based Retrieval Tasks. | |
Cui et al. | Context-dependent diffusion network for visual relationship detection | |
Li et al. | A review of adversarial attack and defense for classification methods | |
Li et al. | Siamese contrastive embedding network for compositional zero-shot learning | |
CN109753571B (zh) | 一种基于二次主题空间投影的场景图谱低维空间嵌入方法 | |
Indahingwati et al. | Comparison analysis of TOPSIS and fuzzy logic methods on fertilizer selection | |
WO2020114302A1 (zh) | 一种行为预测方法 | |
Fang et al. | Confident learning-based domain adaptation for hyperspectral image classification | |
Li et al. | A fruit tree disease diagnosis model based on stacking ensemble learning | |
CN111339249A (zh) | 一种联合多角度特征的深度智能文本匹配方法和装置 | |
CN112199957A (zh) | 基于属性和关系信息联合嵌入的人物实体对齐方法及系统 | |
CN112214570A (zh) | 一种基于对抗投影学习哈希的跨模态检索方法及装置 | |
Perdiguero-Alonso et al. | Random forests, a novel approach for discrimination of fish populations using parasites as biological tags | |
Wöber et al. | Identifying geographically differentiated features of Ethopian Nile tilapia (Oreochromis niloticus) morphology with machine learning | |
Joly | Exploiting random projections and sparsity with random forests and gradient boosting methods--Application to multi-label and multi-output learning, random forest model compression and leveraging input sparsity | |
Kurzynski et al. | On two measures of classifier competence for dynamic ensemble selection-experimental comparative analysis | |
Stavrakoudis et al. | Enhancing the interpretability of genetic fuzzy classifiers in land cover classification from hyperspectral satellite imagery | |
CN112005253A (zh) | 到相关类别的分类 | |
Barb et al. | Visual-semantic modeling in content-based geospatial information retrieval using associative mining techniques | |
CN109754000A (zh) | 一种基于依赖度的半监督多标签分类方法 | |
Thangarasu et al. | Detection of Cyberbullying Tweets in Twitter Media Using Random Forest Classification | |
Tarannum | Halal Food Identification from Product Ingredients using Machine Learning | |
Dunnmon et al. | Predicting State-Level Agricultural Sentiment with Tweets from Farming Communities |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |