CN107871135A

CN107871135A - 避免辨识结果混淆的影像辨识方法

Info

Publication number: CN107871135A
Application number: CN201610849663.XA
Authority: CN
Inventors: 谢少航; 陈彦呈
Original assignee: Creative Sunny (cayman) Holdings Ltd
Current assignee: Creative Sunny (cayman) Holdings Ltd
Priority date: 2016-09-23
Filing date: 2016-09-23
Publication date: 2018-04-03

Abstract

本发明公开了一种避免辨识结果混淆的影像辨识方法，于辨识平台接收用户欲辨识的多个标的，并依据多个标的查询预先建构的语义树，以判断多个标的彼此之间是否会产生辨识结果的混淆。于多个标的辨识结果不会产生混淆时，分别取得多个标的所属的母类别对应的母类别分类器，并使用该些母类别分类器进行辨识。并且，于多个标的辨识结果可能产生混淆时，分别取得多个标的底层的多个子类别对应的子类别分类器，并使用该些子类别分类器进行辨识。

Description

避免辨识结果混淆的影像辨识方法

技术领域

本发明涉及一种影像辨识方法，尤其涉及一种可避免辨识结果混淆的影像辨识方法。

背景技术

要通过人工智能(Artificial Intelligence,AI)自动对影像或视频中的标的，如人脸、物件、场景等进行辨识，必须先确定要辨识的一或多个标的，并训练对应至该些标的的分类器。如此一来，在对影像或视频进行分析时，可藉由训练完成的一或多个分类器自动对影像或视频进行分析比对，并辨识出影像或视频中是否存在该些标的。

如图1所示，为现有技术的分类器训练示意图。举例来说，若用户要辨识的标的包含“手机”以及“屏幕”这两个物件，则需先针对手机这个类别训练一手机分类器1，并针对屏幕这个类别训练一屏幕分类器2。具体地，工程师需将与手机相关的训练素材11，例如手机屏幕、手机背面、手机壳等的相关信息(例如图片、影片等)输入该手机分类器1，令该手机分类器1能够了解包含哪些元素在内的物件符合手机类别的定义。

同样地，工程师也需将与屏幕相关的训练素材21，例如电视屏幕、电脑屏幕、手机屏幕等的相关信息输入该屏幕分类器2，令该屏幕分类器2能够了解包含哪些元素在内的物件符合屏幕类别的定义。

然而如图1所示，由于该手机分类器1的训练素材11中包含了手机屏幕(也就是说手机类别下面包含了手机屏幕子类别)，而该屏幕分类器2的训练素材21中也包含了手机屏幕(也就是说屏幕类别下面也包含了手机屏幕子类别)，因此在训练完成之后，该手机分类器1会将包含手机屏幕在内的物件辨识为手机，而该屏幕分类器2会将包含手机屏幕在内的物件辨识为屏幕。如此一来，手机类别与屏幕类别的辨识结果就会产生混淆。

举例来说，若用户要在一辨识平台上寻找一视频中有手机出现的片段，但于分析时，先由该屏幕分类器2辨识出该视频中出现了手机屏幕的片段，并且将该手机屏幕定义为屏幕类别，则该片段将会无法被用户所成功搜寻。如此一来，即会因为辨识结果的混淆而造成辨识失败，进而降低自动辨识的辨识率。

发明内容

本发明的主要目的，在于提供一种避免辨识结果混淆的影像辨识方法，可依据用户欲辨识的标的自动调整与选择实际分析时所使用的分类器，藉此避免辨识结果产生混淆。

为了达成上述的目的，本发明公开一种避免辨识结果混淆的影像辨识方法，运用于一辨识平台，包括：

a)于该辨识平台接收欲辨识的多个标的；

b)提供一语义树，依据该多个标的查询该语义树以判断该多个标的是否会产生辨识结果的混淆；

c)于该多个标的不会产生辨识结果的混淆时，分别取得各该标的所属的一母类别对应的一母类别分类器；

c1)步骤c后，使用该些母类别分类器对一目标视频进行辨识；

d)于该多个标的可能产生辨识结果的混淆时，分别取得可能产生混淆的多个标的底层的多个子类别对应的多个子类别分类器，其中该些母类别分别为该些子类别的联集；及

d1)步骤d后，使用该多个子类别分类器对该目标视频进行辨识。

如上所述，其中该步骤b是于任一该标的底层的任一子类别与另一该标的底层的任一子类别重叠时，判断该二标的可能产生辨识结果的混淆。

如上所述，其中还包括：步骤d0)于该多个标的可能产生辨识结果的混淆时，取得该多个标的中不会产生混淆的一个该标的所属的母类别对应的母类别分类器；并且该步骤d1中，同时使用该母类别分类器及该多个子类别分类器对该目标视频进行辨识。

如上所述，其中更包括下列步骤：

e)步骤c1后，判断该些母类别分类器的其中之一是否得到一有效辨识值；及

e1)若任一该母类别分类器得到该有效辨识值，输出对应的该母类别的名称作为辨识结果。

如上所述，其中更包括下列步骤：

f)步骤d1后，判断该多个子类别分类器的其中之一是否得到一有效辨识值；

f1)若任一该子类别分类器得到该有效辨识值，对该子类别的名称进行转译以得到涵盖该子类别的多个母类别；及

f2)同时输出该多个母类别的名称作为辨识结果。

如上所述，其中该多个标的为物件或场景。

如上所述，其中该些母类别为手机、平板电脑、电视、笔记型电脑与屏幕，该些子类别为手机屏幕、平板屏幕、电视屏幕与笔电屏幕。

如上所述，其中该些母类别为笔记型电脑、桌上型电脑与键盘，该些子类别为笔电键盘与桌机键盘。

如上所述，其中该些母类别为汽车、单车与轮胎，该些子类别为汽车轮胎与单车轮胎。

如上所述，其中该些母类别为餐厅、酒吧与桌椅，该些子类别为餐厅桌椅配置与酒吧桌椅配置。

本发明对照现有技术所能达到的技术功效在于，辨识平台于接收用户欲辨识的标的后，可先判断该些标的彼此之间是否有辨识结果混淆的可能性，再决定要使用该些标的直接对应的母类别分类器进行辨识，或是进一步使用该些标的底层的多个子类别分类器进行辨识。如此一来，可有效避免在用户欲辨识的多个标的的关联性较高时，产生辨识结果混淆的情况。

附图说明

图1为现有技术的分类器训练示意图；

图2为本发明的第一具体实施例的语义树示意图；

图3为本发明的第一具体实施例的辨识流程图；

图4A为本发明的第一具体实施例的辨识结果输出流程图；

图4B为本发明的第二具体实施例的辨识结果输出流程图；

图5为本发明的第一具体实施例的影像辨识示意图；

图6A为物件辨识结果混淆的第一示范例；

图6B为物件辨识结果混淆的第二示范例；

图6C为物件辨识结果混淆的第三示范例；

图6D为场景辨识结果混淆的第一示例。

附图标记：

1…手机分类器；

11…训练素材；

2…屏幕分类器；

21…训练素材；

3…语义树；

4…视频；

41…第一物件；

42…第二物件；

43…第三物件；

S10～S22…辨识步骤；

S30～S32…输出步骤；

S40～S44…输出步骤。

具体实施方式

兹就本发明的一较佳实施例，配合附图，详细说明如后。

本发明公开了一种避免辨识结果混淆的影像辨识方法(下面将于说明书中简称为该方法)，该方法主要是运用于离线的一辨识系统或连接网络的一辨识平台，于下述说明中，将以该辨识平台为例，进行说明。

该辨识平台主要可对静态影像以及动态的视频进行分析，以辨识在影像与视频中出现的各种标的。以创意引晴公司所开发的FITAMOS系统为例，以FITAMOS系统为核心的辨识平台，主要可于影像或视频中辨识出人脸、图片/商标、文字、声音、动作、物件及场景等七大标的。

本发明的主要技术特征在于，当该辨识平台要同时进行多个标的的辨识时，会先参考预先建构完成的一语义树，以判断该多个标的彼此之间是否存在辨识结果混淆的可能性。并且，再依据判断结果决定要使用该些标的所属的母类别的分类器直接进行辨识，或是使用该些标的底层的多个子类别的分类器进行辨识。

如图2所示，为本发明的第一具体实施例的语义树示意图。图2公开了一语义树3的具体实施态样。本发明中，该语义树3主要是依据语义学(semantics)所建构而成的树状语义逻辑，并且该语义树3具有两个以上的层级，也就是说每一个词汇至少包括一个母类别及一个子类别。

于图2的实施例中，在该语义树3的根部底下，包括了“车子”、“屏幕”及“手机”三个类别。若将该车子类别视为母类别，则该车子类别的底层包括了“单车”、“摩托车”及“汽车”三个子类别，也就是说该车子类别为该单车类别、该摩托车类别及该汽车类别的联集。

若进一步将该汽车类别视为母类别，则该汽车类别的底层还包括“跑车”、“房车”及“游览车”三个子类别，其中该汽车类别为该跑车类别、该房车类别与该游览车类别的联集。若将该跑车类别视为母类别，该跑车类别的底层还包括“双门跑车”与“三门跑车”两个子类别；而若将该双门跑车类别视为母类别，该双门跑车类别的底层还包括“轮胎”、“车门”两个子类别。

相同地，在图2的实施例中，若将该屏幕类别视为母类别，则该屏幕类别的底层包括了“手机屏幕”、“电脑屏幕”、“电视屏幕”等三个子类别，而该屏幕类别即为该手机屏幕类别、该电脑屏幕类别及该电视屏幕类别的联集。若将该手机类别视为母类别，则该手机类别的底层包括了“手机屏幕”、“手机背面”、“手机壳”等三个子类别，而该手机类别即为该手机屏幕类别、该手机背面类别及该手机壳类别的联集。

值得一提的是，该语义树3主要是针对辨识需求而建立的树状语义结构，并且于训练分类器时，亦可直接按照该语义树3的结构来训练对应的多个分类器(包含母类别分类器与子类别分类器)。于实际实施时，一个母类别的底层所包含的子类别的类型与数量为何，可视实际辨识作业需求而定。例如于图2中，该屏幕类别的底层仅包含了手机屏幕、电脑屏幕与电视屏幕三个子类别，但该些子类别的类型与数量可视实际所需而调整，并非以图2中所示者为限。

本发明中，当该辨识平台在对一目标视频进行辨识时，主要是先参考该语义树3，以分析要进行辨识的多个标的是否会有辨识结果混淆的情况，以决定要以该些标的所属的母类别对应的母类别分类器对该目标视频进行辨识，还是要改以该些标的底层的多个子类别所分别对应的子类别分类器对该目标视频进行辨识(容下详述)。具体地，该些标的所属的母类别的名称，主要与该些标的的名称相同。

请同时参阅图3，为本发明的第一具体实施例的辨识流程图。如图3所示，首先，于该辨识平台上接收欲辨识的多个标的(步骤S10)，其中，该多个标的所属的多个母类别(例如手机、电视、屏幕)对应的母类别分类器(例如手机分类器、电视分类器、屏幕分类器)已预先训练完成，并且可被该辨识平台直接取得并使用。

于一较佳实施例中，该些母类别底层的多个子类别所分别对应的子类别分类器(例如手机屏幕分类器、电视屏幕分类器等)也已预先训练完成，并可被该辨识平台取得并使用。本实施例中，该些母类别与该些子类别的上下位关系，与该语义树3所定义者相同。

该步骤S10后，该辨识平台接着依据该多个标的查询该语义树(步骤S12)，以判断该多个标的彼此之间是否会产生辨识结果的混淆(步骤S14)。

本发明中，该辨识平台主要是于任一标的底层的任一子类别与另一标的底层的任一子类别重叠时，判断该二标的可能会产生辨识结果的混淆。例如图2中，手机类别底层的手机屏幕子类别，与屏幕类别底层的手机屏幕子类别重叠，因此当用户输入的该多个标的中同时存在手机及屏幕时，该辨识平台会经过判断后认定这两个标的的辨识结果可能会产生混淆(例如将该目标视频中出现的手机标注成屏幕)。

承上，若该辨识平台于该步骤S14中判断该些标的不会产生辨识结果的混淆(即，该些标的底层不存在重叠的子类别)，则该辨识平台分别取得各该标的所属的一母类别对应的一母类别分类器(步骤S16)，并且使用该些母类别分类器对该目标视频进行辨识(步骤S18)。

举例来说，若用户输入的该多个标的包括手机及汽车，则因为查询该语义树3后可发现手机类别与汽车类别的底层不存在重叠的子类别，因此在进行辨识时，该辨识平台会以直接对应的母类别的手机分类器与汽车分类器(即，母类别分类器)来对该目标视频进行辨识。

反之，若该辨识平台于该步骤S14中判断该些标的可能会产生辨识结果的混淆(即，该些标的底层存在至少一个重叠的子类别)，则该辨识平台分别取得可能产生混淆的多个标的底层的多个子类别对应的多个子类别分类器(步骤S20)，并使用该些子类别分类器对该目标视频进行辨识。本发明中，该步骤S16中所述的该些母类别，为步骤S20中所述的该些子类别的联集。

举例来说，若用户输入的该多个标的包括手机及屏幕，则因为查询该语义3后可发现手机类别与屏幕类别的底层存在重叠的手机屏幕子类别，因此在进行辨识时，该辨识平台会舍弃该些标的直接对应的手机分类器与屏幕分类器(即，母类别分类器)。相对地，该辨识平台会改为使用该些标的底层的多个子类别分类器，如手机屏幕分类器、手机背面分类器、手机壳分类器、电视屏幕分类器、电脑屏幕分类器等，对该目标视频进行辨识。

值得一提的是，若用户输入的该多个标的中同时存在上述可能产生辨识结果混淆的标的(例如手机与屏幕)以及不会与其他标的产生辨识结果混淆的标的(例如车子)，则除了该步骤S20外，该辨识平台会进一步取得不会产生混淆的该标的所属的母类别对应的母类别分类器(步骤S22)。并且，该辨识平台将同时使用在该步骤S20中取得的该多个子类别分类器及在该步骤S22中取得的该母类别分类器对该目标视频进行辨识(步骤S18)。

承上所述，该步骤S20中所指的子类别与该步骤S22中所指的母类别，于该语义树3中属于不同的层级。例如，于图2所示的该语义树3中，该车子类别、该屏幕类别及该手机类别属于同一层级，但是因为该屏幕类别与该手机类别的辨识结果可能会出现混淆，因此在实际辨识时，该辨识平台会采用该车子类别(母类别)，以及该屏幕类别与该手机类别底层的该手机屏幕子类别、该手机背面子类别、该手机壳子类别等，对该目标视频进行辨识。

续请参阅图4A，为本发明的第一具体实施例的辨识结果输出流程图。图4A用以说明当该辨识平台判断该多个标的不会产生辨识结果的混淆时，如何进行辨识结果的显示。

如图4A所示，该辨识平台在使用了图3的该步骤S16中取得的该些母类别分类器对该目标视频进行了分析后，判断该些母类别分类器是否得到一有效辨识值(步骤S30)。具体地，当任一母类别分类器(例如车子分类器)经分析后认定该目标视频的其中一帧出现了对应的物件(即，车子)，则该母类别分类器可得到辨识值为1(即为有效辨识值)，反之则为0(即为无效辨识值)。

该步骤S30后，若任一母类别分类器得到该有效辨识值，则该辨识平台直接输出该母类别分类器对应的该母类别的名称，以作为对应标的的辨识结果(步骤S32)。具体来说，若由该车子分类器辨识成功，则该辨识平台直接输出“车子”，以做为相对物件的辨识结果。

续请参阅图4B，为本发明的第二具体实施例的辨识结果输出流程图。图4B用以说明当该辨识平台判断该多个标的可能产生辨识结果的混淆时，如何进行辨识结果的显示。

如图4B所示，该辨识平台在使用了图3的该步骤S20中取得的该些子类别分类器对该目标视频进行了分析后，判断该些子类别分类器是否得到该有效辨识值(步骤S40)。并且，于任一该子类别分类器得到该有效辨识值，对该子类别分类器对应的该子类别的名称进行转译，以得到涵盖该子类别的多个母类别(步骤S42)。最后，再同时输出该多个母类别的名称，以作为相对物件的辨识结果(步骤S44)。

举例来说，若该手机屏幕分类器(为子类别分类器)辨识成功，则该辨识平台会先对手机屏幕子类别进行转译，并得到属于母类别的该手机类别以及该屏幕类别(即，该手机类别涵盖了该手机屏幕子类别，而该屏幕类别同样也涵盖了该手机屏幕子类别)。并且，该辨识平台会同时输出“手机”以及“屏幕”，以做为相对物件辨识结果。

参阅图5，为本发明的第一具体实施例的影像辨识示意图。于图5的实施例中，该辨识平台系接收用户输入的“车子”、“人类”、“电脑”、“屏幕”等四个标的，并依这些标的所对应的分类器对一视频4进行分析。

如图5所示，该辨识平台依据上述四个标的经查询该语义树3后，可判断车子并不会与人类、电脑及屏幕产生混淆，因而直接以车子所属的母类别对应的母类别分类器进行分析，并得到该视频4中的一第一物件41为“车子”的辨识结果。

再者，该辨识平台经查询该语义树3后还可判断人类不会与车子、电脑及屏幕产生混淆，因而直接以人类所属的母类别对应的母类别分类器进行分析，并得到该视频4中的一第二物件42为“人类”的辨识结果。

然而，该辨识平台经查询该语义树3后，会发现电脑与屏幕这两个母类别具有相同的电脑屏幕子类别，而可能会产生辨识结果的混淆。因此，该辨识平台会舍弃电脑与屏幕这两个母类别对应的母类别分类器，而改以这两个母类别底层的多个子类别所对应的子类别分类器，例如电脑键盘分类器、电脑机壳分类器、电脑屏幕分类器、手机屏幕分类器等，对该视频4进行分析。

于图5的实施例中，主要是由该电脑屏幕分类器分析后成功辨识该视频4中的一第三物件43并得到该有效辨识值。然而，由于用户希望辨识的是电脑以及屏幕这两个标的，因此该辨识平台不会直接输出“电脑屏幕”做为该第三物件43的辨识结果。取而代之，该辨识平台会对“电脑屏幕”进行转译，以得到涵盖该电脑屏幕子类别的该电脑类别以及该屏幕类别，并且同时输出“电脑”以及“屏幕”来作为该第三物件43的辨识结果。如此一来，该辨识平台可以在有效避免辨识混淆的情况下，输出符合用户期待的辨识结果。

于前述实施例中，该多个标的主要是以影像或视频中的物件为例。然而，于其他实施例中，本发明的该方法亦可用于辨识影像或视频中的场景，不加以限定。

参阅图6A，为物件辨识结果混淆的第一示范例。由于手机、平板电脑、电视、笔记型电脑及屏幕等母类别都具有共有的屏幕特征，因而会造成辨识结果的混淆。因此，若用户输入的多个标的中同时包含上述母类别，则该辨识平台将会以手机屏幕、平板屏幕、电视屏幕、笔电屏幕等子类别对应的子类器分类器对视频进行分析，以避免因为辨识混淆而误将手机、平板电脑、电视、笔记型电脑等物件辨识为屏幕。

续请参阅图6B，为物件辨识结果混淆的第二示范例。由于笔记型电脑、桌上型电脑及键盘等母类别都具有共有的键盘特征，因而会造成辨识结果的混淆。因此，若用户输入的多个标的中同时包含上述母类别，则该辨识平台将会以笔电键盘、桌机键盘等子类别对应的子类别分类器对视频进行分析，以避免因为辨识混淆而误将笔记型电脑、桌上型电脑等物件辨识为键盘。

续请参阅图6C，为物件辨识结果混淆的第三示范例。由于汽车、单车及轮胎等母类别都具有共有的轮胎特征，因而会造成辨识结果的混淆。因此，若用户输入的多个标的中同时包含上述母类别，则该辨识平台将会以汽车轮胎、单车轮胎等子类别对应的子类别分类器对视频进行分析，以避免因为辨识混淆而误将汽车、单车等物件辨识为轮胎。

续请参阅图6D，为场景辨识结果混淆的第一示范例。由于餐厅、酒吧及桌椅等母类别都具有共有的桌椅特征，因而会造成辨识结果的混淆。因此，若用户输入的多个标的中同时包含上述母类别，则该辨识平台将会以餐厅桌椅配置、酒吧桌椅配置等子类别对应的子类别分类器对视频进行分析，以避免因为辨识混淆而误将餐厅、酒吧等场景辨识为桌椅。

综上所述，通过本发明的该方法，可以有效提高影像与视频的辨识率，避免辨识结果的混淆，同时符合用户所需的辨识要求。

以上所述仅为本发明的较佳具体实例，非因此即局限本发明的专利范围，故举凡运用本发明内容所为的等效变化，均同理皆包含于本发明的权利要求保护范围内。

Claims

1.一种避免辨识结果混淆的影像辨识方法，运用于一辨识平台，其特征在于，包括：

a)于该辨识平台接收欲辨识的多个标的；

c1)步骤c后，使用该些母类别分类器对一目标视频进行辨识；

2.根据权利要求1所述的避免辨识结果混淆的影像辨识方法，其特征在于，该步骤b是于任一该标的底层的任一子类别与另一该标的底层的任一子类别重叠时，判断该二标的可能产生辨识结果的混淆。

3.根据权利要求2所述的避免辨识结果混淆的影像辨识方法，其特征在于，还包括：步骤d0)于该多个标的可能产生辨识结果的混淆时，取得该多个标的中不会产生混淆的一个该标的所属的母类别对应的母类别分类器；并且该步骤d1中，同时使用该母类别分类器及该多个子类别分类器对该目标视频进行辨识。

4.根据权利要求2所述的避免辨识结果混淆的影像辨识方法，其特征在于，还包括下列步骤：

5.根据权利要求3所述的避免辨识结果混淆的影像辨识方法，其特征在于，还包括下列步骤：

f2)同时输出该多个母类别的名称作为辨识结果。

6.根据权利要求1-5中任一项所述的避免辨识结果混淆的影像辨识方法，其特征在于，该多个标的为物件或场景。

7.根据权利要求6所述的避免辨识结果混淆的影像辨识方法，其特征在于，该些母类别为手机、平板电脑、电视、笔记型电脑与屏幕，该些子类别为手机屏幕、平板屏幕、电视屏幕与笔电屏幕。

8.根据权利要求6所述的避免辨识结果混淆的影像辨识方法，其特征在于，该些母类别为笔记型电脑、桌上型电脑与键盘，该些子类别为笔电键盘与桌机键盘。

9.根据权利要求6所述的避免辨识结果混淆的影像辨识方法，其特征在于，该些母类别为汽车、单车与轮胎，该些子类别为汽车轮胎与单车轮胎。

10.根据权利要求6所述的避免辨识结果混淆的影像辨识方法，其特征在于，该些母类别为餐厅、酒吧与桌椅，该些子类别为餐厅桌椅配置与酒吧桌椅配置。