CN107766869A - 对象分类方法和对象分类设备 - Google Patents
对象分类方法和对象分类设备 Download PDFInfo
- Publication number
- CN107766869A CN107766869A CN201610703646.5A CN201610703646A CN107766869A CN 107766869 A CN107766869 A CN 107766869A CN 201610703646 A CN201610703646 A CN 201610703646A CN 107766869 A CN107766869 A CN 107766869A
- Authority
- CN
- China
- Prior art keywords
- hierarchical structure
- node
- similarity
- extensive
- known type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
- G06Q30/0255—Targeted advertisements based on user history
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0251—Targeted advertisements
- G06Q30/0269—Targeted advertisements based on user profile or attribute
- G06Q30/0271—Personalized advertisement
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种对象分类方法和对象分类设备。该对象分类方法包括:将表征对象的项目序列转换为对象对应的层次结构;比较对象对应的层次结构与已知类型的层次结构的相似度;以及将相似度最大的层次结构的已知类型确定为对象的类型;其中,所述已知类型的层次结构和/或所述对象对应的层次结构中的节点被泛化,并且层次结构中越深层次中的节点被泛化的数量越多。
Description
技术领域
本发明一般地涉及信息处理领域。具体而言,本发明涉及一种能够将对象准确分类的方法和设备。
背景技术
随着信息技术的发展,人们生活的方方面面都离不开基于信息技术的产品和服务。为了提高产品和服务的用户的满意度、友好性、便利性,可以对用户进行分类,以提供相应的产品和服务。例如,将用户分类为男性和女性,或将用户分类为体育爱好者、游戏及周边爱好者等。
以某购物网站的用户为例,用户在进行浏览时的点击序列就可以反映出用户的喜好、关注点、乃至性别等特性。
传统的方法针对序列型数据采用人工定义特征并抽取特征的方式。然而,人工定义的特征的类型有限、费时费力、特征维度较低不能有效表征序列型数据的结构信息从而降低比较的准确性。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
本发明的目的是提出一种将对象分类的方法和设备。根据本发明的方法和设备,能够实现自动定义和抽取高维度特征以高维度特征描述表征对象的序列型数据的结构信息从而提高比较的准确性并且能解决高维度特征比对时的特征稀疏问题。
为了实现上述目的,根据本发明的一个方面,提供了一种对象分类方法,该对象分类方法包括:将表征对象的项目序列转换为对象对应的层次结构;比较对象对应的层次结构与已知类型的层次结构的相似度;以及将相似度最大的层次结构的已知类型确定为对象的类型;其中,所述已知类型的层次结构和/或所述对象对应的层次结构中的节点被泛化,并且层次结构中越深层次中的节点被泛化的数量越多。
根据本发明的另一个方面,提供了一种对象分类设备,该对象分类设备包括:转换装置,被配置为:将表征对象的项目序列转换为对象对应的层次结构;相似度比较装置,被配置为:比较对象对应的层次结构与已知类型的层次结构的相似度;以及类型确定装置,被配置为:将相似度最大的层次结构的已知类型确定为对象的类型;其中,所述已知类型的层次结构和/或所述对象对应的层次结构中的节点被泛化,并且层次结构中越深层次中的节点被泛化的数量越多。
根据本发明的又一方面,提供了一种信息处理设备。所述信息处理设备包括:控制器,被配置为:将表征对象的项目序列转换为对象对应的层次结构;比较对象对应的层次结构与已知类型的层次结构的相似度;以及将相似度最大的层次结构的已知类型确定为对象的类型;其中,所述已知类型的层次结构和/或所述对象对应的层次结构中的节点被泛化,并且层次结构中越深层次中的节点被泛化的数量越多。
另外,根据本发明的另一方面,还提供了一种存储介质。所述存储介质包括机器可读的程序代码,当在信息处理设备上执行所述程序代码时,所述程序代码使得所述信息处理设备执行根据本发明的上述方法。
此外,根据本发明的再一方面,还提供了一种程序产品。所述程序产品包括机器可执行的指令,当在信息处理设备上执行所述指令时,所述指令使得所述信息处理设备执行根据本发明的上述方法。
附图说明
参照下面结合附图对本发明的实施例的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。附图中:
图1示出了根据本发明的实施例的对象分类方法的流程图。
图2示出了一种层次结构。
图3示出了所构建出的层次结构。
图4示出了基于句法分析得到的结果所产生的子树空间。
图5示出了句法分析树所产生的特征向量的示例。
图6示出了节点被泛化的子树空间的示例。
图7示出了根据本发明的实施例的对象分类设备的结构方框图。
图8示出了一种信息处理设备。
图9示出了可用于实施根据本发明的实施例的方法和设备的计算机的示意性框图。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行详细描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施方式的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其他细节。另外,还需要指出的是,在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。
本发明的基本思想包括采用层次结构来描述序列型数据,并通过泛化解决层次结构比对时的特征稀疏问题。
下面将参照图1描述根据本发明的实施例的对象分类方法的流程。
图1示出了根据本发明的实施例的对象分类方法的流程图。如图1所示,根据本发明的实施例的对象分类方法包括如下步骤:将表征对象的项目序列转换为对象对应的层次结构(步骤S1);比较对象对应的层次结构与已知类型的层次结构的相似度(步骤S2);将相似度最大的层次结构的已知类型确定为对象的类型(步骤S3);其中,所述已知类型的层次结构和/或所述对象对应的层次结构中的节点被泛化,并且层次结构中越深层次中的节点被泛化的数量越多。
在步骤S1中,将表征对象的项目序列转换为对象对应的层次结构。
为便于理解,仍以用户在购物网站点击浏览为例进行说明。本领域技术人员应理解,本发明不限于此示例。例如,用户在门户网站进行浏览、用户在百科网站进行浏览、用户在门类网站进行浏览等。
用户是本发明研究的对象,用户点击的序列是项目序列,项目序列中的项目是用户依次点击的产品/服务类别,如电子产品、手机、苹果手机、IPHONE6S等。由于用户是以一定的顺序进行点击的,所以项目序列本身存在顺序信息。
可以以层次结构来描述对象的项目序列,进而体现对象的特征。层次结构包括树结构、单向图结构等。层次结构包括项目序列中的项目的类别,子节点表明父节点所代表的类别的子类别。例如,父节点是手机,子节点是小米手机、华为手机、苹果手机等等。每个子节点可以认为是父节点的一个具体枚举的示例,然后对于它自己的子节点又是个类别。例如,子节点苹果手机的子节点是IPHONE6、IPHONE6S、IPHONE6S+。
本发明假设用户点击的网站页面具有层次性。一般的门类网站会对其每个页面都进行良好的、具有层次结构的归类。因而,当用户以一定顺序进行点击时,点击产生的项目序列中的每个项目都能找到其在层次结构中的位置。例如,图2示出了一种层次结构,其中,电子产品的下一层次包括电脑、手机、游戏机,手机的下一层次包括小米手机、华为手机、苹果手机,苹果手机的下一层次包括IPHONE6、IPHONE6S、IPHONE6S+。
在一种可能的情形中,用户不进行同一层次中的项目之间的连击。例如,用户不会在点击华为手机后直接点击小米手机,而是回退到父节点手机,再点击小米手机。这样,可以按照项目序列中项目的顺序,将项目序列中的项目构建成对应的层次结构。
在另一种可能的情形中,用户任意进行项目的点击,例如,用户点击华为手机后直接点击小米手机。此时,可以借助于已有的分类体系,补充层次信息,帮助构建对应的层次结构。即参照已有的项目相关的分类体系,按照项目序列中项目的顺序,将项目序列中的项目构建成对应的层次结构。
在图2所示的层次结构下,针对上述两种用户点击方式,以相应的层次结构构建方法,构建出的层次结构如图3所示。
另外,应注意,图3的层次结构存储有顺序信息。如图2所示,在分类体系中,小米手机在左,华为手机在右,两者的左右关系仅代表同级。而在层次结构中,如图3所示,先点击华为手机,所以华为手机在左,之后点击小米手机,所以小米手机在右,这与图2中不同。在层次结构中,从左到右生成层次结构,因而,在左侧的节点是先访问的节点,在右侧的节点是后访问的节点。也就是说,层级结构中存储有节点的点击次序的信息。在某些情境下,点击次序是重要特征。
传统的方法直接从序列型数据中提取特征,通过比较特征来比较序列型数据代表的对象。许多常见的机器学习算法,如感知机、SVM、SVD等的训练和预测算法,只计算一对实例的点积来比较相似度。具体地,传统的特征工程方法利用特征提取函数把实例映射到低维度的向量,并通过计算向量间的内积来计算实例的相似度。本发明将序列型数据转换为层次结构,通过比较层次结构来比较序列型数据代表的对象,利用了层次结构中更丰富的结构信息,比较结果更准确。
在步骤S2中,比较对象对应的层次结构与已知类型的层次结构的相似度。
已知类型的层次结构例如通过训练获得。比如,某种层次结构对应于男性,另一种层次结构对应于女性;某种层次结构对应于体育爱好者,另一种层次结构对应于戏曲爱好者。
两个层次结构的比较,例如两个树结构的比较是本领域技术人员熟知的。树核函数可以把树(实例)映射到高维度的特征向量,并且计算高维度特征向量的相似度。
传统的树核函数可以按照其特征空间(树核函数所产生的子树片段空间)分成几类情况:基于子树空间(Sub-Tree Space)、子树集合空间(SubSet Tree Space)和局部树空间(Part ial Tree Space)。但上述树核函数更多的使用于句法、依存分析任务,不能较好的适用于本发明所涉及的对象分类,如性别预测。其原因在于:传统的句法、依存分析树的节点类别不多,树核函数可以应对。但是,一般情况下,产品和服务的类别的数目远远大于分析树的节点的类别的数目。这会导致所生成的点击树结构的深度越深,传统树核函数提取出的特征片段越稀疏。
例如,传统的局部树空间基于对句子“gives a talk”进行句法分析得到的结果所产生的子树空间如图4所示。其中,VP表示动词块,V表示动词,NP表示名词块,N表示名词,D表示修饰词。可见,传统的局部树空间简单枚举出树的所有子结构,从而生成特征向量。如上所述,在产品和服务的类别的数目很多的时候,特征过于稀疏。
图5示出了句法分析树所产生的特征向量的示例。
为了解决特征稀疏的问题,本发明采用局部树空间的子树片段中的节点泛化的方法。
在比较对象对应的层次结构与已知类型的层次结构的相似度的过程中,所述已知类型的层次结构和/或所述对象对应的层次结构中的节点被泛化,并且层次结构中越深层次中的节点被泛化的数量越多。
在一个实施例中,被泛化的节点是被随机选择的。
应注意,层次中的被泛化的节点的数目少于该层次中的节点总数。
图6示出了节点被泛化的子树空间的示例,其中,泛化节点用chi ld()表示。被泛化的节点变为通配符,可以匹配对应位置的任意节点。泛化可有效避免特征稀疏,便于进行层次结构的比较。
在一个实施例中,被泛化的节点在比较步骤S2之前被泛化。即,先泛化,再比较。
在另一个实施例中,在根据两个根节点的子节点的相似度计算所述两个根节点的相似度时(即在进行步骤S2时),对已知类型的层次结构和/或所述对象对应的层次结构中的所述子节点中的部分子节点进行泛化。即,边泛化,边比较。
为了提高层次结构之间比较的速度,根据本发明的优选实施例,采用递归的方式。递归的方式可以将树结构比较的指数级计算量降低到多项式级计算量。具体地,计算对象对应的层次结构和已知类型的层次结构的所有子结构的相似程度,所有对应层次子结构的相似程度的累加值作为层次结构之间的相似度;其中,对于两个层次子结构,如果待比较的两个层次子结构的根节点不同,则所述两个层次子结构的相似度为零,如果所述两个根节点相同,则根据两个根节点的子节点的相似度计算所述两个根节点的相似度。
也就是说,计算对象对应的层次结构的根节点与已知类型的层次结构的根节点之间的相似度,作为对象对应的层次结构与已知类型的层次结构的相似度。如果两个根节点不同,则两个层次结构的相似度为零;如果两个根节点相同,则根据两个根节点的子节点的相似度计算所述两个根节点的相似度。其中,在根据两个根节点的子节点的相似度计算所述两个根节点的相似度时,两个根节点的相似度例如等于所有子节点子集的相似度之和。子节点子集是穷举所有可能的子节点子集(穷举包括穷举子集中的子节点的个数、穷举子集所包含的具体子节点,应注意子节点是有顺序的)。如果要比对的两个子节点子集中包含的子节点的个数不同,则两个子节点子集的相似度为零。在具体比对两个子节点子集的相似度时,将每对要比对的对应子节点视作根节点,如果两个子节点(视作根节点)不同,则两个子节点(视作根节点)的相似度为零;如果两个子节点(视作根节点)相同,则根据两个子节点(视作根节点)的子节点的相似度计算所述两个子节点(视作根节点)的相似度。依次类推,一直递归下去,直至叶子节点,然后从下至上算出具体数值。
在步骤S3中,将相似度最大的层次结构的已知类型确定为对象的类型。
下面,将参照图7描述根据本发明的实施例的对象分类设备。
图7示出了根据本发明的实施例的对象分类设备的结构方框图。如图7所示,根据本发明的对象分类设备700包括:转换装置71,被配置为:将表征对象的项目序列转换为对象对应的层次结构;相似度比较装置72,被配置为:比较对象对应的层次结构与已知类型的层次结构的相似度;以及类型确定装置73,被配置为:将相似度最大的层次结构的已知类型确定为对象的类型;其中,所述已知类型的层次结构和/或所述对象对应的层次结构中的节点被泛化,并且层次结构中越深层次中的节点被泛化的数量越多。
在一个实施例中,层次结构包括树结构、单向图结构之一。
在一个实施例中,层次结构包括项目序列中的项目的类别,子节点表明父节点所代表的类别的子类别。
在一个实施例中,所述转换装置71被进一步配置为:按照项目序列中项目的顺序,将项目序列中的项目构建成对应的层次结构。
在一个实施例中,所述转换装置71被进一步配置为:参照已有的项目相关的分类体系,按照项目序列中项目的顺序,将项目序列中的项目构建成对应的层次结构。
在一个实施例中,被泛化的节点是被随机选择的。
在一个实施例中,层次中的被泛化的节点的数目少于该层次中的节点总数。
在一个实施例中,被泛化的节点在比较步骤之前被泛化。
在一个实施例中,所述相似度比较装置72被进一步配置为:计算对象对应的层次结构和已知类型的层次结构的所有子结构的相似程度,所有对应层次子结构的相似程度的累加值作为层次结构之间的相似度;其中,对于两个层次子结构,如果待比较的两个层次子结构的根节点不同,则所述两个层次子结构的相似度为零,如果所述两个根节点相同,则根据两个根节点的子节点的相似度计算所述两个根节点的相似度。
在一个实施例中,在所述相似度比较装置72根据两个根节点的子节点的相似度计算所述两个根节点的相似度时,对已知类型的层次结构和/或所述对象对应的层次结构中的所述子节点中的部分子节点进行泛化。
由于在根据本发明的对象分类设备700中所包括的各个装置和单元中的处理分别与上面描述的对象分类方法中所包括的各个步骤中的处理类似,因此为了简洁起见,在此省略这些装置和单元的详细描述。
另外,根据本发明的再一方面,如图8所示,提供了一种信息处理设备800。该信息处理设备800包括控制器801,被配置为:将表征对象的项目序列转换为对象对应的层次结构;比较对象对应的层次结构与已知类型的层次结构的相似度;以及将相似度最大的层次结构的已知类型确定为对象的类型;其中,所述已知类型的层次结构和/或所述对象对应的层次结构中的节点被泛化,并且层次结构中越深层次中的节点被泛化的数量越多。
此外,这里尚需指出的是,上述设备中各个组成装置、单元可以通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知,在此不再赘述。在通过软件或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机(例如图9所示的通用计算机900)安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等。
图9示出了可用于实施根据本发明的实施例的方法和设备的计算机的示意性框图。
在图9中,中央处理单元(CPU)901根据只读存储器(ROM)902中存储的程序或从存储部分908加载到随机存取存储器(RAM)903的程序执行各种处理。在RAM 903中,还根据需要存储当CPU 901执行各种处理等等时所需的数据。CPU 901、ROM 902和RAM 903经由总线904彼此连接。输入/输出接口905也连接到总线904。
下述部件连接到输入/输出接口905:输入部分906(包括键盘、鼠标等等)、输出部分907(包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分908(包括硬盘等)、通信部分909(包括网络接口卡比如LAN卡、调制解调器等)。通信部分909经由网络比如因特网执行通信处理。根据需要,驱动器910也可连接到输入/输出接口905。可拆卸介质911比如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器910上,使得从中读出的计算机程序根据需要被安装到存储部分908中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质911安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图9所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质911。可拆卸介质911的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 902、存储部分908中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
本发明还提出一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时,可执行上述根据本发明的实施例的方法。
相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。
在上面对本发明具体实施例的描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
此外,本发明的方法不限于按照说明书中描述的时间顺序来执行,也可以按照其他的时间顺序地、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。
尽管上面已经通过对本发明的具体实施例的描述对本发明进行了披露,但是,应该理解,上述的所有实施例和示例均是示例性的,而非限制性的。本领域的技术人员可在所附权利要求的精神和范围内设计对本发明的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本发明的保护范围内。
附记
1.一种对象分类方法,包括:
将表征对象的项目序列转换为对象对应的层次结构;
比较对象对应的层次结构与已知类型的层次结构的相似度;以及
将相似度最大的层次结构的已知类型确定为对象的类型;
其中,所述已知类型的层次结构和/或所述对象对应的层次结构中的节点被泛化,并且层次结构中越深层次中的节点被泛化的数量越多。
2.如附记1所述的方法,其中,层次结构包括树结构、单向图结构之一。
3.如附记1所述的方法,其中,层次结构包括项目序列中的项目的类别,子节点表明父节点所代表的类别的子类别。
4.如附记1所述的方法,其中,将表征对象的项目序列转换为对象对应的层次结构包括:
按照项目序列中项目的顺序,将项目序列中的项目构建成对应的层次结构。
5.如附记1所述的方法,其中,将表征对象的项目序列转换为对象对应的层次结构包括:
参照已有的项目相关的分类体系,按照项目序列中项目的顺序,将项目序列中的项目构建成对应的层次结构。
6.如附记1所述的方法,其中,被泛化的节点是被随机选择的。
7.如附记1所述的方法,其中,层次中的被泛化的节点的数目少于该层次中的节点总数。
8.如附记1所述的方法,其中,被泛化的节点在比较步骤之前被泛化。
9.如附记1所述的方法,其中,比较对象对应的层次结构与已知类型的层次结构的相似度包括:计算对象对应的层次结构和已知类型的层次结构的所有子结构的相似程度,所有对应层次子结构的相似程度的累加值作为层次结构之间的相似度;
其中,对于两个层次子结构,如果待比较的两个层次子结构的根节点不同,则所述两个层次子结构的相似度为零,如果所述两个根节点相同,则根据两个根节点的子节点的相似度计算所述两个根节点的相似度。
10.如附记9所述的方法,其中,在根据两个根节点的子节点的相似度计算所述两个根节点的相似度时,对已知类型的层次结构和/或所述对象对应的层次结构中的所述子节点中的部分子节点进行泛化。
11.一种对象分类设备,包括:
转换装置,被配置为:将表征对象的项目序列转换为对象对应的层次结构;
相似度比较装置,被配置为:比较对象对应的层次结构与已知类型的层次结构的相似度;以及
类型确定装置,被配置为:将相似度最大的层次结构的已知类型确定为对象的类型;
其中,所述已知类型的层次结构和/或所述对象对应的层次结构中的节点被泛化,并且层次结构中越深层次中的节点被泛化的数量越多。
12.如附记11所述的设备,其中,层次结构包括树结构、单向图结构之一。
13.如附记11所述的设备,其中,层次结构包括项目序列中的项目的类别,子节点表明父节点所代表的类别的子类别。
14.如附记11所述的设备,其中,所述转换装置被进一步配置为:
按照项目序列中项目的顺序,将项目序列中的项目构建成对应的层次结构。
15.如附记11所述的设备,其中,所述转换装置被进一步配置为:
参照已有的项目相关的分类体系,按照项目序列中项目的顺序,将项目序列中的项目构建成对应的层次结构。
16.如附记11所述的设备,其中,被泛化的节点是被随机选择的。
17.如附记11所述的设备,其中,层次中的被泛化的节点的数目少于该层次中的节点总数。
18.如附记11所述的设备,其中,被泛化的节点在比较步骤之前被泛化。
19.如附记11所述的设备,其中,所述相似度比较装置被进一步配置为:计算对象对应的层次结构和已知类型的层次结构的所有子结构的相似程度,所有对应层次子结构的相似程度的累加值作为层次结构之间的相似度;
其中,对于两个层次子结构,如果待比较的两个层次子结构的根节点不同,则所述两个层次子结构的相似度为零,如果所述两个根节点相同,则根据两个根节点的子节点的相似度计算所述两个根节点的相似度。
20.一种信息处理设备,包括:
控制器,被配置为:
将表征对象的项目序列转换为对象对应的层次结构;
比较对象对应的层次结构与已知类型的层次结构的相似度;以及
将相似度最大的层次结构的已知类型确定为对象的类型;
其中,所述已知类型的层次结构和/或所述对象对应的层次结构中的节点被泛化,并且层次结构中越深层次中的节点被泛化的数量越多。
Claims (10)
1.一种对象分类方法,包括:
将表征对象的项目序列转换为对象对应的层次结构;
比较对象对应的层次结构与已知类型的层次结构的相似度;以及
将相似度最大的层次结构的已知类型确定为对象的类型;
其中,所述已知类型的层次结构和/或所述对象对应的层次结构中的节点被泛化,并且层次结构中越深层次中的节点被泛化的数量越多。
2.如权利要求1所述的方法,其中,将表征对象的项目序列转换为对象对应的层次结构包括:
按照项目序列中项目的顺序,将项目序列中的项目构建成对应的层次结构。
3.如权利要求1所述的方法,其中,将表征对象的项目序列转换为对象对应的层次结构包括:
参照已有的项目相关的分类体系,按照项目序列中项目的顺序,将项目序列中的项目构建成对应的层次结构。
4.如权利要求1所述的方法,其中,被泛化的节点是被随机选择的。
5.如权利要求1所述的方法,其中,层次中的被泛化的节点的数目少于该层次中的节点总数。
6.如权利要求1所述的方法,其中,被泛化的节点在比较步骤之前被泛化。
7.如权利要求1所述的方法,其中,比较对象对应的层次结构与已知类型的层次结构的相似度包括:计算对象对应的层次结构和已知类型的层次结构的所有子结构的相似程度,所有对应层次子结构的相似程度的累加值作为层次结构之间的相似度;
其中,对于两个层次子结构,如果待比较的两个层次子结构的根节点不同,则所述两个层次子结构的相似度为零,如果所述两个根节点相同,则根据两个根节点的子节点的相似度计算所述两个根节点的相似度。
8.如权利要求7所述的方法,其中,在根据两个根节点的子节点的相似度计算所述两个根节点的相似度时,对已知类型的层次结构和/或所述对象对应的层次结构中的所述子节点中的部分子节点进行泛化。
9.一种对象分类设备,包括:
转换装置,被配置为:将表征对象的项目序列转换为对象对应的层次结构;
相似度比较装置,被配置为:比较对象对应的层次结构与已知类型的层次结构的相似度;以及
类型确定装置,被配置为:将相似度最大的层次结构的已知类型确定为对象的类型;
其中,所述已知类型的层次结构和/或所述对象对应的层次结构中的节点被泛化,并且层次结构中越深层次中的节点被泛化的数量越多。
10.一种信息处理设备,包括:
控制器,被配置为:
将表征对象的项目序列转换为对象对应的层次结构;
比较对象对应的层次结构与已知类型的层次结构的相似度;以及
将相似度最大的层次结构的已知类型确定为对象的类型;
其中,所述已知类型的层次结构和/或所述对象对应的层次结构中的节点被泛化,并且层次结构中越深层次中的节点被泛化的数量越多。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610703646.5A CN107766869A (zh) | 2016-08-22 | 2016-08-22 | 对象分类方法和对象分类设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610703646.5A CN107766869A (zh) | 2016-08-22 | 2016-08-22 | 对象分类方法和对象分类设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107766869A true CN107766869A (zh) | 2018-03-06 |
Family
ID=61263966
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610703646.5A Pending CN107766869A (zh) | 2016-08-22 | 2016-08-22 | 对象分类方法和对象分类设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107766869A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113806371A (zh) * | 2021-09-27 | 2021-12-17 | 重庆紫光华山智安科技有限公司 | 数据类型确定方法、装置、计算机设备及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101639831A (zh) * | 2008-07-29 | 2010-02-03 | 华为技术有限公司 | 一种搜索方法、装置及系统 |
CN102419778A (zh) * | 2012-01-09 | 2012-04-18 | 中国科学院软件研究所 | 一种挖掘查询语句子话题并聚类的信息搜索方法 |
CN103823883A (zh) * | 2014-03-06 | 2014-05-28 | 焦点科技股份有限公司 | 一种网站用户访问路径的分析方法及系统 |
CN103902538A (zh) * | 2012-12-25 | 2014-07-02 | 中国银联股份有限公司 | 基于决策树的信息推荐装置及方法 |
CN104750775A (zh) * | 2013-12-24 | 2015-07-01 | Tcl集团股份有限公司 | 内容比对方法及系统 |
WO2016034203A1 (de) * | 2014-09-01 | 2016-03-10 | Schiller Ag | Verfahren und vorrichtung zur automatischen klassifikation von herzschlägen, computerprogrammprodukt und ekg-gerät zur durchführung des verfahrens |
CN105630931A (zh) * | 2015-12-22 | 2016-06-01 | 浪潮软件集团有限公司 | 一种文档分类的方法及装置 |
CN105791242A (zh) * | 2014-12-24 | 2016-07-20 | 阿里巴巴集团控股有限公司 | 对象类型的识别方法、服务器、客户端和系统 |
-
2016
- 2016-08-22 CN CN201610703646.5A patent/CN107766869A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101639831A (zh) * | 2008-07-29 | 2010-02-03 | 华为技术有限公司 | 一种搜索方法、装置及系统 |
CN102419778A (zh) * | 2012-01-09 | 2012-04-18 | 中国科学院软件研究所 | 一种挖掘查询语句子话题并聚类的信息搜索方法 |
CN103902538A (zh) * | 2012-12-25 | 2014-07-02 | 中国银联股份有限公司 | 基于决策树的信息推荐装置及方法 |
CN104750775A (zh) * | 2013-12-24 | 2015-07-01 | Tcl集团股份有限公司 | 内容比对方法及系统 |
CN103823883A (zh) * | 2014-03-06 | 2014-05-28 | 焦点科技股份有限公司 | 一种网站用户访问路径的分析方法及系统 |
WO2016034203A1 (de) * | 2014-09-01 | 2016-03-10 | Schiller Ag | Verfahren und vorrichtung zur automatischen klassifikation von herzschlägen, computerprogrammprodukt und ekg-gerät zur durchführung des verfahrens |
CN105791242A (zh) * | 2014-12-24 | 2016-07-20 | 阿里巴巴集团控股有限公司 | 对象类型的识别方法、服务器、客户端和系统 |
CN105630931A (zh) * | 2015-12-22 | 2016-06-01 | 浪潮软件集团有限公司 | 一种文档分类的方法及装置 |
Non-Patent Citations (3)
Title |
---|
IWAMOTO K 等: "Malware classification based on extracted API sequences using static analysis", 《ASIAN INTERNET ENGINEEERING CONFERENCE》 * |
宫学庆: "基于Bloom Filter的路径表达式查询处理", 《中国博士学位论文全文数据库信息科技辑》 * |
陈劲: "面向中文网页的信息抽取关键技术研究与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113806371A (zh) * | 2021-09-27 | 2021-12-17 | 重庆紫光华山智安科技有限公司 | 数据类型确定方法、装置、计算机设备及存储介质 |
CN113806371B (zh) * | 2021-09-27 | 2024-01-19 | 重庆紫光华山智安科技有限公司 | 数据类型确定方法、装置、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107436875B (zh) | 文本分类方法及装置 | |
US8635197B2 (en) | Systems and methods for efficient development of a rule-based system using crowd-sourcing | |
CN109255072B (zh) | 信息召回方法及装置、计算机存储介质、电子设备 | |
US20130031126A1 (en) | Weighting metric for visual search of entity-relationship databases | |
US20230214679A1 (en) | Extracting and classifying entities from digital content items | |
WO2020003109A1 (en) | Facet-based query refinement based on multiple query interpretations | |
EP2535856A1 (en) | Cased-based retrieval of integration cases using similarity measures based on a business domain ontology | |
CN109829073B (zh) | 一种图像搜索的方法及装置 | |
CN110135769B (zh) | 货品属性填充方法及装置、存储介质及电子终端 | |
CN103164428A (zh) | 确定微博与给定实体的相关性的方法和装置 | |
KR20230115964A (ko) | 지식 그래프 생성 방법 및 장치 | |
CN112347147A (zh) | 基于用户关联关系的信息推送方法、装置及电子设备 | |
CN107765883A (zh) | 输入法的候选词语的排序方法和排序设备 | |
CN110968802B (zh) | 一种用户特征的分析方法、分析装置及可读存储介质 | |
CN107111607A (zh) | 用于语言检测的系统和方法 | |
JP7275591B2 (ja) | 評価支援プログラム、評価支援方法および情報処理装置 | |
WO2022227171A1 (zh) | 关键信息提取方法、装置、电子设备及介质 | |
CN112182144B (zh) | 搜索词标准化方法、计算设备和计算机可读存储介质 | |
CN114065063A (zh) | 信息处理方法、信息处理装置、存储介质与电子设备 | |
WO2018054352A1 (zh) | 项集确定方法、装置、处理设备及存储介质 | |
CN117252665A (zh) | 业务推荐方法、装置、电子设备及存储介质 | |
CN107766869A (zh) | 对象分类方法和对象分类设备 | |
CN115146741B (zh) | 一种操作系统层级的特征确定方法、计算设备及存储介质 | |
CN115167913B (zh) | 一种操作系统的分层方法、计算设备及存储介质 | |
CN110807646A (zh) | 数据分析方法、装置和计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20180306 |