CN105446705A - 用于确定配置文件的特性的方法和装置 - Google Patents

用于确定配置文件的特性的方法和装置 Download PDF

Info

Publication number
CN105446705A
CN105446705A CN201410305722.8A CN201410305722A CN105446705A CN 105446705 A CN105446705 A CN 105446705A CN 201410305722 A CN201410305722 A CN 201410305722A CN 105446705 A CN105446705 A CN 105446705A
Authority
CN
China
Prior art keywords
configuration
configuration file
file
candidate
configuration item
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410305722.8A
Other languages
English (en)
Other versions
CN105446705B (zh
Inventor
卓雪君
孟凡晶
李长升
徐景民
杨博
A·A·阿普特
J·P·威格尔斯沃思
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to CN201410305722.8A priority Critical patent/CN105446705B/zh
Priority to US14/735,478 priority patent/US10048971B2/en
Publication of CN105446705A publication Critical patent/CN105446705A/zh
Priority to US16/030,949 priority patent/US11029969B2/en
Application granted granted Critical
Publication of CN105446705B publication Critical patent/CN105446705B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • G06F9/44505Configuring for program initiating, e.g. using registry, configuration files

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开内容涉及用于确定配置文件的特性的方法和装置。本发明的一个实施例提供一种用于确定配置文件的特性的方法。所述方法包括:利用与配置项相关联的关键词从来自一个机器的文件中标识与所述配置项有关的候选配置文件;提取所述候选配置文件的特征值;基于所述特征值,对所述候选配置文件与来自至少一个其他机器的、与所述配置项有关的候选配置文件进行聚集,以确定与所述配置项有关的配置文件;以及基于所述聚集,确定与所述配置项有关的所述配置文件的特性,所述特性将被用于在目标机器中发现与所述配置项有关的配置文件。还公开了相应的装置。

Description

用于确定配置文件的特性的方法和装置
技术领域
本发明的实施例总体上涉及计算机领域,更具体地,涉及用于确定配置文件的特性的方法和装置。
背景技术
目前,包括软件系统和硬件系统在内的各类系统通常使用配置文件来记录关于其配置的信息或者参数。以Linux系统为例,当系统被安装在一个机器上之后,需要配置主机名(HostName)。相应地,主机名是Linux系统的一项配置信息,或者称为“配置项”。一般地,配置信息以文件的形式被有形地存储在机器中。配置文件中所记载的参数、设置或者其他任何配置信息可以根据主机机器、使用环境、场景等各种因素而被修改或更新。
配置管理(ConfigurationManagement,CM)是指对配置文件以及其中存储的配置信息的管理。已经开发了专门的CM工具用于管理各种系统的这些配置文件。对于CM工具而言,从机器中存储的大量文件中自动地找到配置文件是一项基本而重要的功能。
目前的CM工具通常依赖于预先定义好的脚本、规则或者来自用户的专家知识来确定机器中存储的哪些文件是配置文件。然而,随着系统的复杂性日益复杂和配置文件的多样性,传统的CM工具通常无法找到机器中的全部配置文件。这可能降低CM管理的准确性。而且,对于没有被自动发现的配置文件,用户往往不得不以人工或者半人工的方式来找到这些配置文件。例如,人类用户需要按照专家规定的规则或者文档在机器中逐个查找无法自动发现的配置文件。该过程可能耗时、低效和不准确的。另外,基于规则或者脚本的配置文件发现通常是特定于系统或应用的。换言之,需要针对不同的系统开发不同的CM管理工具。这降低了CM管理的通用性,并且增加了CM管理工具的开发周期和成本。
为了自动地发现机器中的配置文件,关键问题在于准确地确定配置文件的特性,并且利用适当的方式来表示这种特性。将会理解,配置文件的特性是配置文件自动发现的基础。
发明内容
一般地,本发明的实施例提出用于确定配置文件的特性的技术方案。
在一个方面,本发明的实施例提供一种用于确定配置文件的特性的方法。所述方法包括:利用与配置项相关联的关键词从来自一个机器的文件中标识与所述配置项有关的候选配置文件;提取所述候选配置文件的特征值;基于所述特征值,对所述候选配置文件与来自至少一个其他机器的、与所述配置项有关的候选配置文件进行聚集,以确定与所述配置项有关的配置文件;以及基于所述聚集,确定与所述配置项有关的所述配置文件的特性,所述特性将被用于在目标机器中发现与所述配置项有关的配置文件。
在另一方面,本发明的实施例提供一种用于确定配置文件的特性的装置。所述装置包括:候选标识单元,被配置为利用与配置项相关联的关键词从来自一个机器的文件中标识与所述配置项有关的候选配置文件;特征提取单元,被配置为提取所述候选配置文件的特征值;文件聚集单元,被配置为基于所述特征值,对所述候选配置文件与来自至少一个其他机器的、与所述配置项有关的候选配置文件进行聚集,以确定与所述配置项有关的配置文件;以及特性确定单元,被配置为基于所述聚集,确定与所述配置项有关的所述配置文件的特性,所述特性将被用于在目标机器中发现与所述配置项有关的配置文件。
通过下文描述将会理解,根据本发明的实施例,对于任意给定的配置项,可以在多个机器中标识与之相关的候选配置文件。而后,可以基于这些候选配置文件的一个或多个特征值对候选配置文件聚集,并且通过聚集确定哪些是真正的候选配置文件。基于这种聚集的结果,可以确定或者学习与给定配置项有关的配置文件的共同特性。对于任何给定的目标机器,可以利用这样的特性在该目标机器中准确地识别配置文件,以实现配置文件的自动发现。本发明的其他特征和优点将通过下文描述而变得容易理解。
附图说明
通过结合附图对本发明示例性实施方式进行更详细的描述,本发明的上述以及其它目的、特征和优势将变得更加明显其中:
图1示出了适于用来实现本发明实施例的示例性计算机系统/服务器的示意性框图;
图2示出了根据本发明实施例的用于确定配置文件的特性的系统环境的示意性框图;
图3示出了根据本发明实施例的用于确定配置文件的特性的方法的示意性流程图;
图4示出了根据本发明实施例的用于确定配置文件的特性的方法的示意性流程图;以及
图5示出了根据本发明实施例的用于确定配置文件的特性的装置的示意性框图。
在附图中,相同或相似的标号被用来表示相同或相似的元素。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
图1示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的方框图。图1显示的计算机系统/服务器12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图1所示,计算机系统/服务器12以通用计算设备的形式表现。计算机系统/服务器12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机系统/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图1未显示,通常称为“硬盘驱动器”)。尽管图1中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机系统/服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信,和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机系统/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机系统/服务器12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机系统/服务器12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
下面将详细描述本发明实施例的机制和原理。除非特别声明,在下文和权利要求中使用的“第一”、“第二”、“第三”等术语仅仅是为了区别不同的描述对象,而并非有意限制任何时间或者空间上的顺序。此外,术语“基于”表示“至少部分地基于”。术语“使用”是至少部分地使用。术语“包括”是开放性包括,即“包括但不限于”。术语“多个”表示“两个或更多”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”。其他术语的相关定义将在下文描述中给出。
图2示出了本发明的实施例可以实现于其中的系统环境200的示意性框图。在环境200中,存在多个用于提供训练文件的机器210,称为“训练机器”。这些训练机器210中的每一个将其中的文件220提供给服务器230。训练机器210与服务器230可以是任何适当的电子设备,并且可以借助于任何适当的通信手段彼此通信。
在服务器230处,对于任意给定的配置项,可以从来自多个训练机器210的文件220中识别与该配置项相关的候选配置文件。而后,服务器230可以基于这些候选配置文件的一个或多个特征值对候选配置文件聚集。聚集的结果可被用来确定在来自多个机器的这些候选配置文件中,哪些是与配置项相关的真实配置文件。而后,在服务器230处,可以通过学习或训练的过程,从这些真实配置文件中提取共同特性240,记为“CI特性”。在随后的使用中,这些CI特性240可被用于在任何给定的目标机器中自动地发现配置文件。
在本公开内容的上下文中,术语“配置项”(configurationitem,CI)是指需要在把系统安装到一个机器上时需要指明的配置参数或者信息。例如,在将WebSphere应用服务器系统安装到机器时,需要配置“WASCellName”的特定值以指示单元(Cell)的名称。由此,WASCellName是WebSphere应用服务器系统中的一个配置项。
每个配置项具有配置项值。一般地,配置项值可以随不同的主机系统和/或应用场景而改变。例如,假设在将WebSphere应用服务器系统安装到某台特定机器时,WASCellName的值被设置为“vm81Node01Cell”。此时,在这台特定机器上,配置项WASCellName的配置项值是“vm81Node01Cell”。
下面参考图3,详细描述根据本发明实施例的用于确定配置文件的特性的方法。方法300在上文参考图2描述的服务器230处被执行,以用于确定与给定的一个或多个配置项有关的配置文件的CI特性240。特别地,在结合方法300的描述中,将从服务器230如何处理来自一个给定训练机器210的文件220的角度,来阐释本发明实施例的工作原理和机制。
如图所示,方法300开始于步骤S310,在此利用与给定的配置项相关联的关键词,从来自一个给定训练机器210的文件220中标识与该配置项有关的候选配置文件。
在某些实施例中,在步骤S310处,可以从训练机器210中包含的所有文件220中,标识与配置项有关的候选配置文件。以此方式,有利于确保训练的覆盖广度和准确性。
备选地,在某些实施例中,服务器230也可以对训练机器210所提供的文件220进行预先过滤,以便去除掉明显不是配置文件的那些文件。例如,在一个实施例中,可以根据文件的大小、路径、后缀名、创建时间和/或任何其他适当的因素,来标识文件210中明显不属于配置文件的那些文件。例如,在一个实施例中,可以过滤掉所有可执行文件,例如后缀名为“.exe”的文件,因为这样的文件属于配置文件的可能性非常之低。
在步骤S310处,可以选择一个或多个配置项,以便识别与之有关的候选配置文件。在一个实施例中,对于这些配置项中的每一个,可以利用与该配置项相关联的关键词,从机器的文件中标识候选配置文件。
根据本发明的实施例,用于标识候选配置文件的关键词至少可以包括配置项的配置项值。例如,在一个实施例中,可以仅使用配置项值作为搜索关键词。如上所述,配置项值通常是特定于机器的。因此,以配置项值作为搜索关键词有利于准确地找到候选配置文件。
为此,在一个实施例中,配置项在给定训练机器210中的配置项值可以由用户指定。备选地,在另一实施例中,配置项值也可以被保存在训练机器210中,并且由训练机器210随文件220一起提供给服务器230。
另外,应当理解,搜索关键词的内容并不仅限于配置项值。例如,在一个实施例中,除了配置项值之外,用于搜索候选配置文件的关键词还可以包括配置项本身的描述、时间约束、后缀名约束,或者是任何适当的附加信息。
作为示例,对于上文描述的WebSphere应用服务器系统的配置项WASCellName,可以将其在给定训练机器210中的配置项值作为关键词,以用于标识机器中的候选配置文件。例如,仍然假设WASCellName在训练机器210中的值是“vm81Node01Cell”。此时,在服务器230处,可以从训练机器210所提供的文件220中搜索所有包含字符串“vm81Node01Cell”的文件,作为与的配置项WASCellName有关的候选配置文件。
备选地,在另一实施例中,也可以将指示配置项“WASCellName”本身和配置项值“vm81Node01Cell”二者作为搜索关键词。此时,在步骤S310处,将搜索训练机器210的文件210中所有包含字符串“WASCellName”和“vm81Node01Cell”的文件,以作为与配置项WASCellName有关的候选配置文件。如上所述,其他任何附加的搜索约束同样可以被包括在关键词中,本发明的范围在此方面不受限制。
应当理解,在步骤S310通过关键词搜索而获得的候选配置文件中,可能既包括与配置项有关的真实配置文件(称为“正例”),也包括仅仅那些是包含关键词、但并不是配置文件的无关文件(称为“反例”)。正例和反例可以在后续的处理中被检测和区分,这将在下文详述。
接下来,方法300进行到步骤S320,在此提取候选配置文件的一个或多个特征的特征值。在此使用的术语“特征”是指可以用来表征文件的特性的文件属性。根据本发明的实施例,特征的示例包括但不限于以下一个或多个:文件路径、文件名、文件扩展名、文件大小、访问权限、改变时间、访问时间、修改时间,等等。
根据本发明的实施例,在步骤S320处,可以使用一个或多个特征。对于每个特征,可以确定在步骤S310处标识的候选配置文件的特征值。作为示例,特征“文件路径”的特征值可以是“/opt/IBM/WebSphere/AppServer/profiles/AppSrv01/config/cells/vm81Node01Cell/”,特征“文件扩展名”的特征值可以是“.xml”,特征“文件大小”的特征值可以是“20k”,等等。
根据本发明的实施例,可以直接使用特征值的原始值(rawvalue)进行后续处理。备选地,也可以对特征值进行处理,即归一化,以便消除特征值中的差异性,从而提高后续聚集和学习训练过程的准确性。
作为示例,根据本发明的实施例,文件路径是一个通常需要被使用的特征。该特征的特征值(即,指示候选配置文件在给定训练机器210中的文件路径的字符串)中往往包含特定于训练机器210的部分。这样的部分称为“可变部分”。考虑一个具体示例,在上文描述的示例中,文件路径的值是“/opt/IBM/WebSphere/AppServer/profiles/AppSrv01/config/cells/vm81Node01Cell/”,其中的字符串“/opt/IBM/WebSphere/AppServer/profiless/AppSrv01/”指示该候选配置文件在训练机器210中的安装目录,它随训练机器210而改变,因此是特征值中的可变部分。
这种可变部分的存在使得文件路径这一特征值存在潜在的差异性。也即,不同训练机器210中与同一配置项有关的配置文件的文件路径可能彼此不同。这种差异性不利于后续的聚集和训练。具体而言,在基于特征值的后续聚集过程中,原本应当被聚集在一起的候选配置文件可能由于这种可变部分的差异而无法被正确地聚集。
为此,在一个实施例中,可以标识特征值中的可变部分,并且将其替换为一致的预定标识符。这样的标识符可以是任意的,只要在各个机器之间统一即可。
特别地,在某些实施例中,特征值中的可变部分可以是事先预定义的。例如,对于文件路径而言,用户可以根据经验或者实验,预先指明文件路径中的那些部分是特定于机器而变化的。相应地,可以在每个候选配置文件的文件路径中搜索这种预定义的可变部分,并且将替换为预定标识符。
备选地,在另一些实施例中,可以在特征值中搜索一个或者多个配置项的配置项值,并且将与配置项值对应的部分识别为可变部分。这样做将是有益的,因为配置项在特定机器中的配置项值本身是可变的。因此,特征值中包含配置项的内容可以自然地被确定为可变部分。
仅出于讨论目的,仍然考虑上文讨论的示例,即,与配置项“WASCellName”有关的一个候选配置文件的路径为“/opt/IBM/WebSphere/AppServer/profiles/AppSrv01/config/cells/vm81Node01Cell/”。另外,假设存在表示安装根目录的配置项“WASProfileHome”,其在训练机器210中的配置项值是“/opt/IBM/WebSphere/AppServer/profiles/AppSrv01”。
此时,文件路径中存在配置项“WASProfileHome”的配置项值,即,“/opt/IBM/WebSphere/AppServer/profiles/AppSrv01”。由此,该字符串被标识为文件路径这一特征值中的可变部分。特别地,在一个实施例中,还可以利用配置项“WASCellName”本身在训练机器210中的配置项值来搜索文件路径。由此,可以确定在文件路径中的字符串“vm81Node01Cell”也是可变部分。相应地,这两个可变部分可以分别被统一的标识符替换。
特别地,在本发明的一个实施例中,可以用配置项本身的描述来替换配置项值。例如,在上文示例中,文件路径的原始特征值“/opt/IBM/WebSphere/AppServer/profiles/AppSrv01/config/cells/vm81Node01Cell/”可以被修改为“[WASProfileHome]/config/cells/[WASCellName]”。可变部分被替换之后的特征值将在后续处理中被使用。通过替换特征值中的可变部分,能够有效地消除候选配置文件的特征值中的差异性。这将有利于后续的聚集和学习操作,从而提高配置文件的发现的准确性。
应当理解,上文参考文件路径这一特征描述的实施例仅仅是示例性的,并非以任何方式限制本发明的范围。例如,根据本发明的实施例,可以对文件创建者、文件摘要等任何其他特征的特征值执行可变部分的识别与替换,从而消除由可变部分导致的差异性。
继续参考图3,方法300进行到步骤S330,在此针对在步骤S310处所考虑的配置项,基于在步骤S320处获得的特征值,对来自训练机器210的候选配置文件与来自其他一个或多个训练机器210的、与该配置项有关的候选配置文件进行聚集。特别地,如果考虑的在步骤S320处考虑的特征不止一个,可以将这些特征值编码在一起,以便作为聚集的基础。
根据本发明的实施例,在步骤S320处的聚集本质上可以理解为对来自不同训练机器210的候选配置文件的聚类(clustering)。为此,可以向来自多个机器的候选配置文件应用任何适当的聚类方法或过程。以此方式,候选配置文件可以被划分到多个文件簇(cluster)中。任何目前已知将来开发的聚类方法均可与本发明的实施例结合使用。聚类方法的示例包括但不限于:K均值方法之类的划分法,DBSCAN算法之类的密度法,STING算法之类的网格法,等等。
通过聚集,可以确定候选配置文件中的哪些文件是与当前所考虑的配置项相关的真实配置文件。例如,在一个实施例中,可以认为包含最多候选配置文件的那个文件簇所包含的文件是真实的配置文件。备选地,某些聚类算法可以给出每个文件簇的置信度,例如以得分(score)的形式。由此,在一个实施例中,可以认为置信度最高的那个文件簇所包含的文件是真正配置文件。文件簇的选择还可以根据任何其他适当的标准来进行,或者可以由用户指定。
由真实配置文件组成的文件簇构成了配置文件的正例。相对地,其他簇中所包含的候选配置文件被用作反例,因为它们并不是真正的配置文件,而仅仅是包含了与配置项相关联的关键词的文件。
在某些实施例中,可以直接对步骤S330处获得的聚集结果执行后续处理。备选地,在一个实施例中,可以将聚集结果显示给用户,以便用户对聚集结果、特别是包含正例的文件簇进行审核。例如,用户可以通过交互的方式将被包含在正例的文件簇中的某些非配置文件移除。备选地或附加地,用户也可以将某些被误认为是反例的配置文件从其他文件簇添加到正例的簇中。又如,用户可以修改配置文件的特征值。利用用户的审核和修改,可以进一步提高配置文件识别的准确率。
接下来,方法300进行到步骤S340,在此基于步骤S330处所获得的聚集结果,通过学习确定与一个或多个配置项相关联的配置文件的特性,即图2中所示的CI特性240。这样的CI特性240随后可以被用于识别任何目标机器中与相应配置项有关的配置文件。
具体而言,在步骤S330处获得的聚集结果可以被用作训练数据,其中包括正例和反例。在一个实施例中,在步骤S340,可以向这样的训练数据应用分类(classification)方法,从而找到正例和反例之间的界限。换言之,在这样的实施例中,在步骤S340处,建立与配置项相关联的分类器。根据本发明的实施例,可以使用任何目前已知或者将来开发的分类算法来建立分类器。学习算法的示例包括但不限于支持向量机(SVM)、决策树、K最近邻居(KNN),等等。
在随后的使用中,将目标文件的有关特征值输入该分类器,分类器的输出将指示该文件是否为与该配置项有关的配置文件。通过针对多个配置项执行方法300,可以获得用于多个配置项的分类器。可以理解,方法300可被认为是一个对配置文件的CI特性进行建模的过程。这种CI特性可以被用于发现任何目标机器中的有关配置文件。具体而言,对于任何配置项的分类器,可以将目标机器中的文件的相关特征值输入该分类器。作为响应,分类器将指示该文件是否是与该配置项有关的配置文件。
应当理解,在步骤S340处建立用于各个配置项的分类器仅仅是示例性的,并非意在限制本发明的范围。例如,在某些备选实施例中,可以保存代表正例的文件簇中的配置文件的特征值。对于目标机器中的给定文件,可以将该文件的特征值与正例的特征值进行匹配,例如数值的匹配和/或字符串的匹配,等等。如果特征值之间的匹配度大于预定阈值,则认为该文件是相应配置项的一个配置文件。其他任何适当的方式也是可行的。
下面参考图4,其示出了根据本发明实施例的一个用于确定配置文件的特性的方法400。可以理解,方法400是上文描述的方法300的一个具体实现。
方法400开始于步骤S405,自此收集来自多个训练机器的文件。继而,方法400进行到步骤S410,在此对于当前训练机器,利用预定义规则过滤该机器中的文件,排除那些明显不是配置文件的文件。以此方式,可以降低随后处理的负担,提高执行效率。
在步骤S415,对于给定的配置项,利用与该配置项有关的关键词来标识候选配置文件。步骤S415对应于方法300中的步骤S310。接下来,在步骤S420,针对一个或多个给定特征,提取每个候选配置文件的特征值。可选地,在随后的步骤S425,识别并且替换一个或多个特征值中的可变部分,从而消除潜在的差异性。步骤S420和S425对应于方法300中的步骤S320。
方法400继续进行到步骤S430,在此确定是否已经处理了所有需要处理的配置项。如果还有更多配置项需要处理(分支“否”),方法400返回步骤S415,针对下一配置项重复执行步骤S415到S430。
反之,如果在步骤S430处确定已经处理了所有需要处理的配置项(分支“是”),方法400进行到步骤S435,在此确定是否已经处理了所有机器中的文件。如果尚有未处理的机器(分支“否”),方法400返回到步骤S410,以便针对下一机器重复上述各个步骤。
反之,如果在步骤S435确定所有机器中的候选配置文件均已经被处理(分支“是”),方法400进行到步骤S440,在此对将要用于聚集的一个或多个特征值进行编码。例如,可以将所有字符串类型的特征值都编码为数值形式,等等。
在步骤S445,针对当前考虑的配置项,基于在步骤S440处编码的一个或多个特征值,对来自多个机器的候选配置文件进行聚集,从而生成多个文件簇。步骤S445对应于方法300中的步骤S330。
在步骤S450,向用户显示这些文件族并且接收用户对其中一个或多个文件簇的修改。例如,在一个实施例中,可以向用户显示通过聚集获得的所有文件簇以供审核和/或修改。备选地,也可以仅向用户显示被认为包含正例(即,真实配置文件的)的文件簇以供审核和/或修改。
方法400继而进行到步骤S455,在此通过应用学习过程生成针对当前配置项的分类器。步骤S455对应于方法300中的步骤S340。接下来,方法在步骤S460处判断是否已经生成了针对所有配置项的分类器。如果尚有未处理的配置项(分支“否”),方法400返回步骤S445,针对下一配置项对相关的候选配置文件进行聚集和学习。
反之,如果在步骤460处确定已经生成了针对所考虑的所有配置项的分类器(分支“是”),方法400进行到步骤S465,在此输出用于一个或多个配置项的分类器。这些分类器可被用来在任何目标机器中自动地、准确地发现配置文件。
特别地,可以理解,在参考图4描述的方法400中,步骤S410到S430是针对一个训练机器而执行的,其中步骤S415到S425是针对每个配置项而执行的。步骤S445到S465是跨多个训练机器提供的文件而执行的。
图5示出了根据本发明实施例的用于确定配置文件的特性的装置500的示意性框图。如图所示,装置500包括:候选标识单元510,被配置为利用与配置项相关联的关键词从来自一个机器的文件中标识与所述配置项有关的候选配置文件;特征提取单元520,被配置为提取所述候选配置文件的特征值;文件聚集单元530,被配置为基于所述特征值,对所述候选配置文件与来自至少一个其他机器的、与所述配置项有关的候选配置文件进行聚集,以确定与所述配置项有关的配置文件;以及特性确定单元550,被配置为基于所述聚集,确定与所述配置项有关的所述配置文件的特性,所述特性将被用于在目标机器中发现与所述配置项有关的配置文件。
在一个实施例中,装置500还可以包括:文件过滤单元,被配置为在所述候选配置文件的所述标识之前,基于预定规则过滤来自所述机器的所述文件。
在一个实施例中,所述候选标识单元510可以包括:关键词搜索单元,被配置为利用所述配置项在所述机器中的值,在来自所述机器的所述文件中搜索所述候选配置文件。
在一个实施例中,所述特征提取单元520可以包括:原始特征提取单元,被配置为提取所述候选配置文件的原始特征值;以及差异消除单元,被配置为消除所述原始特征值中的差异性,以生成所述特征值。
在一个实施例中,所述差异消除单元可以包括:可变部分标识单元,被配置为标识所述原始特征值的可变部分;以及可变部分替换单元,被配置为将所述可变部分替换为预定标识符。
在一个实施例中,所述可变部分标识单元可以包括:基于配置项值的识别单元,被配置为将所述特征值中与一个或多个配置项在所述机器中的值对应的部分标识为所述可变部分。
在一个实施例中,装置500可以还包括:聚集结果显示单元,被配置为在确定与所述配置项有关的所述配置文件的所述特性之前,向用户显示所述聚集的结果;输入接收单元,被配置为接收来自所述用户的输入;以及聚集结果修改单元,被配置为根据所述输入来修改所述聚集的所述结果。
在一个实施例中,所述特性确定单元550可以包括:分类器创建单元,被配置为基于所述聚类的结果,创建用于所述配置项的分类器。
应当注意,为清晰起见,图5中没有示出装置500所包括的可选单元或者子单元。上文所描述的所有特征和操作分别适用于装置500,故在此不再赘述。而且,装置500中的单元或子单元的划分不是限制性的而是示例性的,旨在从逻辑上描述其主要功能或操作。一个单元的功能可以由多个单元来实现;反之,多个单元亦可由一个单元来实现。本发明的范围在此方面不受限制。
而且,装置500所包含的单元可以利用各种方式来实现,包括软件、硬件、固件或其任意组合。例如,在某些实施方式中,装置500可以利用软件和/或固件来实现。备选地或附加地,装置500可以部分地或者完全地基于硬件来实现。例如,装置500中的一个或多个单元可以实现为集成电路(IC)芯片、专用集成电路(ASIC)、片上系统(SOC)、现场可编程门阵列(FPGA),等等。本发明的范围在此方面不受限制。
本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是—但不限于—电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Java、Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
计算机可读程序指令也可加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (16)

1.一种用于确定配置文件的特性的方法,所述方法包括:
利用与配置项相关联的关键词从来自一个机器的文件中标识与所述配置项有关的候选配置文件;
提取所述候选配置文件的特征值;
基于所述特征值,对所述候选配置文件与来自至少一个其他机器的、与所述配置项有关的候选配置文件进行聚集,以确定与所述配置项有关的配置文件;以及
基于所述聚集,确定与所述配置项有关的所述配置文件的特性,所述特性将被用于在目标机器中发现与所述配置项有关的配置文件。
2.根据权利要求1所述的方法,还包括:
在所述候选配置文件的所述标识之前,基于预定规则过滤来自所述机器的所述文件。
3.根据权利要求1所述的方法,其中利用与配置项相关联的关键词从来自一个机器的文件中标识与所述配置项有关的候选配置文件包括:
利用所述配置项在所述机器中的值,在来自所述机器的所述文件中搜索所述候选配置文件。
4.根据权利要求1所述的方法,其中提取所述候选配置文件的特征值包括:
提取所述候选配置文件的原始特征值;以及
消除所述原始特征值中的差异性,以生成所述特征值。
5.根据权利要求4所述的方法,其中消除所述原始特征值中的差异性包括:
标识所述原始特征值的可变部分;以及
将所述可变部分替换为预定标识符。
6.根据权利要求5所述的方法,其中标识所述原始特征值的可变部分包括:
将所述特征值中与一个或多个配置项在所述机器中的值相对应的部分,标识为所述可变部分。
7.根据权利要求1所述的方法,还包括:
在确定与所述配置项有关的所述配置文件的所述特性之前,向用户显示所述聚集的结果;
接收来自所述用户的输入;以及
根据所述输入来修改所述聚集的所述结果。
8.根据权利要求1所述的方法,其中确定与所述配置项有关的所述配置文件的特性包括:
基于所述聚类的结果,创建用于所述配置项的分类器。
9.一种用于确定配置文件的特性的装置,所述装置包括:
候选标识单元,被配置为利用与配置项相关联的关键词从来自一个机器的文件中标识与所述配置项有关的候选配置文件;
特征提取单元,被配置为提取所述候选配置文件的特征值;
文件聚集单元,被配置为基于所述特征值,对所述候选配置文件与来自至少一个其他机器的、与所述配置项有关的候选配置文件进行聚集,以确定与所述配置项有关的配置文件;以及
特性确定单元,被配置为基于所述聚集,确定与所述配置项有关的所述配置文件的特性,所述特性将被用于在目标机器中发现与所述配置项有关的配置文件。
10.根据权利要求9所述的装置,还包括:
文件过滤单元,被配置为在所述候选配置文件的所述标识之前,基于预定规则过滤来自所述机器的所述文件。
11.根据权利要求9所述的装置,其中所述候选标识单元包括:
关键词搜索单元,被配置为利用所述配置项在所述机器中的值,在来自所述机器的所述文件中搜索所述候选配置文件。
12.根据权利要求9所述的装置,其中所述特征提取单元包括:
原始特征提取单元,被配置为提取所述候选配置文件的原始特征值;以及
差异消除单元,被配置为消除所述原始特征值中的差异性,以生成所述特征值。
13.根据权利要求12所述的装置,其中所述差异消除单元包括:
可变部分标识单元,被配置为标识所述原始特征值的可变部分;以及
可变部分替换单元,被配置为将所述可变部分替换为预定标识符。
14.根据权利要求13所述的装置,其中所述可变部分标识单元包括:
基于配置项值的识别单元,被配置为将所述特征值中与一个或多个配置项在所述机器中的值相对应的部分,标识为所述可变部分。
15.根据权利要求9所述的装置,还包括:
聚集结果显示单元,被配置为在确定与所述配置项有关的所述配置文件的所述特性之前,向用户显示所述聚集的结果;
输入接收单元,被配置为接收来自所述用户的输入;以及
聚集结果修改单元,被配置为根据所述输入来修改所述聚集的所述结果。
16.根据权利要求9所述的装置,其中所述特性确定单元包括:
分类器创建单元,被配置为基于所述聚类的结果,创建用于所述配置项的分类器。
CN201410305722.8A 2014-06-30 2014-06-30 用于确定配置文件的特性的方法和装置 Active CN105446705B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201410305722.8A CN105446705B (zh) 2014-06-30 2014-06-30 用于确定配置文件的特性的方法和装置
US14/735,478 US10048971B2 (en) 2014-06-30 2015-06-10 Determining characteristics of configuration files
US16/030,949 US11029969B2 (en) 2014-06-30 2018-07-10 Determining characteristics of configuration files

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410305722.8A CN105446705B (zh) 2014-06-30 2014-06-30 用于确定配置文件的特性的方法和装置

Publications (2)

Publication Number Publication Date
CN105446705A true CN105446705A (zh) 2016-03-30
CN105446705B CN105446705B (zh) 2019-06-21

Family

ID=54930730

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410305722.8A Active CN105446705B (zh) 2014-06-30 2014-06-30 用于确定配置文件的特性的方法和装置

Country Status (2)

Country Link
US (2) US10048971B2 (zh)
CN (1) CN105446705B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109800008A (zh) * 2018-12-29 2019-05-24 深圳云天励飞技术有限公司 配置更新方法及相关产品
US11029969B2 (en) 2014-06-30 2021-06-08 International Business Machines Corporation Determining characteristics of configuration files

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109033011B (zh) * 2018-06-19 2022-06-21 东软集团股份有限公司 计算轨迹频繁度的方法、装置、存储介质及电子设备
JP2022528787A (ja) * 2019-04-12 2022-06-15 エレメント エーアイ インコーポレイテッド ソフトウェアモジュール開発用システム
US11269903B1 (en) * 2019-09-27 2022-03-08 Amazon Technologies, Inc. Indexing and retrieval of configuration data
CN110941460B (zh) * 2019-11-22 2023-09-01 北京金山云网络技术有限公司 应用程序的启动方法、装置、电子设备、系统及存储介质
US11868478B2 (en) * 2020-05-18 2024-01-09 Saudi Arabian Oil Company System and method utilizing machine learning to predict security misconfigurations
US11023659B1 (en) * 2020-07-09 2021-06-01 Jamison HILL Systems and methods for generating a style configuration file with and without parameters
CN112612870B (zh) * 2020-12-11 2023-12-01 广东电力通信科技有限公司 一种非结构化数据管理方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1790257A (zh) * 2004-12-13 2006-06-21 华为技术有限公司 一种对配置文件进行统一配置的方法
CN1916894A (zh) * 2004-04-29 2007-02-21 微软公司 元数据编辑控制
CN101051322A (zh) * 2007-05-18 2007-10-10 北京中星微电子有限公司 文件分类方法及文件分类器
CN101819525A (zh) * 2009-02-27 2010-09-01 国际商业机器公司 用于查找系统中应用的配置文件的方法和设备
CN101901267A (zh) * 2010-08-02 2010-12-01 中兴通讯股份有限公司 配置文件管理的方法及装置
US8640251B1 (en) * 2011-12-14 2014-01-28 Trend Micro Incorporated Methods and systems for classifying computer documents into confidential levels using log information

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5999940A (en) 1997-05-28 1999-12-07 Home Information Services, Inc. Interactive information discovery tool and methodology
US20030220860A1 (en) 2002-05-24 2003-11-27 Hewlett-Packard Development Company,L.P. Knowledge discovery through an analytic learning cycle
US7139764B2 (en) 2003-06-25 2006-11-21 Lee Shih-Jong J Dynamic learning and knowledge representation for data mining
US20050044487A1 (en) * 2003-08-21 2005-02-24 Apple Computer, Inc. Method and apparatus for automatic file clustering into a data-driven, user-specific taxonomy
US20060179116A1 (en) * 2003-10-10 2006-08-10 Speeter Thomas H Configuration management system and method of discovering configuration data
US20070179959A1 (en) 2006-01-30 2007-08-02 Microsoft Corporation Automatic discovery of data relationships
TWI338846B (en) * 2006-12-22 2011-03-11 Univ Nat Pingtung Sci & Tech A method for grid-based data clustering
US8775365B2 (en) 2010-03-07 2014-07-08 Hamid Hatami-Hanza Interactive and social knowledge discovery sessions
US8086549B2 (en) * 2007-11-09 2011-12-27 Microsoft Corporation Multi-label active learning
JP5243804B2 (ja) * 2008-01-21 2013-07-24 インターナショナル・ビジネス・マシーンズ・コーポレーション 構成要素を管理するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム
US7996390B2 (en) * 2008-02-15 2011-08-09 The University Of Utah Research Foundation Method and system for clustering identified forms
US8196030B1 (en) * 2008-06-02 2012-06-05 Pricewaterhousecoopers Llp System and method for comparing and reviewing documents
US20100169243A1 (en) * 2008-12-27 2010-07-01 Kibboko, Inc. Method and system for hybrid text classification
US8385662B1 (en) * 2009-04-30 2013-02-26 Google Inc. Principal component analysis based seed generation for clustering analysis
WO2011001476A1 (en) * 2009-07-03 2011-01-06 Hitachi, Ltd. Configuration management system and configuration management method for storage system
US9223617B2 (en) 2010-05-06 2015-12-29 Nec Laboratories America, Inc. Methods and systems for migrating networked systems across administrative domains
JP2012064200A (ja) * 2010-08-16 2012-03-29 Canon Inc 表示制御装置、表示制御装置の制御方法、プログラム及び記録媒体
US8826439B1 (en) * 2011-01-26 2014-09-02 Symantec Corporation Encoding machine code instructions for static feature based malware clustering
US8694977B2 (en) * 2011-07-15 2014-04-08 Infineon Technologies Ag Distributed compiling process with instruction signature support
US9135211B2 (en) * 2011-12-20 2015-09-15 Bitly, Inc. Systems and methods for trending and relevance of phrases for a user
US9170827B2 (en) * 2012-01-31 2015-10-27 Hewlett-Packard Development Company, L.P. Configuration file compatibility
US20130290237A1 (en) 2012-04-27 2013-10-31 International Business Machines Corporation Discovery and grouping of related computing resources using machine learning
CN105446705B (zh) 2014-06-30 2019-06-21 国际商业机器公司 用于确定配置文件的特性的方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1916894A (zh) * 2004-04-29 2007-02-21 微软公司 元数据编辑控制
CN1790257A (zh) * 2004-12-13 2006-06-21 华为技术有限公司 一种对配置文件进行统一配置的方法
CN101051322A (zh) * 2007-05-18 2007-10-10 北京中星微电子有限公司 文件分类方法及文件分类器
CN101819525A (zh) * 2009-02-27 2010-09-01 国际商业机器公司 用于查找系统中应用的配置文件的方法和设备
CN101901267A (zh) * 2010-08-02 2010-12-01 中兴通讯股份有限公司 配置文件管理的方法及装置
US8640251B1 (en) * 2011-12-14 2014-01-28 Trend Micro Incorporated Methods and systems for classifying computer documents into confidential levels using log information

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11029969B2 (en) 2014-06-30 2021-06-08 International Business Machines Corporation Determining characteristics of configuration files
CN109800008A (zh) * 2018-12-29 2019-05-24 深圳云天励飞技术有限公司 配置更新方法及相关产品
CN109800008B (zh) * 2018-12-29 2023-02-03 深圳云天励飞技术有限公司 配置更新方法及相关产品

Also Published As

Publication number Publication date
US20150379034A1 (en) 2015-12-31
US11029969B2 (en) 2021-06-08
US10048971B2 (en) 2018-08-14
CN105446705B (zh) 2019-06-21
US20180314535A1 (en) 2018-11-01

Similar Documents

Publication Publication Date Title
CN105446705A (zh) 用于确定配置文件的特性的方法和装置
CN105446723B (zh) 用于标识源代码版本之间的语义区别的方法和装置
US11256755B2 (en) Tag mapping process and pluggable framework for generating algorithm ensemble
CN109783346B (zh) 基于关键字驱动的自动化测试方法、装置及终端设备
CN107783762A (zh) 界面生成方法、装置、存储介质和计算机设备
CN110674360B (zh) 一种用于数据的溯源方法和系统
WO2012080077A1 (en) Cleansing a database system to improve data quality
JP7448562B2 (ja) 人工知能のための希な訓練データへの対処
CN109871891B (zh) 一种物体识别方法、装置和存储介质
CN111080304A (zh) 一种可信关系识别方法、装置及设备
US10679230B2 (en) Associative memory-based project management system
CN111538766A (zh) 一种文本分类方法、装置、处理设备和票据分类系统
CN112818162A (zh) 图像检索方法、装置、存储介质和电子设备
CN115953123A (zh) 机器人自动化流程的生成方法、装置、设备及存储介质
CN105446952A (zh) 用于处理语义片段的方法和系统
CN104933077B (zh) 基于规则的多文件信息分析方法
US20140149341A1 (en) System and method for refining address database for improving performance of automated mail sorting machine
CN111259975B (zh) 分类器的生成方法及装置、文本的分类方法及装置
US20190005005A1 (en) Tag mapping process and pluggable framework for generating algorithm ensemble
CN115345600B (zh) 一种rpa流程的生成方法和装置
CN114443803A (zh) 一种文本信息挖掘方法、装置、电子设备和存储介质
US20240012859A1 (en) Data cataloging based on classification models
Jagannathan Building cyber physical systems in the context of Smart Cities
US11810381B2 (en) Automatic rule prediction and generation for document classification and validation
WO2023173964A1 (en) Intelligently optimized machine learning models

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant