CN111078737B - 共性分析方法、装置、数据处理设备及可读存储介质 - Google Patents
共性分析方法、装置、数据处理设备及可读存储介质 Download PDFInfo
- Publication number
- CN111078737B CN111078737B CN201911164382.0A CN201911164382A CN111078737B CN 111078737 B CN111078737 B CN 111078737B CN 201911164382 A CN201911164382 A CN 201911164382A CN 111078737 B CN111078737 B CN 111078737B
- Authority
- CN
- China
- Prior art keywords
- target
- object information
- tag
- user equipment
- information file
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提出一种共性分析方法、装置、数据处理设备及可读存储介质,涉及计算机技术领域。根据通过用户设备获得的多个目标对象标识在标签库中进行查找,获得该多个目标对象标识涉及的多个第一目标标签。然后将该多个第一目标标签发送给用户设备进行显示,并接收用户设备发送的筛选分组规则。其中,筛选分组规则中包括第二目标标签,多个第一目标标签包括第二目标标签。最后根据该筛选分组规则对该多个目标对象标识对应的第一对象信息进行筛选分组,并将得到的筛选分组结果发送给用户设备。由此,可从标签库中获得特定的一批对象涉及的所有标签,进而根据该部分标签对该部分对象进行筛选分组。
Description
技术领域
本申请涉及计算机技术领域,具体而言,涉及一种共性分析方法、装置、数据处理设备及可读存储介质。
背景技术
目前在做群体分析时,一般是工作人员根据整个数据库支持的标签选定特定的标签,然后根据该特定的标签从数据库中筛选出来相应的群体。由此可知,现有的群体分析技术,只能通过工作人员从数据库支持的所有标签中选出的特定标签进行群体筛选,并不能对数据库中既定的一批对象进行该分析。
发明内容
有鉴于此,本申请的目的在于提供一种共性分析方法、装置、数据处理设备及可读存储介质。
为了实现上述目的,本申请实施例采用的技术方案如下:
第一方面,本申请实施例提供一种共性分析方法,应用于与用户设备通信连接的数据处理设备,所述数据处理设备中存储有标签库,所述标签库中包括每个待分析对象的第一对象信息,所述第一对象信息包括对应的待分析对象的所有标签及对象标识,所述方法包括:
通过所述用户设备获得多个目标对象标识;
根据所述多个目标对象标识在所述标签库中进行查找,获得所述多个目标对象标识涉及的多个第一目标标签;
将所述多个第一目标标签发送给所述用户设备进行显示,并接收所述用户设备发送的筛选分组规则,所述筛选分组规则中包括第二目标标签,所述多个第一目标标签包括所述第二目标标签;
根据所述筛选分组规则,对所述多个目标对象标识对应的第一对象信息进行筛选分组,并将得到的筛选分组结果发送给所述用户设备。
第二方面,本申请实施例提供一种共性分析装置,应用于与用户设备通信连接的数据处理设备,所述数据处理设备中存储有标签库,所述标签库中包括每个待分析对象的第一对象信息,所述第一对象信息包括对应的待分析对象的所有标签及对象标识,所述装置包括:
标识获取模块,用于通过所述用户设备获得多个目标对象标识;
查询模块,用于根据所述多个目标对象标识在所述标签库中进行查找,获得所述多个目标对象标识涉及的多个第一目标标签;
收发模块,用于将所述多个第一目标标签发送给所述用户设备进行显示,并接收所述用户设备发送的筛选分组规则,所述筛选分组规则中包括第二目标标签,所述多个第一目标标签包括所述第二目标标签;
分析模块,用于根据所述筛选分组规则对所述多个目标对象标识对应的第一对象信息进行筛选分组,并将得到的筛选分组结果发送给所述用户设备。
第三方面,本申请实施例提供一种数据处理设备,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器可执行所述机器可执行指令以实现前述实施方式中任一项所述的共性分析方法。
第四方面,本申请实施例提供一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前述实施方式中任一项所述的共性分析方法。
本申请实施例提供的共性分析方法、装置、数据处理设备及可读存储介质,首先根据通过用户设备获得的多个目标对象标识在标签库中进行查找,获得该多个目标对象标识涉及的多个第一目标标签。然后将该多个第一目标标签发送给用户设备进行显示,并接收用户设备发送的筛选分组规则。其中,筛选分组规则中包括第二目标标签,第二目标标签为所述多个第一目标标签中的标签。最后根据该筛选分组规则对该多个目标对象标识对应的第一对象信息进行筛选分组,并将得到的筛选分组结果发送给用户设备。由此,可从标签库中获得特定的一批对象涉及的所有标签,进而根据该部分标签对该部分对象进行筛选分组,完成对该批对象的共性分析。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本申请实施例提供的数据处理设备与用户设备的通信示意图;
图2是本申请实施例提供的数据处理设备的方框示意图;
图3是本申请实施例提供的共性分析方法的流程示意图之一;
图4是本申请实施例中的对象信息文件的模板示意图;
图5是本申请实施例提供的共性分析方法的流程示意图之二;
图6是本申请实施例提供的判断结果融合示意图;
图7是本申请实施例提供的共性分析装置的方框示意图之一;
图8是本申请实施例提供的共性分析装置的方框示意图之二。
图标:100-数据处理设备;200-用户设备;110-存储器;120-处理器;130-通信单元;300-共性分析装置;301-标签确定模块;310-标识获取模块;320-查询模块;330-收发模块;340-分析模块。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
请参照图1,图1是本申请实施例提供的数据处理设备100与用户设备200的通信示意图。所述数据处理设备100中存储有标签库,所述标签库中包括每个待分析对象的第一对象信息,所述第一对象信息包括对应的待分析对象的所有标签及对象标识。比如,待分析对象1具有标签A、B、C,则待分析对象1的第一对象信息中包括:待分析对象1的对象标识,标签A、B、C。待分析对象可以是人、车辆等。
所述数据处理设备100与用户设备200通信连接,用户设备200用于将特定的一批对象的对象标识发送给所述数据处理设备100。所述数据处理设备100将该批对象涉及的标签发送给所述用户设备200,并将接收所述用户设备200返回的选定标签及筛选分组规则,接着根据选定标签及筛选分组规则对该批对象进行筛选分组,完成对该批对象的共性分析。
可选地,所述数据处理设备100可与多个用户设备200通信连接,每个用户设备200在与所述数据处理设备100通信时,可将自身的设备标识同时发送给所述数据处理设备100,以便所述数据处理设备100区分不同的用户设备200。其中,所述用户设备200可以是,但不限于,智能手机、个人电脑(personal computer,PC)、平板电脑等。
请参照图2,图2是本申请实施例提供的数据处理设备100的方框示意图。所述数据处理设备100可以是,但不限于,服务器。所述数据处理设备100包括存储器110、处理器120及通信单元130。所述存储器110、处理器120以及通信单元130各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。
其中,存储器110用于存储程序或者数据。所述存储器110可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-Only Memory,PROM),可擦除只读存储器(ErasableProgrammable Read-Only Memory,EPROM),电可擦除只读存储器(Electric ErasableProgrammable Read-Only Memory,EEPROM)等。
处理器120用于读/写存储器110中存储的数据或程序,并执行相应地功能。比如,存储器110中存储有共性分析装置300,所述共性分析装置300包括至少一个可以软件或固件(firmware)的形式存储于所述存储器110中的软件功能模块。所述处理器120通过运行存储在存储器110内的软件程序以及模块,如本申请实施例中的共性分析装置300,从而执行各种功能应用以及数据处理,即实现本申请实施例中的共性分析方法。
通信单元130用于通过网络建立所述数据处理设备100与其它通信终端(比如,用户设备200)之间的通信连接,并用于通过所述网络收发数据。
应当理解的是,图2所示的结构仅为数据处理设备100的结构示意图,所述数据处理设备100还可包括比图2中所示更多或者更少的组件,或者具有与图2所示不同的配置。图2中所示的各组件可以采用硬件、软件或其组合实现。
请参照图3,图3是本申请实施例提供的共性分析方法的流程示意图之一。所述方法应用于与用户设备200通信连接的数据处理设备100。所述数据处理设备100中存储有标签库,所述标签库中包括每个待分析对象的第一对象信息,所述第一对象信息包括对应的待分析对象的所有标签及对象标识。下面对共性分析方法的具体流程进行详细阐述。
步骤S110,通过所述用户设备200获得多个目标对象标识。
步骤S120,根据所述多个目标对象标识在所述标签库中进行查找,获得所述多个目标对象标识涉及的多个第一目标标签。
步骤S130,将所述多个第一目标标签发送给所述用户设备200进行显示,并接收所述用户设备200发送的筛选分组规则。
步骤S140,根据所述筛选分组规则对所述多个目标对象标识对应的第一对象信息进行筛选分组,并将得到的筛选分组结果发送给所述用户设备200。
在本实施例中,用户可对用户设备200进行操作,所述用户设备200根据接收到的操作得到特定的一批对象的对象标识,即得到多个目标对象标识,并将该多个目标对象标识发送给所述数据处理设备100。当然可以理解的是,所述用户设备200也可以通过其他方式获得目标对象标识。所述数据处理设备100根据每个目标对象标识在所述标签库中进行查找,从而获得每个目标对象标识对应的所有标签。接着对每个目标对象标识对应的所有标签进行汇总,即可得到所述多个目标对象涉及的多个第一目标标签。
所述数据处理设备100将所述多个目标对象涉及的多个第一目标标签发送给所述用户设备200进行显示。所述用户设备200可根据接收到的用户的输入操作,得到包括第二目标标签的筛选分组规则,并将该筛选分组规则发送给所述数据处理设备100。其中,所述第二目标标签为所述多个第一目标标签中的标签。所述数据处理设备100根据该筛选分组规则,对所述多个目标对象标识对应的特定的一批对象进行共性分析,得到共性分析结果,并将该共性分析结果(即筛选分组结果)发送给用户设备200。进一步地,所述用户设备200还可以提供下载功能,以便用户下载筛选分组结果。
由此,可从标签库中获得指定的一批对象所涉及的标签,然后从该部分标签中指定特定的标签,进而根据特定的标签实现对该批对象的筛选分组。该方式可提高用户的作业效率,帮助用户对特定的一批对象进行高效、精准的分组分析。
在本实施例中,所述数据处理设备100可经如下方式获得多个目标对象标识:首先接收所述用户设备200发送的对象信息文件;然后判断所述对象信息文件是否符合预设标准;在所述对象信息文件不符合所述预设标准时,向所述用户设备200发送相应的提示信息;在所述对象信息文件符合预设标准时,从所述对象信息文件中解析得到所述多个目标对象标识。
在本实施例中,用户可以直接将目标对象标识输入至所述用户设备200,所述用户设备200将接收到的目标对象标识保存在一个文件中;也可以先从所述用户设备200处下载文件模板,然后向该文件模板中填写目标对象标识,再将填写完成后得到的文件发送给所述用户设备200。其中,所述文件模板可以是所述用户设备200预先从所述数据处理设备100处获得的。当然可以理解的是,所述用户设备200也可以通过其他方式获得应该包括有目标对象标识的文件,且该文件中包括对象标识字段。
在本实施例的一种实施方式中,在待分析对象为人时,所述对象标识可以是公民身份号码,所述用户设备200可提供如图4所示的文件模板。该文件模板可以为excel格式,包括公民身份号码。用户在将该文件模块下载在用户设备200本地后,可将具体的公民身份号码填写至该文件模板中。在填写完成后,所述用户设备200可根据用户操作将填写完成的文件模板发送给所述数据处理设备100。
所述数据处理设备100在接收到所述对象信息文件后,判断该对象信息文件是否符合预设标准。若对象信息文件不符合预设标准,表示不能从该对象信息文件中解析出目标对象标识。在这种情况下,可生成对应的提示信息,并将该提示信息发送给所述用户设备200,以告知用户,便于用户再次指定目标对象标识,并经所述用户设备200发送至所述数据处理设备。若对象信息文件符合预设标准,则可对该对象信息文件进行解析,得到所述多个目标对象标识。
可选地,可经以下方式判断接收到的对象信息文件是否符合预设标准。
首先获得所述对象信息文件的文件格式,该文件格式可以是excel、txt、word、csv等。然后将该对象信息文件的文件格式与预设文件格式进行比对,以判断所述对象信息文件的文件格式是否是所述预设文件格式。其中,所述预设文件格式可以是一个,也可以是多个,比如,所述预设文件格式为excel、txt。
在所述对象信息文件的文件格式不是所述预设文件格式时,可判定该对象信息文件不符合预设标准,并生成文件格式有误的第一提示信息,然后将该第一提示信息发送给所述用户设备200进行显示。在所述对象信息文件的文件格式是所述预设文件格式时,可判断对象信息文件的内容是否合规。
判断所述对象信息文件的内容是否为空,若为空,则可判定所述对象信息文件不符合预设标准。
若所述对象信息文件的内容不为空,则可判断所述对象信息文件的内容是否满足预设对象标识命名规则。若符合,则可判定所述对象信息文件符合预设标准。若不符合,则可判定所述对象信息文件不符合预设标准。
可选地,在所述对象信息文件的内容为空,或所述对象信息文件的内容不满足预设对象标识命名规则时,可生成输入内容不合规的第二提示信息,并将该第二提示信息发送给所述用户设备200进行显示。
在获得所述多个目标对象标识后,可根据每个目标对象标识在所述标签库中进行查找,获得每个目标对象标识对应的第一对象信息。第一对象信息中包括对应的待分析对象的所有标签,由此,可得到每个目标对象标识对应的所有标签。然后对每个目标对象标识对应的所有标签进行统计,得到所述多个目标对象标识涉及的多个第一目标标签。
比如,所述标签库中包括标签A、B、C、D、E、F,经查找确定:目标对象标识1对应的所有标签为A、C;目标对象标识2对应的所有标签为A、B;目标对象标识3对应的所有标签为A、D。经统计可知,目标对象标识1、2、3涉及的第一目标标签为A、B、C、D。
可选地,在将所述第一目标标签发送给所述用户设备200时,可将每个目标对象的第一对象信息一起发送给所述用户设备200进行显示。由此,用户可了解每个目标对象的所有标签。
进一步地,所述第一对象信息中还可以包括待分析对象的附加属性信息。比如,在待分析对象为人时,所述第一对象信息中不仅包括作为标签、作为对象标识的公民身份号码,还可以包括作为附加属性信息的姓名、年龄等。由此,在将目标对象的第一对象信息发送给用户设备200显示后,用户能够了解每个目标对象的详细信息。
用户可对所述用户设备200进行操作,以从多个第一目标标签中选出第二目标标签。选出的第二目标标签的数量可以是一个,也可以是多个。
在本实施例的一种实施方式中,所述筛选分组规则为组合标签筛选,即将所述第二目标标签进行组合,并根据组合后得到的标签组合对所述多个目标对象标识对应的第一对象信息进行筛选分组。由此可获得多个目标对象中同时具有该标签组合的目标对象。
可选地,用户可直接将该筛选分组规则输入所述用户设备200;或者所述用户设备200中显示有组合筛选分组选项,用户可根据实际需求勾选出第二目标标签后,勾选组合筛选分组选项这一选项,从而使得用户设备200得到该筛选分组规则;或者,所述数据处理设备100默认根据标签组合进行筛选分组,此时用户设备200可仅发送第二目标标签。上述仅为举例说明,也可以以其他方式确定所述筛选分组规则。
例如,若所述多个目标对象标识涉及的多个第一目标标签为:标签A、B、C、D,用户勾选了标签A、B、C作为所述第二目标标签。所述数据处理设备100根据所述多个目标对象标识、标签A、标签B、标签C,从所述标签库中查找到对象标识为目标对象标识、且同时具有标签A、B、C的第一对象信息,并将获得的该部分第一对象信息作为筛选分组结果发送给所述用户设备200。
或者,所述数据处理设备100可根据标签A、标签B、标签C,以及已获得的每个目标对象标识对应的所有标签,经过标签比对,获得同时具有标签A、B、C的目标对象标识,然后将获得的目标对象标识对应的第一对象信息作为筛选分组结果发送给所述用户设备200。
在本实施例的另一种实施方式中,所述筛选分组规则可以是用户自定义的规则。在筛选分组规则为自定义的规则时,所述用户设备200可以根据用户的操作发送单独的第二目标标签、以及由至少两个第二目标标签构成的标签组合。也就是说,在筛选分组时,可能会根据一个作为第二目标标签的第一目标标签进行筛选分组,也可能会根据一个标签组合进行筛选分组。其中,单独的第二目标标签与发送的标签组合中包括的第二目标标签,可以是相同的,也可以是不同。比如,单独的第二目标标签有标签A、标签C,一个标签组合中可以是包括标签A及标签C,也可以是包括标签A及标签B,由用户根据实际需求设置。由此可获得多个目标对象中同时具有该标签组合的一组目标对象、每个直接作为第二目标标签的第一目标标签对应的一组目标对象。
比如,所述多个目标对象标识涉及的多个第一目标标签为:标签A、B、C,用户勾选了标签A、B作为所述第二目标标签。由此可知,此时选定了两个分组,所述数据处理设备100可以经筛选得到具有标签A的一组第一对象信息、具有标签B的一组第一对象信息。若用户还添加了标签A和标签B作为一个标签组合,则所述数据处理设备100还可以经筛选得到同时具有标签A和标签B的一组第一对象信息。由此,一共获得3组第一对象信息。可选地,可以将每组第一对象信息分别写入一个sheet页中,然后发送给所述用户设备200。
在将上述方案应用于人时,可以从标签库中获得指定的一批人的详细信息,并显示给用户,该详细信息中包括每个人的详细标签。还可以根据这批人所涉及的标签进行人员筛选分组,从而帮助用户更加高效、精准地进行群体人员的共性分析,提高用户的作业效率,以避免无法对特定的一批人进行共性分析。其中,在人员筛选分组时使用的标签是该批人涵盖的标签,并不是基于整个标签库支持的标签选定的标签,由此可以保证对该批人共性分析的准确性。
请参照图5,图5是本申请实施例提供的共性分析方法的流程示意图之二。所述数据处理设备100中还存储有多条单标签规则,每条单标签规则对应一个标签。所述方法还包括步骤S101及子步骤S102。
步骤S101,将每条单标签规则与每个待分析对象的第二对象信息进行匹配,判断每个待分析对象是否具有该条单标签规则对应的标签。
步骤S102,对得到的判断结果进行融合,得到每个待分析对象的所述第一对象信息。
在本实施例中,可以预先制定标签体系及单标签规则。标签体系可以分为四大类:人员自然属性、人员社会属性、人员行为特征、人员违法犯罪标签。每类中包括标签细类,每个标签细类中包括具体的标签。
比如,人员自然属性中包括性别、血型等标签细类,性别中包括标签:男、女,血型中包括标签:O型、A型、B型、AB型。人员社会属性中包括政治面貌、籍贯等标签细类,政治面貌包括标签:中共党员、共青团员、群众等。人员行为特征中包括上网特征、住店特征等标签细类,上网特征中包括标签:频繁上网、蜗居网吧等。人员违法犯罪标签中包括重点人员分类、涉案类型等标签细类,重点人员分类中包括标签:是否为涉稳人员、是否为在逃人员等。
定义单标签规则,就是制定具体的标签业务逻辑。比如,定义一个月上网20次为“频繁上网”,一周上网时长超过90小时为“蜗居网吧”。
在制定完单标签规则后,将其保存在所述数据处理设备100中。所述数据处理设备100可以依次将每条单标签规则与每个待分析对象的第二对象信息进行匹配,以判断每个待分析对象是否具有该条单标签规则对应的标签。其中,所述第二对象信息中包括待分析对象的对象标识及描述信息,所述描述信息中包括对待分析对象的各种特征描述,比如,xx的上网记录是xxx,每条上网记录中包括上线时间及下线时间。
可选地,可以将每个待分析对象的描述信息与同一条单标签规则进行匹配,从而判断每个待分析对象是否具有该单标签规则对应的标签。然后再将每个待分析对象的描述信息与另一条单标签规则进行匹配,从而判断每个待分析对象是否具有该单标签规则对应的标签。重复该匹配操作,即可完成每个待分析对象的描述信息与每条单标签规则的匹配。最后,对一个待分析对象的所有判断结果进行数据融合,从而得到该待分析对象具有的所有标签,进而得到该待分析对象的第一对象信息。重复该数据融合操作,即可得到所有待分析对象的第一对象信息,后续可将该所有待分析对象的第一对象信息存储至标签库。
可选地,所述描述信息中还可以包括附加属性信息。在进行数据融合时,还可以将每个待分析对象的附加描述信息与所有判断结果进行融合,从而得到包括对象标识、标签、附加属性信息的第一对象信息。
可选地,所述数据处理设备100中可以存储有与每条单标签规则对应的标签模型。其中,一条单标签规则对应一个标签模型。根据每个待分析对象的第二对象信息、标签模型,通过spark计算框架,可分析出属于该标签模型对应的标签的待分析对象,对该待分析对象打上该标签模型对应的标签。可以将上述处理结果存储至hive。
可以使每个标签模型的输出数据单独成表,表字段包括key(对象标识)和flag(具体的标签)。flag内容为“1”,表示该key对应的待分析对象具有该标签;flag内容为“0”,表示该key对应的待分析对象不具有该标签。
每个标签模型的输出数据可以如图6中的图a、b所示。其中,图a表示:对象标识101对应的待分析对象不具有flag_a这个标签,对象标识202对应的待分析对象具有flag_a这个标签。图b表示:对象标识101对应的待分析对象具有flag_b这个标签,对象标识201对应的待分析对象具有flag_b这个标签。
将输出结果通过主键(即对象标识)以spark计算框架进行融合,可以得到如图6中图c所示的融合结果。该融合结果为:对象标识101对应的待分析对象不具有标签flag_a、具有标签flag_b,对象标识201对应的待分析对象不具有标签flag_a、具有标签flag_b,对象标识202对应的待分析对象具有标签flag_a、不具有标签flag_b。由此可知,对象标识101对应的待分析对象的第一对象信息中包括的所有标签为:flag_b,对象标识201对应的待分析对象的第一对象信息中包括的所有标签为:flag_b,对象标识101对应的待分析对象的第一对象信息中包括的所有标签为:flag_a。
可选地,在得到每个待分析对象的第一对象信息后,可以将所有待分析对象的第一对象信息写入elasticsearch,以对象标识作为elasticsearch中的数据ID,该融合后的标签字段作为elasticsearch中的数据的标签字段。其中,elasticsearch是一款Apache的开源数据搜索分析引擎。或者,将所有待分析对象的第一对象信息写入hbase等数据库。
为了执行上述实施例及各个可能的方式中的相应步骤,下面给出一种共性分析装置300的实现方式,可选地,该共性分析装置300可以采用上述图2所示的数据处理设备100的器件结构。进一步地,请参照图7,图7是本申请实施例提供的共性分析装置300的方框示意图之一。需要说明的是,本实施例所提供的共性分析装置300,其基本原理及产生的技术效果和上述实施例相同,为简要描述,本实施例部分未提及之处,可参考上述的实施例中相应内容。所述共性分析装置300应用于与用户设备200通信连接的数据处理设备100。所述数据处理设备100中存储有标签库,所述标签库中包括每个待分析对象的第一对象信息,所述第一对象信息包括对应的待分析对象的所有标签及对象标识。该共性分析装置300可以包括:标识获取模块310、查询模块320、收发模块330及分析模块340。
所述标识获取模块310,用于通过所述用户设备200获得多个目标对象标识。
所述查询模块320,用于根据所述多个目标对象标识在所述标签库中进行查找,获得所述多个目标对象标识涉及的多个第一目标标签。
所述收发模块330,用于将所述多个第一目标标签发送给所述用户设备200进行显示,并接收所述用户设备200发送的筛选分组规则。所述筛选分组规则中包括第二目标标签,所述多个第一目标标签包括所述第二目标标签。
所述分析模块340,用于根据所述筛选分组规则对所述多个目标对象标识对应的第一对象信息进行筛选分组,并将得到的筛选分组结果发送给所述用户设备200。
请参照图8,图8是本申请实施例提供的共性分析装置300的方框示意图之二。在本实施例的实时方式中,所述共性分析装置300还可以包括标签确定模块301。
所述标签确定模块301,用于将每条单标签规则与每个待分析对象的第二对象信息进行匹配,判断每个待分析对象是否具有该条单标签规则对应的标签。其中,所述第二对象信息包括待分析对象的对象标识及描述信息。
所述标签确定模块301,还用于对得到的判断结果进行融合,得到每个待分析对象的所述第一对象信息。
可选地,上述模块可以软件或固件(Firmware)的形式存储于图2所示的存储器110中或固化于该数据处理设备100的操作系统(Operating System,OS)中,并可由图1中的处理器120执行。同时,执行上述模块所需的数据、程序的代码等可以存储在存储器110中。
本申请实施例还提供一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的共性分析方法。
综上所述,本申请实施例提供一种共性分析方法、装置、数据处理设备及可读存储介质。首先根据通过用户设备获得的多个目标对象标识在标签库中进行查找,获得该多个目标对象标识涉及的多个第一目标标签。然后将该多个第一目标标签发送给用户设备进行显示,并接收用户设备发送的筛选分组规则。其中,筛选分组规则中包括第二目标标签,第二目标标签为所述多个第一目标标签中的标签。最后根据该筛选分组规则对该多个目标对象标识对应的第一对象信息进行筛选分组,并将得到的筛选分组结果发送给用户设备。由此,可从标签库中获得特定的一批对象涉及的所有标签,进而根据该部分标签对该部分对象进行筛选分组,完成对该批对象的共性分析。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种共性分析方法,其特征在于,应用于与用户设备通信连接的数据处理设备,所述数据处理设备中存储有标签库,所述标签库中包括每个待分析对象的第一对象信息,所述第一对象信息包括对应的待分析对象的所有标签及对象标识,所述方法包括:
通过所述用户设备获得多个目标对象标识;
根据所述多个目标对象标识在所述标签库中进行查找,获得所述多个目标对象标识涉及的多个第一目标标签;
将所述多个第一目标标签发送给所述用户设备进行显示,并接收所述用户设备发送的筛选分组规则,所述筛选分组规则中包括第二目标标签,所述多个第一目标标签包括所述第二目标标签;
根据所述筛选分组规则对所述多个目标对象标识对应的第一对象信息进行筛选分组,并将得到的筛选分组结果发送给所述用户设备;
其中,所述通过所述用户设备获得多个目标对象标识,包括:
接收所述用户设备发送的对象信息文件;
判断所述对象信息文件是否符合预设标准,其中,判断所述对象信息文件是否符合预设标准的方式包括:首先判断所述对象信息文件的文件格式是否是预设文件格式;
在所述对象信息文件符合预设标准时,从所述对象信息文件中解析得到所述多个目标对象标识,其中,符合预设标准的所述对象信息文件的文件格式是所述预设文件格式。
2.根据权利要求1所述的方法,其特征在于,所述根据所述多个目标对象标识在所述标签库中进行查找,获得所述多个目标对象标识涉及的多个第一目标标签,包括:
从所述标签库中获得每个目标对象标识对应的第一对象信息,以得到每个目标对象标识对应的所有标签;
对每个目标对象标识对应的所有标签进行统计,得到所述多个第一目标标签。
3.根据权利要求2所述的方法,其特征在于,所述将所述多个第一目标标签发送给所述用户设备进行显示,包括:
将每个目标对象标识对应的第一对象信息、所述多个第一目标标签发送给所述用户设备进行显示。
4.根据权利要求1所述的方法,其特征在于,所述通过所述用户设备获得多个目标对象标识,还包括:
在所述对象信息文件不符合所述预设标准时,向所述用户设备发送相应的提示信息。
5.根据权利要求4所述的方法,其特征在于,所述判断所述对象信息文件是否符合预设标准,包括:
判断所述对象信息文件的文件格式是否是所述预设文件格式;
若所述对象信息文件的文件格式是所述预设文件格式,则判断所述对象信息文件的内容是否为空;
若所述对象信息文件的内容不为空,则判断所述对象信息文件的内容是否满足预设对象标识命名规则;
若所述对象信息文件的内容满足预设对象标识命名规则,则判定所述对象信息文件符合预设标准;
若所述对象信息文件的文件格式不是预设文件格式、或所述对象信息文件的内容为空、或所述对象信息文件的内容不满足预设对象标识命名规则,则判定所述对象信息文件不符合预设标准。
6.根据权利要求1所述的方法,其特征在于,所述数据处理设备中存储有多条单标签规则,每条单标签规则对应一个标签,所述方法还包括:
将每条单标签规则与每个待分析对象的第二对象信息进行匹配,判断每个待分析对象是否具有该条单标签规则对应的标签,其中,所述第二对象信息包括待分析对象的对象标识及描述信息;
对得到的判断结果进行融合,得到每个待分析对象的所述第一对象信息。
7.一种共性分析装置,其特征在于,应用于与用户设备通信连接的数据处理设备,所述数据处理设备中存储有标签库,所述标签库中包括每个待分析对象的第一对象信息,所述第一对象信息包括对应的待分析对象的所有标签及对象标识,所述装置包括:
标识获取模块,用于通过所述用户设备获得多个目标对象标识;
查询模块,用于根据所述多个目标对象标识在所述标签库中进行查找,获得所述多个目标对象标识涉及的多个第一目标标签;
收发模块,用于将所述多个第一目标标签发送给所述用户设备进行显示,并接收所述用户设备发送的筛选分组规则,所述筛选分组规则中包括第二目标标签,所述多个第一目标标签包括所述第二目标标签;
分析模块,用于根据所述筛选分组规则对所述多个目标对象标识对应的第一对象信息进行筛选分组,并将得到的筛选分组结果发送给所述用户设备;
其中,所述标识获取模块具体用于:
接收所述用户设备发送的对象信息文件;
判断所述对象信息文件是否符合预设标准,其中,判断所述对象信息文件是否符合预设标准的方式包括:首先判断所述对象信息文件的文件格式是否是预设文件格式;
在所述对象信息文件符合预设标准时,从所述对象信息文件中解析得到所述多个目标对象标识,其中,符合预设标准的所述对象信息文件的文件格式是所述预设文件格式。
8.根据权利要求7所述的装置,其特征在于,所述数据处理设备中存储有多条单标签规则,每条单标签规则对应一个标签,所述装置还包括:
标签确定模块,用于将每条单标签规则与每个待分析对象的第二对象信息进行匹配,判断每个待分析对象是否具有该条单标签规则对应的标签,其中,所述第二对象信息包括待分析对象的对象标识及描述信息;
所述标签确定模块,还用于对得到的判断结果进行融合,得到每个待分析对象的所述第一对象信息。
9.一种数据处理设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器可执行所述机器可执行指令以实现权利要求1-6中任一项所述的共性分析方法。
10.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-6中任一项所述的共性分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911164382.0A CN111078737B (zh) | 2019-11-25 | 2019-11-25 | 共性分析方法、装置、数据处理设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911164382.0A CN111078737B (zh) | 2019-11-25 | 2019-11-25 | 共性分析方法、装置、数据处理设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111078737A CN111078737A (zh) | 2020-04-28 |
CN111078737B true CN111078737B (zh) | 2023-03-21 |
Family
ID=70311527
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911164382.0A Active CN111078737B (zh) | 2019-11-25 | 2019-11-25 | 共性分析方法、装置、数据处理设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111078737B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112069384A (zh) * | 2020-09-04 | 2020-12-11 | 中国平安人寿保险股份有限公司 | 一种埋点数据处理方法、服务器及可读存储介质 |
CN112836072B (zh) * | 2021-01-28 | 2024-02-27 | 百度在线网络技术(北京)有限公司 | 信息展示方法及装置、电子设备和介质 |
CN115174201B (zh) * | 2022-06-30 | 2023-08-01 | 北京安博通科技股份有限公司 | 一种基于筛选标签的安全规则管理方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107943911A (zh) * | 2017-11-20 | 2018-04-20 | 北京大学深圳研究院 | 数据抽取方法、装置、计算机设备及可读存储介质 |
CN110021386A (zh) * | 2017-07-27 | 2019-07-16 | 北大医疗信息技术有限公司 | 特征提取方法及特征提取装置、设备、存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107038561A (zh) * | 2016-11-30 | 2017-08-11 | 阿里巴巴集团控股有限公司 | 一种业务数据处理方法、装置及客户端 |
-
2019
- 2019-11-25 CN CN201911164382.0A patent/CN111078737B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110021386A (zh) * | 2017-07-27 | 2019-07-16 | 北大医疗信息技术有限公司 | 特征提取方法及特征提取装置、设备、存储介质 |
CN107943911A (zh) * | 2017-11-20 | 2018-04-20 | 北京大学深圳研究院 | 数据抽取方法、装置、计算机设备及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111078737A (zh) | 2020-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111078737B (zh) | 共性分析方法、装置、数据处理设备及可读存储介质 | |
CN107220899B (zh) | 社交网络构建、信息推荐方法、装置及服务器 | |
US9984427B2 (en) | Data ingestion module for event detection and increased situational awareness | |
CN110020086B (zh) | 一种用户画像查询方法及装置 | |
CN109492152B (zh) | 推送定制内容的方法、装置、计算机设备及存储介质 | |
CN102713869A (zh) | 服务器装置、信息处理方法和信息处理系统 | |
CN102315955A (zh) | 一种为垃圾信息设置障碍的控制方法以及相应的控制装置 | |
US11194869B2 (en) | Method and apparatus for enriching metadata via a network | |
CN115809348A (zh) | 基于sbom+fta框架模型的知识图谱构建方法及系统 | |
CN111652658A (zh) | 画像融合方法、装置、电子设备及计算机可读存储介质 | |
CN111241400A (zh) | 一种信息搜索方法及装置 | |
CN113434742A (zh) | 账号的筛选方法和装置、存储介质及电子装置 | |
CN113225694A (zh) | 一种短信群发方法、装置及计算机设备 | |
CN116127047B (zh) | 企业信息库的建立方法与装置 | |
CN112650946A (zh) | 产品信息的推荐方法、装置、系统及存储介质 | |
CN112508119A (zh) | 特征挖掘组合方法、装置、设备及计算机可读存储介质 | |
CN111291215B (zh) | 公式生成方法及服务器 | |
CN114416786A (zh) | 流数据的处理方法、装置、存储介质及计算机设备 | |
CN113065894A (zh) | 基于用户画像及订单分析的数据归集方法、装置及存储介质 | |
CN107911423B (zh) | 信息推送方法、装置、服务器和可读存储介质 | |
CN113935650A (zh) | 基于大数据的企业管理方法及系统 | |
CN111582799B (zh) | 一种物品画像的构建方法及装置 | |
CN117827957B (zh) | 基于大数据的信息录入可视化方法、系统、介质及设备 | |
US20240143583A1 (en) | Chatbot module facilitating insight evaluation and multi-sourced response generation | |
CN111899115B (zh) | 一种确定社交网络中社区结构的方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |