CN112307174A - 多平台数据整合方法、装置、计算机设备及可读存储介质 - Google Patents

多平台数据整合方法、装置、计算机设备及可读存储介质 Download PDF

Info

Publication number
CN112307174A
CN112307174A CN202011307127.XA CN202011307127A CN112307174A CN 112307174 A CN112307174 A CN 112307174A CN 202011307127 A CN202011307127 A CN 202011307127A CN 112307174 A CN112307174 A CN 112307174A
Authority
CN
China
Prior art keywords
judgment
platform
data
decision tree
tree model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011307127.XA
Other languages
English (en)
Inventor
马明信
李静帆
张松伟
王春媚
柯康
吴宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen One Account Technology Co ltd
Original Assignee
Shenzhen One Account Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen One Account Technology Co ltd filed Critical Shenzhen One Account Technology Co ltd
Priority to CN202011307127.XA priority Critical patent/CN112307174A/zh
Publication of CN112307174A publication Critical patent/CN112307174A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及人工智能技术领域,公开了一种多平台数据整合方法、装置、计算机设备及可读存储介质,包括:获取数据平台中与目标对象关联的具体对象;通过具体对象对初始决策树模型进行训练,得到能够根据描述信息对数据包进行分类成熟决策树模型,并提取成熟决策树模型中的判断条件;根据判断条件从数据平台中提取判断词条并记录数据平台的平台编号,将判断词条与平台编号关联,汇总含义一致的判断词条得到判断集合;构建判断集合与判断条件之间的映射关系,及判断条件与目标对象之间的映射关系得到映射模型。本发明实现了对各数据平台中具体对象的描述信息进行整合的技术效果,使用户仅需调用该模型即可从各数据平台快速全面的获得所需的具体对象。

Description

多平台数据整合方法、装置、计算机设备及可读存储介质
技术领域
本发明涉及人工智能的智能决策技术领域,尤其涉及一种多平台数据整合方法、装置、计算机设备及可读存储介质。
背景技术
数据平台是一种为用户提供数据查询及反馈服务的计算机系统,其广泛应用在互联网中,然而,发明人发现各数据平台因其数据汇总及描述的方式不同,经常出现适用于某一数据平台的判断词条无法在其他数据平台上识别相应的具体对象的问题发生。
而如果要解决上述问题,发明人发现用户需要访问多个数据平台以获取其需要的具体对象,导致用户信息获取效率低下。
发明内容
本发明的目的是提供一种多平台数据整合方法、装置、计算机设备及可读存储介质,用于解决现有技术存在的用户需要访问多个数据平台以获取其需要的具体对象,导致用户信息获取效率低下的问题。
为实现上述目的,本发明提供一种多平台数据整合方法,包括:
获取数据平台中与预置的目标对象关联的具体对象;其中,所述具体对象包括数据包和描述信息,所述数据包记载有所述具体对象的所有数据并用以加载于用户界面上形成产品界面,所述描述信息是对所述数据包的内容进行描述的数据摘要;
通过所述具体对象对预置的初始决策树模型进行训练,得到能够根据所述描述信息对所述数据包进行分类成熟决策树模型,并提取所述成熟决策树模型中的判断条件;
根据所述判断条件从数据平台中提取判断词条并记录所述数据平台的平台编号,将所述判断词条与所述平台编号关联,汇总含义一致的判断词条得到判断集合;
构建所述判断集合与所述判断条件之间的映射关系,及所述判断条件与所述目标对象之间的映射关系得到映射模型,以整合各数据平台对同一具体对象的描述信息。
上述方案中,所述获取数据平台中与预置的目标对象关联的具体对象之前,所述方法包括:
确定目标对象,所述目标对象是对数据包所属类别的概括信息。
上述方案中,所述通过所述具体对象对预置的初始决策树模型进行训练,得到能够根据所述描述信息对所述数据包进行分类成熟决策树模型的步骤,包括:
提取所述描述信息中的关键字并汇总得到至少具有一个描述词条的描述集合,在所述描述集合中设置概括所述描述词条的元数据;
通过预置的初始决策树模型以所述元数据为判断条件对至少一个描述集合进行分类,获得能够通过所述描述词条区分各所述描述信息的成熟决策树模型;
识别所述成熟决策树模型中的内部节点,并提取所述内部节点中的判断条件。
上述方案中,所述初始决策树模型在逻辑上以树的形式存在,包含根节点、内部结点和叶节点;
所述通过预置的初始决策树模型以所述元数据为判断条件对至少一个描述集合进行分类,获得能够通过所述描述词条区分各所述描述信息的成熟决策树模型的步骤,包括:
调用所述初始决策树模型的根节点获取至少一个描述信息的描述集合;
调用所述初始决策树模型的内部节点,以所述描述集合中的一个描述词条对应的元数据作为判断条件,对所述描述信息进行分类得到分类结果;
调用所述初始决策树模型根据所述分类结果,将所述描述信息记载于所述叶节点中获得成熟决策树模型。
上述方案中,所述汇总含义一致的判断词条得到判断集合之后,所述方法包括:
识别能够概括所述判断集合中所有判断词条的词汇,并将其设为所述判断集合的判断名称。
上述方案中,所述构建所述判断集合与所述判断条件之间的映射关系,及所述判断条件与所述目标对象之间的映射关系得到映射模型之后,所述方法还包括:
将所述目标对象和判断条件展示在用户端的用户界面上,并将与所述判断条件关联的判断名称展示在所述用户界面上形成筛选界面。
上述方案中,所述将与所述判断条件关联的判断名称展示在所述用户界面上形成筛选界面之后,所述方法还包括:
接收所述用户端在所述筛选界面上选定的判断名称,获取判断名称对应的判断集合中的判断词条,汇总具有同一平台编号的判断词条形成检索信息;访问与平台编号对应的数据平台,获取与所述平台编号对应的检索信息匹配的具体对象,将所述具体对象的数据包发送至所述用户端;
所述将所述具体对象的数据包发送至所述用户端之后,所述方法还包括:
将所述数据包上传至区块链中。
为实现上述目的,本发明还提供一种多平台数据整合装置,包括:
对象获取模块,用于获取数据平台中与预置的目标对象关联的具体对象;其中,所述具体对象包括数据包和描述信息,所述数据包记载有所述具体对象的所有数据并用以加载于用户界面上形成产品界面,所述描述信息是对所述数据包的内容进行描述的数据摘要;
模型训练模块,用于通过所述具体对象对预置的初始决策树模型进行训练,得到能够根据所述描述信息对所述数据包进行分类成熟决策树模型,并提取所述成熟决策树模型中的判断条件;
词条编号关联模块,用于根据所述判断条件从数据平台中提取判断词条并记录所述数据平台的平台编号,将所述判断词条与所述平台编号关联,汇总含义一致的判断词条得到判断集合;
信息整合模块,用于构建所述判断集合与所述判断条件之间的映射关系,及所述判断条件与所述目标对象之间的映射关系得到映射模型,以整合各数据平台对同一具体对象的描述信息。
为实现上述目的,本发明还提供一种计算机设备,其包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述计算机设备的处理器执行所述计算机程序时实现上述多平台数据整合方法的步骤。
为实现上述目的,本发明还提供一种计算机可读存储介质,所述可读存储介质上存储有计算机程序,所述可读存储介质存储的所述计算机程序被处理器执行时实现上述多平台数据整合方法的步骤。
本发明提供的多平台数据整合方法、装置、计算机设备及可读存储介质,通过所述具体对象对初始决策树模型进行训练,得到能够根据所述描述信息对所述数据包进行分类成熟决策树模型,以识别出描述信息中哪一或哪些词条能够准确的反应具体对象的特征;
将判断词条与所述平台编号关联,汇总含义一致的判断词条得到判断集合。实现了整合多个数据平台中具体对象数据的技术效果;
通过构建所述判断集合与所述判断条件之间的映射关系,及所述判断条件与所述目标对象之间的映射关系得到映射模型,以实现对各数据平台中具体对象的描述信息进行整合的技术效果,使用户仅需调用该模型即可从各数据平台快速全面的获得其所需的具体对象。
附图说明
图1为本发明多平台数据整合方法实施例一的流程图;
图2为本发明多平台数据整合方法实施例二中多平台数据整合方法的环境应用示意图;
图3是本发明多平台数据整合方法实施例二中多平台数据整合方法的具体方法流程图;
图4为本发明多平台数据整合装置实施例三的程序模块示意图;
图5为本发明计算机设备实施例四中计算机设备的硬件结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供的多平台数据整合方法、装置、计算机设备及可读存储介质,适用于人工智能的智能决策技术领域,为提供一种基于对象获取模块、模型训练模块、词条编号关联模块和信息整合模块的多平台数据整合方法。本发明通过获取数据平台中与预置的目标对象关联的具体对象;通过所述具体对象对预置的初始决策树模型进行训练,得到能够根据所述描述信息对所述数据包进行分类成熟决策树模型,并提取所述成熟决策树模型中的判断条件;根据所述判断条件从数据平台中提取判断词条并记录所述数据平台的平台编号,将所述判断词条与所述平台编号关联,汇总含义一致的判断词条得到判断集合;构建所述判断集合与所述判断条件之间的映射关系,及所述判断条件与所述目标对象之间的映射关系得到映射模型,以整合各数据平台对同一具体对象的描述信息。
实施例一:
请参阅图1,本实施例的一种多平台数据整合方法,包括:
S102:获取数据平台中与预置的目标对象关联的具体对象;其中,所述具体对象包括数据包和描述信息,所述数据包记载有所述具体对象的所有数据并用以加载于用户界面上形成产品界面,所述描述信息是对所述数据包的内容进行描述的数据摘要。
S103:通过所述具体对象对预置的初始决策树模型进行训练,得到能够根据所述描述信息对所述数据包进行分类成熟决策树模型,并提取所述成熟决策树模型中的判断条件。
S104:根据所述判断条件从数据平台中提取判断词条并记录所述数据平台的平台编号,将所述判断词条与所述平台编号关联,汇总含义一致的判断词条得到判断集合。
S106:构建所述判断集合与所述判断条件之间的映射关系,及所述判断条件与所述目标对象之间的映射关系得到映射模型,以整合各数据平台对同一具体对象的描述信息。
于本实施例中,采用文本相似度算法,从数据平台中获取与所述目标对象关联的具体对象,其中,采用空间向量的余弦算法或TF-IDF(关键词词频及逆向文本频率)作为所述文本相似度算法。
通过所述具体对象对预置的初始决策树模型进行训练,得到能够根据所述描述信息对所述数据包进行分类成熟决策树模型,并提取所述成熟决策树模型中的判断条件,使得得到的判断条件即为能够反映具体对象的显著特征的判断标准,进而识别出描述信息中哪一或哪些词条能够准确的反应具体对象的特征。
根据所述判断条件从数据平台中提取判断词条并记录所述数据平台的平台编号,将所述判断词条与所述平台编号关联,汇总含义一致的判断词条得到判断集合。因此,判断集合中的判断词条,将分别适用于与其关联的平台编号所对应的数据平台,使得某一判断条件一旦被触发,与所述判断条件对应的判断集合将根据平台编号,调用与其关联的判断词条对具体对象进行检索,实现了整合多个数据平台中具体对象数据的技术效果,避免了适用于某一数据平台的判断词条无法在其他数据平台上识别相应的具体对象的问题发生。
通过构建所述判断集合与所述判断条件之间的映射关系,及所述判断条件与所述目标对象之间的映射关系得到映射模型,以实现对各数据平台中具体对象的描述信息进行整合的技术效果,因此,用户仅需触发映射模型中的判断条件及相应的判断集合,即可使判断集合根据其中的平台编号访问相应的数据平台,并根据与所述平台编号关联的判断词条获取相应的具体对象,以便于用户仅需调用该模型即可从各数据平台快速全面的获得其所需的具体对象。
实施例二:
本实施例为上述实施例一的一种具体应用场景,通过本实施例,能够更加清楚、具体地阐述本发明所提供的方法。
下面,以在运行有多平台数据整合方法的服务器中,基于能够对数据包进行分类成熟决策树模型,构建映射模型以整合各数据平台对同一具体对象的描述信息为例,来对本实施例提供的方法进行具体说明。需要说明的是,本实施例只是示例性的,并不限制本发明实施例所保护的范围。
图2示意性示出了根据本申请实施例二的多平台数据整合方法的环境应用示意图。
在示例性的实施例中,多平台数据整合方法所在的服务器2通过网络3分别连接用户端4;所述服务器2可以通过一个或多个网络3提供服务,网络3可以包括各种网络设备,例如路由器,交换机,多路复用器,集线器,调制解调器,网桥,中继器,防火墙,代理设备和/或等等。网络3可以包括物理链路,例如同轴电缆链路,双绞线电缆链路,光纤链路,它们的组合和/或类似物。网络3可以包括无线链路,例如蜂窝链路,卫星链路,Wi-Fi链路和/或类似物;所述用户端4可为智能手机、平板电脑、笔记本电脑、台式电脑等计算机设备。
图3是本发明一个实施例提供的一种多平台数据整合方法的具体方法流程图,该方法具体包括步骤S201至S208。
S201:确定目标对象,所述目标对象是对数据包所属类别的概括信息。
本步骤中,所述目标对象可根据其整合目标设置,例如:如果需要整合各数据平台关于轿车的数据包,那么将“轿车”作为目标对象。
S202:获取数据平台中与预置的目标对象关联的具体对象;其中,所述具体对象包括数据包和描述信息,所述数据包记载有所述具体对象的所有数据并用以加载于用户界面上形成产品界面,所述描述信息是对所述数据包的内容进行描述的数据摘要。
本步骤中,可采用文本相似度算法,从数据平台中获取与所述目标对象关联的具体对象,其中,采用空间向量的余弦算法或TF-IDF(关键词词频及逆向文本频率)作为所述文本相似度算法。
示例性地,目标对象为轿车,那么从数据平台中将获取与轿车相关的具体对象;该具体对象包括:描述信息:丰田牌轿车紧凑型车卡罗拉1.2T 2021款CVT先锋版;及记载有丰田牌轿车紧凑型车卡罗拉1.2T 2021款CVT先锋版的参数配置、图片、相关新闻等数据信息的数据包。
S203:通过所述具体对象对预置的初始决策树模型进行训练,得到能够根据所述描述信息对所述数据包进行分类成熟决策树模型,并提取所述成熟决策树模型中的判断条件。
为识别出描述信息中哪一或哪些词条能够准确的反应具体对象的特征,本步骤通过所述具体对象对预置的初始决策树模型进行训练,得到能够根据所述描述信息对所述数据包进行分类成熟决策树模型,并提取所述成熟决策树模型中的判断条件,使得得到的判断条件即为能够反映具体对象的显著特征的判断标准。
在一个优选的实施例中,所述通过所述具体对象对预置的初始决策树模型进行训练,得到能够根据所述描述信息对所述数据包进行分类成熟决策树模型的步骤,包括:
S31:提取所述描述信息中的关键字并汇总得到至少具有一个描述词条的描述集合,在所述描述集合中设置概括所述描述词条的元数据。
本步骤中,采用关键字提取算法提取描述信息中的能够反映描述信息的特征的关键字,TF-IDF算法或TextRank算法。其中,TF-IDF,全称是Term Frequency-inversedocument frequency,由两部分组成---词频(Term Frequency),逆文档频率(inversedocument frequency)。TextRank是通过词之间的相邻关系构建网络,然后用PageRank迭代计算每个节点的rank值,排序rank值即可得到关键词。
通过预置的词条-元数据映射表确定所述描述词条的元数据,所述词条-元数据映射表中记录有描述词条与元数据之间的映射关系,因此,通过所述映射表即可获知得到的描述词条对应的元数据是哪一个;例如:丰田对应的元数据为品牌,卡罗拉对应的元数据为车款等等。
S32:通过预置的初始决策树模型以所述元数据为判断条件对至少一个描述集合进行分类,获得能够通过所述描述词条区分各所述描述信息的成熟决策树模型。
本步骤中,调用所述初始决策树模型对所述描述信息中的描述集合进行分类,以对所述初始决策树模型进行训练,直至训练后的初始决策树模型能够在其叶节点准确的获得所述描述信息的对象信息为止,并将该初始决策树训练模型设为成熟决策树模型。
在一个优选的实施例中,所述初始决策树模型在逻辑上以树的形式存在,包含根节点、内部结点和叶节点;
所述通过预置的初始决策树模型以所述元数据为判断条件对至少一个描述集合进行分类,获得能够通过所述描述词条区分各所述描述信息的成熟决策树模型的步骤,包括:
调用所述初始决策树模型的根节点获取至少一个描述信息的描述集合;
调用所述初始决策树模型的内部节点,以所述描述集合中的一个描述词条对应的元数据作为判断条件,对所述描述信息进行分类得到分类结果;
调用所述初始决策树模型根据所述分类结果,将所述描述信息记载于所述叶节点中获得成熟决策树模型。
当所述初始决策树能够通过所述内部节点区分描述词条获得所述描述信息的分类结果,并根据所述分类结果获得对应的叶节点,以实现通过所述描述词条区分各所述描述信息的成熟决策树模型。
可选的,采用预剪枝策略或后剪枝策略对所述初始决策树模型进行剪枝,使所述初始决策树模型的判断条件更为精炼,以实现在保证精确度的前提下,使用更少的描述词条映射所述对象信息,进而使映射模型使用更少的前提信息即可准确锁定分类目标,提高了映射模型的调用及运行效率。
需要说明的是,预剪枝策略是在对一个内部节点进行划分前进行估计,如果不能提升初始决策树泛化精度,就停止划分,将当前节点设置为叶节点。那么怎么测量泛化精度,就是留出一部分训练数据当做测试集,每次划分前比较划分前后的测试集预测精度。
后剪枝策略是首先正常建立一个初始决策树,然后对整个初始决策树进行剪枝。按照初始决策树的广度优先搜索的反序,依次对内部节点进行剪枝,如果将某以内部节点为根的子树换成一个叶节点,可以提高泛化性能,就进行剪枝。
S33:识别所述成熟决策树模型中的内部节点,并提取所述内部节点中的判断条件。
示例性地,假设目标对象是轿车,从数据平台A中获取第一具体对象和第二具体对象,假设第一具体对象的第一描述信息为丰田牌轿车紧凑型车卡罗拉1.2T 2021款CVT先锋版,提取第一描述信息中的关键字并汇总得到至少具有一个描述词条的第一描述集合,包括:品牌:丰田牌、级别:紧凑型车、车系:卡罗拉、排量:1.2T、年款:2021款、变速箱:CVT、销售名称:先锋版;第二具体对象的第二描述信息为丰田牌轿车紧凑型车卡罗拉1.2T2021款CVT豪华版,提取第二描述信息中的关键字并汇总得到至少具有一个描述词条的第二描述集合,包括:品牌:丰田牌、级别:紧凑型车、车系:卡罗拉、排量:1.2T、年款:2021款、变速箱:CVT、销售名称:豪华版。其中,品牌、级别、车系、排量、年款、变速箱、销售名称为用于概括描述词条的元数据。
通过所述成熟决策树模型训练所述第一描述信息和第二描述信息获知,判断条件为“销售名称”时,即区分先锋版还是豪华版,即可对所述训练目标,即:轿车,进行分类。
按照上述方式,使用成熟决策树模型对大量的描述信息进行分类,并采用预剪枝策略或后剪枝策略对所述成熟决策树模型进行剪枝,将得到以品牌、车系、年款、排量、销售名称作为判断条件即可对轿车进行分类。因此,提取品牌、车系、年款、排量、销售名称作为前提信息,以轿车作为训练目标的映射模型。
S204:根据所述判断条件从数据平台中提取判断词条并记录所述数据平台的平台编号,将所述判断词条与所述平台编号关联,汇总含义一致的判断词条得到判断集合。
为汇总各数据平台具有同一含义的判断词条,以避免适用于某一数据平台的判断词条无法在其他数据平台上识别相应的具体对象的问题发生,本步骤根据所述判断条件从数据平台中提取判断词条并记录所述数据平台的平台编号,将所述判断词条与所述平台编号关联,汇总含义一致的判断词条得到判断集合。因此,判断集合中的判断词条,将分别适用于与其关联的平台编号所对应的数据平台,使得某一判断条件一旦被触发,与所述判断条件对应的判断集合将根据平台编号,调用与其关联的判断词条对具体对象进行检索,实现了整合多个数据平台中具体对象数据的技术效果。
于本实施例中,通过文本相似度算法计算判断词条之间的相似度,将相似度超过阈值的相似阈值的判断词条设为含义一致的判断词条。于本实施例中,可采用word2vec模型作为所述文本相似度算法对判断词条之间的相似度进行计算。
示例性地,根据判断条件“品牌”从数据平台A中提取判断词条“丰田”,并将判断词条与平台编号关联,如:丰田-A,以表示“丰田”这个词条是从数据平台A所获得的;又如根据判断条件“品牌”从数据平台B中提取判断词条“一汽丰田”,并将判断词条与平台编号关联,如:一汽丰田-B,以表示“一汽丰田”这个词条是从数据平台B所获得的,以此类推。
进一步地,如果获得的判断词条包括:丰田、本田、一汽丰田,那么通过文本相似度算法将获知,丰田和一汽丰田的相似度高于预置的相似阈值,而本田与丰田、一汽丰田之间的相似度均低于预置的相似阈值,那么将丰田和一汽丰田设为含义一致的判断词条。
S205:识别能够概括所述判断集合中所有判断词条的词汇,并将其设为所述判断集合的判断名称。
本步骤中,对判断集合中所有的判断词条进行分词得到判断子词汇,计算所述各判断子词汇的词频,将词频最高的判断子词汇判定为能够概括所述判断集合中所有判断词条的词汇,并将其设为所述判断集合的判断名称,其中,词频(TF-Term Frequency),即判断子词汇在所述判断集合中出现的频率。
示例性地,假设判断集合包括“丰田、一汽丰田”,对其中的判断词汇进行分词,得到“丰田、一汽、丰田”,由于“丰田”的词频最高,因此,将“丰田”设为判断名称。
S206:构建所述判断集合与所述判断条件之间的映射关系,及所述判断条件与所述目标对象之间的映射关系得到映射模型,以整合各数据平台对同一具体对象的描述信息。
为提供能够整合多个数据平台中的具体对象的模型,以便于用户仅需调用该模型即可快速全面的获得其所需的具体对象,本步骤通过构建所述判断集合与所述判断条件之间的映射关系,及所述判断条件与所述目标对象之间的映射关系得到映射模型,以实现对各数据平台中具体对象的描述信息进行整合的技术效果,因此,用户仅需触发映射模型中的判断条件及相应的判断集合,即可使判断集合根据其中的平台编号访问相应的数据平台,并根据与所述平台编号关联的判断词条获取相应的具体对象。
示例性地,基于上述举例,目标对象“轿车”将与判断条件“品牌、车系、年款、排量、销售名称”之间形成映射关系,而例如判断条件“品牌”将与判断名称为“丰田”的判断集合“丰田、一汽丰田”,以及判断名称为“本田”的判断集合“本田、广汽本田”之间,形成映射关系。
S207:将所述目标对象和判断条件展示在用户端的用户界面上,并将与所述判断条件关联的判断名称展示在所述用户界面上形成筛选界面。
为方便用户通过用户端直接对判断条件所对应的判断集合进行选择及触发,本步骤通过将所述目标对象和判断条件展示在用户端的用户界面上,并将与所述判断条件关联的判断名称展示在所述用户界面上形成筛选界面。
于本实施例中,将所述目标对象和判断条件以标识的形式展示在用户端的用户界面上,将与所述判断条件关联的判断名称以下拉条的展示在所述用户界面上形成筛选界面。
S208:接收所述用户端在所述筛选界面上选定的判断名称,获取判断名称对应的判断集合中的判断词条,汇总具有同一平台编号的判断词条形成检索信息;访问与平台编号对应的数据平台,获取与所述平台编号对应的检索信息匹配的具体对象,将所述具体对象的数据包发送至所述用户端。
为能够实现全面准确的反馈用户所需的具体对象的数据包,本步骤通过用户端在所述筛选界面上选定的判断名称,获取判断名称对应的判断集合中的判断词条,汇总具有同一平台编号的判断词条形成检索信息;访问与平台编号对应的数据平台,获取与所述平台编号对应的检索信息匹配的具体对象,将所述具体对象的数据包发送至所述用户端。
于本实施例中,用户可通过点击所述数据包,以将其加载至所述用户端的用户界面上,完成数据的获取。
所述将所述具体对象的数据包发送至所述用户端之后,所述方法还包括:
将所述数据包上传至区块链中。
需要说明的是,基于数据包得到对应的摘要信息,具体来说,摘要信息由数据包进行散列处理得到,比如利用sha256s算法处理得到。将摘要信息上传至区块链可保证其安全性和对用户的公正透明性。用户设备可以从区块链中下载得该摘要信息,以便查证数据包是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
实施例三:
请参阅图4,本实施例的一种多平台数据整合装置1,包括:
对象获取模块12,用于获取数据平台中与预置的目标对象关联的具体对象;其中,所述具体对象包括数据包和描述信息,所述数据包记载有所述具体对象的所有数据并用以加载于用户界面上形成产品界面,所述描述信息是对所述数据包的内容进行描述的数据摘要。
模型训练模块13,用于通过所述具体对象对预置的初始决策树模型进行训练,得到能够根据所述描述信息对所述数据包进行分类成熟决策树模型,并提取所述成熟决策树模型中的判断条件。
词条编号关联模块14,用于根据所述判断条件从数据平台中提取判断词条并记录所述数据平台的平台编号,将所述判断词条与所述平台编号关联,汇总含义一致的判断词条得到判断集合。
信息整合模块16,用于构建所述判断集合与所述判断条件之间的映射关系,及所述判断条件与所述目标对象之间的映射关系得到映射模型,以整合各数据平台对同一具体对象的描述信息。
可选的,所述多平台数据整合装置1还包括:
对象确定模块11,用于确定目标对象,所述目标对象是对数据包所属类别的概括信息。
可选的,所述多平台数据整合装置1还包括:
名称制定模块15,用于识别能够概括所述判断集合中所有判断词条的词汇,并将其设为所述判断集合的判断名称。
可选的,所述多平台数据整合装置1还包括:
界面生成模块17,用于将所述目标对象和判断条件展示在用户端的用户界面上,并将与所述判断条件关联的判断名称展示在所述用户界面上形成筛选界面。
可选的,所述多平台数据整合装置1还包括:
数据反馈模块18,用于接收所述用户端在所述筛选界面上选定的判断名称,获取判断名称对应的判断集合中的判断词条,汇总具有同一平台编号的判断词条形成检索信息;访问与平台编号对应的数据平台,获取与所述平台编号对应的检索信息匹配的具体对象,将所述具体对象的数据包发送至所述用户端。
本技术方案应用于人工智能的智能决策领域,通过具体对象对预置的初始决策树模型进行训练,得到能够根据描述信息对数据包进行分类成熟决策树模型,并提取成熟决策树模型中的判断条件,此时,所述成熟决策树模型将为所述描述信息的分类模型。
实施例四:
为实现上述目的,本发明还提供一种计算机设备5,实施例三的多平台数据整合装置1的组成部分可分散于不同的计算机设备中,计算机设备5可以是执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个应用服务器所组成的服务器集群)等。本实施例的计算机设备至少包括但不限于:可通过系统总线相互通信连接的存储器51、处理器52,如图5所示。需要指出的是,图5仅示出了具有组件-的计算机设备,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
本实施例中,存储器51(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器51可以是计算机设备的内部存储单元,例如该计算机设备的硬盘或内存。在另一些实施例中,存储器51也可以是计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器51还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中,存储器51通常用于存储安装于计算机设备的操作系统和各类应用软件,例如实施例三的多平台数据整合装置的程序代码等。此外,存储器51还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器52在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器52通常用于控制计算机设备的总体操作。本实施例中,处理器52用于运行存储器51中存储的程序代码或者处理数据,例如运行多平台数据整合装置,以实现实施例一和实施例二的多平台数据整合方法。
实施例五:
为实现上述目的,本发明还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器52执行时实现相应功能。本实施例的计算机可读存储介质用于存储多平台数据整合装置,被处理器52执行时实现实施例一和实施例二的多平台数据整合方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种多平台数据整合方法,其特征在于,包括:
获取数据平台中与预置的目标对象关联的具体对象;其中,所述具体对象包括数据包和描述信息,所述数据包记载有所述具体对象的所有数据并用以加载于用户界面上形成产品界面,所述描述信息是对所述数据包的内容进行描述的数据摘要;
通过所述具体对象对预置的初始决策树模型进行训练,得到能够根据所述描述信息对所述数据包进行分类成熟决策树模型,并提取所述成熟决策树模型中的判断条件;
根据所述判断条件从数据平台中提取判断词条并记录所述数据平台的平台编号,将所述判断词条与所述平台编号关联,汇总含义一致的判断词条得到判断集合;
构建所述判断集合与所述判断条件之间的映射关系,及所述判断条件与所述目标对象之间的映射关系得到映射模型,以整合各数据平台对同一具体对象的描述信息。
2.根据权利要求1所述的多平台数据整合方法,其特征在于,所述获取数据平台中与预置的目标对象关联的具体对象之前,所述方法包括:
确定目标对象,所述目标对象是对数据包所属类别的概括信息。
3.根据权利要求1所述的多平台数据整合方法,其特征在于,所述通过所述具体对象对预置的初始决策树模型进行训练,得到能够根据所述描述信息对所述数据包进行分类成熟决策树模型的步骤,包括:
提取所述描述信息中的关键字并汇总得到至少具有一个描述词条的描述集合,在所述描述集合中设置概括所述描述词条的元数据;
通过预置的初始决策树模型以所述元数据为判断条件对至少一个描述集合进行分类,获得能够通过所述描述词条区分各所述描述信息的成熟决策树模型;
识别所述成熟决策树模型中的内部节点,并提取所述内部节点中的判断条件。
4.根据权利要求3所述的多平台数据整合方法,其特征在于,所述初始决策树模型在逻辑上以树的形式存在,包含根节点、内部结点和叶节点;
所述通过预置的初始决策树模型以所述元数据为判断条件对至少一个描述集合进行分类,获得能够通过所述描述词条区分各所述描述信息的成熟决策树模型的步骤,包括:
调用所述初始决策树模型的根节点获取至少一个描述信息的描述集合;
调用所述初始决策树模型的内部节点,以所述描述集合中的一个描述词条对应的元数据作为判断条件,对所述描述信息进行分类得到分类结果;
调用所述初始决策树模型根据所述分类结果,将所述描述信息记载于所述叶节点中获得成熟决策树模型。
5.根据权利要求1所述的多平台数据整合方法,其特征在于,所述汇总含义一致的判断词条得到判断集合之后,所述方法包括:
识别能够概括所述判断集合中所有判断词条的词汇,并将其设为所述判断集合的判断名称。
6.根据权利要求5所述的多平台数据整合方法,其特征在于,所述构建所述判断集合与所述判断条件之间的映射关系,及所述判断条件与所述目标对象之间的映射关系得到映射模型之后,所述方法还包括:
将所述目标对象和判断条件展示在用户端的用户界面上,并将与所述判断条件关联的判断名称展示在所述用户界面上形成筛选界面。
7.根据权利要求6所述的多平台数据整合方法,其特征在于,所述将与所述判断条件关联的判断名称展示在所述用户界面上形成筛选界面之后,所述方法还包括:
接收所述用户端在所述筛选界面上选定的判断名称,获取判断名称对应的判断集合中的判断词条,汇总具有同一平台编号的判断词条形成检索信息;访问与平台编号对应的数据平台,获取与所述平台编号对应的检索信息匹配的具体对象,将所述具体对象的数据包发送至所述用户端;
所述将所述具体对象的数据包发送至所述用户端之后,所述方法还包括:
将所述数据包上传至区块链中。
8.一种多平台数据整合装置,其特征在于,包括:
对象获取模块,用于获取数据平台中与预置的目标对象关联的具体对象;其中,所述具体对象包括数据包和描述信息,所述数据包记载有所述具体对象的所有数据并用以加载于用户界面上形成产品界面,所述描述信息是对所述数据包的内容进行描述的数据摘要;
模型训练模块,用于通过所述具体对象对预置的初始决策树模型进行训练,得到能够根据所述描述信息对所述数据包进行分类成熟决策树模型,并提取所述成熟决策树模型中的判断条件;
词条编号关联模块,用于根据所述判断条件从数据平台中提取判断词条并记录所述数据平台的平台编号,将所述判断词条与所述平台编号关联,汇总含义一致的判断词条得到判断集合;
信息整合模块,用于构建所述判断集合与所述判断条件之间的映射关系,及所述判断条件与所述目标对象之间的映射关系得到映射模型,以整合各数据平台对同一具体对象的描述信息。
9.一种计算机设备,其包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机设备的处理器执行所述计算机程序时实现权利要求1至7任一项所述多平台数据整合方法的步骤。
10.一种计算机可读存储介质,所述可读存储介质上存储有计算机程序,其特征在于,所述可读存储介质存储的所述计算机程序被处理器执行时实现权利要求1至7任一项所述多平台数据整合方法的步骤。
CN202011307127.XA 2020-11-20 2020-11-20 多平台数据整合方法、装置、计算机设备及可读存储介质 Pending CN112307174A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011307127.XA CN112307174A (zh) 2020-11-20 2020-11-20 多平台数据整合方法、装置、计算机设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011307127.XA CN112307174A (zh) 2020-11-20 2020-11-20 多平台数据整合方法、装置、计算机设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN112307174A true CN112307174A (zh) 2021-02-02

Family

ID=74336213

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011307127.XA Pending CN112307174A (zh) 2020-11-20 2020-11-20 多平台数据整合方法、装置、计算机设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN112307174A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112966504A (zh) * 2021-03-26 2021-06-15 深圳壹账通创配科技有限公司 名称识别及关联推荐方法、装置、计算机设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160328522A1 (en) * 2015-05-08 2016-11-10 YC Wellness, Inc. Integration platform and application interfaces for remote data management and security
CN108710609A (zh) * 2018-05-07 2018-10-26 南京邮电大学 一种基于多特征融合的社交平台用户信息的分析方法
CN109670135A (zh) * 2018-12-28 2019-04-23 北京金山安全软件有限公司 一种多平台文章发布方法、装置及电子设备
CN110134646A (zh) * 2019-05-24 2019-08-16 安徽芃睿科技有限公司 知识平台服务数据存储与集成方法及系统
CN110222918A (zh) * 2019-04-18 2019-09-10 重庆恢恢信息技术有限公司 基于云平台的智慧工地管理系统、服务器及存储介质
WO2019196228A1 (zh) * 2018-04-09 2019-10-17 平安科技(深圳)有限公司 制度信息处理方法、装置、计算机设备和存储介质
US20190325642A1 (en) * 2018-04-19 2019-10-24 Soletanche Freyssinet Computer platform for pooling and viewing digital data
WO2020138828A2 (ko) * 2018-12-28 2020-07-02 숙명여자대학교산학협력단 사물 인터넷을 이용한 통합 서비스 플랫폼 서버 및 통합 서비스 제공 방법
CN111651579A (zh) * 2020-06-03 2020-09-11 腾讯科技(深圳)有限公司 信息查询方法、装置、计算机设备和存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160328522A1 (en) * 2015-05-08 2016-11-10 YC Wellness, Inc. Integration platform and application interfaces for remote data management and security
WO2019196228A1 (zh) * 2018-04-09 2019-10-17 平安科技(深圳)有限公司 制度信息处理方法、装置、计算机设备和存储介质
US20190325642A1 (en) * 2018-04-19 2019-10-24 Soletanche Freyssinet Computer platform for pooling and viewing digital data
CN108710609A (zh) * 2018-05-07 2018-10-26 南京邮电大学 一种基于多特征融合的社交平台用户信息的分析方法
CN109670135A (zh) * 2018-12-28 2019-04-23 北京金山安全软件有限公司 一种多平台文章发布方法、装置及电子设备
WO2020138828A2 (ko) * 2018-12-28 2020-07-02 숙명여자대학교산학협력단 사물 인터넷을 이용한 통합 서비스 플랫폼 서버 및 통합 서비스 제공 방법
CN110222918A (zh) * 2019-04-18 2019-09-10 重庆恢恢信息技术有限公司 基于云平台的智慧工地管理系统、服务器及存储介质
CN110134646A (zh) * 2019-05-24 2019-08-16 安徽芃睿科技有限公司 知识平台服务数据存储与集成方法及系统
CN111651579A (zh) * 2020-06-03 2020-09-11 腾讯科技(深圳)有限公司 信息查询方法、装置、计算机设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
魏星等: "通信电源监控系统多平台整合的研究", 《通信电源技术》, pages 35 - 36 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112966504A (zh) * 2021-03-26 2021-06-15 深圳壹账通创配科技有限公司 名称识别及关联推荐方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN102171702B (zh) 机密信息的检测
CN112116436B (zh) 一种智能推荐方法、装置、计算机设备及可读存储介质
CN109194739A (zh) 一种文件上传方法、存储介质和服务器
CN112506925A (zh) 一种基于区块链的数据检索系统及方法
CN112307747A (zh) 车辆配件检索方法、装置、计算机设备及可读存储介质
CN112148701A (zh) 一种文件检索的方法及设备
CN112307174A (zh) 多平台数据整合方法、装置、计算机设备及可读存储介质
CN110222015A (zh) 一种文件数据的读取、查询方法、装置及可读存储介质
CN116663505B (zh) 一种基于互联网的评论区管理方法及系统
CN112364022A (zh) 信息推导管理方法、装置、计算机设备及可读存储介质
CN111694928A (zh) 数据指标推荐方法、装置、计算机设备及可读存储介质
CN110852893A (zh) 基于海量数据的风险识别方法、系统、设备及存储介质
CN114706948A (zh) 新闻处理方法、装置、存储介质以及电子设备
CN114625973A (zh) 一种匿名信息跨域推荐方法、装置、电子设备及存储介质
CN113742344A (zh) 电力系统数据的索引方法及装置
CN106815228B (zh) 搜索关键词的类名选取方法和装置
CN113723522B (zh) 异常用户的识别方法、装置、电子设备以及存储介质
CN110377584A (zh) 一种基于元数据的数据结构版本兼容的存取方法及装置
CN113836534B (zh) 一种病毒家族识别方法、系统、设备及计算机存储介质
CN112711480B (zh) 数据链路解析方法及系统
CN116860909B (zh) 基于生化知识图谱的数据存储方法、系统及存储介质
CN110968581B (zh) 数据存储方法及装置
CN110888977B (zh) 文本分类方法、装置、计算机设备和存储介质
US9116928B1 (en) Identifying features for media file comparison
CN112580336A (zh) 信息校准检索方法、装置、计算机设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned
AD01 Patent right deemed abandoned

Effective date of abandoning: 20240227