CN112199571A - 一种人工智能信息处理系统、方法及可读存储介质 - Google Patents

一种人工智能信息处理系统、方法及可读存储介质 Download PDF

Info

Publication number
CN112199571A
CN112199571A CN202011186199.3A CN202011186199A CN112199571A CN 112199571 A CN112199571 A CN 112199571A CN 202011186199 A CN202011186199 A CN 202011186199A CN 112199571 A CN112199571 A CN 112199571A
Authority
CN
China
Prior art keywords
information
crawling
model
cloud
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011186199.3A
Other languages
English (en)
Inventor
乌斯曼·可·尼亚齐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GUANGZHOU CCM INFORMATION SCIENCE AND Tech CO Ltd
Original Assignee
GUANGZHOU CCM INFORMATION SCIENCE AND Tech CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GUANGZHOU CCM INFORMATION SCIENCE AND Tech CO Ltd filed Critical GUANGZHOU CCM INFORMATION SCIENCE AND Tech CO Ltd
Priority to CN202011186199.3A priority Critical patent/CN112199571A/zh
Publication of CN112199571A publication Critical patent/CN112199571A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • G06F16/287Visualization; Browsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种人工智能信息处理系统、方法及可读存储介质,包括:对用户进行信息爬取时所得到的爬取信息进行类别划分与信息增强并上传至云端;获取云端针对信息增强后的爬取信息所创建的初始信息爬取模型,通过迭代法对各自的初始信息爬取模型进行训练,并将训练后的初始信息爬取模型发送至云端;云端通过融合算法对各中间件训练后的初始信息爬取模型进行融合得到目标信息爬取模型,并将该目标信息爬取模型下发至用户端进行互联网信息的爬取。本发明能够对当前海量的、无规则的数据进行准确爬取与分析,减少达到指定信息爬取精度所需的网络开销,满足了实际应用需求。

Description

一种人工智能信息处理系统、方法及可读存储介质
技术领域
本发明涉及信息处理技术领域,特别是涉及一种人工智能信息处理系统、方法及可读存储介质。
背景技术
互联网,又称国际网络,指的是网络与网络之间所串连成的庞大网络,这些网络以一组通用的协议相连,形成逻辑上的单一巨大国际网络。随着互联网技术的发展,近年来信息的传播也变得越来越快,互联网上的信息也越来越多,并且这些信息有着不同的文本格式及表现方式,且纷繁复杂。
目前,互联网上主要存在两种形式的信息,一种是结构化的信息,另外一种是非结构化的信息。对于结构化的信息,我们可以使用传统的网络爬取软件及数据分析软件即可完成信息的获取及相关分析。传统的爬取软件有火车头、八爪鱼等。传统的数据分析软件主要有Excel,SPSS,SAS等。
然而,随着大数据时代的到来,信息膨胀,对于这些海量的、无规则的数据,我们当前传统的分析技术是无法完成此数据分析需求的。若需要处理这些非结构化数据,需要拥有一个技术团队,对于企业而言,面临着技术成本高、操作难度大等问题。
发明内容
为了解决上述问题,本发明的目的是提供一种能够对当前海量的、无规则的数据进行准确爬取与分析,减少达到指定信息爬取精度所需的网络开销的人工智能信息处理系统、方法及可读存储介质。
根据本发明提供的人工智能信息处理系统,包括:
用户端,对用户进行信息爬取时所得到的爬取信息进行类别划分与信息增强并上传至云端;
中间件,获取云端针对信息增强后的爬取信息所创建的初始信息爬取模型,通过迭代法对各自的初始信息爬取模型进行训练,并将训练后的初始信息爬取模型发送至云端;
云端,通过融合算法对各中间件训练后的初始信息爬取模型进行融合得到目标信息爬取模型,并将该目标信息爬取模型下发至用户端进行互联网信息的爬取。
根据本发明提供的人工智能信息处理系统,首先用户端对用户进行信息爬取时所得到的爬取信息进行类别划分与信息增强后上传至云端,以使云端根据信息增强后的爬取信息创建中间件;中间件接收云端针对信息增强后的爬取信息所创建的初始信息爬取模型,并通过迭代法对各自的初始信息爬取模型进行训练,并将训练后的初始信息爬取模型发送至云端,使数据分布的不平衡性得到缓解,降低信息爬取模型的偏差并提升模型准确度,从而使该模型在不平衡爬取信息的情况下训练得到的信息爬取模型具有较高的信息爬取精度;云端通过融合算法对各中间件训练后的初始信息爬取模型进行融合得到目标信息爬取模型,并将该目标信息爬取模型下发至用户端进行互联网信息的爬取,从而使该信息爬取模型具有较高的信息爬取精度,并且减少了达到指定信息爬取精度所需的网络开销,满足了实际应用需求。
另外,根据本发明上述的人工智能信息处理系统,还可以具有如下附加的技术特征:
进一步地,所述用户端包括:
信息爬取子系统,获取用户当前所处的应用环境及所需爬取的爬取信息,并根据所述应用环境及爬取信息进行互联网信息的爬取;
信息处理子系统,对所述信息爬取子系统所爬取到的互联网信息进行识别、筛选与整理后上传至云端。
进一步地,所述信息爬取子系统包括:
结构化信息爬取装置,对用户所需进行信息爬取的网址进行识别与字段解析,爬取所有的第一字段信息,并将所述第一字段信息贮存到第一缓存库中,其中所述第一字段信息包括文字及数值;
非结构化信息爬取装置,对用户所需进行信息爬取的网址及关键词进行解析后,爬取所有的第二字段信息爬取下,并将所述第二字段信息贮存到第二缓存库中,其中所述第二字段信息包括文本、图片、音频及视频。
进一步地,所述信息处理子系统包括:
第一信息处理装置,将获取的关键词与第一缓存库中的第一字段信息进行精确匹配后形成结构化信息的表头字段,将调取到的第一字段信息的内容映射至相应的关键词下,生成结构化文档;
第二信息处理装置,根据语料库各级语料目录对所述第二字段信息进行细分、聚类、序列及关联处理,生成结构化文档,所述结构化文档中包含用户所需爬取的所有爬取信息。
进一步地,所述第二信息处理装置包括:
细分模块,根据用户端获取的关键词及语料库的最小颗粒度给第二字段信息贴上标签;
聚类模块,根据所述第二字段信息的标签及语料库上一级归类对所述第二字段信息的进行匹配以及分类;
序列模块,根据时间、空间及大小维度对所述第二字段信息进行排序;
关联模块,根据语料库各级目录之间的关系,对所述第二字段信息进行关联,其中包括包含与被包含、子父目录关系、上下游关系、化学关系、物理关系、生物关系。
进一步地,所述中间件包括:
调整模块,根据中间件中各中间单元的爬取信息的平衡度对各中间单元的用户端进行调整;
接收模块,接收云端向各中间单元下发的对应的初始信息爬取模型;
训练模块,根据用户端在上一轮训练的初始信息爬取模型、当前训练数据、初始信息爬取模型的学习率及损失函数对所述初始信息爬取模型进行训练,并将训练后的初始信息爬取模型发送至云端。
进一步地,所述调整模块包括:
计算单元,根据各中间单元的类别分布率与均匀类别分布率的离散率,计算各中间单元的爬取信息平衡度;
调整单元,根据各中间单元的爬取信息平衡度,获取所有未分配中间单元的用户端,根据未分配中间单元的用户端的类别分布率对中间单元的平衡度进行调整。
进一步地,所述云端包括:
接收模块,接收各中间单元进行模型更新后的所得到的更新信息爬取模型;
融合模块,将各更新信息爬取模型作为输入,通过联邦加权算法对各更新信息爬取模型进行融合,以得到目标信息爬取模型。
本发明的另一实施例提出一种人工智能信息处理方法种能够对当前海量的、无规则的数据进行准确爬取与分析,减少达到指定信息爬取精度所需的网络开销,提高了用户信息爬取体验的满意度。
根据本发明实施例的人工智能信息处理方法,所述方法包括如下步骤:
对用户进行信息爬取时所得到的爬取信息进行类别划分与信息增强并上传至云端;
获取云端针对信息增强后的爬取信息所创建的初始信息爬取模型,通过迭代法对各自的初始信息爬取模型进行训练,并将训练后的初始信息爬取模型发送至云端;
通过融合算法对各中间件训练后的初始信息爬取模型进行融合得到目标信息爬取模型,并向该目标信息爬取模型下发至用户端进行互联网信息的爬取。
本发明的另一个实施例还提出一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实施例了解到。
附图说明
图1是本发明第一实施例提出的人工智能信息处理系统的结构示意图;
图2是图1中用户端的具体结构框图;
图3是图1的中间件的具体结构框图;
图4是图1的云端的具体结构框图;
图5是本发明第二实施例提出的人工智能信息处理方法的流程图;
图6是图5中步骤S10的具体流程图;
图7是图5的步骤S20的具体流程图;
图8是图5的步骤S30的具体流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1至图4,本发明第一实施例提出的一种人工智能信息处理系统,其中,包括用户层,中间层,云端层。
用户层具有多个用户端,由多种具有通讯能力、数据分析处理及存储能力的用户端设备组成,包含便携个人计算机、智能手机、平板电脑等。各用户端自行维护一个本地爬取信息库,此爬取信息库存储在设备的存储器上,存储器包含闪存,固态硬盘,硬盘驱动器等。爬取信息的数据收集可以是通过网络下载的或由设备的信息采集设备收集的,如便携个人计算机从互联网上爬取的数据信息,将这部分数据将作为训练集,参与信息爬取模型训练。此外,用户端具备无线通讯能力,该通信可以通过蜂窝网络、无线局域网(Wi-Fi)建立。用户端能够向中间件和云端发送并接收数据。
中间层具有多个中间件计算设备,各中间件计算设备是具有计算、存储、通信能力的数字计算机,如个人电脑、工作站、服务器。中间件计算设备可以通过互联网与用户端设备和云端进行信息交互,可以读取和写入存储器。中间件计算设备运行计算机操作系统,使用操作系统提供的应用程序编程接口,系统能够创建并运行中间件。中间件对用户端设备的模型训练任务的调度包括接收网络传输的信息爬取模型,将模型保存至存储器,通过网络发送信息爬取模型到准备训练的用户端设备。
云端层具有一个或多个服务端,该服务端为云端服务器,是具有计算、存储、通信能力的数字计算机,如工作站、服务器、刀片服务器。云端服务器可以通过互联网与中间层件计算设备和用户端设备通信,可以读取和写入存储器。云端服务器运行计算机操作系统,使用操作系统提供的应用程序编程接口,创建有模型收集进程和模型融合融合进程。
可以理解的,单个用户端10完成模型训练后,发送模型权重至中间件20,中间件20将训练任务下发至下一个未执行训练任务的用户端10以进行异步模型更新。所有中间件20完成训练任务后,上传模型至云端30,云端30统一进行模型融合以进行模型的同步更新。
具体的,所述用户端10包括相互连接的信息爬取子系统11及信息处理子系统12。所述信息爬取子系统11用于获取用户当前所处的应用环境及所需爬取的爬取信息,并根据所述应用环境及爬取信息进行互联网信息的爬取,其中所需爬取的爬取信息可以根据用户的需求进行调整,即可以为关键字、音频、图片、视频、旋律、网址等,在此不作限制;所述信息处理子系统12以用于对所述信息爬取子系统11所爬取到的互联网信息进行识别、筛选与整理后上传至云端30。
进一步地,所述信息爬取子系统11包括结构化信息爬取装置111及非结构化信息爬取装置112。所述结构化信息爬取装置111用于对用户所需进行信息爬取的网址进行识别与字段解析后将所有的第一字段信息爬取下来,并贮存到第一缓存库中,其中所述第一字段信息包括文字及数值。所述非结构化信息爬取装置112用于对用户所需进行信息爬取的网址及关键词进行解析后将所有的第二字段信息爬取下来,贮存到第二缓存库中,其中所述第二字段信息包括文本、图片、音频及视频。
进一步地,所述信息处理子系统12包括第一信息处理装置121及第二信息处理装置122。所述第一信息处理装置121用于将获取的关键词与第一缓存库中的第一字段信息进行精确匹配后形成结构化信息的表头字段,将调取到的第一字段信息的内容映射至相应的关键词下,并进行结构化文档的生成。所述第二信息处理装置122用于根据语料库各级语料目录对所述第二字段信息进行细分、聚类、序列及关联处理后,进行结构化文档的生成,以便于直接向用户清楚的展示用户所爬取的爬取信息。可以理解的,所述结构化文档中包含用户所需爬取的所有爬取信息。
其中,所述第二信息处理装置122包括细分模块、聚类模块、序列模块及关联模块。所述细分模块用于根据用户端获取的关键词及语料库的最小颗粒度给第二字段信息贴上标签;所述聚类模块用于根据所述第二字段信息的标签及语料库上一级归类对所述第二字段信息的进行匹配以及分类;所述序列模块用于根据时间、空间及大小维度对进行匹配归类后的所述第二字段信息进行排序;所述关联模块用于根据语料库各级目录之间的关系,对所述第二字段信息进行关联,其中包括包含与被包含、子父目录关系、上下游关系、化学关系、物理关系、生物关系。可理解的,通过所述细分模块、聚类模块、序列模块及关联模块的设置,以便于根据对爬取的非结构化互联网信息进行入库与标准化处理,以便于用户查看。
具体的实施时,由于各用户端10每个类别的爬取信息的分布情况较为复杂,因此本申请通过为给各类爬取信息标注标签,根据各类标签中对应的爬取信息的出现频率来表示各类别的爬取信息的类别分布率,根据所有用户端10中各类别的爬取信息的出现频率的平均值及对应的当前用户端10的各类别的爬取信息的出现频率和增强系数,得到对应的增强倍数,从而实现度各用户端10中各类别的爬取信息进行增强,并将信息增强后的爬取信息通过相应的传输端口上传至云端30,也可以通过中间件20转发至云端30。
可以理解的,在本实施例中,当用户进行信息爬取时,根据用户当前所处的应用环境、用户输入的关键字(该关键字可以为一个或多个)、网址(若用户未输入网址,则默认为全网)进行信息的爬取,且爬取时会根据所需爬取的信息及相应的环境进行结构化信息及非结构化信息的爬取与存储,并对存储的爬取信息进行类别的划分与信息的增强。其中类别的划分及信息的增强可以为用户端根据云端下发的信息进行划分与增强,也可以为云端根据上传的爬取信息进行类别的划分(该信息类别包括结构化信息中各信息的类别,以及非结构化信息中各信息的类别)与信息的增强,并将划分与信息增强后的爬取信息进行覆盖与替换或者给出相应的信息类别与增强策略,且覆盖与替换可以为周期性的,也可以为实时。
进一步地,根据信息增强后的爬取信息创建多个中间件,且所述中间件能够获取云端针对信息增强后的爬取信息所创建的初始信息爬取模型,并将所述初始信息爬取模型下发至客户端,以便于各用户端根据初始信息爬取模型进行互联网信息的爬取,即各中间件对应的用户端通过初始信息爬取模型进行互联网信息爬取。同时所述中间件能够将初始信息爬取模型爬取的爬取信息进行整合后作为新的训练集以对该初始信息爬取模型进行不断的迭代训练,并能够将训练后的初始信息爬取模型发送至云端。
具体的,所述中间件20包括调整模块21、接收模块22及训练模块23。
进一步地,所述调整模块21用于根据中间件中各中间单元的爬取信息的平衡度对各中间单元的用户端进行调整。其中,所述调整模块21包括计算单元及调整单元。
如上所述,计算单元根据各中间单元的类别分布率与均匀类别分布率的离散率,计算各中间单元的爬取信息平衡度;通过调整单元根据各中间单元的爬取信息平衡度,获取所有未分配中间单元的用户端,根据未分配中间单元的用户端的类别分布率对中间单元的平衡度进行调整,为降低了模型的偏差并提升模型准确度提供必要条件。
具体的实施时,计算单元根据各中间单元中各类别爬取信息的类别分布率及所有中间单元中各类别爬取信息的平均类别分布率即均匀类别分布率之间的离散度,得到各中间单元的爬取信息平衡度;调整单元根据各中间单元的爬取信息平衡度及未分配中间单元的用户端的类别概分布率,对中间单元的客户端的数量进行调整,以实现各中间单元平衡度进行调整。
进一步地,所述接收模块22用于接收云端向各中间单元下发的对应的初始信息爬取模型。
如上所述,在调整模块21根据中间件中各中间单元的爬取信息的平衡度对各中间单元的用户端数量进行调整后,接收模块22接收云端30根据调整后中间件所下发的初始信息爬取模型。
进一步地,所述训练模块23用于根据用户端10在上一轮训练初始信息爬取模型、当前训练数据、初始信息爬取模型的学习率及损失函数对所述初始信息爬取模型进行训练,并将训练后的初始信息爬取模型发送至云端30。
如上所述,所述训练模块23根据上一轮训练初始信息爬取模型、当前训练数据、初始信息爬取模型的学习率及损失函数对所述初始信息爬取模型进行迭代训练,并将训练更新后的初始信息爬取模型即更新信息爬取模型上传至云端,使数据分布的不平衡性得到缓解,降低信息爬取模型的偏差并提升模型准确度,从而使该模型在不平衡爬取信息的情况下训练得到的信息爬取模型具有较高的信息爬取精度。
具体的,所述云端30包括接收模块31及融合模块32。所述接收模块31用于接收各中间单元进行模型更新后的所得到的更新信息爬取模型;所述融合模块32用于将各更新信息爬取模型作为输入,通过联邦加权算法对各更新信息爬取模型进行融合,以得到目标信息爬取模型。
可以理解,云端3根据各中间单元进行模型更新后的所得到的更新信息爬取模型、各中间单元中参与训练的用户端10的个数、各用户端10训练集与总训练集的比值对各中间单元的更新信息爬取模型进行联邦加权运算,从而得到目标信息爬取模型,并将该目标信息爬取模型下发至用户端进行互联网信息的爬取,从而使该信息爬取模型具有较高的信息爬取精度,并且减少了达到指定信息爬取精度所需的网络开销,满足了实际应用需求。
根据本发明提供的人工智能信息处理系统,先用户端对用户进行信息爬取时所得到的爬取信息进行类别划分与信息增强后上传至云端,以使云端根据信息增强后的爬取信息创建中间件;中间件接收云端针对信息增强后的爬取信息所创建的初始信息爬取模型,并通过迭代法对各自的初始信息爬取模型进行训练,并将训练后的初始信息爬取模型发送至云端,使数据分布的不平衡性得到缓解,降低信息爬取模型的偏差并提升模型准确度,从而使该模型在不平衡爬取信息的情况下训练得到的信息爬取模型具有较高的信息爬取精度;云端通过融合算法对各中间件训练后的初始信息爬取模型进行融合得到目标信息爬取模型,并将该目标信息爬取模型下发至用户端进行互联网信息的爬取,从而使该信息爬取模型具有较高的信息爬取精度,并且减少了达到指定信息爬取精度所需的网络开销,满足了实际应用需求。
请参阅图5至图8,基于同一发明构思,本发明第二实施例提供的人工智能信息处理方法,包括:
本发明第一实施例提出的一种人工智能信息处理系统,其中,包括步骤S10~S30:
步骤S10,对用户进行信息爬取时所得到的爬取信息进行类别划分与信息增强并上传至云端。
其中,步骤S10包括:
步骤S101,获取用户当前所处的应用环境及所需爬取的爬取信息,并根据所述应用环境及爬取信息进行互联网信息的爬取。
具体的,对用户所需进行信息爬取的网址进行识别与字段解析,爬取所有的第一字段信息,并将所述第一字段信息贮存到第一缓存库中,其中所述第一字段信息包括文字及数值;对用户所需进行信息爬取的网址及关键词进行解析后,爬取所有的第二字段信息爬取下,并将所述第二字段信息贮存到第二缓存库中,其中所述第二字段信息包括文本、图片、音频及视频。
步骤S102,获取云端针对信息增强后的爬取信息所创建的初始信息爬取模型,通过迭代法对各自的初始信息爬取模型进行训练,并将训练后的初始信息爬取模型发送至云端。
具体的,将获取的关键词与第一缓存库中的第一字段信息进行精确匹配后形成结构化信息的表头字段,将调取到的第一字段信息的内容映射至相应的关键词下,生成结构化文档;根据语料库各级语料目录对所述第二字段信息进行细分、聚类、序列及关联处理,生成结构化文档,所述结构化文档中包含用户所需爬取的所有爬取信息。
其中,根据语料库各级语料目录对所述第二字段信息进行细分、聚类、序列及关联处理后,进行结构化文档的生成的方法包括:根据用户端获取的关键词及语料库的最小颗粒度给第二字段信息贴上标签;根据所述第二字段信息的标签及语料库上一级归类对所述第二字段信息的进行匹配以及分类;根据时间、空间及大小维度对所述第二字段信息进行排序;根据语料库各级目录之间的关系,对所述第二字段信息进行关联,其中包括包含与被包含、子父目录关系、上下游关系、化学关系、物理关系、生物关系。
步骤S20,获取云端针对信息增强后的爬取信息所创建的初始信息爬取模型,通过迭代法对各自的初始信息爬取模型进行训练,并将训练后的初始信息爬取模型发送至云端。
其中,步骤S20包括:
步骤S201,根据中间件中各中间单元的爬取信息的平衡度对各中间单元的用户端进行调整。
具体的,根据各中间单元的类别分布率与均匀类别分布率的离散率,计算各中间单元的爬取信息平衡度;根据各中间单元的爬取信息平衡度,获取所有未分配中间单元的用户端,根据未分配中间单元的用户端的类别分布率对中间单元的平衡度进行调整。
步骤S202,接收云端向各中间单元下发的对应的初始信息爬取模型。
步骤S203,根据用户端在上一轮训练的初始信息爬取模型、当前训练数据、初始信息爬取模型的学习率及损失函数对所述初始信息爬取模型进行训练,并将训练后的初始信息爬取模型发送至云端。
步骤S30,通过融合算法对各中间件训练后的初始信息爬取模型进行融合得到目标信息爬取模型,并将该目标信息爬取模型下发至用户端进行互联网信息的爬取。
其中,步骤S30包括:
步骤S301,接收各中间单元进行模型更新后的所得到的更新信息爬取模型。
步骤S302,将各更新信息爬取模型作为输入,通过联邦加权算法对各更新信息爬取模型进行融合,以得到目标信息爬取模型。
根据本发明提供的人工智能信息处理方法,先用户端对用户进行信息爬取时所得到的爬取信息进行类别划分与信息增强后上传至云端,以使云端根据信息增强后的爬取信息创建中间件;中间件接收云端针对信息增强后的爬取信息所创建的初始信息爬取模型,并通过迭代法对各自的初始信息爬取模型进行训练,并将训练后的初始信息爬取模型发送至云端,使数据分布的不平衡性得到缓解,降低信息爬取模型的偏差并提升模型准确度,从而使该模型在不平衡爬取信息的情况下训练得到的信息爬取模型具有较高的信息爬取精度;云端通过融合算法对各中间件训练后的初始信息爬取模型进行融合得到目标信息爬取模型,并将该目标信息爬取模型下发至用户端进行互联网信息的爬取,从而使该信息爬取模型具有较高的信息爬取精度,并且减少了达到指定信息爬取精度所需的网络开销,满足了实际应用需求。
本发明实施例提出的人工智能信息处理方法的技术特征和技术效果与本发明实施例提出的系统相同,在此不予赘述。
此外,本发明的实施例还提出一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。
此外,本发明的实施例还提出一种缓存设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现上述方法的步骤。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种人工智能信息处理系统,其特征在于,包括:
用户端,对用户进行信息爬取时所得到的爬取信息进行类别划分与信息增强并上传至云端;
中间件,获取云端针对信息增强后的爬取信息所创建的初始信息爬取模型,通过迭代法对各自的初始信息爬取模型进行训练,并将训练后的初始信息爬取模型发送至云端;
云端,通过融合算法对各中间件训练后的初始信息爬取模型进行融合得到目标信息爬取模型,并将该目标信息爬取模型下发至用户端进行互联网信息的爬取。
2.根据权利要求1所述的人工智能信息处理系统,其特征在于,所述用户端包括:
信息爬取子系统,获取用户当前所处的应用环境及所需爬取的爬取信息,并根据所述应用环境及爬取信息进行互联网信息的爬取;
信息处理子系统,对所述信息爬取子系统所爬取到的互联网信息进行识别、筛选与整理后上传至云端。
3.根据权利要求2所述的人工智能信息处理系统,其特征在于,所述信息爬取子系统包括:
结构化信息爬取装置,对用户所需进行信息爬取的网址进行识别与字段解析,爬取所有的第一字段信息,并将所述第一字段信息贮存到第一缓存库中,其中所述第一字段信息包括文字及数值;
非结构化信息爬取装置,对用户所需进行信息爬取的网址及关键词进行解析后,爬取所有的第二字段信息爬取下,并将所述第二字段信息贮存到第二缓存库中,其中所述第二字段信息包括文本、图片、音频及视频。
4.根据权利要求2所述的人工智能信息处理系统,其特征在于,所述信息处理子系统包括:
第一信息处理装置,将获取的关键词与第一缓存库中的第一字段信息进行精确匹配后形成结构化信息的表头字段,将调取到的第一字段信息的内容映射至相应的关键词下,生成结构化文档;
第二信息处理装置,根据语料库各级语料目录对所述第二字段信息进行细分、聚类、序列及关联处理,生成结构化文档,所述结构化文档中包含用户所需爬取的所有爬取信息。
5.根据权利要求1所述的人工智能信息处理系统,其特征在于,所述第二信息处理装置包括:
细分模块,根据用户端获取的关键词及语料库的最小颗粒度给第二字段信息贴上标签;
聚类模块,根据所述第二字段信息的标签及语料库上一级归类对所述第二字段信息的进行匹配以及分类;
序列模块,根据时间、空间及大小维度对所述第二字段信息进行排序;
关联模块,根据语料库各级目录之间的关系,对所述第二字段信息进行关联,其中包括包含与被包含、子父目录关系、上下游关系、化学关系、物理关系、生物关系。
6.根据权利要求1所述的人工智能信息处理系统,其特征在于,所述中间件包括:
调整模块,根据中间件中各中间单元的爬取信息的平衡度对各中间单元的用户端进行调整;
接收模块,接收云端向各中间单元下发的对应的初始信息爬取模型;
训练模块,根据用户端在上一轮训练的初始信息爬取模型、当前训练数据、初始信息爬取模型的学习率及损失函数对所述初始信息爬取模型进行训练,并将训练后的初始信息爬取模型发送至云端。
7.根据权利要求1所述的人工智能信息处理系统,其特征在于,所述调整模块包括:
计算单元,根据各中间单元的类别分布率与均匀类别分布率的离散率,计算各中间单元的爬取信息平衡度;
调整单元,根据各中间单元的爬取信息平衡度,获取所有未分配中间单元的用户端,根据未分配中间单元的用户端的类别分布率对中间单元的平衡度进行调整。
8.根据权利要求1所述的人工智能信息处理系统,其特征在于,所述云端包括:
接收模块,接收各中间单元进行模型更新后的所得到的更新信息爬取模型;
融合模块,将各更新信息爬取模型作为输入,通过联邦加权算法对各更新信息爬取模型进行融合,以得到目标信息爬取模型。
9.一种人工智能信息处理方法,其特征在于,所述方法包括如下步骤:
对用户进行信息爬取时所得到的爬取信息进行类别划分与信息增强并上传至云端;
获取云端针对信息增强后的爬取信息所创建的初始信息爬取模型,通过迭代法对各自的初始信息爬取模型进行训练,并将训练后的初始信息爬取模型发送至云端;
通过融合算法对各中间件训练后的初始信息爬取模型进行融合得到目标信息爬取模型,并向该目标信息爬取模型下发至用户端进行互联网信息的爬取。
10.一种可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求9所述的人工智能信息处理方法。
CN202011186199.3A 2020-10-29 2020-10-29 一种人工智能信息处理系统、方法及可读存储介质 Pending CN112199571A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011186199.3A CN112199571A (zh) 2020-10-29 2020-10-29 一种人工智能信息处理系统、方法及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011186199.3A CN112199571A (zh) 2020-10-29 2020-10-29 一种人工智能信息处理系统、方法及可读存储介质

Publications (1)

Publication Number Publication Date
CN112199571A true CN112199571A (zh) 2021-01-08

Family

ID=74012108

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011186199.3A Pending CN112199571A (zh) 2020-10-29 2020-10-29 一种人工智能信息处理系统、方法及可读存储介质

Country Status (1)

Country Link
CN (1) CN112199571A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113297842A (zh) * 2021-05-25 2021-08-24 湖北师范大学 文本数据增强方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105677921A (zh) * 2016-03-18 2016-06-15 上海珍岛信息技术有限公司 一种互联网舆情数据的获取方法及系统
CN111222028A (zh) * 2020-01-10 2020-06-02 四川日报社 一种数据智能爬取方法
CN111523165A (zh) * 2020-04-16 2020-08-11 刘小刚 一种基于深度学习的建筑辅助设计方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105677921A (zh) * 2016-03-18 2016-06-15 上海珍岛信息技术有限公司 一种互联网舆情数据的获取方法及系统
CN111222028A (zh) * 2020-01-10 2020-06-02 四川日报社 一种数据智能爬取方法
CN111523165A (zh) * 2020-04-16 2020-08-11 刘小刚 一种基于深度学习的建筑辅助设计方法及系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113297842A (zh) * 2021-05-25 2021-08-24 湖北师范大学 文本数据增强方法

Similar Documents

Publication Publication Date Title
CN108021929B (zh) 基于大数据的移动端电商用户画像建立与分析方法及系统
CN107871166B (zh) 针对机器学习的特征处理方法及特征处理系统
CN110598157B (zh) 目标信息识别方法、装置、设备及存储介质
US20100036883A1 (en) Advertising using image comparison
CN111061956B (zh) 用于生成信息的方法和装置
WO2022252363A1 (zh) 数据处理方法、计算机设备以及可读存储介质
CN112104642B (zh) 一种异常账号确定方法和相关装置
US20180012237A1 (en) Inferring user demographics through categorization of social media data
US10678821B2 (en) Evaluating theses using tree structures
US20200349226A1 (en) Dictionary Expansion Using Neural Language Models
CN111429161B (zh) 特征提取方法、特征提取装置、存储介质及电子设备
CN109819002B (zh) 数据推送方法和装置、存储介质及电子装置
CN112104505A (zh) 应用推荐方法、装置、服务器和计算机可读存储介质
CN114398973A (zh) 一种媒体内容标签识别方法、装置、设备及存储介质
CN112199571A (zh) 一种人工智能信息处理系统、方法及可读存储介质
US11962817B2 (en) Machine learning techniques for advanced frequency management
CN110852078A (zh) 生成标题的方法和装置
CN111538859B (zh) 一种动态更新视频标签的方法、装置及电子设备
CN111639260B (zh) 内容推荐方法及其装置、存储介质
CN111652741B (zh) 用户偏好分析方法、装置及可读存储介质
CN112231299A (zh) 一种特征库动态调整的方法和装置
CN112905885A (zh) 向用户推荐资源的方法、装置、设备、介质和程序产品
CN114021739B (zh) 业务处理、业务处理模型训练方法、装置及电子设备
CN110929175A (zh) 对用户评价进行评估的方法、装置、系统及介质
CN113707323B (zh) 基于机器学习的疾病预测方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination