CN112015962A - 一种政务智能大数据中心体系架构 - Google Patents

一种政务智能大数据中心体系架构 Download PDF

Info

Publication number
CN112015962A
CN112015962A CN202010724535.9A CN202010724535A CN112015962A CN 112015962 A CN112015962 A CN 112015962A CN 202010724535 A CN202010724535 A CN 202010724535A CN 112015962 A CN112015962 A CN 112015962A
Authority
CN
China
Prior art keywords
data
government affair
government
preset
portrait
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010724535.9A
Other languages
English (en)
Inventor
赵普益
赵志军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Abbas Intelligent Technology Development Co ltd
Original Assignee
Beijing Abbas Intelligent Technology Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Abbas Intelligent Technology Development Co ltd filed Critical Beijing Abbas Intelligent Technology Development Co ltd
Priority to CN202010724535.9A priority Critical patent/CN112015962A/zh
Publication of CN112015962A publication Critical patent/CN112015962A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Abstract

本申请提出一种政务智能大数据中心体系架构,该方法包括:从内部业务系统、互联网网站及本地文件资源库获取政务源数据;根据预设语义分析模型对采集到的政务源数据进行处理,结合预设业务画像模型生成初步政务数据,支持数据检索和画像数据访问;根据预先训练的语义分析模型和预设数据标准,精细化处理政务源数据,结合预设业务画像模型生成精细政务数据,支持数据共享、统计、分析和挖掘;政务源数据、初步政务数据和精细政务数据存储在政务数据中心;获取政务数据中心运行的结果评估数据,根据结果评估数据优化政务数据中心的人工智能模型。本申请无需线下协商获取内部业务数据库,实现快速数据获取并提供检索服务功能。

Description

一种政务智能大数据中心体系架构
技术领域
本申请属于政务管理技术领域,具体涉及一种政务智能大数据中心体系架构。
背景技术
政务数据中心能够通过对数据的统计、分析及挖掘,为政务单位的日常经营提供数据支撑。随着“互联网+”时代的到来,全球数据爆发式增长,政务领域的数据也是集聚增长,合理利用政务领域的大数据,能够提高政务数据中心的政务服务能力,为用户提供更有效的数据支持。
政务大数据建设首先涉及政务单位的内部业务数据的采集共享。相关技术中通过ETL(Extract-transform-load,数据仓库技术)技术来获取政务单位的内部业务数据,ETL技术是面向结构化数据的采集和处理。但由于政务单位的内部业务数据涉及政务单位的商业机密,要想跨部门、跨机构、跨级别的获取业务的系统数据库非常困难,需要与政务单位进行协调,往往需要花费很长时间进行协调,而且协调之后也不一定能够获得,导致政务领域的内部业务数据无法融汇贯通。且获取到的数据需要经过很长时间的整理处理,才能提供给用户使用。
发明内容
本申请提出一种政务智能大数据中心体系架构,通过浏览器获取政务单位的内部业务系统的页面数据,通过大数据、人工智能技术,能高效地获得内部业务数据,无需线下协商来获取政务单位的内部数据库,提高了内部业务数据的获取效率。从内部业务系统、互联网网站及本地文件资源库获取到政务源数据后,通过关键词匹配、语义分析技术进行快速数据提取,很快的完成政务大数据的初步整理,以最快的速度和最小代价从政务源数据中快速形成初步的业务画像数据,实现了快速数据获取并为用户提供检索服务的功能。
本申请第一方面实施例提出了一种政务智能大数据中心体系架构方法,所述方法包括;
从内部业务系统、互联网网站及本地文件资源库获取政务源数据;
根据预设语义分析模型对采集到的政务源数据进行处理,结合预设的业务画像模型生成初步的政务数据,支持数据检索和画像数据访问;
根据预先训练的语义分析模型和预设的数据标准,对所述政务源数据进行精细化处理,结合预设的业务画像模型生成精细政务数据,支持数据共享、统计、分析和挖掘;
所述政务源数据、所述初步的政务数据和所述精细政务数据均存储在政务数据中心中;
自动获取所述政务数据中心运行过程对应的结果评估数据,根据所述结果评估数据优化所述政务数据中心中的人工智能模型。
本申请实施例第二方面的实施例提供了一种政务智能大数据中心体系架构装置,所述装置包括;
数据获取模块,用于从内部业务系统、互联网网站及本地文件资源库获取政务源数据;
初步整理模块,用于根据预设语义分析模型对采集到的政务源数据进行处理,结合预设的业务画像模型生成初步的政务数据,支持数据检索和画像数据访问;
精细处理模块,用于根据预先训练的语义分析模型和预设的数据标准,对所述政务源数据进行精细化处理,结合预设的业务画像模型生成精细政务数据,支持数据共享、统计、分析和挖掘;
存储模块,用于所述政务源数据、所述初步的政务数据和所述精细政务数据均存储在政务数据中心中;
优化模块,用于自动获取所述政务数据中心运行过程对应的结果评估数据,根据所述结果评估数据优化所述政务数据中心中的人工智能模型。
本申请第三方面的实施例提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序以实现上述第一方面所述的方法。
本申请第四方面的实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行实现上述第一方面所述的方法。
本申请实施例中提供的技术方案,至少具有如下技术效果或优点:
本申请实施例通过浏览器获取政务单位的内部业务系统的页面数据,无需进行线下协商以获取政务单位的内部业务系统的数据库,只需要通过浏览器访问内部业务系统获取页面数据,即可获得政务单位的内部业务数据,提高了内部业务数据的获取效率。从内部业务系统、互联网网站及本地文件资源库获取到政务源数据后,通过关键词匹配、语义分析技术进行快速数据提取,很快的完成政务大数据的初步整理,以最快的速度和最小代价从政务源数据中快速形成初步的业务画像数据,实现了快速数据获取并为用户提供检索服务的功能。之后对数据进行精细化处理,形成更精细准确合格的数据,在此基础上为用户提供各种维度的统计、分析、决策等服务。本申请实施例还对政务数据中心的人工智能模型进行不断的优化训练,不断提高政务数据中心的运行效率和准确性。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变的明显,或通过本申请的实践了解到。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本申请一实施例所提供的一种政务智能大数据中心体系架构方法的流程图;
图2示出了本申请一实施例所提供的一种政务智能大数据中心体系架构方法的另一流程图;
图3示出了本申请一实施例所提供的一种政务智能大数据中心体系架构装置的结构示意图;
图4示出了本申请一实施例所提供的一种电子设备的结构示意图;
图5示出了本申请一实施例所提供的一种存储介质的示意图。
具体实施方式
下面将参照附图更详细地描述本申请的示例性实施方式。虽然附图中显示了本申请的示例性实施方式,然而应当理解,可以以各种形式实现本申请而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本申请,并且能够将本申请的范围完整的传达给本领域的技术人员。
需要注意的是,除非另有说明,本申请使用的技术术语或者科学术语应当为本申请所属领域技术人员所理解的通常意义。
下面结合附图来描述本申请实施例提出的一种政务智能大数据中心体系架构。
本申请实施例提供了一种政务智能大数据中心体系架构方法,该方法通过合理地利用大数据、人工智能技术,有效结合政务行业特色和经验,配合以先进的构建理念,能够高效地获取到政务单位的内部业务系统的内部业务数据,不需要与政务单位进行线下协商,提高了内部业务数据的获取效率。
参见图1,该方法具体包括以下步骤;
步骤101:从内部业务系统、互联网网站及本地文件资源库获取政务源数据。
内部业务系统可以为政务单位的OA(Office Automation,办公自动化)系统、项目管理系统、财务系统、人事系统等等。用户在政务单位的内部业务系统注册账号之后,可以通过浏览器登录这些内部业务系统,浏览内部业务系统的政务页面。本申请实施例预先在政务单位的内部业务系统中注册用户账号,然后根据政务单位的内部业务系统的用户账号和用户密码,通过浏览器访问内部业务系统的政务页面。在浏览器展示内部业务系统的政务页面后,利用爬虫技术抓取政务页面的整个页面信息或局部页面信息,页面信息包括政务页面的页面链接、页面标题及文本内容等。
本申请实施例中还记录从内部业务系统获取页面信息而产生的第一运行数据,第一运行数据包括从内部业务系统中获取页面信息的时间、页面链接地址、页面标题、页面文本内容、获取的数据量、数据来源等,数据来源可以包括内部业务系统的名称和编码等。将第一运行数据存储在政务数据中心中,以便后续根据第一运行数据进行数据分析,优化从内部业务系统获取数据的效率。
本申请实施例还通过浏览器访问互联网网站,利用爬虫技术对互联网网站进行页面抓取,获得互联网网站上的政务相关数据,政务相关数据为互联网网站上的一些政务数据,例如政务相关数据可以为互联网网站上的科技会议新闻、政务单位的财务年报等。
本申请实施例还记录从互联网网站获取数据而产生的第二运行数据,第二运行数据包括从互联网网站中获取页面的时间、页面链接地址、页面标题、页面文本内容、获取的数据量、数据来源等,数据来源可以为互联网网站的网址及栏目编码。将第二运行数据存储在政务数据中心中,以便后续根据第二运行数据进行数据分析,优化从互联网网站获取数据的效率。
本申请实施例还通过文件传输协议及格式解析技术采集本地文件资源库中存储的本地文件,从本地文件中提取文件数据,文件数据包括文件标题、文件格式、文件大小、文本内容和图片。其中,本地文件可以为word、excel、ppt、pdf等格式的文件。对于从本地文件中提取的图片,还可以利用OCR(Optical Character Recognition,光学字符识别)技术提取出图片内的文本信息。
本申请实施例还记录从本地文件资源库获取数据而产生的第三运行数据,第三运行数据包括从本地文件资源库中获取文件的时间、文件名称、文件地址、文件文本内容、文件图片、获取的数据量等。将第三运行数据存储在政务数据中心中,以便后续根据第三运行数据进行数据分析,优化从本地文件资源库获取数据的效率。
通过上述方式获取政务单位的内部业务系统的页面数据,后续将这些数据处理为标准政务数据,如此无需进行线下协商以获取政务单位的内部业务系统的数据库,只需要通过浏览器访问内部业务系统获取页面数据,即可获得政务单位的内部业务数据,提高了内部业务数据的获取效率。
通过上述方式从内部业务系统、互联网网站及本地文件资源获取数据,合理综合运用相关技术可以仅需要少量人工配置即可快速完成大量的数据采集工作。从内部业务系统获取到数据之后,还可以通过快照技术生成获取的页面信息对应的内部系统页面。从互联网网站获取到数据之后,还可以通过快照技术生成获取的政务相关数据对应的外部网站页面,将内部系统页面和外部网站页面存储在政务数据中心中,以便后续可以直接查看内部系统页面和外部网站页面。
在从内部业务系统和互联网网站获取数据的过程中,还可以通过页面连接、页面内容比对并结合页面上相关的时间信息,来确定待抓取的页面是否为新的页面。如果确定出待抓取的页面是之前已抓取的页面,则不再进行抓取。若确定待抓取的页面是之前未抓取的新的页面,则抓取该新的页面的数据,从而在抓取时实现增量页面更新。
上述从内部业务系统采集的页面信息、从互联网网站采集的政务相关数据以及从本地文件资源库采集的文件数据,统称为政务源数据。将该政务源数据存储在政务数据中心中。
步骤102:根据预设语义分析模型对采集到的政务源数据进行处理,结合预设的业务画像模型生成初步的政务数据,支持数据检索和画像数据访问。
预设的业务画像模型是预先配置在政务数据中心中的,是根据用户单位所处行业、工作职责、年度工作重点及业务关注等方面建立起的用户关注的业务画像模型,业务画像模型可由可视化配置工具进行灵活配置。业务画像模型可以涉及业务对象、业务活动、关注新闻、热点事件等等。例如,科协单位关注的业务对象有全国性的学会200多家,某个学会的业务画像模型包括如下属性:学会名称、学会编号、学会简介、学会会员、学会组织、学会专家、学会活动、学会期刊等;每个属性还可以向下划分子属性,如学会会员下的子属性可以包括入会时间、会员姓名、会员类型、会员级别等等;属性的要素可以包括属性名称、属性编号、属性格式、属性约束等。这些业务画像模型代表了用户的核心业务和关注重点,并在这个基础上形成更深入的分析挖掘。
将步骤101采集的政务源数据通过ETL(Extract-Transform-Load,数据仓库技术)存储到政务大数据中心,并按采集时的数据来源、数据格式、数据类型进行区分。然后利用自然语言处理技术从政务源数据中快速提取或标注出用户关注的业务画像数据,以形成初步的政务大数据。
具体地,根据预设的业务画像模型,通过语义分析模型对政务源数据进行画像提取,得到画像实例数据;根据预设的业务画像模型对应的预设关键词组合,从政务源数据中搜索画像实例数据对应的画像关联数据;将画像实例数据及其对应的画像关联数据确定为初步的政务数据。
将第一步采集的数据通过ETL存储到大数据中心作为源数据层;利用自然语言处理的语义分析技术,根据预选设置好的用户关注的业务画像模型及画像对应的提取要素,使用通用模型对源数据层数据进行数据处理提取画像所需的数据,并存储成画像实例数据;再基于预设好的业务画像模型对应的关键词组合,通过关键词检索技术为画像获取匹配度相对较高的政务源数据作为画像关联数据,快速初步建立起基于业务画像的政务大数据。基于整理好的政务大数据,将画像实例数据以百度百科的形式展现给用户查看,在以类百度检索的方式供用户按任意关键词进行方便检索,利用用户在使用过程中的行为习惯和纠错反馈优化检索结果和画像数据。
在预先训练的模型基础上通过关键词匹配、语义分析技术进行快速数据提取,配合少量人工干预可以很快的完成政务大数据的初步整理,建立起政务源数据与业务画像之间的联系。本申请实施例形成了一套基于业务画像的快速整理的流程及工具,包括数据提取规则配置、进行数据提取预览、数据提取整理,以最快的速度和最小代价从政务源数据中快速形成初步的业务画像数据,业务画像数据以全面性为主准确率为辅。
通过上述方式生成初步的政务数据之后,还将政务源数据、初步的政务数据导入检索引擎;基于用户检索请求包括的关键词和/或业务画像,为用户提供政务数据检索服务;根据用户行为习惯信息和纠错反馈信息,优化检索结果和初步的政务数据。
将政务源数据与业务画像数据导入全文检索引擎,按着不同数据来源、数据类型、画像模型可实现一套动态自适应的通用的数据浏览与检索平台。通过该平台用户可以按不同数据来源、数据类型、业务画像来浏览和检索数据,快速获得数据的整体情况和对应有用的信息,对于不准确的地方用户可以通过纠错功能提供反馈信息。
步骤103:根据预先训练的语义分析模型和预设的数据标准,对政务源数据进行精细化处理,结合预设的业务画像模型生成精细政务数据,支持数据共享、统计、分析和挖掘。
上述预设数据标准规定了每条数据所需包括的数据属性,以及每个数据属性对应的数据形式。例如,对于人事方面,预设数据标准包括的数据属性可以包括姓名、年龄、性别、民族、联系电话、住址等,其中姓名对应的数据形式为中文简体字形式,年龄对应的数据形式为阿拉伯数字形式等。
根据预设的业务画像模型和预先训练的语义分析模型,从政务源数据中提取精确画像数据;根据预设的数据标准和精确画像数据,生成标准政务数据;根据标准政务数据,生成数据资源目录;根据标准政务数据、数据资源目录、预设共享服务模式和预设共享权限模式,生成数据共享服务;根据标准政务数据、数据资源目录及用户需求信息,生成统计分析数据;将精确画像数据、标准政务数据、数据资源目录、数据共享服务和统计分析数据确定为政务源数据对应的精细政务数据。
对于需要共享交换的数据、支撑统计分析的数据以及深度结合业务运营而做的画像分析等,对于数据的规范性和准确性有更高的要求,为此需要对数据进行精细化的处理。本申请实施例通过足够数量的训练数据有针对性训练形成更适用于用户业务数据的语义分析模型,从而可以从政务源数据中提取更精确的画像数据。通过预设好的数据标准对画像数据进行数据清洗、转换、加工处理以形成符合标准的数据。将整理好的符合标准的数据自动形成数据资源目录,并按预设的共享服务模式和共享权限模式自动生成数据共享服务。在此大数据基础上结合用户业务需求按预设的模型和各种机器算法进行数据的分类、聚类、分析及趋势预测等工作,形成对用户决策判断有直接价值的统计分析数据。
本申请实施例对政务源数据进行的精细化处理,具体可以细分为:建立元数据管理体系,进行元模型管理、元数据查询、元数据分析、元数据采集等工作,从而理性数据字典和数据来龙脉络;建立数据标准管理体系,形成标准设计、标准落地、标注评估、标准发布、历史版本等;标准分为基础数据标准、技术数据标准、指标数据标准等,目的是建立规范的数据标准,消除跨系统的非一致性;建立数据质量治理体系,通过制定质量规则、数据清洗匹配、检测方案、质量评估、数据整改、质量报告等,将杂乱的源数据变成符合标准和质量要求的干净数据;建立数据资产编目体系,通过设置资产类别、资产目录、资产权限、服务接口等,以支持数据资产方便安全地进行共享交换;通过进行数据地清洗补充、行业用语的配置、特定模型的训练增强语义分析的准确度。
随着数据整理越来越标准、准确,相应的业务画像也会随着完善调整,使得前面的通用数据浏览与检索平台可以反映出数据精细处理的效果。有了更精细准确合格的数据,在此基础上结合用户业务需求进行各种维度的统计分析,利用各种机器算法从中进行数据的分类、聚类以及趋势预测。
本申请实施例还根据上述生成的标准政务数据,生成标准政务数据对应的元数据,元数据中包括每个标准政务数据对应的描述信息,用于描述政务数据中心中存储的标准政务数据,如描述存储了哪些标准政务数据、标准政务数据的存储位置等。将生成的元数据存储在政务数据中心中,以便用户通过元数据快速浏览政务数据中心中存储的数据,或者通过元数据查找自己需要的标准政务数据。
有时用户需要把一些标准政务数据共享给其他人查看,只有用户指定的人才有权限查看共享的数据。用户可以向政务数据中心提交共享需求信息,该共享需求信息中包括用户需要共享的标准政务数据的索引信息以及对应的共享权限信息。其中,标准政务数据的索引信息可以为元数据中标准政务数据对应的描述信息。共享权限信息用于指定需要共享的标准政务数据的共享范围,如仅在财务部共享或在市场部共享等。政务数据中心根据存储的标准政务数据、元数据和用户的共享需求信息,生成共享目录,该共享目录中包括共享数据及其对应的共享权限信息。
具体地,根据用户的共享需求信息中包括的索引信息,从元数据中确定需共享的标准政务数据的存储位置。根据确定的存储位置从政务数据中心中获取对应的标准政务数据,根据获取的标准政务数据和共享需求信息中包括的共享权限信息,生成共享目录,该共享目录中包括需要共享的标准政务数据和共享权限信息。生成共享目之后,还可以将该共享目录发送给共享权限信息所指定的用户,以使具有共享权限的用户查看该共享目录中包括的需要共享的标准政务数据。
步骤104:政务源数据、初步的政务数据和精细政务数据均存储在政务数据中心中。
在政务数据中心中存储大量的政务源数据、初步的政务数据和精细政务数据之后,可以基于这些数据为用户提供数据分析、检索、数据挖掘、政务决策等服务。用户可以向政务数据中心提交业务需求信息,该业务需求信息用于表示用户对政务数据中心的政务服务的需求,如人事部门对政务数据中心的政务服务的需求可能偏向于人事管理,而财务部门对政务数据中心的政务服务的需求可能偏向于财务管理等。根据用户的业务需求信息,通过预设画像模型对精细政务数据进行数据画像处理,得到对应的政务数据画像。根据用户的业务需求信息得到的政务数据画像,是站在用户的角度看待政务业务,按照用户需求的业务重心对政务业务进行裁剪得到的符合用户需求的政务数据画像。
用户还可以在政务数据中心存储的数据的基础上,进行一些政务问题的答案检索。本申请实施例通过预设知识图谱模型对存储的数据进行图谱分析,得到对应的知识图谱。预设知识图谱可以为传统的知识图谱工具,得到的知识图谱刻画了政务数据之间的知识发展进程与结构关系。当接收到用户提交的政务问题检索请求时,可以根据用户提交的政务问题,在上述知识图谱中搜索该政务问题的答案。
在本申请实施例中,用户还可以向政务数据中心提交携带关键词的检索请求,政务中心根据用户提交的关键词搜索对应的政务数据。政务数据中心还可以根据用户的检索记录,生成用户行为数据。用户行为数据包括用户提交的关键词、检索结果、检索时间等。后续政务数据中心可以根据用户行为数据进行分析,优化政务数据中心提供的检索服务的准确性。
步骤105:自动获取政务数据中心运行过程对应的结果评估数据,根据结果评估数据优化政务数据中心中的人工智能模型。
自动收集在生产环境中人工智能实际运行产生的结果数据,利用预设评估模型进行初步的结果评估,再通过人工进行最终评判,形成结果评估数据。通过结果评估数据对政务数据中心中的人工智能模型进行训练学习;根据预设评分计算模型,对人工智能模型的训练效果进行评分;若评分结果达到预设阈值,则用训练后的人工智能模型替换政务数据中心中的原有人工智能模型;若评分结果未达到预设阈值,则根据政务数据中心运行产生的结果评估数据继续训练人工智能模型。
对于评估为错误的处理结果,通过生成相应的模拟训练数据(包含正确答案),输出给训练环境下的人工智能继续训练学习。自动收集在训练环境中人工智能训练产生的结果数据并生成结果评估数据,根据预设的评分计算模型自动给出人工智能训练效果的评分。如果评分达到一定标准,则提示可以将训练好的人工智能替换到生成环境中。对于评估为错误的处理结果,通过生成模拟训练数据的方式继续对人工智能进行训练。
本申请实施例将人工智能的训练与其在生产环境的运用有机结合,将训练优化常态化、自动化,将运行与训练的效果评估自动化、可视化,并通过这个过程不断积累训练数据与评估算法,从而不断促进人工智能训练的水平。
为了便于理解本申请实施例提供的方法,下面结合附图进行具体说明。如图2所示,政务数据中心可以划分为统一数据智能采集层、大数据智能中心和大数据智能应用三部分。其中,统一数据智能采集层包括:页面数据快采集、内部业务数据、外部互联网数据和结构化数据采集。大数据智能中心包括:原始数据采集、整理后数据、运行收集数据及智能大脑训练评估。其中,原始数据采集包括通过页面数据快速采集得到的页面数据,以及通过结构化数据采集得到的结构化数据。对页面数据及结构化数据进行清洗转化、语义分析、数据提取、数据融合之后得到整理后的标准数据、画像数据、知识图谱。运行收集数据包括用户行为数据、系统日志数据、分析挖掘数据、其他相关数据。大数据智能应用包括:类百度的检索功能、数据挖掘分析决策和其他智能应用专题。其中,类百度的检索功能包括基于原始采集数据的快速通用检索配置,以及基于整理后数据的定制检索。数据挖掘分析决策是利用整理后的数据进行挖掘分析的。
本申请实施例通过浏览器获取政务单位的内部业务系统的页面数据,无需进行线下协商以获取政务单位的内部业务系统的数据库,只需要通过浏览器访问内部业务系统获取页面数据,即可获得政务单位的内部业务数据,提高了内部业务数据的获取效率。从内部业务系统、互联网网站及本地文件资源库获取到政务源数据后,通过关键词匹配、语义分析技术进行快速数据提取,很快的完成政务大数据的初步整理,以最快的速度和最小代价从政务源数据中快速形成初步的业务画像数据,实现了快速数据获取并为用户提供检索服务的功能。之后对数据进行精细化处理,形成更精细准确合格的数据,在此基础上为用户提供各种维度的统计、分析、决策等服务。本申请实施例还对政务数据中心的人工智能模型进行不断的优化训练,不断提高政务数据中心的运行效率和准确性。
本申请实施例提供了一种政务智能大数据中心体系架构装置,该装置用于执行上述实施例所述的政务数据中心的构建方法,如图3所示,该装置包括;
数据获取模块301,用于从内部业务系统、互联网网站及本地文件资源库获取政务源数据;
初步整理模块302,用于根据预设语义分析模型对采集到的政务源数据进行处理,结合预设的业务画像模型生成初步的政务数据,支持数据检索和画像数据访问;
精细处理模块303,用于根据预先训练的语义分析模型和预设的数据标准,对政务源数据进行精细化处理,结合预设的业务画像模型生成精细政务数据,支持数据共享、统计、分析和挖掘;
存储模块304,用于政务源数据、初步的政务数据和精细政务数据均存储在政务数据中心中;
优化模块305,用于自动获取政务数据中心运行过程对应的结果评估数据,根据结果评估数据优化政务数据中心中的人工智能模型。
数据获取模块301,用于根据内部业务系统的用户账号,通过浏览器访问内部业务系统的政务页面;利用爬虫技术抓取政务页面的整个页面信息或局部页面信息,页面信息包括页面链接、页面标题及文本内容;利用爬虫技术对互联网网站进行页面抓取,获得互联网网站上的政务相关数据;通过文件传输协议及格式解析技术采集本地文件资源库中存储的本地文件,从本地文件中提取文件数据,文件数据包括文件标题、文件格式、文件大小、文本内容和图片。
该装置还包括:页面存储模块,用于通过快照技术生成页面信息对应的内部系统页面;通过快照技术生成政务相关数据对应的外部网站页面;将内部系统页面和外部网站页面存储在政务数据中心中。
初步整理模块302,用于根据预设的业务画像模型,通过语义分析模型对政务源数据进行画像提取,得到画像实例数据;根据预设的业务画像模型对应的预设关键词组合,从政务源数据中搜索画像实例数据对应的画像关联数据;将画像实例数据及其对应的画像关联数据确定为初步的政务数据。
该装置还包括:检索服务模块,用于将政务源数据、初步的政务数据导入检索引擎;基于用户检索请求包括的关键词和/或业务画像,为用户提供政务数据检索服务;根据用户行为习惯信息和纠错反馈信息,优化检索结果和初步的政务数据。
精细处理模块303,用于根据预设的业务画像模型和预先训练的语义分析模型,从政务源数据中提取精确画像数据;根据预设的数据标准和精确画像数据,生成标准政务数据;根据标准政务数据,生成数据资源目录;根据标准政务数据、数据资源目录、预设共享服务模式和预设共享权限模式,生成数据共享服务;根据标准政务数据、数据资源目录及用户需求信息,生成统计分析数据;将精确画像数据、标准政务数据、数据资源目录、数据共享服务和统计分析数据确定为政务源数据对应的精细政务数据。
优化模块305,用于通过结果评估数据对政务数据中心中的人工智能模型进行训练学习;根据预设评分计算模型,对人工智能模型的训练效果进行评分;若评分结果达到预设阈值,则用训练后的人工智能模型替换政务数据中心中的原有人工智能模型;若评分结果未达到预设阈值,则根据政务数据中心运行产生的结果评估数据继续训练人工智能模型。
本申请的上述实施例提供的政务智能大数据中心体系架构装置与本申请实施例提供的政务智能大数据中心体系架构方法出于相同的发明构思,具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。
本申请实施方式还提供一种与前述实施方式所提供的政务智能大数据中心体系架构方法对应的电子设备,以执行上政务智能大数据中心体系架构方法。本申请实施例不做限定。
请参考图4,其示出了本申请的一些实施方式所提供的一种电子设备的示意图。如图4所示,所述电子设备2包括:处理器200,存储器201,总线202和通信接口203,所述处理器200、通信接口203和存储器201通过总线202连接;所述存储器201中存储有可在所述处理器200上运行的计算机程序,所述处理器200运行所述计算机程序时执行本申请前述任一实施方式所提供的政务智能大数据中心体系架构方法。
其中,存储器201可能包含高速随机存取存储器(RAM:Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口203(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网、广域网、本地网、城域网等。
总线202可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中,存储器201用于存储程序,所述处理器200在接收到执行指令后,执行所述程序,前述本申请实施例任一实施方式揭示的所述政务智能大数据中心体系架构方法可以应用于处理器200中,或者由处理器200实现。
处理器200可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器200中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器200可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器201,处理器200读取存储器201中的信息,结合其硬件完成上述方法的步骤。
本申请实施例提供的电子设备与本申请实施例提供的政务智能大数据中心体系架构方法出于相同的发明构思,具有与其采用、运行或实现的方法相同的有益效果。
本申请实施方式还提供一种与前述实施方式所提供的政务智能大数据中心体系架构方法对应的计算机可读存储介质,请参考图5,其示出的计算机可读存储介质为光盘30,其上存储有计算机程序(即程序产品),所述计算机程序在被处理器运行时,会执行前述任意实施方式所提供的政务智能大数据中心体系架构方法。
需要说明的是,所述计算机可读存储介质的例子还可以包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。
本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的政务智能大数据中心体系架构方法出于相同的发明构思,具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。
需要说明的是:
在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备有固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本申请也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本申请的内容,并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本申请并帮助理解各个发明方面中的一个或多个,在上面对本申请的示例性实施例的描述中,本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本申请的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本申请的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的虚拟机的创建装置中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种政务智能大数据中心体系架构方法,其特征在于,所述方法包括;
从内部业务系统、互联网网站及本地文件资源库获取政务源数据;
根据预设语义分析模型对采集到的政务源数据进行处理,结合预设的业务画像模型生成初步的政务数据,支持数据检索和画像数据访问;
根据预先训练的语义分析模型和预设的数据标准,对所述政务源数据进行精细化处理,结合预设的业务画像模型生成精细政务数据,支持数据共享、统计、分析和挖掘;
所述政务源数据、所述初步的政务数据和所述精细政务数据均存储在政务数据中心中;
自动获取所述政务数据中心运行过程对应的结果评估数据,根据所述结果评估数据优化所述政务数据中心中的人工智能模型。
2.根据权利要求1所述的方法,其特征在于,所述从内部业务系统、互联网网站及本地文件资源库获取政务源数据,包括:
根据内部业务系统的用户账号,通过浏览器访问所述内部业务系统的政务页面;利用爬虫技术抓取所述政务页面的整个页面信息或局部页面信息,所述页面信息包括页面链接、页面标题及文本内容;
利用爬虫技术对互联网网站进行页面抓取,获得互联网网站上的政务相关数据;
通过文件传输协议及格式解析技术采集本地文件资源库中存储的本地文件,从所述本地文件中提取文件数据,所述文件数据包括文件标题、文件格式、文件大小、文本内容和图片。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
通过快照技术生成所述页面信息对应的内部系统页面;
通过快照技术生成所述政务相关数据对应的外部网站页面;
将所述内部系统页面和所述外部网站页面存储在所述政务数据中心中。
4.根据权利要求1所述的方法,其特征在于,所述根据预设语义分析模型对采集到的政务源数据进行处理,结合预设的业务画像模型生成初步的政务数据,支持数据检索和画像数据访问,包括:
根据预设的业务画像模型,通过语义分析模型对所述政务源数据进行画像提取,得到画像实例数据;
根据所述预设的业务画像模型对应的预设关键词组合,从所述政务源数据中搜索所述画像实例数据对应的画像关联数据;
将所述画像实例数据及其对应的画像关联数据确定为初步的政务数据。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
将所述政务源数据、所述初步的政务数据导入检索引擎;
基于用户检索请求包括的关键词和/或业务画像,为用户提供政务数据检索服务;
根据用户行为习惯信息和纠错反馈信息,优化检索结果和所述初步的政务数据。
6.根据权利要求1所述的方法,其特征在于,所述根据预先训练的语义分析模型和预设的数据标准,对所述政务源数据进行精细化处理,结合预设的业务画像模型生成精细政务数据,包括:
根据所述预设的业务画像模型和预先训练的语义分析模型,从所述政务源数据中提取精确画像数据;
根据预设的数据标准和所述精确画像数据,生成标准政务数据;
根据所述标准政务数据,生成数据资源目录;
根据所述标准政务数据、所述数据资源目录、预设共享服务模式和预设共享权限模式,生成数据共享服务;
根据所述标准政务数据、所述数据资源目录及用户需求信息,生成统计分析数据;
将所述精确画像数据、所述标准政务数据、所述数据资源目录、所述数据共享服务和所述统计分析数据确定为所述政务源数据对应的精细政务数据。
7.根据权利要求1所述的方法,其特征在于,所述根据所述结果评估数据优化所述政务数据中心中的人工智能模型,还包括:
通过所述结果评估数据对所述政务数据中心中的人工智能模型进行训练学习;
根据预设评分计算模型,对所述人工智能模型的训练效果进行评分;
若评分结果达到预设阈值,则用训练后的人工智能模型替换所述政务数据中心中的原有人工智能模型;
若所述评分结果未达到预设阈值,则根据所述政务数据中心运行产生的结果评估数据继续训练所述人工智能模型。
8.一种政务智能大数据中心体系架构装置,其特征在于,所述装置包括;
数据获取模块,用于从内部业务系统、互联网网站及本地文件资源库获取政务源数据;
初步整理模块,用于根据预设语义分析模型对采集到的政务源数据进行处理,结合预设的业务画像模型生成初步的政务数据,支持数据检索和画像数据访问;
精细处理模块,用于根据预先训练的语义分析模型和预设的数据标准,对所述政务源数据进行精细化处理,结合预设的业务画像模型生成精细政务数据,支持数据共享、统计、分析和挖掘;
存储模块,用于所述政务源数据、所述初步的政务数据和所述精细政务数据均存储在政务数据中心中;
优化模块,用于自动获取所述政务数据中心运行过程对应的结果评估数据,根据所述结果评估数据优化所述政务数据中心中的人工智能模型。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器运行所述计算机程序以实现如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行实现如权利要求1-7中任一项所述的方法。
CN202010724535.9A 2020-07-24 2020-07-24 一种政务智能大数据中心体系架构 Pending CN112015962A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010724535.9A CN112015962A (zh) 2020-07-24 2020-07-24 一种政务智能大数据中心体系架构

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010724535.9A CN112015962A (zh) 2020-07-24 2020-07-24 一种政务智能大数据中心体系架构

Publications (1)

Publication Number Publication Date
CN112015962A true CN112015962A (zh) 2020-12-01

Family

ID=73499941

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010724535.9A Pending CN112015962A (zh) 2020-07-24 2020-07-24 一种政务智能大数据中心体系架构

Country Status (1)

Country Link
CN (1) CN112015962A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112632607A (zh) * 2020-12-22 2021-04-09 中国建设银行股份有限公司 一种数据处理方法、装置及设备
CN113098913A (zh) * 2021-06-10 2021-07-09 睿至科技集团有限公司 基于数据共享服务平台的数据安全分析评估方法及系统
CN113254512A (zh) * 2021-04-26 2021-08-13 中国人民解放军军事科学院国防科技创新研究院 一种军民融合政策信息数据分析优化系统
CN113836191A (zh) * 2021-08-12 2021-12-24 中投国信(北京)科技发展有限公司 基于大数据的智能化业务处理方法及系统
CN114385609A (zh) * 2021-12-23 2022-04-22 北京北明数科信息技术有限公司 基于标签的政务事件处理系统、方法、设备及存储介质
WO2022116430A1 (zh) * 2020-12-02 2022-06-09 平安科技(深圳)有限公司 基于大数据挖掘的模型部署方法、装置、设备及存储介质
CN115730605A (zh) * 2022-11-21 2023-03-03 刘奕涵 基于多维信息的数据分析方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105069025A (zh) * 2015-07-17 2015-11-18 浪潮通信信息系统有限公司 一种大数据的智能聚合可视化与管控系统
CN105554070A (zh) * 2015-12-09 2016-05-04 北京中科云集科技有限公司 一种基于警务大数据中心服务建设的方法
CN106155817A (zh) * 2015-04-14 2016-11-23 腾讯科技(深圳)有限公司 业务信息处理方法、服务器及系统
CN108875014A (zh) * 2018-06-20 2018-11-23 大国创新智能科技(东莞)有限公司 基于大数据与人工智能的精准项目推荐方法和机器人系统
CN109710772A (zh) * 2018-11-13 2019-05-03 国云科技股份有限公司 一种基于深度学习的问答库知识管理系统及其实现方法
US20190197074A1 (en) * 2017-12-21 2019-06-27 Octraves Technology Sdn Bhd Big data analysis platform for travel and tourism
CN110110221A (zh) * 2019-03-22 2019-08-09 浙江非线数联科技有限公司 政务数据智能推荐方法和系统
CN110377752A (zh) * 2019-06-26 2019-10-25 广东鼎义互联科技股份有限公司 一种应用于政务大厅运营的知识库系统
CN110415831A (zh) * 2019-07-18 2019-11-05 天宜(天津)信息科技有限公司 一种医疗大数据云服务分析平台
CN110457351A (zh) * 2019-07-30 2019-11-15 江苏现代资产投资管理顾问有限公司 一种基于政府融资平台数据信息的管理系统及管理方法
CN111026804A (zh) * 2019-12-04 2020-04-17 深圳瑞力网科技有限公司 一种基于语义的大数据分析智能服务系统
CN111026948A (zh) * 2018-12-29 2020-04-17 苏州凌旭信息科技有限公司 服务于监察机关的数据查询系统

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106155817A (zh) * 2015-04-14 2016-11-23 腾讯科技(深圳)有限公司 业务信息处理方法、服务器及系统
CN105069025A (zh) * 2015-07-17 2015-11-18 浪潮通信信息系统有限公司 一种大数据的智能聚合可视化与管控系统
CN105554070A (zh) * 2015-12-09 2016-05-04 北京中科云集科技有限公司 一种基于警务大数据中心服务建设的方法
US20190197074A1 (en) * 2017-12-21 2019-06-27 Octraves Technology Sdn Bhd Big data analysis platform for travel and tourism
CN108875014A (zh) * 2018-06-20 2018-11-23 大国创新智能科技(东莞)有限公司 基于大数据与人工智能的精准项目推荐方法和机器人系统
CN109710772A (zh) * 2018-11-13 2019-05-03 国云科技股份有限公司 一种基于深度学习的问答库知识管理系统及其实现方法
CN111026948A (zh) * 2018-12-29 2020-04-17 苏州凌旭信息科技有限公司 服务于监察机关的数据查询系统
CN110110221A (zh) * 2019-03-22 2019-08-09 浙江非线数联科技有限公司 政务数据智能推荐方法和系统
CN110377752A (zh) * 2019-06-26 2019-10-25 广东鼎义互联科技股份有限公司 一种应用于政务大厅运营的知识库系统
CN110415831A (zh) * 2019-07-18 2019-11-05 天宜(天津)信息科技有限公司 一种医疗大数据云服务分析平台
CN110457351A (zh) * 2019-07-30 2019-11-15 江苏现代资产投资管理顾问有限公司 一种基于政府融资平台数据信息的管理系统及管理方法
CN111026804A (zh) * 2019-12-04 2020-04-17 深圳瑞力网科技有限公司 一种基于语义的大数据分析智能服务系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李永超 等: "基于公安大数据特征体系建设的方法研究", 《中国安防》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022116430A1 (zh) * 2020-12-02 2022-06-09 平安科技(深圳)有限公司 基于大数据挖掘的模型部署方法、装置、设备及存储介质
CN112632607A (zh) * 2020-12-22 2021-04-09 中国建设银行股份有限公司 一种数据处理方法、装置及设备
CN113254512A (zh) * 2021-04-26 2021-08-13 中国人民解放军军事科学院国防科技创新研究院 一种军民融合政策信息数据分析优化系统
CN113098913A (zh) * 2021-06-10 2021-07-09 睿至科技集团有限公司 基于数据共享服务平台的数据安全分析评估方法及系统
CN113836191A (zh) * 2021-08-12 2021-12-24 中投国信(北京)科技发展有限公司 基于大数据的智能化业务处理方法及系统
CN114385609A (zh) * 2021-12-23 2022-04-22 北京北明数科信息技术有限公司 基于标签的政务事件处理系统、方法、设备及存储介质
CN115730605A (zh) * 2022-11-21 2023-03-03 刘奕涵 基于多维信息的数据分析方法
CN115730605B (zh) * 2022-11-21 2024-02-02 暨南大学 基于多维信息的数据分析方法

Similar Documents

Publication Publication Date Title
US11874894B2 (en) Website builder with integrated search engine optimization support
CN112015962A (zh) 一种政务智能大数据中心体系架构
US9672283B2 (en) Structured and social data aggregator
US11899681B2 (en) Knowledge graph building method, electronic apparatus and non-transitory computer readable storage medium
US8756245B2 (en) Systems and methods for answering user questions
US8447758B1 (en) System and method for identifying documents matching a document metaprint
CN107205016B (zh) 物联网设备的检索方法
CN111460252B (zh) 一种基于网络舆情分析的自动化搜索引擎方法及系统
CN106383887A (zh) 一种环保新闻数据采集和推荐展示的方法及系统
CN110597981A (zh) 一种采用多策略自动生成摘要的网络新闻概要系统
CN111192176B (zh) 一种支持教育信息化评估的在线数据采集方法及装置
US20160299951A1 (en) Processing a search query and retrieving targeted records from a networked database system
CN111723256A (zh) 一种基于信息资源库的政务用户画像构建方法及其系统
Wang et al. Bilateral correspondence model for words-and-pictures association in multimedia-rich microblogs
Das et al. A CV parser model using entity extraction process and big data tools
WO2017107010A1 (zh) 基于事件回测的信息分析系统及方法
CN106934046A (zh) 一种出版物发行分析系统和方法
Ritze Web-scale web table to knowledge base matching
CN110020078B (zh) 一种生成相关性映射字典及其验证相关性的方法和相关装置
CN109948015B (zh) 一种元搜索列表结果抽取方法及系统
CN107807964B (zh) 数字内容排序方法、装置和计算机可读存储介质
US20180293299A1 (en) Query processing
Hyun et al. An image selection framework for automatic report generation
KR102434880B1 (ko) 멀티미디어 플랫폼 기반 지식 공유 서비스 제공 시스템
CN117112809B (zh) 一种知识追踪方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20201201