CN114625989A - 一种基于卷积神经网络的数据分析方法及系统 - Google Patents

一种基于卷积神经网络的数据分析方法及系统 Download PDF

Info

Publication number
CN114625989A
CN114625989A CN202210525895.5A CN202210525895A CN114625989A CN 114625989 A CN114625989 A CN 114625989A CN 202210525895 A CN202210525895 A CN 202210525895A CN 114625989 A CN114625989 A CN 114625989A
Authority
CN
China
Prior art keywords
url
text file
social security
enterprise
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210525895.5A
Other languages
English (en)
Inventor
刘涛
郑维
邓中博
唐继薇
李静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guoneng Daduhe Big Data Service Co ltd
Original Assignee
Guoneng Daduhe Big Data Service Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guoneng Daduhe Big Data Service Co ltd filed Critical Guoneng Daduhe Big Data Service Co ltd
Priority to CN202210525895.5A priority Critical patent/CN114625989A/zh
Publication of CN114625989A publication Critical patent/CN114625989A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请实施例公开了一种基于卷积神经网络的数据分析方法及系统,属于数据管理技术领域,其中,一种基于卷积神经网络的数据分析系统,包括:按照预设规则从至少一个目标网站获取至少一份待分类文本文件;基于文本分类模型确定每份待分类文本文件的类别,获取至少一份社保优惠政策文本文件;按照社保优惠政策文本文件对应的类别分类存储在优惠政策数据库中;从用户终端获取至少一个企业的相关信息;对于每个企业,根据企业的相关信息,从优惠政策数据库中获取与企业的相关信息对应的目标社保优惠政策文本文件;将目标社保优惠政策文本文件发送至用户终端,具有收集并整理社保优惠政策,与国家政策动态匹配,提高企业效率的优点。

Description

一种基于卷积神经网络的数据分析方法及系统
技术领域
本发明主要涉及数据管理技术领域,具体地说,涉及一种基于卷积神经网络的数据分析方法及系统。
背景技术
企业的社保数据跨越多个地市(州),各地市(州)的社保政策有差异,有些会有社保优惠政策,现有技术中,通过人工去搜集整理相关信息,效率较低,且容易发生错误。
因此,需要提供一种基于卷积神经网络的数据分析方法及系统,用于收集并整理社保优惠政策,与国家政策动态匹配,提高企业效率。
发明内容
为了解决现有技术中,人工搜集整理相关信息,导致社保缴纳效率较低,且容易发生错误,本说明书实施例之一提供一种基于卷积神经网络的数据分析方法,包括:按照预设规则从至少一个目标网站获取至少一份待分类文本文件;基于文本分类模型确定每份所述待分类文本文件的类别,获取至少一份社保优惠政策文本文件;对于每份所述社保优惠政策文本文件,将所述社保优惠政策文本文件分类存储在优惠政策数据库中;从用户终端获取至少一个企业的相关信息;对于每个所述企业,根据所述企业的相关信息,从所述优惠政策数据库中获取与所述企业的相关信息对应的目标社保优惠政策文本文件;将所述目标社保优惠政策文本文件发送至所述用户终端。
可以理解的,本说明书实施例之一提供一种基于卷积神经网络的数据分析方法通过预设规则从至少一个目标网站获取至少一份待分类文本文件,通过文本分类模型确定每份待分类文本文件是否为社保优惠政策文本文件,并基于至少一个企业的相关信息,获取对应的目标社保优惠政策文本文件,将目标社保优惠政策文本文件主动推送给企业,便于企业及时知晓可用的社保优惠政策,提高企业效率。
在一些实施例中,所述按照预设规则从至少一个目标网站获取至少一份社保优惠政策文本文件,包括:按照预设规则基于爬虫从至少一个目标网站获取至少一个初始父URL;对所述至少一个初始父URL进行筛选,获取至少一个待去重父URL;去所述至少一个待去重父URL进行去重,获取至少一个待下载父URL;从所述至少一个待下载父URL获取至少一个初始子URL;对所述至少一个初始子URL进行筛选,获取至少一个待下载子URL;对所述至少一个待下载父URL和所述至少一个待下载子URL进行去重,获取至少一个目标URL;基于所述至少一个目标URL,获取至少一份所述社保优惠政策文本文件。
在一些实施例中,所述基于文本分类模型确定所述待分类文本文件的类别,包括:基于独热编码将所述待分类文本文件转换为数值型数据;基于Word2Vec模型将所述数值型数据转化为二维词矩阵,所述二维词矩阵由多个词向量构成;通过所述文本分类模型基于所述二维词矩阵确定所述社保优惠政策文本文件的类别。
在一些实施例中,所述文本分类模型包括输入层、卷积层、激活函数层、池化层及全连接层。
在一些实施例中,所述企业的相关信息至少包括所在地、资产总额、类型、从业人数及税收指标。
本说明书实施例之一提供一种基于卷积神经网络的数据分析系统,包括:文件获取模块,用于按照预设规则从至少一个目标网站获取至少一份待分类文本文件;类别确定模块,用于基于文本分类模型确定每份所述待分类文本文件的类别,获取至少一份社保优惠政策文本文件;文件存储模块,将所述社保优惠政策文本文件分类存储在优惠政策数据库中;信息获取模块,用于从用户终端获取至少一个企业的相关信息;文件查找模块,用于对于每个所述企业,根据所述企业的相关信息,从所述优惠政策数据库中获取与所述企业的相关信息对应的目标社保优惠政策文本文件;文件推送模块,用于将所述目标社保优惠政策文本文件发送至所述用户终端。
在一些实施例中,所述文件获取模块还用于:按照预设规则基于爬虫从至少一个目标网站获取至少一个初始父URL;对所述至少一个初始父URL进行筛选,获取至少一个待去重父URL;去所述至少一个待去重父URL进行去重,获取至少一个待下载父URL;从所述至少一个待下载父URL获取至少一个初始子URL;对所述至少一个初始子URL进行筛选,获取至少一个待下载子URL;对所述至少一个待下载父URL和所述至少一个待下载子URL进行去重,获取至少一个目标URL;基于所述至少一个目标URL,获取至少一份所述社保优惠政策文本文件。
在一些实施例中,所述类别确定模块还用于:基于独热编码将所述待分类文本文件转换为数值型数据;基于Word2Vec模型将所述数值型数据转化为二维词矩阵,所述二维词矩阵由多个词向量构成;通过所述文本分类模型基于所述二维词矩阵确定所述待分类文本文件的类别。
在一些实施例中,所述文本分类模型包括输入层、卷积层、激活函数层、池化层及全连接层。
在一些实施例中,所述企业的相关信息至少包括所在地、资产总额、类型、从业人数及税收指标。
附图说明
本申请将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:
图1是根据本申请一些实施例所示的一种基于卷积神经网络的数据分析系统的应用场景示意图;
图2是根据本申请一些实施例所示的一种基于卷积神经网络的数据分析系统的示例性框图;
图3是根据本申请一些实施例所示的一种基于卷积神经网络的数据分析方法的示例性流程图;
图4是根据本申请一些实施例所示的从至少一个目标网站获取至少一份社保优惠政策文本文件的示例性流程图;
图5是根据本申请一些实施例所示的对至少一个初始父URL进行筛选的示例性流程图;
图6是根据本申请一些实施例所示的基于文本分类模型确定待分类文本文件的类别的示例性流程图。
图中,100、基于卷积神经网络的数据分析系统;110、处理设备;120、网络;130、用户终端;140、存储设备。
具体实施方式
为了更清楚地说明本申请的实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。应当理解,给出这些示例性的实施例仅仅是为了使相关领域的技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。
应当理解,本文使用的“系统”、“装置”、“单元”和/或“模块”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。
如本申请和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。
虽然本申请对根据本申请的实施例的系统中的某些模块或单元做出了各种引用,然而,任何数量的不同模块或单元可以被使用并运行在客户端和/或服务器上。所述模块仅是说明性的,并且所述系统和方法的不同方面可以使用不同模块。
本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
图1是根据本申请一些实施例所示的一种基于卷积神经网络的数据分析系统的应用场景示意图。
如图1所示,应用场景可以包括处理设备110、网络120、用户终端130和存储设备140。
在一些实施例中,处理设备110可以用于处理与数据分析相关的信息和/或数据。例如,处理设备110可以按照预设规则从至少一个目标网站获取至少一份社保优惠政策文本文件;基于文本分类模型确定每份社保优惠政策文本文件的类别;对于每份社保优惠政策文本文件,按照社保优惠政策文本文件对应的类别分类存储在优惠政策数据库中;从用户终端130获取至少一个企业的相关信息;对于每个企业,根据企业的相关信息,从优惠政策数据库中获取与企业的相关信息对应的目标社保优惠政策文本文件;将目标社保优惠政策文本文件发送至用户终端130。处理设备110更多的描述可以参见本申请其他部分的描述。例如,图2、3及其描述。
在一些实施例中,处理设备110可以是区域的或者远程的。例如,处理设备110可以通过网络120访问存储于用户终端130和存储设备140中的信息和/或资料。在一些实施例中,处理设备110可以直接与用户终端130和存储设备140连接以访问存储于其中的信息和/或资料。在一些实施例中,处理设备110可以在云平台上执行。例如,该云平台可以包括私有云、公共云、混合云、社区云、分散式云、内部云等中的一种或其任意组合。
在一些实施例中,处理设备110可以包含处理器,处理器可以包含一个或多个子处理器(例如,单芯处理设备或多核多芯处理设备)。仅仅作为范例,处理器可包含中央处理器(CPU)、专用集成电路(ASIC)、专用指令处理器(ASIP)、图形处理器(GPU)、物理处理器(PPU)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编辑逻辑电路(PLD)、控制器、微控制器单元、精简指令集电脑(RISC)、微处理器等或以上任意组合。
网络120可促进应用场景中数据和/或信息的交换。在一些实施例中,应用场景中的一个或多个组件(例如,处理设备110、用户终端130和存储设备140)可以通过网络120发送数据和/或信息给应用场景中的其他组件。例如,存储设备140存储的至少一份社保优惠政策文本文件可以通过网络120传输至处理设备110。又例如,处理设备110可以通过网络120将与企业的相关信息对应的目标社保优惠政策文本文件传输至用户终端130。在一些实施例中,网络120可以是任意类型的有线或无线网络。例如,网络120可以包括缆线网络、有线网络、光纤网络、电信网络、内部网络、网际网络、区域网络(LAN)、广域网络(WAN)、无线区域网络(WLAN)、都会区域网络(MAN)、公共电话交换网络(PSTN)、蓝牙网络、ZigBee网络、近场通讯(NFC)网络等或以上任意组合。
在一些实施例中,用户终端130可以获取应用场景中的信息或数据。例如,用户终端130可以通过网络120将至少一个企业的相关信息传输至处理设备110。又例如,用户终端130可以通过网络120从处理设备110获取与企业的相关信息对应的目标社保优惠政策文本文件。在一些实施例中,用户终端130可以包括移动装置、平板电脑、笔记本电脑等中的一种或其任意组合。
在一些实施例中,存储设备140可以与网络120连接以实现与应用场景的一个或多个组件(例如,处理设备110、用户终端130等)通讯。应用场景的一个或多个组件可以通过网络120访问存储于存储设备140中的资料或指令。在一些实施例中,存储设备140可以直接与应用场景中的一个或多个组件(如,处理设备110、用户终端130)连接或通讯。在一些实施例中,存储设备140可以是处理设备110的一部分。
应该注意的是,上述描述仅出于说明性目的而提供,并不旨在限制本申请的范围。对于本领域普通技术人员而言,在本申请内容的指导下,可做出多种变化和修改。可以以各种方式组合本申请描述的示例性的实施例的特征、结构、方法和其他特征,以获得另外的和/或替代的示例性的实施例。例如,存储设备140可以是包括云计算平台的数据存储设备,例如公共云、私有云、社区和混合云等。然而,这些变化与修改不会背离本申请的范围。
图2是根据本申请一些实施例所示的一种基于卷积神经网络的数据分析系统的示例性框图。
如图2所示,一种基于卷积神经网络的数据分析系统可以包括文件获取模块、类别确定模块、文件存储模块、信息获取模块、文件查找模块及文件推送模块。
文件获取模块可以用于按照预设规则从至少一个目标网站获取至少一份社保优惠政策文本文件。
类别确定模块可以用于基于文本分类模型确定每份社保优惠政策文本文件的类别。
文件存储模块可以用于对于每份社保优惠政策文本文件,按照社保优惠政策文本文件对应的类别分类存储在优惠政策数据库中。
信息获取模块可以用于从用户终端130获取至少一个企业的相关信息。
文件查找模块可以用于对于每个企业,根据企业的相关信息,从优惠政策数据库中获取与企业的相关信息对应的目标社保优惠政策文本文件。
文件推送模块可以用于将目标社保优惠政策文本文件发送至用户终端130。
关于文件获取模块、类别确定模块、文件存储模块、信息获取模块、文件查找模块及文件推送模块的更多描述可以参见图2及其相关描述,此处不再赘述。
图3是根据本申请一些实施例所示的一种基于卷积神经网络的数据分析方法的示例性流程图。如图3所示,一种基于卷积神经网络的数据分析方法包括下述步骤。在一些实施例中,一种基于卷积神经网络的数据分析方法可以被实现在处理设备110上。
步骤310,按照预设规则从至少一个目标网站获取至少一份待分类文本文件。在一些实施例中,步骤310可以由文件获取模块执行。
预设规则可以为文件获取模块从至少一个目标网站获取至少一份社保优惠政策文本文件相关的规则。预设规则可以包括文件获取模块从至少一个目标网站获取至少一份社保优惠政策文本文件的周期等。在一些实施例中,预设规则可以包括:每隔一段时间(例如,半个月)执行一次从至少一个目标网站获取至少一份社保优惠政策文本文件。可以理解的,为了保证文件的可用性,文件获取模块可以在不同的时间节点重复执行从至少一个目标网站获取至少一份社保优惠政策文本文件,以使得推送给用户终端130的目标社保优惠政策文本文件包括行政机关发布的当前的社保优惠政策。
在一些实施例中,为了减少文件的重复,预设规则还可以为:从至少一个目标网站获取至少一份在当前周期内发布的社保优惠政策文本文件,其中,当前周期与当前的时间有关,例如,当前周期可以为以当前时间为截至时间的一段时间。例如,当前时间为2022年3月20日,则当前周期可以为2022年3月6日至2022年3月20日。
在一些实施例中,文件获取模块可以从处理设备110、用户终端130、存储设备140或外部数据源获取预设规则。
目标网站可以为行政机关的官网。待分类文本文件可以为在目标网站上上传的由若干行字符构成的计算机文件。
参照图4,在一些实施例中,文件获取模块按照预设规则从至少一个目标网站获取至少一份社保优惠政策文本文件可以包括:
按照预设规则基于爬虫从至少一个目标网站获取至少一个初始父URL;
对至少一个初始父URL进行筛选,获取至少一个待去重父URL;
去至少一个待去重父URL进行去重,获取至少一个待下载父URL;
从至少一个待下载父URL获取至少一个初始子URL;
对至少一个初始子URL进行筛选,获取至少一个待下载子URL;
对至少一个待下载父URL和至少一个待下载子URL进行去重,获取至少一个目标URL;
基于至少一个目标URL,获取至少一份社保优惠政策文本文件。
例如,可以基于爬虫从至少一个目标网站获取在当前周期内发布的至少一个网页的URL作为至少一个初始父URL;
对至少一个初始父URL进行筛选,获取至少一个待去重父URL;
去至少一个待去重父URL进行去重,获取至少一个待下载父URL;
从至少一个待下载父URL获取至少一个初始子URL;
对至少一个初始子URL进行筛选,获取至少一个待下载子URL;
对至少一个待下载父URL和至少一个待下载子URL进行去重,获取至少一个目标URL;
基于至少一个目标URL,获取至少一份社保优惠政策文本文件。
参照图5,在一些实施例中,对至少一个初始父URL进行筛选可以包括:
对于每个初始父URL,
获取初始父URL的HTML文件头,基于HTML文件头获取网页标题、关键字、网页描述等信息;
基于独热编码将网页标题、关键字、网页描述等信息转化为数值型网页信息,并基于Word2Vec模型将数值型网页信息转化为网页词矩阵;
基于相似度确定模型确定网页词矩阵与预设主题词对应的词矩阵的相似度,其中,预设主题词可以为社保、养老保险、医疗保险、失业保险、工伤保险、生育保险等;
当网页词矩阵与预设主题词对应的词矩阵的相似度大于第一预设阈值时,该初始父URL可以作为一个待去重父URL。
在一些实施例中,文件获取模块可以通过多个带标签的训练样本对初始相似度确定模型进行训练,其中,一个训练样本对应一个样本URL,训练样本可以包括从样本URL的HTML文件头获取的网页标题、关键字、网页描述等信息,训练样本的标签可以包括该样本URL的网页词矩阵与预设主题词对应的词矩阵的相似度,确定模块220可以通过多种方式获取该训练样本的标签,例如,通过人工标注。
在一些实施例中,确定模块220可以通过常见的方式(例如,梯度下降等)对初始相似度确定模型进行多次训练,直至训练后的初始相似度确定模型满足预设条件。其中,预设条件可以是更新后的初始相似度确定模型的损失函数小于阈值、收敛,或训练迭代次数达到阈值。
在一些实施例中,相似度确定模型可以包括但不限于神经网络(NeuralNetworks,NN)、决策树(Decision Tree, DT)、线性回归(Linear Regression, LR)等一种或多种的组合等。
在一些实施例中,去至少一个待去重父URL进行去重,获取至少一个待下载父URL可以包括:对于每两个待去重父URL,计算该两个待去重父URL的HTML文件头的相似度,若该两个待去重父URL的HTML文件头的相似度大于第二预设阈值,则删除该两个待去重父URL中的一个,将另一个待去重父URL作为一个待下载父URL。
在一些实施例中,对至少一个初始子URL进行筛选,获取至少一个待下载子URL可以包括:获取每个初始子URL的网页发布时间,若存在初始子URL的网页发布时间不在当前周期内,则删除该初始子URL。
在一些实施例中,对至少一个初始子URL进行筛选,获取至少一个待下载子URL还可以包括:
对于每个网页发布时间在当前周期的初始子URL,
获取初始子URL的HTML文件头,基于HTML文件头获取网页标题、关键字、网页描述等信息;
基于独热编码将网页标题、关键字、网页描述等信息转化为数值型网页信息,并基于Word2Vec模型将数值型网页信息转化为网页词矩阵;
基于相似度确定模型确定网页词矩阵与预设主题词对应的词矩阵的相似度,其中,预设主题词可以为社保、养老保险、医疗保险、失业保险、工伤保险、生育保险等;
当网页词矩阵与预设主题词对应的词矩阵的相似度大于第一预设阈值时,该初始子URL可以作为一个待下载子URL。
在一些实施例中,对至少一个待下载父URL和至少一个待下载子URL进行去重,获取至少一个目标URL,可以包括:对于任意的一个待下载父URL和一个待下载子URL,计算该待下载父URL的HTML文件头和该待下载子URL的HTML文件头的相似度,该待下载父URL的HTML文件头和该待下载子URL的HTML文件头的相似度大于第二预设阈值,则删除该待下载父URL和该待下载子URL中的一个,将另一个作为一个目标URL。
在一些实施例中,文件获取模块可以基于爬虫获取目标URL的附件。
步骤320,基于文本分类模型确定每份待分类文本文件的类别,获取至少一份社保优惠政策文本文件。在一些实施例中,步骤320可以由类别确定模块执行。
类别可以表征文本文件是否为与社保优惠政策相关的文本文件。社保优惠政策文本文件可以为行政机关发布的用于记载社保优惠政策的文本文件。
文本分类模型可以为用于确定待分类文本文件的类别的机器学习模型,文本分类模型可以为卷积神经网络模型。文本分类模型可以为待分类文本文件,文本分类模型的输出可以为判断待分类文本文件是否为社保优惠政策文本文件。
参照图6,在一些实施例中,类别确定模块基于文本分类模型确定待分类文本文件的类别,可以包括:
基于独热编码将待分类文本文件中记载的字符转换为数值型数据,其中,独热(one-hot)编码利用一个向量来表示一句话,这个向量的维数就是由原始句子切分后所得到的词语组成的语料库中字词的个数,这个向量只包含0或1这两个元素。例如,一个句子为“我喜欢香蕉”,在对句子进行切分之后,可以得到“我”、“喜欢”、“香蕉”这3组单词,那么利用独热(one-hot)编码转化成的向量维数度是3,可以观察到“属于”一词的编码向量为[0,1,0],这句话经独热(one-hot)编码后的向量为:
Figure 562145DEST_PATH_IMAGE002
基于Word2Vec模型将数值型数据转化为二维词矩阵,二维词矩阵由多个词向量构,二维词矩阵的每一行都表示不同的词向量,假设待分类文本文件中记载有m个词,每个词是n维的词向量,那么,该二维矩阵的维度为m*n;
通过文本分类模型基于二维词矩阵确定待分类文件的类别。
在一些实施例中,文本分类模型可以包括输入层、卷积层、激活函数层、池化层及全连接层。
输入层可以包括上述的用于将数值型数据转化为二维词矩阵的Word2Vec模型。
卷积层是卷文本分类模型提取输入特征的主要部分,卷积核按照步幅从上到下对二维词矩阵做点积运算,提取特征,由于是从词中提取的特征,卷积核的宽度和词向量的维度是相等的。另外,该部分卷积操作的参数是权值共享,能够极大的提升提取特征的效率。例如,卷积核宽度为2时,它从上往下以步幅1移动,输入的二维词矩阵通过卷积操作之后输出一个一维向量。
由于卷积层中的计算相当于对每个词向量的元素赋予一个权值,属于线性操作,而待分类文本文件的数据特征是非线性的。因此,加入非线性激活函数,其目的就是在文本分类模型中添加非线性因素,从而能够让文本分类模型完成拟合非线性函数的作用。激活函数需要满足非线性、连续可微、单调、在原点处线性等性质,激活函数层采用ReLU函数,能够很好的减轻梯度消失问题,而且公式更加简单,减少了计算的成本,并且在使用梯度下降法训练参数时,模型的收敛速度更快。
池化层的作用主要是下采样,具体是通过对卷积层获得的特征进行抽象压缩、降维。进一步减少参数规模,简化模型。池化层采用最大池化方式,能够提取出最鲜明、重要的特征。具体是它将上一层每一个通道里的特征里的元素取最大值,然后拼接在一起构成维数更低的向量。此时,该固定长度的向量就可以输入到全连接层进行分类。
全连接层是文本分类模型的末端,输入的是二维词矩阵经过多组卷积、池化操作后的得到的特征,输出是待分析文件是否为社保优惠政策文本文件,但缺点是容易造成过拟合的现象,因此,可以采用添加Dropout层或者在损失函数后面使用正则化技术减少该现象的发生。
步骤330,将社保优惠政策文本文件分类存储在优惠政策数据库中。在一些实施例中,步骤330可以由文件存储模块执行。
在一些实施例中,文件存储模块可以基于社保优惠政策文本文件的相关特征分类存储在优惠政策数据库中。例如,文件存储模块可以基于社保优惠政策文本文件对应的行政区域将社保优惠政策文本文件分类存储在优惠政策数据库中。示例地,将四川省的社保优惠政策文本文件保存在优惠政策数据库的第一文件夹中,将成都的社保优惠政策文本文件保存在第一文件夹中的第一子文件夹中,将上海的社保优惠政策文本文件保存在优惠政策数据库的第二文件夹中。
在一些实施例中,对于每份社保优惠政策文本文件,文件存储模块还可以生成对应的标签,并将标签一并保存在优惠政策数据库中。其中,标签可以用于表征社保优惠政策文本文件的适用对象,例如,中小企业、微小企业等。
在一些实施例中,优惠政策数据库可以用于存储社保优惠政策文本文件。在一些实施例中,优惠政策数据库可以基于数据库系统(db2数据库系统、oracle数据库系统、sybase数据库系统、MySQL数据库系统、SQL Server数据库系统等)实现。
步骤340,从用户终端130获取至少一个企业的相关信息。在一些实施例中,步骤330可以由信息获取模块执行。
在一些实施例中,企业的相关信息可以至少包括所在地、资产总额、类型、从业人数及税收指标。
步骤350,对于每个企业,根据企业的相关信息,从优惠政策数据库中获取与企业的相关信息对应的目标社保优惠政策文本文件。在一些实施例中,步骤350可以由文件查找模块执行。
在一些实施例中,文件查找模块可以先根据企业的相关信息从优惠政策数据库中查找目标文件夹。例如,文件查找模块可以先根据企业所在地查找目标文件夹,例如,企业所在地为成都,则将第一文件夹中的第一子文件夹作为目标文件夹。从而减少后续查找的数据量,提高查找速度。
在一些实施例中,获取目标文件夹后,文件查找模块可以获取目标文件夹中保存的所有社保优惠政策文本文件的标签,基于企业的相关信息及目标文件夹中保存的所有社保优惠政策文本文件的标签,从目标文件夹中保存的所有社保优惠政策文本文件中查找目标社保优惠政策文本文件。例如,文件查找模块可以基于预设查找规则从目标文件夹中保存的所有社保优惠政策文本文件中查找目标社保优惠政策文本文件,其中,预设规则可以表征社保优惠政策文本文件的标签与企业的相关信息的对应关系。例如,当企业的资产总额、类型、从业人数及税收指标符合微小企业的要求时,文件查找模块可以将目标文件夹中保存的社保优惠政策文本文件标签包括微小企业的社保优惠政策文本文件作为目标社保优惠政策文本文件。
步骤360,将目标社保优惠政策文本文件发送至用户终端130。在一些实施例中,步骤360可以由文件推送模块执行。
在本申请的另一些实施例中,提供了一种基于卷积神经网络的数据分析装置,包括至少一个处理设备以及至少一个存储设备;至少一个存储设备用于存储计算机指令,至少一个处理设备用于执行计算机指令中的至少部分指令以实现如上的一种基于卷积神经网络的数据分析方法。
在本申请的又一些实施例中,提供了一种计算机可读存储介质,存储介质存储计算机指令,当计算机指令被处理设备执行时实现如上的基于卷积神经网络的数据分析方法。
上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅仅作为示例,而并不构成对本申请的限定。虽然此处并没有明确说明,本领域技术人员可能会对本申请进行各种修改、改进和修正。该类修改、改进和修正在本申请中被建议,所以该类修改、改进、修正仍属于本申请示范实施例的精神和范围。
同时,本申请使用了特定词语来描述本申请的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外,本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
此外,本领域技术人员可以理解,本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本申请的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外,本申请的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。
计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号,例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式,包括电磁形式、光形式等,或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质,该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播,包括无线电、电缆、光纤电缆、RF、或类似介质,或任何上述介质的组合。
本申请各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写,包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等,常规程序化编程语言如C语言、Visual Basic、Fortran 2003、Perl、COBOL 2002、PHP、ABAP,动态编程语言如Python、Ruby和Groovy,或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或服务器上运行。在后种情况下,远程计算机可以通过任何网络形式与用户计算机连接,比如局域网(LAN)或广域网(WAN),或连接至外部计算机(例如通过因特网),或在云计算环境中,或作为服务使用如软件即服务(SaaS)。
此外,除非权利要求中明确说明,本申请所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本申请流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本申请实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的服务器或移动设备上安装所描述的系统。
同理,应当注意的是,为了简化本申请披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本申请实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本申请对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
一些实施例中使用了描述成分、属性数量的数字,应当理解的是,此类用于实施例描述的数字,在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明,“大约”、“近似”或“大体上”表明所述数字允许有±20%的变化。相应地,在一些实施例中,说明书和权利要求中使用的数值参数均为近似值,该近似值根据个别实施例所需特点可以发生改变。在一些实施例中,数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本申请一些实施例中用于确认其范围广度的数值域和参数为近似值,在具体实施例中,此类数值的设定在可行范围内尽可能精确。
针对本申请引用的每个专利、专利申请、专利申请公开物和其他材料,如文章、书籍、说明书、出版物、文档等,特此将其全部内容并入本申请作为参考。与本申请内容不一致或产生冲突的申请历史文件除外,对本申请权利要求最广范围有限制的文件(当前或之后附加于本申请中的)也除外。需要说明的是,如果本申请附属材料中的描述、定义、和/或术语的使用与本申请内容有不一致或冲突的地方,以本申请的描述、定义和/或术语的使用为准。
最后,应当理解的是,本申请中所述实施例仅用以说明本申请实施例的原则。其他的变形也可能属于本申请的范围。因此,作为示例而非限制,本申请实施例的替代配置可视为与本申请的教导一致。相应地,本申请的实施例不仅限于本申请明确介绍和描述的实施例。

Claims (10)

1.一种基于卷积神经网络的数据分析方法,其特征在于,包括:
按照预设规则从至少一个目标网站获取至少一份待分类文本文件;
基于文本分类模型确定每份所述待分类文本文件的类别,获取至少一份社保优惠政策文本文件;
将所述社保优惠政策文本文件分类存储在优惠政策数据库中;
从用户终端获取至少一个企业的相关信息;
对于每个所述企业,根据所述企业的相关信息,从所述优惠政策数据库中获取与所述企业的相关信息对应的目标社保优惠政策文本文件;
将所述目标社保优惠政策文本文件发送至所述用户终端。
2.根据权利要求1所述的一种基于卷积神经网络的数据分析方法,其特征在于,所述按照预设规则从至少一个目标网站获取至少一份社保优惠政策文本文件,包括:
按照预设规则基于爬虫从至少一个目标网站获取至少一个初始父URL;
对所述至少一个初始父URL进行筛选,获取至少一个待去重父URL;
去所述至少一个待去重父URL进行去重,获取至少一个待下载父URL;
从所述至少一个待下载父URL获取至少一个初始子URL;
对所述至少一个初始子URL进行筛选,获取至少一个待下载子URL;
对所述至少一个待下载父URL和所述至少一个待下载子URL进行去重,获取至少一个目标URL;
基于所述至少一个目标URL,获取至少一份所述社保优惠政策文本文件。
3.根据权利要求1所述的一种基于卷积神经网络的数据分析方法,其特征在于,所述基于文本分类模型确定所述待分类文本文件的类别,包括:
基于独热编码将所述待分类文本文件转换为数值型数据;
基于Word2Vec模型将所述数值型数据转化为二维词矩阵,所述二维词矩阵由多个词向量构成;
通过所述文本分类模型基于所述二维词矩阵确定所述待分类文本文件的类别。
4.根据权利要求1-3任意一项所述的一种基于卷积神经网络的数据分析方法,其特征在于,所述文本分类模型包括输入层、卷积层、激活函数层、池化层及全连接层。
5.根据权利要求1-3任意一项所述的一种基于卷积神经网络的数据分析方法,其特征在于,所述企业的相关信息至少包括所在地、资产总额、类型、从业人数及税收指标。
6.一种基于卷积神经网络的数据分析系统,其特征在于,包括:
文件获取模块,用于按照预设规则从至少一个目标网站获取至少一份待分类文本文件;
类别确定模块,用于基于文本分类模型确定每份所述待分类文本文件的类别,获取至少一份社保优惠政策文本文件;
文件存储模块,用于将所述社保优惠政策文本文件分类存储在优惠政策数据库中;
信息获取模块,用于从用户终端获取至少一个企业的相关信息;
文件查找模块,用于对于每个所述企业,根据所述企业的相关信息,从所述优惠政策数据库中获取与所述企业的相关信息对应的目标社保优惠政策文本文件;
文件推送模块,用于将所述目标社保优惠政策文本文件发送至所述用户终端。
7.根据权利要求6所述的一种基于卷积神经网络的数据分析系统,其特征在于,所述文件获取模块还用于:
按照预设规则基于爬虫从至少一个目标网站获取至少一个初始父URL;
对所述至少一个初始父URL进行筛选,获取至少一个待去重父URL;
去所述至少一个待去重父URL进行去重,获取至少一个待下载父URL;
从所述至少一个待下载父URL获取至少一个初始子URL;
对所述至少一个初始子URL进行筛选,获取至少一个待下载子URL;
对所述至少一个待下载父URL和所述至少一个待下载子URL进行去重,获取至少一个目标URL;
基于所述至少一个目标URL,获取至少一份所述社保优惠政策文本文件。
8.根据权利要求6所述的一种基于卷积神经网络的数据分析系统,其特征在于,所述类别确定模块还用于:
基于独热编码将所述待分类文本文件转换为数值型数据;
基于Word2Vec模型将所述数值型数据转化为二维词矩阵,所述二维词矩阵由多个词向量构成;
通过所述文本分类模型基于所述二维词矩阵确定所述待分类文本文件的类别。
9.根据权利要求6-8任意一项所述的一种基于卷积神经网络的数据分析系统,其特征在于,所述文本分类模型包括输入层、卷积层、激活函数层、池化层及全连接层。
10.根据权利要求6-8任意一项所述的一种基于卷积神经网络的数据分析系统,其特征在于,所述企业的相关信息至少包括所在地、资产总额、类型、从业人数及税收指标。
CN202210525895.5A 2022-05-16 2022-05-16 一种基于卷积神经网络的数据分析方法及系统 Pending CN114625989A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210525895.5A CN114625989A (zh) 2022-05-16 2022-05-16 一种基于卷积神经网络的数据分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210525895.5A CN114625989A (zh) 2022-05-16 2022-05-16 一种基于卷积神经网络的数据分析方法及系统

Publications (1)

Publication Number Publication Date
CN114625989A true CN114625989A (zh) 2022-06-14

Family

ID=81907335

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210525895.5A Pending CN114625989A (zh) 2022-05-16 2022-05-16 一种基于卷积神经网络的数据分析方法及系统

Country Status (1)

Country Link
CN (1) CN114625989A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116737968A (zh) * 2023-08-15 2023-09-12 北京正开科技有限公司 基于大数据的政策信息智慧管理平台

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111209460A (zh) * 2019-12-27 2020-05-29 青岛海洋科学与技术国家实验室发展中心 基于scrapy爬虫框架的数据采集系统及方法
CN112035653A (zh) * 2020-11-05 2020-12-04 北京智源人工智能研究院 一种政策关键信息提取方法和装置、存储介质、电子设备
CN113378556A (zh) * 2020-02-25 2021-09-10 华为技术有限公司 提取文本关键字的方法及装置
CN113886435A (zh) * 2021-12-08 2022-01-04 国能大渡河大数据服务有限公司 一种基于循环神经网络的信息查询方法及系统
CN114297472A (zh) * 2021-11-23 2022-04-08 航天信息股份有限公司 智能行业政策推荐方法、系统、电子设备及介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111209460A (zh) * 2019-12-27 2020-05-29 青岛海洋科学与技术国家实验室发展中心 基于scrapy爬虫框架的数据采集系统及方法
CN113378556A (zh) * 2020-02-25 2021-09-10 华为技术有限公司 提取文本关键字的方法及装置
CN112035653A (zh) * 2020-11-05 2020-12-04 北京智源人工智能研究院 一种政策关键信息提取方法和装置、存储介质、电子设备
CN114297472A (zh) * 2021-11-23 2022-04-08 航天信息股份有限公司 智能行业政策推荐方法、系统、电子设备及介质
CN113886435A (zh) * 2021-12-08 2022-01-04 国能大渡河大数据服务有限公司 一种基于循环神经网络的信息查询方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116737968A (zh) * 2023-08-15 2023-09-12 北京正开科技有限公司 基于大数据的政策信息智慧管理平台
CN116737968B (zh) * 2023-08-15 2023-10-31 北京正开科技有限公司 基于大数据的政策信息智慧管理平台

Similar Documents

Publication Publication Date Title
CN111241241B (zh) 基于知识图谱的案件检索方法、装置、设备及存储介质
CN109492157B (zh) 基于rnn、注意力机制的新闻推荐方法及主题表征方法
EP3920044A1 (en) Data-driven structure extraction from text documents
CN108984775B (zh) 一种基于商品评论的舆情监控方法及系统
CN111899089A (zh) 基于知识图谱的企业风险预警方法及系统
CN110688474B (zh) 基于深度学习与链接预测的嵌入表示获得及引文推荐方法
CN106447066A (zh) 一种大数据的特征提取方法和装置
Kulkarni et al. Deep learning for NLP
CN106445988A (zh) 一种大数据的智能处理方法和系统
CN111680225B (zh) 基于机器学习的微信金融消息分析方法及系统
CN110910991B (zh) 一种医用自动图像处理系统
CN104462301A (zh) 一种网络数据的处理方法和装置
CN107463935A (zh) 应用分类方法和应用分类装置
CN112182248A (zh) 一种电价的关键政策的统计方法
JP2020521408A (ja) データの圧縮および分析のコンピュータ化された方法
CN112487293B (zh) 一种安全事故案例结构化信息抽取方法、装置及介质
CN111881447A (zh) 恶意代码片段智能取证方法及系统
CN109710725A (zh) 一种基于文本分类的中文表格列标签恢复方法和系统
CN114625989A (zh) 一种基于卷积神经网络的数据分析方法及系统
Sawalha et al. Towards an efficient big data management schema for IoT
CN109858035A (zh) 一种情感分类方法、装置、电子设备和可读存储介质
KR101585644B1 (ko) 단어 연관성 분석을 이용한 문서 분류 장치, 방법 및 이를 위한 컴퓨터 프로그램
CN114023407A (zh) 一种健康档案缺失值补全方法、系统以及存储介质
CN113377910A (zh) 情感评价方法、装置、电子设备和存储介质
CN117573876A (zh) 一种业务数据分类分级方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20220614

RJ01 Rejection of invention patent application after publication