CN111008349B - 一种大数据信息推送处理方法及系统 - Google Patents

一种大数据信息推送处理方法及系统 Download PDF

Info

Publication number
CN111008349B
CN111008349B CN202010156127.8A CN202010156127A CN111008349B CN 111008349 B CN111008349 B CN 111008349B CN 202010156127 A CN202010156127 A CN 202010156127A CN 111008349 B CN111008349 B CN 111008349B
Authority
CN
China
Prior art keywords
data information
terminal server
label
information
enterprise terminal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010156127.8A
Other languages
English (en)
Other versions
CN111008349A (zh
Inventor
张建明
王海灵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Doctor Innovation Big Data Co.,Ltd.
Original Assignee
Shenzhen Doctor Innovation Technology Transfer Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Doctor Innovation Technology Transfer Co Ltd filed Critical Shenzhen Doctor Innovation Technology Transfer Co Ltd
Priority to CN202010156127.8A priority Critical patent/CN111008349B/zh
Publication of CN111008349A publication Critical patent/CN111008349A/zh
Application granted granted Critical
Publication of CN111008349B publication Critical patent/CN111008349B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据处理技术领域,涉及一种大数据信息推送处理方法及系统。该系统包括互相之间通信的数据信息处理平台和企业终端服务器;其中,数据信息处理平台,用于采集数据信息,对所述数据信息进行语言处理,得到语言分析结果;根据所述语言分析结果对所述数据信息进行分类得到多个数据信息集,为每个数据信息集分配第一标签;企业终端服务器,用于响应用户的操作指令,根据所述操作指令在所述数据信息处理平台上进行操作。本发明无需用户在系统给与匹配的大量信息中寻找符合自己申报条件的数据信息,能够有效减少用户的时间成本,提高数据信息推送的时效性。

Description

一种大数据信息推送处理方法及系统
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种大数据信息推送处理方法及系统。
背景技术
数据网站通常保存有大量的文件、公文、通告等文档类数据,由于数量庞大,需要花费大量的时间和精力分类,并存在着查找信息不便、信息搜索不准确、信息分类不合理、分类不细致、信息录入板块不准确等各类问题,不利于提供有效的信息服务。而且,国家政策是企业发展规划和发展的指向标,对企业未来的业务、服务方向、营销策划方式、广告策划等众多方面都会产生一定的营销。快速获得想要的目标信息成为了企业追求的目标。因此面对海量的文本信息,实现智能政策文档分类并能够精准推送用户感兴趣的文档成为了目前互联网应用的研究热点。
然而常见的智能政策文档分类及推送通过设置的文字标签对收集的数据进行智能化判断标注,将数据按设定的标签进行归类,当个人用户需查询讯息时,通过外接设备输入关键字体,智能地匹配相关数据信息并推送。
发明人经过对现有技术进行分析和研究发现,现有技术中对于数据信息分类,推送存在如下技术问题:现有技术主要是通过设置的文字标签对收集的数据进行智能化判断标注,将数据按设定的标签进行归类,系统根据用户的相关信息与政策资讯标注的标签进行智能匹配。然而,现有技术未能实现对用户行为信息建立分析信息库,未实现对用户设定标签进行分类。现有技术仍需要用户在系统给与匹配的大量信息中寻找符合自己申报条件的数据信息,这给用户带来不少时间成本,且可能由于时效性的问题,导致错过部分政策项目申报。
发明内容
为了改善上述问题,提供一种大数据信息推送处理方法及系统。
本发明实施例的第一方面,提供了一种大数据信息推送处理方法,包括以下步骤:
步骤S21,数据信息处理平台采集数据信息,对所述数据信息进行语言处理,得到语言分析结果;根据所述语言分析结果对所述数据信息进行分类得到多个数据信息集,为每个数据信息集分配第一标签;
步骤S22,数据信息处理平台对每个数据信息集中的每个第一目标数据信息中的量化数据进行编译得到编译结果;根据该编译结果对每个第一目标数据信息分配第二标签;
步骤S23,企业终端服务器响应用户的操作指令,根据所述操作指令在所述数据信息处理平台上进行操作;
步骤S24,数据信息处理平台确定出所述企业终端服务器对应的用户行为数据和企业信息;根据所述用户行为数据和所述企业信息对所述企业终端服务器进行量化分析,得到量化分析结果;根据所述量化分析结果对该企业终端服务器分配第三标签;
步骤S25,数据信息处理平台在检测到所述企业终端服务器存在设定信息时,将所述第三标签与每个第二标签的进行匹配得到第一相似度值,将最大第一相似度值对应的第二标签所对应的第一目标数据信息推送给所述企业终端服务器;确定最大第一相似度值对应的第二标签所对应的第一标签与所述第三标签的第二相似度值,根据所述第二相似度值将最大第一相似度值对应的数据信息集中的至少部分第二目标数据信息推送给所述企业终端服务器。
可选地,在步骤S25中,数据信息处理平台通过以下方式检测所述企业终端服务器的设定信息:
步骤S2511,在检测到所述企业终端服务器发送的登录信息时,向所述企业终端服务器发送用于控制所述企业终端服务器进行生物特征信息采集的控制指令;
步骤S2512,获取所述企业终端服务器根据所述控制指令采集到的生物特征信息;
步骤S2513,在预设的数据库中查找是否存在与所述生物特征信息一致的目标生物特征信息,若是,确定所述企业终端服务器存在所述设定信息。
可选地,在步骤S22中,数据信息处理平台对每个数据信息集中的每个第一目标数据信息中的量化数据进行编译得到编译结果;根据该编译结果对每个第一目标数据信息分配第二标签的步骤,包括以下子步骤:
步骤S221,对该第一目标数据信息中的量化数据进行提取,得到所述量化数据对应的数值大小编码字符以及数值类型编码字符;
步骤S222,根据所述数值大小编码字符和所述数值类型编码字符得到字符编码对;
步骤S223,在预设的字符编码库中查找出与所述字符编码对对应的标签,将所述标签确定为该第一目标数据信息的第二标签。
可选地,在步骤S25中,根据所述第二相似度值将最大第一相似度值对应的数据信息集中的至少部分第二目标数据信息推送给所述企业终端服务器的步骤,包括以下子步骤:
步骤S2521,判断所述第二相似度值是否大于目标相似度值;
步骤S2522,在所述第二相似度值大于所述目标相似度值时,检测所述企业终端服务器中是否存在对所述最大第一相似度值对应的第二标签对应的第一目标数据信息的下载信号,在所述企业终端服务器中存在所述下载信号时,获取所述企业终端服务器的剩余存储容量;根据所述剩余存储容量将所述最大第一相似度值对应的数据信息集中的至少部分第二目标数据信息推送给所述企业终端服务器。
可选地,在步骤S24中,根据所述用户行为数据和所述企业信息对所述企业终端服务器进行量化分析,得到量化分析结果;根据所述量化分析结果对该企业终端服务器分配第三标签的步骤,包括以下子步骤:
步骤S241,确定出该企业终端服务器对应的用户行为数据、基础信息和注册信息中的数值信息;
步骤S242,根据所述数值信息所处的数值区间,确定所述数值信息的量化分析结果;
步骤S243,根据所述数值信息的量化分析结果对该企业终端服务器分配第三标签。
可选地,在步骤S21中,对所述数据信息进行语言处理,得到语言分析结果的步骤,包括以下子步骤:
对所述数据信息进行语言处理,得到关键词分析结果、句法分析结果和语义分析结果。
可选地,在步骤S21中,根据所述语言分析结果对所述数据信息进行分类得到多个数据信息集,为每个数据信息集分配第一标签的步骤,包括以下子步骤:
根据所述关键词分析结果、所述句法分析结果和所述语义分析结果对数据信息进行分类得到多个数据信息集,为每个数据信息集分配第一标签。
本发明实施例的第二方面,提供了一种大数据信息推送处理系统,包括互相之间通信的数据信息处理平台和企业终端服务器;
数据信息处理平台,用于采集数据信息,对所述数据信息进行语言处理,得到语言分析结果;根据所述语言分析结果对所述数据信息进行分类得到多个数据信息集,为每个数据信息集分配第一标签;用于对每个数据信息集中的每个第一目标数据信息中的量化数据进行编译得到编译结果;根据该编译结果对每个第一目标数据信息分配第二标签;
企业终端服务器,用于响应用户的操作指令,根据所述操作指令在所述数据信息处理平台上进行操作;
数据信息处理平台,用于确定出所述企业终端服务器对应的用户行为数据和企业信息;根据所述用户行为数据和所述企业信息对所述企业终端服务器进行量化分析,得到量化分析结果;根据所述量化分析结果对该企业终端服务器分配第三标签;用于在检测到所述企业终端服务器存在设定信息时,将所述第三标签与每个第二标签的进行匹配得到第一相似度值,将最大第一相似度值对应的第二标签所对应的第一目标数据信息推送给所述企业终端服务器;确定最大第一相似度值对应的第二标签所对应的第一标签与所述第三标签的第二相似度值,根据所述第二相似度值将最大第一相似度值对应的数据信息集中的至少部分第二目标数据信息推送给所述企业终端服务器。
本发明实施例的第三方面,提供了一种大数据信息推送处理方法,应用于数据信息处理平台,包括以下步骤:
步骤S41,采集数据信息,对所述数据信息进行语言处理,得到语言分析结果;根据所述语言分析结果对所述数据信息进行分类得到多个数据信息集,为每个数据信息集分配第一标签;
步骤S42,对每个数据信息集中的每个第一目标数据信息中的量化数据进行编译得到编译结果;根据该编译结果对每个第一目标数据信息分配第二标签;
步骤S43,确定出企业终端服务器对应的用户行为数据和企业信息;根据所述用户行为数据和所述企业信息对所述企业终端服务器进行量化分析,得到量化分析结果;根据所述量化分析结果对该企业终端服务器分配第三标签;
步骤S44,在检测到所述企业终端服务器存在设定信息时,将所述第三标签与每个第二标签的进行匹配得到第一相似度值,将最大第一相似度值对应的第二标签所对应的第一目标数据信息推送给所述企业终端服务器;确定最大第一相似度值对应的第二标签所对应的第一标签与所述第三标签的第二相似度值,根据所述第二相似度值将最大第一相似度值对应的数据信息集中的至少部分第二目标数据信息推送给所述企业终端服务器。
可选地,在步骤S41中,对所述数据信息进行语言处理,得到语言分析结果;根据所述语言分析结果对所述数据信息进行分类得到多个数据信息集,为每个数据信息集分配第一标签,包括以下子步骤:
步骤S411,对所述数据信息进行语言处理,得到关键词分析结果、句法分析结果和语义分析结果;
步骤S412,根据所述关键词分析结果、所述句法分析结果和所述语义分析结果对数据信息进行分类得到多个数据信息集,为每个数据信息集分配第一标签。
本发明实施例所提供的一种大数据信息推送处理方法及系统,不仅能够将第一目标数据信息推送给企业终端服务器,还能够根据第二相似度值将最大第一相似度值对应的数据信息集中的至少部分第二目标数据信息推送给企业终端服务器。如此,数据信息处理平台能够基于数据信息和企业终端服务器在数据信息处理平台上的操作进行数据处理、分析和分类并打上对应的标签,然后在检测到企业终端服务器登录时直接将第一目标数据信息和至少部分第二目标数据信息进行推送,无需用户在系统给与匹配的大量信息中寻找符合自己申报条件的数据信息,能够有效减少用户的时间成本,提高数据信息推送的时效性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例所提供的一种大数据信息推送处理系统的架构示意图。
图2为本发明实施例所提供的一种大数据信息推送处理方法的流程图。
图3为本发明实施例所提供的一种大数据信息推送处理方法的另一流程图。
图4为本发明实施例所提供的一种数据信息处理平台的模块框图。
图标:
100-大数据信息推送处理系统;
101-数据信息处理平台;1011-采集模块;1012-第一分配模块;1013-第二分配模块;1014-推送模块;
102-企业终端服务器。
具体实施方式
下面将参照附图更详细地描述本发明公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
请参阅图1,为本发明实施例所提供的一种大数据信息推送处理系统100的架构示意图,由图1可见,该大数据信息推送处理系统100包括互相之间通信连接的数据信息处理平台101和企业终端服务器102。在本实施例中,企业终端服务器102的数量可以为多个,为便于说明,图1仅示出了一个企业终端服务器102。
请结合参阅图2,为本发明实施例所提供的一种大数据信息推送处理方法的流程图,该方法可以应用于图1中的大数据信息推送处理系统100,该方法可以包括以下内容:
步骤S21,数据信息处理平台采集数据信息,对所述数据信息进行语言处理,得到语言分析结果;根据所述语言分析结果对所述数据信息进行分类得到多个数据信息集,为每个数据信息集分配第一标签。
在本实施例中,数据信息处理平台101可以基于网络爬虫代码自动爬取各个网站上的数据信息以及与其它科技政策有关的网页数据。可选地,数据信息处理平台101还可以根据采集到的数据信息得到一套定制化的数据采集和维护程序,并定期维护以确保数据信息的准确性。
在本实施例中,语言分析结果可以包括关键词分析结果、句法分析结果和语义分析结果。第一标签可以是每个数据信息集的分类标签例如企业规模和企业研发类别等标签。
步骤S22,数据信息处理平台对每个数据信息集中的每个第一目标数据信息中的量化数据进行编译得到编译结果;根据该编译结果对每个第一目标数据信息分配第二标签。
在本实施例中,每个数据信息集中包括多个目标数据信息,可以理解,这些目标数据信息同属于同样的第一标签下。在本实施例中,量化数据可以是一些硬性指标数据,比如:“申报条件要求发明专利至少为1件”、“人员要求20人”以上等。可以理解,第二标签为该第一目标数据信息所处的数据信息集所对应的第一标签的子标签,第二标签可以理解为每个目标数据信息对应的量化标签。
步骤S23,企业终端服务器响应用户的操作指令,根据所述操作指令在所述数据信息处理平台上进行操作。
在本实施例中,企业终端服务器102在数据信息处理平台101上的操作可以包括数据信息浏览、数据信息收藏以及数据信息订阅等,当企业终端服务器102在数据信息处理平台101执行以上操作时,数据信息处理平台101会记录企业终端服务器102对应的用户行为。
步骤S24,数据信息处理平台确定出所述企业终端服务器对应的用户行为数据和企业信息;根据所述用户行为数据和所述企业信息对所述企业终端服务器进行量化分析,得到量化分析结果;根据所述量化分析结果对该企业终端服务器分配第三标签。
在本实施例中,企业终端服务器102可以包括基础信息和注册信息。其中,企业终端服务器102的基础信息可以包括企业和个人的信息,企业终端服务器102的注册信息可以包括业务领域、企业名称、注册时间、注册地址、企业从事行业等基本信息,还可以包括知识产权、财务收入、人员、研发情况等信息,也可以包括个人研究成果、发表论文、申请专利、承担项目等信息。此外,第三标签与第二标签是同一级标签。
步骤S25,数据信息处理平台在检测到所述企业终端服务器存在设定信息时,将所述第三标签与每个第二标签的进行匹配得到第一相似度值,将最大第一相似度值对应的第二标签所对应的第一目标数据信息推送给所述企业终端服务器;确定最大第一相似度值对应的第二标签所对应的第一标签与所述第三标签的第二相似度值,根据所述第二相似度值将最大第一相似度值对应的数据信息集中的至少部分第二目标数据信息推送给所述企业终端服务器。
在本实施例中,数据信息处理平台101会实时检测企业终端服务器102是否存在设定信息,该设定信息为企业终端服务器102登录数据信息处理平台101时产生的信息。进一步地,每个匹配结果中包括企业终端服务器102对应的第三标签与该匹配结果对应的第二标签之间的第一相似度值。
可以理解,通过步骤S25,不仅能够将第一目标数据信息推送给企业终端服务器102,还能够根据第二相似度值将最大第一相似度值对应的数据信息集中的至少部分第二目标数据信息进行推送。
如此,数据信息处理平台101能够基于数据信息和企业终端服务器在数据信息处理平台上的操作进行数据处理、分析和分类并打上对应的标签,然后在检测到企业终端服务器102登录时直接将第一目标数据信息和至少部分第二目标数据信息进行推送,无需用户在系统给与匹配的大量信息中寻找符合自己申报条件的数据信息,能够有效减少用户的时间成本,提高数据信息推送的时效性。
在具体实施时,为了提高为数据信息分配标签的准确性和全面性,需要对数据信息进行全方位的分析,为此,在步骤S21中,对所述数据信息进行语言处理,得到语言分析结果的步骤,包括以下子步骤:对所述数据信息进行语言处理,得到关键词分析结果、句法分析结果和语义分析结果,进一步地,关键词分析结果、句法分析结果和语义分析结果可以通过以下步骤确定:
步骤S2111,针对每个数据信息,确定出该数据信息中的多个数据段并从所述多个数据段中提取多个可调用的第一目标数据段和每个第一目标数据段的调用函数。
在本实施例中,第一目标数据段为表征文本信息的数据段,调用函数用于对第一目标数据段对应的文本信息进行调用。
步骤S2112,针对每个第一目标数据段,判断该第一目标数据段对应的调用函数是否在预设的调用函数集中存在对应的目标调用函数;若该第一目标数据段对应的调用函数在预设的调用函数集中存在对应的目标调用函数,则判定该第一目标数据段为有效文本数据段;若该第一目标数据段对应的调用函数在预设的调用函数集中不存在对应的目标调用函数,则判定该第一目标数据段为无效文本数据段。
在本实施例中,预设的调用函数集中的调用函数是用于调用有效文本信息的,可选地,有效文本信息为可复制的文本信息,该文本信息用于记载相关的数据信息。
步骤S2113,统计多个第一目标数据段中的有效文本数据段,得到多个第二目标数据段;对每个第二目标数据段进行分词处理得到多个第一关键词。
步骤S2114,确定出每个第二目标数据段中的每个第一关键词的词频并根据每个第二目标数据段中的每个第一关键词的词频确定每个第二目标数据段中的每个第一关键词的权重系数并基于每个第二目标数据段中的每个第一关键词的权重系数以及每个第二目标数据段中相邻两个第一关键词的先后顺序确定出该数据信息对应的关键词分析结果。
在本实施例中,权重系数用于表征第一关键词的词频大小,权重系数越大,词频越大。在本实施例中,关键词分析结果包括每个关键词的重要程度和每个关键词之间的关联性。
步骤S2115,根据每个第二目标数据段中的相邻两个第一关键词的先后顺序确定出每个第二目标数据段中每个第一关键词的词序并对每个第二目标数据段中的每个第一关键词的词序进行整合得到该数据信息对应的句法分析结果。
在本实施例中,词序用于表征每个第一关键词在第二目标数据中的相对位置。在本实施例中,句法分析结果中包括不同词序的第一关键词形成的句法逻辑信息。
步骤S2116,根据每个第二目标数据段对应的句法分析结果对每个第二目标数据段中的每个第一关键词进行语义提取,得到每个第二目标数据段中的每个第一关键词的语义信息;基于每个第二目标数据段中的每个第一关键词的语义信息以及基于每个第二目标数据段中的每个第一关键词的权重系数确定出该数据信息对应的语义分析结果。
可以理解,基于上述内容,能够从关键词分析、句法分析和语义分析三个维度对数据信息进行语言处理分析,如此,能够对数据信息进行全方位的分析,进而提高为数据信息分配标签的准确性和全面性。
可选地,为了提高标签分配的准确性,在步骤S21中,根据所述语言分析结果对所述数据信息进行分类得到多个数据信息集,为每个数据信息集分配第一标签的步骤,包括以下子步骤:根据所述关键词分析结果、所述句法分析结果和所述语义分析结果对数据信息进行分类得到多个数据信息集,为每个数据信息集分配第一标签。进一步地,上述内容具体包括以下步骤:
步骤S2121,根据每个数据信息的关键词分析结果确定出每个数据信息相对于所有数据信息的关键词分布占比。
在本实施例中,关键词分布占比可以通过每个数据信息的关键词分析结果对应的特征向量以及每个数据信息的关键词分析结果对应的特征向量的向量和确定。
步骤S2122,基于根据每个数据信息的句法分析结果对应的句法逻辑信息得到的句法逻辑连线确定出用于表征所有数据信息的句法逻辑网络,所述句法逻辑网络中包括多个网络节点,每个网络节点用于表征一个数据信息的句法逻辑信息;根据每个数据信息对应的关键词分布占比为每个数据信息在所述句法逻辑网络中对应的网络节点分配第一标识值。
在本实施例中,不同的数据信息所分配的第一标识值不同。
在本实施例中,第一标识值可以是100以内的正数,用于对不同的网络节点进行区分。
步骤S2123,对每个数据信息对应的语义分析结果进行语义特征识别,得到每个数据信息对应的语义分析结果所对应的语义类别并根据所述语义类别对每个数据信息在所述句法逻辑网络中对应的网络节点进行聚类,得到多个节点聚类;针对每个节点聚类,确定该节点聚类中的第一标识值的第一均值。
在本实施例中,每个节点聚类中包括至少两个网络节点。
步骤S2124,根据每个数据信息对应的语义分析结果所对应的语义类别对每个数据信息在所述句法逻辑网络中对应的网络节点分配第二标识值并按照所述句法逻辑网络中相邻两个网络节点之间的节点距离对所述句法逻辑网络中的所有网络节点进行分组,得到多个节点组针对每个节点组,确定该节点组中的第二标识值的第二均值。
在本实施例中,每个节点组中包括至少两个网络节点。
步骤S2125,确定出所有第一均值中的第一目标均值以及所有第二均值中的第二目标均值,所述第一目标均值为所有第一均值中与部分第二均值相同的第一均值,所述第二目标均值为所有第二均值中与部分第一均值相同的第二均值;确定出所述第一目标均值在所述第一均值中的第一占比以及所述第二目标均值在所述第二均值中的第二占比。
步骤S2126,在所述第一占比与所述第二占比的差值小于所述设定阈值时,将每个节点聚类确定为对应的数据信息集并为每个数据信息集分配第一标签。
在本实施例中,设定阈值可以是0.2,也可以根据实际情况进行调整。
通过步骤S2121-步骤S2126,能够将关键词分析结果、句法分析结果和语义分析结果对每个数据信息进行分析,如此,能够在对每个数据信息分配第一标签时充分考虑每个数据信息的不同语言维度的信息,进而提高第一标签分配的准确性。
进一步地,为了确保为企业终端服务器推送更加全面的数据信息,在步骤S25中,根据所述第二相似度值将最大第一相似度值对应的数据信息集中的至少部分第二目标数据信息推送给所述企业终端服务器的步骤,包括以下子步骤:
步骤S2521,判断所述第二相似度值是否大于目标相似度值。
在本实施例中,目标相似度值可以根据第一相似度值中的最大第一相似度值进行确定,例如,若第一相似度值中的最大第一相似度值为0.8(满值为1),则目标相似度值可以为0.7。又例如,若第一相似度值中的最大第一相似度值为0.9,则目标相似度值可以为0.65。
步骤S2522,在所述第二相似度值大于所述目标相似度值时,检测所述企业终端服务器中是否存在对所述最大第一相似度值对应的第二标签对应的第一目标数据信息的下载信号,在所述企业终端服务器中存在所述下载信号时,获取所述企业终端服务器的剩余存储容量;根据所述剩余存储容量将所述最大第一相似度值对应的数据信息集中的至少部分第二目标数据信息推送给所述企业终端服务器。
在本实施例中,剩余存储容量用于存储下载的数据信息,至少部分第二目标数据信息的数据容量总和小于等于所述剩余存储容量。
通过上述内容,能够将企业终端服务器的剩余存储容量考虑在内,确保企业终端服务器在对推送的第二目标数据信息感兴趣时能够将第二目标数据信息全部进行下载。
在本实施例中,为了确保数据信息推送的准确性,需要根据企业终端服务器的硬性数字指标进行标签分配,为此,在步骤S24中,根据所述用户行为数据和所述企业信息对所述企业终端服务器进行量化分析,得到量化分析结果;根据所述量化分析结果对该企业终端服务器分配第三标签的步骤,包括以下子步骤:
步骤S241,确定出该企业终端服务器对应的用户行为数据、基础信息和注册信息中的数值信息。
在本实施例中,数值信息用于与数据信息进行匹配。例如,数值信息可以为企业员工人数。又例如,某项数据信息所要求项目申报的企业的企业员工人数需要大于500人,那么可以数值信息对企业终端服务器分配用于表征企业终端服务器的量化特征的第三标签。
步骤S242,根据所述数值信息所处的数值区间,确定所述数值信息的量化分析结果。
在本实施例中,量化分析结果用于表征数值信息位于哪个数值区间,不同的数值区间对应的区间标识不同。例如,用于表征企业人数的数值区间1~200、200~500、500~∞对应的区间标识分别为a,b和c。若表征企业人数的数值信息为450,则数值信息对应的量化分析结果对应的区间标识为b。
步骤S243,根据所述数值信息的量化分析结果对该企业终端服务器分配第三标签。
在本实施例中,第三标签可以根据数值信息具体表征的含义进行确定。例如,若数值信息表征企业人数,则第三标签可以为小型企业(1-200人)、中型企业(200-500人)以及大型企业(500人以上)。
可以理解,通过上述步骤S241-步骤S243,能够根据企业终端服务器的硬性数字指标进行标签分配,从而确保政策信息推送的准确性。
在具体实施时,为了确保数据信息推送的安全性,需要在企业终端服务器登录政策处理平台时对企业终端服务器进行安全性验证,为此,在步骤S25中,数据信息处理平台通过以下方式检测所述企业终端服务器的设定信息:
步骤S2511,在检测到所述企业终端服务器发送的登录信息时,向所述企业终端服务器发送用于控制所述企业终端服务器进行生物特征信息采集的控制指令。
在本实施例中,生物特征信息可以是用户在通过企业终端服务器输入登录信息(例如登录名和密码)时的指纹信息、人脸信息或声纹信息。
步骤S2512,获取所述企业终端服务器根据所述控制指令采集到的生物特征信息。
步骤S2513,在预设的数据库中查找是否存在与所述生物特征信息一致的目标生物特征信息,若是,确定所述企业终端服务器存在所述设定信息。
在本实施例中,数据库中存储有企业终端服务器预先上传的已授权的生物特征信息,当用户登录企业终端服务器时,若该用户的生物特征信息不存在于数据库中,表征该企业终端服务器处于非法登录状态,在这种情况下,为了避免将数据信息推送给处于非法登录状态的企业终端服务器,可以判定企业终端服务器的登录信息无效,进而判定企业终端服务器不存在设定信息。
可以理解,通过上述内容,能够在企业终端服务器登录政策处理平台时对企业终端服务器进行安全性验证,从而确保数据信息推送的安全性。
在具体实施时,为了确保数据信息推送的精准性,需要对数据信息中的量化数据进行分析,进而确定出数据信息对应的硬性数字指标,为此,在步骤S22中,数据信息处理平台对每个数据信息集中的每个第一目标数据信息中的量化数据进行编译得到编译结果;根据该编译结果对每个第一目标数据信息分配第二标签的步骤,包括以下子步骤:
步骤S221,对该第一目标数据信息中的量化数据进行提取,得到所述量化数据对应的数值大小编码字符以及数值类型编码字符。
在本实施例中,数值大小编码字符用于表征量化数据的大小,数值类型编码字符用于确定量化数据的类型,量化数据的大小和类型能够为量化数据提供准确的描述。例如,若数值大小编码字符为000011,则表征量化数据的大小为3,若数值类型编码字符为101110101101,则表征量化数据的类型为专利。
步骤S222,根据所述数值大小编码字符和所述数值类型编码字符得到字符编码对。
在本实施例中,字符编码对用于表征量化数据所对应的硬性指标,例如,以000011--101110101101这一字符编码对进行说明,该字符编码对可以表征企业申报项目的当年专利授权数量需要达到3件。
步骤S223,在预设的字符编码库中查找出与所述字符编码对对应的标签,将所述标签确定为该第一目标数据信息的第二标签。
在本实施例中,以字符编码对000011--101110101101为例进行说明,在预设的字符编码库中查找出与字符编码对对应的标签为专利申报,则为第一目标正常数据分配的第二标签可以为“专利申报数量”。
可以理解,通过上述内容,能够对数据信息中的量化数据进行分析,进而确定出数据信息对应的硬性数字指标,从而确保数据信息推送的精准性。
在上述基础上,如图3所示,本发明实施例还提供了一种大数据信息推送处理方法,该方法应用于图1中的数据信息处理平台101,具体可以包括以下内容:
步骤S41,采集数据信息,对所述数据信息进行语言处理,得到语言分析结果;根据所述语言分析结果对所述数据信息进行分类得到多个数据信息集,为每个数据信息集分配第一标签。
步骤S42,对每个数据信息集中的每个第一目标数据信息中的量化数据进行编译得到编译结果;根据该编译结果对每个第一目标数据信息分配第二标签。
步骤S43,确定出企业终端服务器对应的用户行为数据和企业信息;根据所述用户行为数据和所述企业信息对所述企业终端服务器进行量化分析,得到量化分析结果;根据所述量化分析结果对该企业终端服务器分配第三标签。
步骤S44,在检测到所述企业终端服务器存在设定信息时,将所述第三标签与每个第二标签的进行匹配得到第一相似度值,将最大第一相似度值对应的第二标签所对应的第一目标数据信息推送给所述企业终端服务器;确定最大第一相似度值对应的第二标签所对应的第一标签与所述第三标签的第二相似度值,根据所述第二相似度值将最大第一相似度值对应的数据信息集中的至少部分第二目标数据信息推送给所述企业终端服务器。
可以理解,由于步骤S41-步骤S44的实现原理与步骤S21-步骤S25的实现原理类似,因此在此不作更多说明。
在上述基础上,本发明实施例提供了一种数据信息处理平台101。图4为根据本发明一个实施例提供的一种数据信息处理平台101的功能模块框图,该数据信息处理平台101包括:
采集模块1011,用于采集数据信息,对所述数据信息进行语言处理,得到语言分析结果;根据所述语言分析结果对所述数据信息进行分类得到多个数据信息集,为每个数据信息集分配第一标签。
第一分配模块1012,用于对每个数据信息集中的每个第一目标数据信息中的量化数据进行编译得到编译结果;根据该编译结果对每个第一目标数据信息分配第二标签。
第二分配模块1013,用于确定出企业终端服务器对应的用户行为数据和企业信息;根据所述用户行为数据和所述企业信息对所述企业终端服务器进行量化分析,得到量化分析结果;根据所述量化分析结果对该企业终端服务器分配第三标签。
推送模块1014,用于在检测到所述企业终端服务器存在设定信息时,将所述第三标签与每个第二标签的进行匹配得到第一相似度值,将最大第一相似度值对应的第二标签所对应的第一目标数据信息推送给所述企业终端服务器;确定最大第一相似度值对应的第二标签所对应的第一标签与所述第三标签的第二相似度值,根据所述第二相似度值将最大第一相似度值对应的数据信息集中的至少部分第二目标数据信息推送给所述企业终端服务器。
综上,本发明实施例所提供的一种大数据信息推送处理方法及系统,不仅能够将第一目标数据信息推送给企业终端服务器,还能够根据第二相似度值将最大第一相似度值对应的数据信息集中的至少部分第二目标数据信息推送给企业终端服务。如此,数据信息处理平台能够基于数据信息和企业终端服务器在数据信息处理平台上的操作进行数据处理、分析和分类并打上对应的标签,然后在检测到企业终端服务器登录时直接将第一目标数据信息和至少部分第二目标数据信息进行推送,无需用户在系统给与匹配的大量信息中寻找符合自己申报条件的数据信息,能够有效减少用户的时间成本,提高数据信息推送的时效性。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (8)

1.一种大数据信息推送处理方法,其特征在于,包括以下步骤:
步骤S21,数据信息处理平台采集数据信息,对所述数据信息进行语言处理,得到语言分析结果;根据所述语言分析结果对所述数据信息进行分类得到多个数据信息集,为每个数据信息集分配第一标签;
步骤S22,数据信息处理平台对每个数据信息集中的每个第一目标数据信息中的量化数据进行编译得到编译结果;根据该编译结果对每个第一目标数据信息分配第二标签;
步骤S23,企业终端服务器响应用户的操作指令,根据所述操作指令在所述数据信息处理平台上进行操作;
步骤S24,数据信息处理平台确定出所述企业终端服务器对应的用户行为数据和企业信息;根据所述用户行为数据和所述企业信息对所述企业终端服务器进行量化分析,得到量化分析结果;根据所述量化分析结果对该企业终端服务器分配第三标签;
步骤S25,数据信息处理平台在检测到所述企业终端服务器存在设定信息时,将所述第三标签与每个第二标签的进行匹配得到第一相似度值,将最大第一相似度值对应的第二标签所对应的第一目标数据信息推送给所述企业终端服务器;确定最大第一相似度值对应的第二标签所对应的第一标签与所述第三标签的第二相似度值,根据所述第二相似度值将最大第一相似度值对应的数据信息集中的至少部分第二目标数据信息推送给所述企业终端服务器。
2.根据权利要求1所述的大数据信息推送处理方法,其特征在于,在步骤S25中,数据信息处理平台通过以下方式检测所述企业终端服务器的设定信息:
步骤S2511,在检测到所述企业终端服务器发送的登录信息时,向所述企业终端服务器发送用于控制所述企业终端服务器进行生物特征信息采集的控制指令;
步骤S2512,获取所述企业终端服务器根据所述控制指令采集到的生物特征信息;
步骤S2513,在预设的数据库中查找是否存在与所述生物特征信息一致的目标生物特征信息,若是,确定所述企业终端服务器存在所述设定信息。
3.根据权利要求1所述的大数据信息推送处理方法,其特征在于,在步骤S22中,数据信息处理平台对每个数据信息集中的每个第一目标数据信息中的量化数据进行编译得到编译结果;根据该编译结果对每个第一目标数据信息分配第二标签的步骤,包括以下子步骤:
步骤S221,对该第一目标数据信息中的量化数据进行提取,得到所述量化数据对应的数值大小编码字符以及数值类型编码字符;
步骤S222,根据所述数值大小编码字符和所述数值类型编码字符得到字符编码对;
步骤S223,在预设的字符编码库中查找出与所述字符编码对对应的标签,将所述标签确定为该第一目标数据信息的第二标签。
4.根据权利要求1-3任一项所述的大数据信息推送处理方法,其特征在于,在步骤S25中,根据所述第二相似度值将最大第一相似度值对应的数据信息集中的至少部分第二目标数据信息推送给所述企业终端服务器的步骤,包括以下子步骤:
步骤S2521,判断所述第二相似度值是否大于目标相似度值;
步骤S2522,在所述第二相似度值大于所述目标相似度值时,检测所述企业终端服务器中是否存在对所述最大第一相似度值对应的第二标签对应的第一目标数据信息的下载信号,在所述企业终端服务器中存在所述下载信号时,获取所述企业终端服务器的剩余存储容量;根据所述剩余存储容量将所述最大第一相似度值对应的数据信息集中的至少部分第二目标数据信息推送给所述企业终端服务器。
5.根据权利要求1-3任一项所述的大数据信息推送处理方法,其特征在于,在步骤S24中,根据所述用户行为数据和所述企业信息对所述企业终端服务器进行量化分析,得到量化分析结果;根据所述量化分析结果对该企业终端服务器分配第三标签的步骤,包括以下子步骤:
步骤S241,确定出该企业终端服务器对应的用户行为数据、基础信息和注册信息中的数值信息;
步骤S242,根据所述数值信息所处的数值区间,确定所述数值信息的量化分析结果;
步骤S243,根据所述数值信息的量化分析结果对该企业终端服务器分配第三标签。
6.根据权利要求5所述的大数据信息推送处理方法,其特征在于,在步骤S21中,对所述数据信息进行语言处理,得到语言分析结果的步骤,包括以下子步骤:
对所述数据信息进行语言处理,得到关键词分析结果、句法分析结果和语义分析结果。
7.根据权利要求6所述的大数据信息推送处理方法,其特征在于,在步骤S21中,根据所述语言分析结果对所述数据信息进行分类得到多个数据信息集,为每个数据信息集分配第一标签的步骤,包括以下子步骤:
根据所述关键词分析结果、所述句法分析结果和所述语义分析结果对数据信息进行分类得到多个数据信息集,为每个数据信息集分配第一标签。
8.一种大数据信息推送处理系统,其特征在于,包括互相之间通信的数据信息处理平台和企业终端服务器;
数据信息处理平台,用于采集数据信息,对所述数据信息进行语言处理,得到语言分析结果;根据所述语言分析结果对所述数据信息进行分类得到多个数据信息集,为每个数据信息集分配第一标签;用于对每个数据信息集中的每个第一目标数据信息中的量化数据进行编译得到编译结果;根据该编译结果对每个第一目标数据信息分配第二标签;
企业终端服务器,用于响应用户的操作指令,根据所述操作指令在所述数据信息处理平台上进行操作;
数据信息处理平台,用于确定出所述企业终端服务器对应的用户行为数据和企业信息;根据所述用户行为数据和所述企业信息对所述企业终端服务器进行量化分析,得到量化分析结果;根据所述量化分析结果对该企业终端服务器分配第三标签;用于在检测到所述企业终端服务器存在设定信息时,将所述第三标签与每个第二标签的进行匹配得到第一相似度值,将最大第一相似度值对应的第二标签所对应的第一目标数据信息推送给所述企业终端服务器;确定最大第一相似度值对应的第二标签所对应的第一标签与所述第三标签的第二相似度值,根据所述第二相似度值将最大第一相似度值对应的数据信息集中的至少部分第二目标数据信息推送给所述企业终端服务器。
CN202010156127.8A 2020-03-09 2020-03-09 一种大数据信息推送处理方法及系统 Active CN111008349B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010156127.8A CN111008349B (zh) 2020-03-09 2020-03-09 一种大数据信息推送处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010156127.8A CN111008349B (zh) 2020-03-09 2020-03-09 一种大数据信息推送处理方法及系统

Publications (2)

Publication Number Publication Date
CN111008349A CN111008349A (zh) 2020-04-14
CN111008349B true CN111008349B (zh) 2020-06-02

Family

ID=70120989

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010156127.8A Active CN111008349B (zh) 2020-03-09 2020-03-09 一种大数据信息推送处理方法及系统

Country Status (1)

Country Link
CN (1) CN111008349B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112685564A (zh) * 2020-12-28 2021-04-20 广州博士信息技术研究院有限公司 一种智能科技政策分类、推送方法、以及系统

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080235216A1 (en) * 2007-03-23 2008-09-25 Ruttenberg Steven E Method of predicitng affinity between entities
CN104598518B (zh) * 2014-12-10 2017-02-22 深圳市腾讯计算机系统有限公司 一种内容的推送方法和装置
CN106227786B (zh) * 2016-07-19 2019-10-15 百度在线网络技术(北京)有限公司 用于推送信息的方法和装置
CN106383894A (zh) * 2016-09-23 2017-02-08 深圳市由心网络科技有限公司 一种企业供需信息匹配方法和装置
CN108228643A (zh) * 2016-12-21 2018-06-29 北京视联动力国际信息技术有限公司 一种检索方法及系统
CN109558500A (zh) * 2018-11-21 2019-04-02 杭州网易云音乐科技有限公司 多媒体序列生成方法、介质、装置和计算设备
CN110297953A (zh) * 2019-05-22 2019-10-01 深圳壹账通智能科技有限公司 产品信息推荐方法、装置、计算机设备以及存储介质
CN110413888B (zh) * 2019-07-24 2024-05-10 腾讯科技(深圳)有限公司 一种书籍推荐方法及装置
CN110851737B (zh) * 2019-11-13 2024-03-12 哈工大机器人湖州国际创新研究院 推荐方法、装置、电子设备及计算机存储介质

Also Published As

Publication number Publication date
CN111008349A (zh) 2020-04-14

Similar Documents

Publication Publication Date Title
Stein et al. Intrinsic plagiarism analysis
CN114610515A (zh) 基于日志全语义的多特征日志异常检测方法及系统
US20010011259A1 (en) Method and apparatus for interpreting information
Cortez et al. Ondux: on-demand unsupervised learning for information extraction
Hao et al. Finding similar questions in collaborative question answering archives: toward bootstrapping-based equivalent pattern learning
CN112685564A (zh) 一种智能科技政策分类、推送方法、以及系统
CN114896305A (zh) 一种基于大数据技术的智慧互联网安全平台
CN114491034B (zh) 一种文本分类方法及智能设备
CN113486983A (zh) 一种用于反欺诈处理的大数据办公信息分析方法及系统
CN111008349B (zh) 一种大数据信息推送处理方法及系统
Tan et al. Textual data mining of service center call records
CN114676346A (zh) 新闻事件处理方法、装置、计算机设备和存储介质
CN113986660A (zh) 系统调整策略的匹配方法、装置、设备及存储介质
CN114117038A (zh) 一种文档分类方法、装置、系统及电子设备
CN111988327B (zh) 威胁行为检测和模型建立方法、装置、电子设备及存储介质
CN110674288A (zh) 一种应用于网络安全领域的用户画像方法
Han et al. Disambiguating USPTO inventor names with semantic fingerprinting and DBSCAN clustering
CN115544235A (zh) 一种基于文本解析的电网规划智能问答系统
CN115618085A (zh) 一种基于动态标签的接口数据暴露探测方法
US20210319184A1 (en) Recognition of sensitive terms in textual content using a relationship graph of the entire code and artificial intelligence on a subset of the code
CN113901839A (zh) 用户视频信息审核方法、装置、设备及存储介质
Aires et al. An information theory approach to detect media bias in news websites
CN112199573A (zh) 一种非法交易主动探测方法及系统
Luo et al. A comparison of som based document categorization systems
Krivchenkov et al. Structural analysis of the NSL-KDD data sets for solving the problem of attacks detection using ML/DL methods

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: Room 904, 9th Floor, Building 5, Pinshang Commercial Center, No. 1168 Xiangcheng Avenue, Xiangcheng District, Suzhou City, Jiangsu Province, 215131

Patentee after: Jiangsu Doctor Innovation Big Data Co.,Ltd.

Address before: 518052 A702, industrialization complex building of Virtual University Park, No.2, Yuexing Third Road, Science Park, Yuehai street, Nanshan District, Shenzhen City, Guangdong Province

Patentee before: Shenzhen doctor innovation technology transfer Co.,Ltd.