CN111813890B - 一种基于大数据的政策画像ai建模系统及方法 - Google Patents

一种基于大数据的政策画像ai建模系统及方法 Download PDF

Info

Publication number
CN111813890B
CN111813890B CN202010710723.6A CN202010710723A CN111813890B CN 111813890 B CN111813890 B CN 111813890B CN 202010710723 A CN202010710723 A CN 202010710723A CN 111813890 B CN111813890 B CN 111813890B
Authority
CN
China
Prior art keywords
policy
portrait
image
metadata
keywords
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010710723.6A
Other languages
English (en)
Other versions
CN111813890A (zh
Inventor
毛善奇
吕骅
王佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Hongchuang Information Technology Co ltd
Original Assignee
Jiangsu Hongchuang Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Hongchuang Information Technology Co ltd filed Critical Jiangsu Hongchuang Information Technology Co ltd
Priority to CN202010710723.6A priority Critical patent/CN111813890B/zh
Priority to PCT/CN2020/104714 priority patent/WO2022016561A1/zh
Publication of CN111813890A publication Critical patent/CN111813890A/zh
Application granted granted Critical
Publication of CN111813890B publication Critical patent/CN111813890B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于大数据的政策画像AI建模系统及方法,包括:大数据模块,用于结构化存储所有的政策样本数据;检索模块,用于政策画像的快速检索;政策抓取模块,用于政策信息的自动化抓取;画像模块,用于政策原文处理、政策画像样本训练、画像建模、画像纠错和画像算法管理;系统管理模块,用于用户和功能的权限管理、交互展示及大屏视觉展示;消息中间件,用于上述各个模块的消息信息互通。本发明快速获取国家各级政府颁布的政策原文,并能够解读政策的关键信息,提高工作效率,准确贯彻执行国家政策精神。

Description

一种基于大数据的政策画像AI建模系统及方法
技术领域
本发明属于数据分析技术领域,具体涉及一种基于大数据的政策画像AI建模系统及方法。
背景技术
目前,各级地方政府对于国家政策的获取与解读均使用人工方式来进行,往往需要耗费大量的人力物力来搜集、整理并解读政策文件,如今各级政府的政策文件层出不穷,面对浩如烟海的大量政策信息,急需利用自动化的方式来自动获取政策原文,并进行政策关键信息的智能化快速解读,以便政府相关部门、企业和人民群众及时、准确了解国家最新政策信息,正确领会政策精神,以保证政策文件有效地贯彻执行。
发明内容
本发明的目的是提供一种基于大数据的政策画像AI建模系统及方法,快速获取国家各级政府颁布的政策原文,并能够解读政策的关键信息,提高工作效率,准确贯彻执行国家政策精神。
本发明提供了如下的技术方案:
一种基于大数据的政策画像AI建模系统,包括:
大数据模块,用于结构化存储所有的政策样本数据;
检索模块,用于政策画像的快速检索;
政策抓取模块,用于政策信息的自动化抓取;
画像模块,用于政策原文处理、政策画像样本训练、画像建模、画像纠错和画像算法管理;
系统管理模块,用于用户和功能的权限管理、交互展示及大屏视觉展示;
消息中间件,用于上述各个模块的消息信息互通;
所述政策抓取模块用于配置政策发布地址、抓取范围、周期和时间点,并开启政策原文获取;
所述画像模块包括原文处理引擎、政策画像样本训练引擎、画像建模引擎、画像纠错模块和画像算法管理模块;所述原文处理引擎用于对政策原文进行语义分析并通过分词拆解原文,经过过滤库过滤掉非元数据关键词,提取所有可能是针对企业或人的元数据关键词,存入所述大数据模块样本库;政策画像样本训练引擎,用于计算元数据关键词的相关性,优化政策关键词库;画像建模引擎,用于提取出类别元数据关键词,建立政策的分类项,并提取出匹配元数据关键词,语义获取关键词属性,建立政策的匹配项,完成政策画像建立;画像纠错模块用于整健康度低的匹配条款、类别元数据,更新政策画像;画像算法管理模块用于管理运行上述画像模块。
一种基于大数据的政策画像AI建模方法,包括以下步骤:
配置政策任务,进行政策原文自动获取;
对政策原文进行语义分析,并通过分词拆解原文,经过过滤库过滤掉非元数据关键词,提取所有可能是针对企业或人的元数据关键词,存入大数据模块样本库;
通过样本训练计算元数据关键词的相关性,优化政策关键词库;
画像建模,提取出类别元数据关键词,建立政策的分类项,并提取出匹配元数据关键词,语义获取关键词属性,建立政策的匹配项,完成政策画像建立;
同时,将政策画像存入画像检索和索引建立队列中进行展示;
调整健康度低的匹配条款、类别元数据进行画像纠错,更新政策画像。
优选的,政策原文自动获取包括以下步骤:
S1.1:配置抓取任务,任务的内容包含网页URL、任务执行周期、任务执行时间点,任务告警通知;
S1.2:引擎根据任务执行时间按时启动;
S1.3:首先根据任务属性中的URL获取网页信息,根据URL判断是否捕获过,未捕获则把该政策原文放入政策原文队列中;
S1.4:基于启发式算法,以空间模型提取关键词,根据反比文档频率计算出关键词的权重,预测下一步处理链接;
S1.5:使用下一步处理链接执行S1.3-S.14,直到所有链接都浏览完毕,完成自动获取。
优选的,对政策原文进行雨衣分析为基于语义和大数据的解读方法,包括以下步骤:
S2.1:从政策原文队列中获取待处理原文;
S2.2:基于隐含马尔可夫模型和维特比算法拆解原文词汇,获取该原文词汇;
S2.3:对提取的词汇,基于大数据样本库中的无效词汇库采取余弦相似度算法进行过滤;
S2.4:基于已有的政策原文模型,判断是否为有效政策原文,无效则终止;
S2.5:有效词汇基于大数据样本库中的关键词库存进行筛选,把非关键词词汇录入大数据样本库;
S2.6:政策原文与有效词汇存入画像处理队列中。
优选的,样本训练即关键词机器自学习,包括以下步骤:
S3.1:从样本库中取出新抓取政策的非关键词;
S3.2:采用flink框架,基于自组法模型和TF-IDF打分算法,计算出这批非关键词最新得分,更新样本库;
S3.3:根据内置模型:分值提高维度、关联政策数量、关联的政策之间的相关度来确定该非关键词转变为关键词;
S3.4:获取新的关键词涉及到的政策,把政策画像存入画像检索建立队列中。
优选的,画像建模即政策原文的属性分析,包括以下步骤:
S4.1:从画像原文队列中获取原文与词汇信息;
S4.2:基于关键词库,建立该政策原文的关键词;
S4.3:从关键词列表中获取匹配关键词,以及匹配的样本;
S4.4:从原文匹配关键词前后摘取一定文字,基于匹配样本通过KMP算法,提取匹配值;
S4.5:如提取不到匹配值,则该画像提取暂停告警,由人为介入,添加匹配样本,再次启动提取;
S4.5:政策画像建立完成,存入画像检索建立队列中。
优选的,政策画像检索建立,包括以下步骤:
S5.1:从画像检索建立队列中获取画像信息;
S5.2:判断是政策新增还是政策修订,新增则插入数据,修订则修改数据;
S5.3:通过画像分类元数据建立政策原文的分类检索条件;
S5.4:通过画像匹配元数据建立政策原文的匹配检索条件。
优选的,画像纠错包括通过管理页面修正政策画像和基于机器自学习自动化纠错;其步骤为:
通过管理页面修正政策画像包括以下步骤:
S6.1:新增、删除分类元数据;
S6.2:新增、删除匹配元数据与匹配样本;
S6.3:获取涉及到修改的元数据的政策画像信息,更新画像信息,并存入画像索引建立队列中;
基于机器自学习自动化纠错包括以下步骤:
S7.1:根据元数据健康模型:建立时间、涉及政策的相关度、关键词出错率、后台审核通过等,筛选出需要演算的元数据;
S7.2:对元数据以准确率、精确率、召回率和F1-Measure为模型,计算该元数据在所有相关政策画像的打分;
S7.3:低于阈值分值的元数据提交到后台人工审核是否需要修正;
S7.4:获取涉及到修改的元数据的政策画像信息,更新画像信息,并存入画像索引建立队列中。
本发明的有益效果是:本发明提供了基于大数据技术的国家政策原文检索、语义分析功能,能够快速准确的从国家权威机构获取最新国家政策,并能够通过语义分析拆解政策原文,优化政策关键信息,自动进行政策信息的标签化管理,建立政策文件的分类检索机制,提高政策获取与解读的效率及准确性。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明结构原理图。
具体实施方式
如图1所示,一种基于大数据的政策画像AI建模系统,包括:
大数据模块,用于结构化存储所有的政策样本数据;
检索模块,用于政策画像的快速检索;
政策抓取模块,用于政策信息的自动化抓取;
画像模块,用于政策原文处理、政策画像样本训练、画像建模、画像纠错和画像算法管理;
系统管理模块,用于用户和功能的权限管理、交互展示及大屏视觉展示;
消息中间件,用于上述各个模块的消息信息互通。
具体的,政策抓取模块配置政策发布地址,抓取范围、周期、时间点,开启政策原文获取;画像模块的原文处理引擎,对政策原文进行语义分析,通过分词拆解原文,通过过滤库过滤掉非元数据关键词,提取所有可能是针对企业/人的元数据关键词,存入大数据模块样本库;通过样本训练引擎计算这些关键词的相关性,优化政策关键词库;通过建模引擎提取出类别元数据关键词,建立政策的分类;通过建模引擎提取出匹配元数据关键词,语义获取关键词属性,建立政策的匹配;通过搜索模块把政策画像存入;通过政策画像纠错模块调整健康度低的匹配条款、类别元数据,更新政策画像。
如图1所示,一种基于大数据的政策画像AI建模方法,包括以下步骤:
配置政策任务,进行政策原文自动获取;
对政策原文进行语义分析,并通过分词拆解原文,经过过滤库过滤掉非元数据关键词,提取所有可能是针对企业或人的元数据关键词,存入大数据模块样本库;
通过样本训练计算元数据关键词的相关性,优化政策关键词库;
画像建模,提取出类别元数据关键词,建立政策的分类项,并提取出匹配元数据关键词,语义获取关键词属性,建立政策的匹配项,完成政策画像建立;
同时,将政策画像存入画像检索和索引建立队列中进行展示;
调整健康度低的匹配条款、类别元数据进行画像纠错,更新政策画像。
具体的,1)政策抓取为大数据采集方法,其步骤:
S1.1配置抓取任务,任务的内容包含网页URL、任务执行周期、任务执行时间点,任务告警通知等;
S1.2引擎根据任务执行时间按时启动;
S1.3首先根据任务属性中的URL获取网页信息,根据url判断是否捕获过,未捕获则把该政策原文放入政策原文队列中;
S1.4基于启发式算法,以空间模型提取关键词,根据反比文档频率计算出关键词的权重,预测下一步处理链接;
S1.5使用下一步处理链接执行S1.3-S.14,直到所有链接都浏览完毕。
2)原文分析为基于语义和大数据的政策解读方法,其步骤:
S2.1从政策原文队列中获取待处理原文;
S2.2基于隐含马尔可夫模型(Hidden Markov Model)和维特比算法(Viterbi)算法拆解原文词汇,获取该原文词汇;
S2.3对提取的词汇,基于大数据样本库中的无效词汇库采取余弦相似度算法进行过滤;
S2.4基于已有的政策原文模型,判断是否有效政策原文,无效则终止;
S2.5有效词汇基于大数据样本库中的关键词库存进行筛选,把非关键词词汇录入大数据样本库;
S2.6政策原文与有效词汇存入画像处理队列中。
3)样本训练即关键词机器自学习,其步骤:
S3.1从样本库中取出新抓取政策的这批非关键词;
S3.2采用flink框架,基于自组法模型和TF-IDF打分算法,计算出这批非关键词最新得分,更新样本库;
S3.3根据内置模型:分值提高维度、关联政策数量、关联的政策之间的相关度等来确定该非关键词转变为关键词;
S3.4获取新的关键词涉及到的政策,把政策画像存入画像检索建立队列中,用于用户和功能的权限管理、交互展示及大屏视觉展示;
4)画像建模即政策原文的属性分析,其步骤:
S4.1从画像队列中获取原文与词汇信息;
S4.2基于关键词库,建立该政策原文的关键词;
S4.3从关键词列表中获取匹配关键词,以及匹配的样本;
S4.4从原文匹配关键词前后摘取一定文字,基于匹配样本通过KMP算法,提取匹配值;
S4.5如4.5提取不到匹配值,则该画像提取暂停告警,由人为介入,添加匹配样本,再次启动提取;
S4.5政策画像建立完成,存入画像检索建立队列中。
5)政策画像检索建立是以Elasticsearch引擎为基础,其步骤为:
S5.1从画像检索建立队列中获取画像信息;
S5.2判断是政策新增还是政策修订,新增则插入数据,修订则修改数据;
S5.3通过画像分类元数据建立政策原文的分类检索条件,例如:政策分类农业、加工业等;
S5.4通过画像匹配元数据建立政策原文的匹配检索条件,例如:企业补贴:高新、小型企业补贴10万;高新、大型企业补贴30万。
6)画像纠错之分手工纠错即通过管理页面修正政策画像,其步骤为:
S6.1新增、删除分类元数据;
S6.2新增、删除匹配元数据与匹配样本;
S6.3获取涉及到修改的元数据的政策画像信息,更新画像信息,并存入画像索引建立队列中,用于用户和功能的权限管理、交互展示及大屏视觉展示。
7)画像纠错之机器自学习纠错为自动化纠错方式,其步骤为:
S7.1根据元数据健康模型:建立时间、涉及政策的相关度、关键词出错率、后台审核通过等,筛选出需要演算的元数据;
S7.2对元数据以准确率(Accuracy),精确率(Precision),召回率(Recall)和F1-Measure为模型,计算该元数据在所有相关政策画像的打分;
S7.3低于阈值分值的元数据提交到后台人工审核是否需要修正;
S7.4获取涉及到修改的元数据的政策画像信息,更新画像信息,并存入画像索引建立队列中,用于用户和功能的权限管理、交互展示及大屏视觉展示。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于大数据的政策画像AI建模方法,其特征在于,包括:建模系统,所述建模系统包括:
大数据模块,用于结构化存储所有的政策样本数据;
检索模块,用于政策画像的快速检索;
政策抓取模块,用于政策信息的自动化抓取;
画像模块,用于政策原文处理、政策画像样本训练、画像建模、画像纠错和画像算法管理;
系统管理模块,用于用户和功能的权限管理、交互展示及大屏视觉展示;
消息中间件,用于上述各个模块的消息信息互通;
所述政策抓取模块用于配置政策发布地址、抓取范围、周期和时间点,并开启政策原文获取;
所述画像模块包括原文处理引擎、政策画像样本训练引擎、画像建模引擎、画像纠错模块和画像算法管理模块;所述原文处理引擎用于对政策原文进行语义分析并通过分词拆解原文,经过过滤库过滤掉非元数据关键词,提取所有可能是针对企业或人的元数据关键词,存入所述大数据模块样本库;政策画像样本训练引擎,用于计算元数据关键词的相关性,优化政策关键词库;画像建模引擎,用于提取出类别元数据关键词,建立政策的分类项,并提取出匹配元数据关键词,语义获取关键词属性,建立政策的匹配项,完成政策画像建立;画像纠错模块用于调整健康度低的匹配条款、类别元数据,更新政策画像;画像算法管理模块用于管理运行上述画像模块;
建模方法,包括以下步骤:
配置政策任务,进行政策原文自动获取;
对政策原文进行语义分析,并通过分词拆解原文,经过过滤库过滤掉非元数据关键词,提取所有可能是针对企业或人的元数据关键词,存入大数据模块样本库;
通过样本训练计算元数据关键词的相关性,优化政策关键词库;
画像建模,提取出类别元数据关键词,建立政策的分类项,并提取出匹配元数据关键词,语义获取关键词属性,建立政策的匹配项,完成政策画像建立;
政策画像检索建立,包括以下步骤:
S5.1:从画像检索建立队列中获取画像信息;
S5.2:判断是政策新增还是政策修订,新增则插入数据,修订则修改数据;
S5.3:通过画像分类元数据建立政策原文的分类检索条件;
S5.4:通过画像匹配元数据建立政策原文的匹配检索条件;
画像建模即政策原文的属性分析,包括以下步骤:
S4.1:从画像原文队列中获取原文与词汇信息;
S4.2:基于关键词库,建立该政策原文的关键词;
S4.3:从关键词列表中获取匹配关键词,以及匹配的样本;
S4.4:从原文匹配关键词前后摘取一定文字,基于匹配样本通过KMP算法,提取匹配值;
S4.5:如提取不到匹配值,则该画像提取暂停告警,由人为介入,添加匹配样本,再次启动提取;
S4.5:政策画像建立完成,存入画像检索建立队列中;
同时,将政策画像存入画像检索和索引建立队列中进行展示;
调整健康度低的匹配条款、类别元数据进行画像纠错,更新政策画像;
画像纠错包括通过管理页面修正政策画像和基于机器自学习自动化纠错;其步骤为:
通过管理页面修正政策画像包括以下步骤:
S6.1:新增、删除分类元数据;
S6.2:新增、删除匹配元数据与匹配样本;
S6.3:获取涉及到修改的元数据的政策画像信息,更新画像信息,并存入画像索引建立队列中;
基于机器自学习自动化纠错包括以下步骤:
S7.1:根据元数据健康模型:建立时间、涉及政策的相关度、关键词出错率、后台审核通过,筛选出需要演算的元数据;
S7.2:对元数据以准确率、精确率、召回率和F1-Measure为模型,计算该元数据在所有相关政策画像的打分;
S7.3:低于阈值分值的元数据提交到后台人工审核是否需要修正;
S7.4:获取涉及到修改的元数据的政策画像信息,更新画像信息,并存入画像索引建立队列中。
2.根据权利要求1所述的一种基于大数据的政策画像AI建模方法,其特征在于,政策原文自动获取包括以下步骤:
S1.1:配置抓取任务,任务的内容包含网页URL、任务执行周期、任务执行时间点,任务告警通知;
S1.2:引擎根据任务执行时间按时启动;
S1.3:首先根据任务属性中的URL获取网页信息,根据URL判断是否捕获过,未捕获则把该政策原文放入政策原文队列中;
S1.4:基于启发式算法,以空间模型提取关键词,根据反比文档频率计算出关键词的权重,预测下一步处理链接;
S1.5:使用下一步处理链接执行S1.3-S.14,直到所有链接都浏览完毕,完成自动获取。
3.根据权利要求2所述的一种基于大数据的政策画像AI建模方法,其特征在于,对政策原文进行语义分析为基于语义和大数据的解读方法,包括以下步骤:
S2.1:从政策原文队列中获取待处理原文;
S2.2:基于隐含马尔可夫模型和维特比算法拆解原文词汇,获取该原文词汇;
S2.3:对提取的词汇,基于大数据样本库中的无效词汇库采取余弦相似度算法进行过滤;
S2.4:基于已有的政策原文模型,判断是否为有效政策原文,无效则终止;
S2.5:有效词汇基于大数据样本库中的关键词库存进行筛选,把非关键词词汇录入大数据样本库;
S2.6:政策原文与有效词汇存入画像处理队列中。
4.根据权利要求1所述的一种基于大数据的政策画像AI建模方法,其特征在于,样本训练即关键词机器自学习,包括以下步骤:
S3.1:从样本库中取出新抓取政策的非关键词;
S3.2:采用flink框架,基于自组法模型和TF-IDF打分算法,计算出这批非关键词最新得分,更新样本库;
S3.3:根据内置模型:分值提高维度、关联政策数量、关联的政策之间的相关度来确定该非关键词转变为关键词;
S3.4:获取新的关键词涉及到的政策,把政策画像存入画像检索建立队列中。
CN202010710723.6A 2020-07-22 2020-07-22 一种基于大数据的政策画像ai建模系统及方法 Active CN111813890B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010710723.6A CN111813890B (zh) 2020-07-22 2020-07-22 一种基于大数据的政策画像ai建模系统及方法
PCT/CN2020/104714 WO2022016561A1 (zh) 2020-07-22 2020-07-27 一种基于大数据的政策画像ai建模系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010710723.6A CN111813890B (zh) 2020-07-22 2020-07-22 一种基于大数据的政策画像ai建模系统及方法

Publications (2)

Publication Number Publication Date
CN111813890A CN111813890A (zh) 2020-10-23
CN111813890B true CN111813890B (zh) 2021-12-07

Family

ID=72861878

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010710723.6A Active CN111813890B (zh) 2020-07-22 2020-07-22 一种基于大数据的政策画像ai建模系统及方法

Country Status (2)

Country Link
CN (1) CN111813890B (zh)
WO (1) WO2022016561A1 (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112685638A (zh) * 2020-12-30 2021-04-20 深圳市华傲数据技术有限公司 数据处理方法、设备及存储介质
CN112380418B (zh) * 2020-12-31 2021-07-16 金服软件(广州)有限公司 一种基于网络爬虫的数据处理方法、系统及云平台
CN113034053A (zh) * 2021-04-29 2021-06-25 福建引征科技有限公司 一种基于政策信息与服务对象之间匹配及评估的建模方法
CN114528448B (zh) * 2022-02-25 2022-10-04 南京苏维博欣信息技术有限公司 一种全球外贸客户客户画像精准分析系统
CN115630080B (zh) * 2022-10-26 2023-08-04 深圳市纵横云数信息科技有限公司 一种引导式的人才政策福利计算方法及装置
CN115470341B (zh) * 2022-11-02 2023-03-24 中国电子技术标准化研究院 网络目标条款筛选方法、装置、电子设备及存储介质
CN115718823A (zh) * 2022-11-24 2023-02-28 维正科技服务有限公司 一种多维度产业政策匹配方法、系统及存储介质
CN116204562B (zh) * 2023-05-04 2023-09-19 广东政沣云计算有限公司 一种政策信息处理方法、装置、电子设备及存储介质
CN116578763B (zh) * 2023-07-11 2023-09-15 卓谨信息科技(常州)有限公司 基于生成式ai认知模型的多源信息展览系统
CN116578613B (zh) * 2023-07-13 2023-09-08 合肥尚创信息技术有限公司 一种用于大数据分析的数据挖掘系统
CN117235206B (zh) * 2023-08-30 2024-04-30 上海通办信息服务有限公司 一种基于深度学习的政策匹配方法
CN117520627B (zh) * 2023-10-18 2024-04-26 广州汉申信息科技有限公司 项目检索数据处理方法及装置
CN117874425B (zh) * 2023-12-14 2024-07-02 浙江云程信息科技有限公司 一种基于人工智能的建筑材料数据结构化清洗方法及系统
CN117874319B (zh) * 2024-03-11 2024-05-17 江西顶易科技发展有限公司 基于搜索引擎的信息挖掘方法、装置及计算机设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102609512A (zh) * 2012-02-07 2012-07-25 北京中机科海科技发展有限公司 异构信息知识挖掘与可视化分析系统及方法
CN106599160A (zh) * 2016-12-08 2017-04-26 网帅科技(北京)有限公司 一种内容规则库管理系统及其编码方法
WO2019085332A1 (zh) * 2017-11-01 2019-05-09 平安科技(深圳)有限公司 金融数据分析方法、应用服务器及计算机可读存储介质
CN110046294A (zh) * 2019-03-04 2019-07-23 国网浙江省电力有限公司经济技术研究院 一种基于电力大数据的能源资讯系统
CN110472122A (zh) * 2019-07-31 2019-11-19 重庆古扬科技有限公司 一种多通道动态分布式学术资源采集方法

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8200700B2 (en) * 2005-02-01 2012-06-12 Newsilike Media Group, Inc Systems and methods for use of structured and unstructured distributed data
CN102567530B (zh) * 2011-12-31 2014-06-11 凤凰在线(北京)信息技术有限公司 一种文章类型网页智能抽取系统及其方法
US10699589B2 (en) * 2014-05-19 2020-06-30 Educational Testing Service Systems and methods for determining the validity of an essay examination prompt
US9460273B2 (en) * 2014-10-29 2016-10-04 International Business Machines Corporation Automatic generation of license terms for service application marketplaces
US10277588B2 (en) * 2014-11-03 2019-04-30 Facebook, Inc. Systems and methods for authenticating a user based on self-portrait media content
CN105740339B (zh) * 2016-01-25 2019-03-01 河北中科恒运软件科技股份有限公司 民政大数据融合管理系统
CN109934619A (zh) * 2019-02-13 2019-06-25 北京三快在线科技有限公司 用户画像标签建模方法、装置、电子设备及可读存储介质
CN110135901A (zh) * 2019-05-10 2019-08-16 重庆天蓬网络有限公司 一种企业用户画像构建方法、系统、介质和电子设备
CN111177794B (zh) * 2019-12-10 2022-06-10 平安医疗健康管理股份有限公司 城市画像方法、装置、计算机设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102609512A (zh) * 2012-02-07 2012-07-25 北京中机科海科技发展有限公司 异构信息知识挖掘与可视化分析系统及方法
CN106599160A (zh) * 2016-12-08 2017-04-26 网帅科技(北京)有限公司 一种内容规则库管理系统及其编码方法
WO2019085332A1 (zh) * 2017-11-01 2019-05-09 平安科技(深圳)有限公司 金融数据分析方法、应用服务器及计算机可读存储介质
CN110046294A (zh) * 2019-03-04 2019-07-23 国网浙江省电力有限公司经济技术研究院 一种基于电力大数据的能源资讯系统
CN110472122A (zh) * 2019-07-31 2019-11-19 重庆古扬科技有限公司 一种多通道动态分布式学术资源采集方法

Also Published As

Publication number Publication date
CN111813890A (zh) 2020-10-23
WO2022016561A1 (zh) 2022-01-27

Similar Documents

Publication Publication Date Title
CN111813890B (zh) 一种基于大数据的政策画像ai建模系统及方法
CN107180045B (zh) 一种互联网文本蕴含地理实体关系的抽取方法
US8335787B2 (en) Topic word generation method and system
US20090070322A1 (en) Browsing knowledge on the basis of semantic relations
CN106844640B (zh) 一种网页数据分析处理方法
AU2019201531A1 (en) An in-app conversational question answering assistant for product help
CN102236677A (zh) 一种基于问答系统的信息匹配方法及系统
CN110188291B (zh) 基于代理日志的文档处理
EP2480988A1 (en) Methods and systems for extracting keyphrases from natural text for search engine indexing
WO2013146736A1 (ja) 同義関係判定装置、同義関係判定方法、及びそのプログラム
CN109284432A (zh) 基于大数据平台的网络舆情分析系统
CN111538931A (zh) 基于大数据的舆情监控方法、装置、计算机设备及介质
CN109948154B (zh) 一种基于邮箱名的人物获取及关系推荐系统和方法
US20240346056A1 (en) Methods and systems for modifying a search result
CN109446299B (zh) 基于事件识别的搜索电子邮件内容的方法及系统
CN117952209A (zh) 一种知识图谱构建方法及系统
CN110334343A (zh) 一种合同中个人隐私信息抽取的方法和系统
CN113157903A (zh) 一种面向多领域的电力词库构建方法
WO2022231943A1 (en) Intelligent data extraction
US20120011113A1 (en) Determining Reliability of Electronic Documents Associated with Events
US20150154195A1 (en) Method for entity-driven alerts based on disambiguated features
CN117132226A (zh) 一种用户行为审核管理系统
CN114201607B (zh) 一种信息处理的方法和装置
US11507593B2 (en) System and method for generating queryeable structured document from an unstructured document using machine learning
CN114238616A (zh) 一种专家信息检测方法和存储设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant