CN112241438A - 一种政策服务信息数据处理和查询方法及系统 - Google Patents
一种政策服务信息数据处理和查询方法及系统 Download PDFInfo
- Publication number
- CN112241438A CN112241438A CN202011072280.9A CN202011072280A CN112241438A CN 112241438 A CN112241438 A CN 112241438A CN 202011072280 A CN202011072280 A CN 202011072280A CN 112241438 A CN112241438 A CN 112241438A
- Authority
- CN
- China
- Prior art keywords
- service information
- policy
- information
- policy service
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 17
- 238000007781 pre-processing Methods 0.000 claims abstract description 17
- 238000010845 search algorithm Methods 0.000 claims abstract description 7
- 238000001914 filtration Methods 0.000 claims description 25
- 230000011218 segmentation Effects 0.000 claims description 21
- 239000013598 vector Substances 0.000 claims description 17
- 238000000605 extraction Methods 0.000 claims description 6
- 238000003672 processing method Methods 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 abstract description 11
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000007792 addition Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/243—Natural language query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Tourism & Hospitality (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于人工智能技术领域,提供了一种政策服务信息数据处理和查询方法及系统,包括步骤:S1、获取政策服务信息数据源;S2、将政策服务信息数据源中的数据进行预处理;S3、将预处理后的数据生成对应的知识图谱并通过数据库储存所述知识图谱;本发明的优点在于通过NLP技术对获取的数据源进行命名实体和关系的抽取,无需人工参与,自动训练出政策相关的知识图谱,按照知识图谱的方式将抽取的实体和关系进行存储,不会出现数据杂乱无序的情况;通过NLP技术自动提取用户输入的查询信息的关键实体和关系,并使用知识图谱搜索算法分析出所有相关的政策信息,使得用户能够查询到对应的政策信息以及与政策相关联的信息。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种政策服务信息数据处理和查询方法及系统。
背景技术
目前,政策查询类软件大都是先人工查找出对应的各个地区的政策及法律法规,然后将政策信息按照一定的规则录入到系统,用户输入基本信息,然后匹配出满足条件的政策信息可供用户查看。
现有系统具体存在以下缺陷:人工搜集录入政策工作量大,信息不全;只能匹配出相应的政策,无法关联出其他相关联的信息;用户输入基本信息步骤较多,操作繁琐。
发明内容
本发明要解决的技术问题目的在于提供一种政策服务信息数据处理和查询方法及系统,用以解决政策信息查找不全面不便捷的问题;
为了实现上述目的,本发明采用的技术方案为:
一种政策服务信息数据处理方法,包括步骤:
S1、获取政策服务信息数据源;
S2、将政策服务信息数据源中的数据进行预处理;
S3、将预处理后的数据生成对应的知识图谱并通过数据库储存所述知识图谱。
进一步的,所述步骤S2包括:
S21、将政策服务信息数据源中的数据根据维比特算法进行分词处理;
S22、将分词处理获得的词组根据预设停用词过滤表进行停用词过滤;
S23、将过滤后的词组进行特征提取,使得过滤后的所有词组转化为词向量;
S24、识别词向量中的每个实体,并标记每个实体对应的类型;
S25:抽取各类实体之间的语义关系。
进一步的,所述步骤S1具体为:通过网络爬虫自动获取与政策服务信息相关的非结构化数据。
一种政策服务信息查询方法,包括:
S1、获取用户输入的查询信息;
S2、将用户输入的查询信息进行预处理;
S3、将预处理后的信息通过知识图谱搜索算法查找对应的政策信息以及与政策相关联的信息。
进一步的,所述步骤S2包括:
S21、将政策服务信息数据源中的数据根据维比特算法进行分词处理;
S22、将分词处理获得的词组根据预设停用词过滤表进行停用词过滤;
S23、将过滤后的词组进行特征提取,使得过滤后的所有词组转化为词向量;
S24、识别词向量中的每个实体,并标记每个实体对应的类型;
S25:抽取各类实体之间的语义关系。
一种政策服务信息系统,包括:
信息查询模块,用于获取用户输入的查询信息;
获取模块,用于获取政策服务信息数据源;
预处理模块,用于将用户输入的查询信息或获取的政策服务信息数据源中的数据进行预处理;
生成模块,用于将预处理后的数据生成对应的知识图谱;
搜索模块,用于将预处理后的信息通过知识图谱搜索算法查找对应的政策信息以及与政策相关联的信息。
进一步的,所述数据预处理模块包括:
分词单元,用于将用户输入的查询信息或政策服务信息数据源中的数据根据维比特算法进行分词处理;
停用词过滤单元,用于将分词处理获得的词组根据预设停用词过滤表进行停用词过滤;
特征提取单元,用于将过滤后的词组进行特征提取,使得过滤后的所有词组转化为词向量;
实体识别单元,用于识别数据中的每个实体,并标记每个实体对应的类型;
关系抽取单元,用于抽取每个实体之间的语义关系。
进一步的,还包括数据库模块,用于储存生成的知识图谱。
进一步的,还包括显示模块,用于将查找对应的政策信息以及与政策相关联的信息进行显示。
本发明与现有技术相比,至少包含以下有益效果:
(1)通过NLP技术对获取的数据源进行命名实体和关系的抽取,无需人工参与,自动训练出政策相关的知识图谱;
(2)按照知识图谱的方式将抽取的实体和关系进行存储,使得数据能够按照顺序进行储存,不会出现数据杂乱无序的情况;
(3)通过NLP技术自动提取用户输入的查询信息的关键实体和关系,并使用知识图谱搜索算法分析出所有相关的政策信息,使得用户能够查询到对应的政策信息以及与政策相关联的信息。
附图说明
图1是本发明实施例一种政策服务信息数据处理方法的流程图;
图2是本发明实施例一种政策服务信息数据处理方法中步骤S2的流程图;
图3是本发明实施例一种政策服务信息查询方法的流程图;
图4是本发明实施例一种政策服务信息系统的结构示意图;
具体实施方式
以下是本发明的具体实施例,并结合附图对本发明的技术方案作进一步的描述,但本发明并不限于这些实施例。
实施例一
如图1所示,本发明一种政策服务信息数据处理方法,包括步骤:
S1、获取政策服务信息数据源;
其中,步骤S1具体为:通过网络爬虫自动获取与政策服务信息相关的非结构化数据源。
数据源分为结构化数据和非结构化数据。
结构化数据指的是政府网络中存储在数据库中政策、法律法规,公司信息等数据
非结构化数据指的是各个公司的主业,政策、法规相关的网页,公众号、论坛、知乎、百度百科、维基百科等等公开资源的网页文本,音频、视频等,非结构化数据可以通过Scrapy框架构建的网络爬虫进行获取。
S2、将政策服务信息数据源中的数据进行预处理;
其中,如图2所示,步骤S2中包括:
S21、将政策服务信息数据源中的数据根据维比特算法进行分词处理;
S22、将分词处理获得的词组根据预设停用词过滤表进行停用词过滤;
停用词过滤需要事先整理好一份停用词表,然后删除词组中的停用词,例如好,很好等词组。
S23、将过滤后的词组进行特征提取,使得过滤后的所有词组转化为词向量;
通过使用Word2vec工具,将过滤之后的所有词组转化为词向量;
S24、识别词向量中的每个实体,并标记每个实体对应的类型;
实体识别是找到词组中提到的每个实体,并标记其类型,比如人名、公司名、地点、政策名,专利,技术等等,其中所采用的方法是LSTM+CRF,LSTM作为特征抽取器,CRF作为输出层。
S25:抽取各类实体之间的语义关系。
比如我们需要抽取人和公司的关系,政策和公司的关系,地点和政策的关系,专利和公司的关系,技术和专利的关系,人和政策的关系等。
S3、将预处理后的数据生成对应的知识图谱并通过数据库储存所述知识图谱。
知识图谱的设计需要识别预处理中抽取的实体和关系数据,哪些可以作为实体,哪些可以作为属性关系,并按照图数据库存储方式进行数据的整理,不会使得数据的储存变得杂乱无序。
实施例二
如图3所示,一种政策服务信息查询方法,包括步骤:
S1、获取用户输入的查询信息;
S2、将用户输入的查询信息进行预处理;
其中,步骤S2中包括:
S21、将获取用户输入的查询信息根据维比特算法进行分词处理;
S22、将分词处理获得的词组根据预设停用词过滤表进行停用词过滤;
停用词过滤需要事先整理好一份停用词表,然后删除词组中的停用词,例如好,很好等词组。
S23、将过滤后的词组进行特征提取,使得过滤后的所有词组转化为词向量;
通过使用Word2vec工具,将过滤之后的所有词组转化为词向量;
S24、识别词向量中的每个实体,并标记每个实体对应的类型;
实体识别是找到词组中提到的每个实体,并标记其类型,比如人名、公司名、地点、政策名,专利,技术等等,其中所采用的方法是LSTM+CRF,LSTM作为特征抽取器,CRF作为输出层。
S25:抽取各类实体之间的语义关系。
比如我们需要抽取人和公司的关系,政策和公司的关系,地点和政策的关系,专利和公司的关系,技术和专利的关系,人和政策的关系等。
S3、将预处理后的信息通过知识图谱搜索算法查找对应的政策信息以及与政策相关联的信息。
通过NLP技术自动提取用户输入的查询信息的关键实体和关系,并使用知识图谱搜索算法分析出所有相关的政策信息,使得用户能够查询到对应的政策信息以及与政策相关联的信息。
实施例三
如图4所示,本发明一种政策服务信息系统,包括:
信息查询模块,用于获取用户输入的查询信息;
获取模块,用于获取政策服务信息数据源;
预处理模块,用于将用户输入的查询信息或获取的政策服务信息数据源中的数据进行预处理;
其中,预处理模块包括:
分词单元,用于将用户输入的查询信息或政策服务信息数据源中的数据根据维比特算法进行分词处理;
停用词过滤单元,用于将分词处理获得的词组根据预设停用词过滤表进行停用词过滤;
特征提取单元,用于将过滤后的词组进行特征提取,使得过滤后的所有词组转化为词向量;
实体识别单元,用于识别数据中的每个实体,并标记每个实体对应的类型;
关系抽取单元,用于抽取每个实体之间的语义关系。
生成模块,用于将预处理后的数据生成对应的知识图谱;
搜索模块,用于将预处理后的信息通过知识图谱搜索算法查找对应的政策信息以及与政策相关联的信息。
数据库模块,用于储存生成的知识图谱。
显示模块,用于将查找对应的政策信息以及与政策相关联的信息进行显示。
通过本系统中的NLP技术自动提取用户输入的查询信息的关键实体和关系,并使用知识图谱搜索算法分析出所有相关的政策信息,使得用户能够查询到对应的政策信息以及与政策相关联的信息,也通过NLP技术能够实时的将各种政策信息录入到数据库中,使得用户能够及时查询到最新的政策服务信息。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
Claims (9)
1.一种政策服务信息数据处理方法,其特征在于,包括步骤:
S1、获取政策服务信息数据源;
S2、将政策服务信息数据源中的数据进行预处理;
S3、将预处理后的数据生成对应的知识图谱并通过数据库储存所述知识图谱。
2.根据权利要求1所述的一种政策服务信息数据处理方法,其特征在于,所述步骤S2包括:
S21、将政策服务信息数据源中的数据根据维比特算法进行分词处理;
S22、将分词处理获得的词组根据预设停用词过滤表进行停用词过滤;
S23、将过滤后的词组进行特征提取,使得过滤后的所有词组转化为词向量;
S24、识别词向量中的每个实体,并标记每个实体对应的类型;
S25:抽取各类实体之间的语义关系。
3.根据权利要求1所述的一种政策服务信息数据处理方法,其特征在于,所述步骤S1具体为:通过网络爬虫自动获取与政策服务信息相关的非结构化数据。
4.一种政策服务信息查询方法,其特征在于,包括:
S1、获取用户输入的查询信息;
S2、将用户输入的查询信息进行预处理;
S3、将预处理后的信息通过知识图谱搜索算法查找对应的政策信息以及与政策相关联的信息。
5.根据权利要求4所述的一种政策服务信息查询方法,其特征在于,所述步骤S2包括:
S21、将政策服务信息数据源中的数据根据维比特算法进行分词处理;
S22、将分词处理获得的词组根据预设停用词过滤表进行停用词过滤;
S23、将过滤后的词组进行特征提取,使得过滤后的所有词组转化为词向量;
S24、识别词向量中的每个实体,并标记每个实体对应的类型;
S25:抽取各类实体之间的语义关系。
6.一种政策服务信息系统,其特征在于,包括:
信息查询模块,用于获取用户输入的查询信息;
获取模块,用于获取政策服务信息数据源;
预处理模块,用于将用户输入的查询信息或获取的政策服务信息数据源中的数据进行预处理;
生成模块,用于将预处理后的数据生成对应的知识图谱;
搜索模块,用于将预处理后的信息通过知识图谱搜索算法查找对应的政策信息以及与政策相关联的信息。
7.根据权利要求6所述的一种政策服务信息系统,其特征在于,所述数据预处理模块包括:
分词单元,用于将用户输入的查询信息或政策服务信息数据源中的数据根据维比特算法进行分词处理;
停用词过滤单元,用于将分词处理获得的词组根据预设停用词过滤表进行停用词过滤;
特征提取单元,用于将过滤后的词组进行特征提取,使得过滤后的所有词组转化为词向量;
实体识别单元,用于识别数据中的每个实体,并标记每个实体对应的类型;
关系抽取单元,用于抽取每个实体之间的语义关系。
8.根据权利要求6所述的一种政策服务信息系统,其特征在于,还包括数据库模块,用于储存生成的知识图谱。
9.根据权利要求6所述的一种政策服务信息系统,其特征在于,还包括显示模块,用于将查找对应的政策信息以及与政策相关联的信息进行显示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011072280.9A CN112241438A (zh) | 2020-10-09 | 2020-10-09 | 一种政策服务信息数据处理和查询方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011072280.9A CN112241438A (zh) | 2020-10-09 | 2020-10-09 | 一种政策服务信息数据处理和查询方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112241438A true CN112241438A (zh) | 2021-01-19 |
Family
ID=74168498
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011072280.9A Pending CN112241438A (zh) | 2020-10-09 | 2020-10-09 | 一种政策服务信息数据处理和查询方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112241438A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115470871A (zh) * | 2022-11-02 | 2022-12-13 | 江苏鸿程大数据技术与应用研究院有限公司 | 基于命名实体识别与关系抽取模型的政策匹配方法及系统 |
CN116562265A (zh) * | 2023-07-04 | 2023-08-08 | 南京航空航天大学 | 一种信息智能解析方法、系统及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110874414A (zh) * | 2020-01-19 | 2020-03-10 | 北京同方软件有限公司 | 一种基于数据联勤服务的政策解读方法 |
CN111460125A (zh) * | 2020-05-09 | 2020-07-28 | 山东舜网传媒股份有限公司 | 政务服务智能问答方法及系统 |
-
2020
- 2020-10-09 CN CN202011072280.9A patent/CN112241438A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110874414A (zh) * | 2020-01-19 | 2020-03-10 | 北京同方软件有限公司 | 一种基于数据联勤服务的政策解读方法 |
CN111460125A (zh) * | 2020-05-09 | 2020-07-28 | 山东舜网传媒股份有限公司 | 政务服务智能问答方法及系统 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115470871A (zh) * | 2022-11-02 | 2022-12-13 | 江苏鸿程大数据技术与应用研究院有限公司 | 基于命名实体识别与关系抽取模型的政策匹配方法及系统 |
CN115470871B (zh) * | 2022-11-02 | 2023-02-17 | 江苏鸿程大数据技术与应用研究院有限公司 | 基于命名实体识别与关系抽取模型的政策匹配方法及系统 |
CN116562265A (zh) * | 2023-07-04 | 2023-08-08 | 南京航空航天大学 | 一种信息智能解析方法、系统及存储介质 |
CN116562265B (zh) * | 2023-07-04 | 2023-12-01 | 南京航空航天大学 | 一种信息智能解析方法、系统及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108804521B (zh) | 一种基于知识图谱的问答方法及农业百科问答系统 | |
CN105095195B (zh) | 基于知识图谱的人机问答方法和系统 | |
CN111581990B (zh) | 跨境交易撮合匹配方法及装置 | |
CN111967761A (zh) | 一种基于知识图谱的监控预警方法、装置及电子设备 | |
CN105718585B (zh) | 文档与标签词语义关联方法及其装置 | |
CN112241438A (zh) | 一种政策服务信息数据处理和查询方法及系统 | |
CN111666425B (zh) | 基于语义知识的汽配件搜索方法 | |
CN111831794A (zh) | 一种基于知识图谱的综合管廊行业知识问答系统构建方法 | |
CN116663664A (zh) | 一种基于nlp算法的客户营销场景数据分析系统及方法 | |
CN112149422A (zh) | 一种基于自然语言的企业新闻动态监测方法 | |
CN112445813A (zh) | 一种企业服务门户平台搜索语义分析方法 | |
CN112199488B (zh) | 面向电力客服问答的渐增式知识图谱实体抽取方法和系统 | |
CN112883202A (zh) | 一种基于知识图谱的多组件建模方法和系统 | |
CN109961091B (zh) | 一种自学习的事故文字标签与摘要生成系统及其方法 | |
CN116881395A (zh) | 一种舆情信息检测方法和装置 | |
CN111191413A (zh) | 一种基于图排序模型的事件核心内容自动标记方法、装置及系统 | |
CN107291952B (zh) | 一种提取有意义串的方法及装置 | |
CN115438142B (zh) | 一种对话式交互数据分析报告系统 | |
CN110888920B (zh) | 一种项目功能相似度的确定方法及装置 | |
CN113779981A (zh) | 一种基于指针网络和知识图谱的推荐方法及装置 | |
CN112685434A (zh) | 一种基于知识图谱的运维问答方法 | |
CN112836517A (zh) | 一种基于自然语言处理挖掘风险信号的方法 | |
CN111950875A (zh) | 一种合同智能评审方法 | |
CN117633051A (zh) | 一种基于五类网络数据的虚实实体探测技术 | |
CN117332851B (zh) | 一种基于私有知识库的llm问答平台搭建方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210119 |
|
RJ01 | Rejection of invention patent application after publication |