CN109710730A - 一种基于自然语言分析处理的巡视信息系统及分析方法 - Google Patents
一种基于自然语言分析处理的巡视信息系统及分析方法 Download PDFInfo
- Publication number
- CN109710730A CN109710730A CN201810834122.9A CN201810834122A CN109710730A CN 109710730 A CN109710730 A CN 109710730A CN 201810834122 A CN201810834122 A CN 201810834122A CN 109710730 A CN109710730 A CN 109710730A
- Authority
- CN
- China
- Prior art keywords
- tour
- data
- natural language
- qualitative
- analysis processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明特别涉及一种基于自然语言分析处理的巡视信息系统及分析方法。该基于自然语言分析处理的巡视信息系统,采用的B/S架构,包括在税务行业各个层级搭建的分系统,分系统与第三方系统进行对接,以获取更全面的数据;用户将数据录入到分系统中,对数据描述进行分词标注,并从第三方系统中抽取数据进行筛选,对筛选出的问题或疑似问题数据进行智能定性。该基于自然语言分析处理的巡视信息系统及分析方法,将巡视工作发现问题的流程规范化,不仅大大减轻了巡视组工作人员检查海量资料、查询大量文档数据的工作压力,还增强了巡视工作深入发现问题、综合分析问题、系统总结问题能力,统一了巡视工作对问题定性的准则,提高了巡视工作的效率。
Description
技术领域
本发明涉及自然语言分析处理技术领域,特别涉及一种基于自然语言分析处理的巡视信息系统及分析方法。
背景技术
当前,巡视监督工作受到高度重视。巡视工作的核心任务就是要发现问题。
为了更好的发现问题,巡视工作需要检查海量资料、查询大量数据,工作量十分繁重。由于这些材料比较分散,碎片化严重,导致巡视工作数据应用方面面临三大问题:
一、当前税务总局及全国大多数国税机关未实现巡视工作的信息化建设,巡视过程中存在工作信息不对称,巡视工作组之间、巡视组与被巡视单位之间信息不对称、交流有滞后、理解有偏差问题;
二、巡视相关的数据、资料以纸质方式存档,既不利于数据的分析及利用,也不利于全面掌握巡视工作进展情况,存在资料利用不便捷的情况;
三、数据应用不深入,巡视发现问题能力、发现问题精准度以及工作效率偏低,严重制约了巡视工作效能。
为了提高巡视工作发现问题,分析问题的能力,需要借助信息化的支撑。基于此,本发明提出了一种基于自然语言分析处理的巡视信息系统及分析方法。
发明内容
本发明为了弥补现有技术的缺陷,提供了一种简单高效的基于自然语言分析处理的巡视信息系统及分析方法。
本发明是通过如下技术方案实现的:
一种基于自然语言分析处理的巡视信息系统,其特征在于:采用的B/S架构,包括在税务行业各个层级搭建的分系统,在税务行业各个层级搭建的分系统与税务部门的第三方系统进行对接,以获取更全面的数据;用户将巡视过程数据录入到在税务行业各个层级搭建的分系统中,对巡视组成员输入的巡视过程数据描述进行分词标注,并采用NLP技术从第三方系统中抽取数据进行筛选,将问题数据或疑似问题的数据提供给巡视组成员,并对筛选出的问题数据或疑似问题的数据进行智能定性。
所述第三方系统包括核心征管单元,财务软件单元,人事管理单元,数字人事单元,采购系统单元和内控监督单元。
用户在巡视过程中向在税务行业各个层级搭建的分系统发送请求,请求通过网络传输协议进行传输,网络传输协议会对请求内容进行加密,服务器端进行身份验证,若用户通过身份验证则执行客户请求,若未通过,则拦截客户的请求进行反馈。
所述在税务行业各个层级搭建的分系统包括总局分系统,省局分系统和市局分系统。
所述基于自然语言分析处理的巡视信息系统的分析方法,其特征在于,包括以下步骤:
(1)首先要建立典型问题标签库;
(2)使用对纸质文档进行扫描,将扫描的内容存到系统数据库;
(3)系统根据配置的标签库的内容对文档扫描的数据进行检索和比对,基于TextRank 构建拓扑图模型,利用投票机制对文本中的重要成分进行排序,按照排序高低将疑似问题的内容展示给巡视组成员,同时将标签库的标签作为发现问题的依据同样提供给巡视组成员,方便巡视组成员对问题进一步的筛选和分析;
(4)巡视组成员在系统中录入问题数据后,根据问题的内容进行问题的定性分析,对于定性难、问题定性不准确的问题,则利用NLP技术实现对问题的智能定性。
所述步骤(1)中,建立标签库时需要将巡视过程中发现的典型案例问题维护到系统中,基于TF-IDF算法模型,综合考虑词语在文本中的频率和词语在千万级背景数据中的频率,从输入文本中提取最具有代表性的关键词并给出相应权重,根据权重为这些关键词建立标签并维护到系统中。
所述步骤(4)中,利用NLP技术实现对问题的智能定性,具体包括以下步骤:
(a)对巡视组成员输入的问题描述进行分词标注;
(b)分词结束后进行句法依存分析,提取出问题的核心内容,即问题直接描述的短文本;
(c)将得到的问题短文本与系统中维护的问题定性相关的典型案例短文本进行比对,对两个不同短文本进行相似度的计算,输出的相似度介于0到1之间,值越大表示相似度越高;
(d)短文本比对结束后,按照比对结果进行排名,将排名前三的问题定性结果提供给用户进行进一步的选择,用户可以对这三个结果进行进一步的调整和组合,得出用户认可的问题定性结论。
所述步骤(a)中,分词词性标注是将连续的一段问题描述语句切分成具有语义合理性和完整性的词汇序列,并为每个词汇赋予一个词性的过程;在分词词性标注的过程中还会进行人名识别、机构名识别和地名识别。
所述步骤(b)中,句法依存分析是对输入的问题描述进行句法结构分析以及句子各成分之间的依存关系分析,得到句子的完整句法结构,以及各成分之间的依存关系,从而提取出问题的核心内容,即问题直接描述的短文本。
在巡视工作结束后,用户将所有的巡视过程数据录入到系统中,系统对用户录入的所有数据进行统计分析,汇总成数据报表并展示给用户,同时自动汇总成巡视分析报告提供给巡视组相关领导岗位方便巡视组对整个巡视过程进行数据的统计和分析。
本发明的有益效果是:该基于自然语言分析处理的巡视信息系统及分析方法,将巡视工作发现问题的流程规范化,不仅大大减轻了巡视组工作人员检查海量资料、查询大量文档数据的工作压力,还增强了巡视工作深入发现问题、综合分析问题、系统总结问题能力,统一了巡视工作对问题定性的准则,提高了巡视工作的效率。
附图说明
附图1为本发明基于自然语言分析处理的巡视信息系统架构示意图。
附图2为本发明基于自然语言分析处理的巡视信息系统采用NLP技术筛选问题的流程示意图。
附图3为本发明基于自然语言分析处理的巡视信息系统采用NLP技术对问题智能定性的流程示意图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图和实施例,对本发明进行详细的说明。应当说明的是,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
该基于自然语言分析处理的巡视信息系统,采用的B/S架构,包括在税务行业各个层级搭建的分系统,在税务行业各个层级搭建的分系统与税务部门的第三方系统进行对接,以获取更全面的数据;用户将巡视过程数据录入到在税务行业各个层级搭建的分系统中,对巡视组成员输入的巡视过程数据描述进行分词标注,并采用NLP技术从第三方系统中抽取数据进行筛选,将问题数据或疑似问题的数据提供给巡视组成员,并对筛选出的问题数据或疑似问题的数据进行智能定性。
所述第三方系统包括核心征管单元,财务软件单元,人事管理单元,数字人事单元,采购系统单元和内控监督单元。
用户在巡视过程中向在税务行业各个层级搭建的分系统发送请求,请求通过网络传输协议进行传输,网络传输协议会对请求内容进行加密,服务器端进行身份验证,若用户通过身份验证则执行客户请求,若未通过,则拦截客户的请求进行反馈。
所述在税务行业各个层级搭建的分系统包括总局分系统,省局分系统和市局分系统。
该基于自然语言分析处理的巡视信息系统的分析方法,包括以下步骤
(1)首先要建立典型问题标签库;
(2)使用对纸质文档进行扫描,将扫描的内容存到系统数据库;
(3)系统根据配置的标签库的内容对文档扫描的数据进行检索和比对,基于TextRank 构建拓扑图模型,利用投票机制对文本中的重要成分进行排序,按照排序高低将疑似问题的内容展示给巡视组成员,同时将标签库的标签作为发现问题的依据同样提供给巡视组成员,方便巡视组成员对问题进一步的筛选和分析;
(4)巡视组成员在系统中录入问题数据后,根据问题的内容进行问题的定性分析,对于定性难、问题定性不准确的问题,则利用NLP技术实现对问题的智能定性。
所述步骤(1)中,建立标签库时需要将巡视过程中发现的典型案例问题维护到系统中,基于TF-IDF算法模型,综合考虑词语在文本中的频率和词语在千万级背景数据中的频率,从输入文本中提取最具有代表性的关键词并给出相应权重,根据权重为这些关键词建立标签并维护到系统中。
所述步骤(4)中,利用NLP技术实现对问题的智能定性,具体包括以下步骤:
(a)对巡视组成员输入的问题描述进行分词标注;
(b)分词结束后进行句法依存分析,提取出问题的核心内容,即问题直接描述的短文本;
(c)将得到的问题短文本与系统中维护的问题定性相关的典型案例短文本进行比对,对两个不同短文本进行相似度的计算,输出的相似度介于0到1之间,值越大表示相似度越高;
(d)短文本比对结束后,按照比对结果进行排名,将排名前三的问题定性结果提供给用户进行进一步的选择,用户可以对这三个结果进行进一步的调整和组合,得出用户认可的问题定性结论。
所述步骤(a)中,分词词性标注是将连续的一段问题描述语句切分成具有语义合理性和完整性的词汇序列,并为每个词汇赋予一个词性的过程;在分词词性标注的过程中还会进行人名识别、机构名识别和地名识别。
所述步骤(b)中,句法依存分析是对输入的问题描述进行句法结构分析以及句子各成分之间的依存关系分析,得到句子的完整句法结构(如主谓宾、定状补等),以及各成分之间的依存关系(如主谓、动宾、定中等),从而提取出问题的核心内容,即问题直接描述的短文本。
在巡视工作结束后,用户将所有的巡视过程数据录入到系统中,系统对用户录入的所有数据进行统计分析,汇总成数据报表并展示给用户,其中包括巡视过程关键的数据统计,比如信访相关的数据、问题数据、问题线索数据等;同时,自动汇总成巡视分析报告提供给巡视组相关领导岗位方便巡视组对整个巡视过程进行数据的统计和分析。
Claims (10)
1.一种基于自然语言分析处理的巡视信息系统,其特征在于:采用的B/S架构,包括在税务行业各个层级搭建的分系统,在税务行业各个层级搭建的分系统与税务部门的第三方系统进行对接,以获取更全面的数据;用户将巡视过程数据录入到在税务行业各个层级搭建的分系统中,对巡视组成员输入的巡视过程数据描述进行分词标注,并采用NLP技术从第三方系统中抽取数据进行筛选,将问题数据或疑似问题的数据提供给巡视组成员,并对筛选出的问题数据或疑似问题的数据进行智能定性。
2.根据权利要求1所述的基于自然语言分析处理的巡视信息系统,其特征在于:所述第三方系统包括核心征管单元,财务软件单元,人事管理单元,数字人事单元,采购系统单元和内控监督单元。
3.根据权利要求1所述的基于自然语言分析处理的巡视信息系统,其特征在于:用户在巡视过程中向在税务行业各个层级搭建的分系统发送请求,请求通过网络传输协议进行传输,网络传输协议会对请求内容进行加密,服务器端进行身份验证,若用户通过身份验证则执行客户请求,若未通过,则拦截客户的请求进行反馈。
4.根据权利要求1、2或3所述的基于自然语言分析处理的巡视信息系统,其特征在于:所述在税务行业各个层级搭建的分系统包括总局分系统,省局分系统和市局分系统。
5.根据权利要求1-4所述的基于自然语言分析处理的巡视信息系统的分析方法,其特征在于,包括以下步骤:
(1)首先要建立典型问题标签库;
(2)使用对纸质文档进行扫描,将扫描的内容存到系统数据库;
(3)系统根据配置的标签库的内容对文档扫描的数据进行检索和比对,基于TextRank构建拓扑图模型,利用投票机制对文本中的重要成分进行排序,按照排序高低将疑似问题的内容展示给巡视组成员,同时将标签库的标签作为发现问题的依据同样提供给巡视组成员,方便巡视组成员对问题进一步的筛选和分析;
(4)巡视组成员在系统中录入问题数据后,根据问题的内容进行问题的定性分析,对于定性难、问题定性不准确的问题,则利用NLP技术实现对问题的智能定性。
6.根据权利要求5所述的基于自然语言分析处理的巡视信息系统的分析方法,其特征在于:所述步骤(1)中,建立标签库时需要将巡视过程中发现的典型案例问题维护到系统中,基于TF-IDF算法模型,综合考虑词语在文本中的频率和词语在千万级背景数据中的频率,从输入文本中提取最具有代表性的关键词并给出相应权重,根据权重为这些关键词建立标签并维护到系统中。
7.根据权利要求5所述的基于自然语言分析处理的巡视信息系统的分析方法,其特征在于,所述步骤(4)中,利用NLP技术实现对问题的智能定性,具体包括以下步骤:
对巡视组成员输入的问题描述进行分词标注;
分词结束后进行句法依存分析,提取出问题的核心内容,即问题直接描述的短文本;
将得到的问题短文本与系统中维护的问题定性相关的典型案例短文本进行比对,对两个不同短文本进行相似度的计算,输出的相似度介于0到1之间,值越大表示相似度越高;
短文本比对结束后,按照比对结果进行排名,将排名前三的问题定性结果提供给用户进行进一步的选择,用户可以对这三个结果进行进一步的调整和组合,得出用户认可的问题定性结论。
8.根据权利要求7所述的基于自然语言分析处理的巡视信息系统的分析方法,其特征在于:所述步骤(a)中,分词词性标注是将连续的一段问题描述语句切分成具有语义合理性和完整性的词汇序列,并为每个词汇赋予一个词性的过程;在分词词性标注的过程中还会进行人名识别、机构名识别和地名识别。
9.根据权利要求7所述的基于自然语言分析处理的巡视信息系统的分析方法,其特征在于:所述步骤(b)中,句法依存分析是对输入的问题描述进行句法结构分析以及句子各成分之间的依存关系分析,得到句子的完整句法结构,以及各成分之间的依存关系,从而提取出问题的核心内容,即问题直接描述的短文本。
10.根据权利要求5所述的基于自然语言分析处理的巡视信息系统的分析方法,其特征在于:在巡视工作结束后,用户将所有的巡视过程数据录入到系统中,系统对用户录入的所有数据进行统计分析,汇总成数据报表并展示给用户,同时自动汇总成巡视分析报告提供给巡视组相关领导岗位方便巡视组对整个巡视过程进行数据的统计和分析。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810834122.9A CN109710730B (zh) | 2018-07-26 | 2018-07-26 | 一种基于自然语言分析处理的巡视信息系统及分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810834122.9A CN109710730B (zh) | 2018-07-26 | 2018-07-26 | 一种基于自然语言分析处理的巡视信息系统及分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109710730A true CN109710730A (zh) | 2019-05-03 |
CN109710730B CN109710730B (zh) | 2023-05-09 |
Family
ID=66253641
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810834122.9A Active CN109710730B (zh) | 2018-07-26 | 2018-07-26 | 一种基于自然语言分析处理的巡视信息系统及分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109710730B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112100240A (zh) * | 2020-09-14 | 2020-12-18 | 山东浪潮商用系统有限公司 | 基于巡察信息管理系统和自然语言处理的校园巡察方法 |
CN114881000A (zh) * | 2022-03-21 | 2022-08-09 | 国网山西省电力公司超高压变电分公司 | 应用于电力行业的巡视数据采集方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011221773A (ja) * | 2010-04-08 | 2011-11-04 | Chugoku Electric Power Co Inc:The | 巡視計画作成支援システム |
CN105761004A (zh) * | 2016-02-23 | 2016-07-13 | 浪潮软件集团有限公司 | 巡视过程管理系统 |
CN107425965A (zh) * | 2017-06-01 | 2017-12-01 | 山东浪潮商用系统有限公司 | 基于巡视巡察过程管理系统的巡视巡察方法 |
-
2018
- 2018-07-26 CN CN201810834122.9A patent/CN109710730B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011221773A (ja) * | 2010-04-08 | 2011-11-04 | Chugoku Electric Power Co Inc:The | 巡視計画作成支援システム |
CN105761004A (zh) * | 2016-02-23 | 2016-07-13 | 浪潮软件集团有限公司 | 巡视过程管理系统 |
CN107425965A (zh) * | 2017-06-01 | 2017-12-01 | 山东浪潮商用系统有限公司 | 基于巡视巡察过程管理系统的巡视巡察方法 |
Non-Patent Citations (1)
Title |
---|
黄浩: "标准化变电站巡视系统的研发与应用", 《南方电网技术》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112100240A (zh) * | 2020-09-14 | 2020-12-18 | 山东浪潮商用系统有限公司 | 基于巡察信息管理系统和自然语言处理的校园巡察方法 |
CN114881000A (zh) * | 2022-03-21 | 2022-08-09 | 国网山西省电力公司超高压变电分公司 | 应用于电力行业的巡视数据采集方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109710730B (zh) | 2023-05-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111339421B (zh) | 基于云技术的信息搜索的方法、装置、设备及存储介质 | |
CN113704451B (zh) | 一种电力用户诉求筛选方法、系统、电子设备和存储介质 | |
CN107180045B (zh) | 一种互联网文本蕴含地理实体关系的抽取方法 | |
US8510308B1 (en) | Extracting semantic classes and instances from text | |
Trappey et al. | An R&D knowledge management method for patent document summarization | |
CN108228701A (zh) | 一种实现汉语近自然语言查询接口的系统 | |
CN110929007A (zh) | 一种电力营销知识体系平台及应用方法 | |
Wang et al. | Analysing CV corpus for finding suitable candidates using knowledge graph and BERT | |
CN116681561A (zh) | 一种政策匹配方法、装置、电子设备及存储介质 | |
US20230161972A1 (en) | Privacy-preserving text insight mining in a closed domain | |
CN109710730A (zh) | 一种基于自然语言分析处理的巡视信息系统及分析方法 | |
Phan et al. | Decision-making support method based on sentiment analysis of objects and binary decision tree mining | |
He et al. | Enhancing N-Gram based metrics with semantics for better evaluation of abstractive text summarization | |
Harabagiu et al. | Acquisition of Linguistic Patterns for Knowledge-based Information Extraction. | |
CN109992244B (zh) | 一种服务化信息系统需求的离散划分方法 | |
Xiao et al. | Lightweight natural language driven intent translation mechanism for intent based networking | |
KR20080049428A (ko) | 질의어 분석을 이용한 유사 검색 서비스 제공 방법 및 장치 | |
Niu et al. | A difference-of-convex programming approach with parallel branch-and-bound for sentence compression via a hybrid extractive model | |
CN110633468A (zh) | 一种关于对象特征提取的信息处理方法及装置 | |
Aljević et al. | Extractive text summarization based on selectivity ranking | |
Wang et al. | Rom: A requirement opinions mining method preliminary try based on software review data | |
Bais et al. | An independent-domain natural language interface for multimodel databases | |
Jiang et al. | A variety of text mining technology and tools research | |
Tseng et al. | An intelligent disease query system based on RASA NLU | |
Yang et al. | Nested named entity recognition as corpus aware holistic structure parsing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20230412 Address after: 250000 Langchao Science Park, No. 1036, Langchao Road, high tech Zone, Jinan, Shandong Applicant after: Inspur Software Technology Co.,Ltd. Address before: 250100 First Floor of R&D Building 2877 Kehang Road, Sun Village Town, Jinan High-tech Zone, Shandong Province Applicant before: SHANDONG INSPUR BUSINESS SYSTEM Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |