CN109710730A - 一种基于自然语言分析处理的巡视信息系统及分析方法 - Google Patents
一种基于自然语言分析处理的巡视信息系统及分析方法 Download PDFInfo
- Publication number
- CN109710730A CN109710730A CN201810834122.9A CN201810834122A CN109710730A CN 109710730 A CN109710730 A CN 109710730A CN 201810834122 A CN201810834122 A CN 201810834122A CN 109710730 A CN109710730 A CN 109710730A
- Authority
- CN
- China
- Prior art keywords
- tour
- data
- natural language
- qualitative
- analysis processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 59
- 238000007689 inspection Methods 0.000 claims abstract description 40
- 238000000034 method Methods 0.000 claims abstract description 22
- 239000000284 extract Substances 0.000 claims abstract description 9
- 238000005516 engineering process Methods 0.000 claims description 12
- 240000008042 Zea mays Species 0.000 claims description 5
- 235000005824 Zea mays ssp. parviglumis Nutrition 0.000 claims description 5
- 235000002017 Zea mays subsp mays Nutrition 0.000 claims description 5
- 235000005822 corn Nutrition 0.000 claims description 5
- 239000004615 ingredient Substances 0.000 claims description 5
- 230000005540 biological transmission Effects 0.000 claims description 4
- 241001269238 Data Species 0.000 claims description 3
- 238000012423 maintenance Methods 0.000 claims description 3
- 230000008520 organization Effects 0.000 claims description 3
- 238000004451 qualitative analysis Methods 0.000 claims description 3
- 238000007619 statistical method Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明特别涉及一种基于自然语言分析处理的巡视信息系统及分析方法。该基于自然语言分析处理的巡视信息系统,采用的B/S架构,包括在税务行业各个层级搭建的分系统,分系统与第三方系统进行对接,以获取更全面的数据;用户将数据录入到分系统中,对数据描述进行分词标注,并从第三方系统中抽取数据进行筛选,对筛选出的问题或疑似问题数据进行智能定性。该基于自然语言分析处理的巡视信息系统及分析方法,将巡视工作发现问题的流程规范化,不仅大大减轻了巡视组工作人员检查海量资料、查询大量文档数据的工作压力,还增强了巡视工作深入发现问题、综合分析问题、系统总结问题能力,统一了巡视工作对问题定性的准则,提高了巡视工作的效率。
Description
技术领域
本发明涉及自然语言分析处理技术领域,特别涉及一种基于自然语言分析处理的巡视信息系统及分析方法。
背景技术
当前,巡视监督工作受到高度重视。巡视工作的核心任务就是要发现问题。
为了更好的发现问题,巡视工作需要检查海量资料、查询大量数据,工作量十分繁重。由于这些材料比较分散,碎片化严重,导致巡视工作数据应用方面面临三大问题:
一、当前税务总局及全国大多数国税机关未实现巡视工作的信息化建设,巡视过程中存在工作信息不对称,巡视工作组之间、巡视组与被巡视单位之间信息不对称、交流有滞后、理解有偏差问题;
二、巡视相关的数据、资料以纸质方式存档,既不利于数据的分析及利用,也不利于全面掌握巡视工作进展情况,存在资料利用不便捷的情况;
三、数据应用不深入,巡视发现问题能力、发现问题精准度以及工作效率偏低,严重制约了巡视工作效能。
为了提高巡视工作发现问题,分析问题的能力,需要借助信息化的支撑。基于此,本发明提出了一种基于自然语言分析处理的巡视信息系统及分析方法。
发明内容
本发明为了弥补现有技术的缺陷,提供了一种简单高效的基于自然语言分析处理的巡视信息系统及分析方法。
本发明是通过如下技术方案实现的:
一种基于自然语言分析处理的巡视信息系统,其特征在于:采用的B/S架构,包括在税务行业各个层级搭建的分系统,在税务行业各个层级搭建的分系统与税务部门的第三方系统进行对接,以获取更全面的数据;用户将巡视过程数据录入到在税务行业各个层级搭建的分系统中,对巡视组成员输入的巡视过程数据描述进行分词标注,并采用NLP技术从第三方系统中抽取数据进行筛选,将问题数据或疑似问题的数据提供给巡视组成员,并对筛选出的问题数据或疑似问题的数据进行智能定性。
所述第三方系统包括核心征管单元,财务软件单元,人事管理单元,数字人事单元,采购系统单元和内控监督单元。
用户在巡视过程中向在税务行业各个层级搭建的分系统发送请求,请求通过网络传输协议进行传输,网络传输协议会对请求内容进行加密,服务器端进行身份验证,若用户通过身份验证则执行客户请求,若未通过,则拦截客户的请求进行反馈。
所述在税务行业各个层级搭建的分系统包括总局分系统,省局分系统和市局分系统。
所述基于自然语言分析处理的巡视信息系统的分析方法,其特征在于,包括以下步骤:
(1)首先要建立典型问题标签库;
(2)使用对纸质文档进行扫描,将扫描的内容存到系统数据库;
(3)系统根据配置的标签库的内容对文档扫描的数据进行检索和比对,基于TextRank 构建拓扑图模型,利用投票机制对文本中的重要成分进行排序,按照排序高低将疑似问题的内容展示给巡视组成员,同时将标签库的标签作为发现问题的依据同样提供给巡视组成员,方便巡视组成员对问题进一步的筛选和分析;
(4)巡视组成员在系统中录入问题数据后,根据问题的内容进行问题的定性分析,对于定性难、问题定性不准确的问题,则利用NLP技术实现对问题的智能定性。
所述步骤(1)中,建立标签库时需要将巡视过程中发现的典型案例问题维护到系统中,基于TF-IDF算法模型,综合考虑词语在文本中的频率和词语在千万级背景数据中的频率,从输入文本中提取最具有代表性的关键词并给出相应权重,根据权重为这些关键词建立标签并维护到系统中。
所述步骤(4)中,利用NLP技术实现对问题的智能定性,具体包括以下步骤:
(a)对巡视组成员输入的问题描述进行分词标注;
(b)分词结束后进行句法依存分析,提取出问题的核心内容,即问题直接描述的短文本;
(c)将得到的问题短文本与系统中维护的问题定性相关的典型案例短文本进行比对,对两个不同短文本进行相似度的计算,输出的相似度介于0到1之间,值越大表示相似度越高;
(d)短文本比对结束后,按照比对结果进行排名,将排名前三的问题定性结果提供给用户进行进一步的选择,用户可以对这三个结果进行进一步的调整和组合,得出用户认可的问题定性结论。
所述步骤(a)中,分词词性标注是将连续的一段问题描述语句切分成具有语义合理性和完整性的词汇序列,并为每个词汇赋予一个词性的过程;在分词词性标注的过程中还会进行人名识别、机构名识别和地名识别。
所述步骤(b)中,句法依存分析是对输入的问题描述进行句法结构分析以及句子各成分之间的依存关系分析,得到句子的完整句法结构,以及各成分之间的依存关系,从而提取出问题的核心内容,即问题直接描述的短文本。
在巡视工作结束后,用户将所有的巡视过程数据录入到系统中,系统对用户录入的所有数据进行统计分析,汇总成数据报表并展示给用户,同时自动汇总成巡视分析报告提供给巡视组相关领导岗位方便巡视组对整个巡视过程进行数据的统计和分析。
本发明的有益效果是:该基于自然语言分析处理的巡视信息系统及分析方法,将巡视工作发现问题的流程规范化,不仅大大减轻了巡视组工作人员检查海量资料、查询大量文档数据的工作压力,还增强了巡视工作深入发现问题、综合分析问题、系统总结问题能力,统一了巡视工作对问题定性的准则,提高了巡视工作的效率。
附图说明
附图1为本发明基于自然语言分析处理的巡视信息系统架构示意图。
附图2为本发明基于自然语言分析处理的巡视信息系统采用NLP技术筛选问题的流程示意图。
附图3为本发明基于自然语言分析处理的巡视信息系统采用NLP技术对问题智能定性的流程示意图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图和实施例,对本发明进行详细的说明。应当说明的是,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
该基于自然语言分析处理的巡视信息系统,采用的B/S架构,包括在税务行业各个层级搭建的分系统,在税务行业各个层级搭建的分系统与税务部门的第三方系统进行对接,以获取更全面的数据;用户将巡视过程数据录入到在税务行业各个层级搭建的分系统中,对巡视组成员输入的巡视过程数据描述进行分词标注,并采用NLP技术从第三方系统中抽取数据进行筛选,将问题数据或疑似问题的数据提供给巡视组成员,并对筛选出的问题数据或疑似问题的数据进行智能定性。
所述第三方系统包括核心征管单元,财务软件单元,人事管理单元,数字人事单元,采购系统单元和内控监督单元。
用户在巡视过程中向在税务行业各个层级搭建的分系统发送请求,请求通过网络传输协议进行传输,网络传输协议会对请求内容进行加密,服务器端进行身份验证,若用户通过身份验证则执行客户请求,若未通过,则拦截客户的请求进行反馈。
所述在税务行业各个层级搭建的分系统包括总局分系统,省局分系统和市局分系统。
该基于自然语言分析处理的巡视信息系统的分析方法,包括以下步骤
(1)首先要建立典型问题标签库;
(2)使用对纸质文档进行扫描,将扫描的内容存到系统数据库;
(3)系统根据配置的标签库的内容对文档扫描的数据进行检索和比对,基于TextRank 构建拓扑图模型,利用投票机制对文本中的重要成分进行排序,按照排序高低将疑似问题的内容展示给巡视组成员,同时将标签库的标签作为发现问题的依据同样提供给巡视组成员,方便巡视组成员对问题进一步的筛选和分析;
(4)巡视组成员在系统中录入问题数据后,根据问题的内容进行问题的定性分析,对于定性难、问题定性不准确的问题,则利用NLP技术实现对问题的智能定性。
所述步骤(1)中,建立标签库时需要将巡视过程中发现的典型案例问题维护到系统中,基于TF-IDF算法模型,综合考虑词语在文本中的频率和词语在千万级背景数据中的频率,从输入文本中提取最具有代表性的关键词并给出相应权重,根据权重为这些关键词建立标签并维护到系统中。
所述步骤(4)中,利用NLP技术实现对问题的智能定性,具体包括以下步骤:
(a)对巡视组成员输入的问题描述进行分词标注;
(b)分词结束后进行句法依存分析,提取出问题的核心内容,即问题直接描述的短文本;
(c)将得到的问题短文本与系统中维护的问题定性相关的典型案例短文本进行比对,对两个不同短文本进行相似度的计算,输出的相似度介于0到1之间,值越大表示相似度越高;
(d)短文本比对结束后,按照比对结果进行排名,将排名前三的问题定性结果提供给用户进行进一步的选择,用户可以对这三个结果进行进一步的调整和组合,得出用户认可的问题定性结论。
所述步骤(a)中,分词词性标注是将连续的一段问题描述语句切分成具有语义合理性和完整性的词汇序列,并为每个词汇赋予一个词性的过程;在分词词性标注的过程中还会进行人名识别、机构名识别和地名识别。
所述步骤(b)中,句法依存分析是对输入的问题描述进行句法结构分析以及句子各成分之间的依存关系分析,得到句子的完整句法结构(如主谓宾、定状补等),以及各成分之间的依存关系(如主谓、动宾、定中等),从而提取出问题的核心内容,即问题直接描述的短文本。
在巡视工作结束后,用户将所有的巡视过程数据录入到系统中,系统对用户录入的所有数据进行统计分析,汇总成数据报表并展示给用户,其中包括巡视过程关键的数据统计,比如信访相关的数据、问题数据、问题线索数据等;同时,自动汇总成巡视分析报告提供给巡视组相关领导岗位方便巡视组对整个巡视过程进行数据的统计和分析。
Claims (10)
1.一种基于自然语言分析处理的巡视信息系统,其特征在于:采用的B/S架构,包括在税务行业各个层级搭建的分系统,在税务行业各个层级搭建的分系统与税务部门的第三方系统进行对接,以获取更全面的数据;用户将巡视过程数据录入到在税务行业各个层级搭建的分系统中,对巡视组成员输入的巡视过程数据描述进行分词标注,并采用NLP技术从第三方系统中抽取数据进行筛选,将问题数据或疑似问题的数据提供给巡视组成员,并对筛选出的问题数据或疑似问题的数据进行智能定性。
2.根据权利要求1所述的基于自然语言分析处理的巡视信息系统,其特征在于:所述第三方系统包括核心征管单元,财务软件单元,人事管理单元,数字人事单元,采购系统单元和内控监督单元。
3.根据权利要求1所述的基于自然语言分析处理的巡视信息系统,其特征在于:用户在巡视过程中向在税务行业各个层级搭建的分系统发送请求,请求通过网络传输协议进行传输,网络传输协议会对请求内容进行加密,服务器端进行身份验证,若用户通过身份验证则执行客户请求,若未通过,则拦截客户的请求进行反馈。
4.根据权利要求1、2或3所述的基于自然语言分析处理的巡视信息系统,其特征在于:所述在税务行业各个层级搭建的分系统包括总局分系统,省局分系统和市局分系统。
5.根据权利要求1-4所述的基于自然语言分析处理的巡视信息系统的分析方法,其特征在于,包括以下步骤:
(1)首先要建立典型问题标签库;
(2)使用对纸质文档进行扫描,将扫描的内容存到系统数据库;
(3)系统根据配置的标签库的内容对文档扫描的数据进行检索和比对,基于TextRank构建拓扑图模型,利用投票机制对文本中的重要成分进行排序,按照排序高低将疑似问题的内容展示给巡视组成员,同时将标签库的标签作为发现问题的依据同样提供给巡视组成员,方便巡视组成员对问题进一步的筛选和分析;
(4)巡视组成员在系统中录入问题数据后,根据问题的内容进行问题的定性分析,对于定性难、问题定性不准确的问题,则利用NLP技术实现对问题的智能定性。
6.根据权利要求5所述的基于自然语言分析处理的巡视信息系统的分析方法,其特征在于:所述步骤(1)中,建立标签库时需要将巡视过程中发现的典型案例问题维护到系统中,基于TF-IDF算法模型,综合考虑词语在文本中的频率和词语在千万级背景数据中的频率,从输入文本中提取最具有代表性的关键词并给出相应权重,根据权重为这些关键词建立标签并维护到系统中。
7.根据权利要求5所述的基于自然语言分析处理的巡视信息系统的分析方法,其特征在于,所述步骤(4)中,利用NLP技术实现对问题的智能定性,具体包括以下步骤:
对巡视组成员输入的问题描述进行分词标注;
分词结束后进行句法依存分析,提取出问题的核心内容,即问题直接描述的短文本;
将得到的问题短文本与系统中维护的问题定性相关的典型案例短文本进行比对,对两个不同短文本进行相似度的计算,输出的相似度介于0到1之间,值越大表示相似度越高;
短文本比对结束后,按照比对结果进行排名,将排名前三的问题定性结果提供给用户进行进一步的选择,用户可以对这三个结果进行进一步的调整和组合,得出用户认可的问题定性结论。
8.根据权利要求7所述的基于自然语言分析处理的巡视信息系统的分析方法,其特征在于:所述步骤(a)中,分词词性标注是将连续的一段问题描述语句切分成具有语义合理性和完整性的词汇序列,并为每个词汇赋予一个词性的过程;在分词词性标注的过程中还会进行人名识别、机构名识别和地名识别。
9.根据权利要求7所述的基于自然语言分析处理的巡视信息系统的分析方法,其特征在于:所述步骤(b)中,句法依存分析是对输入的问题描述进行句法结构分析以及句子各成分之间的依存关系分析,得到句子的完整句法结构,以及各成分之间的依存关系,从而提取出问题的核心内容,即问题直接描述的短文本。
10.根据权利要求5所述的基于自然语言分析处理的巡视信息系统的分析方法,其特征在于:在巡视工作结束后,用户将所有的巡视过程数据录入到系统中,系统对用户录入的所有数据进行统计分析,汇总成数据报表并展示给用户,同时自动汇总成巡视分析报告提供给巡视组相关领导岗位方便巡视组对整个巡视过程进行数据的统计和分析。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810834122.9A CN109710730B (zh) | 2018-07-26 | 2018-07-26 | 一种基于自然语言分析处理的巡视信息系统及分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810834122.9A CN109710730B (zh) | 2018-07-26 | 2018-07-26 | 一种基于自然语言分析处理的巡视信息系统及分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109710730A true CN109710730A (zh) | 2019-05-03 |
CN109710730B CN109710730B (zh) | 2023-05-09 |
Family
ID=66253641
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810834122.9A Active CN109710730B (zh) | 2018-07-26 | 2018-07-26 | 一种基于自然语言分析处理的巡视信息系统及分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109710730B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112100240A (zh) * | 2020-09-14 | 2020-12-18 | 山东浪潮商用系统有限公司 | 基于巡察信息管理系统和自然语言处理的校园巡察方法 |
CN114881000A (zh) * | 2022-03-21 | 2022-08-09 | 国网山西省电力公司超高压变电分公司 | 应用于电力行业的巡视数据采集方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011221773A (ja) * | 2010-04-08 | 2011-11-04 | Chugoku Electric Power Co Inc:The | 巡視計画作成支援システム |
CN105761004A (zh) * | 2016-02-23 | 2016-07-13 | 浪潮软件集团有限公司 | 巡视过程管理系统 |
CN107425965A (zh) * | 2017-06-01 | 2017-12-01 | 山东浪潮商用系统有限公司 | 基于巡视巡察过程管理系统的巡视巡察方法 |
-
2018
- 2018-07-26 CN CN201810834122.9A patent/CN109710730B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011221773A (ja) * | 2010-04-08 | 2011-11-04 | Chugoku Electric Power Co Inc:The | 巡視計画作成支援システム |
CN105761004A (zh) * | 2016-02-23 | 2016-07-13 | 浪潮软件集团有限公司 | 巡视过程管理系统 |
CN107425965A (zh) * | 2017-06-01 | 2017-12-01 | 山东浪潮商用系统有限公司 | 基于巡视巡察过程管理系统的巡视巡察方法 |
Non-Patent Citations (1)
Title |
---|
黄浩: "标准化变电站巡视系统的研发与应用", 《南方电网技术》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112100240A (zh) * | 2020-09-14 | 2020-12-18 | 山东浪潮商用系统有限公司 | 基于巡察信息管理系统和自然语言处理的校园巡察方法 |
CN114881000A (zh) * | 2022-03-21 | 2022-08-09 | 国网山西省电力公司超高压变电分公司 | 应用于电力行业的巡视数据采集方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109710730B (zh) | 2023-05-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113704451B (zh) | 一种电力用户诉求筛选方法、系统、电子设备和存储介质 | |
Rusyn et al. | Model and architecture for virtual library information system | |
US8510308B1 (en) | Extracting semantic classes and instances from text | |
Trappey et al. | An R&D knowledge management method for patent document summarization | |
CN109947934B (zh) | 针对短文本的数据挖掘方法及系统 | |
CN106951558A (zh) | 一种基于深度搜索的税务智能咨询平台的数据处理方法 | |
Wang et al. | Analysing CV corpus for finding suitable candidates using knowledge graph and BERT | |
CN110175585A (zh) | 一种简答题自动批改系统及方法 | |
CN110888970A (zh) | 文本生成方法、装置、终端和存储介质 | |
CN116681561A (zh) | 一种政策匹配方法、装置、电子设备及存储介质 | |
CN109710730A (zh) | 一种基于自然语言分析处理的巡视信息系统及分析方法 | |
Xiao et al. | Lightweight natural language driven intent translation mechanism for intent based networking | |
Wudaru et al. | Question answering on structured data using NLIDB approach | |
He et al. | Enhancing N-Gram based metrics with semantics for better evaluation of abstractive text summarization | |
CN109992244B (zh) | 一种服务化信息系统需求的离散划分方法 | |
Bouhoun et al. | Information retrieval using domain adapted language models: application to resume documents for HR recruitment assistance | |
Niu et al. | A difference-of-convex programming approach with parallel branch-and-bound for sentence compression via a hybrid extractive model | |
CN117576262A (zh) | 活动海报的生成方法、装置、存储介质及电子装置 | |
CN117033540A (zh) | 报表生成方法、装置、电子设备和介质 | |
Bais et al. | An independent-domain natural language interface for multimodel databases | |
Wang et al. | Rom: A requirement opinions mining method preliminary try based on software review data | |
KR20090092193A (ko) | 시맨틱웹 기술 기반의 지능형 구인구직 중개인 서비스시스템 | |
Jiang et al. | A variety of text mining technology and tools research | |
Sun | Online algorithm design of English translation of film and television works under the background of media cultural information | |
Yang et al. | Nested named entity recognition as corpus aware holistic structure parsing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20230412 Address after: 250000 Langchao Science Park, No. 1036, Langchao Road, high tech Zone, Jinan, Shandong Applicant after: Inspur Software Technology Co.,Ltd. Address before: 250100 First Floor of R&D Building 2877 Kehang Road, Sun Village Town, Jinan High-tech Zone, Shandong Province Applicant before: SHANDONG INSPUR BUSINESS SYSTEM Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |