CN112507063A - 一种办事指南文件的信息自动梳理方法及系统 - Google Patents
一种办事指南文件的信息自动梳理方法及系统 Download PDFInfo
- Publication number
- CN112507063A CN112507063A CN202011178606.6A CN202011178606A CN112507063A CN 112507063 A CN112507063 A CN 112507063A CN 202011178606 A CN202011178606 A CN 202011178606A CN 112507063 A CN112507063 A CN 112507063A
- Authority
- CN
- China
- Prior art keywords
- file
- field
- item
- guide file
- transaction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种办事指南文件的信息自动梳理方法及系统,涉及网络文件处理技术领域,包括以下步骤:获取办事指南文件,办事指南文件具有事项名称、事项字段与字段内容,事项字段与字段内容一一对应;解析办事指南文件,提取事项名称、事项字段与字段内容;将事项名称与各个事项字段进行组合,形成各个标准问题,标准问题的答案即为对应的字段内容;将标准问题与答案保存在数据库中。本发明的优点在于:将获取的办事指南文件通过解析提取事项名称、事项字段与字段内容的信息,将办事指南信息转换成一问一答形式的信息,从而解决知识梳理人员在知识梳理过程出现遗漏以及工作量大的问题,提高知识梳理人员的工作效率。
Description
技术领域
本发明涉及网络文件处理技术领域,具体地涉及一种办事指南文件的信息自动梳理方法及系统。
背景技术
随着经济的发展,中国正在往服务型社会转变,要求社会的主体必须具备更好地服务他人的理念。特别是政府部门,由“管理型”向“服务型”的转变势在必行。
“服务型”政府的一个最基本特征就是要为社会、为百姓提供更好的服务。政府部门引入人工智能技术建设智能客服系统可以有效缓解人力限制、提高政府的响应速度、提升政府办事效率、提升政府公信力、提高公众对政府工作的满意度。智能客服系统在政府服务中的广泛和深入应用,推动着政府职能转变,将电子政务从数字化向智能化的转变。
建设智能客服系统,知识数据库的梳理尤为关键,知识数据库建设对智能客服机器人来说属于核心配置,没有知识数据库,智能客服机器人则回答不了任何问题。知识数据库越丰富的智能客服机器人,在和用户交流的时候也会显得更加智能化。
传统知识数据库梳理存在以下缺点:
容易出现遗漏:政府部门业务繁杂,知识梳理人员短期内很难摸清全部业务,这样在知识梳理时很容易出现遗漏。
梳理工作量大:知识梳理人员在梳理知识时,需要摸清业务,逐项对不同的业务梳理知识库,需要耗费工作量较大。
发明内容
本发明要解决的技术问题,在于提供一种办事指南文件的信息自动梳理方法及系统,自动将办事指南文件转成一问一答的知识数据库,提高知识梳理人员的工作效率。
本发明是这样实现的:
一种办事指南文件的信息自动梳理方法,包括如下步骤:
获取办事指南文件,所述办事指南文件具有事项名称、事项字段与字段内容,所述事项字段与所述字段内容一一对应;
解析所述办事指南文件,提取所述事项名称、事项字段与字段内容;
将所述事项名称与各个所述事项字段进行组合,形成各个标准问题,所述标准问题的答案即为对应的所述字段内容;
将所述标准问题与答案保存在数据库中。
进一步地,所述事项字段至少包括办理依据、办理条件、申请材料、承诺时限、受理单位、联系电话、投拆电话、办理时间、是否收费之中的任意个。
进一步地,所述获取办事指南文件具体为:通过WEB网络爬虫技术自动获取服务器所公布的办事指南文件,所获取的办事指南文件为HTML文件。
进一步地,所述解析所述办事指南文件具体为:通过HTML DOM解析所述办事指南文件。
进一步地,智能客服机器人调用所述数据库进行问题回答。
一种办事指南文件的信息自动梳理系统,包括:文件获取模块、文件解析模块、问题答案生成模块与存储模块;
所述文件获取模块用于获取办事指南文件,再将所述办事指南文件传给所述文件解析模块;所述办事指南文件具有事项名称、事项字段与字段内容,所述事项字段与所述字段内容一一对应;
所述文件解析模块解析所述办事指南文件,提取所述事项名称、事项字段与字段内容,再传给所述问题答案生成模块;
所述问题答案生成模块将所述事项名称与各个所述事项字段进行组合,形成各个标准问题,所述标准问题的答案即为对应的所述字段内容;
所述存储模块中的数据库保存所述标准问题与答案。
进一步地,所述事项字段至少包括办理依据、办理条件、申请材料、承诺时限、受理单位、联系电话、投拆电话、办理时间、是否收费之中的任意个。
进一步地,所述文件获取模块通过WEB网络爬虫技术自动获取服务器所公布的办事指南文件,所获取的办事指南文件为HTML文件。
进一步地,所述文件解析模块通过HTML DOM解析所述办事指南文件。
进一步地,所述存储模块再将所述数据库传给智能客服机器人,所述智能客服机器人调用所述数据库进行问题回答。
本发明的优点在于:1、本发明将获取的办事指南文件通过解析提取事项名称、事项字段与字段内容的信息,转换成结构化数据,自动将办事指南信息转换成一问一答形式的信息,从而解决知识梳理人员在知识梳理过程出现遗漏以及工作量大的问题,提高知识梳理人员的工作效率。2、对于自动形成的问答数据库信息可以作为智能问答基础知识提供给智能客服机器人,智能客服机器人即可根据听到的问题说出相应答案,更加智能与便捷。
附图说明
下面参照附图结合实施例对本发明作进一步的说明。
图1是本发明的办事指南文件的信息自动梳理方法的流程图。
图2是本发明实施例中的办理指南文件示意图。
图3是将图2经过梳理后的结果展示图。
图4是本发明的办事指南文件的信息自动梳理系统的结构示意图
具体实施方式
本发明实施例通过提供一种办事指南文件的信息自动梳理方法及系统,解决了现有技术中知识梳理人员在知识梳理过程出现遗漏以及工作量大的问题的技术问题,实现了提高知识梳理人员工作效率的技术效果。
本发明实施例中的技术方案为解决上述问题,总体思路如下:将获取的办事指南文件通过解析提取事项名称、事项字段与字段内容的信息,转换成结构化数据,自动将办事指南信息转换成一问一答形式的信息,形成数据库。
为了更好地理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
参阅图1至图4,本发明的一种办事指南文件的信息自动梳理方法及系统的优选实施例。
本发明的方法包括以下步骤:
S10、获取办事指南文件,所述办事指南文件具有事项名称、事项字段与字段内容,所述事项字段与所述字段内容一一对应;办事指南文件为服务器所公布的办事指南文件;服务器具体为政务服务系统。知识梳理人员看到办事指南后先分析办事指南包含的要素信息,即所述事项字段至少包括办理依据、办理条件、申请材料、承诺时限、受理单位、联系电话、投拆电话、办理时间、是否收费之中的任意个。
S20、通过WEB网络爬虫技术自动获取政务系统所公布的办事指南文件,所获取的办事指南文件为HTML文件。如图2所示的事项名称为居住证申请的办事指南文件。网络爬虫(Web crawler),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本,它们被广泛用于互联网搜索引擎或其他类似网站,可以自动采集所有其能够访问到的页面内容,以获取或更新这些网站的内容和检索方式。
S30、通过HTML DOM解析所述办事指南文件,提取所述事项名称、事项字段与字段内容。HTML DOM定义了所有HTML元素的对象和属性,以及访问它们的方法。换言之,HTMLDOM是关于如何获取、修改、添加或删除HTML元素的标准。
S40、提取的事项名称、事项字段与字段内容自动形成结构化数据。
图2中的事项字段:办理依据、办理条件、申请材料、承诺时限、联系电话、投诉电话、办理时间、办理地址;相应事项字段的右边框中内容即为答案。
S50、将所述事项名称与各个所述事项字段进行组合,形成各个标准问题,所述标准问题的答案即为对应的所述字段内容;组合方式参考下表:
根据与标准问题相近似的含义生成扩展问题,以便提升智能客服机器人问答的准确率。
组合方式采用“事项名称”+“事项字段”的文字拼接,如图3中的居住证申请投诉电话、居住证申请办理依据、居住证申请办理地址等。
S60、将所述标准问题与答案保存在数据库中。这样就自动将办事指南文件的信息自动转换成一问一答形式的知识数据库信息。从而解决知识梳理人员在知识梳理过程出现遗漏以及工作量大的问题,提高知识梳理人员的工作效率。
智能客服机器人调用所述数据库进行问题回答。对于自动形成的问答数据库信息可以作为智能问答基础知识提供给智能客服机器人,智能客服机器人即可根据听到的问题说出相应答案,更加智能与便捷。
参阅图4,本发明的系统,包括:文件获取模块、文件解析模块、问题答案生成模块与存储模块;
所述文件获取模块用于获取办事指南文件,再将所述办事指南文件传给所述文件解析模块;所述办事指南文件具有事项名称、事项字段与字段内容,所述事项字段与所述字段内容一一对应;知识梳理人员看到办事指南后先分析办事指南包含的要素信息,即所述事项字段至少包括办理依据、办理条件、申请材料、承诺时限、受理单位、联系电话、投拆电话、办理时间、是否收费之中的任意个。
所述文件获取模块通过WEB网络爬虫技术自动获取服务器所公布的办事指南文件,所获取的办事指南文件为HTML文件;服务器具体为政务服务系统。如图2所示事项名称为居住证申请的办事指南文件。
所述文件解析模块通过HTML DOM解析所述办事指南文件,提取所述事项名称、事项字段与字段内容,再传给所述问题答案生成模块;知识梳理人员事先在所述文件解析模块中输入所要提取的具体事项名称与事项字段,如图2的事项名称:居住证申请;事项字段:办理依据、办理条件、申请材料、承诺时限、联系电话、投诉电话、办理时间、办理地址。
所述问题答案生成模块将所述事项名称与各个所述事项字段进行组合,形成各个标准问题,所述标准问题的答案即为对应的所述字段内容;组合方式参考下表:
根据与标准问题相近似的含义生成扩展问题,以便提升智能客服机器人回答的准确率。
组合方式采用“事项名称”+“事项字段”的文字拼接,如图3中的居住证申请投诉电话、居住证申请办理依据、居住证申请办理地址等。
所述存储模块中的数据库保存所述标准问题与答案。这样就自动将办事指南文件的信息自动转换成一问一答形式的知识数据库信息。从而解决知识梳理人员在知识梳理过程出现遗漏以及工作量大的问题,提高知识梳理人员的工作效率。
所述存储模块再将所述数据库传给智能客服机器人,所述智能客服机器人调用所述数据库进行问题回答。对于自动形成的问答数据库信息可以作为智能问答基础知识提供给智能客服机器人,智能客服机器人即可根据听到的问题说出相应答案,更加智能与便捷。
本发明的系统与本发明的方法是基于相同发明构思,其他说明可参考本发明的方法实施例。
虽然以上描述了本发明的具体实施方式,但是熟悉本技术领域的技术人员应当理解,我们所描述的具体的实施例只是说明性的,而不是用于对本发明的范围的限定,熟悉本领域的技术人员在依照本发明的精神所作的等效的修饰以及变化,都应当涵盖在本发明的权利要求所保护的范围内。
Claims (10)
1.一种办事指南文件的信息自动梳理方法,其特征在于,包括如下步骤:
获取办事指南文件,所述办事指南文件具有事项名称、事项字段与字段内容,所述事项字段与所述字段内容一一对应;
解析所述办事指南文件,提取所述事项名称、事项字段与字段内容;
将所述事项名称与各个所述事项字段进行组合,形成各个标准问题,所述标准问题的答案即为对应的所述字段内容;
将所述标准问题与答案保存在数据库中。
2.如权利要求1所述的一种办事指南文件的信息自动梳理方法,其特征在于,所述事项字段至少包括办理依据、办理条件、申请材料、承诺时限、受理单位、联系电话、投拆电话、办理时间、是否收费之中的任意个。
3.如权利要求1所述的一种办事指南文件的信息自动梳理方法,其特征在于,所述获取办事指南文件具体为:通过WEB网络爬虫技术自动获取服务器所公布的办事指南文件,所获取的办事指南文件为HTML文件。
4.如权利要求3所述的一种办事指南文件的信息自动梳理方法,其特征在于,所述解析所述办事指南文件具体为:通过HTML DOM解析所述办事指南文件。
5.如权利要求1所述的一种办事指南文件的信息自动梳理方法,其特征在于,智能客服机器人调用所述数据库进行问题回答。
6.一种办事指南文件的信息自动梳理系统,其特征在于,包括:文件获取模块、文件解析模块、问题答案生成模块与存储模块;
所述文件获取模块用于获取办事指南文件,再将所述办事指南文件传给所述文件解析模块;所述办事指南文件具有事项名称、事项字段与字段内容,所述事项字段与所述字段内容一一对应;
所述文件解析模块解析所述办事指南文件,提取所述事项名称、事项字段与字段内容,再传给所述问题答案生成模块;
所述问题答案生成模块将所述事项名称与各个所述事项字段进行组合,形成各个标准问题,所述标准问题的答案即为对应的所述字段内容;
所述存储模块中的数据库保存所述标准问题与答案。
7.如权利要求6所述的一种办事指南文件的信息自动梳理系统,其特征在于,所述事项字段至少包括办理依据、办理条件、申请材料、承诺时限、受理单位、联系电话、投拆电话、办理时间、是否收费之中的任意个。
8.如权利要求6所述的一种办事指南文件的信息自动梳理系统,其特征在于,所述文件获取模块通过WEB网络爬虫技术自动获取服务器所公布的办事指南文件,所获取的办事指南文件为HTML文件。
9.如权利要求8所述的一种办事指南文件的信息自动梳理系统,其特征在于,所述文件解析模块通过HTML DOM解析所述办事指南文件。
10.如权利要求6所述的一种办事指南文件的信息自动梳理系统,其特征在于,所述存储模块再将所述数据库传给智能客服机器人,所述智能客服机器人调用所述数据库进行问题回答。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011178606.6A CN112507063A (zh) | 2020-10-29 | 2020-10-29 | 一种办事指南文件的信息自动梳理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011178606.6A CN112507063A (zh) | 2020-10-29 | 2020-10-29 | 一种办事指南文件的信息自动梳理方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112507063A true CN112507063A (zh) | 2021-03-16 |
Family
ID=74954524
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011178606.6A Pending CN112507063A (zh) | 2020-10-29 | 2020-10-29 | 一种办事指南文件的信息自动梳理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112507063A (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106980962A (zh) * | 2017-03-29 | 2017-07-25 | 泰华智慧产业集团股份有限公司 | 一种公共服务办理指南的配置方法及服务器 |
US20170308976A1 (en) * | 2016-04-22 | 2017-10-26 | FiscalNote, Inc. | Systems and methods for predicting future event outcomes based on data analysis |
CN108228788A (zh) * | 2017-12-29 | 2018-06-29 | 长威信息科技发展股份有限公司 | 办事指南自动提取并关联的方法及电子设备 |
CN109213910A (zh) * | 2018-09-12 | 2019-01-15 | 杭州数梦工场科技有限公司 | 一种政务智能客服服务方法、系统、电子设备和存储介质 |
CN111694963A (zh) * | 2020-05-11 | 2020-09-22 | 电子科技大学 | 一种基于事项关联网络的关键政务流程识别方法与装置 |
-
2020
- 2020-10-29 CN CN202011178606.6A patent/CN112507063A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170308976A1 (en) * | 2016-04-22 | 2017-10-26 | FiscalNote, Inc. | Systems and methods for predicting future event outcomes based on data analysis |
CN106980962A (zh) * | 2017-03-29 | 2017-07-25 | 泰华智慧产业集团股份有限公司 | 一种公共服务办理指南的配置方法及服务器 |
CN108228788A (zh) * | 2017-12-29 | 2018-06-29 | 长威信息科技发展股份有限公司 | 办事指南自动提取并关联的方法及电子设备 |
CN109213910A (zh) * | 2018-09-12 | 2019-01-15 | 杭州数梦工场科技有限公司 | 一种政务智能客服服务方法、系统、电子设备和存储介质 |
CN111694963A (zh) * | 2020-05-11 | 2020-09-22 | 电子科技大学 | 一种基于事项关联网络的关键政务流程识别方法与装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110147437B (zh) | 一种基于知识图谱的搜索方法及装置 | |
US20060085667A1 (en) | Access log analyzer and access log analyzing method | |
CN106471502A (zh) | 基于导流的意图识别方法和系统 | |
CN111680125A (zh) | 诉讼案件分析方法、装置、计算机设备及存储介质 | |
CN112149422B (zh) | 一种基于自然语言的企业新闻动态监测方法 | |
KR20010106666A (ko) | 웹페이지로부터 정보를 추출하고 저장하기 위한 방법과시스템, 그리고 추출된 데이터를 저장하는 저장매체 | |
CN111309868A (zh) | 一种知识图谱构建、检索方法及装置 | |
CN111813763A (zh) | 一种基于多元化数据的融合共享平台 | |
CN109240664A (zh) | 一种采集用户行为信息的方法及终端 | |
KR20110048675A (ko) | 음성인식과 태깅을 이용한 콜센터 상담 방법 및 상담 시스템 | |
CN103399968B (zh) | 一种微博信息采集方法及系统 | |
CN113326381A (zh) | 基于动态本体的语义和知识图谱分析方法、平台及设备 | |
CN112256959B (zh) | 一种分析微信公众号小程序收集信息的方法 | |
CN101668043A (zh) | 一种通信会话组的获取方法及系统 | |
CN116610531B (zh) | 基于代码探针采集数据埋点及请求图片上传数据的方法 | |
KR20020030545A (ko) | 인공지능과 자연어처리 기술에 기반한 자연어 문장형질문에 대한 자동 해답 및 검색 제공 방법 | |
CN112507063A (zh) | 一种办事指南文件的信息自动梳理方法及系统 | |
CN111460119A (zh) | 经济知识智能问答方法、系统及智能设备 | |
CN114490992A (zh) | 一种法律事务咨询智能答复系统 | |
CN111741360A (zh) | 基于开源列式数据库的画像应用方法、装置及存储介质 | |
CN113901034A (zh) | 一种自动识别行政非诉执行案源的方法 | |
CN109299346B (zh) | 一种无效地址网页的识别方法及系统 | |
CN113204644A (zh) | 一种基于知识图谱的政务百科构建方法 | |
CN111913968A (zh) | 一种基于微信公众号的提醒背诵英语单词系统和方法 | |
CN110245352A (zh) | 一种舆情热词分析方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20210316 |
|
WD01 | Invention patent application deemed withdrawn after publication |