CN113535980A - 一种基于人工智能的智慧社区知识库体系的快速建立方法 - Google Patents

一种基于人工智能的智慧社区知识库体系的快速建立方法 Download PDF

Info

Publication number
CN113535980A
CN113535980A CN202110816659.4A CN202110816659A CN113535980A CN 113535980 A CN113535980 A CN 113535980A CN 202110816659 A CN202110816659 A CN 202110816659A CN 113535980 A CN113535980 A CN 113535980A
Authority
CN
China
Prior art keywords
knowledge base
sentences
answer
chat
artificial intelligence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110816659.4A
Other languages
English (en)
Inventor
崔俊
赵凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Qixia District Civil Affairs Service Center
Original Assignee
Nanjing Qixia District Civil Affairs Service Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Qixia District Civil Affairs Service Center filed Critical Nanjing Qixia District Civil Affairs Service Center
Priority to CN202110816659.4A priority Critical patent/CN113535980A/zh
Publication of CN113535980A publication Critical patent/CN113535980A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种基于人工智能下社区知识库体系的快速建立方法,对收集的聊天信息进行筛选,留存针对民生类问题的有效聊天语句;对筛选好的聊天语句进行中文分词,利用NLP智能文本分类技术对聊天语句进行分类,得到聊天语句的问题标签,并结合语义分析,对陈述语句进行候选答案抽取、关系推演、吻合程度判断、噪声过滤得到答案匹配度,将匹配度最高的陈述句标识为问题标签的最佳答案;对中文分词的实体词条进行频次判断,选取频次达到阈值的实体词条,对比更新本地问题标签库。本发明不仅能够有效针对新兴知识快速自动的完善社区知识库,避免了人工操作的麻烦,保证了知识库的时效性,并且能够自动追踪热点话题,提高了知识库的专业覆盖量。

Description

一种基于人工智能的智慧社区知识库体系的快速建立方法
技术领域
本发明涉及计算机应用领域,特别是一种基于人工智能下社区知识库体系的快速建立方法。
背景技术
自然语言中存在人类生活中的各类事件的描述,一个动作或一个历史事件,同时也包括事件产生的事件、地点、人物、状态以及事件之间的联系。随着互联网时代的兴起,人们的沟通越来越多的依赖QQ、微信等社交软件来进行沟通交流,获取信息,而这些信息往往呈现出海量、剧增、冗余等特性。为了能够更加快速有效的监控和运用其中有效的信息,人为的收集分析显然无法解决效率问题,计算机应用能够自动分析文本消息显得尤为重要,这关系到逐渐兴起的人工智能对话在社区治理领域的应用能力。
在社区治理中,使用社区专业领域的知识库结合人工智能对话系统,相较于其他传统语料检索的对话系统,具备了社区民生等专有知识的识别能力,能够更懂老百姓的话,让老百姓觉得是在和一位专业的社区网络员在聊天。但是,传统的知识库更多的追求领域覆盖率,专业领域知识的挖掘不够,往往在某个行业内的回复内容不够准确,知识也相对陈旧,更新频率还远远达不到标准。
发明内容
本发明的目的在于提出了一种基于人工智能下社区知识库体系的快速建立方法。
实现本发明目的的技术解决方案为:一种基于人工智能下社区知识库体系的快速建立方法,包括如下步骤:
第一步,以社区为单位建立微信群;
第二步,基于建立的微信群,以街道为单位植入群机器人自动收集聊天信息;
第三步,对收集的聊天信息进行筛选,留存针对民生类问题的有效聊天语句;
第四步,对筛选好的聊天语句进行中文分词,利用NLP智能文本分类技术对聊天语句进行分类,得到聊天语句的问题标签,并结合语义分析,对陈述语句进行候选答案抽取、关系推演、吻合程度判断、噪声过滤,得到答案匹配度,将匹配度最高的陈述句标识为问题标签的最佳答案;
第五步,对中文分词的实体词条进行频次判断,选取频次达到阈值的实体词条,对比更新本地问题标签库。
进一步的,第三步,对收集的聊天信息进行筛选,留存针对民生类问题的有效聊天语句,其中,有效聊天语句是剔除表情、语音和视频以后的文字信息。
进一步的,第四步,对筛选好的聊天语句进行中文分词,利用NLP智能文本分类技术对民生类问题进行分类,得到聊天语句的问题标签,并结合语义分析,对陈述语句进行候选答案抽取、关系推演、吻合程度判断、噪声过滤得到答案匹配度,将匹配度最高的陈述句标识为问题标签的最佳答案,具体方法为:
步骤4-1、初步分类,对初步筛选后的数据进行粗略分类,按照事先定义的分类用问题标签批量查找出相关聊天内容,以问答形式给问题标签存储在知识库的问答数据表;
步骤4-2、结合语义和意图分析技术,针对有问题标签的语句,将陈述语句经过候选答案抽取、关系推演、吻合程度判断、噪声过滤这些步骤得到答案匹配度,将匹配度最高的陈述句标识为该问题标签的最佳答案;
步骤4-3、循环步骤4-2,处理定时任务下的所有陈述句,得到准确的问答知识库。
一种基于人工智能下社区知识库体系的快速建立系统,基于任一项所述的方法,进行基于人工智能下社区知识库体系的快速建立。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现任一项所述的方法,进行基于人工智能下社区知识库体系的快速建立。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现任一项所述的方法,进行基于人工智能下社区知识库体系的快速建立。
本发明与现有技术相比,其显著优点为:(1)可以有效快速的收集居民提出的各种民生问题。(2)不仅能够有效针对新兴知识快速自动的完善社区知识库,同时避免了人工操作的麻烦,保证知识库的时效性。(3)自动追踪热点话题,提高了知识库的专业覆盖量。
附图说明
图1是本发明基于人工智能下社区知识库体系的快速建立方法的流程图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
如图1所示,一种基于人工智能下社区知识库体系的快速建立方法,其步骤如下:
步骤1、数据采集
以社区为单位建立微信群,目前微信最能有效快速反映出老百姓的关注点,依托微信群机器人的强大功能,可以自动快速收集老百姓的关注话题,具体过程如下:
步骤1-1、社工建群,社区网络员针对自己管辖范围的小区进行建群,群名按照一定规律比如小区名称几群这样,方便居民可以快速加入微信群;
步骤1-2、居民入群,当微信群建立后,由各居委会组织引导居民加入微信群。
步骤2、数据提取
基于第一步微信群植入群机器人,可以7*24小时全天候在线为民服务不打烊,是数据分析统计的基石,具体过程如下:
以街道为单位在建立的微信群中植入微信机器人,当各街道的微信群都建立完成后,需要把微信机器人加入每个微信群中,建立起应用和居民的联系。
步骤3、数据筛选
采集到居民的对话后,针对民生相关问题进行筛选,具体过程如下:
根据筛选规则,将收集的所有文字(非表情、语音、视频等)聊天数据保存至各社区的聊天记录库中。
步骤4、数据分类
对上一步的有效语料以现有智能分词技术进行话题分类,结合语义分析将陈述句标识答案匹配度,具体过程如下:
步骤4-1、初步分类,对初步筛选后的数据进行粗略分类,按照事先定义的分类用问题标签批量查找出相关聊天内容,以问答形式给问题标识标签存储在知识库的问答数据表;
步骤4-2、结合现有语义和意图分析技术,针对有问题标签的语句,将陈述语句经过候选答案抽取、关系推演、吻合程度判断、噪声过滤这些步骤得到答案匹配度,将匹配度最高的陈述句标识为所述问题的最佳答案。
步骤5、知识库完善
设定定时任务,循环步骤4中的答案匹配操作,不断优化各民生问题的答案使知识库得以完善,具体过程如下:
步骤5-1、创建定时任务,抽选问题标签的语句;
步骤5-2、筛选陈述语句;
步骤5-3、对陈述语句进行语义和意图分析,查询出针对问题答案的匹配度;
步骤5-4、按照答案的匹配度排序得到所述问题的最佳答案;
步骤5-5、处理标签更新,依据智能分词以及频度判断,选取频次较高(达到阈值)实体词条,对比更新本地问题标签库。
本发明还提出一种基于人工智能下社区知识库体系的快速建立系统,基于任一项所述的方法,进行基于人工智能下社区知识库体系的快速建立。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现任一项所述的方法,进行基于人工智能下社区知识库体系的快速建立。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现任一项所述的方法,进行基于人工智能下社区知识库体系的快速建立。
实施例
为了验证本发明方案的有效性,进行如下仿真实验。
一种基于人工智能下社区知识库体系的快速建立方法,步骤如下:
第一步,以社区为单位建立微信群,平均每个社区建立10个群,由社区网格员或者社工来担任群主;
第二步,在创建好的微信群里植入群机器人,由群主将群机器人拉入群并开启群聊天收集功能;
第三步,对收集的聊天信息针对对于民生问题进行筛选,留存有效的聊天语句;
第四步,对筛选好的聊天语句进行中文分词,利用现有的NLP智能文本分类技术进行分类,进而得到所述聊天语句的问题标签;
第五步,对筛选好的聊天语句进行语意和意图分析,当聊天语句的属性为陈述句,将陈述语句经过候选答案抽取、关系推演、吻合程度判断、噪声过滤这些步骤得到答案匹配度,将匹配度最高的陈述句标识为该问题标签的最佳答案;
第六步,系统后台创建定时任务,重复第五步的答案匹配操作,可以不断对知识库进行优化完善;
第七步,依据中文分词以及频度判断,选取频次较高(达到阈值)实体词条,对比更新本地问题标签库。比如“某小区出现一例无症状确诊病例,在哪个定点医院收治?”,系统利用现有人工智能分词技术,得到“小区”、“无症状”、“病例”、“定点医院”等实体词条,记录下这些实体词条的出现频率,如果出现频率高于设置的阈值,系统会去比对本地问题标签库,将新的实体词条存入本地问题标签库。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (6)

1.一种基于人工智能下社区知识库体系的快速建立方法,其特征在于,包括如下步骤:
第一步,以社区为单位建立微信群;
第二步,基于建立的微信群,以街道为单位植入群机器人自动收集聊天信息;
第三步,对收集的聊天信息进行筛选,留存针对民生类问题的有效聊天语句;
第四步,对筛选好的聊天语句进行中文分词,利用NLP智能文本分类技术对聊天语句进行分类,得到聊天语句的问题标签,并结合语义分析,对陈述语句进行候选答案抽取、关系推演、吻合程度判断、噪声过滤,得到答案匹配度,将匹配度最高的陈述句标识为问题标签的最佳答案;
第五步,对中文分词的实体词条进行频次判断,选取频次达到阈值的实体词条,对比更新本地问题标签库。
2.根据权利要求1所述的基于人工智能下社区知识库体系的快速建立方法,其特征在于,第三步,对收集的聊天信息进行筛选,留存针对民生类问题的有效聊天语句,其中,有效聊天语句是剔除表情、语音和视频以后的文字信息。
3.根据权利要求1所述的基于人工智能下社区知识库体系的快速建立方法,其特征在于,第四步,对筛选好的聊天语句进行中文分词,利用NLP智能文本分类技术对民生类问题进行分类,得到聊天语句的问题标签,并结合语义分析,对陈述语句进行候选答案抽取、关系推演、吻合程度判断、噪声过滤得到答案匹配度,将匹配度最高的陈述句标识为问题标签的最佳答案,具体方法为:
步骤4-1、初步分类,对初步筛选后的数据进行粗略分类,按照事先定义的分类用问题标签批量查找出相关聊天内容,以问答形式给问题标签存储在知识库的问答数据表;
步骤4-2、结合语义和意图分析技术,针对有问题标签的语句,将陈述语句经过候选答案抽取、关系推演、吻合程度判断、噪声过滤这些步骤得到答案匹配度,将匹配度最高的陈述句标识为该问题标签的最佳答案;
步骤4-3、循环步骤4-2,处理定时任务下的所有陈述句,得到准确的问答知识库。
4.一种基于人工智能下社区知识库体系的快速建立系统,其特征在于,基于权利要求1-3任一项所述的方法,进行基于人工智能下社区知识库体系的快速建立。
5.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1-3任一项所述的方法,进行基于人工智能下社区知识库体系的快速建立。
6.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-3任一项所述的方法,进行基于人工智能下社区知识库体系的快速建立。
CN202110816659.4A 2021-07-20 2021-07-20 一种基于人工智能的智慧社区知识库体系的快速建立方法 Pending CN113535980A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110816659.4A CN113535980A (zh) 2021-07-20 2021-07-20 一种基于人工智能的智慧社区知识库体系的快速建立方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110816659.4A CN113535980A (zh) 2021-07-20 2021-07-20 一种基于人工智能的智慧社区知识库体系的快速建立方法

Publications (1)

Publication Number Publication Date
CN113535980A true CN113535980A (zh) 2021-10-22

Family

ID=78100318

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110816659.4A Pending CN113535980A (zh) 2021-07-20 2021-07-20 一种基于人工智能的智慧社区知识库体系的快速建立方法

Country Status (1)

Country Link
CN (1) CN113535980A (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105975530A (zh) * 2016-04-29 2016-09-28 华南师范大学 基于聊天大数据知识库的机器人对话控制方法和系统
CN106844506A (zh) * 2016-12-27 2017-06-13 竹间智能科技(上海)有限公司 一种人工智能对话的知识检索方法及知识库自动完善方法
US20180025726A1 (en) * 2016-07-22 2018-01-25 International Business Machines Corporation Creating coordinated multi-chatbots using natural dialogues by means of knowledge base
CN108415980A (zh) * 2018-02-09 2018-08-17 平安科技(深圳)有限公司 问答数据处理方法、电子装置及存储介质
CN108710647A (zh) * 2018-04-28 2018-10-26 苏宁易购集团股份有限公司 一种用于聊天机器人的数据处理方法及装置
KR101950387B1 (ko) * 2018-02-12 2019-02-20 주식회사 머니브레인 학습 데이터 중 식별 가능하지만 학습 가능성이 없는 데이터의 레이블화를 통한, 대화형 ai 에이전트 시스템을 위한 지식베이스 모델의 구축 또는 갱신 방법, 컴퓨터 장치, 및 컴퓨터 판독 가능 기록 매체
CN110019733A (zh) * 2017-12-28 2019-07-16 中兴通讯股份有限公司 一种面向社区的智能问答方法及装置
US20190260694A1 (en) * 2018-02-16 2019-08-22 Mz Ip Holdings, Llc System and method for chat community question answering
US20200327886A1 (en) * 2019-04-10 2020-10-15 Hitachi, Ltd. Method for creating a knowledge base of components and their problems from short text utterances
CN112287082A (zh) * 2019-12-31 2021-01-29 北京来也网络科技有限公司 结合rpa与ai的数据的处理方法、装置、设备及存储介质
CN113010658A (zh) * 2021-04-08 2021-06-22 深圳市一号互联科技有限公司 一种智能问答知识库构建方法、系统、终端以及存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105975530A (zh) * 2016-04-29 2016-09-28 华南师范大学 基于聊天大数据知识库的机器人对话控制方法和系统
US20180025726A1 (en) * 2016-07-22 2018-01-25 International Business Machines Corporation Creating coordinated multi-chatbots using natural dialogues by means of knowledge base
CN106844506A (zh) * 2016-12-27 2017-06-13 竹间智能科技(上海)有限公司 一种人工智能对话的知识检索方法及知识库自动完善方法
CN110019733A (zh) * 2017-12-28 2019-07-16 中兴通讯股份有限公司 一种面向社区的智能问答方法及装置
CN108415980A (zh) * 2018-02-09 2018-08-17 平安科技(深圳)有限公司 问答数据处理方法、电子装置及存储介质
KR101950387B1 (ko) * 2018-02-12 2019-02-20 주식회사 머니브레인 학습 데이터 중 식별 가능하지만 학습 가능성이 없는 데이터의 레이블화를 통한, 대화형 ai 에이전트 시스템을 위한 지식베이스 모델의 구축 또는 갱신 방법, 컴퓨터 장치, 및 컴퓨터 판독 가능 기록 매체
US20190260694A1 (en) * 2018-02-16 2019-08-22 Mz Ip Holdings, Llc System and method for chat community question answering
CN108710647A (zh) * 2018-04-28 2018-10-26 苏宁易购集团股份有限公司 一种用于聊天机器人的数据处理方法及装置
US20200327886A1 (en) * 2019-04-10 2020-10-15 Hitachi, Ltd. Method for creating a knowledge base of components and their problems from short text utterances
CN112287082A (zh) * 2019-12-31 2021-01-29 北京来也网络科技有限公司 结合rpa与ai的数据的处理方法、装置、设备及存储介质
CN113010658A (zh) * 2021-04-08 2021-06-22 深圳市一号互联科技有限公司 一种智能问答知识库构建方法、系统、终端以及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
C8241998: "聊天机器人 学习笔记", Retrieved from the Internet <URL:https://blog.csdn.net/c8241998/article/details/82501860> *

Similar Documents

Publication Publication Date Title
CN109189901B (zh) 一种智能客服系统中自动发现新分类以及对应语料的方法
WO2021036439A1 (zh) 一种信访问题答复方法及装置
CN108733791B (zh) 网络事件检测方法
CN106022708A (zh) 一种预测员工离职的方法
CN109947902B (zh) 一种数据查询方法、装置和可读介质
CN110555206A (zh) 一种命名实体识别方法、装置、设备及存储介质
CN109634994A (zh) 一种简历与职位的匹配推送方法及计算机设备和存储介质
CN111967761A (zh) 一种基于知识图谱的监控预警方法、装置及电子设备
CN110880142B (zh) 一种风险实体获取方法及装置
CN111460162B (zh) 一种文本分类方法、装置、终端设备及计算机可读存储介质
CN109657063A (zh) 一种海量环保人工上报事件数据的处理方法及存储介质
CN111831794A (zh) 一种基于知识图谱的综合管廊行业知识问答系统构建方法
CN112149422B (zh) 一种基于自然语言的企业新闻动态监测方法
CN110737821B (zh) 相似事件查询的方法、装置、存储介质和终端设备
CN111984787A (zh) 一种基于互联网数据的舆情热点获取方法及系统
CN114528405A (zh) 一种基于网络突发热点的舆情监测方法
CN112199488B (zh) 面向电力客服问答的渐增式知识图谱实体抽取方法和系统
CN113535980A (zh) 一种基于人工智能的智慧社区知识库体系的快速建立方法
CN106257457A (zh) 一种舆情收集整理方法
CN113742498B (zh) 一种知识图谱的构建更新方法
CN114417010A (zh) 面向实时工作流的知识图谱构建方法、装置和存储介质
CN112988704A (zh) 一种基于ai咨询数据库集群搭建方法和系统
CN110569061A (zh) 一种基于大数据的软件工程知识库的自动化构建系统
CN114185868B (zh) 中文热点事件库智能构建方法
CN113592432B (zh) 工单判重方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination