CN113569019A - 基于聊天对话进行知识提取的方法、系统、设备及存储介质 - Google Patents

基于聊天对话进行知识提取的方法、系统、设备及存储介质 Download PDF

Info

Publication number
CN113569019A
CN113569019A CN202110563544.9A CN202110563544A CN113569019A CN 113569019 A CN113569019 A CN 113569019A CN 202110563544 A CN202110563544 A CN 202110563544A CN 113569019 A CN113569019 A CN 113569019A
Authority
CN
China
Prior art keywords
knowledge
category
classification
keyword
trigger
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110563544.9A
Other languages
English (en)
Other versions
CN113569019B (zh
Inventor
黄杰辉
徐世超
梁志婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Enyike Beijing Data Technology Co ltd
Original Assignee
Enyike Beijing Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Enyike Beijing Data Technology Co ltd filed Critical Enyike Beijing Data Technology Co ltd
Priority to CN202110563544.9A priority Critical patent/CN113569019B/zh
Publication of CN113569019A publication Critical patent/CN113569019A/zh
Application granted granted Critical
Publication of CN113569019B publication Critical patent/CN113569019B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于聊天对话进行知识提取的方法、系统、设备及存储介质,上述方法包括:构建企业结构化知识库,并将员工身份信息以及与员工工作内容相关的知识信息进行关联存储;对当前聊天对话中的文本信息进行关键词检索,分析文本信息中是否出现触发类关键词;若是,则结合企业结构化知识库对出现触发类关键词的触发点前后的若干个对话段进行知识提取。用户可实时对知识提取后的内容进行修改或添加,从而生成问答知识标本存入知识库中,实现数据留存。

Description

基于聊天对话进行知识提取的方法、系统、设备及存储介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于聊天对话进行知识提取的方法、系统、设备及存储介质。
背景技术
技术支持人员在日常工作中经常会碰到客户咨询各种问题,当客户数量较多时,难免会碰到客户咨询类似的问题,如何将日常工作积累成为行业知识,实现快速高效回复客户咨询的问题,是技术支持人员面临的一个亟需解决的问题。
目前常用方法是技术支持人员定期整理到文档储存系统里,但技术支持人员日常工作忙,手动整理操作较麻烦,很少主动去整理知识,或者应付了事。申请公布号为CN111813911A的中国专利文件提出了一种基于用户监督反馈的知识自动采集与更新系统及其工作方法,通过对问答日志进行分析,充分利用用户问答日志完善知识库;该专利主要是对知识进行处理后,在应用知识的过程中通过用户反馈信息评估知识库的质量进而更新知识库;而未涉及具体如何采集知识,获取知识的原始数据。
发明内容
本发明针对上述的手动整理知识操作费时费力的技术问题,提出一种基于聊天对话进行知识提取的方法、系统、设备及存储介质。
第一方面,本申请实施例提供了一种基于聊天对话进行知识提取的方法,包括:
知识库构建步骤:构建企业结构化知识库,并将员工身份信息以及与员工工作内容相关的知识信息进行关联存储;
关键词触发步骤:对当前聊天对话中的文本信息进行关键词检索,分析所述文本信息中是否出现触发类关键词;
知识提取步骤:若是,则结合所述企业结构化知识库对出现所述触发类关键词的触发点前后的若干个对话段进行知识提取。
上述基于聊天对话进行知识提取的方法,其中,所述知识库构建步骤还包括:在所述企业结构化知识库中根据员工职位设置若干个分层级的知识分类类别,其中,每个所述知识分类类别对应设置若干个关键词,在每个所述知识分类类别下分类存储具体的知识内容。
上述基于聊天对话进行知识提取的方法,其中,所述知识提取步骤包括:
识别分析步骤:预先设置需分析的对话段数量,基于所述对话段数量选取所述触发点前后的所述对话段进行文本识别分析和/或图像识别分析,进而确定选取的所述对话段的关键词信息;
类别确定步骤:将所述关键词信息结合当前对话的所述员工身份信息,确定所述对话段的所属知识分类的类别;
知识查找步骤:根据已确定的所述知识分类的类别,计算在所述企业结构化知识库中的对应类别下已存的所述知识内容与触发点文本内容的相似度,判断所述相似度是否达到预设的相似度阈值;
知识修订步骤:若是,则显示已存的的所述知识内容,并根据所述对话段对所述知识内容进行更新修订;或;
知识添加步骤:若否,则对所述对话段按照预设格式进行相应的知识提取。
上述基于聊天对话进行知识提取的方法,其中,所述关键词触发步骤还包括:预先在所述企业结构化知识库中设置触发类关键词词库。
第二方面,本申请实施例提供了一种基于聊天对话进行知识提取的系统,包括:
知识库构建单元:构建企业结构化知识库,并将员工身份信息以及与员工工作内容相关的知识信息进行关联存储;
关键词触发单元:对当前聊天对话中的文本信息进行关键词检索,分析所述文本信息中是否出现触发类关键词;
知识提取单元:结合所述企业结构化知识库对出现所述触发类关键词的触发点前后的若干个对话段通过所述知识提取单元进行知识提取。
上述基于聊天对话进行知识提取的系统,其中,所述知识库构建单元还包括:
类别设置模块:在所述企业结构化知识库中根据员工职位设置若干个分层级的知识分类类别,其中,每个所述知识分类类别对应设置若干个关键词,在每个所述知识分类类别下分类存储具体的知识内容。
上述基于聊天对话进行知识提取的系统,其中,所述知识生成单元包括:
识别分析模块:预先设置需分析的对话段数量,基于所述对话段数量选取所述触发点前后的所述对话段通过所述识别分析模块进行文本识别分析和/或图像识别分析,进而确定选取的所述对话段的关键词信息;
类别确定模块:将所述关键词信息结合当前对话的所述员工身份信息,通过所述类别确定模块确定所述对话段的所属知识分类的类别;
知识查找模块:根据已确定的所述知识分类的类别,通过所述知识查找模块计算在所述企业结构化知识库中的对应类别下已存的所述知识内容与触发点文本内容的相似度,判断所述相似度是否达到预设的相似度阈值;
知识修订模块:若达到所述相似度阈值,则通过所述知识修订模块显示已存的的所述知识内容,并根据所述对话段对所述知识内容进行更新修订;
知识添加模块:若没达到所述相似度阈值,则通过所述知识添加模块对所述对话段按照预设格式进行相应的知识提取。
上述基于聊天对话进行知识提取的系统,其中,所述关键词触发单元还包括:
词库设置模块:预先在所述企业结构化知识库中设置触发类关键词词库。
第三方面,本申请实施例提供了一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的基于聊天对话进行知识提取的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一方面所述的基于聊天对话进行知识提取的方法。
与现有技术相比,本发明的优点和积极效果在于:
本发明涉及知识图谱技术领域,本发明预先在知识库将员工信息与知识内容进行关联存储,通过对聊天对话文本进行识别分析,从而进行知识提取,并通过用户对提取出的知识内容进行实时的修正反馈,能够得到更加准确有效的知识信息,自动快速生成行业知识,实现知识积累与重复利用,减少了员工手动整理信息的麻烦,提高了工作效率。
附图说明
图1为本发明提供的一种基于聊天对话进行知识提取的方法的步骤示意图;
图2为本发明提供的基于图1中步骤S3的流程示意图;
图3为本发明提供的一种基于聊天对话进行知识提取的方法一实施例操作界面示意图;
图4为本发明提供的一种基于聊天对话进行知识提取的系统的框架图;
图5为根据本申请实施例的计算机设备的框架图。
其中,附图标记为:
1、知识库构建单元;11、类别设置模块;2、关键词触发单元;21、词库设置模块;3、知识生成单元;31、识别分析模块;32、类别确定模块;33、知识查找模块;34、知识修订模块;35、知识添加模块;81、处理器;82、存储器;83、通信接口;80、总线。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
下面结合附图所示的各实施方式对本发明进行详细说明,但应当说明的是,这些实施方式并非对本发明的限制,本领域普通技术人员根据这些实施方式所作的功能、方法、或者结构上的等效变换或替代,均属于本发明的保护范围之内。
在详细阐述本发明各个实施例之前,对本发明的核心发明思想予以概述,并通过下述若干实施例予以详细阐述。
本发明通过对聊天对话文本进行识别分析,进而进行知识提取,并通过用户对提取出的知识内容进行实时的修正反馈。
实施例一:
图1为本发明提供的一种基于聊天对话进行知识提取的方法的步骤示意图。如图1所示,本实施例揭示了一种基于聊天对话进行知识提取的方法(以下简称“方法”)的具体实施方式。
具体而言,本实施例所揭示的方法主要包括以下步骤:
步骤S1:构建企业结构化知识库,并将员工身份信息以及与员工工作内容相关的知识信息进行关联存储;
具体而言,预先构建企业结构化知识库,企业结构化知识库中根据员工职位设置若干个分层级的知识分类类别,知识分类示例如图3所示,并且每个知识分类类别对应若干个关键词。
在企业结构化知识库中将员工身份信息以及与员工工作内容相关的知识信息进行关联存储,具体的关联存储关系可以为:知识分类-员工身份-知识分类类别对应的关键词-知识内容。其中,知识内容包括例如问题描述与解答、通知类知识信息、公告类知识信息等内容。
步骤S2:对当前聊天对话中的文本信息进行关键词检索,分析所述文本信息中是否出现触发类关键词;
具体而言,分析聊天对话文本信息中是否出现触发类关键词,可以预先在企业结构化知识库中设有触发类关键词词库,触发类关键词可以有:“啊?”、“吗?”、“什么”等;
对当前聊天对话中的文本进行关键词检索,当出现触发类关键词时,即触发知识提取机制。
步骤S3:若出现触发类关键词,则结合所述企业结构化知识库对出现所述触发类关键词的触发点前后的若干个对话段进行知识提取。其中,触发点是指出现触发类关键词的对话段。
如图2所示,步骤S3具体包括以下内容:
步骤S31:预先设置需分析的对话段数量,基于所述对话段数量选取所述触发点前后的所述对话段进行文本识别分析和/或图像识别分析,进而确定选取的所述对话段的关键词信息。
步骤S32:将所述关键词信息结合当前对话的所述员工身份信息,确定所述对话段的所属知识分类的类别;
例如,预先可以设置所需分析的对话段数量为触发点前后10段,则后续进行的知识提取仅对这个范围内的文本进行处理,对已选中的对话段进行文本识别分析和图像识别分析,确定当前对话段的关键词信息,并将关键词信息结合当前对话的员工身份信息,确定当前聊天文本的所属知识分类的类别。
步骤S33:根据已确定的所述知识分类的类别,计算在所述企业结构化知识库中的对应类别下已存的所述知识内容与触发点文本内容的相似度,判断所述相似度是否达到预设的相似度阈值;
步骤S34:若是,则显示已存的的所述知识内容,并根据所述对话段对所述知识内容进行更新修订;或;
步骤S34’:若否,则对所述对话段按照预设格式进行相应的知识提取。
本方案在企业结构化知识库中设置若干个知识分类类别,并在每个知识分类类别中对应设置若干个关键词,以及在每个所述知识分类类别下分类存储具体的知识内容。当出现新的知识提取机会时,需要先检索企业结构化知识库的已存知识内容中是否已有相关知识内容;此时,直接根据员工身份信息和触发点文本中的关键词信息确定所属知识分类类别,再检索对应的知识分类类别下的知识内容即可,而不用对整个企业结构化知识库中存储的全部知识内容进行检索,减少了数据处理量,提高了处理效率。
以下,请参照图3。图3为本发明提供的一种基于聊天对话进行知识提取的方法一实施例操作界面示意图,结合图3,具体说明本方法的应用流程如下:
本实施例提供了一个A与B对话的界面,在聊天工具的界面上安装一个插件,实现如下功能:
当技术支持人员在聊天工具中答复客户咨询的问题时,点击聊天工具插件的【生成知识】按钮,显示一个“知识整理”界面,在“知识整理”界面中,自动将聊天问答上下文提取出来,填充到“知识整理”界面的“问题描述”“解答”“关键词”“知识分类”中,技术支持人员只需要简单核实一下信息,适当补充“背景知识”后,点击【添加到知识库】按钮就可以将当前回复客户的问答内容,形成一个知识内容,积累到知识库中。通过上述操作,实现知识积累,重复利用。
本方案提供的一种基于聊天对话进行知识提取的方法,主要是针对没有时间或者不方便实时进行文档数据整理的研发人员/运营支持人员,对他们工作对话中具有较高质量/参考价值的对话内容进行留存,从而将留存数据作为采集到的知识发送到服务器中进行后续的知识管理。
本方案的数据留存方式有2种,一种是被动触发,如图3所示,在工作聊天软件(例如,企业微信)中设置一个功能按键,当用户认为对话中出现有形成知识的机会时,按下该功能按键,告知系统进行数据留存和知识提取,此时,系统通过神经网络模型对该对话内容进行分析,从而实现知识提取(分析出对话中的“问题描述、解答、关键词”等各部分的内容)并实时展示给用户,用户可实时对知识提取后的内容进行修改或添加,从而生成问答知识标本存入知识库中,实现数据留存。
另一种方式是主动触发,用于对工作聊天软件中发生的对话数据进行实时监控,分析对话文本内容,判断可能形成知识的机会,当出现形成知识的机会时,弹跳出对话框“是否添加内容到知识库”,用户点击确认后,便出现图3所示的知识提取框,后续步骤如上一种方式所述。
实施例二:
结合实施例一所揭示的一种基于聊天对话进行知识提取的方法,本实施例揭示了一种基于聊天对话进行知识提取的系统(以下简称“系统”)的具体实施示例。
参照图4所示,所述系统包括:
知识库构建单元1:构建企业结构化知识库,并将员工身份信息以及与员工工作内容相关的知识信息进行关联存储;
关键词触发单元2:对当前聊天对话中的文本信息进行关键词检索,分析所述文本信息中是否出现触发类关键词;
知识提取单元3:结合所述企业结构化知识库对出现所述触发类关键词的触发点前后的若干个对话段通过所述知识提取单元进行知识提取。
具体而言,所述知识库构建单元1还包括:
类别设置模块11:在所述企业结构化知识库中根据员工职位设置若干个分层级的知识分类类别,其中,每个所述知识分类类别对应设置若干个关键词,在每个所述知识分类类别下分类存储具体的知识内容。
具体而言,所述关键词触发单元2还包括:
词库设置模块21:预先在所述企业结构化知识库中设置触发类关键词词库。
具体而言,所述知识提取单元3包括:
识别分析模块31:预先设置需分析的对话段数量,基于所述对话段数量选取所述触发点前后的所述对话段通过所述识别分析模块进行文本识别分析和/或图像识别分析,进而确定选取的所述对话段的关键词信息;
类别确定模块32:将所述关键词信息结合当前对话的所述员工身份信息,通过所述类别确定模块确定所述对话段的所属知识分类的类别;
知识查找模块33:根据已确定的所述知识分类的类别,通过所述知识查找模块计算在所述企业结构化知识库中的对应类别下已存的所述知识内容与触发点文本内容的相似度,判断所述相似度是否达到预设的相似度阈值;
知识修订模块34:若达到所述相似度阈值,则通过所述知识修订模块显示已存的的所述知识内容,并根据所述对话段对所述知识内容进行更新修订;
知识添加模块35:若没达到所述相似度阈值,则通过所述知识添加模块对所述对话段按照预设格式进行相应的知识提取。
本实施例所揭示的一种基于聊天对话进行知识提取的系统与实施例一所揭示的一种基于聊天对话进行知识提取的方法中其余相同部分的技术方案,请参照实施例一所述,在此不再赘述。
实施例三:
结合图5所示,本实施例揭示了一种计算机设备的一种具体实施方式。计算机设备可以包括处理器81以及存储有计算机程序指令的存储器82。
具体地,上述处理器81可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
其中,存储器82可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器82可包括硬盘驱动器(Hard Disk Drive,简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器82可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器82可在数据处理装置的内部或外部。在特定实施例中,存储器82是非易失性(Non-Volatile)存储器。在特定实施例中,存储器82包括只读存储器(Read-Only Memory,简称为ROM)和随机存取存储器(RandomAccess Memory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory,简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory,简称为EPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-Only Memory,简称为EEPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(Static Random-Access Memory,简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory,简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory,简称SDRAM)等。
存储器82可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器81所执行的可能的计算机程序指令。
处理器81通过读取并执行存储器82中存储的计算机程序指令,以实现上述实施例中的任意一种基于聊天对话进行知识提取的方法。
在其中一些实施例中,计算机设备还可包括通信接口83和总线80。其中,如图5所示,处理器81、存储器82、通信接口83通过总线80连接并完成相互间的通信。
通信接口83用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信端口83还可以实现与其他部件例如:外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。
总线80包括硬件、软件或两者,将计算机设备的部件彼此耦接在一起。总线80包括但不限于以下至少之一:数据总线(Data Bus)、地址总线(Address Bus)、控制总线(Control Bus)、扩展总线(Expansion Bus)、局部总线(LocalBus)。举例来说而非限制,总线80可包括图形加速接口(Accelerated Graphics Port,简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture,简称为EISA)总线、前端总线(Front Side Bus,简称为FSB)、超传输(Hyper Transport,简称为HT)互连、工业标准架构(Industry Standard Architecture,简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count,简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture,简称为MCA)总线、外围组件互连(Peripheral Component Interconnect,简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment,简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus,简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线80可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
另外,结合上述实施例中的基于聊天对话进行知识提取的方法,本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种基于聊天对话进行知识提取的方法。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于聊天对话进行知识提取的方法,其特征在于,包括:
知识库构建步骤:构建企业结构化知识库,并将员工身份信息以及与员工工作内容相关的知识信息进行关联存储;
关键词触发步骤:对当前聊天对话中的文本信息进行关键词检索,分析所述文本信息中是否出现触发类关键词;
知识提取步骤:若是,则结合所述企业结构化知识库对出现所述触发类关键词的触发点前后的若干个对话段进行知识提取。
2.根据权利要求1所述的一种基于聊天对话进行知识提取的方法,其特征在于,所述知识库构建步骤还包括:在所述企业结构化知识库中根据员工职位设置若干个分层级的知识分类类别,其中,每个所述知识分类类别对应设置若干个关键词,在每个所述知识分类类别下分类存储具体的知识内容。
3.据权利要求2所述的一种基于聊天对话进行知识提取的方法,其特征在于,所述知识提取步骤包括:
识别分析步骤:预先设置需分析的对话段数量,基于所述对话段数量选取所述触发点前后的所述对话段进行文本识别分析和/或图像识别分析,进而确定选取的所述对话段的关键词信息;
类别确定步骤:将所述关键词信息结合当前对话的所述员工身份信息,确定所述对话段的所属知识分类的类别;
知识查找步骤:根据已确定的所述知识分类的类别,计算在所述企业结构化知识库中的对应类别下已存的所述知识内容与触发点文本内容的相似度,判断所述相似度是否达到预设的相似度阈值;
知识修订步骤:若是,则显示已存的所述知识内容,并根据所述对话段对所述知识内容进行更新修订;或;
知识添加步骤:若否,则对所述对话段按照预设格式进行相应的知识提取。
4.根据权利要求1所述的一种基于聊天对话进行知识提取的方法,其特征在于,所述关键词触发步骤还包括:预先在所述企业结构化知识库中设置触发类关键词词库。
5.一种基于聊天对话进行知识提取的系统,其特征在于,包括:
知识库构建单元:构建企业结构化知识库,并将员工身份信息以及与员工工作内容相关的知识信息进行关联存储;
关键词触发单元:对当前聊天对话中的文本信息进行关键词检索,分析所述文本信息中是否出现触发类关键词;
知识提取单元:结合所述企业结构化知识库对出现所述触发类关键词的触发点前后的若干个对话段通过所述知识提取单元进行知识提取。
6.根据权利要求5所述的一种基于聊天对话进行知识提取的系统,其特征在于,所述知识库构建单元还包括:
类别设置模块:在所述企业结构化知识库中根据员工职位设置若干个分层级的知识分类类别,其中,每个所述知识分类类别对应设置若干个关键词,在每个所述知识分类类别下分类存储具体的知识内容。
7.据权利要求6所述的一种基于聊天对话进行知识提取的系统,其特征在于,所述知识生成单元包括:
识别分析模块:预先设置需分析的对话段数量,基于所述对话段数量选取所述触发点前后的所述对话段通过所述识别分析模块进行文本识别分析和/或图像识别分析,进而确定选取的所述对话段的关键词信息;
类别确定模块:将所述关键词信息结合当前对话的所述员工身份信息,通过所述类别确定模块确定所述对话段的所属知识分类的类别;
知识查找模块:根据已确定的所述知识分类的类别,通过所述知识查找模块计算在所述企业结构化知识库中的对应类别下已存的所述知识内容与触发点文本内容的相似度,判断所述相似度是否达到预设的相似度阈值;
知识修订模块:若达到所述相似度阈值,则通过所述知识修订模块显示已存的的所述知识内容,并根据所述对话段对所述知识内容进行更新修订;
知识添加模块:若没达到所述相似度阈值,则通过所述知识添加模块对所述对话段按照预设格式进行相应的知识提取。
8.根据权利要求5所述的一种基于聊天对话进行知识提取的系统,其特征在于,所述关键词触发单元还包括:
词库设置模块:预先在所述企业结构化知识库中设置触发类关键词词库。
9.一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的基于聊天对话进行知识提取的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至4中任一项所述的基于聊天对话进行知识提取的方法。
CN202110563544.9A 2021-05-24 2021-05-24 基于聊天对话进行知识提取的方法、系统、设备及存储介质 Active CN113569019B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110563544.9A CN113569019B (zh) 2021-05-24 2021-05-24 基于聊天对话进行知识提取的方法、系统、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110563544.9A CN113569019B (zh) 2021-05-24 2021-05-24 基于聊天对话进行知识提取的方法、系统、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113569019A true CN113569019A (zh) 2021-10-29
CN113569019B CN113569019B (zh) 2024-04-30

Family

ID=78161584

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110563544.9A Active CN113569019B (zh) 2021-05-24 2021-05-24 基于聊天对话进行知识提取的方法、系统、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113569019B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009053303A (ja) * 2007-08-24 2009-03-12 Nippon Telegr & Teleph Corp <Ntt> 議論知識グラフ構築方法、議論知識グラフ構築装置、議論知識グラフ構築プログラムおよびそのプログラムを記録した記録媒体
US20130297290A1 (en) * 2012-05-03 2013-11-07 International Business Machines Corporation Automatic accuracy estimation for audio transcriptions
CN107025297A (zh) * 2017-04-18 2017-08-08 上海斐讯数据通信技术有限公司 一种聊天机器人及其自动聊天方法
CN107133305A (zh) * 2017-04-28 2017-09-05 上海斐讯数据通信技术有限公司 一种聊天机器人知识库自动构建装置及其方法
CN107562863A (zh) * 2017-08-30 2018-01-09 深圳狗尾草智能科技有限公司 聊天机器人回复自动生成方法及系统
CN109947949A (zh) * 2019-03-12 2019-06-28 国家电网有限公司 知识信息智能管理方法、装置及服务器
CN112486947A (zh) * 2020-11-20 2021-03-12 建信金融科技有限责任公司 一种知识库构建方法、装置、电子设备及可读存储介质
CN112579791A (zh) * 2020-12-21 2021-03-30 北京明略昭辉科技有限公司 基于知识图谱的智能教学方法及系统
CN112651233A (zh) * 2020-12-18 2021-04-13 北京捷通华声科技股份有限公司 知识处理方法、装置、计算机可读存储介质以及处理器

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009053303A (ja) * 2007-08-24 2009-03-12 Nippon Telegr & Teleph Corp <Ntt> 議論知識グラフ構築方法、議論知識グラフ構築装置、議論知識グラフ構築プログラムおよびそのプログラムを記録した記録媒体
US20130297290A1 (en) * 2012-05-03 2013-11-07 International Business Machines Corporation Automatic accuracy estimation for audio transcriptions
CN107025297A (zh) * 2017-04-18 2017-08-08 上海斐讯数据通信技术有限公司 一种聊天机器人及其自动聊天方法
CN107133305A (zh) * 2017-04-28 2017-09-05 上海斐讯数据通信技术有限公司 一种聊天机器人知识库自动构建装置及其方法
CN107562863A (zh) * 2017-08-30 2018-01-09 深圳狗尾草智能科技有限公司 聊天机器人回复自动生成方法及系统
CN109947949A (zh) * 2019-03-12 2019-06-28 国家电网有限公司 知识信息智能管理方法、装置及服务器
CN112486947A (zh) * 2020-11-20 2021-03-12 建信金融科技有限责任公司 一种知识库构建方法、装置、电子设备及可读存储介质
CN112651233A (zh) * 2020-12-18 2021-04-13 北京捷通华声科技股份有限公司 知识处理方法、装置、计算机可读存储介质以及处理器
CN112579791A (zh) * 2020-12-21 2021-03-30 北京明略昭辉科技有限公司 基于知识图谱的智能教学方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赵晨光 等: "渔业领域智能问答系统的研究", 《电脑编程技巧与维护》, no. 05, 18 May 2019 (2019-05-18), pages 113 - 115 *

Also Published As

Publication number Publication date
CN113569019B (zh) 2024-04-30

Similar Documents

Publication Publication Date Title
US11194965B2 (en) Keyword extraction method and apparatus, storage medium, and electronic apparatus
CN110444198B (zh) 检索方法、装置、计算机设备和存储介质
WO2020253350A1 (zh) 网络内容发布的审核方法、装置、计算机设备及存储介质
CN109635296B (zh) 新词挖掘方法、装置计算机设备和存储介质
US20200004815A1 (en) Text entity detection and recognition from images
WO2017097231A1 (zh) 话题处理方法及装置
CN110149266B (zh) 垃圾邮件识别方法及装置
CN111291210B (zh) 图像素材库生成方法、图像素材推荐方法及相关装置
WO2018040068A1 (zh) 基于知识图谱的语意分析系统及方法
CN111324713B (zh) 对话自动回复方法、装置、存储介质和计算机设备
CN111045847A (zh) 事件审计方法、装置、终端设备以及存储介质
CN110909531B (zh) 信息安全的甄别方法、装置、设备及存储介质
CN110678860A (zh) 用于逐字文本挖掘的系统以及方法
CN112765974B (zh) 一种业务辅助方法、电子设备及可读存储介质
CN113986864A (zh) 日志数据处理方法、装置、电子设备及存储介质
CN110941702A (zh) 一种法律法规和法条的检索方法及装置、可读存储介质
CN110705250A (zh) 一种用于识别聊天记录中目标内容的方法与系统
CN113486664A (zh) 文本数据可视化分析方法、装置、设备及存储介质
CN114780746A (zh) 基于知识图谱的文档检索方法及其相关设备
CN111061838A (zh) 文本特征关键词确定方法、装置和存储介质
CN110019763B (zh) 文本过滤方法、系统、设备及计算机可读存储介质
CN112579781B (zh) 文本归类方法、装置、电子设备及介质
CN112487159B (zh) 检索方法、检索装置及计算机可读存储介质
CN116644183B (zh) 文本分类方法、装置及存储介质
CN117171650A (zh) 基于网络爬虫技术的文献数据处理方法、系统及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant