CN111324687A - 知识库中数据处理方法、装置、计算机设备和存储介质 - Google Patents
知识库中数据处理方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN111324687A CN111324687A CN202010097675.8A CN202010097675A CN111324687A CN 111324687 A CN111324687 A CN 111324687A CN 202010097675 A CN202010097675 A CN 202010097675A CN 111324687 A CN111324687 A CN 111324687A
- Authority
- CN
- China
- Prior art keywords
- knowledge
- data
- document
- input
- word segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/319—Inverted lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及数据处理技术领域,提供一种知识库中数据处理方法、装置、计算机设备和存储介质,在每次录入知识至知识库时,可通过基于SLOR技术创建的倒排索引结构表,能够快速地对存量知识文档如标准问,标准答案等数据进行索引搜索,查找出与录入知识相关的知识文档,并通过预设阈值化知识冲突接口,根据与阈值化知识冲突接口对应设置的阈值,返回与待录入知识数据存在知识冲突的知识文档,当检测到知识冲突为不完全匹配时,则录入待录入知识数据。上述方案,在避免重复导入相似的知识数据的同时,也避免了在实际问答中产生知识冲突,支持高效的知识问答。
Description
技术领域
本申请涉及数据处理技术领域,特别是涉及知识库中数据处理方法、装置、计算机设备和存储介质。
背景技术
随着人工智能技术的发展和应用趋于成熟,客服机器人在提升客服中心效率、降低客服成本方面的价值越发彰显。智能客服机器人离不开知识库的建设,知识库是对特定信息进行分类收集,合理存储、智能查询并可更新维护的数据库系统,它是客服中心重要组成部分。
目前,知识库在运作时,存在多个知识库共用相同知识的现象,在新增知识数据条需要针对每个知识库导入知识,导入知识数据条过程中可能存在一大部分知识已存在知识库中却依然重复导入,进而产生信息冗余浪费系统资源,且对知识库中所有知识进行维护时,会因为存在较多的相似的知识而产生知识冲突,降低知识的问答效率。
发明内容
基于此,有必要针对传统的知识库因知识冲突而导致知识问答效率低的问题,提供一种支持高效知识问答的知识库中数据处理方法、装置、计算机设备和存储介质。
一种知识库中数据处理方法,方法包括:
接收知识库的数据录入请求,数据录入请求携带待录入知识数据;
对待录入知识数据进行分词处理,得到分词结果;
根据分词结果以及预设基于SOLR技术创建的倒排索引结构表,对已存知识文档进行索引搜索,查找出与待录入知识数据相关的知识文档;
调用预设的阈值化知识冲突接口,根据与阈值化知识冲突接口对应设置的阈值,返回与待录入知识数据存在知识冲突的知识文档;
当检测到知识冲突为不完全匹配时,录入待录入知识数据。
在其中一个实施例中,倒排索引结构表包括文档ID(Identity Document,身份标识号)列表和单词出现频次;根据分词结果以及预设基于SOLR技术创建的倒排索引结构表,对预设问答知识库中的知识文档进行索引搜索,查找出与待录入知识相关的知识文档包括:
根据分词结果查找对应的索引;
根据查找到的索引,从倒排索引结构中查找出对应的文档ID列表、并由查找到的文档ID列表查找出对应的知识文档;
基于倒排索引结构表中单词出现频次,计算各分词结果的权重;
根据权重将查找出的知识文档进行排序、并返回排序后的知识文档。
在其中一个实施例中,根据分词结果以及预设基于SOLR技术创建的倒排索引结构表,对预设问答知识库中的知识文档进行索引搜索之前,还包括:
获取预设知识库的存量知识文档;
将存量知识文档切分为单词序列、并创建与单词序列对应的索引;
为单词序列添加对应的单词编号、并记录各单词序列出现过的文档ID列表、出现位置以及出现频次,构建对应的倒排列表;
将索引与倒排列表进行关联,得到倒排索引结构表。
在其中一个实施例中,调用预设的阈值化知识冲突接口、并根据阈值化知识冲突接口设置的阈值,返回与待录入知识数据存在知识冲突的知识文档包括:
调用预设的阈值化知识冲突接口,获取查找出的相关的知识文档与待录入知识数据的相似度;
将相似度与阈值进行比较,返回相似度高于阈值的知识文档。
在其中一个实施例中,还包括:
当检测到知识冲突为完全匹配时,发送知识录入失败消息至用户终端。
在其中一个实施例中,发送知识录入失败消息至用户终端之后,还包括:
发送待录入知识调整消息至用户终端;
接收用户终端返回的调整后的待录入知识数据;
对调整后的待录入知识数据进行分词处理,得到更新后的分词结果;
将分词结果替换为更新后的分词结果,返回根据分词结果以及预设基于SOLR技术创建的倒排索引结构表,对已存知识文档进行索引搜索的步骤。
一种知识库中数据处理装置,装置包括:
请求接收模块,用于接收知识库的数据录入请求,数据录入请求携带待录入知识数据;
分词处理模块,用于对待录入知识数据进行分词处理,得到分词结果;
索引搜索模块,用于根据分词结果以及预设基于SOLR技术创建的倒排索引结构表,对已存知识文档进行索引搜索,查找出与待录入知识数据相关的知识文档;
冲突检测模块,用于调用预设的阈值化知识冲突接口,根据与阈值化知识冲突接口对应设置的阈值,返回与待录入知识数据存在知识冲突的知识文档;
知识录入模块,用于当检测到知识冲突为不完全匹配时,录入待录入知识数据。
在其中一个实施例中,装置还包括:
倒排索引结构构建模块,用于获取预设知识库的存量知识文档,将存量知识文档切分为单词序列,为单词序列创建对应的索引,为单词序列添加对应的单词编号、并记录各单词序列出现的文档ID列表和出现频次,构建对应的倒排列表,将索引与倒排列表进行关联,得到倒排索引结构表。
一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现以下步骤:
接收知识库的数据录入请求,数据录入请求携带待录入知识数据;
对待录入知识数据进行分词处理,得到分词结果;
根据分词结果以及预设基于SOLR技术创建的倒排索引结构表,对已存知识文档进行索引搜索,查找出与待录入知识数据相关的知识文档;
调用预设的阈值化知识冲突接口,根据与阈值化知识冲突接口对应设置的阈值,返回与待录入知识数据存在知识冲突的知识文档;
当检测到知识冲突为不完全匹配时,录入待录入知识数据。
一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
接收知识库的数据录入请求,数据录入请求携带待录入知识数据;
对待录入知识数据进行分词处理,得到分词结果;
根据分词结果以及预设基于SOLR技术创建的倒排索引结构表,对已存知识文档进行索引搜索,查找出与待录入知识数据相关的知识文档;
调用预设的阈值化知识冲突接口,根据与阈值化知识冲突接口对应设置的阈值,返回与待录入知识数据存在知识冲突的知识文档;
当检测到知识冲突为不完全匹配时,录入待录入知识数据。
上述知识库中数据处理方法、装置、计算机设备和存储介质,在每次录入知识至知识库时,可通过基于SLOR技术创建的倒排索引结构表,能够快速地对存量知识文档如标准问,标准答案等数据进行索引搜索,查找出与录入知识相关的知识文档,并通过调用预设阈值化知识冲突接口,根据与阈值化知识冲突接口对应设置的阈值,返回与待录入知识数据存在知识冲突的知识文档,当检测到知识冲突为不完全匹配时,则录入待录入知识数据。上述方案,在避免重复导入相似的知识数据的同时,也避免了在实际问答中产生知识冲突,支持高效知识问答。
附图说明
图1为一个实施例中知识库中数据处理方法的应用环境图;
图2为一个实施例中知识库中数据处理方法的流程示意图;
图3为一个实施例中步骤创建倒排索引结构表的详细流程示意图;
图4为另一个实施例中知识库中数据处理方法的详细流程示意图;
图5为一个实施例中知识库中数据处理装置的结构框图;
图6为另一个实施例中知识库中数据处理装置的结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的知识库中数据处理方法,可以应用于如图1所示的应用环境中。其中,用户终端102通过网络与服务器104通过网络进行通信。知识库是对特定信息进行分类收集,合理存储、智能查询并可更新维护的数据库系统,其主要作用在于帮助客服如智能机器人客服准确、高效的为客户服务。为便于客服能够即时对客户提出的问题进行答复,需要针对机器人的知识库中导入用于问答的知识数据,可以是用户通过用户终端102登录知识统一管理平台系统,想要于机器人客服对应的问答知识库录入新知识时,通过于用户终端102操作知识统一管理平台系统向该系统的服务器104发送数据录入请求,服务器104接收数据录入请求(数据录入请求携带待录入知识),对待录入知识进行分词处理,得到分词结果,根据分词结果和基于SOLR技术创建的倒排索引结构,对预设问答知识库中的知识文档进行索引搜索,查找出与待录入知识相关的知识文档,调用阈值化知识冲突接口,根据与阈值化知识冲突接口对应设置的阈值,返回与待录入知识数据存在知识冲突的知识文档,当检测到知识冲突为不完全匹配时,则录入待录入知识数据。其中,用户终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种知识库中数据处理方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤S100,接收知识库的数据录入请求,数据录入请求携带待录入知识数据。
本实施例中,知识库即问答知识库,问答知识库使用的最广泛的一个领域就是公司的客服系统,这种应用一般被业内称作是“智能客服机器人”,其本质就是一个客服方面的智能问答知识库。在实际应用中,数据录入请求可以是当用户需要于问答知识库导入新知识时,于用户终端点击“录入”按钮,发送数据录入请求至服务器的,该数据录入请求携带待录入的知识数据,待录入的知识数据可以是用于问答的标准问、标准答案以及个性化答案,也可以是扩展文段等。
步骤S200,对待录入知识数据进行分词处理,得到分词结果。
分词是自然语言处理任务中基本的处理手段,就是将连续的字序列按照一定的规范重新组合成词序列的过程。在英文的行文中,一个单词就是一个词,单词之间是以空格作为自然分界符的,一般都使用空格对将英文行文切分成多个单词,而对于中文分词,汉子是以字为基本的书写单位,词语之间没有明显的区分标记,需要人为切分,因此中文分词的难度相对较大。在接收到数据录入请求,获取到待录入知识后,为了能够进行知识冲突检测,需要对带录入知识进行分词处理,将待录入知识切分成多个单词。本实施例中,分词方法可以是采用分词器对待录入知识数据进行分词处理,得到多个独立的单词,也可以是运用基于统计的分词方法对待录入知识数据进行分词处理,在此,分词方式不做限定。
步骤S300,根据分词结果以及预设基于SOLR技术创建的倒排索引结构表,对已存知识文档进行索引搜索,查找出与待录入知识数据相关的知识文档。
倒排索引,也常被称为反向索引、置入档案或反向档案,是一种索引方法,被用来存储在全文搜索下某个单词在一个文档或者一组文档中的存储位置的映射。它是文档检索系统中最常用的数据结构,通过倒排索引,可以根据单词快速获取包含这个单词的文档列表。已存知识文档即在之前的时间段就已经录入且存在于数据库中的知识文档,与新增录入的知识文档对应,其可以包括标准问、扩展问、标准答案以及个性化答案等。SOLR是一个全文检索引擎系统,对外通过http协议提供全文检索服务(也就是对索引和文档的增删改查服务)。本实施例中,在索引搜索之前,基于SLOR技术创建倒排索引结构,使得能够根据索引与知识文档列表的关联关系,由单词查找到单词出现的文档ID(identity,身份),再由文档ID查找出对应的具体的知识文档,对存量知识文档和待录入知识数据进行索引搜索,查找出与录入知识相关的知识文档。
步骤S400,调用阈值化知识冲突接口,根据与阈值化知识冲突接口对应设置的阈值,返回与待录入知识数据存在知识冲突的知识文档。
知识冲突即指知识库中存在相同或相似的知识内容,阈值化知识冲突接口是基于CNN(Convolutional Neural Networks,卷积神经网络)算法构建的用于调用SOLR服务的接口,调用该接口能够触发知识冲突检测事件,并根据与所述阈值化知识冲突接口对应设置的阈值,返回与所述待录入知识数据存在知识冲突的知识文档。
步骤S500,当知识冲突为不完全匹配时,录入待录入知识数据。
在实际应用中,为保证问答知识库的质量,当检测到产生知识冲突时,需要建立一定的解决冲突的机制。本实施例中,采用的解决机制可以是若知识冲突为完全匹配,则表示该待录入的知识数据已存在于问答知识库中,属于重复录入,不允许待录入知识的录入,同时通知管理人员进行相应处理。当知识冲突为不完全匹配时,则录入待录入知识数据。
上述知识库中数据处理方法,在每次录入知识至知识库时,可通过基于SLOR技术创建的倒排索引结构表,能够快速地对存量知识文档如标准问,标准答案等数据进行索引搜索,查找出与录入知识相关的知识文档,并通过调用预设阈值化知识冲突接口,根据与阈值化知识冲突接口对应设置的阈值,返回与待录入知识数据存在知识冲突的知识文档,当检测到知识冲突为不完全匹配时,录入待录入知识数据。上述方案,在避免重复导入相似的知识数据的同时,也避免了在实际问答中产生知识冲突,从而支持高效的知识问答。
在其中一个实施例中,如图3所示,倒排索引结构表包括文档ID列表和单词出现频次;根据分词结果以及预设基于SOLR技术创建的倒排索引结构表,对已存知识文档进行索引搜索,查找出与待录入知识数据相关的知识文档包括:步骤S320,根据分词结果查找对应的索引,根据查找到的索引,从倒排索引结构中查找出对应的文档ID列表、并由查找到的文档ID列表查找出对应的知识文档,基于倒排索引结构表中单词出现频次,计算各分词结果的权重,根据权重将查找出的知识文档进行排序,得到与待录入知识数据相关的知识文档。
索引搜索即为SOLR的索引搜索过程。具体的,可以是先根据分词结果即独立的单词序列对预设问答知识库进行全文检索,查找到与单词对应的索引,再由索引于倒排索引结构中查找到对应的文档ID列表,根据文档ID列表查找到具体的对应存量知识文档,然后,查找由待录入知识切分得到的单词在该存量知识文档中的出现频次,由出现频次计算各分词结果的权重,将对应的文档ID列表按照权重排序,返回排序后的知识文档。本实施例中,通过SOLR技术创建的索引与知识文档列表的关联关系,能够对非结构化或半结构化的知识文档数据进行快速查找,提高匹配检测效率。
在其中一个实施例中,如图4所示,根据分词结果以及预设基于SOLR技术创建的倒排索引结构表,对预设问答知识库中的知识文档进行索引搜索之前,还包括:
步骤S150,获取预设知识库的存量知识文档;
步骤S152,将存量知识文档切分为单词序列、并创建与单词序列对应的索引;
步骤S154,为单词序列添加对应的单词编号、并记录各单词序列出现过的文档ID列表、出现位置以及出现频次,构建对应的倒排列表;
步骤S156,将索引与倒排列表进行关联,得到倒排索引结构表。
如上述实施例所述,倒排索引是搜索引擎用来快速查找包含某个单词的文档集合的数据结构,其由单词词典和所有单词对应的倒排列表组成。单词词典:搜索引擎通常的索引单位是单词,单词词典是由文档集合中出现过的所有单词构成的字符串集合,单词词典内每条索引项记载单词本身的一些信息以及指向倒排表的指针,它的常用数据结构是:哈希加链表结构和树形词典结构(B/B+)。倒排列表由倒排列表项构成,一般倒排列表项包含文档ID、单词磁盘和单词在文档出现的位置,文档ID可能采取文档ID列表差值的编码方式以减少数值大小。本实施例中,在进行索引搜索之前,创建倒排索引结构可以是先采用分词器将知识库中的存量知识文档切分为将存量知识文档切分为单词序列、并创建与单词序列对应的索引,其中,包含使用hash去除重复的单词,然后,为各单词序列添加对应的单词编号、并记录各单词序列出现过的文档ID列表、出现位置以及出现频次,构建对应的倒排列表,将索引与倒排列表进行关联,得到倒排索引结构表。本实施例中,通过创建倒排索引结构表能够在后续索引检索中,由单词快速映射到具体的知识文档。
在其中一个实施例中,如图3所示,调用阈值化知识冲突接口,检测查找出的相关的知识文档与待录入知识数据是否存在知识冲突包括:步骤S420,调用阈值化知识冲突接口,获取查找出的相关的知识文档与待录入知识数据的相似度,将相似度与阈值进行比较,返回相似度高于阈值的知识文档。
在实际应用中,调用基于CNN算法构建的SOLR服务接口即知识冲突检测接口进行知识冲突检测可以是采用相似度计算方法,计算查找出的相关的知识文档与待录入知识的相似度,然后,为了便于筛选出更有参考价值的知识文档,可以是将相似度与预设阈值进行比较,将相似度高于预设阈值的知识文档确定为产生知识冲突的知识文档,进一步的,还可以将产生知识冲突的知识文档推送至用户终端。具体的,预设阈值可以是0.7,将相似度高于0.7的标准问或标准答案显示于用户终端的管理界面。可以理解的是,在其他实施例中,预设阈值还可以是除0.7之外的其他数值。本实施例中,基于阈值化知识冲突接口的调用,便返回相似度高于预设阈值且产生知识冲突的知识文档,以便管理人员及时查看。
如图3所示,在其中一个实施例中,还包括:步骤S520,当检测到知识冲突为完全匹配时,发送知识录入失败消息至用户终端。
如上述实施例所述,若知识冲突为不完全匹配,则表示该待录入知识是首次录入,则响应该数据录入请求,进行数据录入的操作,将待录入知识录入至知识库。若知识冲突为完全匹配,则表示待录入知识已存在于知识库中,需要拒绝知识的录入,可发送知识录入失败消息至用户终端。进一步的,待录入知识数据的录入,还可以是需要完成授权后才能允许知识的录入。本实施例中,当知识冲突为完全匹配,发送知识录入失败消息至用户终端,以通知用户及时做出处理,有效地避免了知识冲突。
在其中一个实施例中,发送知识录入失败消息至用户终端之后,还包括:发送待录入知识调整消息至用户终端,接收用户终端返回的调整后的待录入知识数据,对调整后的待录入知识数据进行分词处理,得到更新后的分词结果;将分词结果替换为更新后的分词结果,返回步骤S200。
在实际应用中,拒绝了待录入知识的录入后,还可以发送待录入知识调整消息至用户终端,以便管理人员对待录入知识进行调整,然后,接收用户终端返回的调整后的待录入知识数据,此时,待录入知识数据已更新为调整后的数据,再次进入对待录入知识数据进行分词处理的步骤,得到更新后的分词结果,将分词结果替换为更新后的分词结果,返回根据分词结果以及预设基于SOLR技术创建的倒排索引结构表,对已存知识文档进行索引搜索的步骤。本实施例中,当知识冲突为完全匹配时,通过发送待录入知识调整消息至用户终端,可提示管理人员及时对带录入知识进行调整,降低与知识文档之间的重合度,防止知识冲突的产生,且保证了知识库的丰富度,提高了知识库的质量。
应该理解的是,虽然图2-4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图5所示,提供了一种知识库中数据处理装置,包括:请求接收模块510、分词处理模块520、索引搜索模块530、冲突检测模块540和知识录入模块550,其中:
请求接收模块510,用于接收知识库的数据录入请求,数据录入请求携带待录入知识数据;
分词处理模块520,用于对待录入知识数据进行分词处理,得到分词结果;
索引搜索模块530,用于根据分词结果以及预设基于SOLR技术创建的倒排索引结构表,对已存知识文档进行索引搜索,查找出与待录入知识数据相关的知识文档;
冲突检测模块540,用于调用阈值化知识冲突接口,根据与阈值化知识冲突接口对应设置的阈值,返回与待录入知识数据存在知识冲突的知识文档;
知识录入模块550,用于当检测到知识冲突为不完全匹配时,录入待录入知识数据。
在其中一个实施例中,索引搜索模块530还用于根据分词结果查找对应的索引,根据查找到的索引,从倒排索引结构中查找出对应的文档ID列表、并由查找到的文档ID列表查找出对应的知识文档,基于倒排索引结构表中单词出现频次,计算各分词结果的权重,根据权重将查找出的知识文档进行排序、并返回排序后的知识文档。
如图6所示,在其中一个实施例中,知识库中数据处理装置还包括倒排索引结构表创建模块560,用于获取预设知识库的存量知识文档,将存量知识文档切分为单词序列、并创建与单词序列对应的索引,为单词序列添加对应的单词编号、并记录各单词序列出现过的文档ID列表、出现位置以及出现频次,构建对应的倒排列表,将索引与倒排列表进行关联,得到倒排索引结构表。
在其中一个实施例中,冲突检测模块540还用于调用预设的阈值化知识冲突接口,获取查找出的相关的知识文档与待录入知识数据的相似度,将相似度与阈值进行比较,返回相似度高于阈值的知识文档。
如图6所示,在其中一个实施例中,知识库中数据处理装置还包括冲突处理模块570,用于当检测到知识冲突为完全匹配时,发送知识录入失败消息至用户终端。
如图6所示,在其中一个实施例中,知识库中数据处理装置还包括知识调整模块580,用于发送待录入知识调整消息至用户终端,接收用户终端返回的调整后的待录入知识数据,对调整后的待录入知识数据进行分词处理,得到更新后的分词结果,将分词结果替换为更新后的分词结果,返回根据分词结果以及预设基于SOLR技术创建的倒排索引结构表,对已存知识文档进行索引搜索的步骤。
关于知识库中数据处理装置的具体限定可以参见上文中对于知识库中数据处理方法的限定,在此不再赘述。上述知识库中数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在其中一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储知识数据、倒排索引结构表等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种知识库中数据处理方法。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在其中一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述知识库中数据处理方法的步骤。
在其中一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述知识库中数据处理方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种知识库中数据处理方法,所述方法包括:
接收知识库的数据录入请求,所述数据录入请求携带待录入知识数据;
对所述待录入知识数据进行分词处理,得到分词结果;
根据所述分词结果以及预设基于SOLR技术创建的倒排索引结构表,对已存知识文档进行索引搜索,查找出与所述待录入知识数据相关的知识文档;
调用预设阈值化知识冲突接口,根据与所述阈值化知识冲突接口对应设置的阈值,返回与所述待录入知识数据存在知识冲突的知识文档;
当检测到知识冲突为不完全匹配时,录入所述待录入知识数据。
2.根据权利要求1所述的知识库中数据处理方法,其特征在于,所述倒排索引结构表包括文档ID列表和单词出现频次;
所述根据所述分词结果以及预设基于SOLR技术创建的倒排索引结构表,对预设问答知识库中的知识文档进行索引搜索,查找出与所述待录入知识相关的知识文档包括:
根据所述分词结果查找对应的索引;
根据查找到的索引,从所述倒排索引结构中查找出对应的文档ID列表、并由查找到的所述文档ID列表查找出对应的知识文档;
基于所述倒排索引结构表中单词出现频次,计算各分词结果的权重;
根据所述权重将查找出的知识文档进行排序、并返回排序后的知识文档。
3.根据权利要求1所述的知识库中数据处理方法,其特征在于,所述根据所述分词结果以及预设基于SOLR技术创建的倒排索引结构表,对已存知识文档进行索引搜索之前,还包括:
获取预设知识库的存量知识文档;
将所述存量知识文档切分为单词序列、并创建与所述单词序列对应的索引;
为所述单词序列添加对应的单词编号、并记录各单词序列出现过的文档ID列表、出现位置以及出现频次,构建对应的倒排列表;
将所述索引与所述倒排列表进行关联,得到所述倒排索引结构表。
4.根据权利要求1所述的知识库中数据处理方法,其特征在于,所述调用预设的阈值化知识冲突接口、并根据所述阈值化知识冲突接口设置的阈值,返回与所述待录入知识数据存在知识冲突的知识文档包括:
调用预设的阈值化知识冲突接口,获取所述查找出的相关的知识文档与所述待录入知识数据的相似度;
将所述相似度与所述阈值进行比较,返回相似度高于所述阈值的知识文档。
5.根据权利要求1所述的知识库中数据处理方法,其特征在于,还包括:
当检测到知识冲突为完全匹配时,发送知识录入失败消息至用户终端。
6.根据权利要求5所述的知识库中数据处理方法,其特征在于,所述发送知识录入失败消息至用户终端之后,还包括:
发送待录入知识调整消息至所述用户终端;
接收所述用户终端返回的调整后的待录入知识数据;
对调整后的待录入知识数据进行分词处理,得到更新后的分词结果;
将所述分词结果替换为更新后的分词结果,返回所述根据所述分词结果以及预设基于SOLR技术创建的倒排索引结构表,对已存知识文档进行索引搜索的步骤。
7.一种知识库中数据处理装置,其特征在于,所述装置包括:
请求接收模块,用于接收知识库的数据录入请求,所述数据录入请求携带待录入知识数据;
分词处理模块,用于对所述待录入知识数据进行分词处理,得到分词结果;
索引搜索模块,用于根据所述分词结果以及预设基于SOLR技术创建的倒排索引结构表,对已存知识文档进行索引搜索,查找出与所述待录入知识数据相关的知识文档;
冲突检测模块,用于调用预设的阈值化知识冲突接口,根据与所述阈值化知识冲突接口对应设置的阈值,返回与所述待录入知识数据存在知识冲突的知识文档;
知识录入模块,用于当检测到知识冲突为不完全匹配时,录入所述待录入知识数据。
8.根据权利要求7所述的知识库中数据处理装置,其特征在于,所述装置还包括:
倒排索引结构构建模块,用于获取预设知识库的存量知识文档,将所述存量知识文档切分为单词序列,为所述单词序列创建对应的索引,为所述单词序列添加对应的单词编号、并记录各单词序列出现的文档ID列表和出现频次,构建对应的倒排列表,将所述索引与所述倒排列表进行关联,得到倒排索引结构表。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010097675.8A CN111324687A (zh) | 2020-02-17 | 2020-02-17 | 知识库中数据处理方法、装置、计算机设备和存储介质 |
PCT/CN2020/098726 WO2021164171A1 (zh) | 2020-02-17 | 2020-06-29 | 知识库中数据处理方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010097675.8A CN111324687A (zh) | 2020-02-17 | 2020-02-17 | 知识库中数据处理方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111324687A true CN111324687A (zh) | 2020-06-23 |
Family
ID=71168845
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010097675.8A Pending CN111324687A (zh) | 2020-02-17 | 2020-02-17 | 知识库中数据处理方法、装置、计算机设备和存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111324687A (zh) |
WO (1) | WO2021164171A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021164171A1 (zh) * | 2020-02-17 | 2021-08-26 | 平安科技(深圳)有限公司 | 知识库中数据处理方法、装置、计算机设备和存储介质 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113705814A (zh) * | 2021-08-27 | 2021-11-26 | 中国工商银行股份有限公司 | 基于依据池的知识管理方法及装置 |
CN116433799B (zh) * | 2023-06-14 | 2023-08-25 | 安徽思高智能科技有限公司 | 一种基于语义相似度和子图匹配的流程图生成方法和装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106777996A (zh) * | 2016-12-23 | 2017-05-31 | 浙江大学 | 一种基于Solr的体检数据搜索系统 |
US10691753B2 (en) * | 2018-04-25 | 2020-06-23 | Oracle International Corporation | Memory reduced string similarity analysis |
CN109213738B (zh) * | 2018-11-20 | 2022-01-25 | 武汉理工光科股份有限公司 | 一种云存储文件级重复数据删除检索系统及方法 |
CN110442606A (zh) * | 2019-07-16 | 2019-11-12 | 浙江大华技术股份有限公司 | 一种数据的处理方法、设备以及计算机存储介质 |
CN110737655B (zh) * | 2019-10-21 | 2021-07-30 | 京东数字科技控股有限公司 | 用于上报数据的方法和装置 |
CN111324687A (zh) * | 2020-02-17 | 2020-06-23 | 平安科技(深圳)有限公司 | 知识库中数据处理方法、装置、计算机设备和存储介质 |
-
2020
- 2020-02-17 CN CN202010097675.8A patent/CN111324687A/zh active Pending
- 2020-06-29 WO PCT/CN2020/098726 patent/WO2021164171A1/zh active Application Filing
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021164171A1 (zh) * | 2020-02-17 | 2021-08-26 | 平安科技(深圳)有限公司 | 知识库中数据处理方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2021164171A1 (zh) | 2021-08-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109446302B (zh) | 基于机器学习的问答数据处理方法、装置和计算机设备 | |
CN108563734B (zh) | 制度信息查询方法、装置、计算机设备和存储介质 | |
US7912816B2 (en) | Adaptive archive data management | |
KR100877461B1 (ko) | 실시간 데이터 웨어하우징 | |
CN110765275A (zh) | 搜索方法、装置、计算机设备和存储介质 | |
CN109063108B (zh) | 搜索排序方法、装置、计算机设备和存储介质 | |
CN111324687A (zh) | 知识库中数据处理方法、装置、计算机设备和存储介质 | |
CA2882280A1 (en) | System and method for matching data using probabilistic modeling techniques | |
CN112115232A (zh) | 一种数据纠错方法、装置及服务器 | |
CN112651236B (zh) | 提取文本信息的方法、装置、计算机设备和存储介质 | |
CN108509424A (zh) | 制度信息处理方法、装置、计算机设备和存储介质 | |
CA3138556A1 (en) | Apparatuses, storage medium and method of querying data based on vertical search | |
CN112685475A (zh) | 报表查询方法、装置、计算机设备及存储介质 | |
CN112559526A (zh) | 数据表导出方法、装置、计算机设备及存储介质 | |
CN114327374A (zh) | 业务流程的生成方法、装置及计算机设备 | |
CN115544007A (zh) | 标签预处理方法、装置、计算机设备和存储介质 | |
CN117033424A (zh) | 慢sql语句的查询优化方法、装置和计算机设备 | |
CN113254624B (zh) | 基于人工智能的智能问答处理方法、装置、设备及介质 | |
CN117708270A (zh) | 企业数据查询方法、装置、设备及存储介质 | |
CN110442614B (zh) | 元数据的搜索方法及装置、电子设备、存储介质 | |
CN110674383B (zh) | 舆情查询方法、装置及设备 | |
CN116597443A (zh) | 素材标签处理方法、装置、电子设备及介质 | |
CN110929526A (zh) | 样本生成方法、装置以及电子设备 | |
CN115544050A (zh) | 操作日志记录方法、装置、设备及存储介质 | |
CN115757054A (zh) | 一种日志记录方法、系统、计算机设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |