CN112612866A - 知识库文本同步方法、装置、电子设备及存储介质 - Google Patents

知识库文本同步方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112612866A
CN112612866A CN202011594478.3A CN202011594478A CN112612866A CN 112612866 A CN112612866 A CN 112612866A CN 202011594478 A CN202011594478 A CN 202011594478A CN 112612866 A CN112612866 A CN 112612866A
Authority
CN
China
Prior art keywords
data
knowledge base
text
synchronized
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011594478.3A
Other languages
English (en)
Other versions
CN112612866B (zh
Inventor
黄亚文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN202011594478.3A priority Critical patent/CN112612866B/zh
Publication of CN112612866A publication Critical patent/CN112612866A/zh
Application granted granted Critical
Publication of CN112612866B publication Critical patent/CN112612866B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/027Frames

Abstract

本申请涉及一种知识库文本同步方法、装置、电子设备及存储介质。应用于数据处理技术领域,其中知识库文本同步方法包括:在同步任务被触发后,获取目标数据源中的待同步知识库文本;对待同步知识库文本进行文本分割,得到章节数据;以及,提取待同步知识库文本中的格式数据,将待同步知识库文本中,格式数据与知识库的预设格式数据匹配的文本数据,配置为标准问题数据和富文本问题数据,将标准问题数据和富文本问题数据作为问题数据;将章节数据和问题数据存储至智能问答系统的知识库,以使智能问答系统根据知识库中数据进行知识匹配。

Description

知识库文本同步方法、装置、电子设备及存储介质
技术领域
本申请涉及数据处理技术领域,尤其涉及一种知识库文本同步方法、装置、电子设备及存储介质。
背景技术
随着计算机技术的发展,智能技术往往能在很多领域代替人们完成重复的工作,其中一个应用较广泛的就是智能问答系统,比如电商领域的客服系统。用户的问题和提问形式可能多种多样,有的智能问答系统,还需要能回答特定专业领域的问题,为了能满足这样的需求,智能问答系统需要从现实中获取知识,将知识存储于知识库中。
相关技术中,在对知识库数据进行同步时,一般是人工导入、人工收集、标注、整理的方法,费时费力,并且往往需要人工同时维护多份数据的一致性,效率低下且容易出错。
发明内容
本申请提供了一种知识库文本同步方法、装置、电子设备及存储介质,用以解决相关技术中,在对知识库数据进行同步时,效率低下的问题。
第一方面,本申请提供了一种知识库文本同步方法,包括:
在同步任务被触发后,获取目标数据源中的待同步知识库文本;
对所述待同步知识库文本进行文本分割,得到章节数据;以及,提取所述待同步知识库文本中的格式数据,将所述待同步知识库文本中,所述格式数据与知识库的预设格式数据匹配的文本数据,配置为标准问题数据和富文本问题数据,将所述标准问题数据和富文本问题数据作为问题数据;
将所述章节数据和所述问题数据存储至智能问答系统的知识库,以使所述智能问答系统根据所述知识库中数据进行知识匹配。
可选的,所述将所述待同步知识库文本中,所述格式数据与知识库的预设格式数据匹配的文本数据,配置为标准问题数据和富文本问题数据,将所述标准问题数据和富文本问题数据作为问题数据之后,还包括:
提取所述问题数据对应的格式数据中的标签信息;
将所述标签信息存储至所述知识库中。
可选的,所述对所述待同步知识库文本进行文本分割,得到章节数据;以及,提取所述待同步知识库文本中的格式数据,将所述待同步知识库文本中,所述格式数据与知识库的预设格式数据匹配的文本数据,配置为标准问题数据和富文本问题数据,将所述标准问题数据和富文本问题数据作为问题数据之后,还包括:
对所述章节数据和所述问题数据进行中文分词,得到分词结果;
根据所述分词结果计算各所述标签信息的权重,将所述标签信息的权重存储在所述知识库中,以使所述知识库基于所述权重进行知识匹配。
可选的,所述在同步任务被触发后,获取目标数据源中的待同步知识库文本之前,还包括:
获取预设的配置参数,所述配置参数包括数据源地址、数据在所述知识库中的分类、数据源中待同步知识库文本的获取路径中的至少一个;
根据预设的配置参数确定所述目标数据源。
可选的,所述获取目标数据源中的待同步知识库文本,包括:
根据预设的配置参数与所述目标数据源建立连接;
拉取所述目标数据源中的数据全量,将所述数据全量作为所述待同步知识库文本。
可选的,所述获取目标数据源中的待同步知识库文本,包括:
基于所述知识库预先设置在所述目标数据源中的监听程序,获取所述目标数据源中的数据增量,将所述数据增量作为所述待同步知识库文本。
可选的,所述获取目标数据源中的待同步知识库文本之前,还包括:
根据预设的触发条件,检测是否接收到触发信号,所述触发条件包括定时触发或外部触发;
若接收到触发信号,确定所述同步任务被触发。
第二方面,本申请提供了一种知识库文本同步装置,包括:
获取模块,用于在同步任务被触发后,获取目标数据源中的待同步知识库文本;
解析模块,用于对所述待同步知识库文本进行文本分割,得到章节数据;以及,提取所述待同步知识库文本中的格式数据,将所述待同步知识库文本中,所述格式数据与知识库的预设格式数据匹配的文本数据,配置为标准问题数据和富文本问题数据,将所述标准问题数据和富文本问题数据作为问题数据;
同步模块,用于将所述章节数据和所述问题数据存储至智能问答系统的知识库,以使所述智能问答系统根据所述知识库中数据进行知识匹配。
第三方面,本申请提供了一种电子设备,包括:处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;所述存储器,用于存储计算机程序;所述处理器,用于执行所述存储器中所存储的程序,实现第一方面所述的知识库文本同步方法。
第四方面,本申请提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的知识库文本同步方法。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:本申请实施例提供的该方法,在同步任务被触发后,获取目标数据源中的待同步知识库文本;对待同步知识库文本进行文本分割,得到章节数据;以及,提取待同步知识库文本中的格式数据,将待同步知识库文本中,格式数据与知识库的预设格式数据匹配的文本数据,配置为标准问题数据和富文本问题数据,将标准问题数据和富文本问题数据作为问题数据;将章节数据和问题数据存储至智能问答系统的知识库,以使智能问答系统根据知识库中数据进行知识匹配。如此,不需要人工收集和导入,直接从目标数据源中获取待同步知识库文本,也不需要人为的对数据进行拆解和整理,直接对待同步知识库文本解析,便可以得到章节数据和问题数据,进而将其同步到智能问答系统的知识库中,不仅保证了数据的一致性,而且提高了数据同步的效率和准确度。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1为本申请实施例中智能问答系统的结构示意图;
图2为本申请一实施例中知识库文本同步方法的具体过程示意图;
图3为本申请实施例中知识库文本同步装置结构示意图;
图4为本申请实施例中电子设备结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
本申请的知识库文本同步方法具体可以应用在智能问答系统中,如图1所示,智能问答系统包括中间数据库101、数据同步引擎102和知识库103,其中,中间数据库用于在同步任务被触发后,存储从目标数据源中获取的待同步知识库文本,数据同步引擎用于对解析待同步知识库文本,得到章节数据和问题数据,知识库用于同步章节数据和问题数据。
本申请实施例提供了一种知识库文本同步方法,该方法可以应用于任意一种形式的电子设备中,如APP的服务器中。如图2所示,该知识库文本同步方法,包括:
步骤201、在同步任务被触发后,获取目标数据源中的待同步知识库文本。
一些实施例中,目标数据源可以通过预设的配置参数确定。预设的配置参数包括但不限于数据源地址、数据在知识库中的分类、数据源中待同步知识库文本的获取路径。
获取目标数据源中的待同步知识库文本的方式有多种,以以下两种方式进行举例说明。
第一种,包括:
根据预设的配置参数与目标数据源建立连接;拉取目标数据源中的数据全量,将数据全量作为待同步知识库文本。
一些实施例中,在同步任务被触发后,便可以根据预设的配置参数中的数据源地址,确定目标数据源,并与其建立连接。目标数据源中会根据预设的配置参数中的待同步知识库文本的获取路径,确定目标数据源中需要拉取的数据,通常,将获取路径中的数据全量作为待同步知识库文本。
可以理解的是,若拉取的数据为目标数据源中的数据全量,在对该数据全量进行解析后,需要将解析后的数据与知识库中已存储的数据进行比对,将未在知识库中存储的解析后的数据存储到知识库中。
第二种,包括:
基于知识库预先设置在目标数据源中的监听程序,获取目标数据源中的数据增量,将数据增量作为待同步知识库文本。
一些实施例中,还可以将智能问答系统提供的监听程序,加入到数据源中,将其作为目标数据源,通过监听程序监听目标数据源中的数据变化,若发生变化,可以将目标数据源中的数据增量作为待同步知识库文本。其中,监听程序可以为代理插件。
在另一些实施例中,步骤201之前,还可以包括:
根据预设的触发条件,检测是否接收到触发信号,触发条件包括定时触发或外部触发;若接收到触发信号,确定同步任务被触发。
其中,确定同步任务被触发的方式有多种,可以通过预设触发条件,根据触发条件检测是否接收到触发信号,在接收到触发信后,便可以确定同步任务被触发。其中,触发条件可以为定时触发或外部触发。定时触发的时间可以根据实际情况进行设置,此处不做限定。外部触发可以为增量触发,在目标数据源中新增数据后,便进行触发。
在另一些实施例中,步骤201之前,还可以包括:
获取预设的配置参数,根据预设的配置参数确定目标数据源。
其中,预设的配置参数可以根据实际情况进行设置,以GitBook为例,配置参数包括Git项目地址、在知识库中的分类、Git项目名称和需要解析的文档路径。
步骤202、对待同步知识库文本进行文本分割,得到章节数据;以及,提取待同步知识库文本中的格式数据,将待同步知识库文本中,格式数据与知识库的预设格式数据匹配的文本数据,配置为标准问题数据和富文本问题数据,将标准问题数据和富文本问题数据作为问题数据。
一些实施例中,在获取了待同步知识库文本后,智能问答系统中的数据同步引擎便可以根据待同步知识库文本的格式,进行解析。其中,对待同步知识库文本的解析包括两个方面,章节数据和问题数据采用不同的解析方式得到。
进一步的,根据待同步知识库文本得到章节数据的方式有多种,例如,可以对待同步知识库文本进行文本分割,得到章节数据。
一些实施例中,对待同步知识库文本进行文本分割的方式有多种,例如,可以通过识别待同步知识库文本中的标题,将本级标题与其下一级同级标题之前的数据,作为一个章节数据;或者根据自然段落,将待同步知识库文本中的文本拆分为章节数据。
进一步的,根据待同步知识库文本得到问题数据的方式有多种,例如,可以提取待同步知识库文本中的格式数据;判断格式数据的格式与知识库的预设数据格式是否一致;若是,将待同步知识库文本中,与格式数据对应的文本数据作为问题数据。
一些实施例中,格式数据的格式为待同步知识库文本在获取之前,根据预设数据格式配置的。在数据同步引擎对待同步知识库文本进行解析时,先在待同步知识库文本中查找并提取格式数据,然后,将格式数据的格式与预设格式进行比较,判断二者是否一致,若一致,则确定待同步知识库文本中,与格式数据对应的文本数据为问题数据。
具体的,提取待同步知识库文本中的格式数据具体包括,在待同步知识库文本中查询第一符号,若第一符号后为第二符号则认为从第一符号开始到第二符号结束中间的数据为格式数据,若第二符号内包括至少一个词汇,则将各词汇标识为标签,各标签之间以第三符号间隔。其中,第一符号可以为中括号“【】”,第二符号可以为小括号“()”,第三符号可以为逗号“,”;例如,格式数据的格式可以但不限于为“【】(标签1、标签2....标签N)”,其中,N为大于或等于1的正整数,标签表示问题数据的关键字。
进一步的,为了使知识库的更加准确,本实施例中,还会对问题数据进行区分。在确定问题数据后,还会进一步判断,在该问题数据后的文本中是否存在图像数据,若存在,将该问题数据确定为富文本问题数据,若不存在,将该问题数据确定为标准问题数据。其中,问题数据后的文本可以为该问题数据后的第一个至第M个自然段,M大于或等于1,或者问题数据后的文本为本问题数据到下一问题数据之间的文本。
进一步的,将待同步知识库文本中,格式数据与知识库的预设格式数据匹配的文本数据,配置为标准问题数据和富文本问题数据,将标准问题数据和富文本问题数据作为问题数据之后,还包括:
提取问题数据对应的格式数据中的标签信息;将标签信息存储至知识库中。
基于上述相关实施例,在格式数据中包括有符号和标签,其中,标签即为问题数据的关键字,因此,通过提取格式数据中的标签信息,将其存储至知识库中,以使知识库在知识匹配时,更加准确。
更进一步的,对待同步知识库文本进行文本分割,得到章节数据;以及,提取待同步知识库文本中的格式数据,将待同步知识库文本中,格式数据与知识库的预设格式数据匹配的文本数据,配置为标准问题数据和富文本问题数据,将标准问题数据和富文本问题数据作为问题数据之后,还包括:
对章节数据和问题数据进行中文分词,得到分词结果;据分词结果计算各标签信息的权重,将标签信息的权重存储在知识库中,以使知识库基于权重进行知识匹配。
一些实施例中,为了使知识库在进行知识匹配时,匹配结果更加准确,先对章节数据和问题数据进行中文分词,根据分词结果基于TF-IDF(term frequency–inversedocument frequency,信息检索数据挖掘的常用加权技术)算法计算标签信息的权重,并将标签信息的权重也对应存储在知识库中,从而使知识库进一步根据标签信息的权重进行知识匹配。
步骤203、将章节数据和问题数据存储至智能问答系统的知识库,以使智能问答系统根据知识库中数据进行知识匹配。
一些实施例中,在对待同步知识库文本进行解析后,将得到的章节数据和问题数据存储在智能问答系统的知识库中,如此,不需要人工收集和导入,直接从目标数据源中获取待同步知识库文本,也不需要人为的对数据进行拆解和整理,直接对待同步知识库文本解析,便可以得到章节数据和问题数据,进而将其同步到智能问答系统的知识库中,不仅保证了数据的一致性,而且提高了数据同步的效率和准确度。
其中,智能问答系统可以但不限于为智能客服系统。
本申请的知识库文本同步方法,通过定时触发或外部触发两种方式,能够建立多种数据源与智能问答系统知识库的数据同步机制,将获取的待同步知识库文本同步时,对待同步知识库文本进行同步解析,将解析得到的问题数据和章节数据录入知识库。本申请的知识库文本同步方法兼顾了增量数据同步和全量数据同步,在数据同步的时效性和完整性上达到较好的平衡。在数据同步的同时,自动化的实现了待同步知识库文本的解析和入库。将信息检索技术与数据同步技术结合,极大减少了运维人员的工作量。另外,本申请通过简单配置后,只需要维护一份数据,如系统的使用手册,而不需要在智能问答系统上再次导入,即可通过智能客服进行知识问答查询,极大减少了开发运维压力。
图2为一个实施例提供的知识库文本同步方法的流程示意图。应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
基于同一构思,本申请实施例中提供了一种知识库文本同步装置,该装置的具体实施可参见方法实施例部分的描述,重复之处不再赘述。如图3所示,该装置主要包括:
获取模块301,用于在同步任务被触发后,获取目标数据源中的待同步知识库文本;
解析模块302,用于对待同步知识库文本进行文本分割,得到章节数据;以及,提取待同步知识库文本中的格式数据,将待同步知识库文本中,格式数据与知识库的预设格式数据匹配的文本数据,配置为标准问题数据和富文本问题数据,将标准问题数据和富文本问题数据作为问题数据;
同步模块303,用于将章节数据和问题数据存储至智能问答系统的知识库,以使智能问答系统根据知识库中数据进行知识匹配。
基于同一构思,本申请实施例中还提供了一种电子设备,如图4所示,该电子设备主要包括:处理器401、通信接口402、存储器403和通信总线404,其中,处理器401、通信接口402和存储器403通过通信总线404完成相互间的通信。其中,存储器403中存储有可被至处理器401执行的程序,处理器401执行存储器403中存储的程序,实现如下步骤:
在同步任务被触发后,获取目标数据源中的待同步知识库文本;
对待同步知识库文本进行文本分割,得到章节数据;以及,提取待同步知识库文本中的格式数据,将待同步知识库文本中,格式数据与知识库的预设格式数据匹配的文本数据,配置为标准问题数据和富文本问题数据,将标准问题数据和富文本问题数据作为问题数据;
将章节数据和问题数据存储至智能问答系统的知识库,以使智能问答系统根据知识库中数据进行知识匹配。
上述电子设备中提到的通信总线404可以时外设部件互连标准(PeripheralComponent Interconnect,简称PCI)总线或扩展工业标准结构(Extended IndustryStandard Architecture,简称EISA)总线等。该通信总线404可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口402用于上述电子设备与其他设备之间的通信。
存储器403可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器401的存储装置。
上述的处理器401可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、网络处理器(Network Processor,简称NP)等,还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本申请的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,当该计算机程序在计算机上运行时,使得计算机执行上述实施例中所描述的知识库文本同步方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机指令时,全部或部分地产生按照本申请实施例所述的流程或功能。该计算机可以时通用计算机、专用计算机、计算机网络或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,计算机指令从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、微波等)方式向另外一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如软盘、硬盘、磁带等)、光介质(例如DVD)或者半导体介质(例如固态硬盘)等。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种知识库文本同步方法,其特征在于,应用于智能问答场景,包括:
在同步任务被触发后,获取目标数据源中的待同步知识库文本;
对所述待同步知识库文本进行文本分割,得到章节数据;以及,提取所述待同步知识库文本中的格式数据,将所述待同步知识库文本中,所述格式数据与知识库的预设格式数据匹配的文本数据,配置为标准问题数据和富文本问题数据,将所述标准问题数据和富文本问题数据作为问题数据;
将所述章节数据和所述问题数据存储至智能问答系统的知识库,以使所述智能问答系统根据所述知识库中数据进行知识匹配。
2.根据权利要求1所述的知识库文本同步方法,其特征在于,所述将所述待同步知识库文本中,所述格式数据与知识库的预设格式数据匹配的文本数据,配置为标准问题数据和富文本问题数据,将所述标准问题数据和富文本问题数据作为问题数据之后,还包括:
提取所述问题数据对应的格式数据中的标签信息;
将所述标签信息存储至所述知识库中。
3.根据权利要求1或2所述的知识库文本同步方法,其特征在于,所述对所述待同步知识库文本进行文本分割,得到章节数据;以及,提取所述待同步知识库文本中的格式数据,将所述待同步知识库文本中,所述格式数据与知识库的预设格式数据匹配的文本数据,配置为标准问题数据和富文本问题数据,将所述标准问题数据和富文本问题数据作为问题数据之后,还包括:
对所述章节数据和所述问题数据进行中文分词,得到分词结果;
根据所述分词结果计算各所述标签信息的权重,将所述标签信息的权重存储在所述知识库中,以使所述知识库基于所述权重进行知识匹配。
4.根据权利要求1所述的知识库文本同步方法,其特征在于,所述在同步任务被触发后,获取目标数据源中的待同步知识库文本之前,还包括:
获取预设的配置参数,所述配置参数包括数据源地址、数据在所述知识库中的分类、数据源中待同步知识库文本的获取路径中的至少一个;
根据预设的配置参数确定所述目标数据源。
5.根据权利要求1或4所述的知识库文本同步方法,其特征在于,所述获取目标数据源中的待同步知识库文本,包括:
根据预设的配置参数与所述目标数据源建立连接;
拉取所述目标数据源中的数据全量,将所述数据全量作为所述待同步知识库文本。
6.根据权利要求1或4所述的知识库文本同步方法,其特征在于,所述获取目标数据源中的待同步知识库文本,包括:
基于所述知识库预先设置在所述目标数据源中的监听程序,获取所述目标数据源中的数据增量,将所述数据增量作为所述待同步知识库文本。
7.根据权利要求1所述的知识库文本同步方法,其特征在于,所述获取目标数据源中的待同步知识库文本之前,还包括:
根据预设的触发条件,检测是否接收到触发信号,所述触发条件包括定时触发或外部触发;
若接收到触发信号,确定所述同步任务被触发。
8.一种知识库文本同步装置,其特征在于,包括:
获取模块,用于在同步任务被触发后,获取目标数据源中的待同步知识库文本;
解析模块,用于对所述待同步知识库文本进行文本分割,得到章节数据;以及,提取所述待同步知识库文本中的格式数据,将所述待同步知识库文本中,所述格式数据与知识库的预设格式数据匹配的文本数据,配置为标准问题数据和富文本问题数据,将所述标准问题数据和富文本问题数据作为问题数据;
同步模块,用于将所述章节数据和所述问题数据存储至智能问答系统的知识库,以使所述智能问答系统根据所述知识库中数据进行知识匹配。
9.一种电子设备,其特征在于,包括:处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述存储器中所存储的程序,实现权利要求1-7任一项所述的知识库文本同步方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任一项所述的知识库文本同步方法。
CN202011594478.3A 2020-12-29 2020-12-29 知识库文本同步方法、装置、电子设备及存储介质 Active CN112612866B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011594478.3A CN112612866B (zh) 2020-12-29 2020-12-29 知识库文本同步方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011594478.3A CN112612866B (zh) 2020-12-29 2020-12-29 知识库文本同步方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112612866A true CN112612866A (zh) 2021-04-06
CN112612866B CN112612866B (zh) 2023-07-21

Family

ID=75249007

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011594478.3A Active CN112612866B (zh) 2020-12-29 2020-12-29 知识库文本同步方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112612866B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113704401A (zh) * 2021-08-17 2021-11-26 远光软件股份有限公司 合同文本的关键信息抽取方法、装置、存储介质及终端设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105051761A (zh) * 2013-03-15 2015-11-11 谷歌公司 用于扩增知识库的问题回答
CN106649394A (zh) * 2015-11-03 2017-05-10 中兴通讯股份有限公司 融合知识库处理方法和装置,以及知识库管理系统
US20170372190A1 (en) * 2016-06-28 2017-12-28 International Business Machines Corporation LAT Based Answer Generation Using Anchor Entities and Proximity
US20180300649A1 (en) * 2016-01-26 2018-10-18 Saltlux Inc. System and method for verifying and correcting knowledge base
CN109858626A (zh) * 2019-01-23 2019-06-07 三角兽(北京)科技有限公司 一种知识库构建方法及装置
US20190213484A1 (en) * 2018-01-11 2019-07-11 Microsoft Technology Licensing, Llc Knowledge base construction
WO2019165456A1 (en) * 2018-02-26 2019-08-29 Fractal Industries, Inc. Automated scalable contextual data collection and extraction system
WO2020004136A1 (ja) * 2018-06-27 2020-01-02 国立研究開発法人情報通信研究機構 質問応答装置及びコンピュータプログラム
CN110727780A (zh) * 2019-10-17 2020-01-24 福建天晴数码有限公司 一种相识文本自动扩展的系统及其方法
CN110990627A (zh) * 2019-12-05 2020-04-10 北京奇艺世纪科技有限公司 一种知识图谱构建的方法、装置、电子设备及介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105051761A (zh) * 2013-03-15 2015-11-11 谷歌公司 用于扩增知识库的问题回答
CN106649394A (zh) * 2015-11-03 2017-05-10 中兴通讯股份有限公司 融合知识库处理方法和装置,以及知识库管理系统
US20180300649A1 (en) * 2016-01-26 2018-10-18 Saltlux Inc. System and method for verifying and correcting knowledge base
US20170372190A1 (en) * 2016-06-28 2017-12-28 International Business Machines Corporation LAT Based Answer Generation Using Anchor Entities and Proximity
US20190213484A1 (en) * 2018-01-11 2019-07-11 Microsoft Technology Licensing, Llc Knowledge base construction
WO2019165456A1 (en) * 2018-02-26 2019-08-29 Fractal Industries, Inc. Automated scalable contextual data collection and extraction system
WO2020004136A1 (ja) * 2018-06-27 2020-01-02 国立研究開発法人情報通信研究機構 質問応答装置及びコンピュータプログラム
CN109858626A (zh) * 2019-01-23 2019-06-07 三角兽(北京)科技有限公司 一种知识库构建方法及装置
CN110727780A (zh) * 2019-10-17 2020-01-24 福建天晴数码有限公司 一种相识文本自动扩展的系统及其方法
CN110990627A (zh) * 2019-12-05 2020-04-10 北京奇艺世纪科技有限公司 一种知识图谱构建的方法、装置、电子设备及介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113704401A (zh) * 2021-08-17 2021-11-26 远光软件股份有限公司 合同文本的关键信息抽取方法、装置、存储介质及终端设备

Also Published As

Publication number Publication date
CN112612866B (zh) 2023-07-21

Similar Documents

Publication Publication Date Title
US10318360B2 (en) Registry for app features referenced pointers and pointer definitions
US8756593B2 (en) Map generator for representing interrelationships between app features forged by dynamic pointers
US8589876B1 (en) Detection of central-registry events influencing dynamic pointers and app feature dependencies
US20190243848A1 (en) Generating a structured document guiding view
US11403303B2 (en) Method and device for generating ranking model
CN108711443B (zh) 电子病历的文本数据解析方法和装置
CN107133165B (zh) 浏览器兼容性检测方法及装置
CN106919711B (zh) 基于人工智能的标注信息的方法和装置
CN110597651A (zh) 业务异常排查方法、装置、设备及计算机可读存储介质
US20100095157A1 (en) Problem analysis via matching contiguous stack trace lines to symptom rules
CN106886594B (zh) 用于展示信息的方法和装置
CN110737824B (zh) 内容查询方法和装置
WO2017107679A1 (zh) 一种历史信息展示方法及装置
CN103020225A (zh) 一种cpu型号识别方法和硬件检测系统
CN111723235A (zh) 音乐内容识别方法、装置及设备
CN112612866A (zh) 知识库文本同步方法、装置、电子设备及存储介质
CN107908724B (zh) 一种数据模型匹配方法、装置、设备及存储介质
CN112988776B (zh) 文本解析规则的更新方法、装置、设备及可读存储介质
US10803861B2 (en) Method and apparatus for identifying information
CN109214846B (zh) 信息存储方法和装置
US9684691B1 (en) System and method to facilitate the association of structured content in a structured document with unstructured content in an unstructured document
CN111221894B (zh) 基于配置的时序数据库存储方法、装置及服务器
CN111209075B (zh) 多语言界面维护方法、系统、存储介质和智能设备
CN103034719A (zh) Cpu型号识别方法、设备及硬件检测系统
CN114169318A (zh) 进程识别方法、装置、设备、介质和程序

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant