CN111950729A

CN111950729A - 一种知识库构建方法、装置、电子设备和可读存储装置

Info

Publication number: CN111950729A
Application number: CN202010695181.XA
Authority: CN
Inventors: 方航; 谢小容
Original assignee: China Construction Bank Corp; CCB Finetech Co Ltd
Current assignee: China Construction Bank Corp
Priority date: 2020-07-19
Filing date: 2020-07-19
Publication date: 2020-11-17

Abstract

本发明涉及数据处理技术领域，具体涉及一种知识库构建方法、装置、电子设备和可读存储介质。所述方法包括：获取所述目标领域第一知识库，并对所述第一知识库进行数据增强处理；其中所述第一知识库为根据所述目标领域内视频数据样本确定；所述数据增强处理包括采用词频‑逆文档频率算法；确定所述数据增强处理后的第一知识库为目标知识库。采用本申请提供的知识库构建方法通过对视频数据知识库进行的增强处理，避免视频训练数据的稀疏性，特别适合对例如教育等主要数据为视频资料的知识库的构建，从而建立以视频数据为主的目标领域的知识谱图，为下游利用知识谱图进行视频推荐提供了有效知识库。

Description

一种知识库构建方法、装置、电子设备和可读存储装置

技术领域

本发明涉及数据处理技术领域，尤其是涉及到一种知识库构建方法、装置、电子设备和可读存储装置。

背景技术

目前利用大数据云平台进行例如教育类视频推荐、用户画像等的需求日益增加，为此构建例如教育领域等特定领域的知识图谱并将此用于视频推荐等方面提升的需求就日益凸显。但是目前构建特定专业领域，尤其是教育金融等技术领域的难题是数据大平台上的视频数量较少，数据量太少会造成数据稀疏性问题，数据稀疏性问题造成缺乏足够的数据来构建适合训练的知识图谱是，这是目前特定专业领域推荐系统面临的主要问题。

发明内容

本申请的目的旨在至少能解决上述的技术缺陷之一。本申请所采用的技术方案如下：

第一方面，本申请实施例提供了一种知识库构建方法，该方法包括：

获取所述目标领域第一知识库，并对所述第一知识库进行数据增强处理；其中所述第一知识库为根据所述目标领域内视频数据样本确定；所述数据增强处理包括采用词频-逆文档频率算法；

确定所述数据增强处理后的第一知识库为目标知识库。

可选地，所述对第一知识库进行数据增强处理还包括：

对所述第一知识库的数据增强处理包括对知识库的知识点进行以下至少之一处理：同义词替换、随机插入、随机交换、随机删除。

可选地，所述对所述第一知识库进行词频-逆文档频率算法处理包括：

获取目标领域视频数据样本；

将所述视频数据样本中的语音进行提取形成语音样本；

将所述语音样本转化为文本样本；

采用所述词频逆文档频率算法获取所述文本样本的关键词；

从所述第二知识库中获取所述关键词的关联词样本；

将所述关键词的关联词样本扩充进所述第一知识库中。

可选地，所述方法还包括：

获取目标领域视频数据样本的主题和知识点；

构建所述主题与知识点的从属关系；

将所述主题与知识点的从属关系扩充进所述第一知识库样本。

可选地，所述第一知识库为根据所述目标领域内视频数据样本确定还包括：

根据所述目标领域的视频数据样本确定目标主题；

引入与所述目标主题关联的外部数据库为第一知识库。

可选地，所述知识库可用于构建目标领域知识图谱。

第二方面，本发明实施例提供了一种知识库构建装置，所述装置包括：获取模块、存储模块、处理模块，其中，

所述获取模块，用于获取所述目标领域第一知识库；

所述处理模块，用于对所述第一知识库进行数据增强处理；其中所述第一知识库为根据所述目标领域内视频数据样本确定；所述数据增强处理包括采用词频-逆文档频率算法；其中确定所述数据增强处理后的第一知识库为目标知识库；

所述存储模块，用于存储第一知识库和目标知识库。

可选地，所述获取模块，还用于获取目标领域视频数据样本；

所述处理模块，还用于将所述视频数据样本中的语音进行提取形成语音样本；还用于将所述语音样本转化为文本样本；

所述获取模块，还用于采用所述词频逆文档频率算法获取所述文本样本的关键词；从所述第二知识库中获取所述关键词的关联词样本；

所述处理模块，还用于将所述关键词的关联词样本扩充进所述第一知识库中。

第三方面，本发明实施例提供了一种电子设备，包括处理器和存储器；

所述存储器，用于存储操作指令；

所述处理器，用于通过调用所述操作指令，执行上述知识库构建方法。

第四方面，一种计算机可读存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述知识库构建的方法。

本申请实施例公开的技术方案带来的有益效果是：本申请提供的知识库构建方法包括：获取所述目标领域第一知识库，并对所述第一知识库进行数据增强处理；其中所述第一知识库为根据所述目标领域内视频数据样本确定；所述数据增强处理包括采用词频-逆文档频率算法；确定所述数据增强处理后的第一知识库为目标知识库。采用本申请提供的知识库构建方法通过对视频数据知识库进行的增强处理，避免视频训练数据的稀疏性，特别适合对例如教育等主要数据为视频资料的知识库的构建，从而建立以视频数据为主的目标领域的知识谱图，为下游利用知识谱图进行视频推荐提供了有效知识库。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的一种知识库构建方法的流程示意图；

图2为本申请实施例提供的一种知识库构建装置的结构示意图；

图3为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

目前随着短视频知识分享越来越短，教育行业和娱乐行业很多课程和音影都是采用在网络视频的方式进行，因此如何根据用户的需求进行视频的推荐就逐渐成了一个迫切的需求。基于知识图谱在知识全面性方面的优越性，当前视频推荐往往都趋向采用通过知识库构建知识图谱来进行。但是当前教育领域知识图谱数据来源主要是在公开数据集上进行所需领域知识的爬虫，虽然本体技术以被应用在许多领域，但是目前在教育行业，知识图谱的通用本体建设比较少，主要存在以下难点：(1)教育领域的具体专业下，由于课程的不同，其知识、知识体系结构与知识关系也不尽相同，知识概念在不同的课程中采样相同或相似的词汇表达，同样的概念在不同课程之间又可能表达的含义，从而使知识表达变得复杂。(2)不同课程在描述知识的深度与知识属性上有所不同，相同概念从不同属性上看其知识表示也存在很大不同。(3)教育领域涉及的范围广，涉及到多学科性问题，其个人不能完全掌握学科的概念体系，同时也由于个人的原因，其对于相关概念的理解、相关属性的定义、属性关系的表示等方面均有不同，这时还需要不同学科专业人士进行概念的审查工作，以保证本体知识结构的准确性。基于上述原因目前可用于构建教育领域的知识图谱可利用的现有视频样本数据比较少，如果只基于现有的数据量构建知识库从而构建知识图谱，会因此数据稀疏性问题，而造成很多视频资源无法进行分析推荐。

基于上述现有技术中目前视频推荐领域存在的问题，本申请提出一种知识库构建方法，以至少解决知识库训练数据稀疏性的问题。

为了便于理解，先必要性地对词频-逆文档频率算法进行介绍以方便理解本申请实施例所述的知识库构建方法，词频-逆文档频率也称TF-IDF(term frequency–inversedocument frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(TermFrequency)，IDF是逆文本频率指数(Inverse Document Frequency)。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF的主要思想是：如果某个单词在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

图1示出了本申请实施例提供的一种知识库构建方法的流程示意图，如图1所示，该方法主要可以包括：

S101、获取所述目标领域第一知识库，并对所述第一知识库进行数据增强处理；其中所述第一知识库为根据所述目标领域内视频数据样本确定；所述数据增强处理包括采用词频-逆文档频率算法；

S102、确定所述数据增强处理后的第一知识库为目标知识库。

在本申请实施例中，所述第一知识库为根据所述目标领域内视频数据样本确定具体为根据所述目标领域的视频数据样本确定目标主题；引入与所述目标主题关联的外部数据库为第一知识库。例如目标领域为教育技术领域—金融主题，那么将与金融有关的公共基础知识库引入确定为第一知识库。

在本申请实施例中所述对所述第一知识库进行词频-逆文档频率算法处理包括：

步骤1、获取目标领域视频数据样本；

步骤2、将所述视频数据样本中的语音进行提取形成语音样本；

步骤3、将所述语音样本转化为文本样本；可选地，此处可通过手工对转出的文本做校对，并手工标注主题视频样本的难易等级；

步骤4、采用所述词频逆文档频率算法获取所述文本样本的关键词；

步骤5、从所述第二知识库中获取所述关键词的关联词样本；其中所述第二知识库可以为与关键词相关的外部知识库，例如通过TF-IDF获取到文本样本的关键词为刑罚，将与刑罚知识点相关联的刑法主题的知识库中所有与刑罚相关的知识点集合确定为关联词样本，在下一个步骤中将此引入第一知识库。

步骤6、将所述关键词的关联词样本扩充进所述第一知识库中。

在可选实施中，所述对第一知识库进行数据增强处理还包括：

对所述第一知识库的数据增强处理包括对知识库的知识点进行以下至少之一处理：TF-IDF、同义词替换、随机插入、随机交换、随机删除。其中上述四种处理方式的原理分别为：

同义词替换(SR:Synonyms Replace)：不考虑停顿词(Stop words)，在句子中随机抽取n个词，然后从同义词词典中随机抽取同义词，并进行替换；

随机插入(RI:Randomly Insert)：不考虑停顿词(Stop words)，随机抽取一个词，然后在该词的同义词集合中随机选择一个，插入原句子中的随机位置。该过程可以重复n次；

随机交换(RS:Randomly Swap)：句子中，随机选择两个词，位置交换。

该过程可以重复n次；

随机删除(RD:Randomly Delete)：句子中的每个词，以概率p随机删除。

在可选实施例中，所述方法还包括：获取目标领域视频数据样本的主题和知识点样本；将所述获取的知识点和主题进行数据样本增强处理；增强处理后进行构建所述主题与知识点的从属关系；将所述主题与知识点的从属关系扩充进所述第一知识库样本。以教育领域为例，即智能的从平台已有课程与新增课程中抽取知识点，构建课程主题与知识点之间的关系从而构建知识与领域间的从属关系。

可选地，所述知识库可用于构建目标领域知识图谱。

基于图1所示的知识库构建方法，另一方面本申请实施例提供了一种知识库构建装置，如图2所示，所述装置包括：201获取模块、202存储模块、203处理模块，其中，

所述201获取模块，用于获取所述目标领域第一知识库；

所述202处理模块，用于对所述第一知识库进行数据增强处理；其中所述第一知识库为根据所述目标领域内视频数据样本确定；所述数据增强处理包括采用词频-逆文档频率算法；其中确定所述数据增强处理后的第一知识库为目标知识库；

所述203存储模块，用于存储第一知识库和目标知识库。

在可选实施例中，所述处理模块还用于，对所述第一知识库的数据增强处理包括对知识库的知识点进行以下至少之一处理：同义词替换、随机插入、随机交换、随机删除。

在可选实施例中，所述装置还包括构建模块，其中所述获取模块用于获取目标领域视频数据样本的主题和知识点；

所述构建模块，用于构建所述主题与知识点的从属关系；

所述处理模块，用于将所述主题与知识点的从属关系扩充进所述第一知识库样本。

在本申请可选实施例中，所述获取模块，还用于根据所述目标领域的视频数据样本确定目标主题；引入与所述目标主题关联的外部数据库为第一知识库。

在本申请可选实施例中，所述知识库可用于构建目标领域知识图谱。

可以理解的是，本实施例中的知识库构建装置的上述各模块具有实现图1中所示的实施例中的方法相应步骤的功能。该功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。上述模块可以是软件和/或硬件，上述各模块可以单独实现，也可以多个模块集成实现。对于上述各模块的功能描述具体可以参见图1中所示实施例中的方法的对应描述，在此不再赘述。

本申请实施例提供了一种电子设备，包括处理器和存储器；

存储器，用于存储操作指令；

处理器，用于通过调用操作指令，执行本申请任一实施方式中所提供的知识库构建方法。

作为一个示例，图3示出了本申请实施例所适用的一种电子设备的结构示意图，如图3所示，该电子设备2000包括：处理器2001和存储器2003。其中，处理器2001和存储器2003相连，如通过总线2002相连。可选的，电子设备2000还可以包括收发器2004。需要说明的是，实际应用中收发器2004不限于一个，该电子设备2000的结构并不构成对本申请实施例的限定。

其中，处理器2001应用于本申请实施例中，用于实现上述方法实施例所示的方法。收发器2004可以包括接收机和发射机，收发器2004应用于本申请实施例中，用于执行时实现本申请实施例的电子设备与其他设备通信的功能。

处理器2001可以是CPU(Central Processing Unit，中央处理器)，通用处理器，DSP(Digital Signal Processor，数据信号处理器)，ASIC(Application SpecificIntegrated Circuit，专用集成电路)，FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器2001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线2002可包括一通路，在上述组件之间传送信息。总线2002可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。总线2002可以分为地址总线、数据总线、控制总线等。为便于表示，图3中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器2003可以是ROM(Read Only Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，RAM(Random Access Memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

可选的，存储器2003用于存储执行本申请方案的应用程序代码，并由处理器2001来控制执行。处理器2001用于执行存储器2003中存储的应用程序代码，以实现本申请任一实施方式中所提供的知识库构建方法。

本申请实施例提供的电子设备，适用于上述方法任一实施例，在此不再赘述。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现上述方法实施例所示的知识库构建方法。

本申请实施例提供的计算机可读存储介质，适用于上述方法任一实施例，在此不再赘述。

本申请提供的知识库构建方法包括：获取所述目标领域第一知识库，并对所述第一知识库进行数据增强处理；其中所述第一知识库为根据所述目标领域内视频数据样本确定；所述数据增强处理包括采用词频-逆文档频率算法；确定所述数据增强处理后的第一知识库为目标知识库。采用本申请提供的知识库构建方法通过对视频数据知识库进行的增强处理，避免视频训练数据的稀疏性，特别适合对例如教育等主要数据为视频资料的知识库的构建，从而建立以视频数据为主的目标领域的知识谱图，为下游利用知识谱图进行视频推荐提供了有效知识库。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上仅是本发明的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种知识库构建方法，其特征在于，所述方法包括：

确定所述数据增强处理后的第一知识库为目标知识库。

2.根据权利要求1所述的知识库构建方法，其特征在于，所述对第一知识库进行数据增强处理还包括：

3.根据权利要求2所述的知识库构建方法，其特征在于，所述对所述第一知识库进行词频-逆文档频率算法处理包括：

获取目标领域视频数据样本；

将所述视频数据样本中的语音进行提取形成语音样本；

将所述语音样本转化为文本样本；

采用所述词频逆文档频率算法获取所述文本样本的关键词；

从所述第二知识库中获取所述关键词的关联词样本；

将所述关键词的关联词样本扩充进所述第一知识库中。

4.根据权利要求3所述的知识库构建方法，其特征在于，所述方法还包括：

获取目标领域视频数据样本的主题和知识点；

构建所述主题与知识点的从属关系；

5.根据权利要求1-4任一项所述的知识库构建方法，其特征在于，所述第一知识库为根据所述目标领域内视频数据样本确定还包括：

根据所述目标领域的视频数据样本确定目标主题；

引入与所述目标主题关联的外部数据库为第一知识库。

6.根据权利要求5所述的知识库构建方法，其特征在于，所述知识库可用于构建目标领域知识图谱。

7.一种知识库构建装置，其特征在于，所述装置包括：获取模块、存储模块、处理模块，其中，

所述获取模块，用于获取所述目标领域第一知识库；

所述存储模块，用于存储第一知识库和目标知识库。

8.根据权利要求7所述的知识库构建装置，其特征在于，其中，

所述获取模块，还用于获取目标领域视频数据样本；

9.一种电子设备，其特征在于，包括处理器和存储器；

所述存储器，用于存储操作指令；

所述处理器，用于通过调用所述操作指令，执行权利要求1-6中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-6中任一项所述的方法。