CN111325033A

CN111325033A - 实体识别方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN111325033A
Application number: CN202010203768.4A
Authority: CN
Inventors: 熊威; 冯晓峰; 王思梦; 秦瑞雄; 吴想想; 杜嘉; 赵金鑫; 胡智; 王博; 马晓恒; 柏露; 董华强; 花薇薇; 干紫乔
Original assignee: China Construction Bank Corp; CCB Finetech Co Ltd
Current assignee: China Construction Bank Corp
Priority date: 2020-03-20
Filing date: 2020-03-20
Publication date: 2020-06-23
Anticipated expiration: 2040-03-20
Also published as: CN111325033B

Abstract

本申请提供了一种实体识别方法、装置、电子设备及计算机可读存储介质，应用于计算机技术领域，其中该方法包括：通过无监督的方式实现了实体的识别，不需要大量人工标注的样本数据；此外，先通过实体确定算法从待识别文本中确定至少一个第一分词作为第一实体，然后基于多个第一分词，以及基于第一实体与预设的词库中的第二分词的相似度计算结果确定的至少一个目标第二分词确定第二实体，最后基于第一实体与第二实体确定目标实体，实现了目标实体的扩展。

Description

实体识别方法、装置、电子设备及计算机可读存储介质

技术领域

本申请涉及计算机技术领域，具体而言，本申请涉及一种实体识别方法、装置、电子设备及计算机可读存储介质。

背景技术

知识图谱的主要目标是用来描述真实世界中存在的各种实体和概念，以及他们之间的强关系。银行等机构或公司存储着大量的数据，数据包括文本类数据和视频类数据。这些特定业务的数据中蕴含着有价值的信息，如可以从文章和视频中抽取基于其特定业务实体并获取实体的关系是怎么样的，从而构建出一套完整知识点关系图谱也就是知识图谱。其中，实体识别作为知识图谱构建的重要环节，如何实现实体的识别成为了一个问题。

发明内容

本申请提供了一种实体识别方法、装置、电子设备及计算机可读存储介质，用于提升实体识别的准确性、可靠性，本申请采用的技术方案如下：

第一方面，提供了一种实体识别方法，该方法包括，

对待识别目标文本进行分词处理，得到多个第一分词；

基于多个第一分词通过词嵌入方法得到各个第一分词的分词向量；

基于各个第一分词的分词向量通过实体确定算法确定至少一个第一分词作为第一实体；

分别计算各个第一实体与预设的词库中的第二分词的相似度，基于相似度计算结果从预设的词库中确定至少一个目标第二分词；

基于多个第一分词与确定的至少一个目标第二分词确定第二实体；基于第一实体与第二实体确定目标实体。

可选地，待识别目标文本的来源包括元文本文件、视频转化文本。

可选地，视频转化文本的取得方式包括：

提取目标视频的音频信息；

基于目标视频的音频信息进行语音识别，得到目标视频的视频转化文本。

可选地，该方法还包括：

建立目标实体与元文本文件和/或视频转化文本对应的视频的映射关系；

基于目标实体与元文本文件和/或视频，以及目标实体与元文本文件和/或视频的映射关系构建目标知识图谱。

可选地，该方法还包括：

接收用户的文本和/或视频的查询请求，查询请求包括查询实体；

基于查询实体与目标知识图谱确定查询结果并反馈至用户。

第二方面，提供了一种实体识别装置，该装置包括，

第一分词处理模块，用于对待识别目标文本进行分词处理，得到多个第一分词；

词嵌入模块，用于基于所述多个第一分词通过词嵌入方法得到各个所述第一分词的分词向量；

第一确定模块，用于基于各个所述第一分词的分词向量通过实体确定算法确定至少一个所述第一分词作为第一实体；

计算模块，用于分别计算各个所述第一实体与预设的词库中的第二分词的相似度，基于相似度计算结果从所述预设的词库中确定至少一个目标第二分词

第二确定模块，用于基于所述多个第一分词与确定的至少一个目标第二分词确定第二实体；

第三确定模块，用于基于所述第一实体与所述第二实体确定目标实体。

可选地，该装置还包括：

提取模块，用于提取目标视频的音频信息；

语音识别模块，用于基于目标视频的音频信息进行语音识别，得到目标视频的视频转化文本。

可选地，该装置还包括：

接收模块，用于接收用户的文本和/或视频的查询请求，查询请求包括查询实体；

反馈模块，用于基于查询实体与目标知识图谱确定查询结果并反馈至用户。

第三方面，提供了一种电子设备，该电子设备包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行，一个或多个程序配置用于：执行第一方面所示的实体识别方法。

第四方面，提供了一种计算机可读存储介质，计算机存储介质用于存储计算机指令，当其在计算机上运行时，使得计算机可以执行第一方面所示的实体识别方法。

本申请提供了一种实体识别方法、装置、电子设备及计算机可读存储介质，本申请通过对待识别目标文本进行分词处理，得到多个第一分词；基于所述多个第一分词通过词嵌入方法得到各个所述第一分词的分词向量；基于各个所述第一分词的分词向量通过实体确定算法确定至少一个所述第一分词作为第一实体；分别计算各个所述第一实体与预设的词库中的第二分词的相似度，基于相似度计算结果从所述预设的词库中确定至少一个目标第二分词；基于所述多个第一分词与确定的至少一个目标第二分词确定第二实体；基于所述第一实体与所述第二实体确定目标实体。即通过无监督的方式实现了实体的识别，不需要大量人工标注的样本数据；此外，先通过实体确定算法确定至少一个第一分词作为第一实体，然后基于所述多个第一分词，以及基于第一实体与预设的词库中的第二分词的相似度计算结果确定的至少一个目标第二分词确定第二实体，最后基于第一实体与第二实体确定目标实体，实现了目标实体的扩展。

本申请附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请实施例的一种实体识别方法的流程示意图；

图2为本申请实施例的一种实体识别装置的结构示意图；

图3为本申请实施例的另一种实体识别装置的结构示意图；

图4为本申请实施例的一种电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，各实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本申请的实施例进行描述。

本申请实施例提供了一种实体识别方法，如图1所示，该方法可以包括以下步骤：

步骤S101，对待识别目标文本进行分词处理，得到多个第一分词；

其中，分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。具体地，可以通过相应的分词方法对待识别目标文本进行分词处理，得到多个第一分词，其中，待识别目标文本可以是中文，也可以是西文。示例性地，如果待识别目标文本为中文，中文分词指的是将一个汉字序列切分成一个一个单独的词。其中，该相应的分词方法可以是基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法等的任一种。

步骤S102，基于多个第一分词通过词嵌入方法得到各个第一分词的分词向量；

其中，词嵌入是文档词汇表最常用的表示形式之一，它能够捕捉文档中某个单词的上下文、语义和句法相似性、与其他单词的关系等。具体地，通过相应的词嵌入方法(wordembedding)得到各个第一分词的分词向量。其中，该词嵌入方法可以通过训练的word2vec模型实现词嵌入。

步骤S103，基于各个第一分词的分词向量通过实体确定算法确定至少一个第一分词作为第一实体；

其中，该实体确定算法可以是基于基于规则和词典的方法、基于统计的方法、基于句法分析树的方法。示例性地，可以是TF-IDF算法。其中，TF(TermFrequency)词频，某个词在文章中出现的次数或频率，如果某篇文章中的某个词出现多次，那这个词可能是比较重要的词，当然，停用词不包括在这里。

IDF(inversedocumentfrequency)逆文档频率，这是一个词语“权重”的度量，在词频的基础上，如果一个词在多篇文档中词频较低，也就表示这是一个比较少见的词，但在某一篇文章中却出现了很多次，则这个词IDF值越大，在这篇文章中的“权重”越大。所以当一个词越常见，IDF越低

如果一个词越常见，那么分母就越大，逆文档频率就越小越接近0。分母之所以要加1，是为了避免分母为0(即所有文档都不包含该词)。log表示对得到的值取对数。

当计算出TF和IDF的值后，两个一乘就得到TF-IDF，这个词的TF-IDF越高就表示，就表示在这篇文章中的重要性越大，越有可能就是文章的关键词。

TF-IDF＝词频(TF)×逆文档频率(IDF)

可以看到，TF-IDF与一个词在文档中的出现次数成正比，与该词在整个语言中的出现次数成反比。所以，自动提取关键词的算法就很清楚了，就是计算出文档的每个词的TF-IDF值，然后按降序排列，取排在最前面的几个词。

具体地，基于各个第一分词的分词向量通过TF-IDF算法确定至少一个第一分词作为第一实体，其中，可以设定一定的阈值，取排名靠前的预定阈值的第一分词作为第一实体。

步骤S104，分别计算各个所述第一实体与预设的词库中的第二分词的相似度，基于相似度计算结果从所述预设的词库中确定至少一个目标第二分词；

具体地，分别计算各个所述第一实体与预设的词库中的第二分词的相似度，基于相似度计算结果从所述预设的词库中确定至少一个目标第二分词。

其中，该相似度可以是计算分词对应的向量的距离实现的，相似度越高距离越近，相似度越低距离越远，其中，该距离可以是欧式距离、汉明距离、余弦距离等。其中，可以设定一定的阈值，将相似度在一定阈值范围内的预设词库中的第二分词作为目标第二分词。

其中，该预设的词库中的初始第二分词可以是通过人工标注的方式得到，然后通过多个语料文本分别计算语料文本中的分词与第二分词的相似度，将相似度在预定阈值范围内的分词加入进预设的词库，从而实现预设的词库的扩展与更新。具体地，可以基于人工标注方式得到的多个第二分词训练词嵌入模型，然后基于该词嵌入模型计算语料文本中分词的向量表达，基于该向量表达计算与预设的词库中的各个第二分词的相似度，从而确定是否将语料文本中的分词添加进预设的词库中。

步骤S105，基于所述多个第一分词与确定的至少一个目标第二分词确定第二实体。

具体地，可以基于词匹配的方法基于所述多个第一分词与确定的至少一个目标第二分词确定第二实体。具体地，如果该多个第一分词中包含相应的目标第二分词，则将该相应的目标第二分词确定为第二实体。

示例性地，该多个第一分词为A、B、C、D、E、F，该至少一个第二目标分词分别为A、E、G，则将A、E确定为第二实体。

步骤S106，基于第一实体与第二实体确定目标实体。

具体地，可以将确定的第一实体与第二实体进行合并处理从而得到目标实体。

本申请实施例提供了一种实体识别方法，本申请实施例通过无监督的方式实现了实体的识别，不需要大量人工标注的样本数据；此外，先通过实体确定算法确定至少一个第一分词作为第一实体，然后基于所述多个第一分词，以及基于第一实体与预设的词库中的第二分词的相似度计算结果确定的至少一个第二分词确定第二实体，最后基于第一实体与第二实体确定目标实体，实现了目标实体的扩展。

本申请实施例提供了一种可能的实现方式，其中，待识别目标文本的来源包括元文本文件(即原始文件为文本文件，不是通过音频或视频转化而来的)、视频转化文本。其中，视频转化文本的取得方式包括：

步骤S107(图中未示出)，提取目标视频的音频信息；

步骤S108(图中未示出)，基于目标视频的音频信息进行语音识别，得到目标视频的视频转化文本。

具体地，可以通过相应的音频信息提取方法提取得到目标视频的音频信息，然后对得到的目标视频的音频信息进行语音识别得到目标视频的视频转化文本；其中，该语音识别方法可以是基于深度神经网络的方法实现的如卷积神经网络，也可以是通过循环神经网络实现的(如长短期神经网络)。

对于本申请实施例，解决了视频转化文本的取得问题。

本申请实施例提供了一种可能的实现方式，进一步地，该方法还包括：

步骤S109(图中未示出)，建立目标实体与元文本文件和/或视频转化文本对应的视频的映射关系；

步骤S110(图中未示出)，基于目标实体与元文本文件和/或视频，以及目标实体与元文本文件和/或视频的映射关系构建目标知识图谱。

示例性地，如果待识别目标文本来自文本元文本文件(元文本文件也可以作为一个实体)，基于对待识别目标文本进行识别得到了相应的目标实体，可以建立该目标实体与元文本文件的关系，并基于目标实体(实体)与元文本文件(实体)，以及两者之间的关系构建知识图谱。

示例性地，如果待识别目标文本来自视频转化文件(视频也可以作为一个实体)，基于对待识别目标文本进行识别得到了相应的目标实体，可以建立该目标实体与视频的关系，并基于目标实体(实体)与视频(实体)，以及两者之间的关系构建知识图谱。

其中，本申请的知识图谱可以采用图结构数据库(如Neo4j、OrientDB等)进行存储，也可以采用关系型数据库(如MySQL、Microsoft SQL Sever等)进行存储。

对于本申请实施例，解决了如何构建知识图谱的问题。

步骤S111(图中未示出)，接收用户的文本和/或视频的查询请求，查询请求包括查询实体；

步骤S112(图中未示出)，基于查询实体与目标知识图谱确定查询结果并反馈至用户。

具体地，当接收到用户的查询请求时，基于查询实体与目标知识图谱确定查询结果并反馈至用户。其中，可以将与查询实体相关视频或文本文件反馈至用户。

对于本申请实施例，解决了基于知识图谱进行查询的问题。

图2为本申请实施例提供的一种实体识别装置，该装置20包括：第一分词处理模块201、词嵌入模块202、第一确定模块203、计算模块204、第二确定模块205以及第三确定模块206，其中，

第一分词处理模块201，用于对待识别目标文本进行分词处理，得到多个第一分词；

词嵌入模块202，用于基于所述多个第一分词通过词嵌入方法得到各个所述第一分词的分词向量；

第一确定模块203，用于基于各个所述第一分词的分词向量通过实体确定算法确定至少一个所述第一分词作为第一实体；

计算模块204，用于分别计算各个所述第一实体与预设的词库中的第二分词的相似度，基于相似度计算结果从所述预设的词库中确定至少一个目标第二分词；

第二确定模块205，用于基于所述多个第一分词与确定的至少一个目标第二分词确定第二实体；

第三确定模块206，用于基于所述第一实体与所述第二实体确定目标实体。

本申请实施例提供了一种实体识别装置，本申请实施例通过通过无监督的方式实现了实体的识别，不需要大量人工标注的样本数据；此外，先通过实体确定算法确定至少一个第一分词作为第一实体，然后基于多个第一分词，以及基于第一实体与预设的词库中的第二分词的相似度计算结果确定的至少一个第二分词确定第二实体，最后基于第一实体与第二实体确定目标实体，实现了目标实体的扩展。

本实施例的实体识别装置可执行本申请上述实施例中提供的一种实体识别方法，其实现原理相类似，此处不再赘述。

如图3所示，本申请实施例提供了另一种实体识别装置，该装置30包括：第一分词处理模块301、词嵌入模块302、第一确定模块303、计算模块304、第二确定模块305以及第三确定模块306，其中，

第一分词处理模块301，用于对待识别目标文本进行分词处理，得到多个第一分词；

其中，图3中的第一分词处理模块301与图2中的第一分词处理模块201的功能相同或者相似。

词嵌入模块302，用于基于多个第一分词通过词嵌入方法得到各个第一分词的分词向量；

其中，图3中的词嵌入模块302与图2中的词嵌入模块202的功能相同或者相似。

第一确定模块303，用于基于各个第一分词的分词向量通过TF-IDF算法确定至少一个第一分词作为第一实体；

其中，图3中的第一确定模块303与图2中的第一确定模块203的功能相同或者相似。

计算模块304，用于分别计算各个所述第一实体与预设的词库中的第二分词的相似度，基于相似度计算结果从所述预设的词库中确定至少一个目标第二分词；

其中，图3中的计算模块304与图2中的计算模块204的功能相同或者相似。

第二确定模块305，用于分别计算各个第一实体与第一实体相邻的第一分词的相似度，基于相似度计算结果确定第二实体；

其中，图3中的第二确定模块305与图2中的第二确定模块205的功能相同或者相似。

第三确定模块306，用于基于第一实体与第二实体确定目标实体。

其中，图3中的第三确定模块306与图2中的第三确定模块206的功能相同或者相似。

本申请实施例提供了一种可能的实现方式，其中，待识别目标文本的来源包括元文本文件、视频转化文本，进一步地，该装置30还包括：

提取模块307，用于提取目标视频的音频信息；

语音识别模块308，用于基于目标视频的音频信息进行语音识别，得到目标视频的视频转化文本。

对于本申请实施例，解决了视频转化文本的取得问题。

本申请实施例提供了一种可能的实现方式，该装置还包括：

建立模块309，用于建立目标实体与元文本文件和/或视频转化文本对应的视频的映射关系；

构建模块310，用于基于目标实体与元文本文件和/或视频，以及目标实体与元文本文件和/或视频的映射关系构建目标知识图谱。

对于本申请实施例，解决了如何构建知识图谱的问题。

本申请实施例提供了一种可能的实现方式，进一步地，该装置30还包括：

接收模块311，用于接收用户的文本和/或视频的查询请求，查询请求包括查询实体；

反馈模块312，用于基于查询实体与目标知识图谱确定查询结果并反馈至用户。

对于本申请实施例，解决了基于知识图谱进行查询的问题。

本申请实施例提供了一种实体识别装置，本申请实施例通过无监督的方式实现了实体的识别，不需要大量人工标注的样本数据；此外，先通过实体确定算法确定至少一个第一分词作为第一实体，然后基于多个第一分词，以及基于第一实体与预设的词库中的第二分词的相似度计算结果确定的至少一个第二分词确定第二实体，最后基于第一实体与第二实体确定目标实体，实现了目标实体的扩展。

本申请实施例提供了一种实体识别装置，适用于上述实施例所示的方法，在此不再赘述。

本申请实施例提供了一种电子设备，如图4所示，图4所示的电子设备40包括：处理器401和存储器403。其中，处理器401和存储器403相连，如通过总线402相连。进一步地，电子设备40还可以包括收发器404。需要说明的是，实际应用中收发器404不限于一个，该电子设备40的结构并不构成对本申请实施例的限定。其中，处理器401应用于本申请实施例中，用于实现图2或图3所示的分词处理模块、词嵌入模块、第一确定模块、计算模块、第二确定模块以及第三确定模块的功能，以及图3所示的提取模块、语音识别模块、建立模块、构建模块、接收模块、反馈模块的功能。收发器404包括接收机和发射机。

处理器401可以是CPU，通用处理器，DSP，ASIC，FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器401也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线402可包括一通路，在上述组件之间传送信息。总线402可以是PCI总线或EISA总线等。总线402可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器403可以是ROM或可存储静态信息和指令的其他类型的静态存储设备，RAM或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器403用于存储执行本申请方案的应用程序代码，并由处理器401来控制执行。处理器401用于执行存储器403中存储的应用程序代码，以实现图2或图3所示实施例提供的实体识别装置的功能。

本申请实施例提供了一种电子设备，本申请实施例通过通过无监督的方式实现了实体的识别，不需要大量人工标注的样本数据；此外，先通过实体确定算法确定至少一个第一分词作为第一实体，然后基于多个第一分词，以及基于第一实体与预设的词库中的第二分词的相似度计算结果确定的至少一个第二分词确定第二实体，最后基于第一实体与第二实体确定目标实体，实现了目标实体的扩展。

本申请实施例提供了一种电子设备适用于上述方法实施例。在此不再赘述。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现上述实施例中所示的方法。

本申请实施例提供了一种计算机可读存储介质，本申请实施例通过通过无监督的方式实现了实体的识别，不需要大量人工标注的样本数据；此外，先通过实体确定算法确定至少一个第一分词作为第一实体，然后基于多个第一分词，以及基于第一实体与预设的词库中的第二分词的相似度计算结果确定的至少一个第二分词确定第二实体，最后基于第一实体与第二实体确定目标实体，实现了目标实体的扩展。

本申请实施例提供了一种计算机可读存储介质适用于上述方法实施例。在此不再赘述。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种实体识别方法，其特征在于，包括：

对待识别目标文本进行分词处理，得到多个第一分词；

基于所述多个第一分词通过词嵌入方法得到各个所述第一分词的分词向量；

基于各个所述第一分词的分词向量通过实体确定算法确定至少一个所述第一分词作为第一实体；

分别计算各个所述第一实体与预设的词库中的第二分词的相似度，基于相似度计算结果从所述预设的词库中确定至少一个目标第二分词；

基于所述多个第一分词与确定的至少一个目标第二分词确定第二实体；

基于所述第一实体与所述第二实体确定目标实体。

2.根据权利要求1所述的方法，其特征在于，所述待识别目标文本的来源包括元文本文件、视频转化文本。

3.根据权利要求2所述的方法，其特征在于，所述视频转化文本的取得方式包括：

提取目标视频的音频信息；

基于所述目标视频的音频信息进行语音识别，得到所述目标视频的视频转化文本。

4.根据权利要求3所述的方法，其特征在于，该方法还包括：

建立所述目标实体与所述元文本文件和/或所述视频转化文本对应的视频的映射关系；

基于所述目标实体与所述元文本文件和/或所述视频，以及所述目标实体与所述元文本文件和/或所述视频的映射关系构建目标知识图谱。

5.根据权利要求1所述的方法，其特征在于，该方法还包括：

接收用户的文本和/或视频的查询请求，所述查询请求包括查询实体；基于所述查询实体与所述目标知识图谱确定查询结果并反馈至用户。

6.一种实体识别装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述待识别目标文本的来源包括元文本文件、视频转化文本。

8.根据权利要求7所述的装置，其特征在于，该装置还包括：

提取模块，用于提取目标视频的音频信息；

语音识别模块，用于基于所述目标视频的音频信息进行语音识别，得到所述目标视频的视频转化文本。

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于：执行根据权利要求1至5任一项所述的实体识别方法。

10.一种计算机可读存储介质，其特征在于，所述计算机存储介质用于存储计算机指令，当其在计算机上运行时，使得计算机可以执行上述权利要求1至5中任一项所述的实体识别方法。