CN111325033A - 实体识别方法、装置、电子设备及计算机可读存储介质 - Google Patents

实体识别方法、装置、电子设备及计算机可读存储介质 Download PDF

Info

Publication number
CN111325033A
CN111325033A CN202010203768.4A CN202010203768A CN111325033A CN 111325033 A CN111325033 A CN 111325033A CN 202010203768 A CN202010203768 A CN 202010203768A CN 111325033 A CN111325033 A CN 111325033A
Authority
CN
China
Prior art keywords
entity
target
word
text
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010203768.4A
Other languages
English (en)
Other versions
CN111325033B (zh
Inventor
熊威
冯晓峰
王思梦
秦瑞雄
吴想想
杜嘉
赵金鑫
胡智
王博
马晓恒
柏露
董华强
花薇薇
干紫乔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp
Original Assignee
China Construction Bank Corp
CCB Finetech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp, CCB Finetech Co Ltd filed Critical China Construction Bank Corp
Priority to CN202010203768.4A priority Critical patent/CN111325033B/zh
Publication of CN111325033A publication Critical patent/CN111325033A/zh
Application granted granted Critical
Publication of CN111325033B publication Critical patent/CN111325033B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/735Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供了一种实体识别方法、装置、电子设备及计算机可读存储介质,应用于计算机技术领域,其中该方法包括:通过无监督的方式实现了实体的识别,不需要大量人工标注的样本数据;此外,先通过实体确定算法从待识别文本中确定至少一个第一分词作为第一实体,然后基于多个第一分词,以及基于第一实体与预设的词库中的第二分词的相似度计算结果确定的至少一个目标第二分词确定第二实体,最后基于第一实体与第二实体确定目标实体,实现了目标实体的扩展。

Description

实体识别方法、装置、电子设备及计算机可读存储介质
技术领域
本申请涉及计算机技术领域,具体而言,本申请涉及一种实体识别方法、装置、电子设备及计算机可读存储介质。
背景技术
知识图谱的主要目标是用来描述真实世界中存在的各种实体和概念,以及他们之间的强关系。银行等机构或公司存储着大量的数据,数据包括文本类数据和视频类数据。这些特定业务的数据中蕴含着有价值的信息,如可以从文章和视频中抽取基于其特定业务实体并获取实体的关系是怎么样的,从而构建出一套完整知识点关系图谱也就是知识图谱。其中,实体识别作为知识图谱构建的重要环节,如何实现实体的识别成为了一个问题。
发明内容
本申请提供了一种实体识别方法、装置、电子设备及计算机可读存储介质,用于提升实体识别的准确性、可靠性,本申请采用的技术方案如下:
第一方面,提供了一种实体识别方法,该方法包括,
对待识别目标文本进行分词处理,得到多个第一分词;
基于多个第一分词通过词嵌入方法得到各个第一分词的分词向量;
基于各个第一分词的分词向量通过实体确定算法确定至少一个第一分词作为第一实体;
分别计算各个第一实体与预设的词库中的第二分词的相似度,基于相似度计算结果从预设的词库中确定至少一个目标第二分词;
基于多个第一分词与确定的至少一个目标第二分词确定第二实体;基于第一实体与第二实体确定目标实体。
可选地,待识别目标文本的来源包括元文本文件、视频转化文本。
可选地,视频转化文本的取得方式包括:
提取目标视频的音频信息;
基于目标视频的音频信息进行语音识别,得到目标视频的视频转化文本。
可选地,该方法还包括:
建立目标实体与元文本文件和/或视频转化文本对应的视频的映射关系;
基于目标实体与元文本文件和/或视频,以及目标实体与元文本文件和/或视频的映射关系构建目标知识图谱。
可选地,该方法还包括:
接收用户的文本和/或视频的查询请求,查询请求包括查询实体;
基于查询实体与目标知识图谱确定查询结果并反馈至用户。
第二方面,提供了一种实体识别装置,该装置包括,
第一分词处理模块,用于对待识别目标文本进行分词处理,得到多个第一分词;
词嵌入模块,用于基于所述多个第一分词通过词嵌入方法得到各个所述第一分词的分词向量;
第一确定模块,用于基于各个所述第一分词的分词向量通过实体确定算法确定至少一个所述第一分词作为第一实体;
计算模块,用于分别计算各个所述第一实体与预设的词库中的第二分词的相似度,基于相似度计算结果从所述预设的词库中确定至少一个目标第二分词
第二确定模块,用于基于所述多个第一分词与确定的至少一个目标第二分词确定第二实体;
第三确定模块,用于基于所述第一实体与所述第二实体确定目标实体。
可选地,待识别目标文本的来源包括元文本文件、视频转化文本。
可选地,该装置还包括:
提取模块,用于提取目标视频的音频信息;
语音识别模块,用于基于目标视频的音频信息进行语音识别,得到目标视频的视频转化文本。
可选地,该装置还包括:
建立目标实体与元文本文件和/或视频转化文本对应的视频的映射关系;
基于目标实体与元文本文件和/或视频,以及目标实体与元文本文件和/或视频的映射关系构建目标知识图谱。
可选地,该装置还包括:
接收模块,用于接收用户的文本和/或视频的查询请求,查询请求包括查询实体;
反馈模块,用于基于查询实体与目标知识图谱确定查询结果并反馈至用户。
第三方面,提供了一种电子设备,该电子设备包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序配置用于:执行第一方面所示的实体识别方法。
第四方面,提供了一种计算机可读存储介质,计算机存储介质用于存储计算机指令,当其在计算机上运行时,使得计算机可以执行第一方面所示的实体识别方法。
本申请提供了一种实体识别方法、装置、电子设备及计算机可读存储介质,本申请通过对待识别目标文本进行分词处理,得到多个第一分词;基于所述多个第一分词通过词嵌入方法得到各个所述第一分词的分词向量;基于各个所述第一分词的分词向量通过实体确定算法确定至少一个所述第一分词作为第一实体;分别计算各个所述第一实体与预设的词库中的第二分词的相似度,基于相似度计算结果从所述预设的词库中确定至少一个目标第二分词;基于所述多个第一分词与确定的至少一个目标第二分词确定第二实体;基于所述第一实体与所述第二实体确定目标实体。即通过无监督的方式实现了实体的识别,不需要大量人工标注的样本数据;此外,先通过实体确定算法确定至少一个第一分词作为第一实体,然后基于所述多个第一分词,以及基于第一实体与预设的词库中的第二分词的相似度计算结果确定的至少一个目标第二分词确定第二实体,最后基于第一实体与第二实体确定目标实体,实现了目标实体的扩展。
本申请附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例的一种实体识别方法的流程示意图;
图2为本申请实施例的一种实体识别装置的结构示意图;
图3为本申请实施例的另一种实体识别装置的结构示意图;
图4为本申请实施例的一种电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,各实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
本申请实施例提供了一种实体识别方法,如图1所示,该方法可以包括以下步骤:
步骤S101,对待识别目标文本进行分词处理,得到多个第一分词;
其中,分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。具体地,可以通过相应的分词方法对待识别目标文本进行分词处理,得到多个第一分词,其中,待识别目标文本可以是中文,也可以是西文。示例性地,如果待识别目标文本为中文,中文分词指的是将一个汉字序列切分成一个一个单独的词。其中,该相应的分词方法可以是基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法等的任一种。
步骤S102,基于多个第一分词通过词嵌入方法得到各个第一分词的分词向量;
其中,词嵌入是文档词汇表最常用的表示形式之一,它能够捕捉文档中某个单词的上下文、语义和句法相似性、与其他单词的关系等。具体地,通过相应的词嵌入方法(wordembedding)得到各个第一分词的分词向量。其中,该词嵌入方法可以通过训练的word2vec模型实现词嵌入。
步骤S103,基于各个第一分词的分词向量通过实体确定算法确定至少一个第一分词作为第一实体;
其中,该实体确定算法可以是基于基于规则和词典的方法、基于统计的方法、基于句法分析树的方法。示例性地,可以是TF-IDF算法。其中,TF(TermFrequency)词频,某个词在文章中出现的次数或频率,如果某篇文章中的某个词出现多次,那这个词可能是比较重要的词,当然,停用词不包括在这里。
Figure BDA0002420244480000061
IDF(inversedocumentfrequency)逆文档频率,这是一个词语“权重”的度量,在词频的基础上,如果一个词在多篇文档中词频较低,也就表示这是一个比较少见的词,但在某一篇文章中却出现了很多次,则这个词IDF值越大,在这篇文章中的“权重”越大。所以当一个词越常见,IDF越低
Figure BDA0002420244480000062
如果一个词越常见,那么分母就越大,逆文档频率就越小越接近0。分母之所以要加1,是为了避免分母为0(即所有文档都不包含该词)。log表示对得到的值取对数。
当计算出TF和IDF的值后,两个一乘就得到TF-IDF,这个词的TF-IDF越高就表示,就表示在这篇文章中的重要性越大,越有可能就是文章的关键词。
TF-IDF=词频(TF)×逆文档频率(IDF)
可以看到,TF-IDF与一个词在文档中的出现次数成正比,与该词在整个语言中的出现次数成反比。所以,自动提取关键词的算法就很清楚了,就是计算出文档的每个词的TF-IDF值,然后按降序排列,取排在最前面的几个词。
具体地,基于各个第一分词的分词向量通过TF-IDF算法确定至少一个第一分词作为第一实体,其中,可以设定一定的阈值,取排名靠前的预定阈值的第一分词作为第一实体。
步骤S104,分别计算各个所述第一实体与预设的词库中的第二分词的相似度,基于相似度计算结果从所述预设的词库中确定至少一个目标第二分词;
具体地,分别计算各个所述第一实体与预设的词库中的第二分词的相似度,基于相似度计算结果从所述预设的词库中确定至少一个目标第二分词。
其中,该相似度可以是计算分词对应的向量的距离实现的,相似度越高距离越近,相似度越低距离越远,其中,该距离可以是欧式距离、汉明距离、余弦距离等。其中,可以设定一定的阈值,将相似度在一定阈值范围内的预设词库中的第二分词作为目标第二分词。
其中,该预设的词库中的初始第二分词可以是通过人工标注的方式得到,然后通过多个语料文本分别计算语料文本中的分词与第二分词的相似度,将相似度在预定阈值范围内的分词加入进预设的词库,从而实现预设的词库的扩展与更新。具体地,可以基于人工标注方式得到的多个第二分词训练词嵌入模型,然后基于该词嵌入模型计算语料文本中分词的向量表达,基于该向量表达计算与预设的词库中的各个第二分词的相似度,从而确定是否将语料文本中的分词添加进预设的词库中。
步骤S105,基于所述多个第一分词与确定的至少一个目标第二分词确定第二实体。
具体地,可以基于词匹配的方法基于所述多个第一分词与确定的至少一个目标第二分词确定第二实体。具体地,如果该多个第一分词中包含相应的目标第二分词,则将该相应的目标第二分词确定为第二实体。
示例性地,该多个第一分词为A、B、C、D、E、F,该至少一个第二目标分词分别为A、E、G,则将A、E确定为第二实体。
步骤S106,基于第一实体与第二实体确定目标实体。
具体地,可以将确定的第一实体与第二实体进行合并处理从而得到目标实体。
本申请实施例提供了一种实体识别方法,本申请实施例通过无监督的方式实现了实体的识别,不需要大量人工标注的样本数据;此外,先通过实体确定算法确定至少一个第一分词作为第一实体,然后基于所述多个第一分词,以及基于第一实体与预设的词库中的第二分词的相似度计算结果确定的至少一个第二分词确定第二实体,最后基于第一实体与第二实体确定目标实体,实现了目标实体的扩展。
本申请实施例提供了一种可能的实现方式,其中,待识别目标文本的来源包括元文本文件(即原始文件为文本文件,不是通过音频或视频转化而来的)、视频转化文本。其中,视频转化文本的取得方式包括:
步骤S107(图中未示出),提取目标视频的音频信息;
步骤S108(图中未示出),基于目标视频的音频信息进行语音识别,得到目标视频的视频转化文本。
具体地,可以通过相应的音频信息提取方法提取得到目标视频的音频信息,然后对得到的目标视频的音频信息进行语音识别得到目标视频的视频转化文本;其中,该语音识别方法可以是基于深度神经网络的方法实现的如卷积神经网络,也可以是通过循环神经网络实现的(如长短期神经网络)。
对于本申请实施例,解决了视频转化文本的取得问题。
本申请实施例提供了一种可能的实现方式,进一步地,该方法还包括:
步骤S109(图中未示出),建立目标实体与元文本文件和/或视频转化文本对应的视频的映射关系;
步骤S110(图中未示出),基于目标实体与元文本文件和/或视频,以及目标实体与元文本文件和/或视频的映射关系构建目标知识图谱。
示例性地,如果待识别目标文本来自文本元文本文件(元文本文件也可以作为一个实体),基于对待识别目标文本进行识别得到了相应的目标实体,可以建立该目标实体与元文本文件的关系,并基于目标实体(实体)与元文本文件(实体),以及两者之间的关系构建知识图谱。
示例性地,如果待识别目标文本来自视频转化文件(视频也可以作为一个实体),基于对待识别目标文本进行识别得到了相应的目标实体,可以建立该目标实体与视频的关系,并基于目标实体(实体)与视频(实体),以及两者之间的关系构建知识图谱。
其中,本申请的知识图谱可以采用图结构数据库(如Neo4j、OrientDB等)进行存储,也可以采用关系型数据库(如MySQL、Microsoft SQL Sever等)进行存储。
对于本申请实施例,解决了如何构建知识图谱的问题。
本申请实施例提供了一种可能的实现方式,进一步地,该方法还包括:
步骤S111(图中未示出),接收用户的文本和/或视频的查询请求,查询请求包括查询实体;
步骤S112(图中未示出),基于查询实体与目标知识图谱确定查询结果并反馈至用户。
具体地,当接收到用户的查询请求时,基于查询实体与目标知识图谱确定查询结果并反馈至用户。其中,可以将与查询实体相关视频或文本文件反馈至用户。
对于本申请实施例,解决了基于知识图谱进行查询的问题。
图2为本申请实施例提供的一种实体识别装置,该装置20包括:第一分词处理模块201、词嵌入模块202、第一确定模块203、计算模块204、第二确定模块205以及第三确定模块206,其中,
第一分词处理模块201,用于对待识别目标文本进行分词处理,得到多个第一分词;
词嵌入模块202,用于基于所述多个第一分词通过词嵌入方法得到各个所述第一分词的分词向量;
第一确定模块203,用于基于各个所述第一分词的分词向量通过实体确定算法确定至少一个所述第一分词作为第一实体;
计算模块204,用于分别计算各个所述第一实体与预设的词库中的第二分词的相似度,基于相似度计算结果从所述预设的词库中确定至少一个目标第二分词;
第二确定模块205,用于基于所述多个第一分词与确定的至少一个目标第二分词确定第二实体;
第三确定模块206,用于基于所述第一实体与所述第二实体确定目标实体。
本申请实施例提供了一种实体识别装置,本申请实施例通过通过无监督的方式实现了实体的识别,不需要大量人工标注的样本数据;此外,先通过实体确定算法确定至少一个第一分词作为第一实体,然后基于多个第一分词,以及基于第一实体与预设的词库中的第二分词的相似度计算结果确定的至少一个第二分词确定第二实体,最后基于第一实体与第二实体确定目标实体,实现了目标实体的扩展。
本实施例的实体识别装置可执行本申请上述实施例中提供的一种实体识别方法,其实现原理相类似,此处不再赘述。
如图3所示,本申请实施例提供了另一种实体识别装置,该装置30包括:第一分词处理模块301、词嵌入模块302、第一确定模块303、计算模块304、第二确定模块305以及第三确定模块306,其中,
第一分词处理模块301,用于对待识别目标文本进行分词处理,得到多个第一分词;
其中,图3中的第一分词处理模块301与图2中的第一分词处理模块201的功能相同或者相似。
词嵌入模块302,用于基于多个第一分词通过词嵌入方法得到各个第一分词的分词向量;
其中,图3中的词嵌入模块302与图2中的词嵌入模块202的功能相同或者相似。
第一确定模块303,用于基于各个第一分词的分词向量通过TF-IDF算法确定至少一个第一分词作为第一实体;
其中,图3中的第一确定模块303与图2中的第一确定模块203的功能相同或者相似。
计算模块304,用于分别计算各个所述第一实体与预设的词库中的第二分词的相似度,基于相似度计算结果从所述预设的词库中确定至少一个目标第二分词;
其中,图3中的计算模块304与图2中的计算模块204的功能相同或者相似。
第二确定模块305,用于分别计算各个第一实体与第一实体相邻的第一分词的相似度,基于相似度计算结果确定第二实体;
其中,图3中的第二确定模块305与图2中的第二确定模块205的功能相同或者相似。
第三确定模块306,用于基于第一实体与第二实体确定目标实体。
其中,图3中的第三确定模块306与图2中的第三确定模块206的功能相同或者相似。
本申请实施例提供了一种可能的实现方式,其中,待识别目标文本的来源包括元文本文件、视频转化文本,进一步地,该装置30还包括:
提取模块307,用于提取目标视频的音频信息;
语音识别模块308,用于基于目标视频的音频信息进行语音识别,得到目标视频的视频转化文本。
对于本申请实施例,解决了视频转化文本的取得问题。
本申请实施例提供了一种可能的实现方式,该装置还包括:
建立模块309,用于建立目标实体与元文本文件和/或视频转化文本对应的视频的映射关系;
构建模块310,用于基于目标实体与元文本文件和/或视频,以及目标实体与元文本文件和/或视频的映射关系构建目标知识图谱。
对于本申请实施例,解决了如何构建知识图谱的问题。
本申请实施例提供了一种可能的实现方式,进一步地,该装置30还包括:
接收模块311,用于接收用户的文本和/或视频的查询请求,查询请求包括查询实体;
反馈模块312,用于基于查询实体与目标知识图谱确定查询结果并反馈至用户。
对于本申请实施例,解决了基于知识图谱进行查询的问题。
本申请实施例提供了一种实体识别装置,本申请实施例通过无监督的方式实现了实体的识别,不需要大量人工标注的样本数据;此外,先通过实体确定算法确定至少一个第一分词作为第一实体,然后基于多个第一分词,以及基于第一实体与预设的词库中的第二分词的相似度计算结果确定的至少一个第二分词确定第二实体,最后基于第一实体与第二实体确定目标实体,实现了目标实体的扩展。
本申请实施例提供了一种实体识别装置,适用于上述实施例所示的方法,在此不再赘述。
本申请实施例提供了一种电子设备,如图4所示,图4所示的电子设备40包括:处理器401和存储器403。其中,处理器401和存储器403相连,如通过总线402相连。进一步地,电子设备40还可以包括收发器404。需要说明的是,实际应用中收发器404不限于一个,该电子设备40的结构并不构成对本申请实施例的限定。其中,处理器401应用于本申请实施例中,用于实现图2或图3所示的分词处理模块、词嵌入模块、第一确定模块、计算模块、第二确定模块以及第三确定模块的功能,以及图3所示的提取模块、语音识别模块、建立模块、构建模块、接收模块、反馈模块的功能。收发器404包括接收机和发射机。
处理器401可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器401也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线402可包括一通路,在上述组件之间传送信息。总线402可以是PCI总线或EISA总线等。总线402可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器403可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器403用于存储执行本申请方案的应用程序代码,并由处理器401来控制执行。处理器401用于执行存储器403中存储的应用程序代码,以实现图2或图3所示实施例提供的实体识别装置的功能。
本申请实施例提供了一种电子设备,本申请实施例通过通过无监督的方式实现了实体的识别,不需要大量人工标注的样本数据;此外,先通过实体确定算法确定至少一个第一分词作为第一实体,然后基于多个第一分词,以及基于第一实体与预设的词库中的第二分词的相似度计算结果确定的至少一个第二分词确定第二实体,最后基于第一实体与第二实体确定目标实体,实现了目标实体的扩展。
本申请实施例提供了一种电子设备适用于上述方法实施例。在此不再赘述。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现上述实施例中所示的方法。
本申请实施例提供了一种计算机可读存储介质,本申请实施例通过通过无监督的方式实现了实体的识别,不需要大量人工标注的样本数据;此外,先通过实体确定算法确定至少一个第一分词作为第一实体,然后基于多个第一分词,以及基于第一实体与预设的词库中的第二分词的相似度计算结果确定的至少一个第二分词确定第二实体,最后基于第一实体与第二实体确定目标实体,实现了目标实体的扩展。
本申请实施例提供了一种计算机可读存储介质适用于上述方法实施例。在此不再赘述。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种实体识别方法,其特征在于,包括:
对待识别目标文本进行分词处理,得到多个第一分词;
基于所述多个第一分词通过词嵌入方法得到各个所述第一分词的分词向量;
基于各个所述第一分词的分词向量通过实体确定算法确定至少一个所述第一分词作为第一实体;
分别计算各个所述第一实体与预设的词库中的第二分词的相似度,基于相似度计算结果从所述预设的词库中确定至少一个目标第二分词;
基于所述多个第一分词与确定的至少一个目标第二分词确定第二实体;
基于所述第一实体与所述第二实体确定目标实体。
2.根据权利要求1所述的方法,其特征在于,所述待识别目标文本的来源包括元文本文件、视频转化文本。
3.根据权利要求2所述的方法,其特征在于,所述视频转化文本的取得方式包括:
提取目标视频的音频信息;
基于所述目标视频的音频信息进行语音识别,得到所述目标视频的视频转化文本。
4.根据权利要求3所述的方法,其特征在于,该方法还包括:
建立所述目标实体与所述元文本文件和/或所述视频转化文本对应的视频的映射关系;
基于所述目标实体与所述元文本文件和/或所述视频,以及所述目标实体与所述元文本文件和/或所述视频的映射关系构建目标知识图谱。
5.根据权利要求1所述的方法,其特征在于,该方法还包括:
接收用户的文本和/或视频的查询请求,所述查询请求包括查询实体;基于所述查询实体与所述目标知识图谱确定查询结果并反馈至用户。
6.一种实体识别装置,其特征在于,包括:
第一分词处理模块,用于对待识别目标文本进行分词处理,得到多个第一分词;
词嵌入模块,用于基于所述多个第一分词通过词嵌入方法得到各个所述第一分词的分词向量;
第一确定模块,用于基于各个所述第一分词的分词向量通过实体确定算法确定至少一个所述第一分词作为第一实体;
计算模块,用于分别计算各个所述第一实体与预设的词库中的第二分词的相似度,基于相似度计算结果从所述预设的词库中确定至少一个目标第二分词
第二确定模块,用于基于所述多个第一分词与确定的至少一个目标第二分词确定第二实体;
第三确定模块,用于基于所述第一实体与所述第二实体确定目标实体。
7.根据权利要求6所述的装置,其特征在于,所述待识别目标文本的来源包括元文本文件、视频转化文本。
8.根据权利要求7所述的装置,其特征在于,该装置还包括:
提取模块,用于提取目标视频的音频信息;
语音识别模块,用于基于所述目标视频的音频信息进行语音识别,得到所述目标视频的视频转化文本。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于:执行根据权利要求1至5任一项所述的实体识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机存储介质用于存储计算机指令,当其在计算机上运行时,使得计算机可以执行上述权利要求1至5中任一项所述的实体识别方法。
CN202010203768.4A 2020-03-20 2020-03-20 实体识别方法、装置、电子设备及计算机可读存储介质 Active CN111325033B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010203768.4A CN111325033B (zh) 2020-03-20 2020-03-20 实体识别方法、装置、电子设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010203768.4A CN111325033B (zh) 2020-03-20 2020-03-20 实体识别方法、装置、电子设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN111325033A true CN111325033A (zh) 2020-06-23
CN111325033B CN111325033B (zh) 2023-07-11

Family

ID=71173442

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010203768.4A Active CN111325033B (zh) 2020-03-20 2020-03-20 实体识别方法、装置、电子设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111325033B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112148885A (zh) * 2020-09-04 2020-12-29 上海晏鼠计算机技术股份有限公司 一种基于知识图谱的智能搜索方法及系统
CN112148886A (zh) * 2020-09-04 2020-12-29 上海晏鼠计算机技术股份有限公司 一种内容知识图谱的构建方法及系统
CN114626375A (zh) * 2021-04-21 2022-06-14 亚信科技(南京)有限公司 文本分词方法、装置、电子设备及计算机可读存储介质

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108804512A (zh) * 2018-04-20 2018-11-13 平安科技(深圳)有限公司 文本分类模型的生成装置、方法及计算机可读存储介质
CN109145303A (zh) * 2018-09-06 2019-01-04 腾讯科技(深圳)有限公司 命名实体识别方法、装置、介质以及设备
CN109241294A (zh) * 2018-08-29 2019-01-18 国信优易数据有限公司 一种实体链接方法及装置
CN109857872A (zh) * 2019-02-18 2019-06-07 浪潮软件集团有限公司 基于知识图谱的信息推荐方法和装置
CN109885825A (zh) * 2019-01-07 2019-06-14 平安科技(深圳)有限公司 基于注意力机制的命名实体识别方法、装置和计算机设备
CN109992673A (zh) * 2019-04-10 2019-07-09 广东工业大学 一种知识图谱生成方法、装置、设备及可读存储介质
US20190332867A1 (en) * 2017-05-11 2019-10-31 Tencent Technology (Shenzhen) Company Limited Method and apparatus for retrieving similar video and storage medium
CN110489751A (zh) * 2019-08-13 2019-11-22 腾讯科技(深圳)有限公司 文本相似度计算方法及装置、存储介质、电子设备
CN110674306A (zh) * 2018-06-15 2020-01-10 株式会社日立制作所 知识图谱的构建方法、装置、电子设备
CN110688836A (zh) * 2019-09-30 2020-01-14 湖南大学 基于监督学习的领域词典自动化构建方法
CN110737774A (zh) * 2018-07-03 2020-01-31 百度在线网络技术(北京)有限公司 图书知识图谱的构建、图书推荐方法、装置、设备及介质
CN110750627A (zh) * 2018-07-19 2020-02-04 上海谦问万答吧云计算科技有限公司 一种素材的检索方法、装置、电子设备及存储介质
CN110795911A (zh) * 2019-09-16 2020-02-14 中国平安人寿保险股份有限公司 在线文本标签的实时添加方法、装置及相关设备
US20200073879A1 (en) * 2018-08-28 2020-03-05 American Chemical Society Systems and methods for performing a computer-implemented prior art search

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190332867A1 (en) * 2017-05-11 2019-10-31 Tencent Technology (Shenzhen) Company Limited Method and apparatus for retrieving similar video and storage medium
CN108804512A (zh) * 2018-04-20 2018-11-13 平安科技(深圳)有限公司 文本分类模型的生成装置、方法及计算机可读存储介质
CN110674306A (zh) * 2018-06-15 2020-01-10 株式会社日立制作所 知识图谱的构建方法、装置、电子设备
CN110737774A (zh) * 2018-07-03 2020-01-31 百度在线网络技术(北京)有限公司 图书知识图谱的构建、图书推荐方法、装置、设备及介质
CN110750627A (zh) * 2018-07-19 2020-02-04 上海谦问万答吧云计算科技有限公司 一种素材的检索方法、装置、电子设备及存储介质
US20200073879A1 (en) * 2018-08-28 2020-03-05 American Chemical Society Systems and methods for performing a computer-implemented prior art search
CN109241294A (zh) * 2018-08-29 2019-01-18 国信优易数据有限公司 一种实体链接方法及装置
CN109145303A (zh) * 2018-09-06 2019-01-04 腾讯科技(深圳)有限公司 命名实体识别方法、装置、介质以及设备
CN109885825A (zh) * 2019-01-07 2019-06-14 平安科技(深圳)有限公司 基于注意力机制的命名实体识别方法、装置和计算机设备
CN109857872A (zh) * 2019-02-18 2019-06-07 浪潮软件集团有限公司 基于知识图谱的信息推荐方法和装置
CN109992673A (zh) * 2019-04-10 2019-07-09 广东工业大学 一种知识图谱生成方法、装置、设备及可读存储介质
CN110489751A (zh) * 2019-08-13 2019-11-22 腾讯科技(深圳)有限公司 文本相似度计算方法及装置、存储介质、电子设备
CN110795911A (zh) * 2019-09-16 2020-02-14 中国平安人寿保险股份有限公司 在线文本标签的实时添加方法、装置及相关设备
CN110688836A (zh) * 2019-09-30 2020-01-14 湖南大学 基于监督学习的领域词典自动化构建方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112148885A (zh) * 2020-09-04 2020-12-29 上海晏鼠计算机技术股份有限公司 一种基于知识图谱的智能搜索方法及系统
CN112148886A (zh) * 2020-09-04 2020-12-29 上海晏鼠计算机技术股份有限公司 一种内容知识图谱的构建方法及系统
CN112148885B (zh) * 2020-09-04 2024-02-02 上海晏鼠计算机技术股份有限公司 一种基于知识图谱的智能搜索方法及系统
CN114626375A (zh) * 2021-04-21 2022-06-14 亚信科技(南京)有限公司 文本分词方法、装置、电子设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN111325033B (zh) 2023-07-11

Similar Documents

Publication Publication Date Title
CN111104794B (zh) 一种基于主题词的文本相似度匹配方法
CN112069298A (zh) 基于语义网和意图识别的人机交互方法、设备及介质
US20230039496A1 (en) Question-and-answer processing method, electronic device and computer readable medium
CN108090068B (zh) 医院数据库中的表的分类方法及装置
CN112035599B (zh) 基于垂直搜索的查询方法、装置、计算机设备及存储介质
CN111159363A (zh) 一种基于知识库的问题答案确定方法及装置
CN108090077B (zh) 一种基于自然语言检索的综合相似度计算方法
CN111325033B (zh) 实体识别方法、装置、电子设备及计算机可读存储介质
CN110825949A (zh) 基于卷积神经网络的信息检索方法、及其相关设备
CN110134777B (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
CN108027814B (zh) 停用词识别方法与装置
CN110929125A (zh) 搜索召回方法、装置、设备及其存储介质
CN108875065B (zh) 一种基于内容的印尼新闻网页推荐方法
CN110858217A (zh) 微博敏感话题的检测方法、装置及可读存储介质
CN112836039B (zh) 基于深度学习的语音数据处理方法和装置
CN111428027A (zh) 查询意图确定方法及相关装置
CN110866102A (zh) 检索处理方法
CN112381038A (zh) 一种基于图像的文本识别方法、系统和介质
CN114416979A (zh) 一种文本查询方法、设备和存储介质
CN110795942B (zh) 基于语义识别的关键词确定方法、装置和存储介质
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
US10970488B2 (en) Finding of asymmetric relation between words
CN112528653B (zh) 短文本实体识别方法和系统
CN113434636A (zh) 基于语义的近似文本搜索方法、装置、计算机设备及介质
CN111858860B (zh) 搜索信息处理方法及系统、服务器、计算机可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20220914

Address after: 25 Financial Street, Xicheng District, Beijing 100033

Applicant after: CHINA CONSTRUCTION BANK Corp.

Address before: 25 Financial Street, Xicheng District, Beijing 100033

Applicant before: CHINA CONSTRUCTION BANK Corp.

Applicant before: Jianxin Financial Science and Technology Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant