CN113191152B - 一种基于实体扩展的实体识别方法和系统 - Google Patents

一种基于实体扩展的实体识别方法和系统 Download PDF

Info

Publication number
CN113191152B
CN113191152B CN202110733185.7A CN202110733185A CN113191152B CN 113191152 B CN113191152 B CN 113191152B CN 202110733185 A CN202110733185 A CN 202110733185A CN 113191152 B CN113191152 B CN 113191152B
Authority
CN
China
Prior art keywords
concept
word
words
entity
concept words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110733185.7A
Other languages
English (en)
Other versions
CN113191152A (zh
Inventor
韩瑞峰
金霞
杨红飞
程东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huoshi Creation Technology Co ltd
Original Assignee
Hangzhou Firestone Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Firestone Technology Co ltd filed Critical Hangzhou Firestone Technology Co ltd
Priority to CN202110733185.7A priority Critical patent/CN113191152B/zh
Publication of CN113191152A publication Critical patent/CN113191152A/zh
Application granted granted Critical
Publication of CN113191152B publication Critical patent/CN113191152B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种基于实体扩展的实体识别方法和系统,其中,该方法包括:通过多种短语挖掘方法对无标签语料的句子进行分割,得到概念词候选集,其中,概念词候选集包含若干概念词,通过词嵌入算法对概念词进行训练,得到概念词的词向量,根据词向量计算概念词的文本特征,根据领域实体词列表将概念词设置为正负样本,根据正负样本和文本特征来训练分类模型,得到概念词的置信度,根据置信度进行重新分割,得到基于实体扩展的实体词。通过本申请,解决了实体识别中对标注样本依赖性强和识别准确率低的问题。实现了利用领域实体词列表进行监督学习,得到无标签语料的实体识别结果,同时达到了对领域实体词列表进行扩充的效果。

Description

一种基于实体扩展的实体识别方法和系统
技术领域
本申请涉及数据识别领域,特别是涉及一种基于实体扩展的实体识别方法和系统。
背景技术
在文本信息抽取的应用场景中,由于场景多样、细化,样本标注成为文本信息抽取过程中重要的一环,工业应用上面临着缺少标注样本,样本标注成本高的现状,目前的文本信息抽取方法中,基于模型训练的方法需要大量的标注样本,虽然有一些深度模型呈现准确度越来越高,需要的标注样本量越来越少的趋势,但仍然需要一定量的标注样本才能训练得到可用的模型,在获取到标注样本前,无法开展工作,这样的过程相当于将开发成本转嫁到样本标注上,整体开发效率仍然低下。
目前针对相关技术中对标注样本依赖性强和识别准确率低的问题,尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种基于实体扩展的实体识别方法和系统,以至少解决相关技术中标注样本依赖性强和识别准确率低的问题。
第一方面,本申请实施例提供了一种基于实体扩展的实体识别方法,所述方法包括:
通过多种短语挖掘方法对无标签语料的句子进行分割,得到概念词候选集,其中,所述概念词候选集包含若干概念词;
通过词嵌入算法对所述概念词候选集中的概念词进行训练,得到所述概念词的词向量;
根据所述概念词的词向量计算所述概念词的文本特征,根据领域实体词列表将所述概念词设置为正负样本;
根据所述正负样本和所述文本特征来训练分类模型,得到所述概念词的置信度,其中,所述分类模型包括随机森林、支持向量机和DNN;
根据所述置信度,通过动态规划方法对所述无标签语料的句子进行重新分割,得到基于实体扩展的实体词。
在其中一些实施例中,根据所述概念词的词向量计算所述概念词的文本特征包括:
计算所述概念词的上下文一致度,若概念词的词向量间的距离小于第一距离阈值,则以所述概念词的数量,来表示所述上下文一致度;
计算所述概念词的上下文纯度,若概念词的词向量间的距离小于第二距离阈值,则以所述词向量之间的相似度的平均值,来表示所述上下文纯度;
计算所述概念词的上下文知识连接性,若概念词的词向量间的距离小于第三距离阈值,且包含在预设高质量实体集中,则以所述概念词的数量,来表示所述上下文一致度,其中,所述预设高质量实体集存在于领域实体词列表中;
计算所述概念词的上下文泛用性,若概念词的词向量间的距离小于第四距离阈值,且所述概念词包含相同的组成词,则以所述概念词的数量,来表示所述上下文一致度。
在其中一些实施例中,根据领域实体词列表将所述概念词设置为正负样本包括:
根据领域实体词列表,若概念词出现在所述领域实体词列表中,则将所述概念词设置为正样本;
若概念词未现在所述领域实体词列表中,则将所述概念词设置为负样本。
在其中一些实施例中,通过词嵌入算法对所述概念词候选集中的概念词进行训练,得到所述概念词的词向量包括:
以分割前无标签语料的句子为单位,句子中前一个概念超集的全部概念词与后一个概念超集的全部概念词的组合,作为前后文词对,输入到word2vec模型中,其中,概念超集是具有重叠概念的概念词形成的,即概念超集是特殊的概念词;
通过所述word2vec模型进行训练,根据随机梯度下降的方式,在所述概念词上循环计算反向梯度,并对所述word2vec模型的参数进行调整,得到所述概念词的词向量,使得词义相近的概念词的词向量距离相对接近。
在其中一些实施例中,根据所述置信度,通过动态规划方法对所述无标签语料的句子进行重新分割,得到基于实体扩展的实体词包括:
所述无标签语料包含若干句子,按照每个句子重新分割得到的概念词的置信度之和为最大的规则,通过动态规划方法来进行重新分割得到基于实体扩展的实体词。
第二方面,本申请实施例提供了一种基于实体扩展的实体识别系统,所述系统包括预分割模块、词向量模块、特征样本模块、置信度模块和再分割模块;
所述预分割模块通过多种短语挖掘方法对无标签语料的句子进行分割,得到概念词候选集,其中,所述概念词候选集包含若干概念词;
所述词向量模块通过词嵌入算法对所述概念词候选集中的概念词进行训练,得到所述概念词的词向量;
所述特征样本模块根据所述概念词的词向量计算所述概念词的文本特征,根据领域实体词列表将所述概念词设置为正负样本;
所述置信度模块根据所述正负样本和所述文本特征来训练分类模型,得到所述概念词的置信度,其中,所述分类模型包括随机森林、支持向量机和DNN;
所述再分割模块根据所述置信度,通过动态规划方法对所述无标签语料的句子进行重新分割,得到基于实体扩展的实体词。
在其中一些实施例中,所述特征样本模块根据所述概念词的词向量计算所述概念词的文本特征包括:
所述特征样本模块计算所述概念词的上下文一致度,若概念词的词向量间的距离小于第一距离阈值,则以所述概念词的数量,来表示所述上下文一致度;
所述特征样本模块计算所述概念词的上下文纯度,若概念词的词向量间的距离小于第二距离阈值,则以所述词向量之间的相似度的平均值,来表示所述上下文纯度;
所述特征样本模块计算所述概念词的上下文知识连接性,若概念词的词向量间的距离小于第三距离阈值,且包含在预设高质量实体集中,则以所述概念词的数量,来表示所述上下文一致度,其中,所述预设高质量实体集存在于领域实体词列表中;
所述特征样本模块计算所述概念词的上下文泛用性,若概念词的词向量间的距离小于第四距离阈值,且所述概念词包含相同的组成词,则以所述概念词的数量,来表示所述上下文一致度。
在其中一些实施例中,所述特征样本模块根据领域实体词列表将所述概念词设置为正负样本包括:
所述特征样本模块根据领域实体词列表,若概念词出现在所述领域实体词列表中,则将所述概念词设置为正样本;
若概念词未现在所述领域实体词列表中,则将所述概念词设置为负样本。
在其中一些实施例中,所述词向量模块通过词嵌入算法对所述概念词候选集中的概念词进行训练,得到所述概念词的词向量包括:
所述词向量模块以分割前无标签语料的句子为单位,句子中前一个概念超集的全部概念词与后一个概念超集的全部概念词的组合,作为前后文词对,输入到word2vec模型中,其中,概念超集是具有重叠概念的概念词形成的,即概念超集是特殊的概念词;
所述词向量模块通过word2vec模型进行训练,根据随机梯度下降的方式,在所述概念词上循环计算反向梯度,并对所述word2vec模型的参数进行调整,得到所述概念词的词向量,使得词义相近的概念词的词向量距离相对接近。
在其中一些实施例中,所述再分割模块根据所述置信度,通过动态规划方法对所述无标签语料的句子进行重新分割,得到基于实体扩展的实体词包括:
所述无标签语料包含若干句子,所述再分割模块按照每个句子重新分割得到的概念词的置信度之和为最大的规则,来进行重新分割得到基于实体扩展的实体词。
相比于相关技术,本申请实施例提供的一种基于实体扩展的实体识别方法和系统,通过多种短语挖掘方法对无标签语料的句子进行分割,得到概念词候选集,其中,概念词候选集包含若干概念词,通过词嵌入算法对概念词进行训练,得到概念词的词向量,根据概念词的词向量计算概念词的文本特征,根据领域实体词列表将概念词设置为正负样本,根据正负样本和文本特征来训练分类模型,得到概念词的置信度,根据置信度,通过动态规划方法对无标签语料的句子进行重新分割,得到基于实体扩展的实体词,解决了实体识别中对标注样本依赖性强和识别准确率低的问题,实现了利用领域实体词列表进行远程监督学习,得到无标签语料的实体识别结果,同时达到了对领域实体词列表进行扩充的效果。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的基于实体扩展的实体识别方法的步骤流程图;
图2是根据本申请实施例的基于实体扩展的实体识别系统的结构框图;
图3是根据本申请具体实施例的基于实体扩展的实体识别方法的流程示意图;
图4是根据本申请实施例的电子设备的内部结构示意图。
附图说明:21、预分割模块;22、词向量模块;23、特征样本模块;24、置信度模块;25、再分割模块。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。
本申请实施例提供了一种基于实体扩展的实体识别方法,图1是根据本申请实施例的基于实体扩展的实体识别方法的步骤流程图,如图1所示,该方法包括以下步骤:
步骤S102,通过多种短语挖掘方法对无标签语料的句子进行分割,得到概念词候选集,其中,概念词候选集包含若干概念词;
步骤S104,通过词嵌入算法对概念词候选集中的概念词进行训练,得到概念词的词向量;
步骤S106,根据概念词的词向量计算概念词的文本特征,根据领域实体词列表将概念词设置为正负样本;
步骤S108,根据正负样本和文本特征来训练分类模型,得到概念词的置信度,其中,分类模型包括随机森林、支持向量机和DNN;
步骤S110,根据置信度,通过动态规划方法对无标签语料的句子进行重新分割,得到基于实体扩展的实体词。
通过本申请实施例中的步骤S102至步骤S104,解决了实体识别中对标注样本依赖性强和识别准确率低的问题,实现了利用领域实体词列表进行远程监督学习,得到无标签语料的实体识别结果,同时达到了对领域实体词列表进行扩充的效果。
在其中一些实施例中,步骤S106,根据概念词的词向量计算概念词的文本特征包括:
计算概念词的上下文一致度,若概念词的词向量间的距离小于第一距离阈值,则以概念词的数量,来表示上下文一致度;
计算概念词的上下文纯度,若概念词的词向量间的距离小于第二距离阈值,则以词向量之间的相似度的平均值,来表示上下文纯度;
计算概念词的上下文知识连接性,若概念词的词向量间的距离小于第三距离阈值,且包含在预设高质量实体集中,则以概念词的数量,来表示上下文一致度,其中,预设高质量实体集存在于领域实体词列表中;
计算概念词的上下文泛用性,若概念词的词向量间的距离小于第四距离阈值,且概念词包含相同的组成词,则以概念词的数量,来表示上下文一致度。
在其中一些实施例中,步骤S106,根据领域实体词列表将概念词设置为正负样本包括:
根据领域实体词列表,若概念词出现在领域实体词列表中,则将概念词设置为正样本;
若概念词未现在领域实体词列表中,则将概念词设置为负样本。
在其中一些实施例中,步骤S104,通过词嵌入算法对概念词候选集中的概念词进行训练,得到概念词的词向量包括:
以分割前无标签语料的句子为单位,句子中前一个概念超集的全部概念词与后一个概念超集的全部概念词的组合,作为前后文词对,输入到word2vec模型中,其中,概念超集是具有重叠概念的概念词形成的,即概念超集是特殊的概念词;
通过word2vec模型进行训练,根据随机梯度下降的方式,在概念词上循环计算反向梯度,并对word2vec模型的参数进行调整,得到概念词的词向量,使得词义相近的概念词的词向量距离相对接近。
需要说明的是,如句子 “支持向量机是一个优雅的算法”,其中,“支持向量机”是一个概念超集,包含了“支持”和“向量机”两个概念词,当然,“是”与“一个”也可以概念超集,是一个单概念的概念超集。
在其中一些实施例中,步骤S110,根据置信度,通过动态规划方法对无标签语料的句子进行重新分割,得到基于实体扩展的实体词包括:
无标签语料包含若干句子,按照每个句子重新分割得到的概念词的置信度之和为最大的规则,通过动态规划方法来进行重新分割得到基于实体扩展的实体词。
需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例提供了一种基于实体扩展的实体识别系统,图2是根据本申请实施例的基于实体扩展的实体识别系统的结构框图,如图2所示,该系统包括预分割模块21、词向量模块22、特征样本模块23、置信度模块24和再分割模块25;
预分割模块21通过多种短语挖掘方法对无标签语料的句子进行分割,得到概念词候选集,其中,概念词候选集包含若干概念词;
词向量模块22通过词嵌入算法对概念词候选集中的概念词进行训练,得到概念词的词向量;
特征样本模块23根据概念词的词向量计算概念词的文本特征,根据领域实体词列表将概念词设置为正负样本;
置信度模块24根据正负样本和文本特征来训练分类模型,得到概念词的置信度,其中,分类模型包括随机森林、支持向量机和DNN;
再分割模块25根据置信度,通过动态规划方法对无标签语料的句子进行重新分割,得到基于实体扩展的实体词。
通过本申请实施例,预分割模块21利用多种短语挖掘方法对无标签语料的句子进行分割,得到概念词候选集,其中,概念词候选集包含若干概念词,词向量模块22利用词嵌入算法对概念词进行训练,得到概念词的词向量,特征样本模块23根据概念词的词向量计算概念词的文本特征,根据领域实体词列表将概念词设置为正负样本,置信度模块24根据正负样本和文本特征来训练分类模型,得到概念词的置信度,再分割模块25根据置信度,通过动态规划方法对无标签语料的句子进行重新分割,得到基于实体扩展的实体词,解决了实体识别中对标注样本依赖性强和识别准确率低的问题,实现了利用领域实体词列表进行远程监督学习,得到无标签语料的实体识别结果,同时达到了对领域实体词列表进行扩充的效果。
在其中一些实施例中,特征样本模块23根据概念词的词向量计算概念词的文本特征包括:
特征样本模块23计算概念词的上下文一致度,若概念词的词向量间的距离小于第一距离阈值,则以概念词的数量,来表示上下文一致度;
特征样本模块23计算概念词的上下文纯度,若概念词的词向量间的距离小于第二距离阈值,则以词向量之间的相似度的平均值,来表示上下文纯度;
特征样本模块23计算概念词的上下文知识连接性,若概念词的词向量间的距离小于第三距离阈值,且包含在预设高质量实体集中,则以概念词的数量,来表示上下文一致度,其中,预设高质量实体集存在于领域实体词列表中;
特征样本模块23计算概念词的上下文泛用性,若概念词的词向量间的距离小于第四距离阈值,且概念词包含相同的组成词,则以概念词的数量,来表示上下文一致度。
在其中一些实施例中,特征样本模块23根据领域实体词列表将概念词设置为正负样本包括:
特征样本模块23根据领域实体词列表,若概念词出现在领域实体词列表中,则将概念词设置为正样本;
若概念词未现在领域实体词列表中,则将概念词设置为负样本。
在其中一些实施例中,词向量模块22通过词嵌入算法对概念词候选集中的概念词进行训练,得到概念词的词向量包括:
词向量模块22以分割前无标签语料的句子为单位,句子中前一个概念超集的全部概念词与后一个概念超集的全部概念词的组合,作为前后文词对,输入到word2vec模型中,其中,概念超集是具有重叠概念的概念词形成的,即概念超集是特殊的概念词;词向量模块22通过word2vec模型对概念词候选集中的概念词进行训练,根据随机梯度下降的方式,在概念词上循环计算反向梯度,并对word2vec模型的参数进行调整,得到概念词的词向量,使得词义相近的概念词的词向量距离相对接近。
在其中一些实施例中,再分割模块25根据置信度,通过动态规划方法对无标签语料的句子进行重新分割,得到基于实体扩展的实体词包括:
无标签语料包含若干句子,再分割模块25按照每个句子重新分割得到的概念词的置信度之和为最大的规则,来进行重新分割得到基于实体扩展的实体词。需要说明的是,如句子 “支持向量机是一个优雅的算法”,其中,“支持向量机”是一个概念超集,包含了“支持”和“向量机”两个概念词,当然,“是”与“一个”也可以概念超集,是一个单概念的概念超集。
上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
本申请具体实施例提供了一种基于实体扩展的实体识别方法,图3是根据本申请具体实施例的基于实体扩展的实体识别方法的流程示意图,如图3所示,该方法包括以下步骤:
步骤一,统计语料产生的概念词及其在语料中的位置。
用多种短语挖掘方法,得到高召回的概念词候选集 ,一个句子可能包含多个重叠的分割结果。句子中重叠的概念形成概念超集,如句子中的“向量机”和“支持向量机”,“支持向量机”是一个概念超集,包含了这2个概念,通过在概念超集中选择一个最佳概念,得到句子的最佳分割,这样就把短语分割问题转化成了在概念超集中选择最佳概念的选择问题。对于只有一个概念的概念超集,则为单个概念的取舍选择问题。
步骤二,学习概念词的词向量。
训练目标为在句子的上下文中,词之间的上下文适应度,即相邻的词的意义应该是相近的。通过word2vec工具进行训练,训练时只取候选概念词,忽略其他的词,用第一步获得的概念词候选集建立训练样本,对一个有多个概念超集的句子,前一个概念超集中的全部概念词与后一个概念超集中的全部概念词的组合,都作为前后文词对,输入到word2vec进行训练,将每个词表示为固定长度的词向量,用随机梯度下降的方式,在全部词对上循环计算反向梯度,并对模型参数进行调整,最终达到相近词的向量距离接近的目标。
步骤三,计算概念词的置信度值。
在步骤二中将概念词作为单个词训练,得到了概念词的词向量,在本步骤基于词向量,计算概念词的置信度。给定一些出现于知识库(领域实体词列表)中的概念词作为正样例,和其他一些随机选取的概念词作为负样例,计算以下几个特征,并基于这些样本和他们的特征训练分类模型,如随机森林、支持向量机、DNN等,来计算实体的置信度值。
计算上下文一致度:同类型实体所处的上下文是相近的,实体的词向量表示了其上下文,因此用实体的词向量距离在阈值K1以内的实体的个数,表示这一度量,个数越多实体越可信。
计算上下文的纯度:用实体c的词向量与距离在阈值K2以内的实体的词向量之间的相似度的平均值表示。这是由于有明确含义的实体,其上下文是比较单纯的,而一般的非实体序列,其上下文是比较多样的,而词向量表示了上下文的语义,因此该值越高表示越接近实体的定义。
计算上下文知识连接性:用实体c的词向量距离在阈值K3以内的,且包含在预设高质量实体集合V内的实体的个数表示。预设高质量实体是存在于知识库中的,该度量是为了表示实体是否与多个知识库实体的语义相同,即处于相同的上下文中。
计算上下文泛化性:实体c是否能够泛化到更多的更具体的实体,如果能则进一步印证其可信程度。用实体c的词向量距离在阈值K4以内的,且其序列包含实体c的实体的个数来表示。如“支持向量机”作为一个实体,可以具化为“模糊支持向量机”“孪生支持向量机”“二分类支持向量机”,它们都与“支持向量机”具有相似的上下文,且能够进一步印证“支持向量机”是一个实体。
步骤四,实体识别,得到语料中实体的位置。
可选地,基于该置信度,用动态规划方法(如veterbi)对语料的句子重新分割,即得到使得每个句子的置信度值之和最大的分割。
可选地,对语料中每个句子,对概念词候选集中的概念词进行笛卡尔乘积,得到若干分割组合,将分割组合整合得到乘积集合;
将乘积集合中每个分割组合的概念词输入word2vec模型,得到分割组合的分值为S0;
每个分割组合中所有概念词的置信度之和为S1;
每个分割组合中所有概念词的概念词与概念超集的词长度之比的和为S2;
每个分割组合中所有概念词的概念词位于概念超集词末位置的数量之和为S3;
每个分割组合中概念超集的概念词的词向量,与该概念超集的词向量距离小于阈值K5,则该概念词的数量之和为S4。(对一种分割中的每个概念c,计算c的超集C中概念满足该条件的概念的数量Nc,对于该句子分割中的全部概念计算该数量的和)
计算S0+a*S1+b*S2+c*S3+d*S4作为一种分割的分数,对所有分割的分数进行排序,取分数最高的分割作为该句子的分割结果,其中,a、b、c、d均为预设权重。
对于第二个可选的具体举例如下:
假设句子“分析英国生物银行的健康数据”
改句子中包含D1、D2、D3和D4中的概念词;
D1 = {分析};
D2 = {英国生物银行,(英国,生物银行),(英国生物,银行),(英国,生物,银行)};
D3 = {的};
D4 = {健康数据,(健康,数据)};
对该句子中的概念词进行笛卡尔乘积;(D1×D2×D3×D4)
得到8种分割组合,这8种分割组合整合得到乘积集合D;
D = {(分析, 英国生物银行, 的,健康数据),
(分析,英国生物银行,的,健康,数据),
(分析,英国,生物银行,的,健康数据),
(分析,英国,生物银行,的,健康,数据),
(分析,英国生物,银行,的,健康数据),
(分析,英国生物,银行,的,健康,数据),
(分析,英国,生物,银行,的,健康数据),
(分析,英国,生物,银行,的,健康,数据) }。
后续的S0、S1、S2、S3和S4以分割组合为单位进行计算、求和、排序,以及选出分数最高的分割作为该句子的分割结果。
需要说明的是,以本具体实施例中假设句子的D2为例,“英国生物银行”是一个概念超集,“英国”、“生物银行”、“英国生物”、“生物”和“银行”则是该概念超集中的5个概念词。
通过本申请具体实施例中的步骤一至步骤四,解决了实体识别中对标注样本依赖性强和识别准确率低的问题,实现了利用领域实体词列表进行远程监督学习,得到无标签语料的实体识别结果,同时达到了对领域实体词列表进行扩充的效果。
需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
需要说明的是,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
另外,结合上述实施例中的基于实体扩展的实体识别方法,本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意一种基于实体扩展的实体识别方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于实体扩展的实体识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
在一个实施例中,图4是根据本申请实施例的电子设备的内部结构示意图,如图4所示,提供了一种电子设备,该电子设备可以是服务器,其内部结构图可以如图4所示。该电子设备包括通过内部总线连接的处理器、网络接口、内存储器和非易失性存储器,其中,该非易失性存储器存储有操作系统、计算机程序和数据库。处理器用于提供计算和控制能力,网络接口用于与外部的终端通过网络连接通信,内存储器用于为操作系统和计算机程序的运行提供环境,计算机程序被处理器执行时以实现一种基于实体扩展的实体识别方法,数据库用于存储数据。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本领域的技术人员应该明白,以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (8)

1.一种基于实体扩展的实体识别方法,其特征在于,所述方法包括:
通过多种短语挖掘方法对无标签语料的句子进行分割,得到概念词候选集,其中,所述概念词候选集包含若干概念词;
以分割前无标签语料的句子为单位,句子中前一个概念超集的全部概念词与后一个概念超集的全部概念词的组合,作为前后文词对,输入到word2vec模型中,其中,概念超集是具有重叠概念的概念词形成的,即概念超集是特殊的概念词;
通过所述word2vec模型进行训练,根据随机梯度下降的方式,在所述概念词上循环计算反向梯度,并对所述word2vec模型的参数进行调整,得到所述概念词的词向量,使得词义相近的概念词的词向量距离相对接近;
根据所述概念词的词向量计算所述概念词的文本特征,根据领域实体词列表将所述概念词设置为正负样本;
根据所述正负样本和所述文本特征来训练分类模型,得到所述概念词的置信度,其中,所述分类模型包括随机森林、支持向量机和DNN;
根据所述置信度,通过动态规划方法对所述无标签语料的句子进行重新分割,得到基于实体扩展的实体词。
2.根据权利要求1所述的方法,其特征在于,根据所述概念词的词向量计算所述概念词的文本特征包括:
计算所述概念词的上下文一致度,若概念词的词向量间的距离小于第一距离阈值,则以所述概念词的数量,来表示所述上下文一致度;
计算所述概念词的上下文纯度,若概念词的词向量间的距离小于第二距离阈值,则以所述词向量之间的相似度的平均值,来表示所述上下文纯度;
计算所述概念词的上下文知识连接性,若概念词的词向量间的距离小于第三距离阈值,且包含在预设高质量实体集中,则以所述概念词的数量,来表示所述上下文一致度,其中,所述预设高质量实体集存在于领域实体词列表中;
计算所述概念词的上下文泛用性,若概念词的词向量间的距离小于第四距离阈值,且所述概念词包含相同的组成词,则以所述概念词的数量,来表示所述上下文一致度。
3.根据权利要求1所述的方法,其特征在于,根据领域实体词列表将所述概念词设置为正负样本包括:
根据领域实体词列表,若概念词出现在所述领域实体词列表中,则将所述概念词设置为正样本;
若概念词未现在所述领域实体词列表中,则将所述概念词设置为负样本。
4.根据权利要求1所述的方法,其特征在于,根据所述置信度,通过动态规划方法对所述无标签语料的句子进行重新分割,得到基于实体扩展的实体词包括:
所述无标签语料包含若干句子,按照每个句子重新分割得到的概念词的置信度之和为最大的规则,通过动态规划方法来进行重新分割得到基于实体扩展的实体词。
5.一种基于实体扩展的实体识别系统,其特征在于,所述系统包括预分割模块、词向量模块、特征样本模块、置信度模块和再分割模块;
所述预分割模块通过多种短语挖掘方法对无标签语料的句子进行分割,得到概念词候选集,其中,所述概念词候选集包含若干概念词;
所述词向量模块以分割前无标签语料的句子为单位,句子中前一个概念超集的全部概念词与后一个概念超集的全部概念词的组合,作为前后文词对,输入到word2vec模型中,其中,概念超集是具有重叠概念的概念词形成的,即概念超集是特殊的概念词;
所述词向量模块通过所述word2vec模型进行训练,根据随机梯度下降的方式,在所述概念词上循环计算反向梯度,并对所述word2vec模型的参数进行调整,得到所述概念词的词向量,使得词义相近的概念词的词向量距离相对接近;
所述特征样本模块根据所述概念词的词向量计算所述概念词的文本特征,根据领域实体词列表将所述概念词设置为正负样本;
所述置信度模块根据所述正负样本和所述文本特征来训练分类模型,得到所述概念词的置信度,其中,所述分类模型包括随机森林、支持向量机和DNN;
所述再分割模块根据所述置信度,通过动态规划方法对所述无标签语料的句子进行重新分割,得到基于实体扩展的实体词。
6.根据权利要求5所述的系统,其特征在于,所述特征样本模块根据所述概念词的词向量计算所述概念词的文本特征包括:
所述特征样本模块计算所述概念词的上下文一致度,若概念词的词向量间的距离小于第一距离阈值,则以所述概念词的数量,来表示所述上下文一致度;
所述特征样本模块计算所述概念词的上下文纯度,若概念词的词向量间的距离小于第二距离阈值,则以所述词向量之间的相似度的平均值,来表示所述上下文纯度;
所述特征样本模块计算所述概念词的上下文知识连接性,若概念词的词向量间的距离小于第三距离阈值,且包含在预设高质量实体集中,则以所述概念词的数量,来表示所述上下文一致度,其中,所述预设高质量实体集存在于领域实体词列表中;
所述特征样本模块计算所述概念词的上下文泛用性,若概念词的词向量间的距离小于第四距离阈值,且所述概念词包含相同的组成词,则以所述概念词的数量,来表示所述上下文一致度。
7.根据权利要求5所述的系统,其特征在于,所述特征样本模块根据领域实体词列表将所述概念词设置为正负样本包括:
所述特征样本模块根据领域实体词列表,若概念词出现在所述领域实体词列表中,则将所述概念词设置为正样本;
若概念词未现在所述领域实体词列表中,则将所述概念词设置为负样本。
8.根据权利要求5所述的系统,其特征在于,所述再分割模块根据所述置信度,通过动态规划方法对所述无标签语料的句子进行重新分割,得到基于实体扩展的实体词包括:
所述无标签语料包含若干句子,所述再分割模块按照每个句子重新分割得到的概念词的置信度之和为最大的规则,来进行重新分割得到基于实体扩展的实体词。
CN202110733185.7A 2021-06-30 2021-06-30 一种基于实体扩展的实体识别方法和系统 Active CN113191152B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110733185.7A CN113191152B (zh) 2021-06-30 2021-06-30 一种基于实体扩展的实体识别方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110733185.7A CN113191152B (zh) 2021-06-30 2021-06-30 一种基于实体扩展的实体识别方法和系统

Publications (2)

Publication Number Publication Date
CN113191152A CN113191152A (zh) 2021-07-30
CN113191152B true CN113191152B (zh) 2021-09-10

Family

ID=76976739

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110733185.7A Active CN113191152B (zh) 2021-06-30 2021-06-30 一种基于实体扩展的实体识别方法和系统

Country Status (1)

Country Link
CN (1) CN113191152B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113657113A (zh) * 2021-08-24 2021-11-16 北京字跳网络技术有限公司 文本处理方法、装置和电子设备
CN113987197B (zh) * 2021-10-01 2024-04-23 杭州量知数据科技有限公司 一种全领域产品节点体系动态融合与生长方法
CN115269844B (zh) * 2022-08-01 2024-03-29 腾讯科技(深圳)有限公司 模型的处理方法、装置、电子设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111522957A (zh) * 2020-05-09 2020-08-11 支付宝(杭州)信息技术有限公司 一种短语分割模型的训练方法和系统
CN111832315A (zh) * 2020-06-30 2020-10-27 北京小米松果电子有限公司 语义识别的方法、装置、电子设备和存储介质
CN112347776A (zh) * 2019-08-09 2021-02-09 金色熊猫有限公司 医疗数据处理方法及装置、存储介质、电子设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112347776A (zh) * 2019-08-09 2021-02-09 金色熊猫有限公司 医疗数据处理方法及装置、存储介质、电子设备
CN111522957A (zh) * 2020-05-09 2020-08-11 支付宝(杭州)信息技术有限公司 一种短语分割模型的训练方法和系统
CN111832315A (zh) * 2020-06-30 2020-10-27 北京小米松果电子有限公司 语义识别的方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN113191152A (zh) 2021-07-30

Similar Documents

Publication Publication Date Title
CN113191152B (zh) 一种基于实体扩展的实体识别方法和系统
CN111444320B (zh) 文本检索方法、装置、计算机设备和存储介质
CN109858010B (zh) 领域新词识别方法、装置、计算机设备和存储介质
CN109948149B (zh) 一种文本分类方法及装置
CN110826328A (zh) 关键词提取方法、装置、存储介质和计算机设备
CN110196980B (zh) 一种基于卷积网络在中文分词任务上的领域迁移
CN112052684A (zh) 电力计量的命名实体识别方法、装置、设备和存储介质
CN111259113B (zh) 文本匹配方法、装置、计算机可读存储介质和计算机设备
CN114443850B (zh) 基于语义相似模型的标签生成方法、系统、装置和介质
CN112966068A (zh) 基于网页信息的简历识别方法和装置
CN113806493B (zh) 一种用于互联网文本数据的实体关系联合抽取方法、装置
CN112541079A (zh) 多意图识别方法、装置、设备及介质
CN113657105A (zh) 基于词汇增强的医学实体抽取方法、装置、设备及介质
CN113536735A (zh) 一种基于关键词的文本标记方法、系统和存储介质
CN112100377A (zh) 文本分类方法、装置、计算机设备和存储介质
CN113177411A (zh) 命名实体识别模型的训练方法和命名实体识别的方法
CN114064852A (zh) 自然语言的关系抽取方法、装置、电子设备和存储介质
CN113591469A (zh) 一种基于词语解释的文本增强的方法和系统
CN113822040A (zh) 一种主观题阅卷评分方法、装置、计算机设备及存储介质
CN111444906B (zh) 基于人工智能的图像识别方法和相关装置
CN110888983B (zh) 一种正负面情感分析方法、终端设备及存储介质
JP6495124B2 (ja) 用語意味コード判定装置、用語意味コード判定モデル学習装置、方法、及びプログラム
CN116644148A (zh) 关键词识别方法、装置、电子设备及存储介质
CN116089605A (zh) 基于迁移学习和改进词袋模型的文本情感分析方法
CN111507098B (zh) 多义词识别方法、装置、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 310000 7th floor, building B, No. 482, Qianmo Road, Xixing street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: Huoshi Creation Technology Co.,Ltd.

Address before: 310000 7th floor, building B, No. 482, Qianmo Road, Xixing street, Binjiang District, Hangzhou City, Zhejiang Province

Patentee before: HANGZHOU FIRESTONE TECHNOLOGY Co.,Ltd.