CN110069781B - 一种实体标签的识别方法及相关设备 - Google Patents

一种实体标签的识别方法及相关设备 Download PDF

Info

Publication number
CN110069781B
CN110069781B CN201910335748.XA CN201910335748A CN110069781B CN 110069781 B CN110069781 B CN 110069781B CN 201910335748 A CN201910335748 A CN 201910335748A CN 110069781 B CN110069781 B CN 110069781B
Authority
CN
China
Prior art keywords
target
semantic block
text
model
participle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910335748.XA
Other languages
English (en)
Other versions
CN110069781A (zh
Inventor
赵知纬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201910335748.XA priority Critical patent/CN110069781B/zh
Publication of CN110069781A publication Critical patent/CN110069781A/zh
Application granted granted Critical
Publication of CN110069781B publication Critical patent/CN110069781B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供了一种实体标签的识别方法及相关设备,用于识别文本的实体标签,以便于更好的理解用户的搜索意图,提高用户体验。该方法包括:对目标文本进行分词,得到目标分词集合;对所述目标分词集合中的每个分词进行向量化处理;将向量化处理后的所述目标分词集合中的每个分词输入第一预设模型,以得到所述目标文本对应的各个语义块组合的概率值;确定目标语义块组合中每个语义块的向量;将所述目标语义块组合中每个语义块的向量输入第二预设模型,以得到所述目标语义块组合中每个语义块的实体标签的概率值;将所述目标语义块组合中每个语义块的概率值达到第二预设阈值的实体标签确定为所述目标语义块组合中每个语义块的实体标签。

Description

一种实体标签的识别方法及相关设备
技术领域
本发明涉及自然语言处理领域,特别涉及一种实体标签的识别方法及相关设备。
背景技术
在传统的实体识别任务里,基于条件随机场(Conditional Random Fields,CRF)模型的序列标注方法是最为常用的方法。这类方法一般首先根据输入文本的字/词序列创建一种或多种特征序列,然后定义一系列的特征模板用于规范在这一种或多种特征序列里的要抽取的特征以及特征组合,最后把抽取到的序列的特征输入到CRF中得到的序列标签里,就包含了实体的边界信息以及类别信息。
近年来,随着神经网络的再次兴起,许多自然语言处理(Natural LanguageProcessing,NLP)任务都借由神经网络而达到了更好的效果,实体识别也是其中之一。在通用领域的实体识别任务里,目前基于神经网络的实体识别方法多数都是基于循环神经网络(Recurrent Neural Network,RNN)、卷积神经网络(Convolutional Neural Networks,CNN)或者与CRF的结合的方法。
但是由于视频领域实体存在通用领域实体所没有的特点,直接套用通用领域的方法不能有效提高视频领域实体识别的效果。
发明内容
本发明实施例提供了一种实体标签的识别方法及相关设备,用于识别文本的实体标签,以便于更好的理解用户的搜索意图,提高用户体验。
本发明实施例第一方面提供了一种实体标签的识别方法,包括:
对目标文本进行分词,得到目标分词集合,所述目标文本为待识别实体标签的文本;
对所述目标分词集合中的每个分词进行向量化处理;
将向量化处理后的每个分词输入第一预设模型,以得到所述目标文本对应的各个语义块组合的概率值,所述第一预设模型为通过第一模型对训练数据进行训练得到的,所述训练数据包括训练文本集合中每个文本对应的分词的向量,且所述训练文本集合中每个文本为经过人工标注实体标签序列的文本,所述各个语义块组合中的每个语义块中至少包括一个所述目标分词集合中的分词;
确定目标语义块组合中每个语义块的向量,所述目标语义块组合为所述目标文本对应的各个语义块组合中概率值达到第一预设阈值的语义块组合;
将所述目标语义块组合中每个语义块的向量输入第二预设模型,以得到所述目标语义块组合中每个语义块的实体标签的概率值,所述第二预设模型为通过第二模型对所述第一模型输出的第一目标语义块组合中每个语义块的向量进行训练得到的,所述第一目标语义块组合为所述每个文本对应的语义块组合中概率值达到所述第一预设阈值的语义块组合,所述第一目标语义块组合中每个语义块至少包括一个所述每个文本对应的分词;
将所述目标语义块组合中每个语义块的概率值达到第二预设阈值的实体标签确定为所述目标语义块组合中每个语义块的实体标签。
可选地,所述第一模型为基于半马尔科夫的条件随机场模型,所述第二模型为自注意力模型,所述方法还包括:
对所述每个文本进行分词,得到所述每个文本的分词;
对所述每个文本的分词中的各个分词分别进行向量化处理,得到所述每个文本的分词对应的分词向量;
基于所述每个文本的分词对应的分词向量对所述基于半马尔科夫的条件随机场模型以及所述自注意力模型的模型参数进行迭代更新;
当达到预置迭代终止条件时,将迭代终止时的所述基于半马尔科夫的条件随机场模型确定为所述第一预设模型,且将迭代终止时的所述自注意力模型确定为所述第二预设模型。
可选地,所述基于所述每个文本的分词对应的分词向量对所述基于半马尔科夫的条件随机场模型以及所述自注意力模型的模型参数进行迭代更新包括:
步骤1、选取目标训练文本的分词对应的分词向量输入所述基于半马尔科夫的条件随机场模型,得到所述目标训练文本对应的不同语义块组合的概率值,所述目标训练文本为所述每个文本中的任意一个文本;
步骤2、将目标训练语义块组合中每个语义块的向量输入所述自注意力模型,以得到所述目标训练语义块组合中每个语义块实体标签概率值,所述目标训练语义块组合为所述目标训练文本对应的不同语义块组合中概率值达到所述第一预设阈值的语义块组合;
步骤3、基于所述目标训练语义块组合的概率值以及目标实体标签概率值调整所述基于半马尔科夫的条件随机场模型的模型参数以及所述自注意力模型的模型参数,所述目标实体标签概率值为所述目标训练语义块组合中每个语义块对应的所有实体标签概率值中达到所述第二预设阈值的实体标签概率值;
步骤4、基于模型参数调整后的基于半马尔科夫的条件随机场模型以及模型参数调整后的自注意力模型迭代执行步骤1至步骤3。
可选地,所述选取目标训练文本的分词对应的分词向量输入所述基于半马尔科夫的条件随机场模型,得到所述目标训练文本对应的不同语义块组合的概率值包括:
通过如下公式对所述目标训练文本的分词对应的分词向量进行计算,以得到所述目标训练文本对应的不同语义块组合的概率值:
Figure BDA0002039075520000031
其中,w0w1…wm为所述目标训练文本的分词向量,m为所述目标训练文本的分词集合中分词的数量,w0′w1′…wn′为所述目标训练文本的分词集合对应的分词向量的组合方式,n为所述目标训练文本的分词向量组合后得到的语义块的数量,P(w′0w′1…w′n)为将所述目标训练文本的分词向量按照w′0w′1…w′n的组合方式进行组合的概率值,Z(w)为所述目标训练文本的分词集合中的各个分词的所有组合方式,Msemi-crf为所述基于半马尔科夫的条件随机场模型的模型参数,
Figure BDA0002039075520000041
|L|为实体标签的种类个数,fd为所述目标训练文本的分词向量中每个分词向量的维度,G(·)为所述基于半马尔科夫的条件随机场模型的特征函数。
可选地,所述将目标训练语义块组合输入所述自注意力模型,以得到所述目标训练语义块组合中每个语义块的实体标签概率值包括:
基于所述目标训练语义块组合确定目标矩阵;
分别计算所述目标矩阵与至少一个预设参数矩阵的矩阵点积得到至少一个参数矩阵,所述至少一个预设参数矩阵与所述至少一个参数矩阵具有关联关系;
将至少一个参数矩阵进行分解,得到所述至少一个参数矩阵对应的等宽矩阵;
基于所述至少一个参数矩阵对应的等宽矩阵确定注意力矩阵;
对所述注意力矩阵以及输出参数矩阵进行计算,以得到所述目标训练语义块组合中每个语义块的实体标签概率值;
其中,所述至少一个参数矩阵以及所述输出参数矩阵均为所述自注意力模型的模型参数,且所述输出参数矩阵包括实体标签的种类数。
可选地,所述方法还包括:
判断迭代次数是否达到预置数值,若是,则确定满足所述预置的迭代终止条件;
或,
判断所述基于半马尔科夫的条件随机场模型的模型参数和/或所述自注意力模型的模型参数是否收敛,若是,则确定满足所述预置的迭代终止条件。
本发明实施例第二方面提供了一种实体标签的识别装置,包括:
分词单元,用于对目标文本进行分词,得到目标分词集合,所述目标文本为待识别实体标签的文本;
向量化处理单元,用于对所述目标分词集合中的每个分词进行向量化处理;
处理单元,用于将向量化处理后的所述目标分词集合中的每个分词输入第一预设模型,以得到所述目标文本对应的各个语义块组合的概率值,所述第一预设模型为第一模型对训练数据进行训练得到的,所述训练数据包括训练文本集合中每个文本对应的分词的向量,且所述训练文本集合中每个文本为经过人工标注实体标签序列的文本,所述各个语义块组合中的每个语义块中至少包括一个所述目标分词集合中的分词;
确定单元,用于确定目标语义块组合中每个语义块的向量,所述目标语义块组合为所述目标文本对应的各个语义块组合中概率值达到第一预设阈值的语义块组合;
所述处理单元,还用于将所述目标语义块组合中每个语义块的向量输入第二预设模型,以得到所述目标语义块组合中每个语义块的实体标签的概率值,所述第二预设模型为通过第二模型对所述第一模型输出的第一目标语义块组合中每个语义块的向量进行训练得到的,所述第一目标语义块组合为所述每个文本对应的语义块组合中概率值达到所述第一预设阈值的语义块组合,所述第一目标语义块组合中每个语义块至少包括一个所述每个文本对应的分词;
所述确定单元,还用于将所述目标语义块组合中每个语义块的概率值达到第二预设阈值的实体标签确定为所述目标语义块组合中每个语义块的实体标签。
可选地,所述第一模型为基于半马尔科夫的条件随机场模型,所述第二模型为自注意力模型,所述装置还包括:
训练单元,所述训练单元用于:
对所述每个文本进行分词,得到所述每个文本的分词;
对所述每个文本的分词中的各个分词分别进行向量化处理,得到所述每个文本的分词对应的分词向量;
基于所述每个文本的分词对应的分词向量对所述基于半马尔科夫的条件随机场模型以及所述自注意力模型的模型参数进行迭代更新;
当达到预置迭代终止条件时,将迭代终止时的所述基于半马尔科夫的条件随机场模型确定为所述第一预设模型,且将迭代终止时的所述自注意力模型确定为所述第二预设模型。
可选地,所述训练单元基于所述每个文本的分词对应的分词向量对所述基于半马尔科夫的条件随机场模型以及所述自注意力模型的模型参数进行迭代更新包括:
步骤1、选取目标训练文本的分词对应的分词向量输入所述基于半马尔科夫的条件随机场模型,得到所述目标训练文本对应的不同语义块组合的概率值,所述目标训练文本为所述每个文本中的任意一个文本;
步骤2、将目标训练语义块组合中每个语义块的向量输入所述自注意力模型,以得到所述目标训练语义块组合中每个语义块实体标签概率值,所述目标训练语义块组合为所述目标训练文本对应的不同语义块组合中概率值达到所述第一预设阈值的语义块组合;
步骤3、基于所述目标训练语义块组合的概率值以及目标实体标签概率值调整所述基于半马尔科夫的条件随机场模型的模型参数以及所述自注意力模型的模型参数,所述目标实体标签概率值为所述目标训练语义块组合中每个语义块对应的所有实体标签概率值中达到所述第二预设阈值的实体标签概率值;
步骤4、基于模型参数调整后的所述基于半马尔科夫的条件随机场模型以及模型参数调整后的所述自注意力模型迭代执行步骤1至步骤3。
可选地,所述训练单元选取目标训练文本的分词对应的分词向量输入所述基于半马尔科夫的条件随机场模型,得到所述目标训练文本对应的不同语义块组合的概率值包括:
通过如下公式对所述目标文本的分词对应的分词向量进行计算,以得到所述目标训练文本对应的不同语义块组合的概率值:
Figure BDA0002039075520000061
其中,w0w1…wm为所述目标训练文本的分词向量,m为所述目标训练文本的分词集合中分词的数量,w0′w1′…wn′为所述目标训练文本的分词集合对应的分词向量的组合方式,n为所述目标训练文本的分词向量组合后得到的语义块的数量,P(w′0w′1…w′n)为将所述目标训练文本的分词向量按照w′0w′1…w′n的组合方式进行组合的概率值,Z(w)为所述目标训练文本的分词集合中的各个分词的所有组合方式,Msemi-crf为所述基于半马尔科夫的条件随机场模型的模型参数,
Figure BDA0002039075520000071
|L|为实体标签的种类个数,fd为所述目标训练文本的分词向量中每个分词向量的维度,G(·)为所述基于半马尔科夫的条件随机场模型的特征函数。
可选地,所述训练单元将目标训练语义块组合输入所述自注意力模型,以得到所述目标训练语义块组合中每个语义块的实体标签概率值包括:
基于所述目标训练语义块组合确定目标矩阵;
分别计算所述目标矩阵与至少一个预设参数矩阵的矩阵点积得到至少一个参数矩阵,所述至少一个预设参数矩阵与所述至少一个参数矩阵具有关联关系;
将至少一个参数矩阵进行分解,得到所述至少一个参数矩阵对应的等宽矩阵;
基于所述至少一个参数矩阵对应的等宽矩阵确定注意力矩阵;
对所述注意力矩阵以及输出参数矩阵进行计算,以得到所述目标训练语义块组合中每个语义块的实体标签概率值;
其中,所述至少一个参数矩阵以及所述输出参数矩阵均为所述自注意力模型的模型参数,且所述输出参数矩阵包括实体标签的种类数。
可选地,所述训练单元还用于:
判断迭代次数是否达到预置数值,若是,则确定满足所述预置的迭代终止条件;
或,
判断所述基于半马尔科夫的条件随机场模型的模型参数和/或所述自注意力模型的模型参数是否收敛,若是,则确定满足所述预置的迭代终止条件。
本发明实施例第三方面提供了一种计算机可读存储介质,其特征在于,包括指令,当所述计算机可读存储介质在计算机上运行时,使得计算机执行上述各方面所述的实体标签的识别方法的步骤。
本发明实施例四方面提供了一种包含指令的计算机程序产品,当所述包含指令的计算机程序产品在计算机上运行时,使得计算机执行上述各方面所述的实体标签的识别方法的步骤。
综上所述,可以看出,本发明提供的实施例中,通过预先训练的第一预设模型以及第二预设模型综合对待识别实体标签的文本进行识别,且由于该第一预设模型为通过第一模型对训练数据进行训练得到的,该第二预设模型为通过第一模型对第二模型的输出进行训练得到的,由于是通过模型进行识别,而模型是预先通过大量的训练得到的,可以更好的理解用户的搜索意图,提高用户体验。
附图说明
图1为本发明实施例提供的实体标签的识别方法的流程示意图;
图2为本发明实施例提供的第一预设模型以及第二预设模型的训练流程示意图;
图3为本发明实施例提供的实体标签的识别装置的虚拟结构示意图;
图4为本发明实施例提供的服务器的硬件结构示意图。
具体实施方式
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
下面从实体标签的识别装置的角度对本发明实施例中的实体标签的识别方法进行说明,该实体标签的识别装置可以为服务器,也可以为服务器中的服务单元,具体不做限定。
请参阅图1,图1为本发明实施例提供的实体标签的识别方法的流程示意图,包括:
101、对目标文本进行分词,得到目标分词集合。
本实施例中,实体标签的识别装置可以首先获取目标文本,该目标文本为待识别实体标签的文本,之后对目标文本进行分词,得到目标分词集合,此处具体不限定如何对目标文本进行分词的,例如可以通过分词工具对目标文本进行分词,同样也还可以采用其他的方式对目标文本进行分词,具体不做限定。
102、对目标分词集合中的每个分词进行向量化处理。
本实施例中,实体标签的识别装置可以通过向量化工具对目标分词集合中的每个分词进行向量化处理,例如通过gensim word2vec、glove等向量化工具对目标分词集合中的每个分词进行向量化处理。
103、将向量化处理后的目标分词集合中的每个分词输入第一预设模型,以得到目标文本对应的各个语义块组合的概率值。
本实施例中,实体标签的识别装置可以预先训练第一预设模型,该第一预设模型为通过第一模型对训练数据进行训练得到的,该训练数据包括训练文本集合中每个文本对应的分词向量,且该训练文本集合中每个文本为经过人工标注实体标签序列的文本,也就是说,该第一预设模型的输入为向量化处理后的目标分词集合中的每个分词,该第一预设模型的输出为目标文本对应的各个语义块组合的概率值,该目标文本对应的各个语义块组合为目标分词集合中的各个分词的不同组合方式,实体标签的识别装置在得到第一预设模型之后,可以将向量化处理后的目标分词集合中的每个分词输入第一预设模型,以得到目标文本对应的各个语义块组合的概率值,该各个语义块组合中的每个语义块至少包括一个目标分词集合中的分词。例如目标文本为“我要听花都开好了”,则目标分词集合可以为:“我”、“要”、“听”、“花”、“都”、“开”、“好”、“了”(上述目标分词集合仅为举例说明,并不代表对其的限定),则将目标分词集合中的每个分词进行向量化处理,并将向量化处理后的每个分词输入第一预设模型,得到目标分词集合中的各个分词的一个语义块组合:“我”、“要”、“听”、“花都开好了”的概率值(此处对目标分词集合中的各个分词的语义块组合的说明仅为举例说明,并不代表对其的限定)。
104、确定目标语义块组合中每个语义块的向量。
本实施例中,实体标签的识别装置在得到各个语义块组合的概率值之后,可以将目标文本对应的各个语义块组合中概率值达到第一预设阈值的语义块组合作为目标语义块组合,并确定目标语义块组合中每个语义块的向量,由于目标文本对应的各个语义块组合中的每个语义块可能不只包括一个分词,因此需要确定每个语义块的向量,可以通过将语义块中的分词的向量相加的方式来确定每个语义块的向量,也还可以通过其他的方式来确定每个语义块的向量,例如通过训练一个深度模型来确定,具体不做限定,只要能得到每个语义块的向量即可。
105、将目标语义块组合中每个语义块的向量输入第二预设模型,以得到目标语义块组合中每个语义块的实体标签的概率值。
本实施例中,实体标签的识别装置可以提前训练第二预设模型,该第二预设模型为通过第二模型对第一预设模型输出的第一目标语义块组合中每个语义块的向量进行训练得到的,第一目标语义块组合为每个文本对应的语义块组合中概率值达到第一预设阈值的语义块组合,该第一目标语义块组合中的每个语义块中至少包括一个每个文本对应的分词,也就是说,该第二预设模型的输入为第一预设模型的输出,该第二预设模型的输如为目标语义块组合中每个语义块的向量,之后,实体标签的识别装置可以将目标语义块组合中每个语义块的向量输入第二预设模型,得到目标语义块组合中每个语义块的实体标签概率值。
106、将目标语义块组合中每个语义块的概率值达到第二预设阈值的实体标签确定为目标语义块组合中每个语义块的实体标签。
本实施例中,在得到目标语义块组合中每个语义块的实体标签的概率值之后,可以将目标语义块组合中每个语义块的概率值达到第二预设阈值的实体标签作为每个语义块的实体标签,进而得到目标文本的实体标签序列。
综上所述,可以看出,本发明提供的实施例中,通过预先训练的第一预设模型以及第二预设模型综合对待识别实体标签的文本进行识别,且由于该第一预设模型为通过第一模型对训练数据进行训练得到的,该第二预设模型为通过第一模型对第二模型的输出进行训练得到的,由于是通过模型进行识别,而模型是预先通过大量的训练得到的,可以更好的理解用户的搜索意图,提高用户体验。
需要说明的是,该第一模型为基于半马尔科夫的条件随机场模型,该第二模型为自注意力模型,当然也还可以是其他的模型,具体不做限定。
下面以第一模型为基于半马尔科夫的条件随机场模型以及第二模型为自注意力模型为例,对第一预设模型以及第二预设模型的训练流程进行说明。
请参阅图2,图2为本发明实施例提供的第一预设模型以及第二预设模型的训练流程示意图,包括:
201、对每个文本进行分词,得到每个文本的分词。
本实施例中,实体标签的识别装置可以首先获取训练文本集合中的每个文本,该训练文本集合每个文本为已进行人工标注实体标签的文本,之后对训练文本集合中的每个文本进行分词,此处具体不限定如何对每个文本如何进行分词的,例如利用分词工具对每个文本分别进行分词得到每个文本的分词。
下面对人工标注的文本进行举例说明,例如“我要听花都开好了”为训练语文本集合中的某一个文本,该人工标注可以如表1的形式存在:
O
O
O
花都开好了 MUSIC
表1
其中,表1中的第1列为文本“我要听花都开好了”的每个语义块,第二列为每个语义块对应的实体标识,取值MUSIC表示该语义块是歌曲名称,取值O表示该语义块为非实体。需要说明的是,上述的表格以及实体标识仅为举例说明,并不代表对其的限定,当然也还可以是其他的形式存在,实体标签当然也还可以有其他的类型,例如电影MOIVE,动画CARTOON,等等,具体可以根据实际情况进行设置。
还需要说明的是,上述以语义块的方式进行划分,仅得到两种划分方式,一种是非实体标识,一种是实体标识,当然也还可以有多种表现形式,例如可以将非实体标识的词性进行说明,具体不做限定。
202、对每个文本的分词中的各个分词分别进行向量化处理,以得到每个文本的分词对应的分词向量。
本实施例中,可以通过向量化工具对每个文本的分词中的各个分词分别进行向量化处理,以得到每个文本的分词对应的分词向量。例如通过gensimword2vec、glove等向量化工具对每个文本的分词集合中的每个分词分别进行向量化处理,得到每个文本的分词集合中的每个分词的向量。
203、基于每个文本的分词对应的分词向量对基于半马尔科夫的条件随机场模型以及自注意力模型的模型参数进行迭代更新。
本实施例中,实体标签的识别装置在得到每个文本的分词集合对应的分词向量之后,可以基于每个文本的分词对应的分词向量对基于半马尔科夫的条件随机场模型以及自注意力模型的模型参数进行迭代更新。
下面进行具体说明:
步骤1、选取目标训练文本的分词对应的分词向量输入基于半马尔科夫的条件随机场模型,得到目标训练文本对应的不同语义块组合的概率值,目标训练文本为每个文本中的任意一个文本。
本实施例中,可以从每个文本中任意挑选一个文本,标记为目标训练文本,之后将目标训练文本的分词对应的分词向量输入基于半马尔科夫的条件随机场模型,得到目标训练文本对应的不同语义块组合的概率值,也就是说,可以将目标训练文本的分词集合中的分词进行任意组合,得到多种不同的组合方式,并计算每种组合方式的概率值,具体的,可以通过如下公式对目标训练文本的分词对应的分词向量进行计算,以得到目标训练文本对应的不同语义块组合的概率值:
Figure BDA0002039075520000131
其中,w0w1…wm为目标训练文本的分词向量,m为目标训练文本的分词集合中分词的数量,w0′w1′…wn′为目标训练文本的分词集合对应的分词向量的组合方式,n为目标训练文本的分词向量组合后得到的语义块的数量,P(w′0w′1…w′n)为将目标训练文本的分词向量按照w′0w′1…w′n的组合方式进行组合的概率值,Z(w)为目标训练文本的分词集合中的各个分词的所有组合方式,Msemi-crf为基于半马尔科夫的条件随机场模型的模型参数,
Figure BDA0002039075520000132
|L|为实体标签的种类个数,fd为所述目标训练文本的分词向量的维度,G(·)为基于半马尔科夫的条件随机场模型的特征函数,通过如下公式确定Z(w):
Figure BDA0002039075520000133
下面进行举例说明,例如目标训练文本“我要听花都开好了”,则目标训练文本的分词集合为:“我”、“要”、“听”、“花”、“都”、“开”、“好”、“了”(此处对目标训练文本的分词集合仅为举例说明,并不代表对其的限定),确定目标训练文本的分词向量,之后,任意挑选一种分词的组合方式,该每种组合方式对应一组语义块组合,例如“我”、“要”、“听”、“花都开好了”的组合方式,最后通过公式计算该种分词的组合方式的概率值,遍历目标训练文本的分词集合中的分词组合的所有方式,并通过公式计算每种组合方式的概率值。
步骤2、将目标训练语义块组合中每个语义块的向量输入自注意力模型,以得到目标训练语义块组合中每个语义块的实体标签概率值,目标训练语义块组合为目标训练文本对应的不同语义块组合中概率值达到第一预设阈值的语义块组合。
本实施例中,在通过基于半马尔科夫的条件随机场模型,得到目标训练文本的分词集合中分词的所有组合方式的概率值之后,可以选取概率值达到第一预设阈值的组合方式标记为目标训练语义块组合,之后确定目标训练语义块组合中每个语义块的向量(具体不限定如何确定目标训练语义块组合中每个语义块的向量的,例如可以通过每个语义块中各个分词的向量进行相加的方式或者是通过深度学习模型的方式得到目标训练语义块组合中每个语义块的向量),最后将目标训练语义块组合中的每个语义块的向量输入自注意力模型,得到目标训练语义块组合中每个语义块的实体标签概率值。
在一个实施例中,将目标训练语义块组合输入自注意力模型,以得到目标训练语义块组合中每个语义块的实体标签概率值包括:
基于所述目标训练语义块组合确定目标矩阵;
分别计算所述目标矩阵与至少一个预设参数矩阵的矩阵点积得到至少一个参数矩阵,所述至少一个预设参数矩阵与所述至少一个参数矩阵具有关联关系;
将至少一个参数矩阵进行分解,得到所述至少一个参数矩阵对应的等宽矩阵;
基于所述至少一个参数矩阵对应的等宽矩阵确定注意力矩阵;
对所述注意力矩阵以及输出参数矩阵进行计算,以得到所述目标训练语义块组合中每个语义块的实体标签概率值;
其中,所述至少一个参数矩阵以及所述输出参数矩阵均为所述自注意力模型的模型参数,且所述输出参数矩阵包括实体标签的种类数。
下面结合例子进行说明:
例如目标训练语义块组合中包括s1,s2,s3,s4,四个向量,首先可以将s1,s2,s3,s4这四个向量拼合在一起形成一个矩阵的形式
Figure BDA0002039075520000141
(即目标矩阵),其中
Figure BDA0002039075520000142
d为每个向量的维度,将该形成的一个矩阵标记为目标矩阵,之后定义至少一个预设参数矩阵(此处以定义三个预设参数矩阵为例进行说明,分别是:预设参数矩阵WQ、预设参数矩阵WK以及预设参数矩阵WV,其中
Figure BDA0002039075520000151
当然也还可以是其他数目的预设参数矩阵,例如一个预设参数矩阵,或者两个参数矩阵,具体不做限定),之后,分别计算目标矩阵与三个预设参数矩阵的点积,得到三个参数矩阵,分别为参数矩阵Q,参数矩阵K以及参数矩阵V,其中,参数矩阵Q为计算目标矩阵和预设参数矩阵WQ得到,参数矩阵K为计算目标矩阵和第二预设参数矩阵WK的点积得到,参数矩阵V为计算目标矩阵和预设参数矩阵WV的点积得到。
之后,将参数矩阵Q分解为等宽的矩阵,得到等宽矩阵
Figure BDA0002039075520000152
同理可以得到参数矩阵K的等宽矩阵Ki以及参数矩阵V的等宽矩阵Vi
之后根据等宽矩阵Qi以及等宽矩阵Ki确定注意力矩阵A,也即
Figure BDA0002039075520000153
同时计算注意力矩阵Ai和Vi之间的点积,得到参数矩阵
Figure BDA0002039075520000154
最后定义输出参数矩阵,其中输出参数矩阵
Figure BDA0002039075520000155
l为实体标签的种类数,计算参数矩阵Oi与输出参数矩阵WO的点积(Oi·WO),即可以得到目标训练语义块组合中每个语义块在l中的每个实体标签上的概率值,也即得到目标训练语义块组合中的每个语义块的实体标签概率值。
步骤3、基于目标训练语义块组合的概率值以及目标实体标签概率值调整基于半马尔科夫的条件随机场模型的模型参数以及自注意力模型的模型参数。
本实施例中,该基于半马尔科夫的条件随机场模型的模型参数为Msemi-crf,该自注意力模型的模型参数为WQ,WK,WA,WO,之后可以由于已经知道了目标训练文本的正确划分方式,并且知道了正确划分方式得到的各个语义块的实体标签,通过目标训练语义块组合的概率值以及目标训练语义块组合的概率值以及目标实体标签概率值调整基于半马尔科夫的条件随机场模型的模型参数以及自注意力模型的模型参数,使得输出的目标训练语义块组合的正确实体标签的概率值大于第二预设阈值,或者为最大,该目标实体标签概率值为目标训练语义块组合中每个语义块对应的所有实体标签概率值中达到所述第二预设阈值的实体标签概率值。
步骤4、基于模型参数调整后的基于半马尔科夫的条件随机场模型以及模型参数调整后的自注意力模型迭代执行步骤1至步骤3。
204、当达到预置迭代终止条件时,将迭代终止时的基于半马尔科夫的条件随机场模型确定为第一预设模型,将迭代终止时的自注意力模型确定为第二预设模型。
本实施例中,可以通过上述步骤1至步骤4对每个文本分别进行训练,直至达到预置迭代终止条件,并将迭代终止时的基于半马尔科夫的条件随机场模型确定为第一预设模型,且将迭代终止时的自注意力模型确定为第二预设模型。
需要说明的是,可以通过如下方式判断是否达到迭代终止条件:
判断迭代次数是否达到预置数值,若是,则确定满足预置的迭代终止条件;
或,
判断基于半马尔科夫的条件随机场模型的模型参数和/或自注意力模型的模型参数是否收敛,若是,则确定满足预置的迭代终止条件。也就是说,可以在每次迭代之后,判断迭代次数是否达到预置数值(例如1000次),或者是每次迭代完成后,判断基于半马尔科夫的条件随机场模型的模型参数和/或自注意力模型的模型参数是否收敛,若是,则确定满足预置的迭代终止条件,若否,则确定不满足预置的迭代终止条件。
还需要说明的是,可以通过如下方式判断基于半马尔科夫的条件随机场模型的模型参数和/或自注意力模型的模型参数是否收敛,在每次迭代完成之后通过反向传播算法进行计算,例如P(w′0w′1w′2w′3)为目标训练语义块组合的概率值,P(L0,L1,L2,L3)为目标实体标签概率值,计算-log(P(w′0w′1w′2w′3))-log(P(L0,L1,L2,L3))的值,若计算得到的-log(P(w′0w′1w′2w′3))-log(P(L0,L1,L2,L3))值收敛,则确定满足预置的迭代终止条件。
综上所述,本发明提供的实施例中,通过基于半马尔科夫的条件随机场模型获得训练文本集中语义块,有利于自注意力模型更好判断语义块的实体标签,进而可以提高实体标签序列识别的准确性。
需要说明的是,上述以第一预设模型和第二预设模型综合进行训练来说明的,当然也可以单独对第一预设模型和第二预设模型进行训练,当单独对第一预设模型以及第二预设模型进行训练时,可以保存每次第一预设模型的输出值,当第一预设模型的迭代次数达到一个数值,或者是第一预设模型的模型参数收敛时,将保存所有第一预设模型的输出值,输入第二预设模型进行训练,具体此处不做限定,只要能完成对第一预设模型以及第二预设模型的训练即可,
还需要说明的是,在使用第一预设模型以及第二预设模型的过程中,还可以通过每次的输出对第一预设模型的模型参数以及第二预设模型的模型参数进行调整,具体不做限定。
上面对本发明实施例提供的实体标签的识别方法进行说明,下面结合图2对本发明实施例提供的实体标签的识别装置进行说明。
请参阅图3,图3为本发明实施例提供的实体标签的识别装置的虚拟结构示意图,该实体标签的识别装置包括:
分词单元301,用于对目标文本进行分词,得到目标分词集合,所述目标文本为待识别实体标签的文本;
向量化处理单元302,用于对所述目标分词集合中的每个分词进行向量化处理;
处理单元303,用于将向量化处理后的所述目标分词集合中的每个分词输入第一预设模型,以得到所述目标文本对应的各个语义块组合的概率值,所述第一预设模型为第一模型对训练数据进行训练得到的,所述训练数据包括训练文本集合中每个文本对应的分词的向量,且所述训练文本集合中每个文本为经过人工标注实体标签序列的文本,所述各个语义块组合中的每个语义块中至少包括一个所述目标分词集合中的分词;
确定单元304,用于确定目标语义块组合中每个语义块的向量,所述目标语义块组合为所述目标文本对应的各个语义块组合中概率值达到第一预设阈值的语义块组合;
所述处理单元303,还用于将所述目标语义块组合中每个语义块的向量输入第二预设模型,以得到所述目标语义块组合中每个语义块的实体标签的概率值,所述第二预设模型为通过第二模型对所述第一模型输出的第一目标语义块组合中每个语义块的向量进行训练得到的,所述第一目标语义块组合为所述每个文本对应的语义块组合中概率值达到所述第一预设阈值的语义块组合,所述第一目标语义块组合中每个语义块至少包括一个所述每个文本对应的分词;
所述确定单元304,还用于将所述目标语义块组合中每个语义块的概率值达到第二预设阈值的实体标签确定为所述目标语义块组合中每个语义块的实体标签。
可选地,所述第一模型为基于半马尔科夫的条件随机场模型,所述第二模型为自注意力模型,所述装置还包括:
训练单元305,所述训练单元305用于:
对所述每个文本进行分词,得到所述每个文本的分词;
对所述每个文本的分词中的各个分词分别进行向量化处理,得到所述每个文本的分词对应的分词向量;
基于所述每个文本的分词对应的分词向量对所述基于半马尔科夫的条件随机场模型以及所述自注意力模型的模型参数进行迭代更新;
当达到预置迭代终止条件时,将迭代终止时的所述基于半马尔科夫的条件随机场模型确定为所述第一预设模型,且将迭代终止时的所述自注意力模型确定为所述第二预设模型。
可选地,所述训练单元305基于所述每个文本的分词对应的分词向量对所述基于半马尔科夫的条件随机场模型以及所述自注意力模型的模型参数进行迭代更新包括:
步骤1、选取目标训练文本的分词对应的分词向量输入所述基于半马尔科夫的条件随机场模型,得到所述目标训练文本对应的不同语义块组合的概率值,所述目标训练文本为所述每个文本中的任意一个文本;
步骤2、将目标训练语义块组合中每个语义块的向量输入所述自注意力模型,以得到所述目标训练语义块组合中每个语义块实体标签概率值,所述目标训练语义块组合为所述目标训练文本对应的不同语义块组合中概率值达到所述第一预设阈值的语义块组合;
步骤3、基于所述目标训练语义块组合的概率值以及目标实体标签概率值调整所述基于半马尔科夫的条件随机场模型的模型参数以及所述自注意力模型的模型参数,所述目标实体标签概率值为所述目标训练语义块组合中每个语义块对应的所有实体标签概率值中达到所述第二预设阈值的实体标签概率值;
步骤4、基于模型参数调整后的所述基于半马尔科夫的条件随机场模型以及模型参数调整后的所述自注意力模型迭代执行步骤1至步骤3。
可选地,所述训练单元305选取目标训练文本的分词对应的分词向量输入所述基于半马尔科夫的条件随机场模型,得到所述目标训练文本对应的不同语义块组合的概率值包括:
通过如下公式对所述目标文本的分词对应的分词向量进行计算,以得到所述目标训练文本对应的不同语义块组合的概率值:
Figure BDA0002039075520000191
其中,w0w1…wm为所述目标训练文本的分词向量,m为所述目标训练文本的分词集合中分词的数量,w0′w1′…wn′为所述目标训练文本的分词集合对应的分词向量的组合方式,n为所述目标训练文本的分词向量组合后得到的语义块的数量,P(w′0w′1…w′n)为将所述目标训练文本的分词向量按照w′0w′1…w′n的组合方式进行组合的概率值,Z(w)为所述目标训练文本的分词集合中的各个分词的所有组合方式,Msemi-crf为所述基于半马尔科夫的条件随机场模型的模型参数,
Figure BDA0002039075520000201
|L|为实体标签的种类个数,fd为所述目标训练文本的分词向量中每个分词向量的维度,G(·)为所述基于半马尔科夫的条件随机场模型的特征函数。
可选地,所述训练单元305将目标训练语义块组合输入所述自注意力模型,以得到所述目标训练语义块组合中每个语义块的实体标签概率值包括:
基于所述目标训练语义块组合确定目标矩阵;
分别计算所述目标矩阵与至少一个预设参数矩阵的矩阵点积得到至少一个参数矩阵,所述至少一个预设参数矩阵与所述至少一个参数矩阵具有关联关系;
将至少一个参数矩阵进行分解,得到所述至少一个参数矩阵对应的等宽矩阵;
基于所述至少一个参数矩阵对应的等宽矩阵确定注意力矩阵;
对所述注意力矩阵以及输出参数矩阵进行计算,以得到所述目标训练语义块组合中每个语义块的实体标签概率值;
其中,所述至少一个参数矩阵以及所述输出参数矩阵均为所述自注意力模型的模型参数,且所述输出参数矩阵包括实体标签的种类数。
可选地,所述训练单元305还用于:
判断迭代次数是否达到预置数值,若是,则确定满足所述预置的迭代终止条件;
或,
判断所述基于半马尔科夫的条件随机场模型的模型参数和/或所述自注意力模型的模型参数是否收敛,若是,则确定满足所述预置的迭代终止条件。
本实施例中的实体标签的识别装置的各单元之间的交互方式如前述图1以及图2所示实施例中的描述,具体此处不再赘述。
综上所述,可以看出,本发明提供的实施例中,通过预先训练的第一预设模型以及第二预设模型综合对待识别实体标签的文本进行识别,且由于该第一预设模型为通过第一模型对训练数据进行训练得到的,该第二预设模型为通过第一模型对第二模型的输出进行训练得到的,由于是通过模型进行识别,而模型是预先通过大量的训练得到的,可以更好的理解用户的搜索意图,提高用户体验。
上面图3从模块化功能实体的角度对本发明实施例中的实体标签的识别装置进行了描述,下面从硬件处理的角度对本发明实施例中的实体标签的识别装置进行详细描述,请参阅图4,本发明实施例中的是实体标签的识别装置400一个实施例,包括:
输入装置401、输出装置402、处理器403和存储器404(其中处理器403的数量可以一个或多个,图4中以一个处理器403为例)。在本发明的一些实施例中,输入装置401、输出装置402、处理器403和存储器404可通过总线或其它方式连接,其中,图4中以通过总线连接为例。
其中,通过调用存储器404存储的操作指令,处理器403,用于执行如下步骤:
对目标文本进行分词,得到目标分词集合,所述目标文本为待识别实体标签的文本;
对所述目标分词集合中的每个分词进行向量化处理;
将向量化处理后的每个分词输入第一预设模型,以得到所述目标文本对应的各个语义块组合的概率值,所述第一预设模型为通过第一模型对训练数据进行训练得到的,所述训练数据包括训练文本集合中每个文本对应的分词的向量,且所述训练文本集合中每个文本为经过人工标注实体标签序列的文本,所述各个语义块组合中的每个语义块中至少包括一个所述目标分词集合中的分词;
确定目标语义块组合中每个语义块的向量,所述目标语义块组合为所述目标文本对应的各个语义块组合中概率值达到第一预设阈值的语义块组合;
将所述目标语义块组合中每个语义块的向量输入第二预设模型,以得到所述目标语义块组合中每个语义块的实体标签的概率值,所述第二预设模型为通过第二模型对所述第一预设模型输出的第一目标语义块组合中每个语义块的向量进行训练得到的,所述第一目标语义块组合为所述每个文本对应的语义块组合中概率值达到所述第一预设阈值的语义块组合,所述第一目标语义块组合中每个语义块至少包括一个所述每个文本对应的分词;
将所述目标语义块组合中每个语义块的概率值达到第二预设阈值的实体标签确定为所述目标语义块组合中每个语义块的实体标签。
通过调用存储器404存储的操作指令,处理器403,还用于执行图1以及图2对应的实施例中的任一方式。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本发明实施例还提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述实体标签的识别方法。
本发明实施例还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述实体标签的识别方法。
本发明实施例还提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:
对目标文本进行分词,得到目标分词集合,所述目标文本为待识别实体标签的文本;
对所述目标分词集合中的每个分词进行向量化处理;
将向量化处理后的每个分词输入第一预设模型,以得到所述目标文本对应的各个语义块组合的概率值,所述第一预设模型为通过第一模型对训练数据进行训练得到的,所述训练数据包括训练文本集合中每个文本对应的分词的向量,且所述训练文本集合中每个文本为经过人工标注实体标签序列的文本,所述各个语义块组合中的每个语义块中至少包括一个所述目标分词集合中的分词;
确定目标语义块组合中每个语义块的向量,所述目标语义块组合为所述目标文本对应的各个语义块组合中概率值达到第一预设阈值的语义块组合;
将所述目标语义块组合中每个语义块的向量输入第二预设模型,以得到所述目标语义块组合中每个语义块的实体标签的概率值,所述第二预设模型为通过第二模型对所述第一预设模型输出的第一目标语义块组合中每个语义块的向量进行训练得到的,所述第一目标语义块组合为所述每个文本对应的语义块组合中概率值达到所述第一预设阈值的语义块组合,所述第一目标语义块组合中每个语义块至少包括一个所述每个文本对应的分词;
将所述目标语义块组合中每个语义块的概率值达到第二预设阈值的实体标签确定为所述目标语义块组合中每个语义块的实体标签。
在具体实施过程中,处理器执行程序时可以实现图1以及图2对应的实施例中任一实施方式。
本文中的设备可以是服务器、PC、PAD、手机等。
本发明还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:
对目标文本进行分词,得到目标分词集合,所述目标文本为待识别实体标签的文本;
对所述目标分词集合中的每个分词进行向量化处理;
将向量化处理后的每个分词输入第一预设模型,以得到所述目标文本对应的各个语义块组合的概率值,所述第一预设模型为通过第一模型对训练数据进行训练得到的,所述训练数据包括训练文本集合中每个文本对应的分词的向量,且所述训练文本集合中每个文本为经过人工标注实体标签序列的文本,所述各个语义块组合中的每个语义块中至少包括一个所述目标分词集合中的分词;
确定目标语义块组合中每个语义块的向量,所述目标语义块组合为所述目标文本对应的各个语义块组合中概率值达到第一预设阈值的语义块组合;
将所述目标语义块组合中每个语义块的向量输入第二预设模型,以得到所述目标语义块组合中每个语义块的实体标签的概率值,所述第二预设模型为通过第二模型对所述第一预设模型输出的第一目标语义块组合中每个语义块的向量进行训练得到的,所述第一目标语义块组合为所述每个文本对应的语义块组合中概率值达到所述第一预设阈值的语义块组合,所述第一目标语义块组合中每个语义块至少包括一个所述每个文本对应的分词;
将所述目标语义块组合中每个语义块的概率值达到第二预设阈值的实体标签确定为所述目标语义块组合中每个语义块的实体标签。
在具体实施过程中,执行计算机程序产品时可以实现图1以及图2对应的实施例中任一实施方式。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本发明的实施例可提供为方法、系统或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本发明的实施例而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (10)

1.一种实体标签的识别方法,其特征在于,包括:
对目标文本进行分词,得到目标分词集合,所述目标文本为待识别实体标签的文本;
对所述目标分词集合中的每个分词进行向量化处理;
将向量化处理后的每个分词输入第一预设模型,以得到所述目标文本对应的各个语义块组合的概率值,所述第一预设模型为通过第一模型对训练数据进行训练得到的,所述训练数据包括训练文本集合中每个文本对应的分词的向量,且所述训练文本集合中每个文本为经过人工标注实体标签序列的文本,所述各个语义块组合中的每个语义块中至少包括一个所述目标分词集合中的分词;
确定目标语义块组合中每个语义块的向量,所述目标语义块组合为所述目标文本对应的各个语义块组合中概率值达到第一预设阈值的语义块组合;
将所述目标语义块组合中每个语义块的向量输入第二预设模型,以得到所述目标语义块组合中每个语义块的实体标签的概率值,所述第二预设模型为通过第二模型对所述第一预设模型输出的第一目标语义块组合中每个语义块的向量进行训练得到的,所述第一目标语义块组合为所述每个文本对应的语义块组合中概率值达到所述第一预设阈值的语义块组合,所述第一目标语义块组合中每个语义块至少包括一个所述每个文本对应的分词;
将所述目标语义块组合中每个语义块的概率值达到第二预设阈值的实体标签确定为所述目标语义块组合中每个语义块的实体标签。
2.根据权利要求1所述的方法,其特征在于,所述第一模型为基于半马尔科夫的条件随机场模型,所述第二模型为自注意力模型,所述方法还包括:
对所述每个文本进行分词,得到所述每个文本的分词;
对所述每个文本的分词中的各个分词分别进行向量化处理,得到所述每个文本的分词对应的分词向量;
基于所述每个文本的分词对应的分词向量对所述基于半马尔科夫的条件随机场模型以及所述自注意力模型的模型参数进行迭代更新;
当达到预置迭代终止条件时,将迭代终止时的所述基于半马尔科夫的条件随机场模型确定为所述第一预设模型,且将迭代终止时的所述自注意力模型确定为所述第二预设模型。
3.根据权利要求2所述的方法,其特征在于,所述基于所述每个文本的分词对应的分词向量对所述基于半马尔科夫的条件随机场模型以及所述自注意力模型的模型参数进行迭代更新包括:
步骤1、选取目标训练文本的分词对应的分词向量输入所述基于半马尔科夫的条件随机场模型,得到所述目标训练文本对应的不同语义块组合的概率值,所述目标训练文本为所述每个文本中的任意一个文本;
步骤2、将目标训练语义块组合中每个语义块的向量输入所述自注意力模型,以得到所述目标训练语义块组合中每个语义块实体标签概率值,所述目标训练语义块组合为所述目标训练文本对应的不同语义块组合中概率值达到所述第一预设阈值的语义块组合;
步骤3、基于所述目标训练语义块组合的概率值以及目标实体标签概率值调整所述基于半马尔科夫的条件随机场模型的模型参数以及所述自注意力模型的模型参数,所述目标实体标签概率值为所述目标训练语义块组合中每个语义块对应的所有实体标签概率值中达到所述第二预设阈值的实体标签概率值;
步骤4、基于模型参数调整后的基于半马尔科夫的条件随机场模型以及模型参数调整后的自注意力模型迭代执行步骤1至步骤3。
4.根据权利要求3所述的方法,其特征在于,所述选取目标训练文本的分词对应的分词向量输入所述基于半马尔科夫的条件随机场模型,得到所述目标训练文本对应的不同语义块组合的概率值包括:
通过如下公式对所述目标训练文本的分词对应的分词向量进行计算,以得到所述目标训练文本对应的不同语义块组合的概率值:
Figure FDA0002039075510000021
其中,w0w1…wm为所述目标训练文本的分词向量,m为所述目标训练文本的分词集合中分词的数量,w0′w1′…wn′为所述目标训练文本的分词集合对应的分词向量的组合方式,n为所述目标训练文本的分词向量组合后得到的语义块的数量,P(w′0w′1…w′n)为将所述目标训练文本的分词向量按照w′0w′1…w′n的组合方式进行组合的概率值,Z(w)为所述目标训练文本的分词集合中的各个分词的所有组合方式,Msemi-crf为所述基于半马尔科夫的条件随机场模型的模型参数,
Figure FDA0002039075510000031
|L|为实体标签的种类个数,fd为所述目标训练文本的分词向量中每个分词向量的维度,G(·)为所述基于半马尔科夫的条件随机场模型的特征函数。
5.根据权利要求3所述的方法,其特征在于,所述将目标训练语义块组合输入所述自注意力模型,以得到所述目标训练语义块组合中每个语义块的实体标签概率值包括:
基于所述目标训练语义块组合确定目标矩阵;
分别计算所述目标矩阵与至少一个预设参数矩阵的矩阵点积得到至少一个参数矩阵,所述至少一个预设参数矩阵与所述至少一个参数矩阵具有关联关系;
将所述至少一个参数矩阵进行分解,得到所述至少一个参数矩阵对应的等宽矩阵;
基于所述至少一个参数矩阵对应的等宽矩阵确定注意力矩阵;
对所述注意力矩阵以及输出参数矩阵进行计算,以得到所述目标训练语义块组合中每个语义块的实体标签概率值;
其中,所述至少一个参数矩阵以及所述输出参数矩阵均为所述自注意力模型的模型参数,且所述输出参数矩阵包括实体标签的种类数。
6.根据权利要求2至5中任一项所述的方法,其特征在于,所述方法还包括:
判断迭代次数是否达到预置数值,若是,则确定满足所述预置的迭代终止条件;
或,
判断所述基于半马尔科夫的条件随机场模型的模型参数和/或所述自注意力模型的模型参数是否收敛,若是,则确定满足所述预置的迭代终止条件。
7.一种实体标签的识别装置,其特征在于,包括:
分词单元,用于对目标文本进行分词,得到目标分词集合,所述目标文本为待识别实体标签的文本;
向量化处理单元,用于对所述目标分词集合中的每个分词进行向量化处理;
处理单元,用于将向量化处理后的所述目标分词集合中的每个分词输入第一预设模型,以得到所述目标文本对应的各个语义块组合的概率值,所述第一预设模型为第一模型对训练数据进行训练得到的,所述训练数据包括训练文本集合中每个文本对应的分词的向量,且所述训练文本集合中每个文本为经过人工标注实体标签序列的文本,所述各个语义块组合中的每个语义块中至少包括一个所述目标分词集合中的分词;
确定单元,用于确定目标语义块组合中每个语义块的向量,所述目标语义块组合为所述目标文本对应的各个语义块组合中概率值达到第一预设阈值的语义块组合;
所述处理单元,还用于将所述目标语义块组合中每个语义块的向量输入第二预设模型,以得到所述目标语义块组合中每个语义块的实体标签的概率值,所述第二预设模型为通过第二模型对所述第一预设模型输出的第一目标语义块组合中每个语义块的向量进行训练得到的,所述第一目标语义块组合为所述每个文本对应的语义块组合中概率值达到所述第一预设阈值的语义块组合,所述第一目标语义块组合中每个语义块至少包括一个所述每个文本对应的分词;
所述确定单元,还用于将所述目标语义块组合中每个语义块的概率值达到第二预设阈值的实体标签确定为所述目标语义块组合中每个语义块的实体标签。
8.根据权利要求7所述的装置,其特征在于,所述第一模型为基于半马尔科夫的条件随机场模型,所述第二模型为自注意力模型,所述装置还包括:
训练单元,所述训练单元用于:
对所述每个文本进行分词,得到所述每个文本的分词;
对所述每个文本的分词中的各个分词分别进行向量化处理,得到所述每个文本的分词对应的分词向量;
基于所述每个文本的分词对应的分词向量对所述基于半马尔科夫的条件随机场模型以及所述自注意力模型的模型参数进行迭代更新;
当达到预置迭代终止条件时,将迭代终止时的所述基于半马尔科夫的条件随机场模型确定为所述第一预设模型,且将迭代终止时的所述自注意力模型确定为所述第二预设模型。
9.根据权利要求8所述的装置,其特征在于,所述训练单元基于所述每个文本的分词对应的分词向量对所述基于半马尔科夫的条件随机场模型以及所述自注意力模型的模型参数进行迭代更新包括:
步骤1、选取目标训练文本的分词对应的分词向量输入所述基于半马尔科夫的条件随机场模型,得到所述目标训练文本对应的不同语义块组合的概率值,所述目标训练文本为所述每个文本中的任意一个文本;
步骤2、将目标训练语义块组合中每个语义块的向量输入所述自注意力模型,以得到所述目标训练语义块组合中每个语义块实体标签概率值,所述目标训练语义块组合为所述目标训练文本对应的不同语义块组合中概率值达到所述第一预设阈值的语义块组合;
步骤3、基于所述目标训练语义块组合的概率值以及目标实体标签概率值调整所述基于半马尔科夫的条件随机场模型的模型参数以及所述自注意力模型的模型参数,所述目标实体标签概率值为所述目标训练语义块组合中每个语义块对应的所有实体标签概率值中达到所述第二预设阈值的实体标签概率值;
步骤4、基于模型参数调整后的所述基于半马尔科夫的条件随机场模型以及模型参数调整后的所述自注意力模型迭代执行步骤1至步骤3。
10.根据权利要求9所述的装置,其特征在于,所述训练单元选取目标训练文本的分词对应的分词向量输入所述基于半马尔科夫的条件随机场模型,得到所述目标训练文本对应的不同语义块组合的概率值包括:
通过如下公式对所述目标文本的分词对应的分词向量进行计算,以得到所述目标训练文本对应的不同语义块组合的概率值:
Figure FDA0002039075510000061
其中,w0w1…wm为所述目标训练文本的分词向量,m为所述目标训练文本的分词集合中分词的数量,w0′w1′…wn′为所述目标训练文本的分词集合对应的分词向量的组合方式,n为所述目标训练文本的分词向量组合后得到的语义块的数量,P(w′0w′1…w′n)为将所述目标训练文本的分词向量按照w′0w′1…w′n的组合方式进行组合的概率值,Z(w)为所述目标训练文本的分词集合中的各个分词的所有组合方式,Msemi-crf为所述基于半马尔科夫的条件随机场模型的模型参数,
Figure FDA0002039075510000062
|L|为实体标签的种类个数,fd为所述目标训练文本的分词向量中每个分词向量的维度,G(·)为所述基于半马尔科夫的条件随机场模型的特征函数。
CN201910335748.XA 2019-04-24 2019-04-24 一种实体标签的识别方法及相关设备 Active CN110069781B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910335748.XA CN110069781B (zh) 2019-04-24 2019-04-24 一种实体标签的识别方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910335748.XA CN110069781B (zh) 2019-04-24 2019-04-24 一种实体标签的识别方法及相关设备

Publications (2)

Publication Number Publication Date
CN110069781A CN110069781A (zh) 2019-07-30
CN110069781B true CN110069781B (zh) 2022-11-18

Family

ID=67368792

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910335748.XA Active CN110069781B (zh) 2019-04-24 2019-04-24 一种实体标签的识别方法及相关设备

Country Status (1)

Country Link
CN (1) CN110069781B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112347775A (zh) * 2019-08-08 2021-02-09 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
CN111524517B (zh) * 2020-06-24 2023-11-03 深圳前海微众银行股份有限公司 语音识别方法、装置、设备及存储介质
CN113761930A (zh) * 2020-06-29 2021-12-07 北京沃东天骏信息技术有限公司 广告文本检测方法和装置
CN112528648A (zh) * 2020-12-10 2021-03-19 平安科技(深圳)有限公司 多音字发音的预测方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105190628A (zh) * 2013-03-01 2015-12-23 纽昂斯通讯公司 确定临床医生的预订项目的意图的方法和设备
CN105589846A (zh) * 2015-12-22 2016-05-18 北京奇虎科技有限公司 一种识别数字语义的方法、检测短信类别的方法及装置
CN107977361A (zh) * 2017-12-06 2018-05-01 哈尔滨工业大学深圳研究生院 基于深度语义信息表示的中文临床医疗实体识别方法
CN109165384A (zh) * 2018-08-23 2019-01-08 成都四方伟业软件股份有限公司 一种命名实体识别方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8694335B2 (en) * 2011-02-18 2014-04-08 Nuance Communications, Inc. Methods and apparatus for applying user corrections to medical fact extraction
US11024406B2 (en) * 2013-03-12 2021-06-01 Nuance Communications, Inc. Systems and methods for identifying errors and/or critical results in medical reports
US10073834B2 (en) * 2016-02-09 2018-09-11 International Business Machines Corporation Systems and methods for language feature generation over multi-layered word representation
US10529322B2 (en) * 2017-06-15 2020-01-07 Google Llc Semantic model for tagging of word lattices

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105190628A (zh) * 2013-03-01 2015-12-23 纽昂斯通讯公司 确定临床医生的预订项目的意图的方法和设备
CN105589846A (zh) * 2015-12-22 2016-05-18 北京奇虎科技有限公司 一种识别数字语义的方法、检测短信类别的方法及装置
CN107977361A (zh) * 2017-12-06 2018-05-01 哈尔滨工业大学深圳研究生院 基于深度语义信息表示的中文临床医疗实体识别方法
CN109165384A (zh) * 2018-08-23 2019-01-08 成都四方伟业软件股份有限公司 一种命名实体识别方法及装置

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
A Hidden Markov Model Based System for Entity Extraction from Social Media English Text at FIRE 2015;Kamal Sarkar;《arXiv》;20151212;全文 *
Automated Semantic Tagging of Textual Content;Jelena Jovanovic等;《IEEE COMPUTER SOCIETY DIGITAL LIBRARY》;20141231;全文 *
Content-based Information Retrieval by Named Entity Recognition and Verb Semantic Role Labelling;Betina Antony J等;《Journal of Universal Computer Science》;20151228;第21卷(第13期);全文 *
SEMANTIC MODEL FOR FAST TAGGING OF WORD LATTICES;Leonid Velikovich;《2016 IEEE Workshop on Spoken Language Technology(SLT2016)》;20161216;全文 *
Semantic Tagging with Deep Residual Networks;Johannes Bjerva等;《Proceedings of COLING 2016, the 26th International Conference on Computational Linguistics: Technical Papers》;20161217;全文 *
一种基于本体与描述文本的网络图像语义标注方法;陈叶旺等;《计算机科学》;20120615;全文 *
基于词项聚类的文本语义标签抽取研究;李雄等;《计算机科学》;20181115;全文 *
实体―属性抽取的GRU+CRF方法;王仁武等;《现代情报》;20181015(第10期);全文 *

Also Published As

Publication number Publication date
CN110069781A (zh) 2019-07-30

Similar Documents

Publication Publication Date Title
CN110069781B (zh) 一种实体标签的识别方法及相关设备
CN108920654B (zh) 一种问答文本语义匹配的方法和装置
WO2019174423A1 (zh) 实体情感分析方法及相关装置
CN110705294A (zh) 命名实体识别模型训练方法、命名实体识别方法及装置
CN106815192A (zh) 模型训练方法及装置和语句情感识别方法及装置
CN106897265B (zh) 词向量训练方法及装置
CN110597966A (zh) 自动问答方法及装置
CN111046188A (zh) 用户偏好度确定方法、装置、电子设备及可读存储介质
CN108733694B (zh) 检索推荐方法和装置
CN109597982B (zh) 摘要文本识别方法及装置
CN110019305A (zh) 知识库扩展方法及存储介质、终端
CN116680368B (zh) 一种基于贝叶斯分类器的水利知识问答方法、设备及介质
CN110708619B (zh) 一种智能设备的词向量训练方法及装置
CN104331507B (zh) 机器数据类别自动发现和分类的方法及装置
CN111126066B (zh) 基于神经网络的中文修辞手法的确定方法和装置
CN111832815B (zh) 科研热点预测方法及系统
CN110232116B (zh) 回复语句中的表情添加的方法及装置
CN113988915A (zh) 用于定位产品客群的方法及装置、电子设备、存储介质
CN114662487A (zh) 一种文本分段方法、装置、电子设备及可读存储介质
Kim et al. The use of discriminative belief tracking in pomdp-based dialogue systems
CN109165097B (zh) 一种数据处理方法以及数据处理装置
CN113536736A (zh) 基于bert的序列生成方法及装置
CN112580358A (zh) 文本信息提取方法、装置、存储介质及设备
CN111400413A (zh) 一种确定知识库中知识点类目的方法及系统
JP2018169835A (ja) モデル学習装置、単語抽出装置、方法、及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant