CN107562752A

CN107562752A - 对实体词的语义关系进行分类的方法、装置和电子设备

Info

Publication number: CN107562752A
Application number: CN201610509575.5A
Authority: CN
Inventors: 张姝; 杨铭; 孙俊
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2016-06-30
Filing date: 2016-06-30
Publication date: 2018-01-09
Anticipated expiration: 2036-06-30
Also published as: CN107562752B

Abstract

本申请实施例提供一种对文本序列中实体词的语义关系进行分类的方法、装置和电子设备，该装置包括：第一获得单元，其用于将文本序列中的每个词用词向量表示，以构建第一矩阵；第二获得单元，其利用深度学习模型对所述第一矩阵进行处理，以获得第二矩阵；第三获得单元，其利用注意力模型，对所述第二矩阵进行处理，以确定所述文本序列中词的受关注程度，并基于所述受关注程度获得所述文本序列的第三矩阵；分类单元，其至少根据所述文本序列的所述第三矩阵，以及预先存储的分类模型，来确定所述文本序列中的实体词之间的语义关系。根据本实施例，能够提高分类效率。

Description

对实体词的语义关系进行分类的方法、装置和电子设备

技术领域

本申请涉及信息技术领域，尤其涉及一种对文本序列中实体词的语义关系进行分类的方法、装置和电子设备。

背景技术

实体词的语义关系分类是指，确定文本序列中的实体词之间的语义关系属于预定的语义关系中的哪一类，该预定的语义关系例如可以是上位概念与下位概念的关系、动宾关系等，例如，在句子“<e1>机器<e1>产生了大量<e2>噪音<e2>”中，确定实体词e1与实体词e2的关系为：因-果(e1，e2)。

在自然语言处理领域，实体词的语义关系分类较受关注，因为语义关系分类在信息抽取、信息检索、机器翻译、问答、知识库建设和语义消歧等任务中都有重要的应用价值。

在现有的实体词的语义关系分类方法中，可以利用基于长短期记忆(Long-ShortTerm Memory，LSTM)单元的递归神经网络(Recurrent Neural Network，RNN)模型来进行分类，该模型能有效利用序列数据中长距离依赖信息的能力，因此对于文本序列数据的处理非常有效。

应该注意，上面对技术背景的介绍只是为了方便对本申请的技术方案进行清楚、完整的说明，并方便本领域技术人员的理解而阐述的。不能仅仅因为这些方案在本申请的背景技术部分进行了阐述而认为上述技术方案为本领域技术人员所公知。

发明内容

本申请的发明人发现，在语义关系分类任务重，句子中的其它词对实体词的重要程度是不同的，对于分类结果的影响也是不同的。当文本序列中的词的数量较少时，现有的实体词的语义关系分类方法能够高效地进行分类，而当文本序列中的词的数量较多时，由于存在大量对分类结果影响不大的词，所以分类的效率会降低。

本申请的实施例提供一种对实体词的语义关系进行分类的方法、装置和电子设备，通过引入注意力模型(Attention Model)来确定文本序列中词的受关注程度，进而基于受关注程度对实体词之间的语义关系进行分类，由此，能够提高分类的效率。

根据本申请实施例的第一方面，提供一种对文本序列中实体词的语义关系进行分类的装置，该装置包括：

第一获得单元，其用于将文本序列中的每个词用词向量表示，以构建第一矩阵；

第二获得单元，其利用深度学习模型对所述第一矩阵进行处理，以获得第二矩阵，其中，所述第二矩阵的行或列与所述文本序列中的词对应；

第三获得单元，其利用注意力模型，对所述第二矩阵进行处理，以确定所述文本序列中词的受关注程度，并基于所述受关注程度获得所述文本序列的第三矩阵；

分类单元，其至少根据所述文本序列的所述第三矩阵，以及预先存储的分类模型，来确定所述文本序列中的实体词之间的语义关系。

根据本申请实施例的第二方面，提供一种对文本序列中实体词的语义关系进行分类的方法，该方法包括：

将文本序列中的每个词用词向量表示，以构建第一矩阵；

利用深度学习模型对所述第一矩阵进行处理，以获得第二矩阵(即，BLSTM的输出)，其中，所述第二矩阵的行或列与所述文本序列中的词对应；

利用注意力模型，对所述第二矩阵进行处理，以确定所述文本序列中词的受关注程度，并基于所述受关注程度获得所述文本序列的第三矩阵；以及

至少根据所述文本序列的所述第三矩阵，以及预先存储的分类模型，来确定所述文本序列中的实体词之间的语义关系。

根据本申请实施例的第三方面，提供一种电子设备，包括本申请实施例第一方面所述的对文本序列中实体词的语义关系进行分类的装置。

本申请的有益效果在于：提高对实体词的语义关系进行分类的效率。

参照后文的说明和附图，详细公开了本发明的特定实施方式，指明了本发明的原理可以被采用的方式。应该理解，本发明的实施方式在范围上并不因而受到限制。在所附权利要求的精神和条款的范围内，本发明的实施方式包括许多改变、修改和等同。

针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用，与其它实施方式中的特征相组合，或替代其它实施方式中的特征。

应该强调，术语“包括/包含”在本文使用时指特征、整件、步骤或组件的存在，但并不排除一个或更多个其它特征、整件、步骤或组件的存在或附加。

附图说明

所包括的附图用来提供对本发明实施例的进一步的理解，其构成了说明书的一部分，用于例示本发明的实施方式，并与文字描述一起来阐释本发明的原理。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1是本申请实施例1的分类方法的一个示意图；

图2是本申请实施例1的获得第三矩阵的方法的一个示意图；

图3是本申请实施例1的选择出预定数量的词的方法的一个示意图；

图4是本申请实施例1的获得该第三矩阵的方法的另一个示意图；

图5是本申请实施例1的根据第三矩阵和第二矩阵这两者确定语义关系的方法的一个示意图；

图6是本申请实施例1的根据第三矩阵和第二矩阵这两者确定语义关系的方法的另一个示意图；

图7是本申请实施例1的根据第三矩阵和第二矩阵这两者确定语义关系的方法的另一个示意图；

图8是本申请实施例2的分类装置的一个示意图；

图9是本申请实施例2的第三获得单元的一个示意图；

图10是本申请实施例2的选择单元的一个示意图；

图11是本申请实施例2的第三获得单元的另一个示意图；

图12是本申请实施例2的分类单元的一个示意图；

图13是本申请实施例2的分类单元的另一个示意图；

图14是本申请实施例2的分类单元的另一个示意图；

图15是本申请实施例3的电子设备的一个构成示意图。

具体实施方式

参照附图，通过下面的说明书，本发明的前述以及其它特征将变得明显。在说明书和附图中，具体公开了本发明的特定实施方式，其表明了其中可以采用本发明的原则的部分实施方式，应了解的是，本发明不限于所描述的实施方式，相反，本发明包括落入所附权利要求的范围内的全部修改、变型以及等同物。

实施例1

本申请实施例1提供一种分类方法，用于对文本序列中实体词的语义关系进行分类。

图1是实施例1的分类方法的一个示意图，如图1所示，该方法包括：

S101、将文本序列中的每个词用词向量表示，以构建第一矩阵；

S102、利用深度学习模型对所述第一矩阵进行处理，以获得第二矩阵，其中，所述第二矩阵的行或列与所述文本序列中的词对应；

S103、利用注意力模型(Attention Model)，对所述第二矩阵进行处理，以确定所述文本序列中词的受关注程度，并基于所述受关注程度获得所述文本序列的第三矩阵；

S104、至少根据所述文本序列的所述第三矩阵，以及预先存储的分类模型，来确定所述文本序列中的实体词之间的语义关系。

在本实施例中，引入了注意力模型(Attention Model)来确定文本序列中词的受关注程度，进而基于受关注程度对实体词之间的语义关系进行分类，由此，能够提高分类的效率。

在本实施例的步骤S101中，可以根据词的特征，将词表示为词向量(WordingEmbedding)，词向量可以是多维浮点数向量。

其中，词的特征可以包括词本身的特征，词在文本序列中的位置特征等，例如，词本身的特征可以被表示为50维或100维的向量，词的位置特征可以被表示为5维的向量等。当然，本实施例不限于此，除了词本身的特征和词的位置特征以外，还可以考虑上位词、词性、命名实体和语法分析树等特征来构建该词的词向量。

在本实施例中，文本序列中的每个词都用词向量表示，由此，整个文本序列中所有词的词向量构建成第一矩阵，该第一矩阵与该文本序列对应。例如，该第一矩阵的一行或一列对应文本序列中一个词的词向量。

在本实施例的步骤S102中，可以利用深度学习模型对所述第一矩阵进行处理，以获得第二矩阵。例如，可以采用双向长短期记忆(Bi-LSTM)模型对步骤S101中所得到的第一矩阵进行处理。此外，也可以采用其它的深度学习模型，例如长短期记忆(LSTM)模型等模型对第一矩阵进行处理。

在本实施例中，第二矩阵的行或列向量可以与该文本序列中的词对应。例如，该第二矩阵M2可以被表示为M2＝{F1，…，Fi,…，Ft}，其中，i和t都为整数，1≤i≤t，t表示该文本序列中的词的数量，Fi是该文本序列中第i个词对应的向量，假设该文本序列中的实体词e1、e2分别是该文本序列中的第ie1、ie2个词，那么，向量Fie1和Fie2分别是该序列中的实体词e1、e2对应的向量。

在本实施例的步骤S103中，利用注意力模型(Attention Model)，确定所述文本序列中词的受关注程度，对所述第二矩阵进行处理，以获得所述文本序列的第三矩阵，其中，词的受关注程度能够反映出该词对于文本序列中实体词的重要程度，由此，第三矩阵能够体现第二矩阵中受关注程度较高的词，从而使步骤S104中的分类更加高效。

图2是本实施例的获得该第三矩阵的方法的一个示意图，如图2所示，该方法可以包括：

S201、利用注意力模型，确定所述文本序列中每个词的受关注程度，并基于所述受关注程度，从所述文本序列中选择出预定数量的词；以及

S202、将所述第二矩阵中与选择出的所述预定数量的词对应的向量合并，以形成所述第三矩阵。

在本实施例中，通过步骤S201和步骤S202，能够从文本序列中抽取预定数量的词来组成第三矩阵，由此，第三矩阵的规模可以小于第二矩阵。

图3是本实施例的选择出预定数量的词的方法的一个示意图，用于实现步骤S201。如图3所示，该方法包括：

S301、将所述第二矩阵中的实体词对应的向量与所述第二矩阵合并，形成第四矩阵；

S302、对所述第四矩阵进行非线性处理，以确定所述文本序列每个词的受关注程度，并基于所述受关注程度，从所述文本序列中选择出第一预定数量的词；以及

S303、将所述第二矩阵中与选择出的所述第一预定数量的词对应的向量与所述第二矩阵合并，形成更新后的第四矩阵，并基于更新后的第四矩阵从所述文本序列中再次选择出第一预定数量的词，其中，所有选择出的第一预定数量的词的总和等于所述预定数量。

在本实施例中，由于实体词本身所包含的信息对于语义关系的分类至关重要，因此，在步骤S301中，将第二矩阵中的实体词对应的向量与该第二矩阵合并，形成第四矩阵，例如，该第四矩阵M4可以被表示为M4＝{F1，…，Fi,…，Ft，Fie1，Fie2}。

在步骤S302中，可以对第四矩阵进行非线性处理，从而确定文本写中每个词的受关注程度。其中，该非线性处理可以基于注意力(Attention)机制的神经网络(NeuralNetwork)处理，例如西格玛(σ)处理或正切(tangent)处理等，但本实施例并不限于此，非线性处理也可以包括其它的处理方式。

例如，在本实施例中，可以采用如下的式(1)对第四矩阵M4进行西格玛处理：

σ(w·M4+b) (1)

其中，σ是非线性系数，w是线性系数，b是常量。

对第四矩阵进行非线性处理后，能够得到文本序列中每个词对应的权值，该权值代表该词的受关注程度。

在步骤S302中，基于每个词的受关注程度，从该文本序列中选择出第一预定数量的词，例如，根据受关注程度从高到低的排序，选出在前的第一预定数量的词，该第一预定数量例如可以是2个。

在步骤S303中，可以将步骤S302中选择出来的第一预定数量的词在第二矩阵中对应的向量与该第二矩阵合并，以形成更新的第四矩阵，例如，步骤S302中选择出文本序列中的第j个词和第k个词，在步骤S303中，将第二矩阵M2中的与第j个词和第k个词对应的向量Fj和Fk与第二矩阵M2合并，以形成更新的第四矩阵M4’，该更新的第四矩阵M4’可以被表示为M4’＝{F1，…，Fi,…，Ft，Fj，Fk}。

在步骤S303中，可以采用与步骤S302相同的方法，对更新后的第四矩阵进行非线性处理，以重新确定文本序列中词的受关注程度，并基于重新确定的受关注程度从文本序列中再次选择出第一预定数量的词。

在本实施例中，步骤S302可以执行一次，步骤S303可以重复进行多次，直到从步骤S302中选择出的第一预定数量的词，以及从步骤S303的全部次中选择出的词的总和等于步骤S201中所要求的预定数量的词。

需要说明的是，每次执行步骤S303时所选择出的第一预定数量的词所对应的向量，可以在下次执行步骤S303时用来形成该更新后的第四矩阵。

在本实施例的步骤S202中，将从步骤S201所选出来的预定数量的词在第二矩阵中对应的向量合并，以形成该第三矩阵。例如，步骤S201中选择出文本序列中的第j个、第k个、第l个、第m个、第n个以及第o个词作为预定数量的词，在步骤S202中，将第二矩阵M2中的与上述预定数量的词对应的向量Fj、Fk、Fl、Fm、Fn和Fo合并，以形成第三矩阵M3，该第三矩阵M3可以被表示为M3＝{Fj，Fk，Fl，Fm，Fn，Fo}。

在上述的图2、图3中，示出了从第二矩阵中抽取出预定数量的词的向量，以形成第三矩阵的方法；但是本实施例并不限于此，还可以采用其它的方法来形成该第三矩阵。

图4是本实施例的获得该第三矩阵的方法的另一个示意图，如图4所示，该方法可以包括：

S401、利用注意力模型，确定所述文本序列中每个词的受关注程度；以及

S402、根据所述受关注程度所对应的权重值，对所述第二矩阵进行处理，以形成所述第三矩阵。

在本实施例的步骤S401中，可以对第二矩阵进行非线性处理，以计算文本序列中每个词的权重值，从而确定文本序列中每个词的受关注程度，其中，进行非线性处理的方法可以参考上述步骤S302中的说明。

在本实施例的步骤S402中，可以将该文本序列中每个词的受关注程度所对应的权重值乘以第二矩阵中对应的向量，以形成第三矩阵。例如，该文本序列中每个词的受关注程度所对应的权重值为w1，…，wi,…，wt，其中，wi是第i个词对应的权重值，该第三矩阵M3可以被表示为M3＝{w1*F1，…，wi*Fi,…，wt*Ft}。

通过步骤S401和S402，能够对第二矩阵的每个词的向量赋予和受关注程度对应的权重值，以形成第三矩阵，由此，该第三矩阵语第二矩阵的规模相同。

以上，结合图2-图4说明了步骤S103获得该第三矩阵的方法，当然，本实施例可以不限于此，也可以采用与图2-图4不同的方法来获得该第三矩阵。

在本实施例的步骤S104中，至少根据步骤S103获得的第三矩阵，以及预先存储的分类模型，来确定文本序列中的实体词之间的语义关系。例如，无论文本序列中的词的数量是多少，都可以对第三矩阵进行隐含层处理，以生成特征向量，并根据预先存储的分类模型对该特征向量进行分类，以得到语义关系的类别，其中，进行隐含层处理的方法可以参考现有技术，此处不再说明。

在本实施例的步骤S104中，也可以根据该第三矩阵M3和第二矩阵M2这两者，并基于预先存储的分类模型来确定语义关系。

图5是本实施例的根据第三矩阵和第二矩阵这两者确定语义关系的方法的一个示意图，如图5所示，该方法包括：

S501、将所述第三矩阵进行第一隐含层处理；

S502、将所述第二矩阵依次进行池化处理(pooling)和第二隐含层处理；以及

S503、将所述第一隐含层处理的结果和所述第二隐含层处理的结果合并，并基于所述预先存储的分类模型来确定该语义关系。

在步骤S501中，可以将该第三矩阵M3进行第一隐含层处理，从而生成第三矩阵M3的特征向量，其中，进行隐含层处理的方法可以参考现有技术，此处不再说明。

在步骤S502中，可以将该第二矩阵M2依次进行池化(Pooling)处理和第二隐含层处理。其中，该池化处理例如可以是最大池化(Max Pooling)处理，关于该最大池化处理的实现方法，可以参考现有技术，例如《基于LSTM的语义关系分类研究》(哈尔滨工业大学硕士学位论文，胡新辰)；基于池化处理的结果经过第二隐含层处理，可以得到该池化处理结果的特征向量，关于隐含层处理的方法可以参考现有技术，此处不再说明。

在步骤S503中，可以将第一隐含层处理所得到的特征向量与第二隐含层处理所得到的特征向量首尾连接，形成合并的特征向量，并基于预先存储的分类模型对该合并的特征向量进行分类，从而确定该语义关系。

图6是本实施例的根据第三矩阵和第二矩阵这两者确定语义关系的方法的另一个示意图，如图6所示，该方法包括：

S601、将所述第二矩阵进行池化处理(pooling)；

S602、将所述第三矩阵与所述池化处理的结果合并；

S603、将上述合并的结果进行隐含层处理；以及

S604、基于预先存储的分类模型，对上述隐含层处理的结果进行分类，来确定所述语义关系。

在本实施例中，步骤S601的池化处理的方法与上述步骤S502相同。

在步骤S602中，可以将步骤S601的池化处理后形成的矩阵或向量与第三矩阵M3合并，以形成合并矩阵。

在步骤S603中，可以对合并矩阵进行隐含层处理，以生成与该合并矩阵对应的特征向量，关于隐含层处理的方法可以参考现有技术。

在步骤S604中，可以根据预先存储的分类模型，对步骤S603生成的与该合并矩阵对应的特征向量进行分类，以确定语义关系。

图7是本实施例的根据第三矩阵和第二矩阵这两者确定语义关系的方法的另一个示意图，如图7所示，该方法包括：

S701、当所述文本序列中的词的数量小于预设阈值时，将所述第二矩阵依次进行池化处理(pooling)和第二隐含层处理，并基于所述第二隐含层处理的结果和所述预先存储的分类模型，确定所述语义关系；

S702、当所述文本序列中的词的数量大于或等于所述预设阈值时，将所述第三矩阵进行第一隐含层处理，并基于所述第一隐含层处理的结果和所述预先存储的分类模型，确定所述语义关系。

在本实施例中，当文本序列中的词的数量小于预设阈值时，进行步骤S701，基于对第二矩阵进行池化处理和第二隐含层处理的结果，来确定语义关系；当文本序列中词的数量大于或等于该预设阈值时，基于对第三矩阵进行第一隐含层处理的结果，来确定语义关系。

在本实施例的图5、图6和图7中，示出了基于第二矩阵和第三矩阵来确定语义关系的方法，但本实施例可以不限于此，也可以采用其它的方式来实现基于第二矩阵和第三矩阵确定语义关系。

在本实施例中，步骤S104所使用的分类模型可以包括softmax、最大熵、贝叶斯或支持向量机等。并且，可以通过训练来得到该分类模型，并将该分类模型进行存储以在步骤S104中进行使用。在本实施例中，可以将与步骤S101-S104对应的方法应用到训练集的训练样本中，从而训练得到该分类模型，关于训练过程的说明，此处不再重复。

实施例2

本申请实施例2提供一种对文本序列中实体词的语义关系进行分类的装置，与实施例1的方法对应。

图8是本实施例2的分类装置的一个示意图，如图8所示，该装置800包括第一获得单元801，第二获得单元802，第三获得单元803以及分类单元804。

其中，第一获得单元801用于将文本序列中的每个词用词向量表示，以构建第一矩阵；第二获得单元802利用深度学习模型对所述第一矩阵进行处理，以获得第二矩阵；第三获得单元803利用注意力模型，对所述第二矩阵进行处理，以确定所述文本序列中词的受关注程度，并基于所述受关注程度获得所述文本序列的第三矩阵；分类单元804至少根据所述文本序列的所述第三矩阵，以及预先存储的分类模型，来确定所述文本序列中的实体词之间的语义关系。

图9是本实施例2的第三获得单元的一个示意图，如图9所述，第三获得单元803可以包括选择单元901和合并单元902。

其中，选择单元901利用注意力模型，确定所述文本序列中每个词的受关注程度，并基于所述受关注程度，从所述文本序列中选择出预定数量的词；合并单元902将所述第二矩阵中与选择出的所述预定数量的词对应的向量合并，以形成所述第三矩阵。

图10是本实施例2的选择单元的一个示意图，如图10所示，选择单元901可以包括第一合并子单元1001，第一处理子单元1002以及第二处理子单元1003。

其中，第一合并子单元1001用于将所述第二矩阵中的实体词对应的向量与所述第二矩阵合并，形成第四矩阵；第一处理子单元1002对所述第四矩阵进行非线性处理，以确定所述文本序列每个词的受关注程度，并基于所述受关注程度，从所述文本序列中选择出第一预定数量的词；第二处理子单元1003将所述第二矩阵中与选择出的所述第一预定数量的词对应的向量与所述第二矩阵合并，形成更新后的第四矩阵，并基于更新后的第四矩阵从所述文本序列中再次选择出第一预定数量的词，其中，所有选择出的第一预定数量的词的总和等于所述预定数量。

图11是本实施例2的第三获得单元的另一个示意图，如图11所述，第三获得单元803可以包括确定单元1101和处理单元1102。

其中，确定单元1101利用注意力模型，确定所述文本序列中每个词的受关注程度；处理单元1102根据所述受关注程度所对应的权重值，对所述第二矩阵进行处理，以形成所述第三矩阵。

图12是本实施例2的分类单元的一个示意图，如图12所述，分类单元804可以包括第三处理子单元1201，第四处理子单元1202，以及第一分类子单元1203。

其中，第三处理子单元1201将所述第三矩阵进行第一隐含层处理；第四处理子单元1202将所述第二矩阵依次进行池化处理(pooling)和第二隐含层处理；第一分类子单元1203将所述第一隐含层处理的结果和所述第二隐含层处理的结果合并，并基于所述预先存储的分类模型，确定所述语义关系。

图13是本实施例2的分类单元的另一个示意图，如图13所述，分类单元804可以包括第五处理子单元1301，第六处理子单元1302，第七处理单元1303，以及第二分类子单元1304。

其中，第五处理子单元1301将所述第二矩阵进行池化处理；第六处理子单元1302将所述第三矩阵与所述池化处理的结果合并；第七处理子单元1303将上述合并的结果进行隐含层处理；第二分类子单元1304基于预先存储的分类模型，对上述隐含层处理的结果进行分类，来确定所述语义关系。

图14是本实施例2的分类单元的另一个示意图，如图14所述，分类单元804可以包括第三分类子单元1401和第四分类子单元1402。

其中，当文本序列中的词的数量小于预设阈值时，第三分类子单元1401将所述第二矩阵依次进行池化处理(pooling)和第二隐含层处理，并基于所述第二隐含层处理的结果和所述预先存储的分类模型，确定所述语义关系；当文本序列中的词的数量大于或等于所述预设阈值时，第四分类子单元1402将所述第三矩阵进行第一隐含层处理，并基于所述第一隐含层处理的结果和所述预先存储的分类模型，确定所述语义关系。

实施例3

本申请实施例3提供一种电子设备，所述电子设备包括：如实施例2所述的对文本序列中实体词的语义关系进行分类的装置。

图15是本申请实施例3的电子设备的一个构成示意图。如图15所示，电子设备1500可以包括：中央处理器(CPU)1501和存储器1502；存储器1502耦合到中央处理器1501。其中该存储器1502可存储各种数据；此外还存储信息处理的程序，并且在中央处理器1501的控制下执行该程序。

在一个实施方式中，分类装置中的功能可以被集成到中央处理器1501中。

其中，中央处理器1501可以被配置为：

将文本序列中的每个词用词向量表示，以构建第一矩阵(即，wordingembedding)；利用深度学习模型对所述第一矩阵进行处理，以获得第二矩阵(即，BLSTM的输出)，其中，所述第二矩阵的行或列与所述文本序列中的词对应；利用注意力模型(Attention Model)，对所述第二矩阵进行处理，以确定所述文本序列中词的受关注程度，并基于所述受关注程度获得所述文本序列的第三矩阵(attention的结果)；至少根据所述文本序列的所述第三矩阵，以及预先存储的分类模型，来确定所述文本序列中的实体词之间的语义关系。

其中，中央处理器1501还可以被配置为：

利用注意力模型，确定所述文本序列中每个词的受关注程度，并基于所述受关注程度，从所述文本序列中选择出预定数量的词；将所述第二矩阵中与选择出的所述预定数量的词对应的向量合并，以形成所述第三矩阵。

其中，中央处理器1501还可以被配置为：

将所述第二矩阵中的实体词对应的向量与所述第二矩阵合并，形成第四矩阵；对所述第四矩阵进行非线性处理，以确定所述文本序列每个词的受关注程度，并基于所述受关注程度，从所述文本序列中选择出第一预定数量的词；将所述第二矩阵中与选择出的所述第一预定数量的词对应的向量与所述第二矩阵合并，形成更新后的第四矩阵，并基于更新后的第四矩阵从所述文本序列中再次选择出第一预定数量的词，其中，所有选择出的第一预定数量的词的总和等于所述预定数量。

其中，中央处理器1501还可以被配置为：

利用注意力模型，确定所述文本序列中每个词的受关注程度；根据所述受关注程度所对应的权重值，对所述第二矩阵进行处理，以形成所述第三矩阵。

其中，中央处理器1501还可以被配置为：

根据所述第三矩阵和所述第二矩阵，以及所述分类模型来确定所述语义关系。

其中，中央处理器1501还可以被配置为：

将所述第三矩阵进行第一隐含层处理；将所述第二矩阵依次进行池化处理(pooling)和第二隐含层处理；将所述第一隐含层处理的结果和所述第二隐含层处理的结果合并，并基于所述预先存储的分类模型，确定所述语义关系。

其中，中央处理器1501还可以被配置为：

将所述第二矩阵进行池化处理(pooling)；将所述第三矩阵与所述池化处理的结果合并；将上述合并的结果进行隐含层处理；基于预先存储的分类模型，对上述隐含层处理的结果进行分类，来确定所述语义关系。

其中，中央处理器1501还可以被配置为：

当所述文本序列中的词的数量小于预设阈值时，将所述第二矩阵依次进行池化处理(pooling)和第二隐含层处理，并基于所述第二隐含层处理的结果和所述预先存储的分类模型，确定所述语义关系；并且，当所述文本序列中的词的数量大于或等于所述预设阈值时，将所述第三矩阵进行第一隐含层处理，并基于所述第一隐含层处理的结果和所述预先存储的分类模型，确定所述语义关系。

此外，如图15所示，电子设备1500还可以包括：输入输出单元1503和显示单元1504等；其中，上述部件的功能与现有技术类似，此处不再赘述。值得注意的是，电子设备1500也并不是必须要包括图15中所示的所有部件；此外，电子设备1500还可以包括图15中没有示出的部件，可以参考现有技术。

本申请实施例还提供一种计算机可读程序，其中当在定位装置或电子设备中执行所述程序时，所述程序使得所述分类装置或电子设备执行实施例2所述的分类方法。

本申请实施例还提供一种存储有计算机可读程序的存储介质，其中，所述存储介质存储上述计算机可读程序，所述计算机可读程序使得分类装置或电子设备执行实施例2所述的分类方法。

结合本发明实施例描述的检测装置可直接体现为硬件、由处理器执行的软件模块或二者组合。例如，图8-14中所示的功能框图中的一个或多个和/或功能框图的一个或多个组合，既可以对应于计算机程序流程的各个软件模块，亦可以对应于各个硬件模块。这些软件模块，可以分别对应于实施例3所示的各个步骤。这些硬件模块例如可利用现场可编程门阵列(FPGA)将这些软件模块固化而实现。

软件模块可以位于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动磁盘、CD-ROM或者本领域已知的任何其它形式的存储介质。可以将一种存储介质耦接至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息；或者该存储介质可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。该软件模块可以存储在移动终端的存储器中，也可以存储在可插入移动终端的存储卡中。例如，若设备(例如移动终端)采用的是较大容量的MEGA-SIM卡或者大容量的闪存装置，则该软件模块可存储在该MEGA-SIM卡或者大容量的闪存装置中。

针对图8-14描述的功能框图中的一个或多个和/或功能框图的一个或多个组合，可以实现为用于执行本申请所描述功能的通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或晶体管逻辑器件、分立硬件组件、或者其任意适当组合。针对图1-3描述的功能框图中的一个或多个和/或功能框图的一个或多个组合，还可以实现为计算设备的组合，例如，DSP和微处理器的组合、多个微处理器、与DSP通信结合的一个或多个微处理器或者任何其它这种配置。

以上结合具体的实施方式对本申请进行了描述，但本领域技术人员应该清楚，这些描述都是示例性的，并不是对本申请保护范围的限制。本领域技术人员可以根据本申请的原理对本申请做出各种变型和修改，这些变型和修改也在本申请的范围内。

关于包括以上实施例的实施方式，还公开下述的附记：

附记1、一种对文本序列中实体词的语义关系进行分类的装置，该装置包括：

附记2、如附记1所述的装置，其中，所述第三获得单元包括：

选择单元，其利用注意力模型，确定所述文本序列中每个词的受关注程度，并基于所述受关注程度，从所述文本序列中选择出预定数量的词；以及

合并单元，其用于将所述第二矩阵中与选择出的所述预定数量的词对应的向量合并，以形成所述第三矩阵。

附记3、如附记2所述的装置，其中，所述选择单元包括：

第一合并子单元，其用于将所述第二矩阵中的实体词对应的向量与所述第二矩阵合并，形成第四矩阵；

第一处理子单元，其对所述第四矩阵进行非线性处理，以确定所述文本序列每个词的受关注程度，并基于所述受关注程度，从所述文本序列中选择出第一预定数量的词；以及

第二处理子单元，其将所述第二矩阵中与选择出的所述第一预定数量的词对应的向量与所述第二矩阵合并，形成更新后的第四矩阵，并基于更新后的第四矩阵从所述文本序列中再次选择出第一预定数量的词，

其中，所有选择出的第一预定数量的词的总和等于所述预定数量。

附记4、如附记1所述的装置，其中，所述第三获得单元包括：

确定单元，其利用注意力模型，确定所述文本序列中每个词的受关注程度；以及

处理单元，根据所述受关注程度所对应的权重值，对所述第二矩阵进行处理，以形成所述第三矩阵。

附记5、如附记1所述的装置，其中，

所述分类单元根据所述第三矩阵和所述第二矩阵，以及所述分类模型来确定所述语义关系。

附记6、如附记5所述的装置，其中，所述分类单元包括：

第三处理子单元，其将所述第三矩阵进行第一隐含层处理；

第四处理子单元，其将所述第二矩阵依次进行池化处理(pooling)和第二隐含层处理；以及

第一分类子单元，其将所述第一隐含层处理的结果和所述第二隐含层处理的结果合并，并基于所述预先存储的分类模型，确定所述语义关系。

附记7、如附记5所述的装置，其中，确定所述语义关系包括：

第五处理子单元，其将所述第二矩阵进行池化处理；

第六处理子单元，其将所述第三矩阵与所述池化处理的结果合并；

第七处理子单元，其将上述合并的结果进行隐含层处理；以及

第二分类子单元，其基于预先存储的分类模型，对上述隐含层处理的结果进行分类，来确定所述语义关系。

附记8、如附记5所述的装置，其中，确定所述语义关系包括：

第三分类子单元，其当所述文本序列中的词的数量小于预设阈值时，将所述第二矩阵依次进行池化处理(pooling)和第二隐含层处理，并基于所述第二隐含层处理的结果和所述预先存储的分类模型，确定所述语义关系；

第四分类子单元，其当所述文本序列中的词的数量大于或等于所述预设阈值时，将所述第三矩阵进行第一隐含层处理，并基于所述第一隐含层处理的结果和所述预先存储的分类模型，确定所述语义关系。

附记9、一种电子设备，包括附记1-8中任一项所述的装置。

附记10、一种对文本序列中实体词的语义关系进行分类的方法，该方法包括：

将文本序列中的每个词用词向量表示，以构建第一矩阵(即，wordingembedding)；

利用注意力模型(Attention Model)，对所述第二矩阵进行处理，以确定所述文本序列中词的受关注程度，并基于所述受关注程度获得所述文本序列的第三矩阵(attention的结果)；

附记11、如附记10所述的方法，其中，利用注意力模型，获得所述第三矩阵的方法包括(hard attention)：

利用注意力模型，确定所述文本序列中每个词的受关注程度，并基于所述受关注程度，从所述文本序列中选择出预定数量的词；以及

将所述第二矩阵中与选择出的所述预定数量的词对应的向量合并，以形成所述第三矩阵。

附记12、如附记11所述的方法，其中，从所述文本序列中选择出预定数量的词包括：

将所述第二矩阵中的实体词对应的向量与所述第二矩阵合并，形成第四矩阵；

对所述第四矩阵进行非线性处理，以确定所述文本序列每个词的受关注程度，并基于所述受关注程度，从所述文本序列中选择出第一预定数量的词；以及

将所述第二矩阵中与选择出的所述第一预定数量的词对应的向量与所述第二矩阵合并，形成更新后的第四矩阵，并基于更新后的第四矩阵从所述文本序列中再次选择出第一预定数量的词，

附记13、如附记10所述的方法，其中，利用注意力模型，获得所述第三矩阵的方法包括(soft attention)：

利用注意力模型，确定所述文本序列中每个词的受关注程度；以及

根据所述受关注程度所对应的权重值，对所述第二矩阵进行处理，以形成所述第三矩阵。

附记14、如附记10所述的方法，其中，至少根据所述第三矩阵和所述分类模型来确定所述语义关系包括：

附记15、如附记14所述的方法，其中，确定所述语义关系包括：

将所述第三矩阵进行第一隐含层处理；

将所述第二矩阵依次进行池化处理(pooling)和第二隐含层处理；以及

将所述第一隐含层处理的结果和所述第二隐含层处理的结果合并，并基于所述预先存储的分类模型，确定所述语义关系。

附记16、如附记14所述的方法，其中，确定所述语义关系包括：

将所述第二矩阵进行池化处理(pooling)；

将所述第三矩阵与所述池化处理的结果合并；

将上述合并的结果进行隐含层处理；以及

基于预先存储的分类模型，对上述隐含层处理的结果进行分类，来确定所述语义关系。

附记17、如附记14所述的方法，其中，确定所述语义关系包括：

当所述文本序列中的词的数量小于预设阈值时，

将所述第二矩阵依次进行池化处理(pooling)和第二隐含层处理，

并基于所述第二隐含层处理的结果和所述预先存储的分类模型，确定所述语义关系；

并且，当所述文本序列中的词的数量大于或等于所述预设阈值时，

将所述第三矩阵进行第一隐含层处理，

并基于所述第一隐含层处理的结果和所述预先存储的分类模型，确定所述语义关系。

Claims

1.一种对文本序列中实体词的语义关系进行分类的装置，该装置包括：

第三获得单元，其利用注意力模型，对所述第二矩阵进行处理，以确定所述文本序列中词的受关注程度，并基于所述受关注程度获得所述文本序列的第三矩阵；以及

2.如权利要求1所述的装置，其中，所述第三获得单元包括：

3.如权利要求2所述的装置，其中，所述选择单元包括：

其中，所述第一处理子单元选择出的第一预定数量的词和所述第二处理子单元选择出的第一预定数量的词的总和等于所述预定数量。

4.如权利要求1所述的装置，其中，所述第三获得单元包括：

5.如权利要求1所述的装置，其中，

6.如权利要求5所述的装置，其中，所述分类单元包括：

第三处理子单元，其将所述第三矩阵进行第一隐含层处理；

第四处理子单元，其将所述第二矩阵依次进行池化处理和第二隐含层处理；以及

7.如权利要求5所述的装置，其中，确定所述语义关系包括：

第五处理子单元，其将所述第二矩阵进行池化处理；

8.如权利要求5所述的装置，其中，确定所述语义关系包括：

第三分类子单元，其当所述文本序列中的词的数量小于预设阈值时，将所述第二矩阵依次进行池化处理和第二隐含层处理，并基于所述第二隐含层处理的结果和所述预先存储的分类模型，确定所述语义关系；

9.一种电子设备，包括权利要求1-8中任一项所述的装置。

10.一种对文本序列中实体词的语义关系进行分类的方法，该方法包括：

将文本序列中的每个词用词向量表示，以构建第一矩阵；

利用深度学习模型对所述第一矩阵进行处理，以获得第二矩阵，其中，所述第二矩阵的行或列与所述文本序列中的词对应；