CN106407211B - 对实体词的语义关系进行分类的方法和装置 - Google Patents
对实体词的语义关系进行分类的方法和装置 Download PDFInfo
- Publication number
- CN106407211B CN106407211B CN201510459760.3A CN201510459760A CN106407211B CN 106407211 B CN106407211 B CN 106407211B CN 201510459760 A CN201510459760 A CN 201510459760A CN 106407211 B CN106407211 B CN 106407211B
- Authority
- CN
- China
- Prior art keywords
- vector
- sentence
- matrix
- word
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及对实体词的语义关系进行分类的方法和装置。该方法包括:通过将句子中的每个词用词向量表示来构建第一矩阵,将第一矩阵中的实体词的向量进行连接以得到第一实体词向量;对第一矩阵利用深度学习模型进行处理得到第二矩阵,将第二矩阵中的实体词的向量进行连接以得到第二实体词向量;对第二矩阵进行池化处理来得到句子级特征;将第一实体词向量与第二实体词向量进行连接得到词汇级特征;以及将句子级特征和词汇级特征进行连接得到的向量作为待分类向量输入预先存储的分类模型来确定实体词之间的语义关系。根据本发明,提供了一种更有效的对实体词的语义关系进行分类的方法和装置。
Description
技术领域
本发明涉及信息处理领域,更具体地涉及一种对实体词的语义关系进行分类的方法和装置。
背景技术
传统的对实体词的语义关系进行分类的方法主要基于统计学的机器学习,并且它们的性能极大地取决于所提取的特征(语法和语义结构)的质量,这是非常耗时的,并且依赖于领域知识。
因此,需要一种更有效的对实体词的语义关系进行分类的方法和装置。
发明内容
在下文中给出关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
本发明的一个主要目的在于,提供了一种对实体词的语义关系进行分类的方法,包括:通过将句子中的每个词用词向量表示来构建第一矩阵,将所述第一矩阵中的实体词的向量进行连接以得到第一实体词向量;对所述第一矩阵利用深度学习模型进行处理得到第二矩阵,将所述第二矩阵中的实体词的向量进行连接以得到第二实体词向量;对所述第二矩阵进行池化处理来得到句子级特征;将第一实体词向量与第二实体词向量进行连接得到词汇级特征;以及将所述句子级特征和所述词汇级特征进行连接得到的向量作为待分类向量输入预先存储的分类模型来确定所述实体词之间的语义关系。
根据本发明的一个方面,提供一种对实体词的语义关系进行分类的装置,包括:第一实体词向量获得单元,被配置为通过将句子中的每个词用词向量表示来构建第一矩阵,将所述第一矩阵中的实体词的向量进行连接以得到第一实体词向量;第二实体词向量获得单元,被配置为对所述第一矩阵利用深度学习模型进行处理得到第二矩阵,将所述第二矩阵中的实体词的向量进行连接以得到第二实体词向量;句子级特征获得单元,被配置为对所述第二矩阵进行池化处理来得到句子级特征;词汇级特征获得单元,被配置为将第一实体词向量与第二实体词向量进行连接得到词汇级特征;以及语义关系确定单元,被配置为将所述句子级特征和所述词汇级特征进行连接得到的向量作为待分类向量输入预先存储的分类模型来确定所述实体词之间的语义关系。
另外,本发明的实施例还提供了用于实现上述方法的计算机程序。
此外,本发明的实施例还提供了至少计算机可读介质形式的计算机程序产品,其上记录有用于实现上述方法的计算机程序代码。
通过以下结合附图对本发明的最佳实施例的详细说明,本发明的这些以及其他优点将更加明显。
附图说明
参照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。
图1示出了根据本发明的一个实施例的对实体词的语义关系进行分类的方法100的示例性过程的流程图;
图2示出了第二矩阵的示意图;
图3示出了训练得到对实体词的语义关系进行分类的分类方法100中所采用的分类模型的方法300的示例性过程的流程图;
图4是示出根据本发明的一个实施例的对实体词的语义关系进行分类的装置400的示例性配置的框图;
图5是示出用于生成对实体词的语义关系进行分类的装置400中所利用的分类模型的分类模型训练单元500的示例性配置的框图;以及
图6是示出可以用于实施本发明的对实体词的语义关系进行分类的方法和装置的计算设备的示例性结构图。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的设备结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
本发明提出了一种对实体词的语义关系进行分类的方法和装置。其可以解决对一对名词(实体词)之间的语义关系进行分类的问题。
例如,在句子“<e1>机器<e1>产生了大量<e2>噪音<e2>”中,确定实体e1与实体e2的关系为:因-果(e1,e2)。
所得到的语义关系分类可以单独作为一个分析结果输出,也可以作为中间结果为机器翻译、自动文摘、问答系统提供更好的实体之间的关系,以便提高整体信息处理的性能。
深度学习是近年来机器学习领域取得的重大突破性技术。利用深度学习来解决NLP(自然语言处理)问题,也是目前的研究热点。
下面结合附图详细说明根据本发明的实施例的对实体词的语义关系进行分类的方法和装置。下文中的描述按如下顺序进行:
1.对实体词的语义关系进行分类的方法
2.对实体词的语义关系进行分类的装置
3.用以实施本申请的方法和装置的计算设备
[1.对实体词的语义关系进行分类的方法]
图1示出了根据本发明的一个实施例的对实体词的语义关系进行分类的方法100的示例性过程的流程图。
首先,在S102中,将句子中的每个词用词向量表示来构建第一矩阵,将所述第一矩阵中的实体词的向量进行连接以得到第一实体词向量。
NLP中常用的词表示方法是One-hot Representation,这种方法把每个词表示为一个很长的向量,这个向量的维度是词表大小,其中绝大多数元素为0,只有一个维度的值为1,这个维度就代表了当前的词。这种表示方法缺点是任意两个词之间都是孤立的,只从这两个向量中看不出来两个词是否有关系。而词向量(Word Embedding)就解决了这个问题,它通常应用50维或100维的浮点数向量来表示一个词。在本发明中,基于词向量来表示句子中的每个词语,可以更准确衡量两个词语的相似度。采用词向量表示可以将不同的特征转移到向量中,这是一种更有效的词表示方式。
在本发明中,对词的表示不仅考虑了词本身的特征,还考虑了词的位置特征。对于词本身的表示,可以使用该词通常使用的向量值作为初始值。而对于词的位置的表示,可以将位置的初始值设置为一个随机值。无论是词本身的表示还是词的位置的表示,这两类特征都表示为向量,例如,词的词向量是50维,位置词向量是5维。
在一个示例中,除了词特征和词的位置特征以外,还可以考虑上位词、词性、命名实体和语法分析树等特征来构建该词的词向量。
通过将句子中的每个词都用词向量表示,这样将整个句子构建成了一个矩阵。将该矩阵中的实体词的向量进行连接(concatenate),concatenate[e1:e2],可以得到关于实体词的第一实体词向量。
接下来,在步骤S104中,对第一矩阵利用深度学习模型进行处理得到第二矩阵,将第二矩阵中的实体词的向量进行连接以得到第二实体词向量。
优选地,采用双向长短期记忆模型(BLSTM)对步骤S102中所得到的第一矩阵进行处理,来提取句子特征和词汇特征。采用BLSTM模型,可以捕获句子中的词语的前向和前馈信息,从而将每个词看作一个链,而不是独立地。
此外,也可以采用长短期记忆模型(LSTM)或循环神经网络(RNN)等模型对第一矩阵进行处理。
图2示出了在步骤S104中所得到的第二矩阵的示意图。其中,Ve1和Ve2是实体词的向量,F1…Ft是除实体词以外的其他词的向量,Ve1和Ve2将第二矩阵分成了A、B、C三个子矩阵。将Ve1和Ve2进行连接,concatenate[Ve1:Ve2],可以得到第二实体词向量。
接下来,在步骤S106中,对第二矩阵进行池化处理来得到句子级特征。
下面结合图2说明对第二矩阵进行池化处理来得到句子级特征的多种方式。
方式1:对A、B、C三个子矩阵分别进行池化处理得到三个作为句子级子特征的向量m1、m2和m3,然后将m1、m2和m3进行连接,concatenate[m1:m2:m3],来得到句子级特征m。
方式2:对A+B进行池化处理得到句子级子特征m1,再对B+C进行池化处理得到句子级子特征m2,然后将m1和m2进行连接,concatenate[m1:m2],来得到句子级特征m。
方式3:对A+Ve1+B进行池化处理得到句子级子特征m1,再对B+Ve2+C进行池化处理得到句子级子特征m2,然后将m1和m2进行连接,concatenate[m1:m2],来得到句子级特征m。
方式4:对A+B+C即三个子矩阵的集合进行池化处理,所得到的向量m直接作为句子级特征。
在提取句子级特征时所采用的对于第二矩阵的不同分区的选择,可以更有效地利用上下文信息表示。
池化处理可以为最大池化处理或平均池化处理。
在步骤S108中,将步骤S102中得到的第一实体词向量与步骤S104中得到的第二实体词向量进行连接得到词汇级特征。
最后,在步骤S110中,将步骤S106中所得到的句子级特征和步骤S108中所得到的词汇级特征进行连接得到的向量作为待分类向量,输入预先存储的分类模型来确定实体词之间的语义关系。
通过将词汇级特征与句子级特征连接,使得词汇级特征通过句子级特征得到丰富,从而从不同方面示出词语的意思,以便更有效地确定实体词之间的语义关系。
在一个示例中,在步骤S110之前还可以包括:对句子级特征和词汇级特征进行连接得到的向量进行多层感知机(MLP)处理来得到待分类向量的步骤(图中未示出)。
在步骤S110中所采用的分类模型可以通过训练来得到。图3示出了训练得到分类模型的一种示例性过程的流程图。
首先,在步骤S302中,获得训练数据集,训练数据集包括待训练的句子和各句子包括的实体词的语义关系。
接下来,在步骤S304中,对于每个待训练的句子,通过将其中的每个词用词向量表示来构建第一矩阵,将第一矩阵中的实体词的向量进行连接以得到第一实体词向量;
然后,在步骤S306中,对第一矩阵利用深度学习模型进行处理得到第二矩阵,将第二矩阵中的实体词的向量进行连接以得到第二实体词向量;
在步骤S308中,对第二矩阵进行池化处理来得到句子级特征;
在步骤S310中,将第一实体词向量与第二实体词向量进行连接得到词汇级特征;
在步骤S312中,将句子级特征和词汇级特征进行连接得到的向量作为该句子的待分类向量。
最后,在步骤S314中,基于所得到的每个句子的待分类向量以及各句子包括的实体词的语义关系进行训练可以得到分类模型。
本领域技术人员可以理解,在步骤S314之前也可以包括:对句子级特征和词汇级特征进行连接得到的向量进行MLP处理来得到待分类向量的步骤(图中未示出)。
本领域技术人员可以理解,在训练得到分类模型的过程中确定每个句子的待分类向量的方法与上文中对实体词的语义关系进行分类的过程中确定句子的待分类向量的方法相同,在此不作赘述。
在此需要注意的是,虽然在上面描述了怎样生成分类模型,但是本领域的技术人员应当理解,对于根据本发明实施例的对实体词的语义关系进行分类的方法来说,只需要预先存储了一个如上所述的分类模型即可,而无需关心分类模型是怎样生成的。
本发明所采用的分类模型可以为:softmax、最大熵、贝叶斯和支持向量机等。
在分类模型的训练过程中,可以采用dropout技术来防止训练得到的分类模型过拟合。Dropout是指在模型训练时随机让网络某些隐含层节点的权重不工作,不工作的那些节点可以暂时认为不是网络结构的一部分,但是它的权重得保留下来(只是暂时不更新而已),因为下次样本输入时它可能又得工作了。也就是说,随机让一定比例(通常取0.5)的隐含层节点不工作,不工作的这些节点对应的权值在本次训练中不会更新。但是在模型使用的时候,所有的节点都会被用到。
具体地,在训练过程中,对第一矩阵利用深度学习模型进行处理、对句子级特征和词汇级特征进行连接得到的向量进行MLP处理以及在进行训练得到最终分类模型这几个步骤中都可以应用dropout技术。
在一个示例中,在对实体词的语义关系进行分类的过程中,可以根据待分类的句子的分类结果自适应更新分类模型。
具体地,可以通过以下方式来自适应更新分类模型。
方法1:定期反馈,在实际分类过程中,通过用户交互信息,或定期的检查获得错误信息样本以及相应的正确答案,将该信息融入到已有的训练模型中,重新进行训练。
方法2:分类系统反馈出置信度低于一定阈值的样例,通过人工校对,将答案与分类结果不同的融入已有训练模型中,重新训练。
方法3:系统将样例出现比例进行排序,将高频出现的进行方法2的操作。
通过根据本发明的一个实施例的对实体词的语义关系进行分类的方法所得到的语义关系分类可以单独作为一个分析结果输出,也可以作为中间结果为机器翻译、自动文摘、问答系统提供更好的实体之间的关系,从而可以提高整体信息处理的性能。
[2.对实体词的语义关系进行分类的装置]
图4是示出根据本发明的一个实施例的对实体词的语义关系进行分类的装置400的示例性配置的框图。
如图4所示,对实体词的语义关系进行分类的装置400包括第一实体词向量获得单元402、第二实体词向量获得单元404、句子级特征获得单元406、词汇级特征获得单元408和语义关系确定单元410。
其中,第一实体词向量获得单元402被配置为通过将句子中的每个词用词向量表示来构建第一矩阵,将所述第一矩阵中的实体词的向量进行连接以得到第一实体词向量。
第二实体词向量获得单元404被配置为对所述第一矩阵利用深度学习模型进行处理得到第二矩阵,将所述第二矩阵中的实体词的向量进行连接以得到第二实体词向量。
句子级特征获得单元406被配置为对所述第二矩阵进行池化处理来得到句子级特征。
词汇级特征获得单元408被配置为将第一实体词向量与第二实体词向量进行连接得到词汇级特征。
语义关系确定单元410被配置为将所述句子级特征和所述词汇级特征进行连接得到的向量作为待分类向量输入预先存储的分类模型来确定所述实体词之间的语义关系。
其中,第一实体词向量获得单元402进一步被配置为:利用每个词的词特征、位置特征、上位词、词性、命名实体和语法分析树中的至少一项来构建向量。
其中,深度学习模型包括以下中的至少一项:长短期记忆模型LSTM、双向长短期记忆模型BLSTM和循环神经网络RNN。
其中,句子级特征获得单元406进一步被配置为执行以下中的至少一项:对所述第二矩阵中被实体词的向量分隔的多个子矩阵分别进行池化处理得到多个句子级子特征,将该多个句子级子特征进行连接得到所述句子级特征;对所述第二矩阵中被实体词的向量分隔的多个子矩阵的两两组合分别进行池化池化处理得到多个句子级子特征,将该多个句子级子特征进行连接得到所述句子级特征;对所述第二矩阵中的实体词的向量连同其分隔的两个子矩阵所构成的矩阵分别进行池化处理得到多个句子级子特征,将该多个句子级子特征进行连接得到所述句子级特征;以及对所述第二矩阵中被实体词的向量分隔的多个子矩阵的集合进行池化处理得到所述句子级特征。
其中,池化处理为最大池化处理或平均池化处理。
其中,语义关系确定单元410进一步被配置为:对所述句子级特征和所述词汇级特征进行连接得到的向量进行多层感知机处理来得到所述待分类向量。
图5是示出用于生成对实体词的语义关系进行分类的装置400中所利用的分类模型的分类模型训练单元500的示例性配置的框图。
图5所示的分类模型训练单元500包括训练数据集获得子单元502、待分类向量确定子单元504和分类模型训练子单元506。
其中,训练数据集获得子单元502被配置为获得训练数据集,所述训练数据集包括待训练的句子和各句子包括的实体词的语义关系。
其中,待分类向量确定子单元504被配置为对于每个待训练的句子,通过将其中的每个词用词向量表示来构建第一矩阵,将所述第一矩阵中的实体词的向量进行连接以得到第一实体词向量;对所述第一矩阵利用深度学习模型进行处理得到第二矩阵,将所述第二矩阵中的实体词的向量进行连接以得到第二实体词向量;对所述第二矩阵进行池化处理来得到句子级特征;将第一实体词向量与第二实体词向量进行连接得到词汇级特征;以及将所述句子级特征和所述词汇级特征进行连接得到的向量作为该句子的待分类向量。
其中,分类模型训练子单元506被配置为基于所得到的每个句子的待分类向量以及各句子包括的实体词的语义关系进行训练得到所述分类模型。
其中,待分类向量确定子单元504进一步被配置为对句子级特征和词汇级特征进行连接得到的向量进行MLP处理来得到待分类向量。
其中,语义关系确定单元410进一步被配置为:根据待分类的句子的分类结果自适应更新所述分类模型。
其中,分类模型为以下中的至少一种:softmax、最大熵、贝叶斯和支持向量机。
关于对实体词的语义关系进行分类的装置400的各个部分的操作和功能的细节可以参照结合图1-3描述的本发明的对实体词的语义关系进行分类的方法的实施例,这里不再详细描述。
在此需要说明的是,图4-5所示的装置及其组成单元的结构仅仅是示例性的,本领域技术人员可以根据需要对图4-5所示的结构框图进行修改。
本发明提出一种能够对实体词的语义关系进行分类的方法和装置。所得到的语义关系分类可以单独作为一个分析结果输出,也可以作为中间结果为机器翻译、自动文摘、问答系统提供更好的实体之间的关系,以便提高整体信息处理的性能。
[3.用以实施本申请的方法和装置的计算设备]
以上结合具体实施例描述了本发明的基本原理,但是,需要指出的是,对本领域的普通技术人员而言,能够理解本发明的方法和装置的全部或者任何步骤或者部件,可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中,以硬件、固件、软件或者它们的组合加以实现,这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。
因此,本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此,本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说,这样的程序产品也构成本发明,并且存储有这样的程序产品的存储介质也构成本发明。显然,所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。
在通过软件和/或固件实现本发明的实施例的情况下,从存储介质或网络向具有专用硬件结构的计算机,例如图6所示的通用计算机600安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等等。
在图6中,中央处理单元(CPU)601根据只读存储器(ROM)602中存储的程序或从存储部分608加载到随机存取存储器(RAM)603的程序执行各种处理。在RAM 603中,也根据需要存储当CPU 601执行各种处理等等时所需的数据。CPU 601、ROM 602和RAM 603经由总线604彼此链路。输入/输出接口605也链路到总线604。
下述部件链路到输入/输出接口605:输入部分606(包括键盘、鼠标等等)、输出部分607(包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分608(包括硬盘等)、通信部分609(包括网络接口卡比如LAN卡、调制解调器等)。通信部分609经由网络比如因特网执行通信处理。根据需要,驱动器610也可链路到输入/输出接口605。可拆卸介质611比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器610上,使得从中读出的计算机程序根据需要被安装到存储部分608中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质611安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图6所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质611。可拆卸介质611的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 602、存储部分608中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
本发明还提出一种存储有机器可读取的指令代码的程序产品。指令代码由机器读取并执行时,可执行上述根据本发明实施例的方法。
相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等。
本领域的普通技术人员应理解,在此所例举的是示例性的,本发明并不局限于此。
在本说明书中,“第一”、“第二”以及“第N个”等表述是为了将所描述的特征在文字上区分开,以清楚地描述本发明。因此,不应将其视为具有任何限定性的含义。
作为一个示例,上述方法的各个步骤以及上述设备的各个组成模块和/或单元可以实施为软件、固件、硬件或其组合,并作为相应设备中的一部分。上述装置中各个组成模块、单元通过软件、固件、硬件或其组合的方式进行配置时可使用的具体手段或方式为本领域技术人员所熟知,在此不再赘述。
作为一个示例,在通过软件或固件实现的情况下,可以从存储介质或网络向具有专用硬件结构的计算机(例如图6所示的通用计算机600)安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等。
在上面对本发明具体实施例的描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其他实施方式中使用,与其他实施方式中的特征相组合,或替代其他实施方式中的特征。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其他特征、要素、步骤或组件的存在或附加。
此外,本发明的方法不限于按照说明书中描述的时间顺序来执行,也可以按照其他的时间顺序地、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。
本发明及其优点,但是应当理解在不超出由所附的权利要求所限定的本发明的精神和范围的情况下可以进行各种改变、替代和变换。而且,本发明的范围不仅限于说明书所描述的过程、设备、手段、方法和步骤的具体实施例。本领域内的普通技术人员从本发明的公开内容将容易理解,根据本发明可以使用执行与在此的相应实施例基本相同的功能或者获得与其基本相同的结果的、现有和将来要被开发的过程、设备、手段、方法或者步骤。因此,所附的权利要求旨在在它们的范围内包括这样的过程、设备、手段、方法或者步骤。
基于以上的说明,可知公开至少公开了以下技术方案:
附记1、一种对实体词的语义关系进行分类的方法,包括:
通过将句子中的每个词用词向量表示来构建第一矩阵,将所述第一矩阵中的实体词的向量进行连接以得到第一实体词向量;
对所述第一矩阵利用深度学习模型进行处理得到第二矩阵,将所述第二矩阵中的实体词的向量进行连接以得到第二实体词向量;
对所述第二矩阵进行池化处理来得到句子级特征;
将第一实体词向量与第二实体词向量进行连接得到词汇级特征;以及
将所述句子级特征和所述词汇级特征进行连接得到的向量作为待分类向量输入预先存储的分类模型来确定所述实体词之间的语义关系。
附记2、根据附记1所述的方法,其中,
通过将句子中的每个词用词向量表示来构建第一矩阵包括:利用每个词的词特征、位置特征、上位词、词性、命名实体和语法分析树中的至少一项来构建向量。
附记3、根据附记1所述的方法,其中,所述深度学习模型包括以下中的至少一项:
长短期记忆模型LSTM、双向长短期记忆模型BLSTM和循环神经网络RNN。
附记4、根据附记1所述的方法,其中,对所述第二矩阵进行池化处理来得到句子级特征包括以下中的至少一项:
对所述第二矩阵中被实体词的向量分隔的多个子矩阵分别进行池化处理得到多个句子级子特征,将该多个句子级子特征进行连接得到所述句子级特征;对所述第二矩阵中被实体词的向量分隔的多个子矩阵的两两组合分别进行池化池化处理得到多个句子级子特征,将该多个句子级子特征进行连接得到所述句子级特征;对所述第二矩阵中的实体词的向量连同其分隔的两个子矩阵所构成的矩阵分别进行池化处理得到多个句子级子特征,将该多个句子级子特征进行连接得到所述句子级特征;以及对所述第二矩阵中被实体词的向量分隔的多个子矩阵的集合进行池化处理得到所述句子级特征。
附记5、根据附记4所述的方法,其中,所述池化处理为最大池化处理或平均池化处理。
附记6、根据附记1所述的方法,在将所述句子级特征和所述词汇级特征进行连接得到的向量作为待分类向量输入预先存储的分类模型之前还包括:
对所述句子级特征和所述词汇级特征进行连接得到的向量进行多层感知机处理来得到所述待分类向量。
附记7、根据附记1所述的方法,其中,所述分类模型通过以下步骤训练得到:
获得训练数据集,所述训练数据集包括待训练的句子和各句子包括的实体词的语义关系;
对于每个待训练的句子,通过将其中的每个词用词向量表示来构建第一矩阵,将所述第一矩阵中的实体词的向量进行连接以得到第一实体词向量;
对所述第一矩阵利用深度学习模型进行处理得到第二矩阵,将所述第二矩阵中的实体词的向量进行连接以得到第二实体词向量;
对所述第二矩阵进行池化处理来得到句子级特征;
将第一实体词向量与第二实体词向量进行连接得到词汇级特征;
将所述句子级特征和所述词汇级特征进行连接得到的向量作为该句子的待分类向量;以及
基于所得到的每个句子的待分类向量以及各句子包括的实体词的语义关系进行训练得到所述分类模型。
附记8、根据附记7所述的方法,其中,在分类模型的训练过程中,按照特定的比率随机使隐含层的一些节点不工作,来防止训练得到的分类模型过拟合。
附记9、根据附记1所述的方法,其中,在对实体词的语义关系进行分类的过程中,根据待分类的句子的分类结果自适应更新所述分类模型。
附记10、根据附记1所述的方法,其中,所述分类模型为以下中的至少一种:softmax、最大熵、贝叶斯和支持向量机。
附记11、一种对实体词的语义关系进行分类的装置,包括:
第一实体词向量获得单元,被配置为通过将句子中的每个词用词向量表示来构建第一矩阵,将所述第一矩阵中的实体词的向量进行连接以得到第一实体词向量;
第二实体词向量获得单元,被配置为对所述第一矩阵利用深度学习模型进行处理得到第二矩阵,将所述第二矩阵中的实体词的向量进行连接以得到第二实体词向量;
句子级特征获得单元,被配置为对所述第二矩阵进行池化处理来得到句子级特征;
词汇级特征获得单元,被配置为将第一实体词向量与第二实体词向量进行连接得到词汇级特征;以及
语义关系确定单元,被配置为将所述句子级特征和所述词汇级特征进行连接得到的向量作为待分类向量输入预先存储的分类模型来确定所述实体词之间的语义关系。
附记12、根据附记11所述的装置,其中,所述第一实体词向量获得单元进一步被配置为:利用每个词的词特征、位置特征、上位词、词性、命名实体和语法分析树中的至少一项来构建向量。
附记13、根据附记11所述的装置,其中,所述深度学习模型包括以下中的至少一项:
长短期记忆模型LSTM、双向长短期记忆模型BLSTM和循环神经网络RNN。
附记14、根据附记11所述的装置,其中,所述句子级特征获得单元进一步被配置为执行以下中的至少一项:
对所述第二矩阵中被实体词的向量分隔的多个子矩阵分别进行池化处理得到多个句子级子特征,将该多个句子级子特征进行连接得到所述句子级特征;对所述第二矩阵中被实体词的向量分隔的多个子矩阵的两两组合分别进行池化池化处理得到多个句子级子特征,将该多个句子级子特征进行连接得到所述句子级特征;对所述第二矩阵中的实体词的向量连同其分隔的两个子矩阵所构成的矩阵分别进行池化处理得到多个句子级子特征,将该多个句子级子特征进行连接得到所述句子级特征;以及对所述第二矩阵中被实体词的向量分隔的多个子矩阵的集合进行池化处理得到所述句子级特征。
附记15、根据附记14所述的装置,其中,所述池化处理为最大池化处理或平均池化处理。
附记16、根据附记11所述的装置,所述语义关系确定单元进一步被配置为:对所述句子级特征和所述词汇级特征进行连接得到的向量进行多层感知机处理来得到所述待分类向量。
附记17、根据附记11所述的装置,其中,还包括分类模型训练单元,所述分类模型训练单元包括:
训练数据集获得子单元,被配置为获得训练数据集,所述训练数据集包括待训练的句子和各句子包括的实体词的语义关系;
待分类向量确定子单元,被配置为对于每个待训练的句子,通过将其中的每个词用词向量表示来构建第一矩阵,将所述第一矩阵中的实体词的向量进行连接以得到第一实体词向量;对所述第一矩阵利用深度学习模型进行处理得到第二矩阵,将所述第二矩阵中的实体词的向量进行连接以得到第二实体词向量;对所述第二矩阵进行池化处理来得到句子级特征;将第一实体词向量与第二实体词向量进行连接得到词汇级特征;以及将所述句子级特征和所述词汇级特征进行连接得到的向量作为该句子的待分类向量;以及
分类模型训练子单元,被配置为基于所得到的每个句子的待分类向量以及各句子包括的实体词的语义关系进行训练得到所述分类模型。
附记18、根据附记17所述的装置,其中,所述分类模型训练单元进一步被配置为:在分类模型的训练过程中,按照特定的比率随机使隐含层的一些节点不工作,来防止训练得到的分类模型过拟合。
附记19、根据附记11所述的装置,其中,所述语义关系确定单元进一步被配置为:根据待分类的句子的分类结果自适应更新所述分类模型。
附记20、根据附记11所述的装置,其中,所述分类模型为以下中的至少一种:softmax、最大熵、贝叶斯和支持向量机。
Claims (9)
1.一种对实体词的语义关系进行分类的方法,包括:
通过将句子中的每个词用词向量表示来构建第一矩阵,将所述第一矩阵中的实体词的向量进行连接以得到第一实体词向量;
对所述第一矩阵利用深度学习模型进行处理得到第二矩阵,将所述第二矩阵中的实体词的向量进行连接以得到第二实体词向量;
对所述第二矩阵进行池化处理来得到句子级特征;
将第一实体词向量与第二实体词向量进行连接得到词汇级特征;以及
将所述句子级特征和所述词汇级特征进行连接得到的向量作为待分类向量输入预先存储的分类模型来确定所述实体词之间的语义关系,
其中,对所述第二矩阵进行池化处理来得到句子级特征包括以下中的至少一项:
对所述第二矩阵中被实体词的向量分隔的多个子矩阵分别进行池化处理得到多个句子级子特征,将该多个句子级子特征进行连接得到所述句子级特征;对所述第二矩阵中被实体词的向量分隔的多个子矩阵的顺序的两两组合分别进行池化处理得到多个句子级子特征,将该多个句子级子特征进行连接得到所述句子级特征;对所述第二矩阵中的实体词的向量连同其分隔的两个子矩阵所构成的矩阵分别进行池化处理得到多个句子级子特征,将该多个句子级子特征进行连接得到所述句子级特征;以及对所述第二矩阵中被实体词的向量分隔的多个子矩阵的集合进行池化处理得到所述句子级特征。
2.根据权利要求1所述的方法,其中,
通过将句子中的每个词用词向量表示来构建第一矩阵包括:利用每个词的词特征、位置特征、上位词、词性、命名实体和语法分析树中的至少一项来构建向量。
3.根据权利要求1所述的方法,其中,所述深度学习模型包括以下中的至少一项:
长短期记忆模型LSTM、双向长短期记忆模型BLSTM和循环神经网络RNN。
4.根据权利要求1所述的方法,其中,所述池化处理为最大池化处理或平均池化处理。
5.根据权利要求1所述的方法,在将所述句子级特征和所述词汇级特征进行连接得到的向量作为待分类向量输入预先存储的分类模型之前还包括:
对所述句子级特征和所述词汇级特征进行连接得到的向量进行多层感知机处理来得到所述待分类向量。
6.根据权利要求1所述的方法,其中,所述分类模型通过以下步骤训练得到:
获得训练数据集,所述训练数据集包括待训练的句子和各句子包括的实体词的语义关系;
对于每个待训练的句子,通过将其中的每个词用词向量表示来构建第一矩阵,将所述第一矩阵中的实体词的向量进行连接以得到第一实体词向量;
对所述第一矩阵利用深度学习模型进行处理得到第二矩阵,将所述第二矩阵中的实体词的向量进行连接以得到第二实体词向量;
对所述第二矩阵进行池化处理来得到句子级特征;
将第一实体词向量与第二实体词向量进行连接得到词汇级特征;
将所述句子级特征和所述词汇级特征进行连接得到的向量作为该句子的待分类向量;以及
基于所得到的每个句子的待分类向量以及各句子包括的实体词的语义关系进行训练得到所述分类模型。
7.根据权利要求6所述的方法,其中,在分类模型的训练过程中,按照特定的比率,随机使隐含层的一些节点不工作,来防止训练得到的分类模型过拟合。
8.根据权利要求1所述的方法,其中,在对实体词的语义关系进行分类的过程中,根据待分类的句子的分类结果自适应更新所述分类模型。
9.一种对实体词的语义关系进行分类的装置,包括:
第一实体词向量获得单元,被配置为通过将句子中的每个词用词向量表示来构建第一矩阵,将所述第一矩阵中的实体词的向量进行连接以得到第一实体词向量;
第二实体词向量获得单元,被配置为对所述第一矩阵利用深度学习模型进行处理得到第二矩阵,将所述第二矩阵中的实体词的向量进行连接以得到第二实体词向量;
句子级特征获得单元,被配置为对所述第二矩阵进行池化处理来得到句子级特征;
词汇级特征获得单元,被配置为将第一实体词向量与第二实体词向量进行连接得到词汇级特征;以及
语义关系确定单元,被配置为将所述句子级特征和所述词汇级特征进行连接得到的向量作为待分类向量输入预先存储的分类模型来确定所述实体词之间的语义关系,
其中,所述句子级特征获得单元执行的对所述第二矩阵的池化处理以得到句子级特征包括以下中的至少一项:
对所述第二矩阵中被实体词的向量分隔的多个子矩阵分别进行池化处理得到多个句子级子特征,将该多个句子级子特征进行连接得到所述句子级特征;对所述第二矩阵中被实体词的向量分隔的多个子矩阵的顺序的两两组合分别进行池化处理得到多个句子级子特征,将该多个句子级子特征进行连接得到所述句子级特征;对所述第二矩阵中的实体词的向量连同其分隔的两个子矩阵所构成的矩阵分别进行池化处理得到多个句子级子特征,将该多个句子级子特征进行连接得到所述句子级特征;以及对所述第二矩阵中被实体词的向量分隔的多个子矩阵的集合进行池化处理得到所述句子级特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510459760.3A CN106407211B (zh) | 2015-07-30 | 2015-07-30 | 对实体词的语义关系进行分类的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510459760.3A CN106407211B (zh) | 2015-07-30 | 2015-07-30 | 对实体词的语义关系进行分类的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106407211A CN106407211A (zh) | 2017-02-15 |
CN106407211B true CN106407211B (zh) | 2019-08-06 |
Family
ID=58008858
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510459760.3A Active CN106407211B (zh) | 2015-07-30 | 2015-07-30 | 对实体词的语义关系进行分类的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106407211B (zh) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102488338B1 (ko) * | 2017-03-09 | 2023-01-13 | 삼성전자주식회사 | 언어 모델을 압축하기 위한 전자 장치, 추천 워드를 제공하기 위한 전자 장치 및 그 동작 방법들 |
CN108304366B (zh) * | 2017-03-21 | 2020-04-03 | 腾讯科技(深圳)有限公司 | 一种上位词检测方法及设备 |
CN108628821B (zh) * | 2017-03-21 | 2022-11-25 | 腾讯科技(深圳)有限公司 | 一种词汇挖掘方法及装置 |
CN107145746A (zh) * | 2017-05-09 | 2017-09-08 | 北京大数医达科技有限公司 | 一种病情描述的智能分析方法及系统 |
CN110019778B (zh) * | 2017-09-06 | 2023-06-30 | 阿里巴巴集团控股有限公司 | 一种条目分类方法及装置 |
CN107943847B (zh) * | 2017-11-02 | 2019-05-17 | 平安科技(深圳)有限公司 | 企业关系提取方法、装置及存储介质 |
CN107908620A (zh) * | 2017-11-15 | 2018-04-13 | 珠海金山网络游戏科技有限公司 | 一种基于工作文档预判用户职业的方法和装置 |
CN110019648B (zh) * | 2017-12-05 | 2021-02-02 | 深圳市腾讯计算机系统有限公司 | 一种训练数据的方法、装置及存储介质 |
CN110059310B (zh) * | 2018-01-19 | 2022-10-28 | 腾讯科技(深圳)有限公司 | 上位词网络的扩充方法及装置、电子设备、存储介质 |
CN110276066B (zh) * | 2018-03-16 | 2021-07-27 | 北京国双科技有限公司 | 实体关联关系的分析方法及相关装置 |
CN108491388B (zh) * | 2018-03-22 | 2021-02-23 | 平安科技(深圳)有限公司 | 数据集获取方法、分类方法、装置、设备及存储介质 |
CN108846017A (zh) * | 2018-05-07 | 2018-11-20 | 国家计算机网络与信息安全管理中心 | 基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法 |
CN108829722B (zh) * | 2018-05-08 | 2020-10-02 | 国家计算机网络与信息安全管理中心 | 一种远程监督的Dual-Attention关系分类方法及系统 |
CN108647785A (zh) * | 2018-05-17 | 2018-10-12 | 普强信息技术(北京)有限公司 | 一种神经网络自动建模方法、装置及存储介质 |
CN108875000B (zh) * | 2018-06-14 | 2021-12-28 | 广东工业大学 | 一种融合多句法结构的语义关系分类方法 |
CN109754012A (zh) * | 2018-12-29 | 2019-05-14 | 新华三大数据技术有限公司 | 实体语义关系分类方法、模型训练方法、装置及电子设备 |
CN110188201A (zh) * | 2019-05-27 | 2019-08-30 | 上海上湖信息技术有限公司 | 一种信息匹配方法及设备 |
CN111339268B (zh) * | 2020-02-19 | 2023-08-15 | 北京百度网讯科技有限公司 | 实体词识别方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW507141B (en) * | 1999-06-22 | 2002-10-21 | Inst Information Industry | Automatic classifying system and method with embedded semantic analysis |
CN102214180A (zh) * | 2010-04-12 | 2011-10-12 | 无锡科利德斯科技有限公司 | 检索方法及其建立文本语义提取模型的方法 |
CN103324611A (zh) * | 2013-07-03 | 2013-09-25 | 姚明东 | 一种基于渐进降维的电子商务领域词汇语义关系获取方法 |
CN104572892A (zh) * | 2014-12-24 | 2015-04-29 | 中国科学院自动化研究所 | 一种基于循环卷积网络的文本分类方法 |
CN104809176A (zh) * | 2015-04-13 | 2015-07-29 | 中央民族大学 | 藏语实体关系抽取方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120253792A1 (en) * | 2011-03-30 | 2012-10-04 | Nec Laboratories America, Inc. | Sentiment Classification Based on Supervised Latent N-Gram Analysis |
-
2015
- 2015-07-30 CN CN201510459760.3A patent/CN106407211B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW507141B (en) * | 1999-06-22 | 2002-10-21 | Inst Information Industry | Automatic classifying system and method with embedded semantic analysis |
CN102214180A (zh) * | 2010-04-12 | 2011-10-12 | 无锡科利德斯科技有限公司 | 检索方法及其建立文本语义提取模型的方法 |
CN103324611A (zh) * | 2013-07-03 | 2013-09-25 | 姚明东 | 一种基于渐进降维的电子商务领域词汇语义关系获取方法 |
CN104572892A (zh) * | 2014-12-24 | 2015-04-29 | 中国科学院自动化研究所 | 一种基于循环卷积网络的文本分类方法 |
CN104809176A (zh) * | 2015-04-13 | 2015-07-29 | 中央民族大学 | 藏语实体关系抽取方法 |
Non-Patent Citations (1)
Title |
---|
Semantic compositionality through recursive matrix-vector spaces;Socher R, Huval B, Manning C D;《Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning》;20121231;第1201-1211页 |
Also Published As
Publication number | Publication date |
---|---|
CN106407211A (zh) | 2017-02-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106407211B (zh) | 对实体词的语义关系进行分类的方法和装置 | |
Mufid et al. | Design an mvc model using python for flask framework development | |
CN110110062B (zh) | 机器智能问答方法、装置与电子设备 | |
CN103678285A (zh) | 机器翻译方法和机器翻译系统 | |
CN110457708B (zh) | 基于人工智能的词汇挖掘方法、装置、服务器及存储介质 | |
CN108334490A (zh) | 关键词提取方法以及关键词提取装置 | |
CN112100401B (zh) | 面向科技服务的知识图谱构建方法、装置、设备及存储介质 | |
Gregory | Challenges and opportunities for digital history | |
Youssef et al. | MoArLex: an Arabic sentiment lexicon built through automatic lexicon expansion | |
Li et al. | Deepreview: automatic code review using deep multi-instance learning | |
CN107305543A (zh) | 对实体词的语义关系进行分类的方法和装置 | |
Shah et al. | Simple App Review Classification with Only Lexical Features. | |
Borg et al. | Evolutionary algorithms for definition extraction | |
Quemy et al. | On integrating and classifying legal text documents | |
Lastra-Díaz et al. | Reproducibility dataset for a large experimental survey on word embeddings and ontology-based methods for word similarity | |
Ткачук | Realia types and strategies of their translation in frames of cultural translation | |
Bakar et al. | Extracting software features from online reviews to demonstrate requirements reuse in software engineering | |
CN110705306A (zh) | 一种作文文题一致性的测评方法 | |
Huang et al. | Automatic Classroom Question Classification Based on Bloom's Taxonomy | |
De Arriba et al. | Merging datasets for emotion analysis | |
CN111126066B (zh) | 基于神经网络的中文修辞手法的确定方法和装置 | |
Kirsch et al. | Noise reduction in distant supervision for relation extraction using probabilistic soft logic | |
Wohlgenannt et al. | Relation extraction datasets in the digital humanities domain and their evaluation with word embeddings | |
Elwert | Network analysis between distant reading and close reading | |
Devine et al. | Evaluating software user feedback classifiers on unseen apps, datasets, and metadata |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |