CN112131884B - 用于实体分类的方法和装置、用于实体呈现的方法和装置 - Google Patents
用于实体分类的方法和装置、用于实体呈现的方法和装置 Download PDFInfo
- Publication number
- CN112131884B CN112131884B CN202011104608.0A CN202011104608A CN112131884B CN 112131884 B CN112131884 B CN 112131884B CN 202011104608 A CN202011104608 A CN 202011104608A CN 112131884 B CN112131884 B CN 112131884B
- Authority
- CN
- China
- Prior art keywords
- category
- vector
- entity
- global
- feature extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 111
- 239000013598 vector Substances 0.000 claims abstract description 361
- 238000000605 extraction Methods 0.000 claims abstract description 156
- 238000012545 processing Methods 0.000 claims description 39
- 230000008569 process Effects 0.000 claims description 27
- 238000003860 storage Methods 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 20
- 230000015654 memory Effects 0.000 claims description 14
- 238000011176 pooling Methods 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 11
- 238000012935 Averaging Methods 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 description 16
- 238000013473 artificial intelligence Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 12
- 238000003058 natural language processing Methods 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 238000013136 deep learning model Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000009901 attention process Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 241000699670 Mus sp. Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000009933 burial Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 229910052710 silicon Inorganic materials 0.000 description 1
- 239000010703 silicon Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请描述了用于实体分类的方法和装置、以及用于实体呈现的方法和装置。用于实体分类的方法包括:获取实体的信息文本;基于实体的信息文本确定实体对应的实体向量;基于所述实体向量,利用经训练的智能分类网络通过如下步骤确定针对所述实体的层次化类别。所述步骤包括:分别利用所述多个局部特征提取层基于所述实体向量提取对应局部特征提取层的类别向量;利用全局特征提取层基于所述多个局部特征提取层得到的中间特征向量来提取第一全局类别向量;基于多个局部特征提取层的类别向量中的局部类别置信度和第一全局类别向量中的第一全局置信度确定针对所述实体的层次化类别。
Description
技术领域
本公开涉及计算机技术领域,尤其涉及用于实体分类的方法和装置、以及用于实体呈现的方法和装置。
背景技术
实体分类(Entity Classification)技术通常是指把文本形式的实体根据一系列的特征划分到指定类别的技术。近些年来,随着知识图谱技术的发展,实体分类技术被大量用于知识图谱的构建中,旨在对图谱中的实体进行分类。在现有的对图谱中的实体进行分类的方案中,往往需要人工构建分类规则,通过多模匹配的方式进行。这种方案可泛化性不强,只能在少量主要类别中生效,并且严重依赖属性清洗、属性对齐等手段,效率并不高。
而且,由于知识图谱中通常存在预定的类别层次结构,因此实体分类技术通常需要对实体进行层次化多标签的分类。目前,解决层次化多标签分类的方案主要是将层次化多标签分类转化成多个二分类,以及利用层次信息分级训练不同分类器来实施层次化多标签分类。然而,多个二分类由于没有考虑层次化类别间的依赖关系,会导致有冲突的分类结果,而只利用层次信息分级训练不同分类器会引起错误传播,性能往往较低。
发明内容
有鉴于此,本公开提供了用于实体分类的方法和装置、以及用于实体呈现的方法和装置,期望克服上面提到的部分或全部缺陷以及其它可能的缺陷。
根据本公开的第一方面,提供了一种实体分类方法,包括:获取实体的信息文本;基于所述实体的信息文本确定所述实体对应的实体向量;基于所述实体向量,利用经训练的智能分类网络通过如下步骤确定针对所述实体的层次化类别,其中所述智能分类网络包括全局特征提取层和多个局部特征提取层,所述多个局部特征提取层与预定类别层次结构中的类别层一一对应。所述步骤包括:分别利用所述多个局部特征提取层基于所述实体向量提取对应局部特征提取层的类别向量,其中所述对应局部特征提取层的类别向量包括所述实体属于预定类别层次结构中的对应类别层中的各类别的局部类别置信度;利用所述全局特征提取层基于所述多个局部特征提取层得到的中间特征向量来提取第一全局类别向量,其中所述第一全局类别向量包括所述实体属于预定类别层次结构中各类别的第一全局类别置信度;基于所述多个局部特征提取层的类别向量中的局部类别置信度和第一全局类别向量中的第一全局置信度确定针对所述实体的层次化类别。
根据本公开的第二方面,提供了一种实体分类装置,包括:信息文本获取模块,被配置成获取实体的信息文本;实体向量确定模块,被配置成基于所述实体的信息文本确定所述实体对应的实体向量;层次类别确定模块,被配置成基于所述实体向量,利用经训练的智能分类网络确定针对所述实体的层次化类别,其中所述智能分类网络包括全局特征提取层和多个局部特征提取层,所述多个局部特征提取层与预定类别层次结构中的类别层一一对应。所述层次类别确定模块包括:局部向量提取模块,被配置成分别利用所述多个局部特征提取层基于所述实体向量提取对应局部特征提取层的类别向量,其中所述对应局部特征提取层的类别向量包括所述实体属于预定类别层次结构中的对应类别层中的各类别的局部类别置信度;全局向量提取模块,被配置成利用所述全局特征提取层基于所述多个局部特征提取层得到的中间特征向量来提取第一全局类别向量,其中所述第一全局类别向量包括所述实体属于预定类别层次结构中各类别的第一全局类别置信度;类别判定模块,被配置成基于所述多个局部特征提取层的类别向量中的局部类别置信度和第一全局类别向量中的第一全局置信度确定针对所述实体的层次化类别。
根据本公开的第三方面,提供了一种计算设备,包括处理器;以及存储器,配置为在其上存储有计算机可执行指令,当计算机可执行指令被处理器执行时执行如上面所述的任意方法。
根据本公开的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,当所述计算机可执行指令被执行时,执行如上面所述的任意方法。
在本公开要求保护的用于实体分类的方法和装置中,通过使用多个局部特征提取层的类别向量中的局部类别置信度和第一全局类别向量中的第一全局置信度,使得在确定实体的层次化类别时,既利用了局部特征提取层提取的层次化的类别信息,又利用了第一全局类别向量中整体类别信息,从而在利用层次化的类别信息提升分类准确度的同时避免了只利用层次化的类别信息所引起错误传播问题。
根据下文描述的实施例,本公开的这些和其它优点将变得清楚,并且参考下文描述的实施例来阐明本公开的这些和其它优点。
附图说明
现在将更详细并且参考附图来描述本公开的实施例,其中:
图1示出了根据本公开的实施例的技术方案可以实施在其中的示例性应用场景;
图2图示了根据本公开的一个实施例的一种用于实体分类的方法的示意性流程图;
图3图示了根据本公开的一个实施例的预定类别层次结构的示意图;
图4图示了根据本公开的一个实施例的基于实体的信息文本确定所述实体对应的实体向量的方法的示例性流程图;
图5图示了根据本公开的一个实施例的基于多个局部特征提取层的类别向量中的局部类别置信度和第一全局类别向量中的第一全局置信度确定实体的层次化类别的方法的示例性流程图;
图6图示了根据本公开的一个实施例的对智能分类网络进行训练的方法的示例性流程图;
图7图示了根据本公开的一个实施例的用于实体分类的方法的一种示意性实现架构图;
图8图示了根据本公开的一个实施例的一种用于实体呈现的方法的示意性流程图;
图9示出了根据本公开的一个实施例的用于实体分类的装置的示例性结构框图;
图10示出了根据本公开的一个实施例的用于实体呈现的装置1100的示例性结构框图;
图11图示了一个示例系统,其包括代表可以实现本文描述的各种技术的一个或多个系统和/或设备的示例计算设备。
具体实施方式
下面的描述提供了本公开的各种实施例的特定细节,以便本领域的技术人员能够充分理解和实施本公开的各种实施例。应当理解,本公开的技术方案可以在没有这些细节中的一些细节的情况下被实施。在某些情况下,本公开并没有示出或详细描述一些熟知的结构或功能,以避免这些不必要的描述使对本公开的实施例的描述模糊不清。在本公开中使用的术语应当以其最宽泛的合理方式来理解,即使其是结合本公开的特定实施例被使用的。
首先,对本申请实施例中涉及的部分用语进行说明,以便于本领域技术人员理解。
实体:指的是现实世界中的事物,比如人、地名、公司、电话、动物。
知识图谱:是一种基于图的数据结构,属于知识库的一种,由节点和边组成,每个节点表示一个“实体”,每条边为实体与实体之间的“关系”,知识图谱本质上是语义网络。图谱中的实体指的可以是现实世界中的事物,关系则用来表达不同实体之间的联系。
BERT:全称为用于Transformer模型的双向编码器表征(Bidirectional EncoderRepresentations from Transformers),是一个预训练的语言表征模型。它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练,而是采用新的掩码语言模型(MLM),以致能生成深度的双向语言表征。BERT模型的根基就是Transormer,Transormer是神经语言程序学(Neuro-LinguisticProgramming,NLP)领域主流的特征抽取器。
词嵌入:全称为Word Embedding,其可以被理解为一种映射,其过程是:将文本空间中的某个词,通过一定的方法,映射或者说嵌入(embedding)到另一个数值向量空间,这种表示方法往往意味着一种降维。
本申请实施例提供的技术方案涉及人工智能的自然语言处理和机器学习等技术。人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。
图1图示了根据本公开的实施例的技术方案可以实施在其中的示例性应用场景100。如图1所示,所示应用场景包括终端110、服务器120,所述终端110通过网络130与服务器120通信地耦合在一起。在服务器120上可以实现对待分类的实体进行分类。终端110例如可以根据用户查询从服务器120请求实体,以便在终端110上进行呈现。
作为示例,在在服务器120上实现对待分类的实体进行分类时,可以首先获取实体的信息文本。所述信息文本可以包括实体描述文本、属性名称和与属性名称对应的属性值。然后,基于实体的信息文本确定所述实体对应的实体向量。最后,基于所述实体向量,利用经训练的智能分类网络通过如下步骤确定针对所述实体的层次化类别。所述智能分类网络包括全局特征提取层和多个局部特征提取层,所述多个局部特征提取层与预定类别层次结构中的类别层一一对应。具体地,在利用经训练的智能分类网络基于所述实体向量对所述实体进行分类时,可以首先分别利用所述多个局部特征提取层基于所述实体向量提取对应局部特征提取层的类别向量,其中所述对应局部特征提取层的类别向量包括所述实体属于预定类别层次结构中的对应类别层中的各类别的局部类别置信度;然后,利用所述全局特征提取层基于所述多个局部特征提取层得到的中间特征向量来提取第一全局类别向量,其中所述第一全局类别向量包括所述实体属于预定类别层次结构中各类别的第一全局类别置信度;最后,基于所述多个局部特征提取层的类别向量中的局部类别置信度和第一全局类别向量中的第一全局置信度确定针对所述实体的层次化类别。
作为示例,在终端110上,可以首先获取用户查询,并且确定所述用户查询所属的层次化类别。然后,可以根据所述层次化类别从知识库中请求与所述用户查询相关联且具有相应层次化类别的实体,其中所述知识库例如可以是知识图谱并且可以存在于服务器120中,知识库中的实体的层次化类别可以是通过上面所描述的服务器120进行实体分类的方法所确定的。最后,终端110可以呈现所述请求的实体,以例如及通过终端110上的接口(例如,显示器)呈现与所述请求的实体相关的信息。
终端110可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。服务器120可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。所述网络130例如可以是广域网(WAN)、局域网(LAN)、无线网络、公用电话网、内联网以及本领域的技术人员熟知的任何其它类型的网络。
应当指出,上面描述的场景仅仅是本公开的实施例可以被实施在其中的一个示例,并不是限制性的。例如,在一些实施例性场景中,也可能在终端110上可以实现对待分类的实体进行分类。
图2图示了根据本公开的一个实施例的一种用于实体分类的方法200的示意性流程图。下面以该方法应用于诸如图1中的服务器120为例进行描述。如图2所示,所述方法200包括如下步骤。
在步骤210,获取实体的信息文本。所述实体可以是知识库中需要进行类别判定的实体。信息文本可以是指对知识库中需要进行分类的实体进行描述的文本。所述知识库例如可以是知识图谱。
在一些实施例,所述信息文本包括实体描述文本、属性名称和与属性名称对应的属性值。实体描述文本是指对所述实体进行概述或者简单描述或介绍的文本,比如对实体的简介。属性名称是指所述实体的属性的名称,所述实体可以具有多个不同的属性名称,比如,“刘某某”实体包括有性别、年龄、出生日期、代表作品等多个不同的属性名称。属性值是指属性名称对应的值。一个属性名称可以对应有多个不同的属性值。比如,“刘某某”实体的“代表作品”属性有多个属性值,其包括《无间道》、《天下无贼》和《十面埋伏》等等。
在一些实施例中,可以从知识库中获取到所述实体对应的信息文本,也可以从不同的数据源去采集所述实体对应的信息文本,该数据源是指保存有所述实体对应的信息文本的任意数据源。
在步骤220,基于所述实体的信息文本确定所述实体对应的实体向量。实体向量是表征实体的语义的向量。作为示例,可以使用深度学习模型将所述实体的信息文本转换后得到所述实体向量。深度学习模型是使用深度学习算法建立的模型,该深度学习算法可以是TextCNN(Text Convolutional Neural Networks,文本卷积神经网络,)算法、LSTM(LongShort-Term Memory,长短期记忆网络)和RNN(Recurrent Neural Network,循环神经网络)算法等等。
在一些实施例中,实体的实体描述文本通常为长文本的形式,而实体的属性名称和与属性名称对应的属性值通常为短文本的形式,因此在确定实体向量时对它们进行不同的处理将是有利的,如在下文参照图4所描述的。
在步骤230,基于所述实体向量,利用经训练的智能分类网络确定针对所述实体的层次化类别。所述智能分类网络包括全局特征提取层和多个局部特征提取层,所述多个局部特征提取层与预定类别层次结构中的类别层一一对应。所述预定类别层次结构相邻类别层中的类别具有类别继承关系,即所述预定类别层次结构具有类别树的形式。
所述预定类别层次结构可以是知识库(例如,知识图谱)中天然存在的分类层次体系。图3图示了根据本公开的一个实施例的预定类别层次结构的示意图。如图3所示,预定类别层次结构从上到下共有4个类别层,其中根节点不算在层数内,第一类别层为类别“地点”、“组织”、“人物”所在的层。作为示例,第二类别层中的类别(例如“娱乐人物”)继承于第一类别层中的类别“人物”,第三类别层中的类别(例如“演唱者”)继承于第二类别层中的类别“娱乐人物”,第四类别层中的类别(例如“歌手”)继承于第三类别层中的类别“演唱者”。
在利用经训练的智能分类网络确定针对所述实体的层次化类别时,具体地,可以通过如下步骤231-233来确定针对所述实体的层次化类别。
在步骤231,分别利用所述多个局部特征提取层基于所述实体向量提取对应局部特征提取层的类别向量。所述对应局部特征提取层的类别向量包括所述实体属于预定类别层次结构中的对应类别层中的各类别的局部类别置信度。例如,第1个局部特征提取层的类别向量包括所述实体属于预定类别层次结构中的第1类别层中的各类别的置信度(本文称为局部类别置信度)。第N个局部特征提取层的类别向量包括所述实体属于预定类别层次结构中的第N类别层中的各类别的置信度(本文称为局部类别置信度),N为大于1的正整数。
在一些实施例中,所述多个局部特征提取层的数目为N,并且每个局部特征提取层包括第一隐藏层、第二隐藏层、第三隐藏层。在深度学习领域,隐藏层的作为就是把输入数据的特征,抽象到另一个维度空间,来展现其更抽象化的特征,其起到特征提取的作用。在实施例中,对于第1个局部特征提取层来说,可以利用其第一隐藏层基于所述实体向量提取第一层的第一特征向量;利用其第二隐藏层基于所述第一层的第一特征向量提取第一层的第二特征向量;以及利用其第三隐藏层基于所述第一层的第二特征向量确定第1个局部特征提取层的类别向量。而对于第2到第N个局部特征提取层中的每个局部特征提取层(为了便于表述,设其为第i个局部特征提取层),利用第i个局部特征提取层的第一隐藏层基于所述实体向量和第i-1层的第一特征向量提取第i层的第一特征向量;利用第i个局部特征提取层的第二隐藏层基于第i层的所述第一特征向量提取第i层的第二特征向量;利用第i个局部特征提取层的第三隐藏层基于所述第i层的第二特征向量确定第i个局部特征提取层的类别向量;其中N为大于1的正整数,i为大于1且不大于N的正整数。在利用第i个局部特征提取层的第一隐藏层基于所述实体向量和第i-1层的第一特征向量提取第i层的第一特征向量,可以将所述实体向量和第i-1层的第一特征向量进行拼接,然后基于两者拼接后的向量提取i层的第一特征向量。
例如,对第2个局部特征提取层来说,利用其第一隐藏层基于所述实体向量和第1层的第一特征向量提取第2层的第一特征向量;利用其第二隐藏层基于第2层的第一特征向量提取第2层的第二特征向量;利用第其第三隐藏层基于所述第2层的第二特征向量确定第2个局部特征提取层的类别向量。同理,对于对第3个局部特征提取层来说,利用其第一隐藏层基于所述实体向量和第2层的第一特征向量提取第3层的第一特征向量;利用其第二隐藏层基于第3层的第一特征向量提取第3层的第二特征向量;利用第其第三隐藏层基于所述第3层的第二特征向量确定第3个局部特征提取层的类别向量。对于其它类别层,依次类推。
在步骤232,利用所述全局特征提取层基于所述多个局部特征提取层得到的中间特征向量来提取第一全局类别向量。所述第一全局类别向量包括所述实体属于预定类别层次结构中各类别的第一全局类别置信度。换句话说,所述第一全局类别向量包括所述实体属于预定类别层次结构中所有类别中每个类别的置信度,即包括多个置信度。
在一些实施例中,所述全局特征提取层包括第四隐藏层。作为示例,利用所述全局特征提取层来提取第一全局类别向量时,可以将所述第N个局部特征提取层提取的第N层的第一特征向量作为所述中间特征向量,然后利用所述第四隐藏层基于所述中间特征向量来提取所述第一全局类别向量。所述第N个局部特征提取层通常为所述多个局部特征提取层中的最后一层特征提取层,也即对应于预定类别层次结构中的最后一层叶子节点所在的类别层,例如图3中的第4类别层。当然这不是限制性的,在提取第一全局类别向量时,也可以将所述任意一个局部特征提取层提取的第一特征向量作为所述中间特征向量。
在步骤233,基于所述多个局部特征提取层的类别向量中的局部类别置信度和第一全局类别向量中的第一全局置信度确定针对所述实体的层次化类别。这使得能够同时利用局部特征提取层提取的层次化的类别信息和第一全局类别向量中整体类别信息来准确地确定针对所述实体的层次化类别。所述实体的层次化类别为所述实体在所述预定类别层次结构中每一类别层中的类别的集合。作为示例,以图3所示的预定类别层次结构为例,对“刘某某”实体进行分类,可以得到这样的层次化类别(从第一层到第四层):“人物”、“娱乐人物”、“演唱者”、“歌手”。
应当指出,可以使用任何合适方法来基于所述多个局部特征提取层的类别向量中的局部类别置信度和第一全局类别向量中的第一全局置信度确定针对所述实体的层次化类别。在下文,参照图5详细描述了基于所述多个局部特征提取层的类别向量中的局部类别置信度和第一全局类别向量中的第一全局置信度确定针对所述实体的层次化类别的一个示例。
在本公开的实施例描述的用于实体分类的方法中,通过使用所述多个局部特征提取层的类别向量中的局部类别置信度和第一全局类别向量中的第一全局置信度,使得在确定实体的层次化类别时,既利用了局部特征提取层提取的层次化的类别信息,又利用了第一全局类别向量中整体类别信息,从而在利用层次化的类别信息提升分类准确度的同时避免了只利用层次化的类别信息所引起错误传播问题。
图4图示了根据本公开的一个实施例的基于实体的信息文本确定所述实体对应的实体向量的方法400的示例性流程图。所述信息文本包括对所述实体进行概述的实体描述文本、属性名称和与属性名称对应的属性值。所述方法400包括如下步骤410-430,并且可以用来实施参照图2描述的步骤220。
在步骤410,对所述实体的实体描述文本进行第一嵌入处理,以得到文本描述向量。作为示例,对所述实体的实体描述文本进行第一嵌入处理可以是利用BERT模型对所述实体的实体描述文本进行嵌入处理,BERT模型对长文本具有较好的嵌入处理效果。BERT(Bidirectional Encoder Representations from Transformers,用于Transformer模型的双向编码器表征)模型是一个预训练的语言表征模型,它不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练,而是采用新的掩码语言模型(MLM),以致能生成深度的双向语言表征。当然,可以使用任何其它合适的嵌入处理模型或者方式进行第一嵌入处理。
在步骤420,对所述实体的属性名称和与属性名称对应的属性值进行第二嵌入处理,以得到属性向量。第二嵌入处理可以是和第一嵌入处理不同的嵌入处理。作为示例,对所述实体的属性名称和与属性名称对应的属性值进行第二嵌入处理可以是利用词嵌入(word-embedding)模型对所述实体的属性名称和与属性名称对应的属性值进行的嵌入处理。词嵌入模型对短文本的嵌入处理已足够好,因此使用词嵌入模型可以节省大量的处理资源。当然,可以使用任何其它合适的嵌入处理模型或者方式进行第二嵌入处理。
在一些实施例中,所述实体的属性名称可能对应于多个属性值,如上面所述的刘某某”实体的“代表作品”属性有多个属性值,其包括《无间道》、《天下无贼》和《十面埋伏》等等。而其它的实体的属性名称可能具有不同数量的属性值,因此对于不同的实体来说,经过第二嵌入处理得到的属性向量可能形状不一致,这可能带来额外的负担,不利于后续的特征提取层的设计。因此,在一些实施例中,可以首先对所述实体的属性名称进行第二嵌入处理以得到第一词嵌入向量。然后,对所述多个属性值分别进行第二嵌入处理以得到多个第二词嵌入向量,并对所述多个第二词嵌入向量取平均以得到平均嵌入向量。最后,基于所述第一词嵌入向量和平均嵌入向量来确定所述属性向量。作为示例,可以将所述第一词嵌入向量和平均嵌入向量拼接以得到所述属性向量。对所述多个第二词嵌入向量取平均能够确保经过第二嵌入处理得到的属性向量的形式是一致的,有利于后续的特征提取。
在步骤430,基于所述文本描述向量和所述属性向量来确定所述实体对应的实体向量。在一些实施例中,可以直接将所述文本描述向量和所述属性向量进行拼接以得到所述实体对应的实体向量。
在一些实施例中,在基于所述文本描述向量和所述属性向量确定所述实体对应的实体向量时,可以首先对所述属性向量进行池化处理,以得到第一处理向量。然后,对所述属性向量进行注意力处理,以得到第二处理向量。最后,将所述文本描述向量、第一处理向量和第二处理向量进行拼接,以得到所述实体对应的实体向量。通过对所述属性向量分别进行池化处理和注意力处理,使得能够从两个不同角度对属性向量进行表示,从而能够在生成的实体向量中更充分和准确地体现属性向量包含的信息。
池化处理是对信息进行抽象的过程。本文所述的池化处理可以指最大池化或者均值池化。最大池化用于对取局部样本区域中的值取最大值,而均值池化用于对局部样本区域中的所有值求均值。池化本质上是去除杂余信息和保留关键信息的过程。
注意力处理可以使得“当前词(此处指的是对其进行注意力处理的词向量)”的输出向量有区分地利用其上下文信息,起到增强“当前词”的语义表示的作用,从而有利于实体向量能够充分、准确表达实体的语义。作为示例,可以采用自注意力机制(Self-Attention)对上述属性向量进行处理得到第二处理向量。当然,这不是限制性的,利用其它注意力机制(例如,多头注意力机制)对上述属性向量进行处理以得到第二处理向量也被考虑。
在本公开的上述实施例中,通过对实体描述文本进行第一嵌入处理以及对属性名称和与属性名称对应的属性值进行第二嵌入处理,实现了分类网络模型的输入泛化,减轻了对传统方案中前置的属性清洗、属性对齐的依赖。而且,通过对属性向量进行池化处理和注意力处理,使得从两个不同角度对属性向量进行表示,从而在生成的实体向量中更充分和准确地体现属性向量包含的信息。这里描述了从两个不同的角度对属性向量进行表示,然而,利用更多不同的方式从更多不同角度对属性向量进行表示也也预期范围之内。
图5图示了根据本公开的一个实施例的基于所述多个局部特征提取层的类别向量中的局部类别置信度和第一全局类别向量中的第一全局置信度确定针对所述实体的层次化类别的方法500的示例性流程图。所述方法500包括如下步骤510-530,并且可以用来实施参照图2描述的步骤233。
在步骤510,基于所述多个局部特征提取层的类别向量中的局部类别置信度确定第二全局类别向量。第二全局类别向量包括所述实体属于所述预定类别层次结构中各类别的第二全局类别置信度。因此,第二全局类别向量和第一全局类别向量的维数是相同的。作为示例,可以将所述多个局部特征提取层的类别向量进行拼接,以得所述第二全局类别向量,使得所述第二全局类别向量包括所述多个局部特征提取层的所有类别向量中的所有局部类别置信度。当然,这不是限制性的,也可以对所述多个局部特征提取层的类别向量中的不同的局部类别置信度施加不同的权重以确定第二全局类别向量,这例如可以利用基于长短期记忆网络(LSTM,Long Short-Term Memory)的模型来实现或者对所述多个局部特征提取层的类别向量中的局部类别置信度进行注意力处理来实现。
在步骤520,根据权重确定第一全局类别向量中的第一全局置信度和第二全局类别向量中对应的第二全局类别置信度的加权和,以得到第三全局类别向量。第三全局类别向量包括所述实体属于所述预定类别层次结构中各类别的第三全局类别置信度。作为示例,所述第一全局类别向量为(0.7,0.2,0.1),其中的第一全局置信度分别为0.7,0.2和0.1且对应的权重为0.8;第二全局类别向量为(0.6,0.2,0.2),其中的第二全局类别置信度分别为0.6,0.2和0.2且对应的权重为0.2,则通过加权和所得到的第三全局类别向量可以被确定为(0.8*0.7+0.2*0.6,0.8*0.2+0.2*0.2,0.8*0.1+0.2*0.2),即(0.68,0.2,0.12)。
在步骤530,在所述第三全局类别向量中的针对相应类别层中的类别的第三全局类别置信度中,将大于针对所述相应层的预设置信度阈值的第三全局类别置信度所对应类别确定为所述实体的在所述相应类别层的类别。作为示例,在所述第三全局类别向量中,针对预定类别层次结构中的第三类别层中的类别的置信度(即,第三全局类别置信度)分别为0.6,0.2,0.1和0.1,且针对所述第三类别层的预设置信度阈值为0.5,则将第三全局类别置信度0.6对应的类别确定为所述实体的在所述第三类别层的类别。
通过上述方法,能够准确快速地确定所述实体在预定类别层次结构中的各类别层的类别。
图6图示了根据本公开的一个实施例的对智能分类网络进行训练的方法600的示例性流程图,通过对所述智能分类网络进行训练以得到上文参照图2描述的经训练的智能分类网络。
在步骤610,获取多个已标记类别的实体样本。所述多个已标记类别的实体样本构成用于对所述智能分类网络进行训练的训练集。应当理解,所述已标记的类别的层次化类别。
在步骤620,确定所述多个已标记类别的实体样本的每个已标记类别的实体样本对应的实体向量。作为示例,可以使用与参照图2描述的相同方式(例如,使用深度学习模型或者参照图描述的方法400)来确定每个已标记类别的实体样本对应的实体向量,以冻结实体的实体向量,即使得同样的实体在训练时和真实预测时的实体向量是相同的。
在步骤630,根据所述多个已标记类别的实体样本对应的实体向量对所述智能分类网络进行训练,直至所述智能分类网络对应的损失函数最小。所述智能分类网络的损失函数L=L1+L2+L3,并且其中L1为针对第一全局类别向量的交叉熵损失、L2为针对第二全局类别向量的交叉熵损失,以及L3为预定类别层次结构相邻类别层中的继承类别和被继承类别对应的置信度的差。针对第一全局类别向量的交叉熵损失为所述实体样本的真实的第一全局类别向量和预测的第一全局类别向量间的交叉熵损失。针对第二全局类别向量的交叉熵损失为所述实体样本的真实的第二全局类别向量和预测的第二全局类别向量间的交叉熵损失。真实的第一全局类别向量和真实的第二全局类别向量通常是相同的。预定类别层次结构相邻类别层中的继承类别和被继承类别对应的置信度的差用来确定被继承类别的置信度高于继承类别的置信度。
在所述对智能分类网络进行训练的方法中,通过利用由如上所述的L1、L2和L3构建的总损失函数,可以快捷准确地训练出经训练的智能分类网络以供实体分类中使用。
图7图示了根据本公开的一个实施例的用于实体分类的方法的一种示意性实现架构图。如图7所示,所述实体的信息文本包括对所述实体进行概述的实体描述文本、属性名称和与属性名称对应的属性值。在图7中,利用BERT模型对所述实体的实体描述文本进行第一嵌入处理,以得到文本描述向量。利用利用词嵌入(word-embedding)模型对所述实体的属性名称和与属性名称对应的属性值进行第二嵌入处理,以得到属性向量。接下来对所述属性向量进行了最大池化处理,以得到第一处理向量;以及对所述属性向量进行了注意力处理,以得到第二处理向量。最后将所述文本描述向量、第一处理向量和第二处理向量进行了拼接,以得到所述实体对应的实体向量X。基于所述实体向量X,可以利用经训练的智能分类网络确定针对所述实体的层次化类别。
如图7所示,所述智能分类网络包括4个局部特征提取层,以及1个全局特征提取层。每个局部特征提取层包括第一隐藏层、第二隐藏层、第三隐藏层。例如,第1个局部特征提取层包括第一隐藏层第二隐藏层/>第三隐藏层/>所述全局特征提取层包括第四隐藏层/>
在图7中,对于第1个局部特征提取层,利用其第一隐藏层基于所述实体向量X提取第一层的第一特征向量A1,这例如可以被表示为A1=Relu(X*W11+b11),其中W11和b11分别为第一隐藏层/>的权重矩阵和偏置向量,Relu为线性整流函数;利用其第二隐藏层基于所述第一层的第一特征向量A1提取第一层的第二特征向量B1,这例如可以被表示为B1=Relu(A1*W12+b12),其中W12和b12分别为第二隐藏层/>的权重矩阵和偏置向量,Relu为线性整流函数;利用其第三隐藏层/>基于所述第一层的第二特征向量B1确定第1个局部特征提取层的类别向量PL1,这例如可以被表示为PL1=sigmoid(B1),sigmoid为激活函数,其实一种S型饱和函数。
对于第2到第4个局部特征提取层,利用第i个局部特征提取层的第一隐藏层基于所述实体向量和第i-1层的第一特征向量(这里将两者进行了拼接)提取第i层的第一特征向量,这例如可以被表示为Ai=Relu((A(i-1)+X)*Wi1+bi1),其中Wi1和bi1分别为第i个局部特征提取层的第一隐藏层的权重矩阵和偏置向量,Relu为线性整流函数;利用第i个局部特征提取层的第二隐藏层基于第i层的所述第一特征向量提取第i层的第二特征向量,这例如可以被表示为Bi=Relu(Ai*Wi2+bi2),其中Wi2和bi2分别为第i个局部特征提取层的第二隐藏层/>的权重矩阵和偏置向量,Relu为线性整流函数;利用第i个局部特征提取层的第三隐藏层基于所述第i层的第二特征向量确定第i个局部特征提取层的类别向量,这例如可以被表示为PLi=sigmoid(Bi),sigmoid为激活函数;i为大于1且不大于4的正整数。作为示例,利用第2个局部特征提取层的第一隐藏层/>基于所述实体向量X和第1层的第一特征向量A1提取第2层的第一特征向量A2;利用第2个局部特征提取层的第二隐藏层/>基于第2层的所述第一特征向量A2提取第2层的第二特征向量B2;利用第2个局部特征提取层的第三隐藏层/>基于所述第2层的第二特征向量B2确定第2个局部特征提取层的类别向量PL2。
进一步地,在图7中,将所述第4个局部特征提取层提取的第4层的第一特征向量A4作为所述中间特征向量;利用所述第四隐藏层基于所述中间特征向量A4来提取第一全局类别向量PG,这例如可以表示为PG=sigmoid(A4*Wg4+bg4,其中Wg4和bg4分别为第四隐藏层的权重矩阵和偏置向量,sigmoid为激活函数。同样,将所述4个局部特征提取层的类别向量PL1、PL2、PL3、PL4进行拼接,以得到所述第二全局类别向量PL,PL和PG的维数是相同的。最后,确定第一全局类别向量PG中的第一全局置信度和第二全局类别向量PL中对应的第二全局类别置信度的加权和,以得到第三全局类别向量P。在图7中,分配给PG的权重为a,并且分配给PL的权重为1-a,其中a为自然数,并可以根据需要定义。在所述第三全局类别向量P中的针对相应类别层中的类别的第三全局类别置信度中,将大于针对所述相应层的预设置信度阈值的第三全局类别置信度所对应类别确定为所述实体的在所述相应类别层的类别。考虑到预定类别层次结构的树形结构,预设置信度阈值可以按层设置,例如第一类别层的置信度阈值为0.8,第二层的置信度阈值可以为0.8*0.8=0.64,第三层的置信度阈值可以为0.8*0.8*0.8=0.512,当然,这里的数值不是限制性的。
图8图示了根据本公开的一个实施例的一种用于实体呈现的方法800的示意性流程图。所述方法800例如可以应用于诸如图1中的终端110上。如图8所示,所述方法800包括如下步骤。
在步骤810,获取用户查询。所述用户查询例如可以是用户输入的查询词,例如“刘某某”。
在步骤820,确定所述用户查询所属的层次化类别。用户查询所属的层次化类别可以利用任何类别判定方法来判定,例如可以结合用户的查询历史、兴趣爱好等来进行判定。例如,在用户输入用户查询“刘某某”后,结合用户的查询历史、兴趣爱好等判定所述用户查询具有的层次化类别为“人物”、“娱乐人物”、“演唱者”、“歌手”。
在步骤830,根据所述层次化类别从知识库中请求与所述用户查询相关联且具有相应层次化类别的实体。所述知识库中的实体的层次化类别是利用根据如上面参照图1描述的用于实体分类的方法确定的。作为示例,知识库中具有作为明星的“刘某某”实体,也有具有作为某大学教授的“刘某某”实体。而且,利用图1描述的用于实体分类的方法对作为明星的“刘某某”实体进行实体分类得到的层次化类别为“人物”、“娱乐人物”、“演唱者”、“歌手”,而对作为某大学教授的“刘某某”实体进行实体分类得到的层次化类别为“人物”、“学术人物”、“教授”。显然,根据所述层次化类别从知识库中请求的与所述用户查询相关联且具有相应层次化类别的实体将是作为明星的“刘某某”实体。
在步骤840,呈现所述请求的实体。呈现所述请求的实体可以进一步包括呈现与所述请求的实体相关的信息,所述信息例如可以包括但不限于所述请求的实体的实体描述文本、属性名称和与属性名称对应的属性值等。在一些实施例中,可以从所述知识库中或者其它数据源获取与所述请求的实体相关的信息。在一些实施例中,可以从多个不同的数据源获取与所述请求的实体相关的信息并且将来自多个不同的数据源的与所述请求的实体相关的信息进行融合以供呈现。
在本公开实施例描述的用于实体呈现的方法中,通过匹配用户查询的层次化类别与知识库中实体的层次化类别,可以从实体库中准确高效地找到用户真实意愿所指向的实体进行呈现,增强了用户体验。
作为示例,用户在例如搜索框输入用户查询“刘某某”后,在终端的用户界面上可以呈现与实体“刘某某”相关的信息。
图9示出了根据本公开的一个实施例的用于实体分类的装置1000的示例性结构框图。如图9所示,所述装置1000包括信息文本获取模块1010,实体向量确定模块1020,层次类别确定模块1030。所述层次类别确定模块1030进一步包括局部向量提取模块1031、全局向量提取模块1032、类别判定模块1033。
所述信息文本获取模块1010被配置成获取实体的信息文本。所述实体可以是知识库中需要进行类别判定的实体。信息文本可以是指对知识库中需要进行分类的实体进行描述的文本。所述知识库例如可以是知识图谱。在一些实施例,所述信息文本包括实体描述文本、属性名称和与属性名称对应的属性值。实体描述文本是指对所述实体进行概述或者简单描述或介绍的文本,比如对实体的简介。属性名称是指所述实体的属性的名称,所述实体可以具有多个不同的属性名称。属性值是指属性名称对应的值。一个属性名称可以对应有多个不同的属性值。
所述实体向量确定模块1020被配置成基于所述实体的信息文本确定所述实体对应的实体向量。实体向量是表征实体的语义的向量。作为示例,可以使用深度学习模型将所述实体的信息文本转换后得到所述实体向量。
所述层次类别确定模块1030被配置成基于所述实体向量,利用经训练的智能分类网络确定针对所述实体的层次化类别,其中所述智能分类网络包括全局特征提取层和多个局部特征提取层,所述多个局部特征提取层与预定类别层次结构中的类别层一一对应。所述预定类别层次结构相邻类别层中的类别可以具有类别继承关系,即所述预定类别层次结构具有类别树的形式。
所述局部向量提取模块1031被配置成分别利用所述多个局部特征提取层基于所述实体向量提取对应局部特征提取层的类别向量,其中所述对应局部特征提取层的类别向量包括所述实体属于预定类别层次结构中的对应类别层中的各类别的局部类别置信度。例如,第1个局部特征提取层的类别向量包括所述实体属于预定类别层次结构中的第1类别层中的各类别的置信度(本文称为局部类别置信度)。第N个局部特征提取层的类别向量包括所述实体属于预定类别层次结构中的第N类别层中的各类别的置信度(本文称为局部类别置信度),N为大于1的正整数。
所述全局向量提取模块1032被配置成利用所述全局特征提取层基于所述多个局部特征提取层得到的中间特征向量来提取第一全局类别向量,其中所述第一全局类别向量包括所述实体属于预定类别层次结构中各类别的第一全局类别置信度。所述第一全局类别向量包括所述实体属于预定类别层次结构中各类别的第一全局类别置信度。换句话说,所述第一全局类别向量包括所述实体属于预定类别层次结构中所有类别中每个类别的置信度,即包括多个置信度。
所述类别判定模块1033被配置成基于所述多个局部特征提取层的类别向量中的局部类别置信度和第一全局类别向量中的第一全局置信度确定针对所述实体的层次化类别。这使得能够同时利用局部特征提取层提取的层次化的类别信息和第一全局类别向量中整体类别信息来准确地确定针对所述实体的层次化类别。所述实体的层次化类别为所述实体在所述预定类别层次结构中每一类别层中的类别的集合。
图10示出了根据本公开的一个实施例的用于实体呈现的装置1100的示例性结构框图。如图10所示,所述用于实体呈现的装置1100包括接收模块用户查询获取模块1110,类别确定模块1120,请求模块1130,呈现模块1140。
所述用户查询获取模块1110被配置成获取用户查询。所述用户查询例如可以是用户输入的查询词,例如“刘某某”。
所述类别确定模块1120被配置成确定所述用户查询所属的层次化类别。用户查询所属的层次化类别可以利用任何类别判定方法来判定,例如可以结合用户的查询历史、兴趣爱好等来进行判定。
所述请求模块1130被配置成根据所述层次化类别从知识库中请求与所述用户查询相关联且具有相应层次化类别的实体。所述知识库中的实体的层次化类别可以是由参照图9描述的用于实体分类的装置确定的。
所述呈现模块1140被配置成呈现所述请求的实体。所述呈现模块1140可以进一步被配置成呈现与所述请求的实体相关的信息,所述信息例如可以包括但不限于所述请求的实体的实体描述文本、属性名称和与属性名称对应的属性值等。在一些实施例中,所述呈现模块可以从所述知识库中或者其它数据源获取与所述请求的实体相关的信息。在一些实施例中,所述呈现模块可以从多个不同的数据源获取与所述请求的实体相关的信息并且将来自多个不同的数据源的与所述请求的实体相关的信息进行融合以供呈现。
图11图示了示例系统1200,其包括代表可以实现本文描述的各种技术的一个或多个系统和/或设备的示例计算设备1210。计算设备1210可以是例如服务提供商的服务器、与服务器相关联的设备、片上系统、和/或任何其它合适的计算设备或计算系统。上面参照图9描述的用于实体分类的装置1000和参照图10描述的用于实体呈现的装置1100都可以采取计算设备1210的形式。替换地,用于实体分类的装置1000和用于实体呈现的装置1100都可以以应用1216的形式被实现为计算机程序。
如图示的示例计算设备1210包括彼此通信耦合的处理系统1211、一个或多个计算机可读介质1212以及一个或多个I/O接口1213。尽管未示出,但是计算设备1210还可以包括系统总线或其他数据和命令传送系统,其将各种组件彼此耦合。系统总线可以包括不同总线结构的任何一个或组合,所述总线结构诸如存储器总线或存储器控制器、外围总线、通用串行总线、和/或利用各种总线架构中的任何一种的处理器或局部总线。还构思了各种其他示例,诸如控制和数据线。
处理系统1211代表使用硬件执行一个或多个操作的功能。因此,处理系统1211被图示为包括可被配置为处理器、功能块等的硬件元件1214。这可以包括在硬件中实现为专用集成电路或使用一个或多个半导体形成的其它逻辑器件。硬件元件1214不受其形成的材料或其中采用的处理机构的限制。例如,处理器可以由(多个)半导体和/或晶体管(例如,电子集成电路(IC))组成。在这样的上下文中,处理器可执行指令可以是电子可执行指令。
计算机可读介质1212被图示为包括存储器/存储装置1215。存储器/存储装置1215表示与一个或多个计算机可读介质相关联的存储器/存储容量。存储器/存储装置1215可以包括易失性介质(诸如随机存取存储器(RAM))和/或非易失性介质(诸如只读存储器(ROM)、闪存、光盘、磁盘等)。存储器/存储装置1215可以包括固定介质(例如,RAM、ROM、固定硬盘驱动器等)以及可移动介质(例如,闪存、可移动硬盘驱动器、光盘等)。计算机可读介质1212可以以下面进一步描述的各种其他方式进行配置。
一个或多个I/O接口1213代表允许用户使用各种输入设备向计算设备1210输入命令和信息并且可选地还允许使用各种输出设备将信息呈现给用户和/或其他组件或设备的功能。输入设备的示例包括键盘、光标控制设备(例如,鼠标)、麦克风(例如,用于语音输入)、扫描仪、触摸功能(例如,被配置为检测物理触摸的容性或其他传感器)、相机(例如,可以采用可见或不可见的波长(诸如红外频率)将不涉及触摸的运动检测为手势)等等。输出设备的示例包括显示设备(例如,显示器或投影仪)、扬声器、打印机、网卡、触觉响应设备等。因此,计算设备1210可以以下面进一步描述的各种方式进行配置以支持用户交互。
计算设备1210还包括应用1216。应用1216可以例如是用于实体分类的装置1000和用于实体呈现的装置1100的软件实例,并且与计算设备1210中的其他元件相组合地实现本文描述的技术。
本文可以在软件硬件元件或程序模块的一般上下文中描述各种技术。一般地,这些模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元素、组件、数据结构等。本文所使用的术语“模块”,“功能”和“组件”一般表示软件、固件、硬件或其组合。本文描述的技术的特征是与平台无关的,意味着这些技术可以在具有各种处理器的各种计算平台上实现。
所描述的模块和技术的实现可以存储在某种形式的计算机可读介质上或者跨某种形式的计算机可读介质传输。计算机可读介质可以包括可由计算设备1210访问的各种介质。作为示例而非限制,计算机可读介质可以包括“计算机可读存储介质”和“计算机可读信号介质”。
与单纯的信号传输、载波或信号本身相反,“计算机可读存储介质”是指能够持久存储信息的介质和/或设备,和/或有形的存储装置。因此,计算机可读存储介质是指非信号承载介质。计算机可读存储介质包括诸如易失性和非易失性、可移动和不可移动介质和/或以适用于存储信息(诸如计算机可读指令、数据结构、程序模块、逻辑元件/电路或其他数据)的方法或技术实现的存储设备之类的硬件。计算机可读存储介质的示例可以包括但不限于RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字通用盘(DVD)或其他光学存储装置、硬盘、盒式磁带、磁带,磁盘存储装置或其他磁存储设备,或其他存储设备、有形介质或适于存储期望信息并可以由计算机访问的制品。
“计算机可读信号介质”是指被配置为诸如经由网络将指令发送到计算设备1210的硬件的信号承载介质。信号介质典型地可以将计算机可读指令、数据结构、程序模块或其他数据体现在诸如载波、数据信号或其它传输机制的调制数据信号中。信号介质还包括任何信息传递介质。术语“调制数据信号”是指这样的信号,该信号的特征中的一个或多个被设置或改变,从而将信息编码到该信号中。作为示例而非限制,通信介质包括诸如有线网络或直接连线的有线介质以及诸如声、RF、红外和其它无线介质的无线介质。
如前所述,硬件元件1214和计算机可读介质1212代表以硬件形式实现的指令、模块、可编程器件逻辑和/或固定器件逻辑,其在一些实施例中可以用于实现本文描述的技术的至少一些方面。硬件元件可以包括集成电路或片上系统、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、复杂可编程逻辑器件(CPLD)以及硅中的其它实现或其他硬件设备的组件。在这种上下文中,硬件元件可以作为执行由硬件元件所体现的指令、模块和/或逻辑所定义的程序任务的处理设备,以及用于存储用于执行的指令的硬件设备,例如,先前描述的计算机可读存储介质。
前述的组合也可以用于实现本文所述的各种技术和模块。因此,可以将软件、硬件或程序模块和其它程序模块实现为在某种形式的计算机可读存储介质上和/或由一个或多个硬件元件1214体现的一个或多个指令和/或逻辑。计算设备1210可以被配置为实现与软件和/或硬件模块相对应的特定指令和/或功能。因此,例如通过使用处理系统的计算机可读存储介质和/或硬件元件1214,可以至少部分地以硬件来实现将模块实现为可由计算设备1210作为软件执行的模块。指令和/或功能可以由一个或多个制品(例如,一个或多个计算设备1210和/或处理系统1211)可执行/可操作以实现本文所述的技术、模块和示例。
在各种实施方式中,计算设备1210可以采用各种不同的配置。例如,计算设备1210可以被实现为包括个人计算机、台式计算机、多屏幕计算机、膝上型计算机、上网本等的计算机类设备。计算设备1210还可以被实现为包括诸如移动电话、便携式音乐播放器、便携式游戏设备、平板计算机、多屏幕计算机等移动设备的移动装置类设备。计算设备1210还可以实现为电视类设备,其包括具有或连接到休闲观看环境中的一般地较大屏幕的设备。这些设备包括电视、机顶盒、游戏机等。
本文描述的技术可以由计算设备1210的这些各种配置来支持,并且不限于本文所描述的技术的具体示例。功能还可以通过使用分布式系统、诸如通过如下所述的平台1222而在“云”1220上全部或部分地实现。
云1220包括和/或代表用于资源1224的平台1222。平台1222抽象云1220的硬件(例如,服务器)和软件资源的底层功能。资源1224可以包括在远离计算设备1210的服务器上执行计算机处理时可以使用的应用和/或数据。资源1224还可以包括通过因特网和/或通过诸如蜂窝或Wi-Fi网络的订户网络提供的服务。
平台1222可以抽象资源和功能以将计算设备1210与其他计算设备连接。平台1222还可以用于抽象资源的分级以提供遇到的对于经由平台1222实现的资源1224的需求的相应水平的分级。因此,在互连设备实施例中,本文描述的功能的实现可以分布在整个系统1200内。例如,功能可以部分地在计算设备1210上以及通过抽象云1220的功能的平台1222来实现。
应当理解,为清楚起见,参考不同的功能单元对本公开的实施例进行了描述。然而,将明显的是,在不偏离本公开的情况下,每个功能单元的功能性可以被实施在单个单元中、实施在多个单元中或作为其它功能单元的一部分被实施。例如,被说明成由单个单元执行的功能性可以由多个不同的单元来执行。因此,对特定功能单元的参考仅被视为对用于提供所描述的功能性的适当单元的参考,而不是表明严格的逻辑或物理结构或组织。因此,本公开可以被实施在单个单元中,或者可以在物理上和功能上被分布在不同的单元和电路之间。
将理解的是,尽管第一、第二、第三等术语在本文中可以用来描述各种设备、元件、部件或部分,但是这些设备、元件、部件或部分不应当由这些术语限制。这些术语仅用来将一个设备、元件、部件或部分与另一个设备、元件、部件或部分相区分。
尽管已经结合一些实施例描述了本公开,但是其不旨在被限于在本文中所阐述的特定形式。相反,本公开的范围仅由所附权利要求来限制。附加地,尽管单独的特征可以被包括在不同的权利要求中,但是这些可以可能地被有利地组合,并且包括在不同权利要求中不暗示特征的组合不是可行的和/或有利的。特征在权利要求中的次序不暗示特征必须以其工作的任何特定次序。此外,在权利要求中,词“包括”不排除其它元件,并且术语“一”或“一个”不排除多个。权利要求中的附图标记仅作为明确的例子被提供,不应该被解释为以任何方式限制权利要求的范围。
Claims (14)
1.一种用于实体分类的方法,包括:
获取实体的信息文本;
基于所述实体的信息文本确定所述实体对应的实体向量;
基于所述实体向量,利用经训练的智能分类网络通过如下步骤确定针对所述实体的层次化类别,其中所述智能分类网络包括全局特征提取层和多个局部特征提取层,所述多个局部特征提取层与预定类别层次结构中的类别层一一对应,所述步骤包括:
分别利用所述多个局部特征提取层基于所述实体向量提取对应局部特征提取层的类别向量,其中所述对应局部特征提取层的类别向量包括所述实体属于预定类别层次结构中的对应类别层中的各类别的局部类别置信度;
利用所述全局特征提取层基于所述多个局部特征提取层得到的中间特征向量来提取第一全局类别向量,其中所述第一全局类别向量包括所述实体属于预定类别层次结构中各类别的第一全局类别置信度;
基于所述多个局部特征提取层的类别向量中的局部类别置信度和第一全局类别向量中的第一全局类别置信度确定针对所述实体的层次化类别。
2.根据权利要求1所述的方法,其中,所述信息文本包括对所述实体进行概述的实体描述文本、属性名称和与属性名称对应的属性值。
3.根据权利要求2所述的方法,其中,基于实体的信息文本确定所述实体对应的实体向量,包括:
对所述实体的实体描述文本进行第一嵌入处理,以得到文本描述向量;
对所述实体的属性名称和与属性名称对应的属性值进行第二嵌入处理,以得到属性向量;
基于所述文本描述向量和所述属性向量确定所述实体对应的实体向量。
4.根据权利要求3所述的方法,其中,对所述实体的属性名称和与属性名称对应的属性值进行第二嵌入处理,以得到属性向量,包括:
响应于所述属性名称对应多个属性值,则,
对所述实体的属性名称进行第二嵌入处理以得到第一词嵌入向量;
对所述多个属性值分别进行第二嵌入处理以得到多个第二词嵌入向量,并且对所述多个第二词嵌入向量取平均以得到平均嵌入向量;
基于所述第一词嵌入向量和平均嵌入向量确定所述属性向量。
5.根据权利要求3所述的方法,其中,基于所述文本描述向量和所述属性向量确定所述实体对应的实体向量,包括:
对所述属性向量进行池化处理,以得到第一处理向量;
对所述属性向量进行注意力处理,以得到第二处理向量;
将所述文本描述向量、第一处理向量和第二处理向量进行拼接,以得到所述实体对应的实体向量。
6.根据权利要求1所述的方法,其中,所述多个局部特征提取层的数目为N,并且每个局部特征提取层包括第一隐藏层、第二隐藏层、第三隐藏层,并且其中分别利用多个局部特征提取层基于所述实体向量提取对应局部特征提取层的类别向量,包括:
对于第1个局部特征提取层,
利用其第一隐藏层基于所述实体向量提取第一层的第一特征向量;
利用其第二隐藏层基于所述第一层的第一特征向量提取第一层的第二特征向量;
利用其第三隐藏层基于所述第一层的第二特征向量确定第1个局部特征提取层的类别向量;
对于第2到第N个局部特征提取层,
利用第i个局部特征提取层的第一隐藏层基于所述实体向量和第i-1层的第一特征向量提取第i层的第一特征向量;
利用第i个局部特征提取层的第二隐藏层基于第i层的所述第一特征向量提取第i层的第二特征向量;
利用第i个局部特征提取层的第三隐藏层基于所述第i层的第二特征向量确定第i个局部特征提取层的类别向量;
其中N为大于1的正整数,i为大于1且不大于N的正整数。
7.根据权利要求6所述的方法,其中,所述全局特征提取层包括第四隐藏层,并且利用所述全局特征提取层基于所述多个局部特征提取层得到的中间特征向量来提取第一全局类别向量,包括:
将所述第N个局部特征提取层提取的第N层的第一特征向量作为所述中间特征向量;
利用所述第四隐藏层基于所述中间特征向量来提取第一全局类别向量。
8.根据权利要求1所述的方法,其中,基于所述多个局部特征提取层的类别向量中的局部类别置信度和第一全局类别向量中的第一全局类别置信度确定针对所述实体的层次化类别,包括:
基于所述多个局部特征提取层的类别向量中的局部类别置信度确定第二全局类别向量,其中第二全局类别向量包括所述实体属于所述预定类别层次结构中各类别的第二全局类别置信度。
9.根据权利要求8所述的方法,其中,基于所述多个局部特征提取层的类别向量中的局部类别置信度和第一全局类别向量中的第一全局类别置信度确定针对所述实体的层次化类别,还包括:
根据权重确定第一全局类别向量中的第一全局类别置信度和第二全局类别向量中对应的第二全局类别置信度的加权和,以得到第三全局类别向量,其中第三全局类别向量包括所述实体属于所述预定类别层次结构中各类别的第三全局类别置信度;
在所述第三全局类别向量中的针对相应类别层中的类别的第三全局类别置信度中,将大于针对所述相应类别层的预设置信度阈值的第三全局类别置信度所对应类别确定为所述实体的在所述相应类别层的类别。
10.根据权利要求9所述的方法,其中,基于所述多个局部特征提取层的类别向量中的局部类别置信度确定第二全局类别向量,包括:
将所述多个局部特征提取层的类别向量进行拼接,以得所述第二全局类别向量,其中所述第二全局类别向量包括所述多个局部特征提取层的类别向量中的局部类别置信度。
11.根据权利要求1所述的方法,其中,通过如下训练步骤得到所述经训练的智能分类网络,所述训练步骤包括:
获取多个已标记类别的实体样本;
确定所述多个已标记类别的实体样本的每个已标记类别的实体样本对应的实体向量;
根据所述多个已标记类别的实体样本对应的实体向量对所述智能分类网络进行训练,直至所述智能分类网络对应的损失函数最小;
其中,所述智能分类网络的损失函数L=L1+L2+L3,并且其中L1为针对第一全局类别向量的交叉熵损失、L2为针对第二全局类别向量的交叉熵损失,以及L3为预定类别层次结构相邻类别层中的继承类别和被继承类别对应的置信度的差。
12.一种用于实体分类的装置,包括:
信息文本获取模块,被配置成获取实体的信息文本;
实体向量确定模块,被配置成基于所述实体的信息文本确定所述实体对应的实体向量;
层次类别确定模块,被配置成基于所述实体向量,利用经训练的智能分类网络确定针对所述实体的层次化类别,其中所述智能分类网络包括全局特征提取层和多个局部特征提取层,所述多个局部特征提取层与预定类别层次结构中的类别层一一对应,所述层次类别确定模块包括:
局部向量提取模块,被配置成分别利用所述多个局部特征提取层基于所述实体向量提取对应局部特征提取层的类别向量,其中所述对应局部特征提取层的类别向量包括所述实体属于预定类别层次结构中的对应类别层中的各类别的局部类别置信度;
全局向量提取模块,被配置成利用所述全局特征提取层基于所述多个局部特征提取层得到的中间特征向量来提取第一全局类别向量,其中所述第一全局类别向量包括所述实体属于预定类别层次结构中各类别的第一全局类别置信度;
类别判定模块,被配置成基于所述多个局部特征提取层的类别向量中的局部类别置信度和第一全局类别向量中的第一全局类别置信度确定针对所述实体的层次化类别。
13.一种计算设备,包括
存储器,其被配置成存储计算机可执行指令;
处理器,其被配置成当所述计算机可执行指令被处理器执行时执行如权利要求1-11中的任一项所述的方法。
14.一种计算机可读存储介质,其存储有计算机可执行指令,当所述计算机可执行指令被执行时,执行如权利要求1-11中的任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011104608.0A CN112131884B (zh) | 2020-10-15 | 2020-10-15 | 用于实体分类的方法和装置、用于实体呈现的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011104608.0A CN112131884B (zh) | 2020-10-15 | 2020-10-15 | 用于实体分类的方法和装置、用于实体呈现的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112131884A CN112131884A (zh) | 2020-12-25 |
CN112131884B true CN112131884B (zh) | 2024-03-15 |
Family
ID=73853722
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011104608.0A Active CN112131884B (zh) | 2020-10-15 | 2020-10-15 | 用于实体分类的方法和装置、用于实体呈现的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112131884B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113705236A (zh) * | 2021-04-02 | 2021-11-26 | 腾讯科技(深圳)有限公司 | 实体比较方法、装置、设备及计算机可读存储介质 |
CN113032584B (zh) * | 2021-05-27 | 2021-09-17 | 北京明略软件系统有限公司 | 一种实体关联方法、装置、电子设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017142510A1 (en) * | 2016-02-16 | 2017-08-24 | Entit Software Llc | Classification |
CN107577785A (zh) * | 2017-09-15 | 2018-01-12 | 南京大学 | 一种适用于法律识别的层次多标签分类方法 |
CN109344911A (zh) * | 2018-10-31 | 2019-02-15 | 北京国信云服科技有限公司 | 一种基于多层lstm模型的并行处理分类方法 |
CN109508377A (zh) * | 2018-11-26 | 2019-03-22 | 南京云思创智信息科技有限公司 | 基于融合模型的文本特征提取方法、装置、聊天机器人和存储介质 |
CN109871444A (zh) * | 2019-01-16 | 2019-06-11 | 北京邮电大学 | 一种文本分类方法及系统 |
CN111368175A (zh) * | 2020-05-27 | 2020-07-03 | 支付宝(杭州)信息技术有限公司 | 一种事件抽取方法和系统及实体分类模型 |
US10705796B1 (en) * | 2017-04-27 | 2020-07-07 | Intuit Inc. | Methods, systems, and computer program product for implementing real-time or near real-time classification of digital data |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7349917B2 (en) * | 2002-10-01 | 2008-03-25 | Hewlett-Packard Development Company, L.P. | Hierarchical categorization method and system with automatic local selection of classifiers |
US7383260B2 (en) * | 2004-08-03 | 2008-06-03 | International Business Machines Corporation | Method and apparatus for ontology-based classification of media content |
US10304444B2 (en) * | 2016-03-23 | 2019-05-28 | Amazon Technologies, Inc. | Fine-grained natural language understanding |
-
2020
- 2020-10-15 CN CN202011104608.0A patent/CN112131884B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017142510A1 (en) * | 2016-02-16 | 2017-08-24 | Entit Software Llc | Classification |
US10705796B1 (en) * | 2017-04-27 | 2020-07-07 | Intuit Inc. | Methods, systems, and computer program product for implementing real-time or near real-time classification of digital data |
CN107577785A (zh) * | 2017-09-15 | 2018-01-12 | 南京大学 | 一种适用于法律识别的层次多标签分类方法 |
CN109344911A (zh) * | 2018-10-31 | 2019-02-15 | 北京国信云服科技有限公司 | 一种基于多层lstm模型的并行处理分类方法 |
CN109508377A (zh) * | 2018-11-26 | 2019-03-22 | 南京云思创智信息科技有限公司 | 基于融合模型的文本特征提取方法、装置、聊天机器人和存储介质 |
CN109871444A (zh) * | 2019-01-16 | 2019-06-11 | 北京邮电大学 | 一种文本分类方法及系统 |
CN111368175A (zh) * | 2020-05-27 | 2020-07-03 | 支付宝(杭州)信息技术有限公司 | 一种事件抽取方法和系统及实体分类模型 |
Non-Patent Citations (5)
Title |
---|
A survey of hierarchical classification across different application domains;Carlos N. Silla Jr. et al;Data Mining and Knowledge Discovery;第22卷;31–72 * |
基于深度学习的文本表示与分类方法研究;闫琰;中国博士学位论文全文数据库信息科技辑(第9期);I138-28 * |
基于邻居辅助策略的两阶段层次文本分类模型研究;王春元;中国优秀硕士学位论文全文数据库信息科技辑(第3期);I138-6360 * |
大规模分类任务的分层学习方法综述;胡清华 等;中国科学:信息科学;第48卷(第5期);487-500 * |
知识图谱构建技术综述;刘峤 等;计算机研究与发展;第53卷(第3期);582-600 * |
Also Published As
Publication number | Publication date |
---|---|
CN112131884A (zh) | 2020-12-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020232861A1 (zh) | 命名实体识别方法、电子装置及存储介质 | |
US11544550B2 (en) | Analyzing spatially-sparse data based on submanifold sparse convolutional neural networks | |
WO2022007823A1 (zh) | 一种文本数据处理方法及装置 | |
US20170140248A1 (en) | Learning image representation by distilling from multi-task networks | |
CN112819023B (zh) | 样本集的获取方法、装置、计算机设备和存储介质 | |
CN113011186B (zh) | 命名实体识别方法、装置、设备及计算机可读存储介质 | |
US20170372221A1 (en) | Cognitive machine learning classifier generation | |
CN109471944A (zh) | 文本分类模型的训练方法、装置及可读存储介质 | |
CN113704388A (zh) | 多任务预训练模型的训练方法、装置、电子设备和介质 | |
CN111783903B (zh) | 文本处理方法、文本模型的处理方法及装置、计算机设备 | |
CN111539197A (zh) | 文本匹配方法和装置以及计算机系统和可读存储介质 | |
WO2020073533A1 (zh) | 自动问答方法及装置 | |
CN112131884B (zh) | 用于实体分类的方法和装置、用于实体呈现的方法和装置 | |
CN111259647A (zh) | 基于人工智能的问答文本匹配方法、装置、介质及电子设备 | |
US20210279279A1 (en) | Automated graph embedding recommendations based on extracted graph features | |
CN112131345B (zh) | 文本质量的识别方法、装置、设备及存储介质 | |
CN113704460A (zh) | 一种文本分类方法、装置、电子设备和存储介质 | |
CN112805715A (zh) | 识别实体属性关系 | |
CN112015896B (zh) | 基于人工智能的情感分类方法、以及装置 | |
CN111522979B (zh) | 图片排序推荐方法、装置、电子设备、存储介质 | |
CN111898704A (zh) | 对内容样本进行聚类的方法和装置 | |
CN115659008A (zh) | 大数据信息反馈的信息推送系统、方法、电子设备及介质 | |
CN116263785A (zh) | 跨领域文本分类模型的训练方法、分类方法和装置 | |
US20220147547A1 (en) | Analogy based recognition | |
CN116910357A (zh) | 一种数据处理方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40035386 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |