CN109284374B - 用于确定实体类别的方法、装置、设备以及计算机可读存储介质 - Google Patents
用于确定实体类别的方法、装置、设备以及计算机可读存储介质 Download PDFInfo
- Publication number
- CN109284374B CN109284374B CN201811043184.4A CN201811043184A CN109284374B CN 109284374 B CN109284374 B CN 109284374B CN 201811043184 A CN201811043184 A CN 201811043184A CN 109284374 B CN109284374 B CN 109284374B
- Authority
- CN
- China
- Prior art keywords
- suffix
- entity
- category
- categories
- class
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000013145 classification model Methods 0.000 claims abstract description 34
- 238000009826 distribution Methods 0.000 claims description 55
- 238000012549 training Methods 0.000 claims description 25
- 238000010586 diagram Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 5
- 230000004044 response Effects 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 2
- 230000004048 modification Effects 0.000 claims description 2
- 238000012986 modification Methods 0.000 claims description 2
- 238000007670 refining Methods 0.000 claims 2
- 235000014101 wine Nutrition 0.000 description 23
- 238000010801 machine learning Methods 0.000 description 19
- 235000019987 cider Nutrition 0.000 description 11
- 238000012545 processing Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000003066 decision tree Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 235000013305 food Nutrition 0.000 description 4
- 238000013136 deep learning model Methods 0.000 description 3
- 235000015219 food category Nutrition 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 235000013361 beverage Nutrition 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 125000002015 acyclic group Chemical group 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 235000011389 fruit/vegetable juice Nutrition 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 235000020095 red wine Nutrition 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Algebra (AREA)
- Probability & Statistics with Applications (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Operations Research (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
根据本公开的示例实施例,提供了一种用于确定实体类别的方法、装置、设备以及计算机可读存储介质。方法包括根据实体的后缀获得与后缀相关联的后缀特征,并且基于实体的实体名来确定实体的候选类别。方法还包括基于候选类别和后缀特征来确定实体的类别集合。本公开的实施例通过实体后缀获得后缀特征并且通过分类模型获得实体的候选类别,然后结合后缀特征和候选类别二者来获得实体的类别,从而能够准确且精细地确定实体的类别。
Description
技术领域
本公开的实施例总体上涉及计算机技术领域,并且更具体地涉及用于确定实体类别的方法、装置、设备以及计算机可读存储介质。
背景技术
在当前互联网环境中,人工智能在越来越多的产品和场景都有了广泛的应用。文本理解作为人工智能的一项重要技术,在知识图谱构建、文本处理、自动问答等应用中都起着至关重要的作用。判定实体的类别(即实体的上位)是文本理解的关键环节,因为实体类别是实体的关键特征,其可用于提升文本理解技术在各类应用场景中的效果。
实体通常是指真实世界或者虚拟世界中可以互相区分的对象或事物。实体可以为命名实体,诸如人名、地名、组织机构名等,实体也可以为概念类实体,诸如即时战略游戏、法国红葡萄酒等名词概念。一般来说,对于实体类别的判定需要依赖于一些附加信息,诸如上下文信息或者知识图谱收录信息,而在缺少这些附加信息的情况下,通常无法准确且精细地判定实体的类别。
发明内容
根据本公开的示例实施例,提供了一种用于确定实体类别的方法、装置、设备以及计算机可读存储介质。
在本公开的第一方面中,提供了一种用于确定实体类别的方法。该方法包括:根据实体的后缀,获得与后缀相关联的后缀特征;基于实体的实体名,确定实体的候选类别;以及基于候选类别和后缀特征,确定实体的类别集合。
在本公开的第二方面中,提供了一种用于确定实体类别的装置。该装置包括:后缀特征获得模块,被配置为根据实体的后缀来获得与后缀相关联的后缀特征;候选类别确定模块,被配置为基于实体的实体名来确定实体的候选类别;以及类别集合确定模块,被配置为基于候选类别和后缀特征来确定实体的类别集合。
在本公开的第三方面中,提供了一种电子设备,其包括一个或多个处理器以及存储装置,其中存储装置用于存储一个或多个程序。一个或多个程序当被一个或多个处理器执行,使得电子设备实现根据本公开的实施例的方法或过程。
在本公开的第四方面中,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现根据本公开的实施例的方法或过程。
应当理解,本发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键特征或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的描述而变得容易理解。
附图说明
结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:
图1示出了根据本公开的实施例的用于确定实体类别的示例环境的示意图;
图2示出了根据本公开的实施例的用于确定实体类别的方法的流程图;
图3示出了根据本公开的实施例的用于确定后缀类别分布的方法的流程图;
图4示出了根据本公开的实施例的树状图形式的概念库的示意图;
图5示出了根据本公开的实施例的用于使用经训练的分类模型来确定实体的候选类别的方法的流程图;
图6示出了根据本公开的实施例的用于结合后缀特征和候选类别来确定实体类别的方法的流程图;
图7示出了根据本公开的实施例的用于确定实体类别的装置的框图;以及
图8示出了能够实施本公开的多个实施例的电子设备的框图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中示出了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反,提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“一些实施例”应当理解为“至少一些实施例”。下文还可能包括其他明确的和隐含的定义。
通常,为了实现文本理解过程,需要对实体的类别(即实体的上位)进行判定,传统的实体类别判定方法通常有以下两种。第一种方法是基于上下文的实体类别判定方法,其包括各类命名实体识别技术。对于包含实体的文本,利用实体的上下文信息判别该实体在这段文本中对应的类别。这类方法既包括利用模板匹配的方式识别实体类别,也包括通过人工标注的样本训练机器学习模型进行类别标注。第二种方法是基于知识图谱收录的类别判定方法,其查找目标实体在知识图谱中的同类实体,根据同类实体的属性构建分布特征,并筛选对目标实体有代表性的属性,从而对目标实体的类别进行判定。
然而,上述两种方法都需要附加的辅助数据,具体地,第一种方法需要有效的上下文信息,而很多应用场景缺少上下文,诸如短查询、新词表等;第二种方法依赖于知识图谱的收录,而很多实体是没有收录的,尤其在通用域下无法保证高召回率。因此,传统的方法对于上下文信息不充足且知识图谱未收录的实体,难以确定出上位的实体类别。此外,这两种现有方法可判定的实体类别粒度通常较粗,使得输出的类别结果可表达的语义信息有限。因此,现有技术无法实现准确且精细地判定实体的类别。
本公开的实施例提出了一种用于确定实体类别的方案。本公开的实施例通过实体后缀获得后缀特征并且通过分类模型获得实体的候选类别,然后结合后缀特征和候选类别来获得实体的类别。与仅通过后缀判定的实体类别(其可能不准确)或者仅通过分类模型确定的实体类别(其可能不精细)相比,本公开的实施例的方法能够准确且精细地确定实体的类别,同时不需要实体的附加辅助信息(诸如上下文信息)。以下将参考附图1-8详细描述本公开的一些示例实现。
图1示出了根据本公开的实施例的用于确定实体类别的示例环境100的示意图。在环境100中,本公开的实施例将实体(例如实体105,实体名为“苹果酒”)同时输入到后缀类别确定模块110和机器学习分类模块120,然后根据这两个模块的输出结果来确定实体105应当被分类的一个或多个类别。
后缀类别确定模块110根据实体105的后缀(即“酒”),获得“酒”后缀的后缀特征115。在图1的示例中,后缀特征115包括“酒”后缀的类别分布,例如,“酒”后缀具有0.6的概率为酒类别,具有0.2的概率为饮品类别、具有0.1的概率为食物类别,等等。在一些实施例中,后缀类别确定模块110根据训练语料库,可以提前确定出可用于分类的所有后缀的类别分布。
机器学习分类模块120基于训练语料库而被训练,其分类体系中的类别通常为较粗的粒度。如图1所示,实体105(“苹果酒”)被机器学习分类模块120分类为的候选类别125,即饮品类别。应当理解,机器学习分类模块120可以为当前可用或者将来开发的任何文本分类模型,包括但不限于决策树模型、贝叶斯分类模型、深度学习模型,等等。在一些实施例,机器学习分类模块120还可以使用后缀类别确定模块110输出的后缀特征作为其样本特征的一部分,以提升机器学习分类模块120中的分类模型的分类效果。
接下来,本公开的实施例结合后缀特征115和候选类别125这两种分类结果,获得实体105应当被分类的类别集合130。如图1所示,在实体名=苹果酒的示例下,实体的输出类别集合=<酒,饮品,食物>。在一些实施例中,可以在机器学习分类模块120的候选类别上进行后缀匹配,然后基于后缀匹配的结果对候选类别进行细化或者修正。例如,假设实体“苹果酒”被机器学习分类模块120分类为“饮品”类别,通过“酒”后缀与“饮品”类别的统计关联强度特征可将实体“苹果酒”细化到“酒”这个更细的类别。再例如,假设如果实体“苹果酒”被机器学习分类模块120分类为“游戏”类别,通过“酒”后缀与“游戏”类别的统计关联强度特征,可以将结果修正为“拒识”,由此提升分类的准确率。
应当理解,如果仅通过后缀类别确定模块110确定实体类别,则分类结果可能不准确,其原因是相同后缀的实体可分布在多个类别,例如“将进酒”的后缀也是“酒”,但类别应当是“作品类”。另外,如果仅通过机器学习分类模块120确定实体类别,则所分的类别通常不够精细,例如,机器学习分类模块120只能将实体“苹果酒”分类到饮品类别,而不能分配到更精细的酒类别,这是因为类别越细通常需要越多的训练数据。与现有技术相比,本公开的实施例的方法通过结合后缀类别确定模块110输出的后缀特征和机器学习分类模块120生成的候选分类,能够不仅准确而且精细地确定实体的类别。
图2示出了根据本公开的实施例的用于确定实体类别的方法200的流程图。在框202,根据实体的后缀,获得与后缀相关联的后缀特征。例如,图1中的后缀类别确定模块110可以根据实体105的后缀(例如“酒”),获得该后缀的后缀特征115(例如“<后缀=酒,P酒=0.6,P饮品=0.2,P食物=0.1...>”)。在一些实施例中,后缀特征可以被表示为向量,或者可以具体类别分布,其中类别分布包括与后缀有关的一个或多个类别及其对应的概率。例如,在参考图1所描述的后缀特征115中,可以表示“酒”后缀为酒类别的概率为0.6,为饮品类别的概率为0.2,为食物类别的概率为0.1。应当理解,术语“后缀”通常表示实体名称末尾的一个或多个字或字符,例如,实体“苹果酒”的后缀为“酒”,实体“ABC有限公司”的后缀为“有限公司”,一般来说,许多后缀可以指示其相应实体的类别。此外,英文短语中最后一个或多个单词也可以作为本公开的实施例的后缀。以下参考图3描述了确定后缀类别分布的示例实现。
在框204,基于实体的实体名,确定实体的候选类别。例如,可以使用机器学习分类模块120中经训练的分类模型,确定实体105的候选类别为饮品。在一些实施例中,也可以使用后缀集合的类别分布作为训练样本的一部分特征,来训练分类模型,以下参考图5描述了使用分类模型来对实体进行分类的示例实现。
应当理解,虽然图2中的步骤202在步骤204之前被示出,然而,步骤202可以在步骤204之后被执行,或者步骤202和步骤204可以基本上同时被执行,本公开的实施例不限定步骤202和步骤204二者的执行顺序。然而,在使用后缀集合的类别分布作为训练样本的一部分特征的实施例中,步骤202可以在步骤204之前被执行。
在框206,基于候选类别和后缀特征,确定实体的类别集合。例如,可以在分类模型的候选类别的基础上进行后缀匹配,然后基于后缀匹配的结果对候选类别进行细化或修正,以下参考图6描述了确定最终的实体类别的示例实现。应当理解,所确定的类别集合中可以包括多个类别,也可以仅包括一个类别(诸如排名最高的类别)。
因此,根据本公开的实施例的方法200通过结合实体后缀的后缀特征和机器学习模型的分类结果,能够准确且精细地确定实体的类别。在一些实施例中,所确定的类别集合可以用于新实体收录、文本理解任务、以及自动问答,等等。例如,所确定的实体类别集合可以作为其他文本理解应用的特征。
图3示出了根据本公开的实施例的用于确定后缀类别分布的方法300的流程图。应当理解,方法300可以为以上参考图2所描述的方法200中的步骤202的示例实现。此外,为了方便描述图3的方法300,还结合图4所示出的概念库400一起进行描述。
在框302,构建树状图形式的概念库。例如,可以构建图4所示出的树状图形式的概念库400。如图4所示,概念库400是包括多个节点和有向边的有向无环树状图,树状图中的节点表示可以作为实体类别的概念,并且树状图中的有向边表示概念之间的上下位关系。因此,根据本公开的实施例的所确定的实体类别可以为概念库中的一个子集。继续参考图4,,在概念图400中,第一层的概念事物410是第二层的概念食物420的上位概念,第二层的概念食物420是第三层的概念饮品430的上位概念,第三层的概念饮品430是第四层的概念酒440和概念果汁441的上位概念。
返回图3,在框304,基于概念库,从训练语料中提取用于实体分类的后缀集合。在一些实施例中,可以基于概念体系在语料中挖掘能够作为实体类别的后缀集合,并统计每个后缀的分布情况。可以在训练语料上统计每个后缀的类别分布情况,并且在开放语料上统计每个后缀的先验概率分布。例如,可以针对概念库400,人工标注一些内容作为训练语料,标注后缀与实体类别的划分关系,并且提取出尽可能多的后缀。
接下来,在框306,基于语料库确定后缀集合中的每个后缀的类别分布。例如,可以确定如图1所示的后缀特征115,其表示“酒”后缀为酒类别的概率为0.6,为饮品类别的概率为0.2,为食物类别的概率为0.1,等等。因此,根据本公开的实施例的方法300能够基于实体名的后缀来确定实体的可能类别分布,此外,该类别分布是基于概念库和训练数据的,因而可以保证类别分布的多样性和精细度。
图5示出了根据本公开的实施例的用于使用经训练的分类模型来确定实体的候选类别的方法500的流程图。应当理解,方法500可以为以上参考图2所描述的方法200中的步骤204的示例实现。在框502,获得用于训练分类模型的训练样本,并且在框504提取样本特征。例如,可以获取若干实体,并且人工标注这些实体的类别。训练样本可以是人工标注的实体类别数据,也可以是通过命名实体识别等技术从语料中自动挖掘的实体类别数据。
在框506,获得后缀类别分布,例如从参考图1所描述的后缀类别确定模块110获得每个后缀的类别分布。在框508,组合样本特征和后缀类别分布,以获得新的样本特征。也就是说,本公开的实施例可以使用后缀集合的类别分布作为训练样本的一部分特征,来训练分类模型,从而可以提升模型效果。在框510,基于样本特征来训练分类模型,并且在框512生成经训练的分类模型。在框514,使用经训练的分类模型来确定实体的候选类别。例如,使用机器学习分类模块120确定实体105的候选类别为饮品。
一般来说,分类模型的分类结果受限于预先建立的分类体系,类别可对应概念体系上的一个或多个节点,例如“游戏”可作为一个实体类别,“游戏+小说”也可作为一个类别,这取决于样本分布与应用需求而定。由于样本构建的成本高,分类体系通常采用粗粒度分类,以保证每个类别有足够的训练样本。因此,分类模型所输出的实体类别通常不够精细。
本公开的实施例的分类模型可以为当前可用或者将来开发的任何文本分类模型,例如决策树模型、贝叶斯分类模型、深度学习模型等。决策树模型是一种非参数分类器,其通过构造树来解决分类问题,首先利用训练数据集来构造一棵决策树,一旦树建立起来,它就可为未知样本产生一个分类。贝叶斯分类模型的分类原理是通过先验概率,利用贝叶斯公式计算出后验概率,选择最大后验概率所对应的分类结果。深度学习模型是将语义转化为矢量,转化为几何空间,然后逐渐学习将一个空间映射到另一个空间的复杂几何转换,从而实现对实体的分类。
图6示出了根据本公开的实施例的用于结合后缀特征与候选类别来确定实体的类别的方法600的流程图。应当理解,方法600可以为以上参考图2所描述的方法200中的步骤206的示例实现。在框602,针对某个待分类的实体,确定后缀特征与候选类别之间的关联度。例如,如果候选类别在后缀特征的类别分布中存在,则可以认为后缀特征与候选类别之间具有较高的关联度,反之亦然。再例如,可以将后缀特征与候选类别之间的语义相关度确定为关联度。在框604,判断关联度是否大于预定阈值。
如果在框604判断关联度大于预定阈值,则说明两种分类方法的结果是关联的,在框606,可以基于后缀特征对候选类别进行细化以生成类别集合。例如,如果实体“苹果酒”被机器学习模型分类为饮品类别,则通过“酒”后缀与饮品类别的统计关联强度特征可将实体“苹果酒”细化到更细的酒类别。
如果在框604判断关联度小于预定阈值,则说明两种分类方法的结果不一致,在框608,可以基于后缀特征对候选类别进行修正。例如,如果实体“苹果酒”被机器学习模型分类为游戏类别,通过“酒”后缀与游戏类别的统计关联强度特征,可以将结果修正为“拒识”,以提升分类准确率。在一些实施例中,针对两种分类方法的结果不一致的情形,也可以使用另外的分类方法再进行验证,或者由人工进行判断或标注。
因此,本公开的实施例能够仅根据实体名来确定实体类别,并且不需要额外的实体上下文或实体特征数据,还能够结合概念体系提供细粒度的上位类别。以这种方式,本公开的实施例一方面通过概念体系挖掘得到的类别后缀能够作为特征提升机器学习分类模型的效果,另一方面分类结果继承了概念体系的层次关系,可为进一步的文本处理提供丰富的语义特征。
图7示出了根据本公开的实施例的用于确定实体类别的装置700的框图。如图7所示,装置700包括后缀特征获得模块710、候选类别确定模块720以及类别集合确定模块730。后缀特征获得模块710被配置为根据实体的后缀来获得与后缀相关联的后缀特征。候选类别确定模块720被配置为基于实体的实体名来确定实体的候选类别。类别集合确定模块730被配置为基于候选类别和后缀特征来确定实体的类别集合。。
在一些实施例中,其中后缀特征获得模块710包括类别分布获得模块,其被配置为获得后缀的类别分布,其中类别分布包括与后缀相关联的一个或多个类别以及一个或多个类别的概率。
在一些实施例中,其中类别分布获得模块包括类别分布确定模块,其被配置为基于预先构建的概念库来确定后缀的类别分布,其中概念库是包括多个节点和有向边的树状图,树状图中的节点表示作为实体类别的概念,并且树状图中的有向边表示概念之间的上下位关系。
在一些实施例中,其中类别分布确定模块包括:后缀集合提取模块,被配置为基于概念库来从用于训练的语料库中提取用于实体分类的后缀集合;以及第二类别分布确定模块,被配置为基于语料库来确定后缀集合中的每个后缀的类别分布。
在一些实施例中,其中候选类别确定模块720包括:分类模型训练模块,被配置为使用后缀集合的类别分布作为训练样本的一部分特征来训练分类模型;以及第二候选类别确定模块,被配置为使用经训练的分类模型来确定实体的候选类别。
在一些实施例中,类别集合确定模块730包括:关联度确定模块,被配置为确定后缀特征与候选类别之间的关联度;以及第二类别集合确定模块,被配置为基于关联度来确定实体的类别集合。
在一些实施例中,其中第二类别集合确定模块包括:类别细化模块,被配置为响应于关联度大于预定阈值,基于后缀特征对候选类别进行细化以生成类别集合;以及类别修正模块,被配置为响应于关联度小于预定阈值,基于后缀特征对候选类别进行修正。
在一些实施例中,装置700还包括类别集合使用模块,其被配置为将实体的所确定的类别集合用于以下一项或多项:新实体收录、文本理解任务以及自动问答。
应当理解,图7中所示出的后缀特征获得模块710、候选类别确定模块720以及类别集合确定模块730可以被包括单个或者电子设备中。而且,应当理解,图7中所示出的模块可以执行参考本公开的实施例的方法或过程中的步骤或动作。
图8示出了可以用来实施本公开的实施例的示例设备800的示意性框图。应当理解,设备800可以用于实现本公开所描述的用于确定实体类别的装置700。如图所示,设备800包括中央处理单元(CPU)801,其可以根据被存储在只读存储器(ROM)802中的计算机程序指令或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序指令,来执行各种适当的动作和处理。在RAM 803中,还可存储设备800操作所需的各种程序和数据。CPU801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
设备800中的多个部件连接至I/O接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理单元801执行上文所描述的各个方法和过程,例如方法200、300、500和/或600。例如,在一些实施例中,方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由CPU801执行时,可以执行上文描述的方法的一个或多个动作或步骤。备选地,在其他实施例中,CPU 801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行方法。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD),等等。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
此外,虽然采用特定次序描绘了各动作或步骤,但是这应当理解为要求这样动作或步骤以所示出的特定次序或以顺序次序执行,或者要求所有图示的动作或步骤应被执行以取得期望的结果。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地,在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本公开的实施例,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。
Claims (16)
1.一种用于确定实体类别的方法,包括:
根据实体的后缀,获得与所述后缀相关联的后缀特征,其中在所述后缀特征包括所述后缀针对一个或多个类别的类别分布;
基于所述实体的实体名,确定所述实体的候选类别,其中所述候选类别是由使用所述后缀的类别分布训练得到的分类模型确定的;以及
基于所述候选类别和所述后缀特征,确定所述实体的类别集合,
其中确定所述实体的类别集合包括:
基于所述候选类别是否存在于所述后缀特征的所述类别分布中来确定所述后缀特征与所述候选类别之间的关联度;以及
响应于所述关联度大于预定阈值,通过使用所述后缀特征对所述候选类别进行细化来生成所述类别集合。
2.根据权利要求1所述的方法,其中获得与所述后缀相关联的后缀特征包括:
获得所述后缀的类别分布,所述类别分布包括与所述后缀相关联的一个或多个类别以及所述一个或多个类别的概率。
3.根据权利要求2所述的方法,其中获得所述后缀的类别分布包括:
基于预先构建的概念库,确定所述后缀的所述类别分布,所述概念库是包括多个节点和有向边的树状图,所述树状图中的节点表示作为实体类别的概念,并且所述树状图中的有向边表示概念之间的上下位关系。
4.根据权利要求3所述的方法,其中确定所述后缀的所述类别分布包括:
基于所述概念库,从用于训练的语料库中提取用于实体分类的后缀集合;以及
基于所述语料库,确定所述后缀集合中的每个后缀的类别分布。
5.根据权利要求4所述的方法,其中确定所述实体的候选类别包括:
使用所述后缀集合的类别分布作为训练样本的一部分特征,来训练分类模型;以及
使用经训练的所述分类模型来确定所述实体的所述候选类别。
6.根据权利要求1所述的方法,其中确定所述实体的类别集合还包括:
响应于所述关联度小于所述预定阈值,基于所述后缀特征对所述候选类别进行修正。
7.根据权利要求1所述的方法,还包括:
将所述实体的所确定的类别集合用于以下一项或多项:新实体收录、文本理解任务以及自动问答。
8.一种用于确定实体类别的装置,包括:
后缀特征获得模块,被配置为根据实体的后缀来获得与所述后缀相关联的后缀特征,其中在所述后缀特征包括所述后缀针对一个或多个类别的类别分布;
候选类别确定模块,被配置为基于所述实体的实体名来确定所述实体的候选类别,其中所述候选类别是由使用所述后缀的类别分布训练得到的分类模型确定的;以及
类别集合确定模块,被配置为基于所述候选类别和所述后缀特征来确定所述实体的类别集合,
其中所述类别集合确定模块包括:
关联度确定模块,被配置为基于所述候选类别是否存在于所述后缀特征的所述类别分布中来确定所述后缀特征与所述候选类别之间的关联度;以及
类别细化模块,被配置为响应于所述关联度大于预定阈值,通过使用所述后缀特征对所述候选类别进行细化来生成所述类别集合。
9.根据权利要求8所述的装置,其中所述后缀特征获得模块包括:
类别分布获得模块,被配置为获得所述后缀的类别分布,所述类别分布包括与所述后缀相关联的一个或多个类别以及所述一个或多个类别的概率。
10.根据权利要求9所述的装置,其中所述类别分布获得模块包括:
类别分布确定模块,被配置为基于预先构建的概念库来确定所述后缀的所述类别分布,所述概念库是包括多个节点和有向边的树状图,所述树状图中的节点表示作为实体类别的概念,并且所述树状图中的有向边表示概念之间的上下位关系。
11.根据权利要求10所述的装置,其中所述类别分布确定模块包括:
后缀集合提取模块,被配置为基于所述概念库来从用于训练的语料库中提取用于实体分类的后缀集合;以及
第二类别分布确定模块,被配置为基于所述语料库来确定所述后缀集合中的每个后缀的类别分布。
12.根据权利要求11所述的装置,其中所述候选类别确定模块包括:
分类模型训练模块,被配置为使用所述后缀集合的类别分布作为训练样本的一部分特征来训练分类模型;以及
第二候选类别确定模块,被配置为使用经训练的所述分类模型来确定所述实体的所述候选类别。
13.根据权利要求8所述的装置,其中所述类别集合确定模块还包括:
类别修正模块,被配置为响应于所述关联度小于所述预定阈值,基于所述后缀特征对所述候选类别进行修正。
14.根据权利要求8所述的装置,还包括:
类别集合使用模块,被配置为将所述实体的所确定的类别集合用于以下一项或多项:新实体收录、文本理解任务以及自动问答。
15.一种电子设备,所述电子设备包括:
一个或多个处理器;以及
存储装置,其用于存储一个或多个程序,所述一个或多个程序当被所述一个或多个处理器执行,使得所述电子设备实现根据权利要求1-7中任一项所述的方法。
16.一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现根据权利要求1-7中任一项所述的方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811043184.4A CN109284374B (zh) | 2018-09-07 | 2018-09-07 | 用于确定实体类别的方法、装置、设备以及计算机可读存储介质 |
US16/562,018 US11526663B2 (en) | 2018-09-07 | 2019-09-05 | Methods, apparatuses, devices, and computer-readable storage media for determining category of entity |
EP19195661.4A EP3620994A1 (en) | 2018-09-07 | 2019-09-05 | Methods, apparatuses, devices, and computer-readable storage media for determining category of entity |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811043184.4A CN109284374B (zh) | 2018-09-07 | 2018-09-07 | 用于确定实体类别的方法、装置、设备以及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109284374A CN109284374A (zh) | 2019-01-29 |
CN109284374B true CN109284374B (zh) | 2024-07-05 |
Family
ID=65184284
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811043184.4A Active CN109284374B (zh) | 2018-09-07 | 2018-09-07 | 用于确定实体类别的方法、装置、设备以及计算机可读存储介质 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11526663B2 (zh) |
EP (1) | EP3620994A1 (zh) |
CN (1) | CN109284374B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109284374B (zh) * | 2018-09-07 | 2024-07-05 | 百度在线网络技术(北京)有限公司 | 用于确定实体类别的方法、装置、设备以及计算机可读存储介质 |
CN111950279B (zh) * | 2019-05-17 | 2023-06-23 | 百度在线网络技术(北京)有限公司 | 实体关系的处理方法、装置、设备及计算机可读存储介质 |
US11537664B2 (en) * | 2019-05-23 | 2022-12-27 | Google Llc | Learning to select vocabularies for categorical features |
CN111046179B (zh) * | 2019-12-03 | 2022-07-15 | 哈尔滨工程大学 | 一种面向特定领域开放网络问句的文本分类方法 |
CN111292060A (zh) * | 2020-02-03 | 2020-06-16 | 支付宝(杭州)信息技术有限公司 | 信息处理方法及装置 |
CN111814554B (zh) * | 2020-06-09 | 2022-06-21 | 同济大学 | 基于粒度及关联信息的物体类别识别模型构建方法及应用 |
CN112613585A (zh) * | 2021-01-07 | 2021-04-06 | 绿湾网络科技有限公司 | 物品类别的确定方法和装置 |
CN113252058B (zh) * | 2021-05-24 | 2024-06-28 | 北京航迹科技有限公司 | 一种imu数据处理方法、系统、装置及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105912625A (zh) * | 2016-04-07 | 2016-08-31 | 北京大学 | 一种面向链接数据的实体分类方法和系统 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7389230B1 (en) * | 2003-04-22 | 2008-06-17 | International Business Machines Corporation | System and method for classification of voice signals |
US8515961B2 (en) * | 2010-01-19 | 2013-08-20 | Electronics And Telecommunications Research Institute | Method and apparatus for indexing suffix tree in social network |
US9646246B2 (en) * | 2011-02-24 | 2017-05-09 | Salesforce.Com, Inc. | System and method for using a statistical classifier to score contact entities |
CN102662923A (zh) * | 2012-04-23 | 2012-09-12 | 天津大学 | 一种基于机器学习的本体实例学习方法 |
US20160092550A1 (en) * | 2014-09-30 | 2016-03-31 | Yahoo!, Inc. | Automated search intent discovery |
US9886432B2 (en) * | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
CN104978587B (zh) * | 2015-07-13 | 2018-06-01 | 北京工业大学 | 一种基于文档类型的实体识别合作学习算法 |
US11158012B1 (en) * | 2017-02-14 | 2021-10-26 | Casepoint LLC | Customizing a data discovery user interface based on artificial intelligence |
CN108460011B (zh) * | 2018-02-01 | 2022-03-25 | 北京百度网讯科技有限公司 | 一种实体概念标注方法及系统 |
CN108280064B (zh) * | 2018-02-28 | 2020-09-11 | 北京理工大学 | 分词、词性标注、实体识别及句法分析的联合处理方法 |
CN108491387B (zh) * | 2018-03-20 | 2022-04-22 | 百度在线网络技术(北京)有限公司 | 用于输出信息的方法和装置 |
CN109284374B (zh) * | 2018-09-07 | 2024-07-05 | 百度在线网络技术(北京)有限公司 | 用于确定实体类别的方法、装置、设备以及计算机可读存储介质 |
-
2018
- 2018-09-07 CN CN201811043184.4A patent/CN109284374B/zh active Active
-
2019
- 2019-09-05 US US16/562,018 patent/US11526663B2/en active Active
- 2019-09-05 EP EP19195661.4A patent/EP3620994A1/en not_active Ceased
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105912625A (zh) * | 2016-04-07 | 2016-08-31 | 北京大学 | 一种面向链接数据的实体分类方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
US20200081973A1 (en) | 2020-03-12 |
EP3620994A1 (en) | 2020-03-11 |
CN109284374A (zh) | 2019-01-29 |
US11526663B2 (en) | 2022-12-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109284374B (zh) | 用于确定实体类别的方法、装置、设备以及计算机可读存储介质 | |
US11455981B2 (en) | Method, apparatus, and system for conflict detection and resolution for competing intent classifiers in modular conversation system | |
EP3227836B1 (en) | Active machine learning | |
US9754021B2 (en) | Method for deducing entity relationships across corpora using cluster based dictionary vocabulary lexicon | |
US20210216576A1 (en) | Systems and methods for providing answers to a query | |
US9483460B2 (en) | Automated formation of specialized dictionaries | |
CN113011186B (zh) | 命名实体识别方法、装置、设备及计算机可读存储介质 | |
CN114330475B (zh) | 内容匹配方法、装置、设备、存储介质及计算机程序产品 | |
CN112632226B (zh) | 基于法律知识图谱的语义搜索方法、装置和电子设备 | |
US10838993B2 (en) | Augment politeness in question answer systems | |
CN116795973A (zh) | 基于人工智能的文本处理方法及装置、电子设备、介质 | |
CN116089873A (zh) | 模型训练方法、数据分类分级方法、装置、设备及介质 | |
US11625630B2 (en) | Identifying intent in dialog data through variant assessment | |
US20170228438A1 (en) | Custom Taxonomy | |
WO2019246252A1 (en) | Systems and methods for identifying and linking events in structured proceedings | |
CN116975275A (zh) | 多语种文本分类模型训练方法、装置和计算机设备 | |
CN114254622A (zh) | 一种意图识别方法和装置 | |
US11423228B2 (en) | Weakly supervised semantic entity recognition using general and target domain knowledge | |
CN117235271A (zh) | 信息抽取方法、装置、计算机存储介质及电子设备 | |
CN113505889B (zh) | 图谱化知识库的处理方法、装置、计算机设备和存储介质 | |
US11763589B1 (en) | Detection of blanks in documents | |
CN113793191B (zh) | 商品的匹配方法、装置及电子设备 | |
US20240071047A1 (en) | Knowledge driven pre-trained form key mapping | |
CN115905456B (zh) | 一种数据识别方法、系统、设备及计算机可读存储介质 | |
CN110008307B (zh) | 一种基于规则和统计学习的变形实体识别方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Cheng Jianyi Inventor after: Zhao Min Inventor before: Cheng Jianyi Inventor before: Zhao Min |
|
GR01 | Patent grant | ||
GR01 | Patent grant |