CN111444344B - 实体分类方法、装置、计算机设备和存储介质 - Google Patents
实体分类方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN111444344B CN111444344B CN202010229110.0A CN202010229110A CN111444344B CN 111444344 B CN111444344 B CN 111444344B CN 202010229110 A CN202010229110 A CN 202010229110A CN 111444344 B CN111444344 B CN 111444344B
- Authority
- CN
- China
- Prior art keywords
- category
- entity
- target
- classified
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
Abstract
本申请涉及一种实体分类方法、装置、计算机设备和存储介质。所述方法包括:获取待分类实体对应的属性文本,属性文本包括实体描述文本、属性名称和属性值;获取各个预设正则表达式和对应的类别,将属性名称和属性值与各个预设正则表达式进行匹配,得到待分类实体对应的第一候选类别;根据实体描述文本、属性名称和属性值确定待分类实体对应的实体向量,识别实体向量对应的类别,得到待分类实体对应的第二候选类别;将第一候选类别和第二候选类别进行融合,得到融合类别集,获取类别继承关系树,按照类别继承关系树从融合类别集中确定叶子节点型类别集,将叶子节点型类别集作为待分类实体对应的实体类别集。采用本方法能够提高实体分类的精确性。
Description
技术领域
本申请涉及互联网技术领域,特别是涉及一种实体分类方法、装置、计算机设备和存储介质。
背景技术
知识图谱在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。
随着知识图谱技术的发展,实体分类是知识图谱构建中的一项基本工作,旨在对图谱中的实体进行分类。目前,通常通过构建实体的表示特征,根据实体的表示特征进行分类。然而根据实体的表示特征进行分类,会得到该实体所有的类别,导致会出现一些不够精确的类别。比如,“张某”是“人物”类别,同时也是“导演”类别,则“人物”类别就不够精确,从而导致实体分类的结果精确性较低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高实体分类精确性的实体分类方法、装置、计算机设备和存储介质。
一种实体分类方法,所述方法包括:
获取待分类实体对应的属性文本,属性文本中包括实体描述文本、属性名称和属性值;
获取各个预设正则表达式和对应的类别,将属性名称和属性值与各个预设正则表达式进行匹配,将匹配成功的预设正则表达式对应的类别作为待分类实体对应的第一候选类别;
根据实体描述文本、属性名称和属性值确定待分类实体对应的实体向量,识别实体向量对应的类别,得到待分类实体对应的第二候选类别;
将第一候选类别和第二候选类别进行融合,得到融合类别集,并获取类别继承关系树,按照类别继承关系树从融合类别集中确定叶子节点型类别集,将叶子节点型类别集作为待分类实体对应的实体类别集。
一种实体分类装置,所述装置包括:
文本获取模块,用于获取待分类实体对应的属性文本,属性文本中包括实体描述文本、属性名称和属性值;
匹配模块,用于获取各个预设正则表达式和对应的类别,将属性名称和属性值与各个预设正则表达式进行匹配,将匹配成功的预设正则表达式对应的类别作为待分类实体对应的第一候选类别;
识别模块,用于根据实体描述文本、属性名称和属性值确定待分类实体对应的实体向量,识别实体向量对应的类别,得到待分类实体对应的第二候选类别;
类别得到模块,用于将第一候选类别和第二候选类别进行融合,得到融合类别集,并获取类别继承关系树,按照类别继承关系树从融合类别集中确定叶子节点型类别集,将叶子节点型类别集作为待分类实体对应的实体类别集。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待分类实体对应的属性文本,属性文本中包括实体描述文本、属性名称和属性值;
获取各个预设正则表达式和对应的类别,将属性名称和属性值与各个预设正则表达式进行匹配,将匹配成功的预设正则表达式对应的类别作为待分类实体对应的第一候选类别;
根据实体描述文本、属性名称和属性值确定待分类实体对应的实体向量,识别实体向量对应的类别,得到待分类实体对应的第二候选类别;
将第一候选类别和第二候选类别进行融合,得到融合类别集,并获取类别继承关系树,按照类别继承关系树从融合类别集中确定叶子节点型类别集,将叶子节点型类别集作为待分类实体对应的实体类别集。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取待分类实体对应的属性文本,属性文本中包括实体描述文本、属性名称和属性值;
获取各个预设正则表达式和对应的类别,将属性名称和属性值与各个预设正则表达式进行匹配,将匹配成功的预设正则表达式对应的类别作为待分类实体对应的第一候选类别;
根据实体描述文本、属性名称和属性值确定待分类实体对应的实体向量,识别实体向量对应的类别,得到待分类实体对应的第二候选类别;
将第一候选类别和第二候选类别进行融合,得到融合类别集,并获取类别继承关系树,按照类别继承关系树从融合类别集中确定叶子节点型类别集,将叶子节点型类别集作为待分类实体对应的实体类别集。
上述实体分类方法、装置、计算机设备和存储介质,通过将待分类实体对应的属性文本使用各个预设正则表达式进行匹配,得到待分类实体对应的第一候选类别。通过使用属性文本得到待分类实体对应的实体向量,识别实体向量的类别,得到待分类实体对应的第二候选类别。然后将第一候选类别和第二候选类别进行融合,得到融合类别集,提高了得到融合类别集的准确性,然后通过类别继承关系树从融合类别集中选取叶子节点型类别集,将叶子节点型类别集作为待分类实体对应的实体类别集,提高了得到的实体类别集的精确性。
附图说明
图1为一个实施例中实体分类方法的应用环境图;
图2为一个实施例中实体分类方法的流程示意图;
图3为一个实施例中得到实体类别序列集的流程示意图;
图4为一个实施例中关联关系保存的流程示意图;
图5为另一个实施例中关联关系保存的流程示意图;
图6为一个实施例中得到第一候选类别集的流程示意图;
图7为一个实施例中得到实体向量的流程示意图;
图8为一个实施例中训练文本分类模型的流程示意图;
图9为一个具体实施例中实体分类方法的流程示意图;
图10另一个具体实施例中实体分类方法的流程示意图;
图11为一个实施例中实体分类装置的结构框图;
图12为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案涉及人工智能的自然语言处理和机器学习等技术,具体通过如下实施例进行说明:
本申请提供的实体分类方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。服务器104获取待分类实体对应的属性文本,属性文本中包括实体描述文本、属性名称和属性值;服务器104获取各个预设正则表达式和对应的类别,将属性名称和属性值与各个预设正则表达式进行匹配,将匹配成功的预设正则表达式对应的类别作为待分类实体对应的第一候选类别;服务器104根据实体描述文本、属性名称和属性值确定待分类实体对应的实体向量,识别实体向量对应的类别,得到待分类实体对应的第二候选类别;服务器104将第一候选类别和第二候选类别进行融合,得到融合类别集,并获取类别继承关系树,按照类别继承关系树从融合类别集中确定叶子节点型类别集,将叶子节点型类别集作为待分类实体对应的实体类别集。服务器104可以将得到的为待分类实体对应的实体类别集返回到终端102进行展示。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种实体分类方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤202,获取待分类实体对应的属性文本,属性文本中包括实体描述文本、属性名称和属性值。
其中,待分类实体是指知识图谱中需要进行类别判定的实体。属性文本是指知识图谱中需要进行分类的实体对应的属性信息文本。实体描述文本是指对待分类实体进行简单描述的文本,比如实体的简介。属性名称是指待分类实体的属性的名称,待分类实体可以有多个不同属性名称,比如,“刘某”实体包括有性别、年龄、出生日期、从事工作、代表作品等多个不同的属性名称。属性值是指属性名称对应的值,一个属性名称可以对应有多个不同的属性值。比如,“刘某”实体代表作品对应的有多个包括《AAA》、《AAAA》和《BBBB》等等。
具体地,服务器可以知识图谱数据库中获取到待分类实体对应的属性文本,属性文本中包括实体描述文本、属性名称和属性值。也可以从不同的数据源去采集待分类实体对应的数据文本,该数据源是指保存有待分类实体对应的属性文本的数据源。
步骤204,获取各个预设正则表达式和对应的类别,将属性名称和属性值与各个预设正则表达式进行匹配,将匹配成功的预设正则表达式对应的类别作为待分类实体对应的第一候选类别。
其中,预设正则表达式是指预先设置好的用于匹配属性名称和属性值的正则表达式,正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。该预设正则表达式可以根据已经标注好类别的实体对应的属性名称和属性值得到。该预设正则表达式也可以根据人为经验进行构造。类别是指对实体的类别,每个预设正则表达式都有对应的类别,是预先设置好的。比如,预先设置好的正则表达式可以是“从事工作:.*歌手$”,其对应的类别为歌手。第一候选类别是指使用属性名称和属性值遍历各个预设正则表达式,得到的待分类实体对应的类别。
具体地,服务器获取到已设置好的正则表达式和对应的类别。使用待分类实体的属性文本中的属性名称和属性值与所有的预设正则表达式进行匹配,直到所有的预设正则表达式都匹配完成。当属性名称和属性值与预设正则表达式匹配成功时,说明属性名称和属性值与预设正则表达式中的字符串一致,则将匹配成功的预设正则表达式对应的类别作为待分类实体对应的第一候选类别。当有多个匹配成功的预设正则表达式时,得到该多个匹配成功的预设正则表达式对应的类别,将多个匹配成功的预设正则表达式对应的类别作为待分类实体对应的多个第一候选类别,即得到第一候选类别集合。
在一个实施例中,当有多个属性名称时,可以将至少两个属性名称进行组合,将组合后的属性名称与预设正则表达式进行匹配,将匹配成功的对应的类别作为待分类实体对应的第一候选类别。其中,比如,待分类实体“刘某”有两个属性名称“出生日期”和“从事工作”,将“出生日期”和“从事工作”组合与预设正则表达式“出生日期&从事工作”进行匹配,匹配成功时,此时将“出生日期&从事工作”对应的类别“人物”作为“刘某”待分类实体的第一候选类别。
步骤206,根据实体描述文本、属性名称和属性值确定待分类实体对应的实体向量,识别实体向量对应的类别,得到待分类实体对应的第二候选类别。
其中,实体向量是指使用深度学习模型将实体描述文本、属性名称和属性值转换后得到的表征实体的向量。深度学习模型是使用深度学习算法建立的模型,该深度学习算法可以是TextCNN(Text Convolutional Neural Networks,文本卷积神经网络,)算法、LSTM(Long Short-Term Memory,长短期记忆网络)和RNN(Recurrent Neural Network,循环神经网络)算法等等。第二候选类别是指通过深度学习模型识别实体描述文本、属性名称和属性值得到的待分类实体对应的类别。
具体地,服务器将实体描述文本、属性名称和属性值通过深度学习模型进行卷积池化操作,得到表征待分类实体的实体向量,然后使用实体向量进行每个已有类别的识别,即得到该实体向量属于已有类别的概率,根据概率得到识别的类别结果,将识别的类别结果作为待分类实体对应的第二候选类别。其中,已有类别是指知识图谱中已经存在的实体类别。在一个实施例中,当识别的类别结果中有多个类别时,就得到了待分类实体对应的第二候选类别集合。
步骤208,将第一候选类别和第二候选类别进行融合,得到融合类别集,并获取类别继承关系树,按照类别继承关系树从融合类别集中确定叶子节点型类别集,将叶子节点型类别集作为待分类实体对应的实体类别集。
其中,融合类别集是指第一候选类别和第二候选类别中所有类别且无相同类别的集合。类别继承关系树是指预先建立的实体类别之间的继承关系树。比如,“导演”实体类别继承自“人物”类别,“歌手”实体类别也继承自“人物”类别等等。叶子节点型类别集是指融合类别集中的类别与继承关系树中叶子节点的类别一致的类别集合。
具体地,当第一候选类别和第二候选类别的类别相同时,得到的融合类别集中只有一个类别。当第一候选类别和第二候选类别的类别不相同时,将第一候选类别和第二候选类别作为融合类别集中的类别。在一个实施例中,将第一候选类别集合和第二候选类别集合进行融合,得到融合类别集。比如,第一候选类别集合中有5个类别,第二候选类别中有3个类别,其中,1个类别相同,则得到的融合类别集中共有7个类别。
当得到融合类别集时,服务器获取到获取类别继承关系树,判断融合类别集中的类别是否为类别继承关系树中叶子节点对应的类别,当融合类别集中的类别为继承关系树中叶子节点对应的类别时,将该叶子节点对应的类别作为叶子节点型类别集中的类别。遍历判断融合类别集中的每个类别,就得到了叶子节点型类别集。
在上述实体分类方法中,通过将待分类实体对应的属性文本使用各个预设正则表达式进行匹配,得到待分类实体对应的第一候选类别。通过使用属性文本得到待分类实体对应的实体向量,识别实体向量的类别,得到待分类实体对应的第二候选类别。然后将第一候选类别和第二候选类别进行融合,得到融合类别集,提高了得到融合类别集的准确性,然后通过类别继承关系树从融合类别集中选取叶子节点型类别集,将叶子节点型类别集作为待分类实体对应的实体类别集,提高了得到的实体类别集的精确性。
在一个实施例中,如图3所示,在步骤S208之后,即在将第一候选类别和第二候选类别进行融合,得到融合类别集,并获取类别继承关系树,按照类别继承关系树从融合类别集中确定叶子节点型类别集,将叶子节点型类别集作为待分类实体对应的实体类别集之后,还包括:
步骤302,获取第一候选类别对应的置信度,将置信度作为第一候选类别对应的第一得分。
其中,置信度是指得到的第一候选类别为正确的可信程度,该置信度可以是预先设置好的,也可以是计算得到的。每个第一候选类别都有对应的置信度。第一得分是根据第一候选类别的置信度得到的得分。
具体地,服务器可以直接将第一候选类别对应的置信度作为第一候选类别对应的第一得分。在一个实施例中,服务器也可以将置信度映射到得分区间,得到第一候选类别对应的第一得分。其中,得分区间是预设设置好的得分区间。比如,第一候选类别的置信度为0.8,得分区间为[1,10],则将置信度为0.8映射到得分区间[1,10],得到的第一候选类别对应的第一得分为8。
步骤304,获取第二候选类别对应的概率,将概率映射到得分区间,得到第二候选类别对应的第二得分。
其中,概率是指通过深度学习模型进行类别识别时得到的第二候选类别对应的概率。第二得分是指根据第二候选类别对应的概率得到的得分。
具体地,服务器可以将得到的第二候选类别对应的概率映射到得分区间,得到第二候选类别对应的第二得分。也可以直接将第二候选类别对应的概率作为第二候选类别对应的第二得分。比如,第二候选类别对应的概率为0.95,则得到第二得分为0.95。
步骤306,根据第一候选类别对应的第一得分和第二候选类别对应的第二得分确定实体类别集中的实体类别对应的实体类别得分。
具体地,当第一候选类别和第二候选类别相同时,将第一得分和第二得分相加,得到相同候选类别的得分,即得到融合类别集中该相同候选类别的得分,进而得到实体类别集中的实体类别对应的实体类别得分。当第一候选类别和第二候选类别不相同时,直接将第一得分和第二得分作为融合类别集中第一候选类别和第二候选类别对应的得分,进而得到实体类别集中的实体类别对应的实体类别得分。
步骤308,按照实体类别得分将实体类别集中的实体类别进行排序,得到待分类实体对应的实体类别序列集。
具体地,将实体类别集中的实体类别按照实体类别得分从大到小进行排序,得到排序后的实体类别集,即实体类别序列集。可以将得到的实体类别序列集发送到终端进行展示,或者当用户查找到实体对应的类别时,将实体类别序列集返回并展示。
在上述实施例中,通过将待分类实体对应的实体类别集中的实体类别按照实体类别得分进行排序,得到实体类别序列集,能够使得到的实体类别排序更加的精准,避免出现不够精确的排序,提升用户体验。比如,“张某”实体对应的实体类别包括“导演”以及“演员”。如果得到的实体类别集的排序为[演员,导演],即得到的实体类别集不够精确。通过按照实体类别得分进行排序后,得到的实体类别序列集为[导演,演员],使得到的实体类别更加的精确。
在一个实施例中,可以根据实体类别得分从实体类别集合中选取预设数量的实体类别,得到待分类实体对应的目标实体类别集合,进一步提高实体分类的精确性。
在一个实施例中,步骤306,根据第一候选类别对应的第一得分和第二候选类别对应的第二得分确定实体类别集中实体类别对应的实体类别得分,包括:
当实体类别集中的目标实体类别存在对应的第一得分和第二得分时,计算目标实体类别对应的第一得分和第二得分之和,得到目标实体类别对应的目标实体类别得分。
具体地,目标实体类别是指实体类别集中任意的实体类别,该目标实体类别存在对应的第一得分和第二得分是指该目标实体类别是第一候选类别和第二候选类别相同时得到的类别。此时,将目标实体类别对应的第一得分和第二得分相加,得到该目标实体类别对应的目标实体类别得分。目标实体类别得分是目标实体类别对应的得分,用于表示目标实体类别为正确性的可信程度。
当实体类别集中的目标实体类别存在对应的第一得分,且未存在对应的第二得分时,说明书该目标实体类别是第一候选类别,将第一得分作为该目标实体类别对应的目标实体类别得分。
当实体类别集中的目标实体类别存在对应的第二得分,且未存在对应的第一得分时,说明书该目标实体类别是第二候选类别,将第二得分作为该目标实体类别对应的目标实体类别得分。
在上述实施例中,通过当实体类别即使第一候选类别,也是第二候选类别时,将对应的第一得分和第二得分进行相加,得到该实体类别对应的实体类别得分,使得到的实体类别得分更能反映该实体类别的准确性。
在一个实施例中,如图4所示,在步骤S202之前,即在获取待分类实体对应的属性文本之前,还包括:
步骤402,获取目标属性文本。
步骤404,使用目标属性文本中的目标属性名称和目标属性值建立预设正则表达式,并获取预设正则表达式对应的预设类别。
其中,目标属性文本是已分类实体的属性文本,该已分类实体是指已经标注好实体类别的实体。预设类别是指设置好的预设正则表达式对应的实体类别。
具体地,服务器从知识图谱中查找到任意一个已分类实体,获取到已分类实体对应的目标属性文本。
服务器可以将目标属性名称和目标属性值组合建立预设正则表达式,比如,目标属性文本中的目标属性名称包括“从事工作”,属性值包括“歌手”和“演员”,则服务器可以将“从事工作”和“歌手”进行组合建立的预设正则表达式可以是“从事工作:.*歌手$”,可以将“从事工作”和“演员”进行组合建立的预设正则表达式可以是“从事工作:.*演员$”。
当目标属性名称由多个时,服务器还可以将目标属性名称进行组合建立预设正则表达式。比如,目标属性名称包括“出生日期”和“从事工作”,则将“出生日期”和“从事工作”进行组合建立的预设正则表达式可以是“出生日期&从事工作”。
服务器还可以根据单个属性名称或者单个属性值建立预设正则表达式。
然后服务器获取待已经建立好的每个预设正则表达式对应的预设类别。
步骤406,查找目标属性名称和目标属性值对应的已分类实体,得到已分类实体集合和已分类实体总数。
具体地,服务器可以根据建立预设正则表达式的目标属性名称和对应的目标属性值查找知识图谱中对应的已分类实体。比如,从知识图谱中的实体中查找到所有包括有“从事工作”和“歌手”的已分类实体。服务器也可以根据建立预设正则表达式的目标属性名称和对应的目标属性名称查找知识图谱中对应的已分类实体。比如,从知识图谱中的实体中查找到所有包括有“出生日期”和“从事工作”属性名称的已分类实体。此时,就得到了已分类实体集合,并统计已分类实体集合中已分类实体总数。服务器可以根据建立预设正则表达式的单个目标属性名称查找知识图谱中对应的已分类实体,比如,讲所有包含“出生日期”的已分类实体查找到,得到已分类实体集合。
步骤408,获取已分类实体集合中各个已分类实体对应的实体类别,将各个已分类实体对应的实体类别分别与预设类别进行比较,根据比较结果确定相同类别的实体数量。
其中,已分类实体对应的实体类别是指已经标注好的该实体对应的实体类别。
具体地,服务器将已分类实体集合中各个已分类实体对应的实体类别分别与预设类别进行比较,判断每个已分类实体对应的实体类别是否有与预设类别相同的类别。统计具体相同类别的已分类实体的数量,即得到了相同类别的实体数量
步骤410,根据已分类实体总数和相同类别的实体数量计算第一置信度,将预设正则表达式、预设类别和第一置信度关联保存。
其中,第一置信度是指设置的预设正则表达式对应的预设类别为正确的可信程度,该第一置信度是根据已分类实体总数和相同类别的实体数量确定的。
具体地,服务器计算相同类别的实体数量和已分类实体总数的比值,将比值作为第一置信度,也可以将比值映射到置信度区间,得到第一置信度。服务器得到每个预设正则表示式对应的预设类别的置信度,然后将预设正则表达式、预设类别和第一置信度关联保存。在一个实施例中,可以建立关联关系数据表,将预设正则表达式、预设类别和第一置信度关联存储到该关联关系数据表中。建立的关联关系数据表的部分可以如下表1所示:
表1关联关系数据表
在上述实施例中,通过根据目标属性名称和目标属性值查找已分类实体集合,得到已分类实体总数,然后通过比较目标属性名称和目标属性值的预设正则表达式对应的预设类别与已分类实体的实体类别,得到相同类别的实体数量,根据计算相同类别的实体数量和已分类实体总数的比值,得到预设类别对应的置信度,提高了置信度的准确性。并且将预设正则表达式、预设类别和第一置信度的关联保存,方便后续的使用。
在一个实施例中,如图5所示,在步骤406之后,即在查找目标属性名称和目标属性值对应的已分类实体,得到已分类实体集合和已分类实体总数之后,还包括:
步骤502,当已分类实体总数超过预设数量时,从已分类实体集合中进行采样,得到采样实体集合和采样实体总数。
其中,预设数量是指预先设置好的已分类实体总数的阈值。采样实体集合是指从已分类实体集合中进行已分类实体的采样之后得到的实体集合。采样实体总数是指采样实体集合中已分类实体的数量。
具体,服务器将已分类实体总数与预设数量进行比较,当已分类实体总数超过预设数量时,从已分类实体集合中进行随机不放回采样,即从已分类实体集合中随机选取已分类实体,得到采样实体集合和采样实体总数,该采样实体总数未超过预设数量。比如,预设数量为1000个。当得到的包含“出生日期”的已分类实体的总数为2000个时,从已分类实体的总数中随机不放回采样900个,得到采样实体集合和采样实体总数。
步骤504,获取采样实体集合中各个采样实体对应的实体类别,将各个采样实体对应的实体类别与预设类别进行比较,根据比较结果确定相同类别的采样实体数量。
步骤506,根据采样实体总数和相同类别的采样实体数量计算第二置信度,将预设正则表达式、预设类别和第二置信度关联保存。
其中,第二置信度是指设置的预设正则表达式对应的预设类别为正确的可信程度,该第二置信度是根据采样实体总数和相同类别的采样实体数量确定的。
具体地,服务器将采样实体集合中各个采样实体对应的实体类别与预设类别进行比较,当采样实体对应的实体类别中存在与预设类别相同的实体类别时,得到该采样实体为相同类别的实体。服务器遍历每个采样实体,得到所有具有相同类别的采样实体,统计相同类别的采样实体数量。然后,计算相同类别的采样实体数量与采样实体总数的比值,将该比值作为第二置信度,将预设正则表达式、预设类别和第二置信度关联保存。
在上述实施例中,通过当已分类实体总数超过预设数量时,进行实体抽样,使用抽样得到的采样实体集合和采样实体总数来计算置信度,提高了得到置信度的效率。
在一个实施例中,如图6所示,步骤204,即获取各个预设正则表达式和对应的类别,将属性名称和属性值与各个预设正则表达式进行匹配,将匹配成功的预设正则表达式对应的类别作为待分类实体对应的第一候选类别,包括:
步骤602,将属性名称与预设目标正则表达式进行匹配,当匹配一致时,根据预设正则表达式、类别和置信度的对应关系确定预设目标正则表达式对应的第一目标类别和第一目标置信度。
其中,预设目标正则表达式是指具有对应的类别和置信度的正则表达式。第一目标类别是指与属性名称匹配一致的预设目标正则表达式对应的类别。第一目标置信度是指与属性名称匹配一致的预设目标正则表达式对应的置信度。
具体地,服务器可以将属性名称与预设目标正则表达式进行匹配,当有多个属性名称时,也可以将多个属性名称一起与预设目标正则表达式进行匹配,当匹配一致时,根据预先设置好的正则表达式、类别和置信度的对应关系确定该预设目标正则表达式对应的类别和置信度,则得到第一目标类别和第一目标置信度。
步骤604,将第一目标类别作为当前类别,根据预设当前类别和预设正则表达式的对应关系确定当前类别对应的预设当前正则表达式。
其中,当前类别是指识别得到的待分类实体当前对应的类别,当待分类实体未进行分类时,未存在当前类别。预设当前正则表达式是指与当前类别对应的预设正则表达式,该当前类别对应的预设当前正则表达式可以有多个。
具体地,服务器预先设置有当前类别和预设正则表达式的对应关系,根据该对应关系得到当前类别对应的预设当前正则表达式。
步骤606,将属性值与预设当前正则表达式进行匹配,当匹配一致时,根据预设正则表达式、类别和置信度的对应关系确定预设当前正则表达式对应的第二目标类别和第二目标置信度。
其中,第二目标类别是指与属性值匹配一致的预设当前正则表达式对应的类别。第二目标置信度是指与属性值匹配一致的预设当前正则表达式对应的置信度。
具体地,服务器将属性值与预设当前正则表达式进行匹配,当匹配一致时,根据预设正则表达式、类别和置信度的对应关系得到预设当前正则表达式对应的第二目标类别和第二目标置信度
步骤608,当第一目标置信度和第二目标置信度相同时,将第一目标类别和第二目标类别作为待分类实体对应的第一候选类别集。
具体地,服务器判断第一目标置信度和第二目标置信度是否相同,当相同时,说明第一目标类别和第二目标类别的可信度是一致的,此时将第一目标类别和第二目标类别作为待分类实体对应的第一候选类别集。
在一个实施例中,当第一目标置信度和第二目标置信度相同时,将第一目标类别和第二目标类别作为待分类实体对应的第一候选类别集,包括:
当第一目标置信度和第二目标置信度未相同时,比较第一目标置信度和第二目标置信度,当第一目标置信度超过第二目标置信度时,将第一目标置信度对应的第一目标类别作为待分类实体对应的第一候选类别。
具体地,服务器判断第一目标置信度和第二目标置信度未相同,此时比较第一目标置信度和第二目标置信度的大小,选取较大的置信度对应的类别作为待分类实体对应的第一候选类别。比如,当第一目标置信度超过第二目标置信度时,将第一目标置信度对应的第一目标类别作为待分类实体对应的第一候选类别。或者当第二目标置信度超过第一目标置信度时,将第二目标置信度对应的第二目标类别作为待分类实体对应的第一候选类别。
在一个实施例中,预先建立当前类别、预设正则表达式、类别和置信度的对应关系,将建立的对应关系保存在对应关系数据表中,如下表2所示为部分的对应关系数据表:
表2对应关系数据表
其中,当前类别为空时,说明该待分类实体还未进行分类,此时直接使用待分类实体对应的属性名称和属性值与当前类别为空对应的正则表达式进行匹配,得到待分类实体的类别,然后将该类别作为待分类实体的当前类别,根据当前类别从对应关系数据表中确定对应的所有正则表达式,进而使用还未匹配的属性名称和属性值与当前类别确定所有正则表达式进行匹配,当匹配一致时,再次得到待分类实体的类别,并且将再次得到的类别作为当前类别,重复上述步骤直到得到的类别不再发生变化时,获取到与正则表达式匹配一致的所有类别的置信度,将置信度最大的类别作为待分类实体对应的类别。比如,“刘某”实体包括属性名称“出生日期”和“从事工作”,从事工作属性对应的属性值为“歌手”和“演员”。其中,先根据“出生日期”和“从事工作”与正则表达式“出生日期&从事工作”匹配一致,得到“刘某”实体对应的类别“人物”,将“人物”作为当前类别,得到对应的正则表达式“从事工作:.*歌手$”和“从事工作:.*演员$”此时分别使用“从事工作”对应的属性值“歌手”和“演员”与正则表达式“从事工作:.*歌手$”和“从事工作:.*演员$”进行匹配,得到“刘某”实体对应的类别“歌手”和“演员”,由于“刘某”实体对应的类别“人物”、“歌手”和“演员”的置信度都为10,则直接将“人物”、“歌手”和“演员”作为“刘某”实体对应的实体类别。
在上述实施例中,通过将匹配得到的类别作为当前类别来获取对应的正则表达式,从而使用当前类别对应的正则表达式进行进一步的匹配,能够提高匹配的效率且保证准确性。
在一个实施例中,如图7所示,步骤206,即根据实体描述文本、属性名称和属性值确定待分类实体对应的实体向量,包括:
步骤702,提取实体描述文本中包含待分类实体名称的句文本。
具体地,待分类实体名称用于标识待分类实体,服务器从实体描述文本中提取到包含有待分类实体名称的句文本。该句文本可以是实体描述文本中第一个待分类实体名称对应的句子文本,比如,实体描述文本中第一句中包括有待分类实体名称,则提取到第一句作为包含待分类实体名称的句文本。也可以是实体描述文本中最后一个待分类实体名称对应的句子文本,比如,当实体描述文本中最后一句中包括有最后一个待分类实体名称,则提取到最后一句作为包含待分类实体名称的句文本。
步骤704,计算各个属性值对应的字符串长度,根据字符串长度确定字符串长度小于预设属性值字符串长度的目标属性值。
具体地,字符串长度是指属性名称对应的属性值的字符串长度,预设属性值字符串长度是指预先设置好的属性值字符长度的阈值。目标属性值是指字符程度小于预设属性值字符串长度的属性值。当待分类实体有多个属性名称时,计算出每个属性名称对应属性值的字符串长度。服务器将字符串长度与预设属性值字符串长度进行比较,得到字符串长度小于预设属性值字符串长度的目标属性值
步骤706,将包含待分类实体名称的句文本、属性名称和目标属性值进行拼接,得到实体特征文本。
具体地,拼接是指将待分类实体名称的句文本、属性名称和目标属性值组合成一个文本,就得到了待分类实体对应的实体特征文本。比如“小明”待分类实体的句文本“小明是一个孩子”,属性名称“从事工作”,属性值“学生”拼接得到的实体特征文本为“小明是一个孩子从事工作学生”。
在一个实施例中,还可以将待分类实体名称、包含待分类实体名称的句文本、属性名称和目标属性值进行拼接,得到实体特征文本,进一步提高得到的实体特征文本的准确性。
步骤708,将实体特征文本输入到文本分类模型中进行向量化,得到待分类实体对应的实体向量。
具体地,文本分类模型用于对输入的文本进行卷积池化操作得到向量。例如,该文本分类模型可以是使用TextCNN算法得到的模型。
在上述实施例中,通过将实体描述文本、属性名称和属性值进行文本提取,得到实体特征文本,将实体特征文本输入到文本分类模型中进行向量化,得到待分类实体对应的实体向量,提高了得到的实体向量的准确性。
在一个实施例中,步骤S206,即识别实体向量对应的类别,得到待分类实体对应的第二候选类别,包括步骤:
将所示实体向量输入到文本分类模型中的分类器中进行识别,得到输出的类别概率,将类别概率超过预设概率阈值的类别作为待分类实体对应的第二候选类别。
其中,分类器是指使用分类函数建立模块,分类函数用于对文本向量进行分类。比如,softmax(多分类)函数或者sigmoid(二分类)函数。类别概率用于表示属于该类别对应的概率,概率越大,属于该类别的可能性越高。
具体地,服务器将将实体向量输入到文本分类模型中的多分类器中进行识别,得到输出的多个类别对应的类别概率,服务器也可以降实体向量输入到文本分类模型中的二分类器中进行识别,得到输出的类别概率,其中,多分类器是指使用多分类函数建立的模块,多分类器用于判断是否属于对应的多个类别。二分类器是指使用二分类函数建立的模块,二分类器用于判断是否属于对应的类别。判断每个类别概率是否超过预先设置好的概率阈值,当超过预设概率阈值时,将超过预设概率阈值的类别概率对应的类别作为待分类实体对应的第二候选类别,
在一个实施例中,服务器可以将实体向量同时输入到文本分类模型中的多个二分类器中,得到输出的多个类别概率。即可以将文本分类模型中建立多个二分类器,每个二分类器对应一个类别的类别概率,则可以进行多分类。然后将类别概率超过预设概率阈值的类别作为待分类实体对应的第二候选类别。
在上述实施例中,可以通过文本分类模型中的分类器对实体向量进行实体类别的判断,提高了得到第二候选类别的效率。
在一个实施例中,如图8所示,文本分类模型的训练步骤,包括:
步骤802,获取训练数据,训练数据包括正训练样本、负训练样本和特殊训练样本,特殊训练样本是将正训练样本中具体歧义的实体名称替换后得到训练样本。
步骤804,将正训练样本、负训练样本和特殊训练样本输入到深度学习算法中进行训练,当训练完成时,得到已训练的文本分类模型。
其中,正训练样本是指根据实体对应的属性文本和实体对应的标注为正确的实体类别得到的样本数据。比如,“刘某”实体标注为正确的实体类别包括“导演”和“歌手”,由“刘某”实体的属性文本和该正确的实体类别“导演”和“歌手”得到的样本为正训练样本。
负训练样本是指实体对应的属性文本和实体对应标注为错误的实体类别得到的样本数据。比如,“刘某”实体标注为正确的实体类别包括“导演”和“歌手”,由“刘某”实体的属性文本和该错误的实体类别“文学家”和“教授”得到的样本为负训练样本。
特殊训练样本是指正训练样本中的实体是有歧义的实体,将该实体进行替换后得到的正训练样本。比如,电影名称《CCC》,其中“CCC”实体容易被识别为地点,此时,将“CCC”实体对应的正训练样本中的实体名称替换为其他非作品类的名称,比如将“CCC”替换成“DD奥运会”得到“CCC”实体对应的特殊训练样本。
具体地,使用正训练样本、负训练样本和特殊训练样本进行训练,即通过将样本中的属性文本进行提取得到实体特征文本,将实体特征文本作为输入,将样本中对应的实体类别作为标签进行训练。当训练符合训练完成条件时,训练完成,其中,训练完成条件可以是训练的迭代次数达到最大迭代次数或者可以是模型的损失函数值符合预先设置好的损失阈值,其中,损失函数可以使用交叉熵损失函数等,当训练完成时,得到文本分类模型。
在上述实施例中,通过使用特殊训练样本训练文本分类模型,使训练得到的文本分类模型更加的准确,避免文本分类模型对有歧义实体名称实体的过分学习。
在一个具体的实施例中,如图9所示,实体分类方法可以对待分类实体同时使用规则匹配模块和模型识别模块进行实体类别的识别,将识别得到的结果进行融合,得到待分类实体对应的实体类别,具体来说:
服务器获取到获取待分类实体对应的属性文本,同时将属性文本输入到规则匹配模块和模型识别模块中,规则匹配模型中预先建立有正则表达式规则和对应的实体类别。模型识别模块中部署有已训练完成的TextCNN模型。
其中,规则匹配模块获取到属性文本中的属性名称和属性值,将属性名称和属性值与规则匹配模块中建立的所有正则表达式规则进行匹配,当有多个正则表达式匹配成功时,获取到匹配成功的多个正则表达式对应的类别,得到第一候选类别集合。
其中,模型识别模块获取到属性文本,将属性文本中的实体描述文本和属性值进行文本内容的提取,得到实体特征文本,保证得到的实体特征文本是表征实体的文本,避免有效信息的遗漏。将得到的实体特征文本输入到TextCNN模型中进行多分类识别,得到模型输出的第二候选类别集合。
然后服务器获取到规则匹配模块输出的第一候选类别集合和模型识别模块输入到第二候选类别集合,将第一候选类别集合和第二候选类别集合进行融合,得到融合类别集合,然后获取到预先设置在schema(模式)中类别继承关系树,从而按照类别继承关系树从融合类别集中确定叶子节点型类别集,将叶子节点型类别集作为待分类实体对应的实体类别集。
在上述实施例中,服务器还可以获取到测试数据,分别测试在仅使用规则匹配模块进行实体分类,或者仅使用模型识别模块进行实体分类,以及使用本申请实时分类方法,即通过规则匹配模块和模型识别模块融合进行实体分类情况下的评价指标。其中,评价指标是多分类任务中常使用的微平均精准率(micro P),微平均召回率(micro R),微平均F1值(micro F)。测试结果如下表3所示:
表3测试结果表
测试 | micro P | micro R | micro F |
规则匹配模块 | 0.866 | 0.755 | 0.807 |
模型识别模块 | 0.891 | 0.791 | 0.838 |
本实施例 | 0.871 | 0.817 | 0.843 |
其中,本实施例实体分类方法与仅使用规则匹配模块或者仅使用模型识别模块进行相比,可以有效的提高了召回率,并且整体的微平均F1值仅使用规则匹配模块或者仅使用模型识别模块,同时本实施例实体分类方法由于有规则匹配模块,可以实现对知识图谱快速干预。在一个实施例中,服务器也可以通过规则匹配模块来扩充训练文本分类模型的训练样本,实现模型的迭代。
在一个具体地实施例中,如图10所示,实体分类方法包括:
步骤S1002,获取待分类实体对应的属性文本,属性文本中包括实体描述文本、属性名称和属性值。
步骤S1004,将属性名称与预设目标正则表达式进行匹配,当匹配一致时,根据预设正则表达式、类别和置信度的对应关系确定预设目标正则表达式对应的第一目标类别和第一目标置信度。
步骤S1006,将第一目标类别作为当前类别,根据预设当前类别和预设正则表达式的对应关系确定当前类别对应的预设当前正则表达式。
步骤S1008,将属性值与预设当前正则表达式进行匹配,当匹配一致时,根据预设正则表达式、类别和置信度的对应关系确定预设当前正则表达式对应的第二目标类别和第二目标置信度.
步骤S1010,判断第一目标类别和第二目标类别是否相同,当不相同时,执行步骤1012b,当相同时,即类别未发生变化,则执行步骤1012a。
步骤1012b,将第二目标类别作为当前类别,返回步骤1006进行执行,直到得到的类别不再发生变化,即第一目标类别和第二目标类别相同时,执行步骤1012a。
步骤1012a,获取所有匹配成功的正则表达式对应的类别和类别对应的置信度,比较所有类别对应的置信度,将所有的最大置信度对应的类别作为待分类实体对应的第一候选类别集,并得到第一候选类别集中每个第一候选类别对应的置信度。
步骤1014,提取实体描述文本中包含待分类实体名称的句文本,计算各个属性值对应的字符串长度,根据字符串长度确定字符串长度小于预设属性值字符串长度的目标属性值,将包含待分类实体名称的句文本、属性名称和目标属性值进行拼接,得到实体特征文本。
步骤1016,将实体特征文本输入到文本分类模型中进行向量化,得到待分类实体对应的实体向量,将实体向量输入到文本分类模型中的分类器中进行识别,得到输出的类别概率,将类别概率超过预设概率阈值的类别作为待分类实体对应的第二候选类别,并得到第二候选类别集中每个第二候选类别对应的类别概率。
步骤1018,将第一候选类别集中每个第一候选类别对应的置信度作为第一候选类别对应的第一得分,将第二候选类别集中每个第二候选类别对应的类别概率映射到得分区间,得到第二候选类别对应的第二得分。
步骤1020,将第一候选类别和所述第二候选类别进行融合,得到融合类别集,并根据第一候选类别对应的第一得分和第二候选类别对应的第二得分得到融合类别集中融合类别对应的得分。
步骤1022,获取类别继承关系树,按照所述类别继承关系树从所述融合类别集中确定叶子节点型类别集,并根据融合类别集中融合类别的得分得到叶子节点型类别集中叶子节点型类别对应的得分,将叶子节点型类别对应的得分进行排序,根据排序结果得到待分类实体对应的实体类别序列集。
应该理解的是,虽然图2-10的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-10中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图11所示,提供了一种实体分类装置1100,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:文本获取模块1102、匹配模块1104、识别模块1106和类别得到模块1108,其中:
文本获取模块1102,用于获取待分类实体对应的属性文本,所述属性文本中包括实体描述文本、属性名称和属性值;
匹配模块1104,用于获取各个预设正则表达式和对应的类别,将所述属性名称和所述属性值与所述各个预设正则表达式进行匹配,将匹配成功的预设正则表达式对应的类别作为所述待分类实体对应的第一候选类别;
识别模块1106,用于根据所述实体描述文本、属性名称和属性值确定所述待分类实体对应的实体向量,识别所述实体向量对应的类别,得到所述待分类实体对应的第二候选类别;
类别得到模块1108,用于将所述第一候选类别和所述第二候选类别进行融合,得到融合类别集,并获取类别继承关系树,按照所述类别继承关系树从所述融合类别集中确定叶子节点型类别集,将所述叶子节点型类别集作为所述待分类实体对应的实体类别集。
在一个实施例中,实体分类装置1100,还包括:
第一得分得到模块,用于获取所述第一候选类别对应的置信度,将所述置信度作为所述第一候选类别对应的第一得分;
第二得分得到模块,用于获取第二候选类别对应的概率,将所述概率映射到得分区间,得到所述第二候选类别对应的第二得分;
类别得分确定模块,用于根据所述第一候选类别对应的第一得分和所述第二候选类别对应的第二得分确定所述实体类别集中的实体类别对应的实体类别得分;
得分排序模块,用于按照所述实体类别得分将所述实体类别集中的实体类别进行排序,得到所述待分类实体对应的实体类别序列集。
在一个实施例中,类别得分确定模块,包括:
得分计算单元,用于当所述实体类别集中的目标实体类别存在对应的第一得分和第二得分时,计算所述目标实体类别对应的第一得分和第二得分之和,得到所述目标实体类别对应的目标实体类别得分。
在一个实施例中,实体分类装置1100,还包括:
目标获取模块,用于获取目标属性文本;
表达式建立模块,用于使用所述目标属性文本中的目标属性名称和目标属性值建立所述预设正则表达式,并获取所述预设正则表达式对应的预设类别;
查找模块,用于查找所述目标属性名称和目标属性值对应的已分类实体,得到已分类实体集合和已分类实体总数;
比较模块,用于获取所述已分类实体集合中各个已分类实体对应的实体类别,将所述各个已分类实体对应的实体类别分别与所述预设类别进行比较,根据比较结果确定相同类别的实体数量;
置信度计算模块,用于根据所述已分类实体总数和所述相同类别的实体数量计算第一置信度,将所述预设正则表达式、所述预设类别和所述第一置信度关联保存。
在一个实施例中,查找模块,还包括:
采样单元,用于当所述已分类实体总数超过预设数量时,从所述已分类实体集合中进行采样,得到采样实体集合和采样实体总数;获取采样实体集合中各个采样实体对应的实体类别,将所述各个采样实体对应的实体类别与所述预设类别进行比较,根据比较结果确定相同类别的采样实体数量;根据所述采样实体总数和所述相同类别的采样实体数量计算第二置信度,将所述预设正则表达式、所述预设类别和所述第二置信度关联保存。
在一个实施例中,匹配模块1104,包括:
名称匹配单元,用于将所述属性名称与预设目标正则表达式进行匹配,当匹配一致时,根据预设正则表达式、类别和置信度的对应关系确定所述预设目标正则表达式对应的第一目标类别和第一目标置信度;
当前表达式确定单元,用于将所述第一目标类别作为当前类别,根据预设当前类别和预设正则表达式的对应关系确定所述当前类别对应的预设当前正则表达式;
属性值匹配单元,用于将所述属性值与所述预设当前正则表达式进行匹配,当匹配一致时,根据所述预设正则表达式、类别和置信度的对应关系确定所述预设当前正则表达式对应的第二目标类别和第二目标置信度;
第一类别得到单元,用于当所述第一目标置信度和所述第二目标置信度相同时,将所述第一目标类别和所述第二目标类别作为所述待分类实体对应的第一候选类别集。
在一个实施例中,第一类别得到单元还用于当所述第一目标置信度和所述第二目标置信度未相同时,比较所述第一目标置信度和所述第二目标置信度,当所述第一目标置信度超过所述第二目标置信度时,将所述第一目标置信度对应的第一目标类别作为所述待分类实体对应的第一候选类别。
在一个实施例中,识别模块1106,包括:
文本提取单元,用于提取所述实体描述文本中包含待分类实体名称的句文本;计算各个属性值对应的字符串长度,根据所述字符串长度确定所述字符串长度小于预设属性值字符串长度的目标属性值;将所述包含待分类实体名称的句文本、所述属性名称和所述目标属性值进行拼接,得到实体特征文本;
向量化单元,用于将所述实体特征文本输入到文本分类模型中进行向量化,得到所述待分类实体对应的实体向量。
在一个实施例中,识别模块1106,包括:
向量识别单元,用于将所述实体向量输入到文本分类模型中的分类器中进行识别,得到输出的类别概率,将所述类别概率超过预设概率阈值的类别作为所述待分类实体对应的第二候选类别。
在一个实施例中,实体分类装置1100,还包括:
模型训练模块,用于获取训练数据,所述训练数据包括正训练样本、负训练样本和特殊训练样本,所述特殊训练样本是将正训练样本中具体歧义的实体名称替换后得到训练样本;将所述正训练样本、负训练样本和特殊训练样本输入到深度学习算法中进行训练,当训练完成时,得到所述已训练的文本分类模型。
关于实体分类装置的具体限定可以参见上文中对于实体分类方法的限定,在此不再赘述。上述实体分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图12所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储实体分类数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种实体分类方法。
本领域技术人员可以理解,图12中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (22)
1.一种实体分类方法,其特征在于,所述方法包括:
获取待分类实体对应的属性文本,所述属性文本中包括实体描述文本、属性名称和属性值,所述待分类实体是指知识图谱中需要进行类别判定的实体;
获取各个预设正则表达式和对应的类别,将所述属性名称和所述属性值与所述各个预设正则表达式进行匹配,将匹配成功的预设正则表达式对应的类别作为所述待分类实体对应的第一候选类别;
根据所述实体描述文本、属性名称和属性值确定所述待分类实体对应的实体向量,识别所述实体向量对应的类别,得到所述待分类实体对应的第二候选类别;
将所述第一候选类别和所述第二候选类别进行融合,得到融合类别集,并获取类别继承关系树,按照所述类别继承关系树从所述融合类别集中确定叶子节点型类别集,将所述叶子节点型类别集作为所述待分类实体对应的实体类别集。
2.根据权利要求1所述的方法,其特征在于,在所述将所述第一候选类别和所述第二候选类别进行融合,得到融合类别集,并获取类别继承关系树,按照所述类别继承关系树从所述融合类别集中确定叶子节点型类别集,将所述叶子节点型类别集作为所述待分类实体对应的实体类别集之后,还包括:
获取所述第一候选类别对应的置信度,将所述置信度作为所述第一候选类别对应的第一得分;
获取第二候选类别对应的概率,将所述概率映射到得分区间,得到所述第二候选类别对应的第二得分;
根据所述第一候选类别对应的第一得分和所述第二候选类别对应的第二得分确定所述实体类别集中的实体类别对应的实体类别得分;
按照所述实体类别得分将所述实体类别集中的实体类别进行排序,得到所述待分类实体对应的实体类别序列集。
3.根据权利要求2所述的方法,其特征在于,根据所述第一候选类别对应的第一得分和所述第二候选类别对应的第二得分确定所述实体类别集中实体类别对应的实体类别得分,包括:
当所述实体类别集中的目标实体类别存在对应的第一得分和第二得分时;
计算所述目标实体类别对应的第一得分和第二得分之和,得到所述目标实体类别对应的目标实体类别得分。
4.根据权利要求1所述的方法,其特征在于,在所述获取待分类实体对应的属性文本之前,还包括:
获取目标属性文本;
使用所述目标属性文本中的目标属性名称和目标属性值建立所述预设正则表达式,并获取所述预设正则表达式对应的预设类别;
查找所述目标属性名称和目标属性值对应的已分类实体,得到已分类实体集合和已分类实体总数;
获取所述已分类实体集合中各个已分类实体对应的实体类别,将所述各个已分类实体对应的实体类别分别与所述预设类别进行比较,根据比较结果确定相同类别的实体数量;
根据所述已分类实体总数和所述相同类别的实体数量计算第一置信度,将所述预设正则表达式、所述预设类别和所述第一置信度关联保存。
5.根据权利要求4所述的方法,其特征在于,在所述查找所述目标属性名称和目标属性值对应的已分类实体,得到已分类实体集合和已分类实体总数之后,还包括:
当所述已分类实体总数超过预设数量时,从所述已分类实体集合中进行采样,得到采样实体集合和采样实体总数;
获取采样实体集合中各个采样实体对应的实体类别,将所述各个采样实体对应的实体类别与所述预设类别进行比较,根据比较结果确定相同类别的采样实体数量;
根据所述采样实体总数和所述相同类别的采样实体数量计算第二置信度,将所述预设正则表达式、所述预设类别和所述第二置信度关联保存。
6.根据权利要求1所述的方法,其特征在于,获取各个预设正则表达式和对应的类别,将所述属性名称和所述属性值与所述各个预设正则表达式进行匹配,将匹配成功的预设正则表达式对应的类别作为所述待分类实体对应的第一候选类别,包括:
将所述属性名称与预设目标正则表达式进行匹配,当匹配一致时,根据预设正则表达式、类别和置信度的对应关系确定所述预设目标正则表达式对应的第一目标类别和第一目标置信度;
将所述第一目标类别作为当前类别,根据预设当前类别和预设正则表达式的对应关系确定所述当前类别对应的预设当前正则表达式;
将所述属性值与所述预设当前正则表达式进行匹配,当匹配一致时,根据所述预设正则表达式、类别和置信度的对应关系确定所述预设当前正则表达式对应的第二目标类别和第二目标置信度;
当所述第一目标置信度和所述第二目标置信度相同时,将所述第一目标类别和所述第二目标类别作为所述待分类实体对应的第一候选类别集。
7.根据权利要求6所述的方法,其特征在于,所述当所述第一目标置信度和所述第二目标置信度相同时,将所述第一目标类别和所述第二目标类别作为所述待分类实体对应的第一候选类别集,包括:
当所述第一目标置信度和所述第二目标置信度未相同时,比较所述第一目标置信度和所述第二目标置信度,当所述第一目标置信度超过所述第二目标置信度时,将所述第一目标置信度对应的第一目标类别作为所述待分类实体对应的第一候选类别。
8.根据权利要求1所述的方法,其特征在于,所述根据所述实体描述文本、属性名称和属性值确定所述待分类实体对应的实体向量,包括:
提取所述实体描述文本中包含待分类实体名称的句文本;
计算各个属性值对应的字符串长度,根据所述字符串长度确定所述字符串长度小于预设属性值字符串长度的目标属性值;
将所述包含待分类实体名称的句文本、所述属性名称和所述目标属性值进行拼接,得到实体特征文本;
将所述实体特征文本输入到文本分类模型中进行向量化,得到所述待分类实体对应的实体向量。
9.根据权利要求1所述的方法,其特征在于,识别所述实体向量对应的类别,得到所述待分类实体对应的第二候选类别,包括:
将所示实体向量输入到文本分类模型中的分类器中进行识别,得到输出的类别概率,将所述类别概率超过预设概率阈值的类别作为所述待分类实体对应的第二候选类别。
10.根据权利要求8所述的方法,其特征在于,所述文本分类模型的训练步骤,包括:
获取训练数据,所述训练数据包括正训练样本、负训练样本和特殊训练样本,所述特殊训练样本是将正训练样本中具体歧义的实体名称替换后得到训练样本;
将所述正训练样本、负训练样本和特殊训练样本输入到深度学习算法中进行训练,当训练完成时,得到已训练的所述文本分类模型。
11.一种实体分类装置,其特征在于,所述装置包括:
文本获取模块,用于获取待分类实体对应的属性文本,所述属性文本中包括实体描述文本、属性名称和属性值,所述待分类实体是指知识图谱中需要进行类别判定的实体;
匹配模块,用于获取各个预设正则表达式和对应的类别,将所述属性名称和所述属性值与所述各个预设正则表达式进行匹配,将匹配成功的预设正则表达式对应的类别作为所述待分类实体对应的第一候选类别;
识别模块,用于根据所述实体描述文本、属性名称和属性值确定所述待分类实体对应的实体向量,识别所述实体向量对应的类别,得到所述待分类实体对应的第二候选类别;
类别得到模块,用于将所述第一候选类别和所述第二候选类别进行融合,得到融合类别集,并获取类别继承关系树,按照所述类别继承关系树从所述融合类别集中确定叶子节点型类别集,将所述叶子节点型类别集作为所述待分类实体对应的实体类别集。
12.根据权利要求11所述的装置,其特征在于,所述装置,还包括:
第一得分得到模块,用于获取所述第一候选类别对应的置信度,将所述置信度作为所述第一候选类别对应的第一得分;
第二得分得到模块,用于获取第二候选类别对应的概率,将所述概率映射到得分区间,得到所述第二候选类别对应的第二得分;
类别得分确定模块,用于根据所述第一候选类别对应的第一得分和所述第二候选类别对应的第二得分确定所述实体类别集中的实体类别对应的实体类别得分;
得分排序模块,用于按照所述实体类别得分将所述实体类别集中的实体类别进行排序,得到所述待分类实体对应的实体类别序列集。
13.根据权利要求12所述的装置,其特征在于,所述类别得分确定模块,包括:
得分计算单元,用于当所述实体类别集中的目标实体类别存在对应的第一得分和第二得分时,计算所述目标实体类别对应的第一得分和第二得分之和,得到所述目标实体类别对应的目标实体类别得分。
14.根据权利要求11所述的装置,其特征在于,所述装置,还包括:
目标获取模块,用于获取目标属性文本;
表达式建立模块,用于使用所述目标属性文本中的目标属性名称和目标属性值建立所述预设正则表达式,并获取所述预设正则表达式对应的预设类别;
查找模块,用于查找所述目标属性名称和目标属性值对应的已分类实体,得到已分类实体集合和已分类实体总数;
比较模块,用于获取所述已分类实体集合中各个已分类实体对应的实体类别,将所述各个已分类实体对应的实体类别分别与所述预设类别进行比较,根据比较结果确定相同类别的实体数量;
置信度计算模块,用于根据所述已分类实体总数和所述相同类别的实体数量计算第一置信度,将所述预设正则表达式、所述预设类别和所述第一置信度关联保存。
15.根据权利要求14所述的装置,其特征在于,所述查找模块,还包括:
采样单元,用于当所述已分类实体总数超过预设数量时,从所述已分类实体集合中进行采样,得到采样实体集合和采样实体总数;获取采样实体集合中各个采样实体对应的实体类别,将所述各个采样实体对应的实体类别与所述预设类别进行比较,根据比较结果确定相同类别的采样实体数量;根据所述采样实体总数和所述相同类别的采样实体数量计算第二置信度,将所述预设正则表达式、所述预设类别和所述第二置信度关联保存。
16.根据权利要求11所述的装置,其特征在于,所述匹配模块,包括:
名称匹配单元,用于将所述属性名称与预设目标正则表达式进行匹配,当匹配一致时,根据预设正则表达式、类别和置信度的对应关系确定所述预设目标正则表达式对应的第一目标类别和第一目标置信度;
当前表达式确定单元,用于将所述第一目标类别作为当前类别,根据预设当前类别和预设正则表达式的对应关系确定所述当前类别对应的预设当前正则表达式;
属性值匹配单元,用于将所述属性值与所述预设当前正则表达式进行匹配,当匹配一致时,根据所述预设正则表达式、类别和置信度的对应关系确定所述预设当前正则表达式对应的第二目标类别和第二目标置信度;
第一类别得到单元,用于当所述第一目标置信度和所述第二目标置信度相同时,将所述第一目标类别和所述第二目标类别作为所述待分类实体对应的第一候选类别集。
17.根据权利要求16所述的装置,其特征在于,所述第一类别得到单元还用于当所述第一目标置信度和所述第二目标置信度未相同时,比较所述第一目标置信度和所述第二目标置信度,当所述第一目标置信度超过所述第二目标置信度时,将所述第一目标置信度对应的第一目标类别作为所述待分类实体对应的第一候选类别。
18.根据权利要求11所述的装置,其特征在于,所述识别模块,包括:
文本提取单元,用于提取所述实体描述文本中包含待分类实体名称的句文本;计算各个属性值对应的字符串长度,根据所述字符串长度确定所述字符串长度小于预设属性值字符串长度的目标属性值;将所述包含待分类实体名称的句文本、所述属性名称和所述目标属性值进行拼接,得到实体特征文本;
向量化单元,用于将所述实体特征文本输入到文本分类模型中进行向量化,得到所述待分类实体对应的实体向量。
19.根据权利要求11所述的装置,其特征在于,所述识别模块,包括:
向量识别单元,用于将所述实体向量输入到文本分类模型中的分类器中进行识别,得到输出的类别概率,将所述类别概率超过预设概率阈值的类别作为所述待分类实体对应的第二候选类别。
20.根据权利要求18所述的装置,其特征在于,所述装置,还包括:
模型训练模块,用于获取训练数据,所述训练数据包括正训练样本、负训练样本和特殊训练样本,所述特殊训练样本是将正训练样本中具体歧义的实体名称替换后得到训练样本;将所述正训练样本、负训练样本和特殊训练样本输入到深度学习算法中进行训练,当训练完成时,得到所述已训练的文本分类模型。
21.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至10中任一项所述的方法的步骤。
22.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010229110.0A CN111444344B (zh) | 2020-03-27 | 2020-03-27 | 实体分类方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010229110.0A CN111444344B (zh) | 2020-03-27 | 2020-03-27 | 实体分类方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111444344A CN111444344A (zh) | 2020-07-24 |
CN111444344B true CN111444344B (zh) | 2022-10-25 |
Family
ID=71652510
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010229110.0A Active CN111444344B (zh) | 2020-03-27 | 2020-03-27 | 实体分类方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111444344B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112131378A (zh) * | 2020-08-20 | 2020-12-25 | 彭涛 | 用于识别民生问题类别的方法、装置及电子设备 |
CN112329469B (zh) * | 2020-11-05 | 2023-12-19 | 新华智云科技有限公司 | 一种行政地域实体识别方法及系统 |
CN112328709A (zh) * | 2020-11-19 | 2021-02-05 | 深圳市图灵机器人有限公司 | 一种实体标注方法及装置、服务器、存储介质 |
CN114969316B (zh) * | 2021-02-24 | 2024-04-26 | 腾讯科技(深圳)有限公司 | 一种文本数据处理方法、装置、设备以及介质 |
CN113609291A (zh) * | 2021-07-27 | 2021-11-05 | 科大讯飞(苏州)科技有限公司 | 实体分类方法、装置、电子设备和存储介质 |
CN115257807B (zh) * | 2022-07-27 | 2024-01-30 | 武汉大学 | 基于知识图谱的城区路上场景自动驾驶决策方法及设备 |
CN115599921B (zh) * | 2022-11-28 | 2023-03-31 | 腾讯科技(深圳)有限公司 | 文本分类、文本分类模型训练方法、装置和存储介质 |
CN116521827A (zh) * | 2023-05-19 | 2023-08-01 | 北京百度网讯科技有限公司 | 地理位置的场所类别确定方法、装置、电子设备和介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106844741A (zh) * | 2017-02-13 | 2017-06-13 | 哈尔滨工业大学 | 一种面向特定领域的问题解答方法 |
CN109635171A (zh) * | 2018-12-13 | 2019-04-16 | 成都索贝数码科技股份有限公司 | 一种新闻节目智能标签的融合推理系统和方法 |
CN110019782A (zh) * | 2017-09-26 | 2019-07-16 | 北京京东尚科信息技术有限公司 | 用于输出文本类别的方法和装置 |
CN110399487A (zh) * | 2019-07-01 | 2019-11-01 | 广州多益网络股份有限公司 | 一种文本分类方法、装置、电子设备及存储介质 |
-
2020
- 2020-03-27 CN CN202010229110.0A patent/CN111444344B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106844741A (zh) * | 2017-02-13 | 2017-06-13 | 哈尔滨工业大学 | 一种面向特定领域的问题解答方法 |
CN110019782A (zh) * | 2017-09-26 | 2019-07-16 | 北京京东尚科信息技术有限公司 | 用于输出文本类别的方法和装置 |
CN109635171A (zh) * | 2018-12-13 | 2019-04-16 | 成都索贝数码科技股份有限公司 | 一种新闻节目智能标签的融合推理系统和方法 |
CN110399487A (zh) * | 2019-07-01 | 2019-11-01 | 广州多益网络股份有限公司 | 一种文本分类方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111444344A (zh) | 2020-07-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111444344B (zh) | 实体分类方法、装置、计算机设备和存储介质 | |
CN110298037B (zh) | 基于增强注意力机制的卷积神经网络匹配的文本识别方法 | |
CN112632385B (zh) | 课程推荐方法、装置、计算机设备及介质 | |
CN111061856B (zh) | 一种基于知识感知的新闻推荐方法 | |
WO2022116537A1 (zh) | 一种资讯推荐方法、装置、电子设备和存储介质 | |
KR101999152B1 (ko) | 컨벌루션 신경망 기반 영문 텍스트 정형화 방법 | |
CN111708873A (zh) | 智能问答方法、装置、计算机设备和存储介质 | |
CN112819023B (zh) | 样本集的获取方法、装置、计算机设备和存储介质 | |
CN110826328A (zh) | 关键词提取方法、装置、存储介质和计算机设备 | |
CN108664599B (zh) | 智能问答方法、装置、智能问答服务器及存储介质 | |
CN112232058A (zh) | 基于深度学习三层语义抽取框架的假新闻识别方法及系统 | |
CN111783903B (zh) | 文本处理方法、文本模型的处理方法及装置、计算机设备 | |
CN106294344A (zh) | 视频检索方法和装置 | |
CN110633366A (zh) | 一种短文本分类方法、装置和存储介质 | |
CN112100377A (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN111368555B (zh) | 一种数据识别方法、装置、存储介质和电子设备 | |
CN114186076A (zh) | 知识图谱构建方法、装置、设备和计算机可读存储介质 | |
CN111553140B (zh) | 数据处理方法、数据处理设备及计算机存储介质 | |
CN114647713A (zh) | 基于虚拟对抗的知识图谱问答方法、设备及存储介质 | |
CN113011172A (zh) | 文本处理方法、装置、计算机设备和存储介质 | |
CN116842194A (zh) | 一种电力语义知识图谱系统及方法 | |
CN112988970A (zh) | 一种服务于智能问答系统的文本匹配算法 | |
CN112632258A (zh) | 文本数据处理方法、装置、计算机设备和存储介质 | |
CN114491079A (zh) | 知识图谱构建和查询方法、装置、设备和介质 | |
CN114329004A (zh) | 数字指纹生成、数据推送方法、装置和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40025842 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |