CN111539209B - 用于实体分类的方法和装置 - Google Patents
用于实体分类的方法和装置 Download PDFInfo
- Publication number
- CN111539209B CN111539209B CN202010295261.6A CN202010295261A CN111539209B CN 111539209 B CN111539209 B CN 111539209B CN 202010295261 A CN202010295261 A CN 202010295261A CN 111539209 B CN111539209 B CN 111539209B
- Authority
- CN
- China
- Prior art keywords
- entity
- word
- classification
- classified
- word segment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本申请公开了用于实体分类的方法,涉及知识图谱领域。具体实现方案为:获取待分类实体;将待分类实体划分成词片段,并对词片段进行概念标注,其中,词片段为预设粒度的语义单元,词片段的粒度大于词粒度;将已标注词片段概念的待分类实体输入预先训练的实体分类模型,得到待分类实体的实体分类结果,其中,实体分类模型用于表征已标注词片段概念的实体与实体分类之间的对应关系。该实现方通过引入实体的词片段概念标注,能够解决实体不存在上下文的情况下支持实体分类的特征不足、分类效果依赖上下文语料的问题,提高了实体分类的准确性。
Description
技术领域
本公开的实施例涉及计算机技术领域,具体涉及知识图谱技术领域。
背景技术
实体分类(Entity Classification)技术通常是指把文本形式的实体根据一系列的特征划分到指定类别的技术。
相关技术中,通常需要实体所在文本的上下文的辅助实现对实体进行分类。例如,采用命名实体识别(Named Entity Recognition)技术进行实体分类,命名实体识别等技术在没有上下文信息的应用场景下能够起到的作用通常有限,因此无法保证实体分类的准确性。可见,如何对没有上下文的实体准确地分类是当前需要解决的问题。
发明内容
提供了一种用于实体分类的方法、装置、设备以及存储介质。
根据第一方面,提供了一种用于实体分类的方法,该方法包括:获取待分类实体;将待分类实体划分成词片段,并对词片段进行概念标注,其中,词片段为预设粒度的语义单元,词片段的粒度大于词粒度;将已标注词片段概念的待分类实体输入预先训练的实体分类模型,得到待分类实体的实体分类结果,其中,实体分类模型用于表征已标注词片段概念的实体与实体分类之间的对应关系。
根据第二方面,提供了一种用于实体分类的装置,该装置包括:获取单元,被配置成获取待分类实体;标注单元,被配置成将待分类实体划分成词片段,并对词片段进行概念标注,其中,词片段为预设粒度的语义单元,词片段的粒度大于词粒度;输入单元,被配置成将已标注词片段概念的待分类实体输入预先训练的实体分类模型,得到待分类实体的实体分类结果,其中,实体分类模型用于表征已标注词片段概念的实体与实体分类之间的对应关系。
第三方面,提供了一种电子设备,该电子设备包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述方法。
第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行上述方法。
根据本申请的技术解决了目前实体分类依赖上下文语料的问题,提高了不存在上下文语料的实体分类的准确性。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是根据本申请的用于实体分类的方法的第一实施例的示意图;
图2是根据本申请的用于实体分类的方法的第二实施例的示意图;
图3是根据本申请的用于实体分类的装置的实施例的示意图;
图4是用来实现本申请实施例的用于实体分类的方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。
请参考图1,其示出了根据本申请的用于实体分类的方法的第一实施例的示意图。该用于实体分类的方法,可以包括以下步骤:
步骤101,获取待分类实体。
在本实施例中,用于实体分类的方法的执行主体可以为用于实体分类的装置,该用于实体分类的装置可以为一个电子实体(例如服务器),或者也可以为采用软件集成的应用。使用时,可以将待分类实体输入该用于实体分类的装置中。该用于实体分类的装置可以采用本实施例的用于实体分类的方法,对待分类实体进行分类。
在本实施例中,上述执行主体(例如服务器)可以通过有线连接方式或者无线连接方式从另一电子设备获取待分类实体。当然可以理解的是,待分类实体还可以存储在上述执行主体的本地,此时,上述执行主体可以直接从本地获取上述待分类实体。需要说明的是,上述待分类实体可以为不具有上下文语料的实体。例如,待分类实体为“哈尔滨工业大学硕士生导师”,该待分类实体中不存在上下文。可以理解的是,与具有上下文语料的实体相比,上述待分类实体用于支持实体分类的特征较少,因此,常规依赖实体上下文语料进行实体分类的方法无法准确地对其进行分类。
通常,本申请可以应用于知识图谱领域,用于对知识图谱中的节点所指示的实体进行类别划分。或者,本方案还可以应用于搜索技术领域,上述待分类实体可以为用户在搜索引擎、问答系统、广告系统等中进行搜索时直接输入的查询文本,或者上述待分类实体还可以为用户在搜索引擎、问答系统、广告系统等中进行搜索时,从用户输入的查询文本中提取出的实体。可见,上述待分类实体可以为通过各种方式获取的实体,这里没有唯一的限定。
步骤102,将待分类实体划分成词片段,并对词片段进行概念标注。
在本实施例中,基于步骤101获取的待分类实体,上述执行主体可以采用各种方式对该待分类实体中的词片段进行概念标注。具体地,上述执行主体可以对待分类实体进行分词,得到该待分类实体的词片段,而后对所获取的词片段进行概念标注。这里,词片段可以为预设粒度的语义单元,且词片段的粒度大于词粒度,词片段可以是对词的一种泛化。概念可以指从一类实体中抽取出共同特征的基础单元。例如,待分类实体为“哈尔滨工业大学硕士生导师”,分词得到的词片段可以包括“哈尔滨工业大学”和“硕士生导师”,其中,哈尔滨工业大学”的概念为“组织机构”,“硕士生导师”的概念为“人物”,因此,得到的概念标注结果为“哈尔滨工业大学[组织机构]硕士生导师[人物]”。
作为示例,可以在概念体系的指导下采用分词工具或人工分词等方式将上述待分类实体划分成词片段,而后采用概念库作为先验知识确定各词片段的概念标注。概念体系可以为现实知识的树形结构标识,其描述了词片段的上下位关系。例如“硕士生导师”、“演员”的上位是“人物”,“哈尔滨工业大学”的上位是“组织机构”。概念库可以为存储概念体系的库。因此,可以按照概念体系的指导对待分类实体进行分词得到词片段,从概念库可以确定分词片段的概念并进行标注。
在本实施例的一些可选的实现方式中,可以通过如下方式为待分类实体中的词片段进行概念标注:对待分类实体进行基础粒度(例如字粒度)切分,得到待分类实体的基本元素(例如字),并对各基本元素进行概念标注;按照预设粒度对概念标注后的基本元素进行组合或拆分,从而可以对待分类实体的词片段进行概念标注。作为示例,对于待分类实体“哈尔滨工业大学硕士生导师”,可以按照字粒度进行切分,得到字元素作为基础元素,而后对各字进行概念标注,得到“哈[组织机构]尔[组织机构]...硕[人物]...师[人物]”,将所得到的结果中相同的概念标注进行组合即可以得到词片段的概念标注结果“哈尔滨工业大学[组织机构]硕士生导师[人物]”。
步骤103,将已标注词片段概念的待分类实体输入预先训练的实体分类模型,得到待分类实体的实体分类结果。
在本实施例中,基于步骤102得到的已标注词片段概念的待分类实体,上述执行主体可以将所得到的已标注词片段概念的待分类实体输入预先训练的实体分类模型。该实体分类模型可以输出上述待分类实体的实体分类结果。其中,实体分类模型可以用于表征已标注词片段概念的实体与实体分类之间的对应关系。例如,实体分类模型可以为技术人员基于大量数据统计后制定的具有已标注词片段概念的实体与实体分类的对应关系的数据库。
在本实施例的一些可选的实现方式中,上述分实体分类模型可以通过如下方式训练得到:
第一,获取第二训练样本集合。其中,第二训练样本集合中可以包括多个第二训练样本,各第二训练样本集合可以包括已标注词片段概念且未设分类标签的实体和已设分类标签的实体。可以理解的是,可以针对同一实体仅标注词片段概念和设置分类标签得到第二训练样本。
第二,将第二训练样本中的已标注词片段概念且未设分类标签的实体作为输入,将第二训练样本中的已设分类标签的实体作为输出,可以训练预先构建的第二初始模型,从而得到实体分类模。该实现方式采用机器学习的方式训练得到的实体分类模型可以适应新的数据的变化,对于训练样本中没有出现的实体也可以准确的进行分类。
作为示例,上述第二初始模型可以为采用例如卷积神经网络(ConvolutionalNeural Network,CNN)构建的初始模型。该卷积神经网络可以为任意深度的神经网络。上述卷积神经网络可以包括卷积层、池化层等,从而可以实现对输入的词片段进行卷积、池化等操作,得到上述实体分类模型。其中,卷积层可以用于感知实体的文本特征,池化层可以用于对输入的信息进行降采样(down sample)。通常,在训练卷积神经网络之前,可以对每一层网络进行构建,并指定网络层与网络层之间的连接方式,进一步地,还可以根据训练的目标任务指定不同的输出和损失函数等。因此,在训练卷积神经网络时可以基于指定的损失函数训练卷积神经网络,从而可以更新该卷积神经网络中的参数,得到上述实体分类模型。可以理解的是,在对第二初始模型训练的过程中,不仅可以对词片段进行卷积、池化等操作,还可以对字、词等常规粒度执行卷积、池化等操作,从而使得训练得到的实体分类模型的分类准确性更高。需要说明的是,上述电子设备可以利用各种方式(例如有监督训练、无监督训练等方式)训练上述卷积神经网络得到实体分类模型。
可以理解的是,还可以采用例如通用预训练语言表示模型(BidirectionalEncoder Representations from Transformers,BERT)作为第二初始模型。这里可以采用BERT微调(fine tune)方式得到上述实体分类模型。微调的方法通常是指加载预训练好的BERT模型,换而言之,微调可以指加载多个网络权重的值,而后把第二训练样本集合中的各第二训练样本输入该模型,在网络上继续反向传播训练,不断调整原有模型的权重,获得一个适用于实体分类的模型,该模型即为上述实体分类模型。可以理解的是,利用预设的BERT模型作为第二初始模型来训练实体分类模型,相当于利用BERT模型初始化了一个网络的初始权重,而后对初始权重进行训练,此为一种迁移学习手段,无需另外构建复杂的模型即可以实现对实体分类的效果。
本申请的上述实施例提供的用于实体分类的方法,可以获取待分类实体,而后将所获取的待分类实体划分成词片段,并对词片段进行概念标注,最后将已标注词片段概念的待分类实体输入预先训练的实体分类模型,可以得到待分类实体的实体分类结果。本实施例提供的方法引入了词片段的概念标注,可以解决实体因不存在上下文导致的支持实体分类的特征不足的问题,避免实体分类依赖上下文语料,提高了无上下文的实体分类的准确性。
接下来请继续参考图2,图2是根据本申请的用于实体分类的方法的第二实施例的示意图。该用于实体分类的方法,可以包括以下步骤:
步骤201,用于实体分类的方法。
步骤202,将待分类实体输入预先训练的词片段标注模型,得到待分类实体的词片段概念标注。
在本实施例中,基于步骤201获取的待分类实体,上述执行主体可以将所获取的待分类实体输入预先训练的词片段标注模型。该词片段标注模型可以对待分类实体进行词片段划分和概念标注,输出已标注词片段概念的待分类实体。作为示例,上述词片段标注模型可以为技术人员基于大量数据统计后制定的具有未标注实体和已标注词片段概念的实体的对应关系的数据库。
在本实施例的一些可选的实现方式中,上述词片段标注模型可以通过如下方式训练得到:
第一,获取第一训练样本集合。其中,第一训练样本集合可以包括多个第一训练样本,各第一训练样本可以包括未标注实体和已标注词片段概念的实体。可以理解的是,针对同一实体分别不进行概念标注和进行词片段概念标注可以得到第一训练样本。
第二,将第一训练样本中未标注实体作为输入,将第一训练样本中已标注词片段概念的实体作为输出,训练预先构建的第一初始模型,得到词片段标注模型。该实现方式采用机器学习的方式训练得到的词片段标注模型可以适应新的数据的变化,对于训练样本中没有出现的实体也可以准确的进行词片段的概念标注。
在该实现方式中,上述第一初始模型可以为采用例如隐马尔可夫模型(HiddenMarkov Model,HMM)、条件随机场(Conditional Random Field,CRF)或长短期记忆网络(Long-short Term Memory,LSTM)等构建初始模型。上述第一初始模型可以对输入的第一训练样本中未标注的实体进行分词,以及对分词结果进行概念预测,从而可以得到实体中词片段的概念。而后,基于预测出的实体中词片段的概念和第一训练样本中已标注的词片段的概念,可以调整第一初始模型中的参数,从而得到词片段标注模型。
可选的,上述第一训练样本可以通过如下方式得到:
首先,获取实体样本。
其次,对所获取的实体样本进行基础粒度切分,得到实体样本的基本元素,并对各基本元素进行概念标注。这里,可以采用分词工具或人工分词等方式对实体样本进行基础粒度的切分,得到基本元素,并对基本元素进行概念的标注。作为示例,基础粒度可以为字粒度,基本元素为字。在该步骤中,可以将实体样本的基础粒度切分和概念标注作为序列标注任务。在执行序列标注任务时,可以在实体样本中识别待划分的边界,例如,可以在实体中识别每个字的边界进行字粒度的划分,而后对划分出的每个字进行标注。通常可以采用“位置标签-词类”的方式进行标注,例如,可以采用“BIO”位置标签进行标注,从而可以得到实体样本的位置标签标注结果。BIO标注可以将每个元素标注为“B-X”、“I-X”或者“O”。其中,“B-X”表示此元素所在的片段属于X类型并且此元素在此片段的开头,“I-X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置,“O”表示不属于任何类型。作为示例,样本标签为“哈尔滨工业大学硕士生导师”,得到的位置标签标注结果为“哈[B-组织机构]尔[I-组织机构]...硕[B-人物]...师[I-人物]”。
然后,按照预设粒度对概念标注后的基本元素进行组合或拆分,生成已标注词片段概念的实体样本。这里,可以根据预先定义的组合或拆分方式对拆分出的基本元素进行组合或拆分,基本元素的组合或拆分结果为词片段,同时还可以获取词片段的概念。作为示例,对于实体样本“哈尔滨工业大学硕士生导师”的位置标签标注结果“哈[B-组织机构]尔[I-组织机构]...硕[B-人物]...师[I-人物]”,将其中属于相同名词短语的标注进行组合,可以得到实体样本的词片段概念标注“哈尔滨工业大学[组织机构]硕士生导师[人物]”。
最后,将未标注实体样本和已标注词片段概念的实体样本合并,并将合并的结果确定为第一训练样本。
可以理解的是,在采用上述第一训练样本训练得到词片段标注模型对待分类实体进行词片段标注时,可以先预测待分类实体中各基本元素的概念,而后采用预设的组合方式对基本元素进行组合,从而可以得到带有词片段概念标注的待分类实体。该实现方式中公开的第一训练样本的获取方法,采用基础粒度划分的方式得到基本元素,而后对基本元素拆分或组合可以得到标注词片段概念的实体样本,适用于不同的实体样本的标注,通用性好。
步骤203,将已标注词片段概念的待分类实体输入预先训练的实体分类模型,得到待分类实体的实体分类结果。
在本实施例中,上述步骤201和步骤203中所包含的内容分别与图1所示实施例中的步骤101和步骤103相同或相似,这里不再赘述。
在本实施例的一些可选的实现方式中,上述实体分类模型还可以实现上述词片段标注模型的功能。即上述实体分类模型不仅可以用于表征已标注词片段概念的实体与实体分类之间的对应关系,还可以用于对实体中的词片段进行概念标注。因此,上述执行主体在获取待分类实体之后,可以直接将该待分类实体输入实体分类模型,从而可以直接得到该待分类实体的分类结果。可以理解的是,上述实体分类模型在输出待分类实体的分类结果的同时还可以输出带有分词片段的概念标注的待分类实体。该实现方式在一定程度上能够得到引入了词片段概念标注的实体分类结果。
在本实施例的一些可选的实现方式中,对词片段概念标注任务和实体分类任务同时训练,可以得到上述同时用于表征已标注词片段概念的实体与实体分类之间的对应关系和用于对实体中的词片段进行概念标注的实体分类模型。具体地,该实体分类模型可以采用如下方式训练得到:
第一,获取第三训练样本集合。其中,第三训练样本集合可以包括多个第三训练样本,各第三训练样本可以包括为未标注实体和已标注词片段概念且已设分类标签的实体。第三训练样本中的未标注实体可以为既未标注词片段概念又未设分类标签的实体。这里,如果生成第一训练样本集合的实体和生成第二训练样本集合的实体相同,则可以将第一训练样本集合和第二训练样本集合进行融合,得到上述第三训练样本集合。
第二,将第三训练样本中未标注实体作为输入,将第三训练样本中已标注词片段概念且已设分类标签的实体作为输出,可以训练第三初始模型,从而得到实体分类模型。该实现方式中的实体分类模型的训练方法可以综合参考图1所示实施例中的实体分类模型和本实施例中的词片段标注模型的训练。可以理解的是,在实体分类模型训练的过程中,可以优化词片段概念标注和实体分类两个训练任务的损失之和。
从图2中可以看出,与图1对应的实施例相比,本实施例中的用于实体分类的方法采用预先训练的词片段标注模型对待分类实体进行词片段划分和概念标注,可以快速获取输入实体分类模型中的已标注词片段概念的待分类实体,从而使得本实施例提供的用于实体分类的方法可以快速、准确地对实体进行分类。
进一步参考图3,作为对上述各图所示方法的实现,本公开提供了一种用于实体分类的装置的一个实施例,该装置实施例与图1所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图3所示,本实施例的用于实体分类的装置300包括:获取单元301、标注单元302、输入单元303。其中,获取单元301被配置成获取待分类实体;标注单元302被配置成将待分类实体划分成词片段,并对词片段进行概念标注,其中,词片段为预设粒度的语义单元,词片段的粒度大于词粒度;输入单元302被配置成将已标注词片段概念的待分类实体输入预先训练的实体分类模型,得到待分类实体的实体分类结果,其中,实体分类模型用于表征已标注词片段概念的实体与实体分类之间的对应关系。
在本实施例的一些可选的实现方式中,标注单元302进一步被配置成:将待分类实体输入预先训练的词片段标注模型,得到待分类实体的词片段概念标注,其中,词片段标注模型用于为实体中的词片段进行概念标注。
在本实施例的一些可选的实现方式中,词片段标注模型通过如下方式训练得到:获取第一训练样本集合,其中,第一训练样本包括未标注实体和已标注词片段概念的实体;将第一训练样本中未标注实体作为输入,将第一训练样本中已标注词片段概念的实体作为输出,训练预先构建的第一初始模型,得到词片段标注模型。
在本实施例的一些可选的实现方式中,第一训练样本通过如下方式得到:获取实体样本;对实体样本进行基础粒度切分,得到实体样本的基本元素,并对各基本元素进行概念标注;按照预设粒度对概念标注后的基本元素进行组合或拆分,生成已标注词片段概念的实体样本;将未标注实体样本和已标注词片段概念的实体样本确定为第一训练样本。
在本实施例的一些可选的实现方式中,实体分类模型通过如下步骤训练得到:获取第二训练样本集合,其中,第二样本集合包括已标注词片段概念且未设分类标签的实体和已设分类标签的实体;将第二训练样本中的已标注词片段概念且未设分类标签的实体作为输入,将第二训练样本中的已设分类标签的实体作为输出,训练预先构建的第二初始模型,得到实体分类模型。
在本实施例的一些可选的实现方式中,实体分类模型还用于对实体中的词片段进行概念标注;标注单元302进一步被配置成:将待分类实体输入实体分类模型,得到待分类实体的词片段概念标注。
在本实施例的一些可选的实现方式中,实体分类模型还可以通过如下步骤训练得到:获取第三训练样本集合,其中,第三训练样本包括为未标注实体和已标注词片段概念且已设分类标签的实体;将第三训练样本中未标注实体作为输入,将第三训练样本中已标注词片段概念且已设分类标签的实体作为输出,训练第三初始模型,得到实体分类模型。
装置300中记载的诸单元与参考图1描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征同样适用于装置300及其中包含的单元,在此不再赘述。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图4所示,是根据本申请实施例的用于实体分类的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图4所示,该电子设备包括:一个或多个处理器401、存储器402,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图4中以一个处理器401为例。
存储器402即为本申请所提供的非瞬时计算机可读存储介质。其中,存储器存储有可由至少一个处理器执行的指令,以使至少一个处理器执行本申请所提供的用于实体分类的方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的用于实体分类的方法。
存储器402作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的用于实体分类的方法对应的程序指令/模块(例如,附图3所示的获取单元301、标注单元302、输入单元303)。处理器401通过运行存储在存储器402中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的用于实体分类的方法。
存储器402可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据用于实体分类的电子设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器402可选包括相对于处理器401远程设置的存储器,这些远程存储器可以通过网络连接至用于实体分类的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
用于实体分类的方法的电子设备还可以包括:输入装置403和输出装置404。处理器401、存储器402、输入装置403和输出装置404可以通过总线或者其他方式连接,图4中以通过总线连接为例。
输入装置403可接收输入的数字或字符信息,以及产生与用于实体分类的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置404可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请实施例的技术方案,可以获取待分类实体,而后将所获取的待分类实体划分成词片段,并对词片段进行概念标注,最后将已标注词片段概念的待分类实体输入预先训练的实体分类模型,可以得到待分类实体的实体分类结果。本实施例提供的方法引入了词片段的概念标注,可以解决实体因不存在上下文导致的支持实体分类的特征不足的问题,避免实体分类依赖上下文语料,提高了无上下文的实体分类的准确性。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (14)
1.一种用于实体分类的方法,包括:
获取待分类实体;
将所述待分类实体划分成词片段,并对词片段进行概念标注,其中,所述词片段为预设粒度的语义单元,所述词片段的粒度大于词粒度;
将已标注词片段概念的所述待分类实体输入预先训练的实体分类模型,得到所述待分类实体的实体分类结果,其中,所述实体分类模型用于表征已标注词片段概念的实体与实体分类之间的对应关系;
其中,所述实体分类模型通过如下步骤训练得到:
获取第二训练样本集合,其中,第二样本集合包括已标注词片段概念且未设分类标签的实体和已设分类标签的实体;
将所述第二训练样本中的已标注词片段概念且未设分类标签的实体作为输入,将所述第二训练样本中的已设分类标签的实体作为输出,训练预先构建的第二初始模型,得到所述实体分类模型。
2.根据权利要求1所述的方法,其中,所述将所述待分类实体划分成词片段,并对词片段进行概念标注,包括:
将所述待分类实体输入预先训练的词片段标注模型,得到所述待分类实体的词片段概念标注,其中,所述词片段标注模型用于为实体中的词片段进行概念标注。
3.根据权利要求2所述的方法,其中,所述词片段标注模型通过如下方式训练得到:
获取第一训练样本集合,其中,第一训练样本包括未标注实体和已标注词片段概念的实体;
将所述第一训练样本中未标注实体作为输入,将所述第一训练样本中已标注词片段概念的实体作为输出,训练预先构建的第一初始模型,得到所述词片段标注模型。
4.根据权利要求3所述的方法,其中,所述第一训练样本通过如下方式得到:
获取实体样本;
对所述实体样本进行基础粒度切分,得到所述实体样本的基本元素,并对各所述基本元素进行概念标注;
按照预设粒度对概念标注后的基本元素进行组合或拆分,生成已标注词片段概念的实体样本;
将未标注实体样本和已标注词片段概念的实体样本确定为所述第一训练样本。
5.根据权利要求1所述的方法,其中,所述实体分类模型还用于对实体中的词片段进行概念标注;
所述将所述待分类实体划分成词片段,并对词片段进行概念标注,包括:
将所述待分类实体输入所述实体分类模型,得到所述待分类实体的词片段概念标注。
6.根据权利要求5所述的方法,其中,所述实体分类模型还可以通过如下步骤训练得到:
获取第三训练样本集合,其中,所述第三训练样本包括为未标注实体和已标注词片段概念且已设分类标签的实体;
将所述第三训练样本中未标注实体作为输入,将所述第三训练样本中已标注词片段概念且已设分类标签的实体作为输出,训练第三初始模型,得到所述实体分类模型。
7.一种用于实体分类的装置,包括:
获取单元,被配置成获取待分类实体;
标注单元,被配置成将所述待分类实体划分成词片段,并对词片段进行概念标注,其中,所述词片段为预设粒度的语义单元,所述词片段的粒度大于词粒度;
输入单元,被配置成将已标注词片段概念的所述待分类实体输入预先训练的实体分类模型,得到所述待分类实体的实体分类结果,其中,所述实体分类模型用于表征已标注词片段概念的实体与实体分类之间的对应关系;
其中,所述实体分类模型通过如下步骤训练得到:
获取第二训练样本集合,其中,第二样本集合包括已标注词片段概念且未设分类标签的实体和已设分类标签的实体;
将所述第二训练样本中的已标注词片段概念且未设分类标签的实体作为输入,将所述第二训练样本中的已设分类标签的实体作为输出,训练预先构建的第二初始模型,得到所述实体分类模型。
8.根据权利要求7所述的装置,其中,所述标注单元进一步被配置成:
将所述待分类实体输入预先训练的词片段标注模型,得到所述待分类实体的词片段概念标注,其中,所述词片段标注模型用于为实体中的词片段进行概念标注。
9.根据权利要求8所述的装置,其中,所述词片段标注模型通过如下方式训练得到:
获取第一训练样本集合,其中,第一训练样本包括未标注实体和已标注词片段概念的实体;
将所述第一训练样本中未标注实体作为输入,将所述第一训练样本中已标注词片段概念的实体作为输出,训练预先构建的第一初始模型,得到所述词片段标注模型。
10.根据权利要求9所述的装置,其中,所述第一训练样本通过如下方式得到:
获取实体样本;
对所述实体样本进行基础粒度切分,得到所述实体样本的基本元素,并对各所述基本元素进行概念标注;
按照预设粒度对概念标注后的基本元素进行组合或拆分,生成已标注词片段概念的实体样本;
将未标注实体样本和已标注词片段概念的实体样本确定为所述第一训练样本。
11.根据权利要求7所述的装置,其中,所述实体分类模型还用于对实体中的词片段进行概念标注;
所述标注单元进一步被配置成:
将所述待分类实体输入所述实体分类模型,得到所述待分类实体的词片段概念标注。
12.根据权利要求11所述的装置,其中,所述实体分类模型还可以通过如下步骤训练得到:
获取第三训练样本集合,其中,所述第三训练样本包括为未标注实体和已标注词片段概念且已设分类标签的实体;
将所述第三训练样本中未标注实体作为输入,将所述第三训练样本中已标注词片段概念且已设分类标签的实体作为输出,训练第三初始模型,得到所述实体分类模型。
13.一种电子设备,其中,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。
14.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010295261.6A CN111539209B (zh) | 2020-04-15 | 2020-04-15 | 用于实体分类的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010295261.6A CN111539209B (zh) | 2020-04-15 | 2020-04-15 | 用于实体分类的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111539209A CN111539209A (zh) | 2020-08-14 |
CN111539209B true CN111539209B (zh) | 2023-09-15 |
Family
ID=71974931
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010295261.6A Active CN111539209B (zh) | 2020-04-15 | 2020-04-15 | 用于实体分类的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111539209B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112015866B (zh) * | 2020-08-28 | 2023-07-21 | 北京百度网讯科技有限公司 | 用于生成同义文本的方法、装置、电子设备及存储介质 |
CN112328653B (zh) * | 2020-10-30 | 2023-07-28 | 北京百度网讯科技有限公司 | 数据识别方法、装置、电子设备及存储介质 |
CN113032584B (zh) * | 2021-05-27 | 2021-09-17 | 北京明略软件系统有限公司 | 一种实体关联方法、装置、电子设备及存储介质 |
CN113674054B (zh) * | 2021-08-13 | 2023-12-05 | 青岛海信智慧生活科技股份有限公司 | 商品类别的配置方法、装置及系统 |
CN114265919A (zh) * | 2021-12-24 | 2022-04-01 | 中电信数智科技有限公司 | 一种实体提取方法、装置、电子设备及存储介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103077164A (zh) * | 2012-12-27 | 2013-05-01 | 新浪网技术(中国)有限公司 | 文本分析方法及文本分析器 |
CN106951565A (zh) * | 2017-04-05 | 2017-07-14 | 数库(上海)科技有限公司 | 文本分类方法及获得的文本分类器 |
CN107193959A (zh) * | 2017-05-24 | 2017-09-22 | 南京大学 | 一种面向纯文本的企业实体分类方法 |
CN108460011A (zh) * | 2018-02-01 | 2018-08-28 | 北京百度网讯科技有限公司 | 一种实体概念标注方法及系统 |
CN109800437A (zh) * | 2019-01-31 | 2019-05-24 | 北京工业大学 | 一种基于特征融合的命名实体识别方法 |
CN110209812A (zh) * | 2019-05-07 | 2019-09-06 | 北京地平线机器人技术研发有限公司 | 文本分类方法和装置 |
CN110442871A (zh) * | 2019-08-06 | 2019-11-12 | 北京百度网讯科技有限公司 | 文本信息处理方法、装置及设备 |
CN110457325A (zh) * | 2019-08-12 | 2019-11-15 | 北京百度网讯科技有限公司 | 用于输出信息的方法和装置 |
CN110619053A (zh) * | 2019-09-18 | 2019-12-27 | 北京百度网讯科技有限公司 | 实体关系抽取模型的训练方法和抽取实体关系的方法 |
CN110717339A (zh) * | 2019-12-12 | 2020-01-21 | 北京百度网讯科技有限公司 | 语义表示模型的处理方法、装置、电子设备及存储介质 |
CN110717039A (zh) * | 2019-09-17 | 2020-01-21 | 平安科技(深圳)有限公司 | 文本分类方法和装置、电子设备、计算机可读存储介质 |
CN110825875A (zh) * | 2019-11-01 | 2020-02-21 | 科大讯飞股份有限公司 | 文本实体类型识别方法、装置、电子设备和存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11334692B2 (en) * | 2017-06-29 | 2022-05-17 | International Business Machines Corporation | Extracting a knowledge graph from program source code |
-
2020
- 2020-04-15 CN CN202010295261.6A patent/CN111539209B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103077164A (zh) * | 2012-12-27 | 2013-05-01 | 新浪网技术(中国)有限公司 | 文本分析方法及文本分析器 |
CN106951565A (zh) * | 2017-04-05 | 2017-07-14 | 数库(上海)科技有限公司 | 文本分类方法及获得的文本分类器 |
CN107193959A (zh) * | 2017-05-24 | 2017-09-22 | 南京大学 | 一种面向纯文本的企业实体分类方法 |
CN108460011A (zh) * | 2018-02-01 | 2018-08-28 | 北京百度网讯科技有限公司 | 一种实体概念标注方法及系统 |
CN109800437A (zh) * | 2019-01-31 | 2019-05-24 | 北京工业大学 | 一种基于特征融合的命名实体识别方法 |
CN110209812A (zh) * | 2019-05-07 | 2019-09-06 | 北京地平线机器人技术研发有限公司 | 文本分类方法和装置 |
CN110442871A (zh) * | 2019-08-06 | 2019-11-12 | 北京百度网讯科技有限公司 | 文本信息处理方法、装置及设备 |
CN110457325A (zh) * | 2019-08-12 | 2019-11-15 | 北京百度网讯科技有限公司 | 用于输出信息的方法和装置 |
CN110717039A (zh) * | 2019-09-17 | 2020-01-21 | 平安科技(深圳)有限公司 | 文本分类方法和装置、电子设备、计算机可读存储介质 |
CN110619053A (zh) * | 2019-09-18 | 2019-12-27 | 北京百度网讯科技有限公司 | 实体关系抽取模型的训练方法和抽取实体关系的方法 |
CN110825875A (zh) * | 2019-11-01 | 2020-02-21 | 科大讯飞股份有限公司 | 文本实体类型识别方法、装置、电子设备和存储介质 |
CN110717339A (zh) * | 2019-12-12 | 2020-01-21 | 北京百度网讯科技有限公司 | 语义表示模型的处理方法、装置、电子设备及存储介质 |
Non-Patent Citations (4)
Title |
---|
利用实体与依存句法结构特征的病历短文本分类方法;吕愿愿等;《中国医疗器械杂志》(第04期);全文 * |
基于概念的信息抽取研究;滕明岩;《渤海大学学报(自然科学版)》(第02期);全文 * |
基于概念簇的文本分类算法;马甲林等;《图书情报工作》(第15期);全文 * |
基于混合余弦相似度的中文文本层次关系挖掘;董洋溢;李伟华;于会;;计算机应用研究(第05期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111539209A (zh) | 2020-08-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112507715B (zh) | 确定实体之间关联关系的方法、装置、设备和存储介质 | |
CN111539209B (zh) | 用于实体分类的方法和装置 | |
CN112560912B (zh) | 分类模型的训练方法、装置、电子设备和存储介质 | |
US11928434B2 (en) | Method for text generation, device and storage medium | |
CN111967262B (zh) | 实体标签的确定方法和装置 | |
CN111104514B (zh) | 文档标签模型的训练方法及装置 | |
CN111079442B (zh) | 文档的向量化表示方法、装置和计算机设备 | |
CN111061868B (zh) | 读法预测模型获取及读法预测方法、装置及存储介质 | |
CN111523326A (zh) | 实体链指方法、装置、设备以及存储介质 | |
CN112860866B (zh) | 语义检索方法、装置、设备以及存储介质 | |
CN111859982B (zh) | 语言模型的训练方法、装置、电子设备及可读存储介质 | |
CN108628834B (zh) | 一种基于句法依存关系的词语表示学习方法 | |
KR20220003085A (ko) | 검색 결과를 결정하는 방법, 장치, 기기 및 컴퓨터 기록 매체 | |
CN111859951A (zh) | 语言模型的训练方法、装置、电子设备及可读存储介质 | |
CN111611468B (zh) | 页面交互方法、装置和电子设备 | |
CN112541076B (zh) | 目标领域的扩充语料生成方法、装置和电子设备 | |
CN112528001B (zh) | 一种信息查询方法、装置及电子设备 | |
CN110674260B (zh) | 语义相似模型的训练方法、装置、电子设备和存储介质 | |
CN112507091A (zh) | 检索信息的方法、装置、设备以及存储介质 | |
CN111859953B (zh) | 训练数据的挖掘方法、装置、电子设备及存储介质 | |
EP3832486A2 (en) | Text query method and apparatus, device and storage medium | |
US20230094730A1 (en) | Model training method and method for human-machine interaction | |
CN111326251A (zh) | 一种问诊问题输出方法、装置以及电子设备 | |
CN113869060A (zh) | 语义数据的处理方法及搜索方法、装置 | |
CN111783861A (zh) | 数据分类方法、模型训练方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |