CN116757216B - 基于聚类描述的小样本实体识别方法、装置和计算机设备 - Google Patents
基于聚类描述的小样本实体识别方法、装置和计算机设备 Download PDFInfo
- Publication number
- CN116757216B CN116757216B CN202311024641.6A CN202311024641A CN116757216B CN 116757216 B CN116757216 B CN 116757216B CN 202311024641 A CN202311024641 A CN 202311024641A CN 116757216 B CN116757216 B CN 116757216B
- Authority
- CN
- China
- Prior art keywords
- entity
- entities
- text data
- identified
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000009467 reduction Effects 0.000 claims abstract description 12
- 238000004138 cluster model Methods 0.000 claims abstract description 5
- 239000013598 vector Substances 0.000 claims description 125
- 238000012549 training Methods 0.000 claims description 40
- 238000002372 labelling Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 14
- 238000012512 characterization method Methods 0.000 claims description 12
- 238000004422 calculation algorithm Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 8
- 238000012800 visualization Methods 0.000 claims description 8
- 230000001131 transforming effect Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 235000008429 bread Nutrition 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 235000015219 food category Nutrition 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 235000012149 noodles Nutrition 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 235000021168 barbecue Nutrition 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种基于聚类描述的小样本实体识别方法、装置和计算机设备,通过获取待识别文本数据;将所述待识别文本数据输入实体边界定位模型,得到所述待识别文本数据中所有实体的实体边界;将所述待识别文本数据以及所述实体边界输入实体聚类模型,得到多个类别的实体;基于多个类别的所述实体,确定每个类别的类别标识以及对应实体。上述基于聚类描述的小样本实体识别方法,基于实体边界定位模型和实体聚类模型,能够精准识别实体边界,并对实体进行精准分类,明显提高了实体识别和分类效率,并且由于人工介入的减少,也会一定程度提高实体标记的准确性。
Description
技术领域
本申请涉及文本识别领域,特别是涉及一种基于聚类描述的小样本实体识别方法、装置和计算机设备。
背景技术
知识图谱是一种语义知识的形式化描述框架,它用节点表示语义符号,用节点之间的边表示语义符号之间的关系。语义符号一般被称作实体。知识图谱最早应用于搜索引擎,一方面通过推理实现概念检索,另一方面以图形化方式向用户展示经过分类整理的结构化知识,从而使人们从人工过滤网页寻找答案的模式中解脱出来,也可应用到智能问答、推荐等方面。命名实体识别旨在从文本数据中识别实体,比如“西湖位于杭州”这句话中“西湖”是“景点”实体,“杭州”是“城市”实体,是知识图谱构建的基础,其中识别实体包括实体(边界)的定位和实体分类。
当下技术中,基于监督学习的命名实体识别模型依赖于大量人工标注的数据,但是获取人工标注的数据往往是耗时耗力的。小样本命名实体识别旨在缓解模型对标注数据的依赖。小样本命名实体识别的任务定义为:对于N类实体,给出每一类少量(比如,5个)的支持示例,模型即可从待识别数据中定位实体并给出实体类别。目前,该领域中常用的方法将小样本命名实体识别分解为两阶段的子任务,但是这些方法都默认人工介入在模型运行之前,也即支持示例在模型运行前已经存在,不难发现,当下技术中针对实体边界的识别,以及实体文本的分类和标注均需要人工介入操作,实体识别和分类效率较低,并且由于人工介入标记过程主观因素的影响,也会导致标记的准确性较低。
发明内容
基于此,有必要针对上述技术问题,提供一种基于聚类描述的小样本实体识别方法、装置和计算机设备。
第一方面,本申请提供了一种基于聚类描述的小样本实体识别方法,所述方法包括:
获取待识别文本数据;
将所述待识别文本数据输入实体边界定位模型,得到所述待识别文本数据中所有实体的实体边界;
将所述待识别文本数据以及所述实体边界输入实体聚类模型,得到多个类别的实体;
基于多个类别的所述实体,确定每个类别的类别标识以及对应实体。
在其中一个实施例中,所述将所述待识别文本数据输入实体边界定位模型,得到所述待识别文本数据中所有实体的实体边界包括:
通过语言表征模型,将所述待识别文本数据转换为文本向量序列;
将所述文本向量序列进行线性变换,得到第一向量序列以及第二向量序列;所述第一向量序列包括:所述待识别文本中实体的开始字符信息;所述第二向量序列包括:所述待识别文本中实体的结束字符信息;
根据所述第一向量序列以及第二向量序列,得到所述待识别文本数据中所有实体的实体边界。
在其中一个实施例中,所述将所述待识别文本数据以及所述实体边界输入实体聚类模型,得到多个类别的实体包括:
通过语言表征模型,将所述待识别文本数据转换为文本向量序列;
根据所述实体边界以及所述文本向量序列,确定多个实体向量;
根据多个所述实体向量,确定多个类别的实体。
在其中一个实施例中,所述根据多个所述实体向量,确定多个类别的实体包括:
对多个所述实体向量进行降维可视化处理,确定实体类别数量;
根据所述实体类别数量,通过聚类算法对多个所述实体向量进行聚类,确定多个类别的实体。
在其中一个实施例中,所述基于多个类别的所述实体,确定每个类别的类别标识以及对应实体包括:
根据每一类别中的所有实体的实体向量,确定聚类中心;
获取与所述聚类中心距离最近的所述实体向量对应的实体文本;
根据所述实体文本,确定实体文本对应类别的类别标识。
在其中一个实施例中,所述实体边界定位模型预先训练获取,包括:
获取第一样本文本数据,所述第一样本文本数据包括预先标注实体的文本数据以及对应包括的标注实体边界;
将所述预先标注实体的文本数据以及标注实体边界作为训练集,训练得到实体边界定位模型。
在其中一个实施例中,所述实体聚类模型预先训练获取,包括:
获取第二样本文本数据,所述第二样本文本数据包括预先标注实体的文本数据和对应包括的标注实体边界以及预设实体类型;
将所述预先标注实体的文本数据和对应包括的标注实体边界以及预设实体类型作为训练集,训练得到实体聚类模型。
第二方面,本申请还提供了一种基于聚类描述的小样本实体识别装置,所述装置包括:
获取模块,用于获取待识别文本数据;
识别模块,用于将所述待识别文本数据输入实体边界定位模型,得到所述待识别文本数据中所有实体的实体边界;
分类模块,用于将所述待识别文本数据以及所述实体边界输入实体聚类模型,得到多个类别的实体;
确定模块,用于基于多个类别的所述实体,确定每个类别的类别标识以及对应实体。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待识别文本数据;
将所述待识别文本数据输入实体边界定位模型,得到所述待识别文本数据中所有实体的实体边界;
将所述待识别文本数据以及所述实体边界输入实体聚类模型,得到多个类别的实体;
基于多个类别的所述实体,确定每个类别的类别标识以及对应实体。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取待识别文本数据;
将所述待识别文本数据输入实体边界定位模型,得到所述待识别文本数据中所有实体的实体边界;
将所述待识别文本数据以及所述实体边界输入实体聚类模型,得到多个类别的实体;
基于多个类别的所述实体,确定每个类别的类别标识以及对应实体。
上述基于聚类描述的小样本实体识别方法、装置和计算机设备,通过获取待识别文本数据;将所述待识别文本数据输入实体边界定位模型,得到所述待识别文本数据中所有实体的实体边界;将所述待识别文本数据以及所述实体边界输入实体聚类模型,得到多个类别的实体;基于多个类别的所述实体,确定每个类别的类别标识以及对应实体。上述基于聚类描述的小样本实体识别方法,基于实体边界定位模型和实体聚类模型,能够精准识别实体边界,并对实体进行精准分类,明显提高了实体识别和分类效率,并且由于人工介入的减少,也会一定程度提高实体标记的准确性。
附图说明
为了更清楚地说明本申请实施例或传统技术中的技术方案,下面将对实施例或传统技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为一个实施例中基于聚类描述的小样本实体识别方法的应用环境图;
图2为本发明一个实施例的基于聚类描述的小样本实体识别方法的流程示意图;
图3为本发明一个实施例中的待识别文本数据转换的示意图;
图4为本发明一个实施例中的基于聚类描述的小样本实体识别装置的结构框图;
图5为本发明一个实施例中的计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅用以解释本申请,并不用于限定本申请。
在实体识别领域,小样本命名实体识别分解为两阶段的子任务。
第一阶段,定位待识别数据中的实体边界以获取实体。
示例性的,比如“西湖位于杭州”这句话中的实体为“西湖”、“杭州”。
第二阶段,根据第一阶段的结果分类实体。
示例性的,比如“西湖”是“景点”实体,“杭州”是“城市”实体。一般来说,因为第一阶段的子任务携带的领域信息较少,可根据语义完成实体的定位,可以在通用数据上训练模型。直观理解就是定位某句话中的实体可以不管实体的具体内容。在第二阶段的子任务中,利用给定的支持示例分类实体类型。
当下技术中都默认人工介入在模型运行之前,这种设置方法存在两个问题:
对于N类实体给出每一类的支持示例依旧包含了大量人工(尤其是N特别大时),详细地说,要界定待标注数据中实体类别N的具体数值需要人工梳理一定比例的数据,而给出每一类的支持示例则需要人工进一步挑选并标注。
人工挑选的支持示例不一定具有类型代表性,从而导致模型的性能下降。
因此,基于上述描述,如何减少人工介入提高实体识别和分类效率是一项待解决的问题。
本申请实施例提供的基于聚类描述的小样本实体识别方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。用户在终端102上做出当前行为,终端102将当前行为数据传输给服务器104,服务器104获取待识别文本数据;将所述待识别文本数据输入实体边界定位模型,得到所述待识别文本数据中所有实体的实体边界;将所述待识别文本数据以及所述实体边界输入实体聚类模型,得到多个类别的实体;基于多个类别的所述实体,确定每个类别的类别标识以及对应实体。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种基于聚类描述的小样本实体识别方法,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,该方法包括以下步骤:
步骤S201,获取待识别文本数据。
具体地,所述待识别文本数据是指需要进行实体识别的文本数据,待识别文本数据中包含多个实体文本。
步骤S202,将所述待识别文本数据输入实体边界定位模型,得到所述待识别文本数据中所有实体的实体边界;
具体地,所述实体边界是指实体文本的首尾字符在待识别文本数据对应的字符串中的位置,所述实体边界定位模型预先训练获取的,可以是深度学习训练获取的神经网络模型,因此在获取实体边界时,本实施例采用自动化训练好的实体边界定位模型,减少了人工介入;在其他实施例中,还可以依据实际情况进行实体边界定位模型的确定,在此不作一一赘述。
步骤S203,将所述待识别文本数据以及所述实体边界输入实体聚类模型,得到多个类别的实体。
具体地,所述多个类别的实体是指按照不同实体种类分类后的实体文本。
示例性的,多个类别的实体文本可以是:“食物类别”烧烤,面条,面包;“建筑类别”居民楼,写字楼,商住楼;“城市类别“杭州,成都,重庆;“景点类别”西湖,灵隐寺,雷峰塔。在其他实施例中,还可以依据实际情况进行多类别实体文本的确定,在此不作一一赘述。
具体地,所述实体聚类模型预先训练获取的,可以是深度学习训练获取的神经网络模型,因此在对实体进行分类时,本实施例采用自动化训练好的实体聚类模型,减少了人工介入;在其他实施例中,还可以依据实际情况进行实体聚类模型的确定,在此不作一一赘述。
步骤S204,基于多个类别的所述实体,确定每个类别的类别标识以及对应实体。
具体的,所述类别标识是用于表明实体文本的分类特征的标识。
示例性的,确定烧烤,面条,面包的类别为“食物类别”,并且类别标识为“food”;确定居民楼,写字楼,商住楼的类别标识为“建筑类别”并且类别标识为“build”;确定杭州,成都,重庆的类别标识为“城市类别”并且类别标识为“city”;确定西湖,灵隐寺,雷峰塔的类别标识为“景点类别”并且类别标识为“scenic site”。在其他实施例中,还可以依据实际情况进行类别标识以及对应实体的确定,在此不作一一赘述。
上述基于聚类描述的小样本实体识别方法中,通过获取待识别文本数据;将所述待识别文本数据输入实体边界定位模型,得到所述待识别文本数据中所有实体的实体边界;将所述待识别文本数据以及所述实体边界输入实体聚类模型,得到多个类别的实体;基于多个类别的所述实体,确定每个类别的类别标识以及对应实体。上述基于聚类描述的小样本实体识别方法,基于实体边界定位模型和实体聚类模型,能够精准识别实体边界,并对实体进行精准分类,明显提高了实体识别和分类效率,并且由于人工介入的减少,也会一定程度提高实体标记的准确性。
在一个实施例中,所述将所述待识别文本数据输入实体边界定位模型,得到所述待识别文本数据中所有实体的实体边界包括:
通过语言表征模型,将所述待识别文本数据转换为文本向量序列;
将所述文本向量序列进行线性变换,得到第一向量序列以及第二向量序列;所述第一向量序列包括:所述待识别文本中实体的开始字符信息;所述第二向量序列包括:所述待识别文本中实体的结束字符信息;
根据所述第一向量序列以及第二向量序列,得到所述待识别文本数据中所有实体的实体边界。
具体地,在实体边界定位模型中包括语言表征模型,因此可以将所述待识别文本数据转换为文本向量序列;还包括线性变换模块,因此可以将所述文本向量序列进行线性变换,得到第一向量序列以及第二向量序列。
具体地,通过语言表征模型,将所述待识别文本数据转换为文本向量序列是指将所述待识别文本数据经过编码器得到对应的文本向量序列。其中,编码器可以使用的是BERT,也可以使用常见的类似BERT的预训练模型,比如Roberta等,在其他实施例中,也可以依据实际情况进行编码器的选择,在此不作赘述。
参阅图3所示,所述待识别文本数据就是“输入”中显示的内容,即图中的“[CLS]my dog is [SEP]he likes play ##ing [SEP]”就是待识别文本数据,图3中所示的“令牌嵌入,片段嵌入,位置嵌入”就是根据待识别文本数据获得的初始向量序列,主要作用就是使用高维向量来表示文本序列,文本序列经过多层传递之后,其对应的向量序列也包含了上下文信息。
具体地,将所述文本向量序列进行线性变换,得到第一向量序列以及第二向量序列是指:假设所述文本向量序列为,将所述文本向量序列经过线性变换,/>得到向量序列/>,;其中,q序列中保留了对应字符是否是命名实体的开始字符信息,也即第一向量序列,k序列中保留了对应字符是否是命名实体的结束字符信息,也即第二向量序列。
具体地,因为第一向量序列中保留了对应字符是否是命名实体的开始字符信息,第二向量序列中保留了对应字符是否是命名实体的结束字符信息,因此基于上述两种序列可以确定出实体边界,实体边界就是实体的首尾字符在待测文本数据对应的文本向量序列中的位置。
在一个实施例中,实体边界定位模型还包括模型评分,模型的评分是指实体边界定位模型对于实体边界的评分,计算公式是/>;其中,如果/>的评分大于0,就表示待测文本数据中存在这个实体边界,也就是待测文本数据中存在一个实体,位置为/>。
示例性的,将长度为n的文本数据t经过编码器得到向量序列;将向量序列/>经过线性变换/>,得到向量序列/>,/>;对于实体边界/>,模型的评分为/>,若/>大于0,则为实体边界。
上述实施例,将待识别文本数据转换为文本向量序列并进行线性变换,得到第一向量序列也即待识别文本中实体的开始字符信息以及第二向量序列待识别文本中实体的结束字符信息,根据所述第一向量序列以及第二向量序列,提高了识别实体边界的准确性。
在一个实施例中,所述将所述待识别文本数据以及所述实体边界输入实体聚类模型,得到多个类别的实体包括:
通过语言表征模型,将所述待识别文本数据转换为文本向量序列;
根据所述实体边界以及所述文本向量序列,确定多个实体向量;
根据多个所述实体向量,确定多个类别的实体。
具体地,在实体聚类模型中包括语言表征模型,因此可以将所述待识别文本数据转换为文本向量序列;并且还可以基于先前得到的实体边界与所述文本向量序列综合确定多个实体向量;根据多个实体向量确定出对应的多个类别的实体。
具体地,通过语言表征模型,将所述待识别文本数据转换为文本向量序列是指将所述待识别文本数据经过编码器得到对应的文本向量序列。可以依据实际情况进行编码器的选择,在此不作赘述。
具体地,因为实体边界能够表示实体的首尾字符在待测文本数据对应的文本向量序列中的位置,因此显而易见,根据所述实体边界以及所述文本向量序列可以清楚确定多个实体向量,当实体向量的特征不同时,对应的实体类型也是不同的,因此基于多个实体向量可以确定出对应的多个类别的实体。
示例性的,将长度为n的文本数据t经过编码器得到向量序列;根据先前获取的实体向量,假设其中一个实体边界为/>,则实体向量为。
上述实施例,将待识别文本数据转换为文本向量序列并和所述实体边界一起进行综合判断确定出实体向量,再根据实体向量确定出对应的多个类别的实体,提高了实体分类的准确性。
在一个实施例中,所述根据多个所述实体向量,确定多个类别的实体包括:
对多个所述实体向量进行降维可视化处理,确定实体类别数量;
根据所述实体类别数量,通过聚类算法对多个所述实体向量进行聚类,确定多个类别的实体。
具体地,降维(Dimension reduction,DR)是高维数据探索领域(如机器学习、数据科学、信息可视化)的重要组成部分,有丰富的应用场景(如模式识别、计算加速、离群点分析等)。高维数据的降维可视化能化无形为有形,赋予抽象的高维数据更丰富的视觉效果和更直观的感受,帮助我们从可以理解的低维空间中探索和识别数据的隐藏模式,并通过进一步的分析形成对观测数据集更好的认知,因此可以将多个所述实体向量进行降维可视化处理,能够大幅度降低数据维度,进而确定实体类别数量。
具体地,根据确定的聚类数量,利用聚类算法对实体向量进行聚类,可以精准输出出对应的多个类别的实体,在其他实施例中,也可以依据实际情况进行聚类算法的选择,在此不作一一赘述。
上述实施例,对多个所述实体向量进行降维可视化处理,确定实体类别数量,进而通过聚类算法对多个所述实体向量进行聚类,确定多个类别的实体,利用聚类算法实现了实体的精准快速分类。
在一个实施例中,所述基于多个类别的所述实体,确定每个类别的类别标识以及对应实体包括:
根据每一类别中的所有实体的实体向量,确定聚类中心;
获取与所述聚类中心距离最近的所述实体向量对应的实体文本;
根据所述实体文本,确定实体文本对应类别的类别标识。
具体地,利用聚类算法比如k-means对实体向量进行聚类的实现过程如下:
1.选择初始化的k个样本实体作为初始聚类中心a=a1,a2,……ak;
2.针对数据集中每个样本x;计算它到k个聚类中心的距离并将其分到距离最小的聚类中心所对应的类中;
3.针对每个类别aj,重新计算它的聚类中心(aj即属于该类的所有样本的质心);
4.重复上面2和3步骤进行迭代,直到达到某个中止条件,示例性的,迭代次数、最小误差变化等;
5.针对聚类结果中的每一类,计算聚类中心aj,并筛选离聚类中心最近的实体向量并输出其原始文本;
6.针对原始文本的特性,确定类别标识。
上述实施例,根据每一类别中的所有实体的实体向量距离聚类中心的距离特征精准筛选实体向量输出其原始文本,进而确定类别标识,利用较为常见的聚类算法比如k-means实现了实体的精准快速分类。
在一个实施例中,所述实体边界定位模型预先训练获取,包括:
获取第一样本文本数据,所述第一样本文本数据包括预先标注实体的文本数据以及对应包括的标注实体边界;
将所述预先标注实体的文本数据以及标注实体边界作为训练集,训练得到实体边界定位模型。
具体地,根据训练集数据计算损失,计算并更新模型参数:
其中P为所有实体边界的集合。
可以理解的,训练集数据就是所述预先标注实体的文本数据的字符串对应的真实的实体边界用于训练模型,也即公式中的P。基于损失公式计算结果,更新模型参数能够使模型更好的拟合训练数据,训练的模型也更加贴合实际情况更加准确。
具体地,所述预先标注实体的文本数据是指预先已经确定其中全部实体文本的数据;对应包括的标注实体边界是指实体的首尾字符在待测文本数据对应的文本向量序列中的位置,训练集中的样本数据越多,最终训练得到的模型更加贴合实际,更加精确。
在一个实施例中,所述实体聚类模型预先训练获取,包括:
获取第二样本文本数据,所述第二样本文本数据包括预先标注实体的文本数据和对应包括的标注实体边界以及预设实体类型;
将所述预先标注实体的文本数据和对应包括的标注实体边界以及预设实体类型作为训练集,训练得到实体聚类模型。
具体地,根据训练集数据计算对比损失,并更新模型参数:
其中Q为所有实体的集合,为实体q的正例(也就是同一类型),p为实体q的负例(也就是不同类型)。
可以理解的,当q和正例相似,并且和负例不相似的时候,这个损失值应该比较低。反之,如果和正例不相似,或者和负例相似了,那么损失值就应该大,从而惩罚模型,促使模型进行参数更新。因此,q和正例的相似度为分子,越相似度越高,损失值越小,q和负例的相似度为分母,相似度越高,损失值越大。基于对比损失公式计算结果,更新模型参数能够使模型更好的拟合训练数据,训练的模型也更加贴合实际情况更加准确。
具体地,所述预先标注实体的文本数据是指预先已经确定其中全部实体文本的数据;对应包括的标注实体边界是指实体的首尾字符在待测文本数据对应的文本向量序列中的位置;预设实体类型是指实体文本的类别,其中,训练集中的样本数据越多,最终训练得到的模型更加贴合实际,更加精确。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的基于聚类描述的小样本实体识别方法的基于聚类描述的小样本实体识别装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个基于聚类描述的小样本实体识别装置实施例中的具体限定可以参见上文中对于基于聚类描述的小样本实体识别方法的限定,在此不再赘述。
在一个实施例中,如图4所示,提供了一种基于聚类描述的小样本实体识别装置,包括:获取模块410、识别模块420、分类模块430和确定模块440,其中:
获取模块410,用于获取待识别文本数据。
识别模块420,用于将所述待识别文本数据输入实体边界定位模型,得到所述待识别文本数据中所有实体的实体边界。
识别模块420,还用于通过语言表征模型,将所述待识别文本数据转换为文本向量序列;将所述文本向量序列进行线性变换,得到第一向量序列以及第二向量序列;所述第一向量序列包括:所述待识别文本中实体的开始字符信息;所述第二向量序列包括:所述待识别文本中实体的结束字符信息;根据所述第一向量序列以及第二向量序列,得到所述待识别文本数据中所有实体的实体边界。
分类模块430,用于将所述待识别文本数据以及所述实体边界输入实体聚类模型,得到多个类别的实体。
分类模块430,还用于通过语言表征模型,将所述待识别文本数据转换为文本向量序列;根据所述实体边界以及所述文本向量序列,确定多个实体向量;根据多个所述实体向量,确定多个类别的实体。
分类模块430,还用于对多个所述实体向量进行降维可视化处理,确定实体类别数量;根据所述实体类别数量,通过聚类算法对多个所述实体向量进行聚类,确定多个类别的实体。
确定模块440,用于基于多个类别的所述实体,确定每个类别的类别标识以及对应实体。
确定模块440,还用于根据每一类别中的所有实体的实体向量,确定聚类中心;获取与所述聚类中心距离最近的所述实体向量对应的实体文本;根据所述实体文本,确定实体文本对应类别的类别标识。
基于聚类描述的小样本实体识别装置,还包括:第一训练模块,第二训练模块。
第一训练模块,用于获取第一样本文本数据,所述第一样本文本数据包括预先标注实体的文本数据以及对应包括的标注实体边界;将所述预先标注实体的文本数据以及标注实体边界作为训练集,训练得到实体边界定位模型。
第二训练模块,用于获取第二样本文本数据,所述第二样本文本数据包括预先标注实体的文本数据和对应包括的标注实体边界以及预设实体类型;将所述预先标注实体的文本数据和对应包括的标注实体边界以及预设实体类型作为训练集,训练得到实体聚类模型。
上述基于聚类描述的小样本实体识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种基于聚类描述的小样本实体识别装置。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取待识别文本数据;
将所述待识别文本数据输入实体边界定位模型,得到所述待识别文本数据中所有实体的实体边界;
将所述待识别文本数据以及所述实体边界输入实体聚类模型,得到多个类别的实体;
基于多个类别的所述实体,确定每个类别的类别标识以及对应实体。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取待识别文本数据;
将所述待识别文本数据输入实体边界定位模型,得到所述待识别文本数据中所有实体的实体边界;
将所述待识别文本数据以及所述实体边界输入实体聚类模型,得到多个类别的实体;
基于多个类别的所述实体,确定每个类别的类别标识以及对应实体。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random AccessMemory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (9)
1.一种基于聚类描述的小样本实体识别方法,其特征在于,包括:
获取待识别文本数据;
将所述待识别文本数据输入实体边界定位模型,得到所述待识别文本数据中所有实体的实体边界;
将所述待识别文本数据以及所述实体边界输入实体聚类模型,得到多个类别的实体;
基于多个类别的所述实体,确定每个类别的类别标识以及对应实体;
所述基于多个类别的所述实体,确定每个类别的类别标识以及对应实体包括:根据每一类别中的所有实体的实体向量,确定聚类中心;获取与所述聚类中心距离最近的所述实体向量对应的实体文本;根据所述实体文本,确定实体文本对应类别的类别标识。
2.根据权利要求1所述的聚类描述的小样本实体识别方法,其特征在于,所述将所述待识别文本数据输入实体边界定位模型,得到所述待识别文本数据中所有实体的实体边界包括:
通过语言表征模型,将所述待识别文本数据转换为文本向量序列;
将所述文本向量序列进行线性变换,得到第一向量序列以及第二向量序列;所述第一向量序列包括:所述待识别文本中实体的开始字符信息;所述第二向量序列包括:所述待识别文本中实体的结束字符信息;
根据所述第一向量序列以及第二向量序列,得到所述待识别文本数据中所有实体的实体边界。
3.根据权利要求1所述的聚类描述的小样本实体识别方法,其特征在于,所述将所述待识别文本数据以及所述实体边界输入实体聚类模型,得到多个类别的实体包括:
通过语言表征模型,将所述待识别文本数据转换为文本向量序列;
根据所述实体边界以及所述文本向量序列,确定多个实体向量;
根据多个所述实体向量,确定多个类别的实体。
4.根据权利要求3所述的聚类描述的小样本实体识别方法,其特征在于,所述根据多个所述实体向量,确定多个类别的实体包括:
对多个所述实体向量进行降维可视化处理,确定实体类别数量;
根据所述实体类别数量,通过聚类算法对多个所述实体向量进行聚类,确定多个类别的实体。
5.根据权利要求1所述的聚类描述的小样本实体识别方法,其特征在于,所述实体边界定位模型预先训练获取,包括:
获取第一样本文本数据,所述第一样本文本数据包括预先标注实体的文本数据以及对应包括的标注实体边界;
将所述预先标注实体的文本数据以及标注实体边界作为训练集,训练得到实体边界定位模型。
6.根据权利要求1所述的聚类描述的小样本实体识别方法,其特征在于,所述实体聚类模型预先训练获取,包括:
获取第二样本文本数据,所述第二样本文本数据包括预先标注实体的文本数据和对应包括的标注实体边界以及预设实体类型;
将所述预先标注实体的文本数据和对应包括的标注实体边界以及预设实体类型作为训练集,训练得到实体聚类模型。
7.一种基于聚类描述的小样本实体识别装置,其特征在于,所述装置包括:
获取模块,用于获取待识别文本数据;
识别模块,用于将所述待识别文本数据输入实体边界定位模型,得到所述待识别文本数据中所有实体的实体边界;
分类模块,用于将所述待识别文本数据以及所述实体边界输入实体聚类模型,得到多个类别的实体;
确定模块,用于基于多个类别的所述实体,确定每个类别的类别标识以及对应实体;
所述基于多个类别的所述实体,确定每个类别的类别标识以及对应实体包括:根据每一类别中的所有实体的实体向量,确定聚类中心;获取与所述聚类中心距离最近的所述实体向量对应的实体文本;根据所述实体文本,确定实体文本对应类别的类别标识。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至权利要求6中任一项所述的方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至权利要求6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311024641.6A CN116757216B (zh) | 2023-08-15 | 2023-08-15 | 基于聚类描述的小样本实体识别方法、装置和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311024641.6A CN116757216B (zh) | 2023-08-15 | 2023-08-15 | 基于聚类描述的小样本实体识别方法、装置和计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116757216A CN116757216A (zh) | 2023-09-15 |
CN116757216B true CN116757216B (zh) | 2023-11-07 |
Family
ID=87948123
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311024641.6A Active CN116757216B (zh) | 2023-08-15 | 2023-08-15 | 基于聚类描述的小样本实体识别方法、装置和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116757216B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112487812A (zh) * | 2020-10-21 | 2021-03-12 | 上海旻浦科技有限公司 | 一种基于边界识别的嵌套实体识别方法及系统 |
CN112765984A (zh) * | 2020-12-31 | 2021-05-07 | 平安资产管理有限责任公司 | 命名实体识别方法、装置、计算机设备和存储介质 |
CN113673248A (zh) * | 2021-08-23 | 2021-11-19 | 中国人民解放军32801部队 | 试验鉴定小样本文本的命名实体识别方法 |
CN113779202A (zh) * | 2021-11-15 | 2021-12-10 | 腾讯科技(深圳)有限公司 | 命名实体识别方法、装置、计算机设备和存储介质 |
CN116340516A (zh) * | 2023-03-16 | 2023-06-27 | 北京海卓飞网络科技有限公司 | 实体关系的聚类提取方法、装置、设备及存储介质 |
CN116341553A (zh) * | 2023-04-07 | 2023-06-27 | 平安科技(深圳)有限公司 | 命名实体识别方法和装置、电子设备及存储介质 |
CN116432655A (zh) * | 2023-06-12 | 2023-07-14 | 山东大学 | 基于语用知识学习的少样本命名实体识别方法和装置 |
CN116562291A (zh) * | 2023-04-03 | 2023-08-08 | 华南理工大学 | 一种基于边界检测的中文嵌套命名实体识别方法 |
CN116595982A (zh) * | 2023-05-19 | 2023-08-15 | 华中科技大学 | 一种基于动态图卷积的嵌套命名实体识别方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113886571A (zh) * | 2020-07-01 | 2022-01-04 | 北京三星通信技术研究有限公司 | 实体识别方法、装置、电子设备及计算机可读存储介质 |
KR20230099269A (ko) * | 2021-12-27 | 2023-07-04 | 현대자동차주식회사 | 개체명 인식 시스템 및 개체명 인식 방법 |
-
2023
- 2023-08-15 CN CN202311024641.6A patent/CN116757216B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112487812A (zh) * | 2020-10-21 | 2021-03-12 | 上海旻浦科技有限公司 | 一种基于边界识别的嵌套实体识别方法及系统 |
CN112765984A (zh) * | 2020-12-31 | 2021-05-07 | 平安资产管理有限责任公司 | 命名实体识别方法、装置、计算机设备和存储介质 |
CN113673248A (zh) * | 2021-08-23 | 2021-11-19 | 中国人民解放军32801部队 | 试验鉴定小样本文本的命名实体识别方法 |
CN113779202A (zh) * | 2021-11-15 | 2021-12-10 | 腾讯科技(深圳)有限公司 | 命名实体识别方法、装置、计算机设备和存储介质 |
CN116340516A (zh) * | 2023-03-16 | 2023-06-27 | 北京海卓飞网络科技有限公司 | 实体关系的聚类提取方法、装置、设备及存储介质 |
CN116562291A (zh) * | 2023-04-03 | 2023-08-08 | 华南理工大学 | 一种基于边界检测的中文嵌套命名实体识别方法 |
CN116341553A (zh) * | 2023-04-07 | 2023-06-27 | 平安科技(深圳)有限公司 | 命名实体识别方法和装置、电子设备及存储介质 |
CN116595982A (zh) * | 2023-05-19 | 2023-08-15 | 华中科技大学 | 一种基于动态图卷积的嵌套命名实体识别方法 |
CN116432655A (zh) * | 2023-06-12 | 2023-07-14 | 山东大学 | 基于语用知识学习的少样本命名实体识别方法和装置 |
Non-Patent Citations (4)
Title |
---|
Improving Chinese Named Entity Recognition by Large-Scale Syntactic Dependency Graph;Zhu, Peng等;《IEEE-ACM TRANSACTION ON AUDIO SPEECH AND LANGUAGE PROCESSING》;第30卷;全文 * |
一种基于支持向量数据描述的聚类多模型软测量建模;孙茂伟;杨慧中;;控制工程(第07期);全文 * |
基于半监督学习的中文电子病历分词和名实体挖掘;张立邦;《中国优秀硕士论文全文数据库(信息科技辑)》(第3期);全文 * |
基于神经网络的片段级中文命名实体识别;王蕾;谢云;周俊生;顾彦慧;曲维光;;中文信息学报(第03期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116757216A (zh) | 2023-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6790286B2 (ja) | 強化学習を用いたデバイス配置最適化 | |
US10990899B2 (en) | Deep and wide machine learned model for job recommendation | |
US20240095247A1 (en) | Computerized information extraction from tables | |
CN107609185B (zh) | 用于poi的相似度计算的方法、装置、设备和计算机可读存储介质 | |
Caramiaux et al. | Segmenting and parsing instrumentalists' gestures | |
Walker et al. | TimeClassifier: a visual analytic system for the classification of multi-dimensional time series data | |
CN109446328A (zh) | 一种文本识别方法、装置及其存储介质 | |
US20240177697A1 (en) | Audio data processing method and apparatus, computer device, and storage medium | |
CN116151263B (zh) | 多模态命名实体识别方法、装置、设备以及存储介质 | |
CN115131698B (zh) | 视频属性确定方法、装置、设备及存储介质 | |
US11775144B2 (en) | Place-based semantic similarity platform | |
US10896384B1 (en) | Modification of base distance representation using dynamic objective | |
US10459901B2 (en) | Embedded deep representation of social network taxonomy | |
CN117077679A (zh) | 命名实体识别方法和装置 | |
CN116757216B (zh) | 基于聚类描述的小样本实体识别方法、装置和计算机设备 | |
CN112883188A (zh) | 一种情感分类方法、装置、电子设备和存储介质 | |
CN111814812A (zh) | 建模方法、装置、存储介质、电子设备及场景识别方法 | |
CN116186297A (zh) | 一种基于图流形学习的文献关系发现方法及系统 | |
Wang et al. | Extraction and recognition method of basketball players’ dynamic human actions based on deep learning | |
CN114168787A (zh) | 音乐推荐方法、装置、计算机设备和存储介质 | |
CN113010687A (zh) | 一种习题标签预测方法、装置、存储介质以及计算机设备 | |
Ji | [Retracted] Research on Recognition Effect of DSCN Network Structure in Hand‐Drawn Sketch | |
CN118069932B (zh) | 配置信息的推荐方法、装置、计算机设备 | |
CN116778264B (zh) | 基于类增学习的对象分类方法、图像分类方法及相关设备 | |
CN114512113B (zh) | 一种音频合成方法及相关方法和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |