CN116757216A - 基于聚类描述的小样本实体识别方法、装置和计算机设备 - Google Patents

基于聚类描述的小样本实体识别方法、装置和计算机设备 Download PDF

Info

Publication number
CN116757216A
CN116757216A CN202311024641.6A CN202311024641A CN116757216A CN 116757216 A CN116757216 A CN 116757216A CN 202311024641 A CN202311024641 A CN 202311024641A CN 116757216 A CN116757216 A CN 116757216A
Authority
CN
China
Prior art keywords
entity
text data
entities
identified
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311024641.6A
Other languages
English (en)
Other versions
CN116757216B (zh
Inventor
费军波
张丽颖
朱健
曾令仿
陈�光
程稳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202311024641.6A priority Critical patent/CN116757216B/zh
Publication of CN116757216A publication Critical patent/CN116757216A/zh
Application granted granted Critical
Publication of CN116757216B publication Critical patent/CN116757216B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种基于聚类描述的小样本实体识别方法、装置和计算机设备,通过获取待识别文本数据;将所述待识别文本数据输入实体边界定位模型,得到所述待识别文本数据中所有实体的实体边界;将所述待识别文本数据以及所述实体边界输入实体聚类模型,得到多个类别的实体;基于多个类别的所述实体,确定每个类别的类别标识以及对应实体。上述基于聚类描述的小样本实体识别方法,基于实体边界定位模型和实体聚类模型,能够精准识别实体边界,并对实体进行精准分类,明显提高了实体识别和分类效率,并且由于人工介入的减少,也会一定程度提高实体标记的准确性。

Description

基于聚类描述的小样本实体识别方法、装置和计算机设备
技术领域
本申请涉及文本识别领域,特别是涉及一种基于聚类描述的小样本实体识别方法、装置和计算机设备。
背景技术
知识图谱是一种语义知识的形式化描述框架,它用节点表示语义符号,用节点之间的边表示语义符号之间的关系。语义符号一般被称作实体。知识图谱最早应用于搜索引擎,一方面通过推理实现概念检索,另一方面以图形化方式向用户展示经过分类整理的结构化知识,从而使人们从人工过滤网页寻找答案的模式中解脱出来,也可应用到智能问答、推荐等方面。命名实体识别旨在从文本数据中识别实体,比如“西湖位于杭州”这句话中“西湖”是“景点”实体,“杭州”是“城市”实体,是知识图谱构建的基础,其中识别实体包括实体(边界)的定位和实体分类。
当下技术中,基于监督学习的命名实体识别模型依赖于大量人工标注的数据,但是获取人工标注的数据往往是耗时耗力的。小样本命名实体识别旨在缓解模型对标注数据的依赖。小样本命名实体识别的任务定义为:对于N类实体,给出每一类少量(比如,5个)的支持示例,模型即可从待识别数据中定位实体并给出实体类别。目前,该领域中常用的方法将小样本命名实体识别分解为两阶段的子任务,但是这些方法都默认人工介入在模型运行之前,也即支持示例在模型运行前已经存在,不难发现,当下技术中针对实体边界的识别,以及实体文本的分类和标注均需要人工介入操作,实体识别和分类效率较低,并且由于人工介入标记过程主观因素的影响,也会导致标记的准确性较低。
发明内容
基于此,有必要针对上述技术问题,提供一种基于聚类描述的小样本实体识别方法、装置和计算机设备。
第一方面,本申请提供了一种基于聚类描述的小样本实体识别方法,所述方法包括:
获取待识别文本数据;
将所述待识别文本数据输入实体边界定位模型,得到所述待识别文本数据中所有实体的实体边界;
将所述待识别文本数据以及所述实体边界输入实体聚类模型,得到多个类别的实体;
基于多个类别的所述实体,确定每个类别的类别标识以及对应实体。
在其中一个实施例中,所述将所述待识别文本数据输入实体边界定位模型,得到所述待识别文本数据中所有实体的实体边界包括:
通过语言表征模型,将所述待识别文本数据转换为文本向量序列;
将所述文本向量序列进行线性变换,得到第一向量序列以及第二向量序列;所述第一向量序列包括:所述待识别文本中实体的开始字符信息;所述第二向量序列包括:所述待识别文本中实体的结束字符信息;
根据所述第一向量序列以及第二向量序列,得到所述待识别文本数据中所有实体的实体边界。
在其中一个实施例中,所述将所述待识别文本数据以及所述实体边界输入实体聚类模型,得到多个类别的实体包括:
通过语言表征模型,将所述待识别文本数据转换为文本向量序列;
根据所述实体边界以及所述文本向量序列,确定多个实体向量;
根据多个所述实体向量,确定多个类别的实体。
在其中一个实施例中,所述根据多个所述实体向量,确定多个类别的实体包括:
对多个所述实体向量进行降维可视化处理,确定实体类别数量;
根据所述实体类别数量,通过聚类算法对多个所述实体向量进行聚类,确定多个类别的实体。
在其中一个实施例中,所述基于多个类别的所述实体,确定每个类别的类别标识以及对应实体包括:
根据每一类别中的所有实体的实体向量,确定聚类中心;
获取与所述聚类中心距离最近的所述实体向量对应的实体文本;
根据所述实体文本,确定实体文本对应类别的类别标识。
在其中一个实施例中,所述实体边界定位模型预先训练获取,包括:
获取第一样本文本数据,所述第一样本文本数据包括预先标注实体的文本数据以及对应包括的标注实体边界;
将所述预先标注实体的文本数据以及标注实体边界作为训练集,训练得到实体边界定位模型。
在其中一个实施例中,所述实体聚类模型预先训练获取,包括:
获取第二样本文本数据,所述第二样本文本数据包括预先标注实体的文本数据和对应包括的标注实体边界以及预设实体类型;
将所述预先标注实体的文本数据和对应包括的标注实体边界以及预设实体类型作为训练集,训练得到实体聚类模型。
第二方面,本申请还提供了一种基于聚类描述的小样本实体识别装置,所述装置包括:
获取模块,用于获取待识别文本数据;
识别模块,用于将所述待识别文本数据输入实体边界定位模型,得到所述待识别文本数据中所有实体的实体边界;
分类模块,用于将所述待识别文本数据以及所述实体边界输入实体聚类模型,得到多个类别的实体;
确定模块,用于基于多个类别的所述实体,确定每个类别的类别标识以及对应实体。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待识别文本数据;
将所述待识别文本数据输入实体边界定位模型,得到所述待识别文本数据中所有实体的实体边界;
将所述待识别文本数据以及所述实体边界输入实体聚类模型,得到多个类别的实体;
基于多个类别的所述实体,确定每个类别的类别标识以及对应实体。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取待识别文本数据;
将所述待识别文本数据输入实体边界定位模型,得到所述待识别文本数据中所有实体的实体边界;
将所述待识别文本数据以及所述实体边界输入实体聚类模型,得到多个类别的实体;
基于多个类别的所述实体,确定每个类别的类别标识以及对应实体。
上述基于聚类描述的小样本实体识别方法、装置和计算机设备,通过获取待识别文本数据;将所述待识别文本数据输入实体边界定位模型,得到所述待识别文本数据中所有实体的实体边界;将所述待识别文本数据以及所述实体边界输入实体聚类模型,得到多个类别的实体;基于多个类别的所述实体,确定每个类别的类别标识以及对应实体。上述基于聚类描述的小样本实体识别方法,基于实体边界定位模型和实体聚类模型,能够精准识别实体边界,并对实体进行精准分类,明显提高了实体识别和分类效率,并且由于人工介入的减少,也会一定程度提高实体标记的准确性。
附图说明
为了更清楚地说明本申请实施例或传统技术中的技术方案,下面将对实施例或传统技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为一个实施例中基于聚类描述的小样本实体识别方法的应用环境图;
图2为本发明一个实施例的基于聚类描述的小样本实体识别方法的流程示意图;
图3为本发明一个实施例中的待识别文本数据转换的示意图;
图4为本发明一个实施例中的基于聚类描述的小样本实体识别装置的结构框图;
图5为本发明一个实施例中的计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅用以解释本申请,并不用于限定本申请。
在实体识别领域,小样本命名实体识别分解为两阶段的子任务。
第一阶段,定位待识别数据中的实体边界以获取实体。
示例性的,比如“西湖位于杭州”这句话中的实体为“西湖”、“杭州”。
第二阶段,根据第一阶段的结果分类实体。
示例性的,比如“西湖”是“景点”实体,“杭州”是“城市”实体。一般来说,因为第一阶段的子任务携带的领域信息较少,可根据语义完成实体的定位,可以在通用数据上训练模型。直观理解就是定位某句话中的实体可以不管实体的具体内容。在第二阶段的子任务中,利用给定的支持示例分类实体类型。
当下技术中都默认人工介入在模型运行之前,这种设置方法存在两个问题:
对于N类实体给出每一类的支持示例依旧包含了大量人工(尤其是N特别大时),详细地说,要界定待标注数据中实体类别N的具体数值需要人工梳理一定比例的数据,而给出每一类的支持示例则需要人工进一步挑选并标注。
人工挑选的支持示例不一定具有类型代表性,从而导致模型的性能下降。
因此,基于上述描述,如何减少人工介入提高实体识别和分类效率是一项待解决的问题。
本申请实施例提供的基于聚类描述的小样本实体识别方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。用户在终端102上做出当前行为,终端102将当前行为数据传输给服务器104,服务器104获取待识别文本数据;将所述待识别文本数据输入实体边界定位模型,得到所述待识别文本数据中所有实体的实体边界;将所述待识别文本数据以及所述实体边界输入实体聚类模型,得到多个类别的实体;基于多个类别的所述实体,确定每个类别的类别标识以及对应实体。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种基于聚类描述的小样本实体识别方法,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,该方法包括以下步骤:
步骤S201,获取待识别文本数据。
具体地,所述待识别文本数据是指需要进行实体识别的文本数据,待识别文本数据中包含多个实体文本。
步骤S202,将所述待识别文本数据输入实体边界定位模型,得到所述待识别文本数据中所有实体的实体边界;
具体地,所述实体边界是指实体文本的首尾字符在待识别文本数据对应的字符串中的位置,所述实体边界定位模型预先训练获取的,可以是深度学习训练获取的神经网络模型,因此在获取实体边界时,本实施例采用自动化训练好的实体边界定位模型,减少了人工介入;在其他实施例中,还可以依据实际情况进行实体边界定位模型的确定,在此不作一一赘述。
步骤S203,将所述待识别文本数据以及所述实体边界输入实体聚类模型,得到多个类别的实体。
具体地,所述多个类别的实体是指按照不同实体种类分类后的实体文本。
示例性的,多个类别的实体文本可以是:“食物类别”烧烤,面条,面包;“建筑类别”居民楼,写字楼,商住楼;“城市类别“杭州,成都,重庆;“景点类别”西湖,灵隐寺,雷峰塔。在其他实施例中,还可以依据实际情况进行多类别实体文本的确定,在此不作一一赘述。
具体地,所述实体聚类模型预先训练获取的,可以是深度学习训练获取的神经网络模型,因此在对实体进行分类时,本实施例采用自动化训练好的实体聚类模型,减少了人工介入;在其他实施例中,还可以依据实际情况进行实体聚类模型的确定,在此不作一一赘述。
步骤S204,基于多个类别的所述实体,确定每个类别的类别标识以及对应实体。
具体的,所述类别标识是用于表明实体文本的分类特征的标识。
示例性的,确定烧烤,面条,面包的类别为“食物类别”,并且类别标识为“food”;确定居民楼,写字楼,商住楼的类别标识为“建筑类别”并且类别标识为“build”;确定杭州,成都,重庆的类别标识为“城市类别”并且类别标识为“city”;确定西湖,灵隐寺,雷峰塔的类别标识为“景点类别”并且类别标识为“scenic site”。在其他实施例中,还可以依据实际情况进行类别标识以及对应实体的确定,在此不作一一赘述。
上述基于聚类描述的小样本实体识别方法中,通过获取待识别文本数据;将所述待识别文本数据输入实体边界定位模型,得到所述待识别文本数据中所有实体的实体边界;将所述待识别文本数据以及所述实体边界输入实体聚类模型,得到多个类别的实体;基于多个类别的所述实体,确定每个类别的类别标识以及对应实体。上述基于聚类描述的小样本实体识别方法,基于实体边界定位模型和实体聚类模型,能够精准识别实体边界,并对实体进行精准分类,明显提高了实体识别和分类效率,并且由于人工介入的减少,也会一定程度提高实体标记的准确性。
在一个实施例中,所述将所述待识别文本数据输入实体边界定位模型,得到所述待识别文本数据中所有实体的实体边界包括:
通过语言表征模型,将所述待识别文本数据转换为文本向量序列;
将所述文本向量序列进行线性变换,得到第一向量序列以及第二向量序列;所述第一向量序列包括:所述待识别文本中实体的开始字符信息;所述第二向量序列包括:所述待识别文本中实体的结束字符信息;
根据所述第一向量序列以及第二向量序列,得到所述待识别文本数据中所有实体的实体边界。
具体地,在实体边界定位模型中包括语言表征模型,因此可以将所述待识别文本数据转换为文本向量序列;还包括线性变换模块,因此可以将所述文本向量序列进行线性变换,得到第一向量序列以及第二向量序列。
具体地,通过语言表征模型,将所述待识别文本数据转换为文本向量序列是指将所述待识别文本数据经过编码器得到对应的文本向量序列。其中,编码器可以使用的是BERT,也可以使用常见的类似BERT的预训练模型,比如Roberta等,在其他实施例中,也可以依据实际情况进行编码器的选择,在此不作赘述。
参阅图3所示,所述待识别文本数据就是“输入”中显示的内容,即图中的“[CLS]my dog is [SEP]he likes play ##ing [SEP]”就是待识别文本数据,图3中所示的“令牌嵌入,片段嵌入,位置嵌入”就是根据待识别文本数据获得的初始向量序列,主要作用就是使用高维向量来表示文本序列,文本序列经过多层传递之后,其对应的向量序列也包含了上下文信息。
具体地,将所述文本向量序列进行线性变换,得到第一向量序列以及第二向量序列是指:假设所述文本向量序列为,将所述文本向量序列经过线性变换,/>得到向量序列/>,/>;其中,q序列中保留了对应字符是否是命名实体的开始字符信息,也即第一向量序列,k序列中保留了对应字符是否是命名实体的结束字符信息,也即第二向量序列。
具体地,因为第一向量序列中保留了对应字符是否是命名实体的开始字符信息,第二向量序列中保留了对应字符是否是命名实体的结束字符信息,因此基于上述两种序列可以确定出实体边界,实体边界就是实体的首尾字符在待测文本数据对应的文本向量序列中的位置。
在一个实施例中,实体边界定位模型还包括模型评分,模型的评分是指实体边界定位模型对于实体边界的评分,计算公式是/>;其中,如果/>的评分大于0,就表示待测文本数据中存在这个实体边界,也就是待测文本数据中存在一个实体,位置为/>
示例性的,将长度为n的文本数据t经过编码器得到向量序列;将向量序列/>经过线性变换/>,/>得到向量序列/>,/>;对于实体边界/>,模型的评分为/>,若/>大于0,则为实体边界。
上述实施例,将待识别文本数据转换为文本向量序列并进行线性变换,得到第一向量序列也即待识别文本中实体的开始字符信息以及第二向量序列待识别文本中实体的结束字符信息,根据所述第一向量序列以及第二向量序列,提高了识别实体边界的准确性。
在一个实施例中,所述将所述待识别文本数据以及所述实体边界输入实体聚类模型,得到多个类别的实体包括:
通过语言表征模型,将所述待识别文本数据转换为文本向量序列;
根据所述实体边界以及所述文本向量序列,确定多个实体向量;
根据多个所述实体向量,确定多个类别的实体。
具体地,在实体聚类模型中包括语言表征模型,因此可以将所述待识别文本数据转换为文本向量序列;并且还可以基于先前得到的实体边界与所述文本向量序列综合确定多个实体向量;根据多个实体向量确定出对应的多个类别的实体。
具体地,通过语言表征模型,将所述待识别文本数据转换为文本向量序列是指将所述待识别文本数据经过编码器得到对应的文本向量序列。可以依据实际情况进行编码器的选择,在此不作赘述。
具体地,因为实体边界能够表示实体的首尾字符在待测文本数据对应的文本向量序列中的位置,因此显而易见,根据所述实体边界以及所述文本向量序列可以清楚确定多个实体向量,当实体向量的特征不同时,对应的实体类型也是不同的,因此基于多个实体向量可以确定出对应的多个类别的实体。
示例性的,将长度为n的文本数据t经过编码器得到向量序列;根据先前获取的实体向量,假设其中一个实体边界为/>,则实体向量为/>
上述实施例,将待识别文本数据转换为文本向量序列并和所述实体边界一起进行综合判断确定出实体向量,再根据实体向量确定出对应的多个类别的实体,提高了实体分类的准确性。
在一个实施例中,所述根据多个所述实体向量,确定多个类别的实体包括:
对多个所述实体向量进行降维可视化处理,确定实体类别数量;
根据所述实体类别数量,通过聚类算法对多个所述实体向量进行聚类,确定多个类别的实体。
具体地,降维(Dimension reduction,DR)是高维数据探索领域(如机器学习、数据科学、信息可视化)的重要组成部分,有丰富的应用场景(如模式识别、计算加速、离群点分析等)。高维数据的降维可视化能化无形为有形,赋予抽象的高维数据更丰富的视觉效果和更直观的感受,帮助我们从可以理解的低维空间中探索和识别数据的隐藏模式,并通过进一步的分析形成对观测数据集更好的认知,因此可以将多个所述实体向量进行降维可视化处理,能够大幅度降低数据维度,进而确定实体类别数量。
具体地,根据确定的聚类数量,利用聚类算法对实体向量进行聚类,可以精准输出出对应的多个类别的实体,在其他实施例中,也可以依据实际情况进行聚类算法的选择,在此不作一一赘述。
上述实施例,对多个所述实体向量进行降维可视化处理,确定实体类别数量,进而通过聚类算法对多个所述实体向量进行聚类,确定多个类别的实体,利用聚类算法实现了实体的精准快速分类。
在一个实施例中,所述基于多个类别的所述实体,确定每个类别的类别标识以及对应实体包括:
根据每一类别中的所有实体的实体向量,确定聚类中心;
获取与所述聚类中心距离最近的所述实体向量对应的实体文本;
根据所述实体文本,确定实体文本对应类别的类别标识。
具体地,利用聚类算法比如k-means对实体向量进行聚类的实现过程如下:
1.选择初始化的k个样本实体作为初始聚类中心a=a1,a2,……ak
2.针对数据集中每个样本x;计算它到k个聚类中心的距离并将其分到距离最小的聚类中心所对应的类中;
3.针对每个类别aj,重新计算它的聚类中心(aj即属于该类的所有样本的质心);
4.重复上面2和3步骤进行迭代,直到达到某个中止条件,示例性的,迭代次数、最小误差变化等;
5.针对聚类结果中的每一类,计算聚类中心aj,并筛选离聚类中心最近的实体向量并输出其原始文本;
6.针对原始文本的特性,确定类别标识。
上述实施例,根据每一类别中的所有实体的实体向量距离聚类中心的距离特征精准筛选实体向量输出其原始文本,进而确定类别标识,利用较为常见的聚类算法比如k-means实现了实体的精准快速分类。
在一个实施例中,所述实体边界定位模型预先训练获取,包括:
获取第一样本文本数据,所述第一样本文本数据包括预先标注实体的文本数据以及对应包括的标注实体边界;
将所述预先标注实体的文本数据以及标注实体边界作为训练集,训练得到实体边界定位模型。
具体地,根据训练集数据计算损失,计算并更新模型参数:
其中P为所有实体边界的集合。
可以理解的,训练集数据就是所述预先标注实体的文本数据的字符串对应的真实的实体边界用于训练模型,也即公式中的P。基于损失公式计算结果,更新模型参数能够使模型更好的拟合训练数据,训练的模型也更加贴合实际情况更加准确。
具体地,所述预先标注实体的文本数据是指预先已经确定其中全部实体文本的数据;对应包括的标注实体边界是指实体的首尾字符在待测文本数据对应的文本向量序列中的位置,训练集中的样本数据越多,最终训练得到的模型更加贴合实际,更加精确。
在一个实施例中,所述实体聚类模型预先训练获取,包括:
获取第二样本文本数据,所述第二样本文本数据包括预先标注实体的文本数据和对应包括的标注实体边界以及预设实体类型;
将所述预先标注实体的文本数据和对应包括的标注实体边界以及预设实体类型作为训练集,训练得到实体聚类模型。
具体地,根据训练集数据计算对比损失,并更新模型参数:
其中Q为所有实体的集合,为实体q的正例(也就是同一类型),p为实体q的负例(也就是不同类型)。
可以理解的,当q和正例相似,并且和负例不相似的时候,这个损失值应该比较低。反之,如果和正例不相似,或者和负例相似了,那么损失值就应该大,从而惩罚模型,促使模型进行参数更新。因此,q和正例的相似度为分子,越相似度越高,损失值越小,q和负例的相似度为分母,相似度越高,损失值越大。基于对比损失公式计算结果,更新模型参数能够使模型更好的拟合训练数据,训练的模型也更加贴合实际情况更加准确。
具体地,所述预先标注实体的文本数据是指预先已经确定其中全部实体文本的数据;对应包括的标注实体边界是指实体的首尾字符在待测文本数据对应的文本向量序列中的位置;预设实体类型是指实体文本的类别,其中,训练集中的样本数据越多,最终训练得到的模型更加贴合实际,更加精确。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的基于聚类描述的小样本实体识别方法的基于聚类描述的小样本实体识别装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个基于聚类描述的小样本实体识别装置实施例中的具体限定可以参见上文中对于基于聚类描述的小样本实体识别方法的限定,在此不再赘述。
在一个实施例中,如图4所示,提供了一种基于聚类描述的小样本实体识别装置,包括:获取模块410、识别模块420、分类模块430和确定模块440,其中:
获取模块410,用于获取待识别文本数据。
识别模块420,用于将所述待识别文本数据输入实体边界定位模型,得到所述待识别文本数据中所有实体的实体边界。
识别模块420,还用于通过语言表征模型,将所述待识别文本数据转换为文本向量序列;将所述文本向量序列进行线性变换,得到第一向量序列以及第二向量序列;所述第一向量序列包括:所述待识别文本中实体的开始字符信息;所述第二向量序列包括:所述待识别文本中实体的结束字符信息;根据所述第一向量序列以及第二向量序列,得到所述待识别文本数据中所有实体的实体边界。
分类模块430,用于将所述待识别文本数据以及所述实体边界输入实体聚类模型,得到多个类别的实体。
分类模块430,还用于通过语言表征模型,将所述待识别文本数据转换为文本向量序列;根据所述实体边界以及所述文本向量序列,确定多个实体向量;根据多个所述实体向量,确定多个类别的实体。
分类模块430,还用于对多个所述实体向量进行降维可视化处理,确定实体类别数量;根据所述实体类别数量,通过聚类算法对多个所述实体向量进行聚类,确定多个类别的实体。
确定模块440,用于基于多个类别的所述实体,确定每个类别的类别标识以及对应实体。
确定模块440,还用于根据每一类别中的所有实体的实体向量,确定聚类中心;获取与所述聚类中心距离最近的所述实体向量对应的实体文本;根据所述实体文本,确定实体文本对应类别的类别标识。
基于聚类描述的小样本实体识别装置,还包括:第一训练模块,第二训练模块。
第一训练模块,用于获取第一样本文本数据,所述第一样本文本数据包括预先标注实体的文本数据以及对应包括的标注实体边界;将所述预先标注实体的文本数据以及标注实体边界作为训练集,训练得到实体边界定位模型。
第二训练模块,用于获取第二样本文本数据,所述第二样本文本数据包括预先标注实体的文本数据和对应包括的标注实体边界以及预设实体类型;将所述预先标注实体的文本数据和对应包括的标注实体边界以及预设实体类型作为训练集,训练得到实体聚类模型。
上述基于聚类描述的小样本实体识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种基于聚类描述的小样本实体识别装置。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取待识别文本数据;
将所述待识别文本数据输入实体边界定位模型,得到所述待识别文本数据中所有实体的实体边界;
将所述待识别文本数据以及所述实体边界输入实体聚类模型,得到多个类别的实体;
基于多个类别的所述实体,确定每个类别的类别标识以及对应实体。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取待识别文本数据;
将所述待识别文本数据输入实体边界定位模型,得到所述待识别文本数据中所有实体的实体边界;
将所述待识别文本数据以及所述实体边界输入实体聚类模型,得到多个类别的实体;
基于多个类别的所述实体,确定每个类别的类别标识以及对应实体。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random AccessMemory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于聚类描述的小样本实体识别方法,其特征在于,包括:
获取待识别文本数据;
将所述待识别文本数据输入实体边界定位模型,得到所述待识别文本数据中所有实体的实体边界;
将所述待识别文本数据以及所述实体边界输入实体聚类模型,得到多个类别的实体;
基于多个类别的所述实体,确定每个类别的类别标识以及对应实体。
2.根据权利要求1所述的聚类描述的小样本实体识别方法,其特征在于,所述将所述待识别文本数据输入实体边界定位模型,得到所述待识别文本数据中所有实体的实体边界包括:
通过语言表征模型,将所述待识别文本数据转换为文本向量序列;
将所述文本向量序列进行线性变换,得到第一向量序列以及第二向量序列;所述第一向量序列包括:所述待识别文本中实体的开始字符信息;所述第二向量序列包括:所述待识别文本中实体的结束字符信息;
根据所述第一向量序列以及第二向量序列,得到所述待识别文本数据中所有实体的实体边界。
3.根据权利要求1所述的聚类描述的小样本实体识别方法,其特征在于,所述将所述待识别文本数据以及所述实体边界输入实体聚类模型,得到多个类别的实体包括:
通过语言表征模型,将所述待识别文本数据转换为文本向量序列;
根据所述实体边界以及所述文本向量序列,确定多个实体向量;
根据多个所述实体向量,确定多个类别的实体。
4.根据权利要求3所述的聚类描述的小样本实体识别方法,其特征在于,所述根据多个所述实体向量,确定多个类别的实体包括:
对多个所述实体向量进行降维可视化处理,确定实体类别数量;
根据所述实体类别数量,通过聚类算法对多个所述实体向量进行聚类,确定多个类别的实体。
5.根据权利要求1所述的聚类描述的小样本实体识别方法,其特征在于,所述基于多个类别的所述实体,确定每个类别的类别标识以及对应实体包括:
根据每一类别中的所有实体的实体向量,确定聚类中心;
获取与所述聚类中心距离最近的所述实体向量对应的实体文本;
根据所述实体文本,确定实体文本对应类别的类别标识。
6.根据权利要求1所述的聚类描述的小样本实体识别方法,其特征在于,所述实体边界定位模型预先训练获取,包括:
获取第一样本文本数据,所述第一样本文本数据包括预先标注实体的文本数据以及对应包括的标注实体边界;
将所述预先标注实体的文本数据以及标注实体边界作为训练集,训练得到实体边界定位模型。
7.根据权利要求1所述的聚类描述的小样本实体识别方法,其特征在于,所述实体聚类模型预先训练获取,包括:
获取第二样本文本数据,所述第二样本文本数据包括预先标注实体的文本数据和对应包括的标注实体边界以及预设实体类型;
将所述预先标注实体的文本数据和对应包括的标注实体边界以及预设实体类型作为训练集,训练得到实体聚类模型。
8.一种基于聚类描述的小样本实体识别装置,其特征在于,所述装置包括:
获取模块,用于获取待识别文本数据;
识别模块,用于将所述待识别文本数据输入实体边界定位模型,得到所述待识别文本数据中所有实体的实体边界;
分类模块,用于将所述待识别文本数据以及所述实体边界输入实体聚类模型,得到多个类别的实体;
确定模块,用于基于多个类别的所述实体,确定每个类别的类别标识以及对应实体。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至权利要求7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至权利要求7中任一项所述的方法的步骤。
CN202311024641.6A 2023-08-15 2023-08-15 基于聚类描述的小样本实体识别方法、装置和计算机设备 Active CN116757216B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311024641.6A CN116757216B (zh) 2023-08-15 2023-08-15 基于聚类描述的小样本实体识别方法、装置和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311024641.6A CN116757216B (zh) 2023-08-15 2023-08-15 基于聚类描述的小样本实体识别方法、装置和计算机设备

Publications (2)

Publication Number Publication Date
CN116757216A true CN116757216A (zh) 2023-09-15
CN116757216B CN116757216B (zh) 2023-11-07

Family

ID=87948123

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311024641.6A Active CN116757216B (zh) 2023-08-15 2023-08-15 基于聚类描述的小样本实体识别方法、装置和计算机设备

Country Status (1)

Country Link
CN (1) CN116757216B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112487812A (zh) * 2020-10-21 2021-03-12 上海旻浦科技有限公司 一种基于边界识别的嵌套实体识别方法及系统
CN112765984A (zh) * 2020-12-31 2021-05-07 平安资产管理有限责任公司 命名实体识别方法、装置、计算机设备和存储介质
CN113673248A (zh) * 2021-08-23 2021-11-19 中国人民解放军32801部队 试验鉴定小样本文本的命名实体识别方法
CN113779202A (zh) * 2021-11-15 2021-12-10 腾讯科技(深圳)有限公司 命名实体识别方法、装置、计算机设备和存储介质
US20220245347A1 (en) * 2020-07-01 2022-08-04 Samsung Electronics Co., Ltd. Entity recognition method, apparatus, electronic device and computer readable storage medium
CN116340516A (zh) * 2023-03-16 2023-06-27 北京海卓飞网络科技有限公司 实体关系的聚类提取方法、装置、设备及存储介质
CN116341553A (zh) * 2023-04-07 2023-06-27 平安科技(深圳)有限公司 命名实体识别方法和装置、电子设备及存储介质
US20230205998A1 (en) * 2021-12-27 2023-06-29 Hyundai Motor Company Named entity recognition system and named entity recognition method
CN116432655A (zh) * 2023-06-12 2023-07-14 山东大学 基于语用知识学习的少样本命名实体识别方法和装置
CN116562291A (zh) * 2023-04-03 2023-08-08 华南理工大学 一种基于边界检测的中文嵌套命名实体识别方法
CN116595982A (zh) * 2023-05-19 2023-08-15 华中科技大学 一种基于动态图卷积的嵌套命名实体识别方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220245347A1 (en) * 2020-07-01 2022-08-04 Samsung Electronics Co., Ltd. Entity recognition method, apparatus, electronic device and computer readable storage medium
CN112487812A (zh) * 2020-10-21 2021-03-12 上海旻浦科技有限公司 一种基于边界识别的嵌套实体识别方法及系统
CN112765984A (zh) * 2020-12-31 2021-05-07 平安资产管理有限责任公司 命名实体识别方法、装置、计算机设备和存储介质
CN113673248A (zh) * 2021-08-23 2021-11-19 中国人民解放军32801部队 试验鉴定小样本文本的命名实体识别方法
CN113779202A (zh) * 2021-11-15 2021-12-10 腾讯科技(深圳)有限公司 命名实体识别方法、装置、计算机设备和存储介质
US20230205998A1 (en) * 2021-12-27 2023-06-29 Hyundai Motor Company Named entity recognition system and named entity recognition method
CN116340516A (zh) * 2023-03-16 2023-06-27 北京海卓飞网络科技有限公司 实体关系的聚类提取方法、装置、设备及存储介质
CN116562291A (zh) * 2023-04-03 2023-08-08 华南理工大学 一种基于边界检测的中文嵌套命名实体识别方法
CN116341553A (zh) * 2023-04-07 2023-06-27 平安科技(深圳)有限公司 命名实体识别方法和装置、电子设备及存储介质
CN116595982A (zh) * 2023-05-19 2023-08-15 华中科技大学 一种基于动态图卷积的嵌套命名实体识别方法
CN116432655A (zh) * 2023-06-12 2023-07-14 山东大学 基于语用知识学习的少样本命名实体识别方法和装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
ZHU, PENG等: "Improving Chinese Named Entity Recognition by Large-Scale Syntactic Dependency Graph", 《IEEE-ACM TRANSACTION ON AUDIO SPEECH AND LANGUAGE PROCESSING》, vol. 30 *
孙茂伟;杨慧中;: "一种基于支持向量数据描述的聚类多模型软测量建模", 控制工程, no. 07 *
张立邦: "基于半监督学习的中文电子病历分词和名实体挖掘", 《中国优秀硕士论文全文数据库(信息科技辑)》, no. 3 *
王蕾;谢云;周俊生;顾彦慧;曲维光;: "基于神经网络的片段级中文命名实体识别", 中文信息学报, no. 03 *

Also Published As

Publication number Publication date
CN116757216B (zh) 2023-11-07

Similar Documents

Publication Publication Date Title
JP6790286B2 (ja) 強化学習を用いたデバイス配置最適化
US20240095247A1 (en) Computerized information extraction from tables
Caramiaux et al. Segmenting and parsing instrumentalists' gestures
CN107609185B (zh) 用于poi的相似度计算的方法、装置、设备和计算机可读存储介质
CN109446328A (zh) 一种文本识别方法、装置及其存储介质
Walker et al. TimeClassifier: a visual analytic system for the classification of multi-dimensional time series data
US20240177697A1 (en) Audio data processing method and apparatus, computer device, and storage medium
CN116151263B (zh) 多模态命名实体识别方法、装置、设备以及存储介质
CN115131698A (zh) 视频属性确定方法、装置、设备及存储介质
US10896384B1 (en) Modification of base distance representation using dynamic objective
US10459901B2 (en) Embedded deep representation of social network taxonomy
CN117194646A (zh) 问答方法、装置以及电子设备
US11775144B2 (en) Place-based semantic similarity platform
CN117435685A (zh) 文档检索方法、装置、计算机设备、存储介质和产品
CN116757216B (zh) 基于聚类描述的小样本实体识别方法、装置和计算机设备
CN116186297A (zh) 一种基于图流形学习的文献关系发现方法及系统
CN111814812A (zh) 建模方法、装置、存储介质、电子设备及场景识别方法
Wang et al. Extraction and recognition method of basketball players’ dynamic human actions based on deep learning
CN113010687B (zh) 一种习题标签预测方法、装置、存储介质以及计算机设备
CN115033700A (zh) 基于相互学习网络的跨领域情感分析方法、装置以及设备
Ji Research on Recognition Effect of DSCN Network Structure in Hand-Drawn Sketch
CN112883188A (zh) 一种情感分类方法、装置、电子设备和存储介质
CN116453702B (zh) 孤独症行为特征集的数据处理方法、设备、系统及介质
CN116778264B (zh) 基于类增学习的对象分类方法、图像分类方法及相关设备
US20230012895A1 (en) Geo javascript object notation (json)-based ethnic classifier and search engine for an online search tool

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant