CN113987173A - 短文本分类方法、系统、电子设备及介质 - Google Patents

短文本分类方法、系统、电子设备及介质 Download PDF

Info

Publication number
CN113987173A
CN113987173A CN202111232515.0A CN202111232515A CN113987173A CN 113987173 A CN113987173 A CN 113987173A CN 202111232515 A CN202111232515 A CN 202111232515A CN 113987173 A CN113987173 A CN 113987173A
Authority
CN
China
Prior art keywords
vector
short text
mapping
classification
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111232515.0A
Other languages
English (en)
Inventor
刘伟硕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mininglamp Software System Co ltd
Original Assignee
Beijing Mininglamp Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mininglamp Software System Co ltd filed Critical Beijing Mininglamp Software System Co ltd
Priority to CN202111232515.0A priority Critical patent/CN113987173A/zh
Publication of CN113987173A publication Critical patent/CN113987173A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了短文本分类方法、系统、电子设备及介质,短文本分类方法包括:实体标注结果获取步骤:通过命名实体识别模型对短文本序列进行处理,获得实体标注结果;映射向量获取步骤:利用嵌入向量矩阵分别对所述实体标注结果与短文本序列进行嵌入向量映射,获得对应的第一映射向量与第二映射向量;特征向量获取步骤:对所述第一映射向量与所述第二映射向量进行处理获得特征向量;分类结果获取步骤:通过分类模型对所述特征向量进行计算,获得所述短文本序列的分类结果。本发明通过在文本分类任务中引入实体识别部分扩充短文本的语义信息,提高短文本分类的准确率。

Description

短文本分类方法、系统、电子设备及介质
技术领域
本申请涉及深度学习技术领域,尤其涉及一种短文本分类方法、系统、电子设备及介质。
背景技术
现有技术中,文本分类的主要解决方式有两种,一是传统机器学习方法(贝叶斯,svm等),二是深度学习方法(fastText,TextCNN等)。其中,传统机器学习方法依靠人工对文本提取特征,特征的质量决定了模型的表现,由于文本提取是通过人工提取,无法保证提取出来的文本特征质量,导致模型表现效果降低,而现有的针对文本分类任务的深度学习模型虽然不需要人工提取特征,但是深度学习模型依赖数据的规模,数据的规模较小时,模型得不到充分的训练和学习导致模型表现不佳。由于短文本的序列长度较短导致短文本的特征空间较小,因而提取高级语义特征相较于长文本较为困难。短文本中包含的实体类型对于短文本的类别划分具有重要的积极意义。然而,如何提高文本分类准确率成为一个亟待解决的问题。
发明内容
本申请实施例提供了一种短文本分类方法、系统、电子设备及介质,以至少通过本发明解决了短文本分类的准确率低等问题。
本发明提供了短文本分类方法,包括:
实体标注结果获取步骤:通过命名实体识别模型对短文本序列进行处理,获得实体标注结果;
映射向量获取步骤:利用嵌入向量矩阵分别对所述实体标注结果与短文本序列进行嵌入向量映射,获得对应的第一映射向量与第二映射向量;
特征向量获取步骤:对所述第一映射向量与所述第二映射向量进行处理获得特征向量;
分类结果获取步骤:通过分类模型对所述特征向量进行计算,获得所述短文本序列的分类结果。
上述的短文本分类方法中,所述实体标注结果获取步骤包括:
将所述短文本序列输入到所述命名实体识别模型后,第一嵌入向量矩阵对所述短文本序列进行嵌入向量映射,获得所述短文本序列的高维向量表示结果。
上述的短文本分类方法中,所述实体标注结果获取步骤还包括:
将所述高维向量表示结果输入到所述命名实体识别模型的Bi-LSTM+CRF部分,获得所述文本序列的所述实体标注结果。
上述的短文本分类方法中,所述映射向量获取步骤包括:
通过第二嵌入向量矩阵对所述实体标注结果进行嵌入向量映射,获得所述第一映射向量;
通过第三嵌入向量矩阵对所述短文本序列进行嵌入向量映射,获得所述第二映射向量。
上述的短文本分类方法中,所述特征向量获取步骤包括:
对所述第一映射向量与所述第二映射向量进行拼接获得拼接向量。
上述的短文本分类方法中,所述特征向量获取步骤还包括:
将所述拼接向量输入到多头注意力机制后,通过所述多头注意力机制对所述拼接向量进行特征提取获得所述特征向量。
上述的短文本分类方法中,所述分类结果获取步骤包括:
通过分类模型的输出层对所述特征向量进行维度调整获得最终特征向量;
在所述分类模型中对所述最终特征向量做argmax计算,获得所述短文本序列的所述分类结果。
本发明还提供短文本分类系统,其中,适用于上述所述的短文本分类方法,所述短文本分类系统包括:
实体标注结果获取单元,通过命名实体识别模型对短文本序列进行处理后,根据高位获得实体标注结果;
分类结果获取单元,利用嵌入向量矩阵分别对所述实体标注结果与短文本序列进行向量映射,获得对应的第一映射向量与第二映射向量后,对所述第一映射向量与所述第二映射向量进行处理获得获得特征向量,通过分类模型对所述特征向量进行计算,获得所述短文本序列的分类结果。
本发明还提供一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述任一项所述的短文本分类方法。
本发明还提供一种电子设备可读存储介质,所述电子设备可读存储介质上存储有计算机程序指令,所述计算机程序指令被所述处理器执行时实现上述任一项所述的短文本分类方法。
相比于相关技术,本发明提出的短文本分类方法、系统、电子设备及介质,在文本分类任务中引入实体识别部分,实体识别部分中的高维向量能使文本的特征空间更大、更有利于挖掘文本的深度语义,因此通过实体识别部分扩充了短文本的语义信息,缓解了文本序列长度对分类模型分类精度的影响,解决了短文本分类的准确率低等问题,提高了短文本分类的准确率以及自然语言处理能力。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的短文本分类方法流程图;
图2是根据本申请实施例的短文本分类框架图;
图3为本发明的短文本分类系统的结构示意图;
图4是根据本申请实施例的电子设备的框架图。
其中,附图标记为:
实体标注结果获取单元:51;
分类结果获取单元:52;
总线:80;
处理器:81;
存储器:82;
通信接口:83。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
本发明通过引入实体识别模块增加短文本的语义丰富度,缓解序列长度对模型优化的限制,因而提高了模型的分类精度。
下面结合具体实施例对本发明进行说明。
实施例一
本实施例提供了短文本分类方法。请参照图1至图2,图1是根据本申请实施例的短文本分类方法流程图;图2是根据本申请实施例的短文本分类流程框架图,如图1至图2所示,短文本分类方法包括如下步骤:
步骤S1:通过命名实体识别模型对短文本序列进行处理,获得实体标注结果;
步骤S2:利用嵌入向量矩阵分别对所述实体标注结果与短文本序列进行嵌入向量映射,获得对应的第一映射向量与第二映射向量;
步骤S3:对所述第一映射向量与所述第二映射向量进行处理获得特征向量;
步骤S4:通过分类模型对所述特征向量进行计算,获得所述短文本序列的分类结果。
在实施例中,所述实体标注结果获取步骤包括,将所述短文本序列输入到所述命名实体识别模型后,第一嵌入向量矩阵对所述短文本序列进行嵌入向量映射,获得所述短文本序列的高维向量表示结果。
在具体实施中,将短文本序列首先输入到实体识别模型中的NER模块后,NER模块首先通过第一嵌入向量矩阵(嵌入向量矩阵Embedding_N)对短文本序列进行嵌入向量映射后,NER模块输出嵌入向量映射结果,嵌入向量映射结果就是短文本序列的高维向量表示结果。
在实施例中,所述实体标注结果获取步骤还包括,将所述高维向量表示结果输入到所述命名实体识别模型的Bi-LSTM+CRF部分,获得所述文本序列的所述实体标注结果。
在具体实施中,将高维向量表示结果输入到实体识别模型中,获得实体标注结果步骤中得到的短文本序列的高维向量表示结果输入到命名实体识别模型的Bi-LSTM+CRF部分后,通过命名实体识别模型的Bi-LSTM+CRF部分得到短文本序列的实体标注结果,其中实体标注结果是一个与输入短文本序列长度相同的文本序列。
在实施例中,所述映射向量获取步骤包括:
通过第二嵌入向量矩阵对所述实体标注结果进行嵌入向量映射,获得所述第一映射向量;
通过第三嵌入向量矩阵对所述短文本序列进行嵌入向量映射,获得所述第二映射向量。
在具体实施中,利用第二嵌入向量矩阵(嵌入向量矩阵Embedding_L)对步骤S1得到的实体标注结果进行向量映射得到第一映射向量(映射向量VL)后,利用第三嵌入向量矩阵(嵌入向量矩阵Embedding_I)对短文本序列进行映射操作,得到输入的短文本序列的第二映射向量(映射向量VI)。
在实施例中,所述特征向量获取步骤包括:
对所述第一映射向量与所述第二映射向量进行拼接获得拼接向量。
在实施例中,所述特征向量获取步骤还包括:
将所述拼接向量输入到多头注意力机制后,通过所述多头注意力机制对所述拼接向量进行特征提取获得所述特征向量。
在实施例中,所述分类结果获取步骤包括:
通过分类模型的输出层对所述特征向量进行维度调整获得最终特征向量;
在所述分类模型中对所述最终特征向量做argmax计算,获得所述短文本序列的所述分类结果。
在具体实施中,通过分类模型的输出层对步骤S3获得的特征向量进行维度调整,将维度调整到数据集中后与数据总类别数相等的维度数后,获得最终特征向量;在分类模型中对最终特征向量做argmax计算,获得短文本序列的分类结果。
实施例二请参照图3,图3为本发明的短文本分类系统的结构示意图。如图3所示,发明的短文本分类系统,适用于上述的短文本分类方法,所述短文本分类系统,包括:
实体标注结果获取单元51,通过命名实体识别模型对短文本序列进行处理后,根据高位获得实体标注结果;
分类结果获取单元52,利用嵌入向量矩阵分别对所述实体标注结果与短文本序列进行向量映射,获得对应的第一映射向量与第二映射向量后,对所述第一映射向量与所述第二映射向量进行处理获得获得特征向量,通过分类模型对所述特征向量进行计算,获得所述短文本序列的分类结果。
实施例三
结合图4所示,本实施例揭示了一种电子设备的一种具体实施方式。电子设备可以包括处理器81以及存储有计算机程序指令的存储器82。
具体地,上述处理器81可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
其中,存储器82可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器82可包括硬盘驱动器(Hard Disk Drive,简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器82可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器82可在异常数据监测装置的内部或外部。在特定实施例中,存储器82是非易失性(Non-Volatile)存储器。在特定实施例中,存储器82包括只读存储器(Read-Only Memory,简称为ROM)和随机存取存储器(Random Access Memory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory,简称为PROM)、可擦除PROM(ErasableProgrammable Read-Only Memory,简称为FPROM)、电可擦除PROM(Electrically ErasableProgrammable Read-Only Memory,简称为EFPROM)、电可改写ROM(ElectricallyAlterable Read-Only Memory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(Static Random-AccessMemory,简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode DynamicRandom Access Memory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(ExtendedDate Out Dynamic Random Access Memory,简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory,简称SDRAM)等。
存储器82可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器81所执行的可能的计算机程序指令。
处理器81通过读取并执行存储器82中存储的计算机程序指令,以实现上述实施例中的任意短文本分类方法。
在其中一些实施例中,电子设备还可包括通信接口83和总线80。其中,如图4所示,处理器81、存储器82、通信接口83通过总线80连接并完成相互间的通信。
通信接口83用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信端口83还可以实现与其他部件例如:外接设备、图像/异常数据监测设备、数据库、外部存储以及图像/异常数据监测工作站等之间进行数据通信。
总线80包括硬件、软件或两者,将电子设备的部件彼此耦接在一起。总线80包括但不限于以下至少之一:数据总线(Data Bus)、地址总线(Address Bus)、控制总线(ControlBus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制,总线80可包括图形加速接口(Accelerated Graphics Port,简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture,简称为EISA)总线、前端总线(FrontSide Bus,简称为FSB)、超传输(Hyper Transport,简称为HT)互连、工业标准架构(Industry Standard Architecture,简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count,简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture,简称为MCA)总线、外围组件互连(Peripheral Component Interconnect,简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment,简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus,简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线80可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
电子设备可连接短文本分类系统,从而实现结合图1至图2的方法。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
综上所述,本发明通过设计实体识别模块,使用将实体识别模块与分类模型结合的方式,缓解了序列长度对模型优化的限制来提高模型表现力,因而提高了模型的分类准确度。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求的保护范围为准。

Claims (10)

1.一种短文本分类方法,其特征在于,包括:
实体标注结果获取步骤:通过命名实体识别模型对短文本序列进行处理,获得实体标注结果;
映射向量获取步骤:利用嵌入向量矩阵分别对所述实体标注结果与短文本序列进行嵌入向量映射,获得对应的第一映射向量与第二映射向量;
特征向量获取步骤:对所述第一映射向量与所述第二映射向量进行处理获得特征向量;
分类结果获取步骤:通过分类模型对所述特征向量进行计算,获得所述短文本序列的分类结果。
2.根据权利要求1所述的短文本分类方法,其特征在于,所述实体标注结果获取步骤包括:
将所述短文本序列输入到所述命名实体识别模型后,第一嵌入向量矩阵对所述短文本序列进行嵌入向量映射,获得所述短文本序列的高维向量表示结果。
3.根据权利要求2所述的短文本分类方法,其特征在于,所述实体标注结果获取步骤还包括:
将所述高维向量表示结果输入到所述命名实体识别模型的Bi-LSTM+CRF部分,获得所述文本序列的所述实体标注结果。
4.根据权利要求1所述的短文本分类方法,其特征在于,所述映射向量获取步骤包括:
通过第二嵌入向量矩阵对所述实体标注结果进行嵌入向量映射,获得所述第一映射向量;
通过第三嵌入向量矩阵对所述短文本序列进行嵌入向量映射,获得所述第二映射向量。
5.根据权利要求1所述的短文本分类方法,其特征在于,所述特征向量获取步骤包括:
对所述第一映射向量与所述第二映射向量进行拼接获得拼接向量。
6.根据权利要求5所述的短文本分类方法,其特征在于,所述特征向量获取步骤还包括:
将所述拼接向量输入到多头注意力机制后,通过所述多头注意力机制对所述拼接向量进行特征提取获得所述特征向量。
7.根据权利要求1所述的短文本分类方法,其特征在于,所述分类结果获取步骤包括:
通过分类模型的输出层对所述特征向量进行维度调整获得最终特征向量;
在所述分类模型中对所述最终特征向量做argmax计算,获得所述短文本序列的所述分类结果。
8.一种短文本分类系统,其特征在于,适用于上述权利要求1至7中任一项所述的短文本分类方法,所述短文本分类系统包括:
实体标注结果获取单元,通过命名实体识别模型对短文本序列进行处理后,根据高位获得实体标注结果;
分类结果获取单元,利用嵌入向量矩阵分别对所述实体标注结果与短文本序列进行向量映射,获得对应的第一映射向量与第二映射向量后,对所述第一映射向量与所述第二映射向量进行处理获得特征向量,通过分类模型对所述特征向量进行计算,获得所述短文本序列的分类结果。
9.一种电子设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的短文本分类方法。
10.一种电子设备可读存储介质,所述电子设备可读存储介质上存储有计算机程序指令,所述计算机程序指令被所述处理器执行时实现如权利要求1至7中任一项所述的短文本分类方法。
CN202111232515.0A 2021-10-22 2021-10-22 短文本分类方法、系统、电子设备及介质 Pending CN113987173A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111232515.0A CN113987173A (zh) 2021-10-22 2021-10-22 短文本分类方法、系统、电子设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111232515.0A CN113987173A (zh) 2021-10-22 2021-10-22 短文本分类方法、系统、电子设备及介质

Publications (1)

Publication Number Publication Date
CN113987173A true CN113987173A (zh) 2022-01-28

Family

ID=79740352

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111232515.0A Pending CN113987173A (zh) 2021-10-22 2021-10-22 短文本分类方法、系统、电子设备及介质

Country Status (1)

Country Link
CN (1) CN113987173A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117649925A (zh) * 2023-11-29 2024-03-05 虹邑软件(深圳)有限公司 一种用于手术治疗类服务项目映射的数据处理方法及装置
CN117649925B (zh) * 2023-11-29 2024-09-27 虹邑软件(深圳)有限公司 一种用于手术治疗类服务项目映射的数据处理方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109885825A (zh) * 2019-01-07 2019-06-14 平安科技(深圳)有限公司 基于注意力机制的命名实体识别方法、装置和计算机设备
CN112183101A (zh) * 2020-10-13 2021-01-05 深圳壹账通智能科技有限公司 文本意图识别方法、装置、电子设备及存储介质
CN112948584A (zh) * 2021-03-03 2021-06-11 北京百度网讯科技有限公司 短文本分类方法、装置、设备以及存储介质
CN113486178A (zh) * 2021-07-12 2021-10-08 恒安嘉新(北京)科技股份公司 文本识别模型训练方法、文本识别方法、装置以及介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109885825A (zh) * 2019-01-07 2019-06-14 平安科技(深圳)有限公司 基于注意力机制的命名实体识别方法、装置和计算机设备
CN112183101A (zh) * 2020-10-13 2021-01-05 深圳壹账通智能科技有限公司 文本意图识别方法、装置、电子设备及存储介质
CN112948584A (zh) * 2021-03-03 2021-06-11 北京百度网讯科技有限公司 短文本分类方法、装置、设备以及存储介质
CN113486178A (zh) * 2021-07-12 2021-10-08 恒安嘉新(北京)科技股份公司 文本识别模型训练方法、文本识别方法、装置以及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117649925A (zh) * 2023-11-29 2024-03-05 虹邑软件(深圳)有限公司 一种用于手术治疗类服务项目映射的数据处理方法及装置
CN117649925B (zh) * 2023-11-29 2024-09-27 虹邑软件(深圳)有限公司 一种用于手术治疗类服务项目映射的数据处理方法及装置

Similar Documents

Publication Publication Date Title
WO2019153551A1 (zh) 文章分类方法、装置、计算机设备及存储介质
US11055560B2 (en) Unsupervised domain adaptation from generic forms for new OCR forms
US20200364216A1 (en) Method, apparatus and storage medium for updating model parameter
CN109271624B (zh) 一种目标词确定方法、装置及存储介质
CN113221918B (zh) 目标检测方法、目标检测模型的训练方法及装置
CN112183102A (zh) 基于注意力机制与图注意力网络的命名实体识别方法
CN112380348B (zh) 元数据处理方法、装置、电子设备及计算机可读存储介质
CN112232070A (zh) 自然语言处理模型构建方法、系统、电子设备及存储介质
CN113743584B (zh) 一种积分梯度模型预测方法、系统、电子设备及存储介质
US11822589B2 (en) Method and system for performing summarization of text
CN114154474A (zh) 数据导出方法、系统、计算机设备及可读存储介质
CN116561320A (zh) 一种汽车评论的分类方法、装置、设备及介质
CN113987173A (zh) 短文本分类方法、系统、电子设备及介质
CN112257726B (zh) 目标检测训练方法、系统、电子设备及计算机可读存储介质
CN112446204B (zh) 一种文档标签的确定方法、系统及计算机设备
CN113255334A (zh) 一种计算字向量方法、系统、电子设备及存储介质
CN113204706B (zh) 基于MapReduce的数据筛选抽取方法及系统
CN113468879A (zh) 一种未登录词的判断方法、系统、电子设备及介质
CN113742470A (zh) 一种数据检索方法、系统、电子设备及介质
CN113139374A (zh) 一种文档相似段落的标记查询方法、系统、设备及存储介质
CN113536773A (zh) 商品评论情感分析方法、系统、电子设备及存储介质
CN113901822A (zh) 实体识别模型建立方法、系统、电子设备及介质
CN113343669B (zh) 一种学习字向量方法、系统、电子设备及存储介质
CN113554173A (zh) 一种领域知识标注方法、系统、电子设备及介质
CN113590836A (zh) 一种构建领域知识图谱方法、系统、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination