CN112800151B - 一种交互式无监督标签分类系统、方法、介质、终端 - Google Patents

一种交互式无监督标签分类系统、方法、介质、终端 Download PDF

Info

Publication number
CN112800151B
CN112800151B CN202110364666.5A CN202110364666A CN112800151B CN 112800151 B CN112800151 B CN 112800151B CN 202110364666 A CN202110364666 A CN 202110364666A CN 112800151 B CN112800151 B CN 112800151B
Authority
CN
China
Prior art keywords
label
data set
pseudo
unsupervised
interactive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110364666.5A
Other languages
English (en)
Other versions
CN112800151A (zh
Inventor
杨万征
蔡超
程国艮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Global Tone Communication Technology Co ltd
Original Assignee
Global Tone Communication Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Global Tone Communication Technology Co ltd filed Critical Global Tone Communication Technology Co ltd
Priority to CN202110364666.5A priority Critical patent/CN112800151B/zh
Publication of CN112800151A publication Critical patent/CN112800151A/zh
Application granted granted Critical
Publication of CN112800151B publication Critical patent/CN112800151B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/243Natural language query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24573Query processing with adaptation to user needs using data annotations, e.g. user-defined metadata
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Library & Information Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于数据处理技术领域,公开了一种交互式无监督标签分类系统、方法、介质、终端,利用伪标签及预训练模型,对数据集进行无监督分类,通过增加拓展词汇,进行辅助分类,以及在所述预训练模型中增加负节点或负样本排除负样本作用范围内的空间。本发明满足了不同业务场景下对数据集按照不同标签体系进行划分的业务需求,提出一种通用的数据处理流程,能够解决无监督或弱监督的标签分类任务。本发明主要采用伪标签学习技术,可解决冷启用问题;减少标注数据的需求;可实时调整标签体系结构;可人工干预;可视化标签体系关系;不但可增加正样本或正节点,同时可增加负样本或父节点。

Description

一种交互式无监督标签分类系统、方法、介质、终端
技术领域
本发明属于数据处理技术领域,尤其涉及一种交互式无监督标签分类系统、方法、介质、终端。
背景技术
目前,伴随电子化、信息化时代的普及,各种类型文献蜂拥而至,如:新闻、论文、专利、期刊等,每种类型文本均有其特有的适用领域及结构特点,通过单一标签体系,无法同时对各种类型文献进行合理分类,需要使用多种标签体系才可以,即使对于单一类型文体,仅通过单一标签体系也无法进行全面表达,以专利为例,仅通过单一IPC分类虽然可以表达其技术领域,但对其应用领域的表达能力是不足的,为满足各类应用场景,需要使用多种标签体系,在某些特定场景下,需求方也会提出其关注或所需的标签体系。
尽管机器学习在标签分类问题上已经取得了显著成功,但往往需要大量的标注样本,在相对固定、种类较少的标签体系下,通过标注人员构造训练集方能适用,但面对标签体系灵活多变、标签类别繁多的情况,往往无法适用。以一个7000维的标签体系为例,每个标签需要标注100个样本,面对的便是70万的标注数据,且如上述所说,一个标签体系往往适不足以满足需求的,需要同时存在多个标签体系,在项目启动之初,对标签分类的精度并没有太多要求,但却投入如此之大的标注精力往往适不被采纳的,且有监督的机器学习分类目前仍然偏向于黑盒,无法进行显式的人工干预。
综上所述,需要寻求一种灵活的技术手段,适应多变的标签体系,减少系统对标注样本的需求,且可人工显式干预。
通过上述分析,现有技术存在的问题及缺陷为:
(1)现有技术中,无法适应灵活多变的标签体系。
(2)现有技术中,对人工干预不够友善。
(3)现有技术中,对标签的控制能力不强。
解决以上问题及缺陷的难度为:需要解决无标注数据问题;需要算法能够接受用户的干预行为。
解决以上问题及缺陷的意义为:解决项目冷启动问题,降低成本;对程序结果输出更加可控,能够持续迭代优化。
发明内容
针对现有技术存在的问题,本发明提供了一种交互式无监督标签分类系统方法、介质、终端。
本发明是这样实现的,一种交互式无监督标签分类方法,包括:
步骤一:根据需求构造标签体系;
步骤二:标签拓展,构造伪标签数据集;
步骤三:训练标签分类模型;
步骤四:对未标记样本进行预测;
步骤五:人工结果干预。
进一步,步骤一中,所述标签体系由领域专家或需求方进行构建。
进一步,步骤二中,所述伪标签数据集的构建方法包括:
(1)基于已有知识库,对叶子节点标签进行拓展;
(2)对待分类数据集进行清洗,过滤停用词,并提取关键词,及名词短语;
(3)利用叶子节点标签及拓展词汇,采用关键词匹配方式,进行文档召回,构建伪标签数据集。
进一步,步骤二中,标签拓展包括:同义词扩展,上下级词扩展。
进一步,步骤三中,训练标签分类模型包括:
(1)词汇在预训练语言模型中的词向量作为该类别的中心节点;
(2)利用预训练语言模型在伪标签数据集上进行二次训练,不断逼近中心节点;
(3)使用二次训练后的伪标签数据集对伪标签数据集进行预测,移除低置信度的伪样本;
(4),重复(2)、(3),移除低质量伪标签数据,提升数据集质量。
进一步,步骤五中,所述人工结果干预包括:
(1)手动增加辅助词节点,并进行拓展类别的学习,学习其中心节点;
(2)手工在标签节点上增加正例样本;
(3)移除干扰节点;
(4)增加负例节点;
(5)增加负例样本。
进一步,所述交互式无监督标签分类方法具体包括:
(1)由专家构建产业链体系结构;
(2)基于哈工大词林进行同义词拓展,基于百科知识进行下级词汇拓展,基于通用图谱知识库进行词汇拓展,基于近似向量进行词汇拓展;
(3)使用语义检索模型,获取拓展词汇的特征向量;
(4)基于语义检索,召回相关近似文档,作为伪标签数据集;
(5)使用预训练模型(如:doc2vec、glove、fasttext、bert等,行业内的公知常识)利用得到的伪标签数据进行训练;
(6)对伪标签数据集进行预测,过滤低质量的样本;
(7)重复步骤(5)、步骤(6),直至类内平均相似度超过预定值;
(8)人工验证,检查拓展词汇的准确性,删除无用词汇,添加辅助词汇;
(9)人工验证,对错误样本,设置为负样本,样本较少的标签节点添加样例样本;
(10)对人工的局部干预,使用局部数据进行二次训练,实时修正模型(训练出来的标签分类模型);
(11)最终样本被标注到拓展词汇节点上,并通过向上查询,传递至所需叶子标签。
本发明的另一目的在于提供一种交互式无监督标签分类系统,所述交互式无监督标签分类系统包括:
标签体系构建模块,用于根据需求构建或选择标签体系;
叶子节点标签拓展模块,用于基于已有知识库,对叶子节点标签进行拓展;
清洗过滤提取关键词模块,用于对待分类数据集进行清洗,过滤停用词,并提取关键词,及名词短语;
伪标签数据集构建模块,用于利用叶子节点标签及拓展词汇,采用关键词匹配方式,进行文档召回,构建伪标签数据集;
模型训练模块,用于词汇在预训练语言模型中的词向量作为该类别的中心节点;利用通用预训练语言模型在伪标签数据集上进行二次训练,使其不断逼近中心节点;混用于使用二次训练后的伪标签数据集对伪标签数据集进行预测,移除低置信度的伪样本;
人工整理样本模块,用于对效果较差的分支,手动增加辅助词节点,进行拓展类别的学习,学习其中心节点,同时,可手工在标签节点上增加整理样本;
还增加负节点或负样本,排除负样本作用范围内的空间。
本发明的另一目的在于提供一种无人飞行器,所述无人飞行器用于实施所述的交互式无监督标签分类方法。
本发明的另一目的在于提供一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行所述的交互式无监督标签分类方法。
本发明的另一目的在于提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行所述的交互式无监督标签分类方法。
结合上述的所有技术方案,本发明所具备的优点及积极效果为: 本发明涉及一种标签分类系统,其主要特征在于是一种无监督学习模型,且可人工进行交互干预。其实现过程通过利用伪标签及预训练模型,对数据集进行无监督分类,通过增加拓展词汇,进行辅助分类,同时可增加正例样本进行模型效果的提升。
本发明满足了不同业务场景下对数据集按照不同标签体系进行划分的业务需求,提出一种通用的数据处理流程,能够解决无监督或弱监督的标签分类任务。
本发明主要采用伪标签学习技术,可解决冷启用问题;减少标注数据的需求;
可实时调整标签体系结构;可人工干预;可可视化标签体系关系;不但可增加正样本或正节点,同时可增加负样本或父节点。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图做简单的介绍,显而易见地,下面所描述的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的交互式无监督标签分类方法流程图。
图2是本发明实施例提供的交互式无监督标签分类系统可视化效果图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种交互式无监督标签分类系统,下面结合附图对本发明作详细的描述。
如图1所示,本发明实施例提供的交互式无监督标签分类方法包括:
S101,根据需求构建或选择标签体系;
S102,基于已有知识库,对叶子节点标签进行拓展,如:同义词扩展,上下级词扩展;
S103,对待分类数据集进行清洗,过滤停用词,并提取关键词,及名词短语;
S104,利用叶子节点标签及拓展词汇,采用关键词匹配方式,进行文档召回,构建伪标签数据集;
S105,词汇在预训练语言模型中的词向量作为该类别的中心节点;
S106,利用通用预训练语言模型在伪标签数据集上进行二次训练,使其不断逼近中心节点;
S107,使用二次训练后的伪标签数据集对伪标签数据集进行预测,移除低置信度的伪样本;
S108,重复步骤S106、步骤S107;
S109,针对效果较差的分支,手动增加辅助词节点,同步骤S105、步骤S106、步骤S107,进行拓展类别的学习,学习其中心节点;
S110,同时,可手工在标签节点上增加整理样本,在模型训练过程中,针对人工增加的样本基于更高关注;
步骤S111,同步骤S109、步骤S110,不但可以增加整理节点或样本,还可增加负节点或负样本,排除负样本作用范围内的空间,如:将无人飞行器和飞机易混淆,可在飞机标签下添加负词汇无人飞行器;其训练目标为,最小化伪标签损失函数,最小化正样本距离,最大化负样本距离。
图2是本发明实施例提供的交互式无监督标签分类系统可视化效果图。
下面结合具体实施对本发明技术方案作进一步描述。
以专利分类为例,需要将专利分到具体的各个产业下,具体实施步骤如下:
(1)由专家构建产业链体系结构;
(2)基于合工大词林进行同义词拓展,基于百科知识进行下级词汇拓展,基于通用图谱知识库进行词汇拓展,基于近似向量进行词汇拓展;
(3)使用通用语义检索模型,获取拓展词汇的特征向量;
(4)基于语义检索,召回相关近似文档,作为伪标签数据集;
(4)使用通用模型利用得到的伪标签数据进行训练;
(4)对伪标签数据集进行预测,过滤低质量的样本;
(5)重复⑤⑥,直至类内平均相似度超过预定值;
(6) 人工验证,检查拓展词汇的准确性,删除无用词汇,添加辅助词汇;
(9)人工验证,针对错误样本,设置其为负样本,样本较少的标签节点添加样例样本;
(10)针对人工的局部干预,仅使用局部数据进行二次训练,伴随人工干预的增加,实时修正模型;
(11)其最终样本会被标注到拓展词汇节点上,并通过向上查询,传递至所需叶子标签。
下面结合积极效果对本发明技术方案作进一步描述。
本发明的整个系统采用伪标签训练为主,人工干预为辅,解决项目冷启用问题,减少人工成本,并采用热更新模型方式,对人工标注数据进行实时修正,伴随项目推进及人工标注量的增加,可逐渐转为有监督的高质量模型,并进行落地。
且整个标签体系及拓展词汇采用树状结构,能够具有很好的可解释性,并有针对性的进行修改。
应当注意,本发明的实施方式可以通过硬件、软件或者软件和硬件的结合来实现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的设备和方法可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本发明的设备及其模块可以由诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软件实现,也可以由上述硬件电路和软件的结合例如固件来实现。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,都应涵盖在本发明的保护范围之内。

Claims (8)

1.一种交互式无监督标签分类方法,其特征在于,所述交互式无监督标签分类方法包括:构建伪标签数据集,利用伪标签数据集及预训练模型,对数据集进行无监督分类,通过增加拓展词汇,进行辅助分类,以及在预训练模型中增加负节点或负样本排除负样本作用范围内的空间;所述伪标签数据集的构建方法包括:
第一步,构建或选择标签体系;
第二步,基于已有知识库,对叶子节点标签进行拓展;
第三步,对待分类数据集进行清洗,过滤停用词,并提取关键词,及名词短语;
第四步,利用叶子节点标签及拓展词汇,采用关键词匹配方式,进行文档召回,构建伪标签数据集;
所述利用伪标签及预训练模型,对数据集进行无监督分类包括:
步骤一,词汇在预训练语言模型中的词向量作为词汇类别的中心节点;
步骤二,利用通用预训练语言模型在伪标签数据集上进行二次训练,不断逼近中心节点;
步骤三,使用二次训练后的伪标签数据集对伪标签数据集进行预测,移除低置信度的伪样本;
步骤四,重复步骤二和步骤三。
2.如权利要求1所述的交互式无监督标签分类方法,其特征在于,所述第二步对叶子节点标签进行拓展包括:同义词扩展,上下级词扩展。
3.如权利要求1所述的交互式无监督标签分类方法,其特征在于,所述通过增加拓展词汇,进行辅助分类包括:对效果差的分支,手动增加辅助词节点,并进行拓展类别的学习,学习其中心节点;
同时,可手工在标签节点上增加整理样本。
4.如权利要求2所述的交互式无监督标签分类方法,其特征在于,所述交互式无监督标签分类方法还包括:
(1)由专家构建产业链体系结构,确定标签;
(2)将标签基于合工大词林进行同义词拓展,基于百科知识进行下级词汇拓展,基于通用图谱知识库进行词汇拓展,基于近似向量进行词汇拓展;
(3)使用语义检索模型,获取拓展词汇的特征向量;
(4)基于语义检索,召回标签的相关近似文档,作为伪标签数据集;
(5)使用通用模型对伪标签数据集进行训练;
(6)在训练后,对伪标签数据集进行预测,过滤低质量的样本;
(7)重复步骤(5)、步骤(6),直至类内平均相似度超过预定值;
(8)在内平均相似度超过预定值后,进行第一次人工验证,检查拓展词汇的准确性,删除无用词汇,添加辅助词汇;
(9)在第一次人工验证后,进行第二次人工验证,对错误样本,设置为负样本,样本较少的标签节点添加样例样本;
(10)确定第一次人工验证和第二次人工验证的干预部分,使用局部数据进行二次训练,实时修正通用模型,确定最终样本;
(11)将最终样本标注到拓展词汇节点上,并通过向上查询,传递至所需叶子标签。
5.一种实施权利要求1~4任意一项所述交互式无监督标签分类方法的交互式无监督标签分类系统,其特征在于,所述交互式无监督标签分类系统包括:
标签体系构建模块,用于根据需求构建或选择标签体系;
叶子节点标签拓展模块,用于基于已有知识库,对叶子节点标签进行拓展;
清洗过滤提取关键词模块,用于对待分类数据集进行清洗,过滤停用词,并提取关键词,及名词短语;
伪标签数据集构建模块,用于利用叶子节点标签及拓展词汇,采用关键词匹配方式,进行文档召回,构建伪标签数据集;
模型训练模块,用于词汇在预训练语言模型中的词向量作为该类别的中心节点;利用通用预训练语言模型在伪标签数据集上进行二次训练,使其不断逼近中心节点;混用于使用二次训练后的伪标签数据集对伪标签数据集进行预测,移除低置信度的伪样本;
人工整理样本模块,用于对效果较差的分支,手动增加辅助词节点,进行拓展类别的学习,学习其中心节点,同时,可手工在标签节点上增加整理样本;
还增加负节点或负样本,排除负样本作用范围内的空间。
6.一种无人飞行器,其特征在于,所述无人飞行器用于实施权利要求1~4任意一项所述的交互式无监督标签分类方法。
7.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1~4任意一项所述的交互式无监督标签分类方法。
8.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行权利要求1~4任意一项所述的交互式无监督标签分类方法。
CN202110364666.5A 2021-04-06 2021-04-06 一种交互式无监督标签分类系统、方法、介质、终端 Active CN112800151B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110364666.5A CN112800151B (zh) 2021-04-06 2021-04-06 一种交互式无监督标签分类系统、方法、介质、终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110364666.5A CN112800151B (zh) 2021-04-06 2021-04-06 一种交互式无监督标签分类系统、方法、介质、终端

Publications (2)

Publication Number Publication Date
CN112800151A CN112800151A (zh) 2021-05-14
CN112800151B true CN112800151B (zh) 2021-08-13

Family

ID=75816335

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110364666.5A Active CN112800151B (zh) 2021-04-06 2021-04-06 一种交互式无监督标签分类系统、方法、介质、终端

Country Status (1)

Country Link
CN (1) CN112800151B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113282785B (zh) * 2021-07-19 2021-11-05 北京快鱼电子股份公司 一种基于未标注关键词数据的关键词检测方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111125389A (zh) * 2019-12-18 2020-05-08 创新奇智(合肥)科技有限公司 基于动态渐进式采样的数据分类清洗系统及清洗方法
CN111860596A (zh) * 2020-06-17 2020-10-30 长安大学 基于深度学习的无监督路面裂缝分类方法及模型建立方法
CN112200245A (zh) * 2020-10-10 2021-01-08 深圳市华付信息技术有限公司 一种基于半监督的图像分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200167659A1 (en) * 2018-11-27 2020-05-28 Electronics And Telecommunications Research Institute Device and method for training neural network

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111125389A (zh) * 2019-12-18 2020-05-08 创新奇智(合肥)科技有限公司 基于动态渐进式采样的数据分类清洗系统及清洗方法
CN111860596A (zh) * 2020-06-17 2020-10-30 长安大学 基于深度学习的无监督路面裂缝分类方法及模型建立方法
CN112200245A (zh) * 2020-10-10 2021-01-08 深圳市华付信息技术有限公司 一种基于半监督的图像分类方法

Also Published As

Publication number Publication date
CN112800151A (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
Liu et al. The emerging trends of multi-label learning
CN107705066B (zh) 一种商品入库时信息录入方法及电子设备
CN110209822B (zh) 基于深度学习的学术领域数据相关性预测方法、计算机
EP3227836B1 (en) Active machine learning
CN109344399B (zh) 一种基于堆叠双向lstm神经网络的文本相似度计算方法
CN110232192A (zh) 电力术语命名实体识别方法及装置
CN109086265B (zh) 一种语义训练方法、短文本中多语义词消歧方法
CN112925904B (zh) 一种基于Tucker分解的轻量级文本分类方法
CN114896388A (zh) 一种基于混合注意力的层级多标签文本分类方法
CN101561805A (zh) 文档分类器生成方法和系统
CN113297375B (zh) 一种基于标签的文档分类方法、系统、装置及存储介质
CN113326702B (zh) 语义识别方法、装置、电子设备及存储介质
CN113191148A (zh) 一种基于半监督学习和聚类的轨道交通实体识别方法
CN113761868B (zh) 文本处理方法、装置、电子设备及可读存储介质
CN113515632A (zh) 基于图路径知识萃取的文本分类方法
CN111191031A (zh) 一种基于WordNet和IDF的非结构化文本的实体关系分类方法
CN112613582A (zh) 一种基于深度学习混合模型的争议焦点检测方法及装置
CN109657052B (zh) 一种论文摘要蕴含细粒度知识元的抽取方法及装置
CN113516198A (zh) 一种基于记忆网络和图神经网络的文化资源文本分类方法
CN116611453B (zh) 基于大数据的智能派单跟单方法及系统、存储介质
CN111291168A (zh) 图书检索方法、装置及可读存储介质
CN114564563A (zh) 一种基于关系分解的端到端实体关系联合抽取方法及系统
CN114691864A (zh) 文本分类模型训练方法及装置、文本分类方法及装置
CN112800151B (zh) 一种交互式无监督标签分类系统、方法、介质、终端
CN111651597A (zh) 一种基于Doc2Vec和卷积神经网络的多源异构商品信息分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant