CN114254110A - 用于确定文本数据的标签的方法和设备 - Google Patents

用于确定文本数据的标签的方法和设备 Download PDF

Info

Publication number
CN114254110A
CN114254110A CN202111545363.XA CN202111545363A CN114254110A CN 114254110 A CN114254110 A CN 114254110A CN 202111545363 A CN202111545363 A CN 202111545363A CN 114254110 A CN114254110 A CN 114254110A
Authority
CN
China
Prior art keywords
label
tag
text data
node
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111545363.XA
Other languages
English (en)
Inventor
赵新歌
凌悦
付宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shengdoushi Shanghai Science and Technology Development Co Ltd
Original Assignee
Shengdoushi Shanghai Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shengdoushi Shanghai Technology Development Co Ltd filed Critical Shengdoushi Shanghai Technology Development Co Ltd
Priority to CN202111545363.XA priority Critical patent/CN114254110A/zh
Publication of CN114254110A publication Critical patent/CN114254110A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提出用于确定文本数据的标签的方法和设备。该方法包括获取文本数据;提取文本数据的文本特征;将文本特征和标签嵌入特征融合为融合特征,其中该标签嵌入特征根据待预测的多个标签的层级关系确定;以及基于融合特征从多个标签中确定与文本数据相关联的至少一个标签。本申请的方案能够充分考虑标签体系中的标签相互关系的影响,提高文本数据的标签确定和分类的准确性。

Description

用于确定文本数据的标签的方法和设备
技术领域
本申请涉及数据处理,更特别地,涉及用于确定文本数据的标签以进行多标签分类的方法、设备和计算机存储介质。
背景技术
在诸如餐饮业的服务行业中,及时获取用户对产品和服务的反馈信息有助于提高门店的产品质量和服务水平。用户反馈信息不仅可以提高产品和服务,还可以指导门店的未来业务。
用户反馈信息通常由客户服务部门在受理用户的评价和投诉过程中获取,并通过人工或自动化的方式提取其中的关键特征并进行业务分类。对反馈信息进行分类的方案从传统的二元分类方法(例如好评和差评)发展到多元分类评价方法。相比二元和多元分类方法,使用更复杂的分类算法和模型对反馈信息进行多标签分类能够针对反馈信息的更多维度特征,实现更优的反馈信息提取。因此,如何对文本数据更准确地进行多标签分类,成为目前一个亟待解决的问题。
发明内容
为至少部分地解决上文中提及的现有技术中存在的缺陷,本申请的实施例提出用于确定文本数据的标签的方法和设备,能够在进行文本数据,特别是反馈文本数据的多标签确定以进行多标签分类的过程中,充分考虑标签体系中的标签相互关系因素的影响,提高文本数据的标签确定和分类的准确性。
根据本申请的一方面,提出一种用于确定文本数据的标签的方法,包括:获取文本数据;提取文本数据的文本特征;将文本特征和标签嵌入特征融合为融合特征,其中,标签嵌入特征根据待预测的多个标签的层级关系确定;以及基于融合特征从多个标签中确定与文本数据相关联的至少一个标签。
根据本申请的另一方面,提出一种用于确定文本数据的标签的设备,包括:获取单元,被配置为获取文本数据;特征提取单元,被配置为提取文本数据的文本特征;融合单元,被配置为将文本特征和标签嵌入特征融合为融合特征,其中,标签嵌入特征根据待预测的多个标签的层级关系确定;以及标签确定单元,被配置为基于融合特征从多个标签中确定与文本数据相关联的至少一个标签。
根据本申请的又一方面,提出一种计算机可读存储介质,其上存储有计算机程序,该计算机程序包括可执行指令,当该可执行指令被处理器执行时,实施根据如上所述的方法。
根据本申请的再一方面,提出一种电子设备,包括:处理器;以及存储器,用于存储该处理器的可执行指令;其中该处理器被配置为执行可执行指令以实施根据如上所述的方法。
通过采用本申请提出的确定文本数据的标签的方案,可以在提取用户的反馈文本数据中的评价表述的语言习惯和特征的基础上,使用树形结构表征标签体系中的多层级标签关系并进一步将标签体系构建为标签关系图模型,增加在图模型下引入标签关系信息的标签嵌入特征。融合了标签嵌入特征和文本数据的文本特征的融合特征相比传统的文本特征能够显著提高多标签确定算法和模型针对复杂标签体系下的文本数据标签标记精度,提高多标签分类结果的准确性。
附图说明
通过参照附图详细描述其示例性实施例,本申请的上述和其它特征及优点将变得更加明显。
图1为根据本申请的一个实施例的用于确定文本数据的标签的系统的示意性逻辑框图。
图2为根据本申请的一个实施例的用于确定文本数据的标签的系统中基于树形结构构建图模型以及确定标签嵌入特征的示意性逻辑框图。
图3为根据本申请的一个实施例的用于确定文本数据的标签的方法的示意性流程图。
图4为根据本申请的一个实施例的用于确定文本数据的标签的设备的示意性结构框图。
图5为根据本申请的一个实施例的电子设备的示意性结构框图。
具体实施方式
现在将参考附图更全面地描述示例性实施例。然而,示例性实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施方式;相反,提供这些实施方式使得本申请的技术方案的内容变得全面和完整,并将示例性实施例的构思全面地传达给本领域的技术人员。在图中,为了清晰,可能会夸大部分元件的尺寸或加以变形。在图中相同的附图标记表示相同或类似的结构,因而将省略它们的详细描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有所述特定细节中的一个或更多,或者可以采用其它的方法、元件等。在其它情况下,不详细示出或描述公知结构、方法或者操作以避免模糊本申请的各方面。
在本文中,以餐饮业的餐厅和门店的反馈信息场景中提取顾客对食品和服务相关的反馈文本信息中的用户评价为例,介绍本申请的实施例的文本数据的标签确定方法和设备。但是,该场景仅是示例而不是限制,本领域技术人员可以将文本数据的标签确定方案应用于需要对数据进行多标签分类的多种场景和行业。文本数据一般指以语句或段落形式的自然语言词语的集合。根据应用场景的不同,文本数据可以来自诸如客服场景的用户反馈文本,还可以来自从其他来源获取的包含特定意图和主题的文本数据,以便从文本数据中提取关键特征信息,并且基于文本数据的意图和主题的多维属性对文本数据进行标签标记和多标签分类。例如,在客服场景下,所获取的用户反馈信息可能是以语音或视频格式记录的信息,此时还需要在进行多标签确定和分类之前,通过语音识别等技术将这些格式转换为文本形式的文本数据信息。
使用标签体系进行文本数据的多标签确定和分类过程相比传统的二元分类和多元分类,可以提取文本数据的更多维度或属性上的特性和区别。二元分类(例如,“好评”和“差评”的正面类型和负面类型)的分类结果具有互斥性,文本数据被分为两种类型的概率之和为1。多元分类(例如,“春夏秋冬”四种不同的季节类型)则将类型的数量扩展到多个,相应地,文本数据被分类多种类型的概率之和仍然是1,并且类型之间仍然存在互斥性。多标签分类过程则评估不同属性和特征维度上的区别,确定文本数据属于不同标签所对应的属性和特征维度的概率。通常,文本数据被确定或标记为不同标签的概率是不相关的。根据不同标签体系设置,文本数据可以具有一个或更多个对应的标签及其概率。通常,确定文本数据的标签以进行多标签分类的过程就是确定该文本数据是否在对应的标签所代表的属性和特征维度上具有满足预定阈值条件(例如,具有该标签所对应的属性和特征维度的概率高于某个阈值)的概率的过程。对文本数据进行多标签确定和分类的模型和算法与二元分类和多元分类一般不同。
根据本申请的实施例,标签体系包括多个标签和标签之间的相互关系。在下文中,可以将一个或多个标签的组合称为标签集。标签集包括至少一个标签。对于多标签确定和分类过程来说,标签集包括多个标签。简单多标签文本数据的确定和分类方案通常不考虑标签之间的相互关系,仅考虑反馈文本信息中的语言特征。由于没有考虑标签体系自身的属性,使得多标签分类算法需要依赖标签的先验信息而形成固有顺序,导致其被应用于具有复杂标签关系的标签体系时的多标签分类和标记效果不够好。改进的多标签确定和分类方案考虑标签的相互关系,使得标签生成模型通常依赖标签的先验信息和规则,例如标签的某种排序规则,依次生成具有固定顺序的标签,其中每个标签已知并且其相互关系是事先确定的。这种确定的标签关系相对简单(例如呈顺序关系,诸如按照标签重要性排序)。在对于存在多个属性和特征维度上的标签体系中,标签之间的复杂相互关系(例如具有较多层级的层级关系)对文本数据的标签标记结果也存在显著影响,使得仅根据文本数据自身的关键词等语言特征结合简单的标签排序无法准确地找到文本特征与标签之间的准确对应关系。
根据本申请的实施例,可以在多标签确定和分类算法和模型的输入数据中,在文本数据的文本特征数据之外增加能够表征标签体系的多标签之间的相互关系的附加特征数据,使得多标签确定模型能够接收来自标签体系的复杂信息,从而提高在具有复杂标签关系的标签体系下的标签确定和分类结果的准确性。加入与标签关系相关的附加特征数据的过程被称为标签嵌入(label embedding),其中附加的特征也可以称为标签嵌入特征。将标签嵌入特征与文本数据的文本特征进行融合获得融合特征,作为多标签确定算法和模型的新的输入特征数据。
本申请的实施例以具有多个层级的层级关系的标签体系为例介绍使用标签嵌入特征进行多标签确定和多标签分类的系统、方法和设备。在表征标签体系的复杂标签关系的过程中,如何使用合适的数据模型和系统来表征标签体系的标签关系是重点之一。
图1示出根据本申请的实施例的用于确定文本数据的标签以进行多标签分类的系统流程。
系统首先获取文本数据102。
系统进行多标签分类需要基于标签体系完成,因此系统需要事先存储或获取标签体系的标签集101,其中标签集101包括多个标签,文本数据的标签从这些标签中选取。标签集101中的多个标签也可以被称为待预测的多个标签。根据本申请的实施例,系统也可以在获取文本数据102的同时或在需要使用标签集101的标签层级关系之前获取标签集101。
标签体系用于针对在预定场景中获取的文本数据进行多标签确定和分类,通常与所应用的领域和场景相关。例如,客服场景的用户反馈信息中存在与该客服工作内容相关的多个反馈信息属性。在诸如快餐业等的餐饮门店的用户反馈信息中,文本数据所涉及的标签体系应当是由与食品和食品服务相关的反馈信息属性,而对于零售业的用户反馈信息,客服部门所获取的用户反馈信息可能包括与商品的质量、价格、支付、商品销售服务水平有关的反馈信息属性。对于每个反馈信息属性,或者说该反馈信息的维度,都存在相应的标签表征该属性或维度。在本文中,标签可以是该属性或维度信息本身,也可以是对该属性或维度信息设定的标记或符号。标签体系可以由客服部门根据用户反馈信息的场景预先确定,也可以在场景更新时进行更新。
标签体系的标签集101包括多个标签,这些标签具有的相对复杂的相互关系构成标签体系的标签关系。在本申请的实施例中,以具有多层级的层级关系为例介绍对标签体系的标签关系进行建模的过程。层级关系包括层级之间的上下从属或继承关系,即某个层级可以具有其所从属的更高层级,也可以具有从属于该层级的更低层级。对于相邻的层级来说,较高层级被与其相邻的较低层级直接从属,相应地,较低层级直接从属于与其相邻的较高层级。对于不相邻的层级来说,更高层级被更低层级间接从属,而更低层级则间接从属于更高层级。每个层级内都包括或具有至少一个标签。根据每个标签所属的层级,可以将标签以层级的上下从属或继承关系分为不同层级的标签。对于某个标签来说,其所属层级的上一层级中的标签属于该标签的上级标签,即该标签从属于其上级标签或该上级标签被该标签从属。标签所属层级的下一层级中的标签属于该标签的下级标签,该标签被该下级标签从属或者该下级标签从属于该标签。标签集101中的所有标签根据其所属的层级关系中的相应层级,可以按照从最高层级到最低层级或最低层级到最高层级依次分层地排列或遍历。通常来说,在同一层级中的标签之间是并列关系而不存在相互从属关系。在复杂的标签关系中,同一层级之间还可以存在子层级以及子从属关系。
文本数据102可以来自餐饮门店的客服部门所收集的用户反馈信息。用户反馈的文本数据102从每个门店处收集和存储,也可以由连锁餐饮门店的上级门店或总部的客服部门统一收集和提供。文本数据102可以存储在门店或企业的本地服务器或数据库中,通过专用的数据接口或用户界面以有线或无线的方式获取,也可以存储在远程或网络(例如云服务器)上提供的服务器或数据库中,通过与本地场景类似或不同的接口/界面以有线或无线的方式获取。
文本数据102也可以称为文本语料,是符号化的自然语言语句或多个语句的组合,通常包括文字符号的有序组合。在使用文本数据102之前,可以对其预处理以获得包括组成语句的关键词w1,w2,w3,…等的经处理的文本数据121。经处理的文本数据121还可以包括首句标记CLS,用于在文本数据中包括多个语句(例如语句对)时对语句进行分割和标记。预处理可以包括删除语句中不必要的标点符号、连词、副词和语气词,以及其他与文本数据102的识别不相关的符号(例如表情符号和图片)等。
文本数据102的文本特征122是从文本数据102中提取的能够表征文本数据102所包含的意图或主题的特征数据,其具有与标签体系的标签集101中的某个或某些标签相关的属性或维度信息。可以通过基于自然语言处理NLP等技术的算法或模型120提取文本数据102或经处理的文本数据121中的文本特征。在图1中以BERT模型作为特征提取模型120。本领域技术人员可知,特征提取模型120还可以采用传统技术的算法或模型,或者采用机器学习模型结构或神经网络模型结构实现。神经网络模型可以是深度神经网络DNN模型结构,也可以是卷积神经网络CNN模型结构。具体地,还可以采用诸如适用于大规模语言处理的Roberta(例如Roberta-wwm)模型。Roberta是基于WIKI百科新闻数据等预训练的网络模型,结合来自餐饮门店的经校准的无标签用户反馈信息作为训练数据的预训练,能够更好地学习到具有用户评价语言表述习惯的文本特征。Roberta-wmm模型所提取的文本特征带有上下文信息的词向量。
通过文本特征提取模型120,能够获得以特征向量表示的文本特征122。文本特征122包括具有特征维度D1的多个特征向量,其中特征维度D1与文本特征提取模型120相关,一般为大于0的正整数。在图1所示的BERT模型示例中,文本特征122包括4个特征向量。
由于对文本数据102或经处理的文本数据121进行特征提取的过程不需要引入标签信息,因此文本特征提取模型120可以事先训练获得预训练模型。
基于标签体系的标签集101中的多个标签和层级关系构建能够表征层级关系的树形结构。树形结构是表征层级关系的典型拓扑结构之一。树形结构的节点拓扑结构可以将层级结构中的上下从属或继承关系以节点间的父子从属或继承关系相对应地表示。也可以将使用树形结构表示标签层级关系的标签体系称为树形标签体系。本领域技术人员可以理解,还可以使用其他分级结构表示标签体系的标签间层级关系。
现在结合图2中所示的树形结构介绍标签体系的层级关系与树形结构之间的对应。其中,树形结构210仅示出一部分,用于图示以树形结构210中的遍历路径的行进过程表示的部分标签的层级关系。
树形结构210所具有的叶子节点数量与标签集101中的标签数量相同,其中每个叶子节点及其从树形结构210的根节点到该叶子节点的遍历路径(最短行进路径)都唯一地对应于标签集101中的与该叶子节点对应的标签。基于该对应关系,可以使用根节点到叶子节点之间的行进路径的遍历过程中经过的节点之间的层级关系来表征标签的多层级从属关系。树形结构210中所具有的所有节点(中间节点和叶子节点的总和)的数量应当大于标签集101中的标签数量。树形结构210从根节点root开始逐层划分到不同的分支形成了树形结构210的多级节点结构,因此可以基于具有层级关系的标签在树形结构210中构成与之对应的不同级的叶子节点,建立层级关系的对应树形结构。根据树形结构从根节点到叶子节点的自上到下的从属关系,可以将标签体系的层级关系从最高层级到最低层级排序并标记为第一层级,第二层级,…,第N层级,其中层级关系共有N个不同的层级,N为大于0的正整数。在本文中,为了体现树形结构210与标签体系的层级关系之间的对应,第一层级至第N层级既可以用于表示树形结构210中的节点所属的层级(例如,一级节点属于第一层级),也可以用于表示标签集101中的标签所属的层级(例如,如果某个属于第一层级的标签在从根节点遍历到某个叶子节点的路径中作为中间节点/中间标签出现,则其对应于树形结构210的该路径上的某个一级节点)。
在本文中,使用标签表示标签集101中的用于在多标签确定和分类过程中用于标记文本数据的标签,使用中间标签表示标签在层级关系的遍历过程中经过的那些标签,这些中间标签与树形结构中从根节点到叶子节点的遍历路径的行进过程中经过的中间节点对应。换句话说,作为中间标签的那些标签所对应的节点,在其他标签作为叶子节点的遍历路径中作为中间节点而不是叶子节点出现。但是,在树形结构210中必然存在这些作为中间标签的标签对应的节点作为叶子节点出现的情况。
首先,例如对于与标签集101中的某个标签对应的叶子节点234a,由根节点root开始,树形结构划分到两个分支中的一级节点231a和231b,分别以标号1和2表示。根据本申请的实施例,可以将标签从最高层级到最低层级遍历过程中所经过的中间标签作为树形结构中与该标签作为叶子节点的遍历路径中的中间节点,即中间标签的名称即是中间节点的名称,也可以将中间标签作为数据存入树形结构210的相应中间节点中或者与相应中间节点之间建立对应关系(例如以指向该中间标签的数据的指针形式表示),为相应中间节点设置相应的中间节点标号或符号以便引用。标签表征文本数据在某个属性或维度上的特性或信息,可以将属于不同层级的标签数据以标签向量的形式表示,例如第一层级的标签向量221a。在图2中,分别以标记1和2表示的一级节点231a和231b,代表以第一层级的标签向量221a形式表示的在从根节点遍历到叶子节点234a的路径中可能经过的两个属于第一层级的中间节点,这两个中间节点对应于标签集101中的属于第一层级的标签,即上文中所称的中间标签。标签集101中属于第一层级的标签有两个,当它们作为与其他标签对应的叶子节点234a的行进路径上的中间节点对应的中间标签时,分别构成对应的树形结构210的一级节点231a和231b(标记为1和2)。标签集101中属于第一层级的两个标签本身作为叶子节点时,树形结构210在属于第一层级的节点中还包括两个与该一级节点231a和231b同样属于第一层级的两个叶子节点以与这两个第一层级的标签对应(图2中未示出)。因此,标签集101中的标签必然会在树形结构210中找到位于与该标签所在的层级相对应的节点层级中的唯一的叶子节点及其遍历路径。但是,该标签作为层级关系中的其他标签的遍历路径中的中间标签存在时,在其他标签(特别是层级低于该标签的其他标签)作为叶子节点的从根节点开始的遍历路径的行进过程中,作为所经过的中间节点所对应的中间标签被复用。一级节点231a和231b是根节点root的子节点,反过来说,根节点是一级节点231a和231b的父节点。这样,某个标签与其上级标签和其下级标签的从属关系就可以通过树形结构210中与该标签对应的某一级节点的父节点与子节点的从属关系唯一对应地表示。
然后,例如对于叶子节点234a,树形结构210从一级节点231a(标记为1)分别进一步划分到两个分支中的二级节点232a和232b(分别标记为01和02);从一级节点231b(标记为2)分别进一步划分到两个分支中的二级节点232c和232d(分别标记为03和04)。在所示的树形结构210的部分结构中,二级节点共有四个,包括分别以01至04标记的节点232a至232d,表示以第二层级的标签向量221b形式的在叶子节点234a的遍历路径中可能经过的四个属于第二层级的中间节点,这四个中间节点对应于标签集101中的属于第二层级的标签所构成的中间标签。这样,一级节点与二级节点之间的父子从属关系或继承关系,对应地表示标签体系中的标签集101中的第一层级与第二层级的标签之间的从属关系。
从二级节点232a进一步划分到三个分支中的三级节点,分别用01(节点233a),02和03标记。二级节点232c也进一步划分到三个分支中的三级节点,分别用01,02和10(节点233b)标记。二级节点232d仅有一个分支,具有以01标记的一个三级节点。二级节点232b则进一步划分到多个分支中的三级节点,在图中未详细列出。在图2所示的树形结构的部分结构中,存在至少7个三级节点,它们分别是二级节点232a(标记为01),二级节点232c(标记为03)和二级节点232d(标记为04)的子节点,反过来说,这些子节点的父节点分别是三个二级节点232a,232c和232d。需要说明的是,虽然在不同级的节点中,以及在同一级中从属于不同父节点(或者说不同父节点下)的子节点可能具有相同的标记,但是由于其从属的父节点不同,使得这些子节点仍然可以被区分为不同的同级或不同级节点。也可以为树形结构210中的每个节点分配唯一的标记。上文中的三级节点分别表示以第三层级的标签向量221c形式表示的多个第三层级的中间节点或叶子节点,这些中间节点或叶子节点分别对应于标签集101中的属于第三层级的标签,即第三层级的中间标签(对应于中间节点)或标签(对应于叶子节点)。
类似地,三级节点233a(标记为01)进一步划分到三个分支中的四级节点,分别以01,02(节点234a)和07标记。从属于二级节点232a的标记为03的三级节点也具有单独的分支,具有标记为01的四级节点234b。四级节点分别表示以第四层级的标签向量221d形式表示的多个第四层级的中间节点或或叶子节点,这些中间节点或叶子节点分别对应于标签集101中的属于第四层级的标签,即第四层级的中间标签(对应于中间节点)或标签(对应于叶子节点)。进一步,四级节点234b(标记为01)具有单独的分支下的五级节点235a(标记为01),它与其他同级节点分别表示以第五层级的标签向量221e形式表示的多个第五层级的中间节点或或叶子节点,这些中间节点或叶子节点分别对应于标签集101中的属于第五层级的标签,即第五层级的中间标签(对应于中间节点)或标签(对应于叶子节点)。这样,对于叶子节点234a,其从根节点root开始的遍历路径的行进过程中,经过一级节点231a(标记1),二级节点232a(标记01),三级节点233a(标记01),最终到达四级节点234a(标记02),表示标签集101中的属于第四层级的标签的层级遍历过程中需要经过的中间标签分别为这些中间节点对应的中间标签,即标签集中的与这些中间标签对应的四个不同层级的标签。在图2中的树形结构210最多具有5级节点,可以表示最多具有五个层级的标签层级关系。
从图2中可以看到,树形结构210的叶子节点有些位于三级节点处,例如叶子节点233b,有些位于树形结构中的四级节点处,例如叶子节点234a,还有些位于树形结构中的五级节点(最下一级节点)处,例如叶子节点235a。叶子节点的位置分布与标签体系设置有关,表征标签体系所对应的多标签文本数据的应用场景相关的属性或维度信息。
实际上,树形结构210是所有标签集101中的标签作为叶子节点形成的不同遍历路径所经过的中间节点形成的部分结构的整合,其中可以将遍历路径部分或完全重合的树形结构210的不同部分结构合并。例如,图2的左侧部分至少是由叶子节点234a及其左右两个叶子节点(标记为01和07),由叶子节点235a及其左侧的两个叶子节点(标记为01和04)等的遍历路径的不同部分结构合并构成的。而图2的右侧部分至少是由叶子节点233b等的遍历路径的不同部分结构合并构成的。图2的树形结构210还包括更多没有示出的其他叶子节点的遍历路径的部分结构经过合并或不经过合并的部分。
从树形结构210的根节点作为起点到任何一个叶子节点作为终点进行遍历的行进路径包括在分支划分过程中经过的所有中间节点,发生分支划分的次数称为该行进路径的路径长度。路径长度也可以理解为从一个节点行进到另一个节点中经过节点间连接线段的数量。从任意一个节点到另一节点的行进路径可能存在多条,这些行进路径的路径长度中的最小路径长度可以称为这两个节点之间的路径距离。当两个节点都是叶子节点时,两个叶子节点之间的最小路径长度为叶子节点之间的路径距离。在所有叶子节点中选择两个叶子节点组成叶子节点组合,那么每个叶子节点组合都可以找到其最小路径长度作为其路径距离。由树形结构的拓扑图可知,节点的最大级数决定了树形结构从根节点到任何节点(叶子节点)的最大路径长度,即层级关系中的层级数(或最大层级数)决定了树形结构从根节点到任何节点(叶子节点)的最大路径长度。树形结构中的两个节点之间的最小路径长度(路径距离)可以超过从根节点到任何节点(叶子节点)的最大路径长度,因为这两个节点之间的行进路径很可能是从节点行进到根节点,再从根节点行进到另一个节点(相当于两条从根节点到节点的行进路径)。两个节点之间的最小路径长度(路径距离)也可以小于从根节点到任何节点(叶子节点)的最大路径长度,因为这两个节点之间的行进路径很可能是从节点行进到二者共同的最近父节点在直接到达另一节点而无需经过根节点。
可以根据树形结构210的拓扑结构对标签体系的层级关系在图域(图空间)进行建模得到图模型并使用图模型获得标签嵌入特征。三维空间中的图模型可以表征更复杂的变量关系,因此标签体系的复杂层级关系可以通过上文中构建的树形结构映射到图中。文本数据的标签确定和分类可以引入对所建模的图模型进行处理和运算得到的标签层级关系获得更准确更快速的处理结果,即嵌入标签层级关系的标签嵌入特征。图模型中不再由标签的特征向量、矩阵或数值形式的元素构成,而是由多个空间点构成的点集以及这些空间点之间连接的边或者路径构成的边集二者构成。根据本申请的实施例,可以将标签体系中的标签集101中的所有标签所对应的树形结构210中的所有叶子节点作为图模型中的空间点的点集,以及将这些叶子节点之间的行进路径作为图模型中的边的边集来构建图1中所示的图模型110。因此,分别基于叶子节点生成由图模型110处理的点集的点特征部分,基于叶子节点之间的路径生成由图模型110处理的边集的边特征部分。进一步,可以基于从根节点到叶子节点之间的行进路径相关联的信息生成图模型的点特征。可以将叶子节点之间的行进路径的最小路径长度作为对应叶子节点之间的空间距离。这样,标签体系就可以通过上述映射方式表示为空间图。图模型110可以通过处理图数据的模型实现,例如可以是能够处理图数据的机器学习模型结构或神经网络模型结构。图神经网络模型结构GNN(GraphNeutral Network)是专用于对图数据进行处理的神经网络模型结构,例如包括图卷积神经网络GCNN,图注意力神经网络GAT(Graph ATtention network)等。图数据的处理包括图特征提取和转换,图数据的分类等。在本申请中,主要使用图神经网络GNN的图特征提取和转换功能。图神经网络GNN的输入数据为由图空间中的点的属性特征构成的点特征部分和由图空间中的边的属性(例如边的长度或空间点距离)构成的边特征部分(例如空间点之间的邻接矩阵),其输出为经过GNN处理后的与图相关的特征数据。
下面以餐饮门店的用户反馈文本数据样本为例介绍图模型110基于输入的标签集101中的多个标签以及标签之间的层级关系确定标签嵌入特征的过程。
客服部门对于反馈文本数据样本提取所有涉及的反馈文本数据的各个属性或维度信息,构建标签集101。标签集101中的标签“(好评-食品-糯米饭团-好吃”作为具有多层级关系的标签样本,按照树形结构210的节点从属关系从根节点逐级划分到涉及该标签样本的最下级节点(即某个叶子节点)。标签“好评-食品-糯米饭团-好吃”例如可以提取自反馈文本“(好评,食品中的)糯米饭团软糯好吃”。类似的标签还可以是“好评”(仅具有属于第一层级的一个标签层级的标签),“好评-食品”(具有属于第一层级和第二层级的两个标签层级的标签),“好评-食品-糯米饭团”(具有属于第一层级至第三层级的三个标签层级的标签),“好评-食品-糯米饭团-米软”(具有属于第一层级至第四层级的四个标签层级的标签),“好评-食品-糯米饭团-馅料多”,“好评-食品-总体-好评”,“好评-总体-好评”,或“差评-食品-糯米饭团-米太硬”等。根据上文的介绍,标签“好评”,“好评-食品”和“好评-食品-糯米饭团”中的至少一个可以作为标签“好评-食品-糯米饭团-好吃”或“好评-食品-糯米饭团-馅料多”作为树形结构210中的叶子节点时的遍历路径中的中间节点所对应的中间标签。
例如,从根节点root开始,两个分支中一级节点231a和231b点的第一层级中间标签分别是“好评”和“差评”。该标签样本属于好评或者具有好评属性,则该标签样本行进或被划分到一级节点231a(中间标签“好评”)所在的分支。在一级节点231a的子节点(二级节点)的第二层级中间标签中,涉及反馈样本所针对的对象类别,例如包括二级节点232a的中间标签“食品”和二级节点232b的中间标签“饮料”,“糯米饭团”属于食品,则在一级节点231a所在的好评分支中该标签样本被进一步被划分到与中间标签“食品”对应的二级节点232a所在的分支。在二级节点232a下面的三级节点中,分别包括代表中间标签“糯米饭团”(节点233a)、“大米粥”和“米饼”的三级节点(分别标记为01,02和03)。“糯米饭团”属于“糯米饭团”,则在二级节点232a(代表中间标签“食物”)处标签样本被进一步划分到代表中间标签“糯米饭团”的三级节点233a所在的分支。三级节点233a(代表中间标签“糯米饭团”)的子节点,即四级节点中分别具有代表米的状态的中间标签“好吃”(标记为01)、“米软”(标记为02)和“馅料多”(标记为07)等,“好吃”属于“好吃”,则在三级节点233a处标签样本被划分到具有标记“好吃”的四级节点234a(标记为02)所在的分支。四级节点234a为叶子节点,则标签样本“好评-食品-糯米饭团-好吃”最终行进到叶子节点234a处结束。类似地,标签样本“好评-食品-糯米饭团-米软”,“差评-食品-糯米饭团-米太硬”也可以分别从树形结构210的根节点root遍历到与该标签样本对应的叶子节点。
可以看到,将标签样本基于其属性从最高层级的中间标签遍历到标签样本所涉及的中间标签中的最低层级的中间标签的过程,对应于树形结构210中从根节点root遍历到某个叶子节点的行进过程。可以认为,每个标签样本的层级划分过程都存在对应的树形结构210的叶子节点的遍历行进路径。因此,可以根据从根节点到叶子节点的遍历行进路径的特征标识标签的层级属性信息,以便在文本数据102的特征中引入标签的层级关系。
根据本申请的实施例,可以使用标签从树形结构210的根节点到叶子节点的行进路径中所包括或经过的节点的节点序列数据表征该层次属性信息。树形结构210中的每个节点对应于相应层级的标签或由该标签构成,并且每个叶子节点及其遍历路径唯一地对应于标签集101中的标签,因此可以将这些标签以节点序列中的出现顺序,即标签的层级关系顺序(例如在图2中从最高的第一层级到最低的第五层级)进行组合获得图模型中的空间点数据。对于上文中的标签样本“好评-食品-糯米饭团-好吃”,其遍历行进路径的节点序列为{231a,232a,233a,234a},以节点标记表示的有序字符序列或字符串为{1,01,01,02},对应地,节点序列或节点标记序列所对应的标签向量依次为221a,221b,221c和221d。可以将节点序列对应的标签向量依次拼接为表征具有标签层级关系的标签样本的特征向量111,如图1和2所示。假设每个标签向量具有相同的维度D2(D2为大于0的正整数),则拼接后的标签样本的特征向量111是按照标签向量顺序221a、221b、221c和221d的顺序拼接的维度为D2*4的特征向量(如果以行向量表示的话,为{221a,221b,221c,221d}),称为初始标签嵌入特征。图2中的树形结构210所表征的标签体系的层级关系的最大层级数为5,则按照上述拼接操作得到的初始标签嵌入特征的最大维度为D2*5,即按照标签向量顺序221a、221b、221c、221d和221e的顺序拼接的维度为D2*5的特征向量。如果该标签样本的遍历过程所到达的叶子节点不是树形结构210的最低级节点,此时的行进路径的路径长度等于叶子节点所在的节点级数,例如标签样本“好评-食品-糯米饭团-好吃”的叶子节点234a的节点级数为4,即行进路径的路径长度为4。为了保证所有标签样本的初始标签嵌入特征具有相同的维度,在由叶子节点所属的节点级数或行进路径中经过或包含的节点数量计算的文本数据的遍历行进路径的长度小于树形结构的最大路径长度的情况下,将标签样本的初始标签嵌入特征的维度扩充到具有层级关系的最大层级数的维度(图2中为D2*5)的特征向量。该最大层级数的维度可以称为初始标签嵌入特征的标准化维度。层级关系的最大层级数等于树形结构210中节点的最大级数,也等于所有叶子节点的遍历行进路径的路径长度中的最大值。具有最大路径长度的遍历行进路径的叶子节点是那些最低级节点,例如图2中属于最低级的五级节点的叶子节点235a,被遍历或最终划分到叶子节点235a的标签样本的初始标签嵌入特征为节点标记序列{1,01,03,01,01}对应的标签向量拼接的具有D2*5的最大维度的特征向量。而上文中的标签样本“好评-食品-糯米饭团-好吃”则仅有D2*4的维度,需要在初始标签嵌入特征上再扩充D2维度的标签向量221e,即从{221a,221b,221c,221d}形式的向量扩充为{221a,221b,221c,221d,221e}形式的向量。维度扩充操作例如包括在得到的拼接特征或向量后再增加相应维度的空向量或零向量,使得扩充的特征向量不影响后续的特征处理和运算。如果标签体系的层级关系具有最大层级数m(m为大于0的正整数),则标准化维度为D2*m。
输入图模型的输入数据还包括边特征部分。根据标签样本与树形结构210的叶子节点之间的对应关系,可以将树形结构中的所有叶子节点中的任何两个叶子节点组成的叶子节点组合(也可以称为叶子节点对)之间的行进路径数据作为边特征部分输入。例如,图2中以虚线A表示的行进路径为叶子节点234a到叶子节点233b的一条行进路径。由图模型建模过程可知,任何两个节点之间的行进路径的最小路径长度为这两个节点之间的路径距离,因此可以确定成对的两个叶子节点之间的唯一的最小路径长度作为这些叶子节点的边特征部分的数据。叶子节点的边特征部分数据也是标签集101在图模型下的边特征部分数据。由空间点的邻接矩阵的定义,所有成对的两个叶子节点的最小路径长度构成与树形结构相关联的邻接矩阵112,其是由最小路径长度值构成的n*n阶矩阵,其中大于零的正整数n为树形结构210中的叶子节点的数量。图2中的路径A是叶子节点234a到叶子节点233b的最短行进路径,具有最小路径长度。如果将叶子节点标记为i1,i2,…,in,则通过邻接矩阵112的行和列标记,可以查询每个叶子节点行进到另一叶子节点的最小路径长度。邻接矩阵112在树形结构210的创建过程后就可以计算得出并且在文本数据的标签确定和多标签分类过程中保持恒定。一般来说,邻接矩阵112为三角对称矩阵。仅当标签体系的标签集和层次关系发生改变时,邻接矩阵112才相应调整。
通过上述定义,可以获得在标签体系的层级关系下通过树形结构210生成的图模型110的点特征部分输入(即初始标签嵌入特征111)和边特征部分输入(即邻接矩阵112)。二者输入到经过预训练的图模型110中,得到引入标签层级关系的标签嵌入特征。
现在回到图1,由图模型110生成的标签嵌入特征与文本数据的文本特征122进行融合操作130,得到文本数据102的融合特征。融合操作130例如可以包括矩阵乘法或向量乘法的乘法运算或拼接操作的向量拼接操作。根据后续的用于进行多标签分类的标签确定单元140的输入数据格式要求,可以使融合后的融合特征具有文本特征122相同的特征向量维度。例如,文本特征122为D1维的行向量,则图模型110输出的标签嵌入特征可以是具有D1维*D1维的特征向量,当融合操作130为向量乘法时,融合特征仍然是D1维的行向量,标签确定单元140的输入数据的维度特性保持不变。如果融合操作130为向量拼接操作,则图模型110输出的标签嵌入特征也可以是诸如D2*m维或其他维度的行向量,与文本特征122拼接后得到D2*m+D1维或其他组合维度的行向量。相应地,标签确定单元140的输入数据的维度相比现有的仅基于文本特征122确定标签的那些单元或模型,需要相应地调整。
标签确定单元140最终输出与文本数据102对应的多标签分类结果150。多标签分类结果150例如可以是文本数据102所关联的标签及其属于该标签所表征的属性或维度的概率的形式。当分类结果150具有多个标签时,所确定的文本数据102对于每个标签都具有相应的概率。
标签确定单元140例如可以通过机器学习模型结构或神经网络模型结构实现。神经网络模型结构例如可以采用CNN,DNN等类型的用于多标签分类的多种神经网络模型结构实现。
在使用图1中通过机器学习模型结构或神经网络模型结构实现的图模型110和标签确定单元140之前,可以使用具有被校准的标签的文本数据样本作为训练数据对标签确定单元140进行训练以确定其参数。还可以对加入特征提取模型120构成的系统整体模型进行训练,此时系统整体模型可以看做一个完整的机器学习模型或神经网络模型,使用经过标记和/或校准的带有标签的文本数据样本进行训练和微调。特征提取模型120可以在使用前进行预训练。
在系统的使用过程中,还可以基于经过标签校准的文本数据作为增量更新的训练数据再次校对和微调系统整体模型或其中的部分单元或模型(例如标签确定单元140中的模型和特征提取模型120中的至少一个)的参数。其中,图模型110基于经过调整的标签体系(标签集101)进行校对和微调。
图3示出根据本申请的实施例的用于确定文本数据的标签以进行多标签分类的方法的示例性流程。其中与结合图1和图2介绍的系统流程相同或类似的部分将不再赘述。
方法首先在步骤S310中获取来自诸如客服部门的用户反馈数据作为待确定标签的文本数据。方法可以事先存储或获取用于对文本数据进行多标签分类的标签体系,标签体系包括具有多个标签的标签集,这些标签存在层级关系。也可以在获取文本数据的同时或在需要使用标签集的标签层级关系之前获取标签集。
获取文本数据后,可以在步骤S320中提取文本数据的文本特征。
在步骤S330中确定标签嵌入特征,以用于在步骤S340中将标签嵌入特征与文本特征进行融合。标签嵌入特征根据待预测的标签集的多个标签的层级关系确定。在图3所示的示例性方法流程中,根据标签体系的标签集和层级关系构建图模型来确定标签嵌入特征。根据本申请的实施例,步骤S320和S330可以相互独立地并行运行。例如,步骤S330可以在步骤S340之前的任意时间完成以提供步骤S340所需的标签嵌入特征。根据本申请的实施例,进行多标签分类的系统和方法还可以针对待预测的多个标签事先确定并存储标签嵌入特征,此时步骤S330在对文本数据进行多标签分类的方法流程中不是必需的,因此在图3中以虚线示出该步骤。
步骤S330可以进一步包括构建表征标签体系,特别是标签体系的标签层级关系的树形结构,其中树形结构所具有的叶子节点与标签集中的标签对应。接下来,使用每个层级中的标签与其所从属的上级标签和从属于其的下级标签分别构成树形结构中的节点、该节点的父节点和子节点,或者将这些标签分别作为相应节点的数据存储,或者建立标签与相应节点之间的对应关系,从而使用树形结构的父子节点关系表征标签体系的不同层级之间的上下从属或继承关系。在构建树形结构后,将树形结构中的叶子节点作为图的空间点,每个叶子节点之间的行进路径作为图的边构建表征标签体系的图模型。
基于标签的层级属性,生成标签在树形结构中根据标签的层级关系从根节点行进到叶子节点的行进路径,记录行进路径中包括或经过的中间节点,将这些中间节点对应的中间标签按照层级关系依次拼接为引入标签层级关系的初始标签嵌入特征作为图模型输入的空间点特征部分。可以对初始标签嵌入特征的维度按照基于最大层级数确定的标准维度进行扩充,使得所有的初始标签嵌入特征规范化。同时,在树形结构中选择任意两个叶子节点组成叶子节点组合或叶子节点对,针对所有叶子节点组合或对的两个叶子节点之间的最小路径长度生成与树形结构相关联的邻接矩阵作为图模型输入中的边特征部分。初始标签嵌入特征和邻接矩阵二者作为图模型的输入,计算得到嵌入标签层级关系的标签嵌入特征。
方法接下来在步骤S340中将来自步骤S320的文本特征和来自步骤S330或者事先确定并存储的标签嵌入特征融合为融合特征。融合特征在步骤S350中输入到标签确定单元中确定文本数据的标签以完成多标签分类。
步骤S320的文本特征提取操作,步骤S330中的图模型以及步骤S340中的标签确定过程都可以通过相应的机器学习模型结构或神经网络结构实现。在使用这些模型结构或者系统的整体模型结构之前,可以使用经过校准或标记的数据作为训练数据预训练、训练或微调这些模型的参数。
图4是根据本申请的实施例的用于确定文本数据的标签以进行多标签分类的设备300的示例性结构框图。设备300可以包括获取单元310,特征提取单元320,可选的标签嵌入单元330,融合单元340和标签确定单元350。
获取单元310可以获取文本数据。设备300可以事先存储或获取用于多标签分类的标签体系,例如标签体系的包括多个标签的标签集以及标签的层级关系。特征提取单元320用于提取文本数据的文本特征。可选的标签嵌入单元330用于确定标签嵌入特征,以用于在融合单元340中将标签嵌入特征与文本特征进行融合。标签嵌入特征根据待预测的标签集的多个标签的层级关系确定。在图4所示的示例性设备300中,标签嵌入单元330则基于标签集和层级关系构建树形结构,并进一步构建图模型以确定标签嵌入特征。设备300也可以针对待预测的多个标签事先确定并存储标签嵌入特征,此时标签嵌入单元330不是必需的,因此在图4中以虚线示出标签嵌入单元330。融合单元340接收来自特征提取单元320的文本特征和来自标签嵌入单元330或者事先存储的标签嵌入特征,并将其融合为融合特征。融合特征提供给标签确定单元350以确定文本数据相关联的至少一个标签,完成多标签分类操作。
设备300还可以包括用于向用户输出分类结果的输出单元(未示出)和用于对设备中的各个单元所使用的模型进行预训练和微调的模型训练单元(未示出)。
设备300的各个单元还可以进一步完成结合图1-3中所介绍的功能和方法,在此不再重复介绍。
通过采用本申请提出的确定文本数据的标签的方案,可以在提取用户的反馈文本数据中的评价表述的语言习惯和特征的基础上,使用树形结构表征标签体系中的多层级标签关系并进一步将标签体系构建为标签关系图模型,增加在图模型下引入标签关系信息的标签嵌入特征。融合了标签嵌入特征和文本数据的文本特征的融合特征相比传统的文本特征能够显著提高多标签确定算法和模型针对复杂标签体系下的文本数据标签标记精度,提高多标签分类结果的准确性。
应当注意,尽管在上文详细描述中提及了用于确定文本数据的标签的系统的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。作为模块或单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
在本申请的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序包括可执行指令,该可执行指令被例如处理器执行时可以实现上述任意一个实施例中所述用于确定文本数据的标签的方法的步骤。在一些可能的实施方式中,本申请的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书用于确定文本数据的标签的方法中描述的根据本申请各种示例性实施例的步骤。
根据本申请的实施例的用于实现上述方法的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本申请的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
在本申请的示例性实施例中,还提供一种电子设备,该电子设备可以包括处理器,以及用于存储所述处理器的可执行指令的存储器。其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一个实施例中的用于确定文本数据的标签的方法的步骤。
所属技术领域的技术人员能够理解,本申请的各个方面可以实现为系统、方法或程序产品。因此,本申请的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
下面参照图5来描述根据本申请的这种实施方式的电子设备500。图5显示的电子设备500仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图5所示,电子设备500以通用计算设备的形式表现。电子设备500的组件可以包括但不限于:至少一个处理单元510、至少一个存储单元520、连接不同系统组件(包括存储单元520和处理单元510)的总线530、显示单元540等。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元510执行,使得所述处理单元510执行本说明书用于确定文本数据的标签的方法中描述的根据本申请各种示例性实施方式的步骤。例如,所述处理单元510可以执行如图3中所示的步骤。
所述存储单元520可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)5201和/或高速缓存存储单元5202,还可以进一步包括只读存储单元(ROM)5203。
所述存储单元520还可以包括具有一组(至少一个)程序模块5205的程序/实用工具5204,这样的程序模块5205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线530可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备500也可以与一个或多个外部设备600(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备500交互的设备通信,和/或与使得该电子设备500能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口550进行。并且,电子设备500还可以通过网络适配器560与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器560可以通过总线530与电子设备500的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备500使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本申请实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、或者网络设备等)执行根据本申请实施方式的用于确定文本数据的标签的方法。
本领域技术人员在考虑说明书及实践这里公开的内容后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由所附的权利要求指出。

Claims (18)

1.一种用于确定文本数据的标签的方法,包括:
获取文本数据;
提取所述文本数据的文本特征;
将所述文本特征和标签嵌入特征融合为融合特征,其中,所述标签嵌入特征根据待预测的多个标签的层级关系确定;以及
基于所述融合特征从所述多个标签中确定与所述文本数据相关联的至少一个标签。
2.根据权利要求1所述的方法,其特征在于,基于所述多个标签和所述层级关系确定所述标签嵌入特征。
3.根据权利要求2所述的方法,其特征在于,基于所述多个标签和所述层级关系确定所述标签嵌入特征进一步包括:
基于所述多个标签和所述层级关系生成树形结构,所述树形结构具有与所述多个标签中的标签对应的叶子节点;
分别基于所述树形结构的叶子节点和所述叶子节点之间的路径生成点特征和边特征;以及
使用图模型基于所述点特征和所述边特征确定所述标签嵌入特征。
4.根据权利要求3所述的方法,其特征在于,所述层级关系具有多个层级,每个层级包括至少一个标签,所述标签具有所从属的上级标签和/或从属于所述标签的下级标签,其中所述上级标签属于所述标签所在层级的上一层级,所述下级标签属于所述标签所在层级的下一层级,基于所述多个标签和所述层级关系生成树形结构进一步包括:
每个所述标签构成所述树形结构的节点,所述标签的上级标签构成所述节点的父节点,所述标签的下级标签构成所述节点的子节点。
5.根据权利要求4所述的方法,其特征在于,分别基于所述树形结构的叶子节点和所述叶子节点之间的路径生成点特征和边特征进一步包括:
基于所述层级关系将所述标签在所述树形结构中从根节点划分到叶子节点,并且记录划分过程中的行进路径;
基于与所述行进路径相关联的信息生成初始标签嵌入特征作为所述点特征。
6.根据权利要求4所述的方法,其特征在于,分别基于所述树形结构的叶子节点和所述叶子节点之间的路径生成点特征和边特征进一步包括:
针对由所述树形结构的两个叶子节点组成的叶子节点组合中的每一个,基于所述叶子节点组合中的两个所述叶子节点之间的最小路径长度生成与所述树形结构相关联的邻接矩阵作为所述边特征。
7.根据权利要求5所述的方法,其特征在于,分别基于所述树形结构的叶子节点和所述叶子节点之间的路径生成点特征和边特征进一步包括:针对每个所述行进路径,将所述行进路径中的节点所对应的标签按照所述层级关系拼接为所述初始标签嵌入特征。
8.根据权利要求7所述的方法,其特征在于,将所述行进路径中的节点所对应的标签按照所述层级关系拼接为初始标签嵌入特征还包括,在所述行进路径的路径长度小于所述树形结构的最大路径长度的情况下,扩充所述初始标签嵌入特征的维度。
9.根据权利要求3至8中任一项所述的方法,其特征在于,所述图模型包括图神经网络模型结构。
10.根据权利要求9所述的方法,其特征在于,所述图模型包括图注意力网络模型结构。
11.根据权利要求1所述的方法,其特征在于,使用机器学习模型结构或神经网络模型结构提取所述文本数据的文本特征。
12.根据权利要求1所述的方法,其特征在于,使用机器学习模型结构或神经网络模型结构基于所述融合特征确定与所述文本数据相关联的至少一个标签。
13.根据权利要求9或12所述的方法,其特征在于,使用具有标签的文本数据训练所述机器学习模型结构或神经网络模型结构中的至少一个。
14.根据权利要求1至13中任一项所述的方法,其特征在于,所述文本数据包括用户反馈数据。
15.根据权利要求14所述的方法,其特征在于,所述用户反馈数据包括餐饮业的用户反馈数据。
16.一种用于确定文本数据的标签的设备,包括:
获取单元,被配置为获取文本数据;
特征提取单元,被配置为提取所述文本数据的文本特征;
融合单元,被配置为将所述文本特征和标签嵌入特征融合为融合特征,其中,所述标签嵌入特征根据待预测的多个标签的层级关系确定;以及
标签确定单元,被配置为基于所述融合特征从所述多个标签中确定与所述文本数据相关联的至少一个标签。
17.一种计算机可读存储介质,其上存储有计算机程序,该计算机程序包括可执行指令,当该可执行指令被处理器执行时,实施根据权利要求1至15中任一项所述的方法。
18.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器被配置为执行所述可执行指令以实施根据权利要求1至15中任一项所述的方法。
CN202111545363.XA 2021-12-16 2021-12-16 用于确定文本数据的标签的方法和设备 Pending CN114254110A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111545363.XA CN114254110A (zh) 2021-12-16 2021-12-16 用于确定文本数据的标签的方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111545363.XA CN114254110A (zh) 2021-12-16 2021-12-16 用于确定文本数据的标签的方法和设备

Publications (1)

Publication Number Publication Date
CN114254110A true CN114254110A (zh) 2022-03-29

Family

ID=80792668

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111545363.XA Pending CN114254110A (zh) 2021-12-16 2021-12-16 用于确定文本数据的标签的方法和设备

Country Status (1)

Country Link
CN (1) CN114254110A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114912433A (zh) * 2022-05-25 2022-08-16 亚信科技(中国)有限公司 文本层级多标签分类方法、装置、电子设备以及存储介质
CN115422920A (zh) * 2022-11-03 2022-12-02 南京信息工程大学 基于bert和gat的裁判文书争议焦点识别方法
CN115687617A (zh) * 2022-10-14 2023-02-03 荣耀终端有限公司 一种数据处理方法和数据处理装置
CN116187419A (zh) * 2023-04-25 2023-05-30 中国科学技术大学 一种基于文本组块的层级体系自动构建方法
CN116304845A (zh) * 2023-05-23 2023-06-23 云筑信息科技(成都)有限公司 一种建筑物料的层次分类识别方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114912433A (zh) * 2022-05-25 2022-08-16 亚信科技(中国)有限公司 文本层级多标签分类方法、装置、电子设备以及存储介质
CN115687617A (zh) * 2022-10-14 2023-02-03 荣耀终端有限公司 一种数据处理方法和数据处理装置
CN115687617B (zh) * 2022-10-14 2023-10-27 荣耀终端有限公司 一种数据处理方法和数据处理装置
CN115422920A (zh) * 2022-11-03 2022-12-02 南京信息工程大学 基于bert和gat的裁判文书争议焦点识别方法
CN115422920B (zh) * 2022-11-03 2023-02-28 南京信息工程大学 基于bert和gat的裁判文书争议焦点识别方法
CN116187419A (zh) * 2023-04-25 2023-05-30 中国科学技术大学 一种基于文本组块的层级体系自动构建方法
CN116187419B (zh) * 2023-04-25 2023-08-29 中国科学技术大学 一种基于文本组块的层级体系自动构建方法
CN116304845A (zh) * 2023-05-23 2023-06-23 云筑信息科技(成都)有限公司 一种建筑物料的层次分类识别方法
CN116304845B (zh) * 2023-05-23 2023-08-18 云筑信息科技(成都)有限公司 一种建筑物料的层次分类识别方法

Similar Documents

Publication Publication Date Title
CN114254110A (zh) 用于确定文本数据的标签的方法和设备
CN1542736B (zh) 用于将自然语言输入映射到大纲的系统和方法
CN110427623A (zh) 半结构化文档知识抽取方法、装置、电子设备及存储介质
CN111444334A (zh) 数据处理方法、文本识别方法、装置及计算机设备
CN113011186B (zh) 命名实体识别方法、装置、设备及计算机可读存储介质
CN109598517B (zh) 商品通关处理、对象的处理及其类别预测方法和装置
CN112131920A (zh) 用于扫描图像中的表格信息的数据结构生成
CN101866337A (zh) 词性标注系统、用于训练词性标注模型的装置及其方法
CN113076739A (zh) 一种实现跨领域的中文文本纠错方法和系统
CN108664512B (zh) 文本对象分类方法及装置
CN110909536A (zh) 用于自动生成产品的文章的系统和方法
CN113239142A (zh) 融合句法信息的无触发词事件检测方法
CN111738807B (zh) 用于推荐目标对象的方法、计算设备和计算机存储介质
CN114742016B (zh) 一种基于多粒度实体异构图的篇章级事件抽取方法及装置
CN114036246A (zh) 商品图谱向量化方法、装置、电子设备及存储介质
CN114462357A (zh) 实体链接方法、构建方法、装置及存储介质
CN113642320A (zh) 文档目录结构的提取方法、装置、设备和介质
CN111428034A (zh) 分类模型的训练方法、评论信息的分类方法及装置
CN112487813B (zh) 命名实体识别方法及系统、电子设备及存储介质
CN114528368A (zh) 基于预训练语言模型与文本特征融合的空间关系抽取方法
CN116386895B (zh) 基于异构图神经网络的流行病舆情实体识别方法与装置
CN112184318B (zh) 一种广告发布方法及装置
US20210097104A1 (en) Painting label generation method and electronic device
CN107220249A (zh) 基于分类的全文搜索
CN113946696A (zh) 一种知识感知的序列到树的数学应用题求解系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20220329

Assignee: Baisheng Consultation (Shanghai) Co.,Ltd.

Assignor: Shengdoushi (Shanghai) Technology Development Co.,Ltd.

Contract record no.: X2023310000138

Denomination of invention: Method and device for determining labels for text data

License type: Common License

Record date: 20230714