CN113312451A - 文本标签确定方法和装置 - Google Patents

文本标签确定方法和装置 Download PDF

Info

Publication number
CN113312451A
CN113312451A CN202110660022.0A CN202110660022A CN113312451A CN 113312451 A CN113312451 A CN 113312451A CN 202110660022 A CN202110660022 A CN 202110660022A CN 113312451 A CN113312451 A CN 113312451A
Authority
CN
China
Prior art keywords
text
label
labeled
target
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110660022.0A
Other languages
English (en)
Other versions
CN113312451B (zh
Inventor
陈珍
丁建辉
曹宜超
计辉
彭姝琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202110660022.0A priority Critical patent/CN113312451B/zh
Publication of CN113312451A publication Critical patent/CN113312451A/zh
Application granted granted Critical
Publication of CN113312451B publication Critical patent/CN113312451B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了文本标签确定方法和装置,涉及自然语言处理技术领域,本公开的实施例提供的文本标签确定方法,通过响应于获取到待生成标签的目标文本,将目标文本输入预设的标签生成模型,得到目标文本在各标签上的概率分布及预测标签;根据目标文本与预测标签对应的各样本文本的相似度,得到目标相似度;根据目标文本在各标签上的概率分布,得到目标文本的预测熵值;响应于确定目标相似度及预测熵值均满足预设条件,将预测标签确定为目标文本的标签。该方式提高了确定出的文本的标签的准确率。

Description

文本标签确定方法和装置
技术领域
本申请涉及计算机技术领域,具体涉及自然语言处理技术领域,尤其涉及一种文本标签确定方法和装置。
背景技术
标签挖掘是一项基础技术。该技术可以将非结构化的文本抽象成高层次的标签,从而让机器更好地理解文本,继而赋能核心业务。按照标签是否已提前定义好,可以将标签挖掘任务分为2类:固定标签挖掘以及自定义标签挖掘。对于前者,标签已经提前设定好,其重点是如何更好地学习文本和标签之间的映射关系。而对于后者,还得根据具体的需求确定标签、构建合适的数据集、处理噪声等。在真实的场景中,需要挖掘的标签很多时候是跟需求强相关的,即需要根据需求定义具体的标签。因此,自定义标签挖掘技术是一项非常值得研究的内容。
传统方法:1)对于标签的定义,通常是根据具体的需求人工确定的;2)为了训练出泛化能力较强的模型,通常需要标注大量的样本;
3)自定义标签挖掘技术通常会被应用到开放域的场景。
发明内容
本申请实施例提供了一种文本标签确定方法、装置、设备以及存储介质。
第一方面,本申请实施例提供了一种文本标签确定方法,该方法包括:响应于获取到待生成标签的目标文本,将目标文本输入预设的标签生成模型,得到目标文本在各标签上的概率分布及预测标签,预设的标签生成模型基于样本文本训练得到;根据目标文本与预测标签对应的各样本文本的相似度,得到目标相似度;根据目标文本在各标签上的概率分布,得到目标文本的预测熵值;响应于确定目标相似度及所述预测熵值均满足预设条件,将预测标签确定为目标文本的标签果。
在一些实施例中,样本文本通过以下方式得到:响应于获取到待标注文本,提取所述待标注文本的关键词;根据预设的关键词与标签的对照表,对待标注文本进行标注,得到标注文本;基于标注文本,得到样本文本。
在一些实施例中,基于标注文本,得到样本文本,包括:基于标注文本中词汇的重要性,对标注后的文本进行数据增强,得到数据增强后的标注文本;基于标注文本及数据增强后的标注文本,得到样本文本。
在一些实施例中,基于标注文本及数据增强后的标注文本,得到样本文本,包括:基于数据增强后的标注文本中各文本与该文本对应的标注文本的语义偏差程度,对数据增强后的标注文本进行过滤,得到过滤后的文本;基于过滤后的文本和标注文本,得到样本文本。
在一些实施例中,该方法还包括:响应于确定目标相似度及预测熵值中至少一项不满足预设条件,将目标文本滤除。
在一些实施例中,预设的标签生成模型基于样本文本训练得到,包括:预设的标签生成模型基于样本文本采用半监督的主动学习算法训练得到。
第二方面,本申请实施例提供了一种文本标签确定装置,该装置包括:第一获取模块,被配置成响应于获取到待生成标签的目标文本,将目标文本输入预设的标签生成模型,得到目标文本在各标签上的概率分布及预测标签,预设的标签生成模型基于样本文本训练得到;计算相似模块,被配置成根据目标文本与所述预测标签对应的各样本文本的相似度,得到目标相似度;计算熵值模块,被配置成根据目标文本在各标签上的概率分布,得到目标文本的预测熵值;确定标签模块,被配置成响应于确定目标相似度及预测熵值均满足预设条件,将预测标签确定为目标文本的标签。
在一些实施例中,样本文本通过以下方式得到:响应于获取到待标注文本,提取所述待标注文本的关键词;根据预设的关键词与标签的对照表,对待标注文本进行标注,得到标注文本;基于标注文本,得到样本文本。
在一些实施例中,基于标注文本,得到样本文本,包括:基于标注文本中词汇的重要性,对标注后的文本进行数据增强,得到数据增强后的标注文本;基于标注文本及数据增强后的标注文本,得到样本文本。
在一些实施例中,基于标注文本及数据增强后的标注文本,得到样本文本,包括:基于数据增强后的标注文本中各文本与该文本对应的标注文本的语义偏差程度,对数据增强后的标注文本进行过滤,得到过滤后的文本;基于过滤后的文本和标注文本,得到样本文本。
在一些实施例中,该装置还包括:文本滤除模块,被配置成响应于确定目标相似度及预测熵值中至少一项不满足预设条件,将目标文本滤除。
在一些实施例中,预设的标签生成模型基于样本文本训练得到,包括:预设的标签生成模型基于样本文本采用半监督的主动学习算法训练得到。
第三方面,本申请实施例提供了一种电子设备,该电子设备包括一个或多个处理器;存储装置,其上存储有一个或多个程序,当一个或多个程序被该一个或多个处理器执行,使得一个或多个处理器实现如第一方面的任一实施例的文本标签确定方法。
第四方面,本申请实施例提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面的任一实施例的文本标签确定方法。
第五方面,本申请实施例提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如第一方面的任一实施例的文本标签确定方法。
本申请通过响应于获取到待生成标签的目标文本,将目标文本输入预设的标签生成模型,得到目标文本在各标签上的概率分布及预测标签,预设的标签生成模型基于样本文本训练得到;根据目标文本与所述预测标签对应的各样本文本的相似度,得到目标相似度;根据目标文本在各标签上的概率分布,得到目标文本的预测熵值;响应于确定目标相似度及预测熵值均满足预设条件,将预测标签确定为目标文本的标签,即过滤掉输入目标文本中会包含域外噪声的文本,进而提高确定出的目标文本的标签的准确率。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其他特征将通过以下的说明书而变得容易理解。
附图说明
图1是本申请可以应用于其中的示例性系统架构图;
图2是根据本申请的文本标签确定方法的一个实施例的流程图;
图3是根据本申请的文本标签确定方法的一个应用场景的示意图;
图4是根据本申请的文本标签确定方法的又一个实施例的流程图;
图5是根据本申请的文本标签确定装置的一个实施例的示意图;
图6是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的文本标签确定方法的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如,文本分析类应用、通信类应用等。
终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是具有显示屏的各种电子设备,包括但不限于手机和笔记本电脑。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供文本标签确定服务),也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以是提供各种服务的服务器,例如,响应于获取到待生成标签的目标文本,将目标文本输入预设的标签生成模型,得到目标文本在各标签上的概率分布及预测标签;根据目标文本与所述预测标签对应的各样本文本的相似度,得到目标相似度;根据目标文本在各标签上的概率分布,得到目标文本的预测熵值;响应于确定目标相似度及预测熵值均满足预设条件,将预测标签确定为目标文本的标签。
需要说明的是,服务器105可以是硬件,也可以是软件。当服务器105为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器为软件时,可以实现成多个软件或软件模块(例如用来提供文本标签确定服务),也可以实现成单个软件或软件模块。在此不做具体限定。
需要指出的是,本公开的实施例所提供的文本标签确定方法可以由服务器105执行,也可以由终端设备101、102、103执行,还可以由服务器105和终端设备101、102、103彼此配合执行。相应地,文本标签确定装置包括的各个部分(例如各个单元、子单元、模块、子模块)可以全部设置于服务器105中,也可以全部设置于终端设备101、102、103中,还可以分别设置于服务器105和终端设备101、102、103中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图2示出了文本标签确定方法的实施例的流程示意图200。该文本标签确定方法包括以下步骤:
步骤201,响应于获取到待生成标签的目标文本,将目标文本输入预设的标签生成模型,得到目标文本在各标签上的概率分布及预测标签。
在本实施例中,执行主体(例如,图1中的服务器105或终端设备101、102、103)可通过有线或无线的方式获取待生成标签的目标文本,并将获取的目标文本输入预设的标签生成模型,以得到目标文本在各标签上的概率分布及预测标签。
其中,标签用于指示目标文本的高层次语义抽象结果。预测标签为各标签所对应概率中的最大值所对应的标签。
这里,预设的标签生成模型基于样本文本训练得到。其中,样本文本可以包括标注有标签的样本文本,也可以包括未标注有标签的样本文本。
此外,预设的标签生成模型可以基于样本文本采用主动学习算法训练得到,也可以基于样本文本采用半监督的主动学习算法训练得到,本申请对此不作限定。
其中,主动学习算法可以包括多种,例如,随机抽取、类不确定性、多样性(K-means算法)+类不确定性等等。
步骤202,根据目标文本与预测标签对应的各样本文本的相似度,得到目标相似度。
在本实施例中,执行主体在获取到预测标签后,在训练标签生成模型的样本文本中确定出用于训练预测标签的第一样本文本,并计算目标文本与第一样本文本中各样本文本的相似度,将相似度中的最大值确定为目标相似度。
这里,第一样本文本可以是用于训练预测标签的所有样本文本,也可以是用于训练该预测标签的所有样本文本中的预设比例的样本文本,本申请对此不作限定。
其中,预设比例可根据经验、实际需求进行设定,例如20%、30%等。
需要指出的是,这里,执行主体可以采用基于ERNIE的深度相似度模型计算目标文本与第一样本文本中各样本文本的相似度。
其中,基于ERNIE的深度相似度模型通过建模海量数据中的实体概念等先验语义知识,学习完整概念的语义表示。即在Masked LM中通过对词和实体概念等语义单元进行mask来预训练模型,使得模型对语义知识单元的表示更贴近真实世界,有助于提升生成的相似度的准确率。
步骤203,根据目标文本在各标签上的概率分布,得到目标文本的预测熵值。
在本实施例中,执行主体根据目标文本在各标签的概率分布,计算得到目标文本的预测熵值。
步骤204,响应于确定目标相似度及预测熵值均满足预设条件,将预测标签确定为目标文本的标签。
在本实施例中,执行主体在获取目标相似度和预测熵值后,对目标相似度和预测熵值进行判断,若目标相似度和预测熵值均满足预设条件,则将预测标签确定为目标文本的标签。
其中,预设条件可根据经验和实际需求进行设定。
具体地,由于一方面若目标文本属于某个标签类别,则该目标文本与该标签类别中的其它样本在语义上应该是相似的,另一方面,若目标文本属于某个标签类别,其在该标签类别上的预测概率会很高,相应熵值会比较低。故预设条件可以为目标相似度大于等于预设的相似度阈值,预测熵值小于等于预设的熵阈值。若目标相似度大于等于预设的相似度阈值,预测熵值小于等于预设的熵阈值,则将预测标签确定为目标文本的标签。
这里,相似度阈值和熵阈值可根据经验、实际需求和具体地应用场景进行设定,本申请对此不作限定。
此外,执行主体在将预测标签确定为目标文本的标签后,可进一步将该目标文本经人工核验后作为已标注样本文本对标签生成模型进行进一步迭代训练。
在一些可选的方式中,该方法还包括:响应于确定目标相似度及预测熵值中至少一项不满足预设条件,将目标文本滤除。
在本实现方式中,执行主体在获取目标相似度和预测熵值后,对目标相似度和预测熵值进行判断,若目标相似度和预测熵值中有至少一项不满足预设条件,则将目标文本滤除。
具体地,预设条件可以为目标相似度小于预设的相似度阈值,预测熵值大于预设的熵阈值。若目标相似度小于预设的相似度阈值和/或预测熵值大于预设的熵阈值,则将目标文本滤除。
此外,执行主体在将目标文本滤除后,可进一步将该目标文本作为未标注样本文本对标签生成模型进行进一步迭代训练。
该方式通过响应于确定目标相似度及预测熵值中至少一项不满足预设条件,将目标文本滤除,进一步提高了确定出的文本的标签的准确率。
继续参见图3,图3是根据本实施例的文本标签确定方法的应用场景的一个示意图。执行主体301响应于获取到待生成标签的目标文本302,将目标文本302输入预设的标签生成模型303,得到目标文本在各标签上的概率分布304及预测标签305,预设的标签生成模型基于样本文本训练得到;计算目标文本302与预测标签305对应的各样本文本的相似度,将相似度的最大值确定为目标相似度306;根据目标文本在各标签上的概率分布304,得到目标文本的预测熵值307;响应于确定目标相似度306及预测熵值307均满足预设条件308,例如,目标相似度306大于等于预设的相似度阈值,预测熵值307小于等于预设的熵阈值,将预测标签确定为目标文本的标签309。
本公开的实施例提供的文本标签确定方法,通过响应于获取到待生成标签的目标文本,将目标文本输入预设的标签生成模型,得到目标文本在各标签上的概率分布及预测标签,预设的标签生成模型基于样本文本训练得到;根据目标文本与所述预测标签对应的各样本文本的相似度,得到目标相似度;根据目标文本在各标签上的概率分布,得到目标文本的预测熵值;响应于确定目标相似度及预测熵值均满足预设条件,将预测标签确定为目标文本的标签,提高确定出的文本的标签的准确率。
进一步参考图4,其示出了用于训练图2所示的文本标签确定方法实施例中的标签生成模型的样本文本的获取过程的一个实施例的流程400。本实施例中,样本文本的获取过程的流程,可包括以下步骤:
步骤401,响应于获取到待标注文本,提取待标注文本的关键词。
在本实施例中,执行主体在获取到待标注文本后,可对待标注文本进行自然语言处理,基于分词的结果去掉停用词之后统计词频得到各待标注文本TOPN的关键词。
步骤402,根据预设的关键词与标签的对照表,对待标注文本进行标注,得到标注文本。
在本实施例中,执行主体可根据预设的关键词与标签的对照表,对待标注文本进行标注,得到标注文本。
其中,标签可基于对海量文本进行自然语言处理得到。
具体地,执行主体可首先对未标注文本进行自然语言处理,基于分词的结果在去掉停用词之后统计词频得到TPON的关键词,再进行层次聚类,结合聚类结果提取文本语义进行标签体系构建。
这里,预设的关键词与标签的对照表基于关键词与标签的对照规则构建,对照规则可以包括多种,例如,一个标签对应一个关键词,一个标签对应对应至少两个关键词等。
具体地,关键词与标签的对照规则可以表示为标签1={关键词1/关键词2+词包+关键词3/关键词4},即标签1对应的文本需包括3个模块,模块1需要包含关键词1或者关键词2,模块2则需要包含词包中的任意一个词,模块3则需要包含关键词3或者关键词4。在对标注规则进行解析时,可将不同模块的内容展开并进行笛卡尔组合,从而形成最终的子规则。若词包中包含10个关键词,那么对照规则最终会形成2*10*2=40条子规则。在具体应用中,只需调整规则和词包,即可构建关键词与标签的对照表,进而按照对照表对待标注文本进行标注。
步骤403,基于标注文本,得到样本文本。
在本实施例中,执行主体在获取到标注文本后,可直接基于标注文本得到用于训练标签生成模型的样本文本,也可以先对标注文本进行数据增强,到数据增强后的标注文本,进而基于标注文本和数据增强后的标注文本,得到用于训练标签生成模型的样本文本,本申请对此不作限定。
在一些可选的方式中,基于标注文本,得到样本文本,包括:基于标注文本中词汇的重要性,对标注后的文本进行数据增强,得到数据增强后的标注文本;基于标注文本及数据增强后的标注文本,得到样本文本。
在本实现方式中,执行主体在获取到标注文本后可采用深度学习模型计算标注文本中不同词的重要度,并判断不同词的重要度是否在预设的重要度阈值范围内,若该词处在预设的重要度阈值范围内,则对该词进行增强操作,得到数据增强后的标注文本。进而,基于标注文本及数据增强后的标注文本,得到样本文本。
这里,增强操作可以包括对该词进行删除、替换等。
其中,重要度阈值范围可根据经验、实际需求设定,例如,[0.05-0.15]等,本申请对此不作限定。通常情况下,处在预设的重要度阈值范围内的词为非关键词,即重要度较低的词。
该实现方式通过基于标注文本中词汇的重要性,对标注后的文本进行数据增强,得到数据增强后的标注文本;基于标注文本及数据增强后的标注文本,得到样本文本,进而基于样本文本得到标签生成模型,进而得到目标文本的标签,可有效避免关键词缺失对数据增强效果的影响,提高样本文本的有效性,进而进一步提高得到的目标文本的标签的准确性。
在一些可选的方式中,基于标注文本及数据增强后的标注文本,得到样本文本,包括:基于数据增强后的标注文本中各文本与该文本对应的标注文本的语义偏差程度,对数据增强后的标注文本进行过滤,得到过滤后的文本;基于过滤后的文本和标注文本,得到样本文本。
在本实现方式中,执行主体在获得数据增强后的标注文本后,可通过多种方式计算数据增强后标注文本中的各文本与该文本对应的标注文本,即数据增强前的原始标注文本,的语义偏差程度值,并将语义偏差程度值大于等于预设偏差程度阈值的增强后的标注文本滤除,得到过滤后的文本,并根据过滤后的文本和标注文本,得到样本文本。
其中,预设偏差程度阈值可根据经验、实际需求设定,本申请对此不作限定。
这里,执行主体计算语义偏差程度值的方式可以包括多种,例如,直接计算数据增强后的标注文本中的各文本与该文本对应的标注文本,的语义相似度,并基于该相似度表征偏差程度值,相似度值越小,则偏差程度值越大,相似度值越大,则偏差程度值越小。又例如,基于数据增强后的标注文本中的各文本对应的熵值和相似度表征偏差程度值,其中,熵值基于将该数据增强后的标注文本输入特定的标签生成模型得到的各标签的概率分布得到,相似度基于该数据增强后的标注文本与文本标注标签对应的训练特定标签生成模型的各样本文本的相似度的最大值得到。熵值越大则语义偏差程度越大,熵值越小则语义偏差程度越小,相似度值越小则语义偏差程度越小,相似度越大则语义偏差程度越大。
该实现方式通过基于数据增强后的标注文本中各文本与该文本对应的标注文本的语义偏差程度,对数据增强后的标注文本进行过滤,得到过滤后的文本;基于过滤后的文本和标注文本,得到样本文本,进而基于样本文本得到标签生成模型,进而得到目标文本的标签,可有效过滤掉数据增强后的标注文本中的噪声数据,提高样本文本的有效性,进而进一步提高得到的目标文本的标签的准确性。
在一些可选的实现方式中,预设的标签生成模型基于样本文本训练得到,包括:预设的标签生成模型基于样本文本采用半监督的主动学习算法训练得到。
在本实现方式中,由于样本文本包括标注有标签样本文本和大量未标注有标签的样本文本,故采用半监督的主动学习算法对标注有标签样本文本和未标注有标签样本文本进行联合训练,得到标签生成模型。
该实现方式通过基于样本文本,采用半监督的主动学习算法训练得到标签生成模型,有助于提升获取到的模型的泛化能力。
本申请的上述实施例,主要描述用于训练图2所示的标签生成模型的样本文本的获取过程。该实施例通过响应于获取到待标注文本,提取待标注文本的关键词;根据预设的关键词与标签的对照表,对待标注文本进行标注,得到标注文本;基于标注文本,得到样本文本,实现了对待标注文本的自动有效标注,提高了样本文本的生成效率和准确性,并基于样本文本得到标签生成模型,进而基于标签生成模型得到目标文本的标签,有效提升了确定目标文本的标签的效率和准确性。
进一步参考图5,作为对上述各图所示方法的实现,本申请提供了一种文本标签确定装置的一个实施例,该装置实施例与图1所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图5所示,本实施例的文本标签确定装置500包括:第一获取模块501、计算相似模块502、计算熵值模块503及确定标签模块504。
其中,第一获取模块501,可被配置成响应于获取到待生成标签的目标文本,将目标文本输入预设的标签生成模型,得到目标文本在各标签上的概率分布及预测标签。
计算相似模块502,可被配置成根据目标文本与所述预测标签对应的各样本文本的相似度,得到目标相似度。
计算熵值模块503,可被配置成根据目标文本在各标签上的概率分布,得到目标文本的预测熵值。
确定标签模块504,可被配置成响应于确定目标相似度及预测熵值均满足预设条件,将预测标签确定为目标文本的标签。
在本实施例的一些可选的方式中,样本文本通过以下方式得到:响应于获取到待标注文本,提取所述待标注文本的关键词;根据预设的关键词与标签的对照表,对待标注文本进行标注,得到标注文本;基于标注文本,得到样本文本。
在本实施例的一些可选的方式中,基于标注文本,得到样本文本,包括:基于标注文本中词汇的重要性,对标注后的文本进行数据增强,得到数据增强后的标注文本;基于标注文本及数据增强后的标注文本,得到样本文本。
在本实施例的一些可选的方式中,基于标注文本及数据增强后的标注文本,得到样本文本,包括:基于数据增强后的标注文本中各文本与该文本对应的标注文本的语义偏差程度,对数据增强后的标注文本进行过滤,得到过滤后的文本;基于过滤后的文本和标注文本,得到样本文本。
在本实施例的一些可选的方式中,该装置还包括:文本滤除模块,被配置成响应于确定目标相似度及预测熵值中至少一项不满足预设条件,将目标文本滤除。
在本实施例的一些可选的方式中,预设的标签生成模型基于样本文本训练得到,包括:标签生成模型基于样本文本采用半监督的主动学习算法训练得到。
本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
根据本申请的实施例,本申请还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
如图6所示,是根据本申请实施例的文本标签确定方法的电子设备的框图。
600是根据本申请实施例的文本标签确定方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图6所示,该电子设备包括:一个或多个处理器601、存储器602,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器601为例。
存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的文本标签确定方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的文本标签确定方法。
存储器602作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的文本标签确定方法对应的程序指令/模块(例如,附图5所示的第一获取模块501、计算相似模块502、计算熵值模块503、确定标签模块504。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的文本标签确定方法。
存储器602可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储人脸跟踪的电子设备的使用所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器602可选包括相对于处理器601远程设置的存储器,这些远程存储器可以通过网络连接至车道线检测的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
文本标签确定方法的电子设备还可以包括:输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接,图6中以通过总线连接为例。
输入装置603可接收输入的数字或字符信息,以及产生与车道线检测的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请实施例的技术方案,有助于提高确定出的文本的标签的准确率。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (15)

1.一种文本标签确定方法,包括:
响应于获取到待生成标签的目标文本,将所述目标文本输入预设的标签生成模型,得到目标文本在各标签上的概率分布及预测标签,所述预设的标签生成模型基于样本文本训练得到;
根据所述目标文本与所述预测标签对应的各样本文本的相似度,得到目标相似度;
根据所述目标文本在各标签上的概率分布,得到目标文本的预测熵值;
响应于确定所述目标相似度及所述预测熵值均满足预设条件,将所述预测标签确定为目标文本的标签。
2.根据权利要求1所述的方法,其中,所述样本文本通过以下方式得到:
响应于获取到待标注文本,提取所述待标注文本的关键词;
根据预设的关键词与标签的对照表,对待标注文本进行标注,得到标注文本;
基于所述标注文本,得到样本文本。
3.根据权利要求2所述的方法,其中,所述基于标注文本,得到样本文本,包括:
基于标注文本中词汇的重要性,对标注后的文本进行数据增强,得到数据增强后的标注文本;
基于标注文本及所述数据增强后的标注文本,得到样本文本。
4.根据权利要求3所述的方法,其中,所述基于标注文本及数据增强后的标注文本,得到样本文本,包括:
基于数据增强后的标注文本中各文本与该文本对应的标注文本的语义偏差程度,对数据增强后的标注文本进行过滤,得到过滤后的文本;
基于所述过滤后的文本和标注文本,得到样本文本。
5.根据权利要求1所述的方法,所述方法还包括:
响应于确定目标相似度及预测熵值中至少一项不满足预设条件,将目标文本滤除。
6.根据权利要求1-5任一所述的方法,其中,所述预设的标签生成模型基于样本文本训练得到,包括:
所述预设的标签生成模型基于样本文本采用半监督的主动学习算法训练得到。
7.一种文本标签确定装置,包括:
第一获取模块,被配置成响应于获取到待生成标签的目标文本,将所述目标文本输入预设的标签生成模型,得到目标文本在各标签上的概率分布及预测标签,所述预设的标签生成模型基于样本文本训练得到;
计算相似模块,被配置成根据所述目标文本与所述预测标签对应的各样本文本的相似度,得到目标相似度;
计算熵值模块,被配置成根据所述目标文本在各标签上的概率分布,得到目标文本的预测熵值;
确定标签模块,被配置成响应于确定所述目标相似度及所述预测熵值均满足预设条件,将所述预测标签确定为目标文本的标签。
8.根据权利要求7所述的装置,其中,所述样本文本通过以下方式得到:
响应于获取到待标注文本,提取所述待标注文本的关键词;
根据预设的关键词与标签的对照表,对待标注文本进行标注,得到标注文本;
基于所述标注文本,得到样本文本。
9.根据权利要求8所述的装置,其中,所述基于标注文本,得到样本文本,包括:
基于标注文本中词汇的重要性,对标注后的文本进行数据增强,得到数据增强后的标注文本;
基于标注文本及所述数据增强后的标注文本,得到样本文本。
10.根据权利要求9所述装置,其中,所述基于标注文本及数据增强后的标注文本,得到样本文本,包括:
基于数据增强后的标注文本中各文本与该文本对应的标注文本的语义偏差程度,对数据增强后的标注文本进行过滤,得到过滤后的文本;
基于所述过滤后的文本和标注文本,得到样本文本。
11.根据权利要求7所述的装置,所述装置还包括:
文本滤除模块,被配置成响应于确定目标相似度及预测熵值中至少一项不满足预设条件,将目标文本滤除。
12.根据权利要求7-11任一所述的装置,其中,所述预设的标签生成模型基于样本文本训练得到,包括:
所述预设的标签生成模型基于样本文本采用半监督的主动学习算法训练得到。
13.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。
14.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的方法。
15.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-6中任一项所述的方法。
CN202110660022.0A 2021-06-15 2021-06-15 文本标签确定方法和装置 Active CN113312451B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110660022.0A CN113312451B (zh) 2021-06-15 2021-06-15 文本标签确定方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110660022.0A CN113312451B (zh) 2021-06-15 2021-06-15 文本标签确定方法和装置

Publications (2)

Publication Number Publication Date
CN113312451A true CN113312451A (zh) 2021-08-27
CN113312451B CN113312451B (zh) 2023-06-23

Family

ID=77378766

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110660022.0A Active CN113312451B (zh) 2021-06-15 2021-06-15 文本标签确定方法和装置

Country Status (1)

Country Link
CN (1) CN113312451B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113449048A (zh) * 2021-08-31 2021-09-28 腾讯科技(深圳)有限公司 数据标签分布确定方法、装置、计算机设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095753A (zh) * 2016-06-07 2016-11-09 大连理工大学 一种基于信息熵和术语可信度的金融领域术语识别方法
CN109920501A (zh) * 2019-01-24 2019-06-21 西安交通大学 基于卷积神经网络和主动学习的电子病历分类方法及系统
CN111582366A (zh) * 2020-05-07 2020-08-25 清华大学 图像处理方法、装置及设备
US20200279022A1 (en) * 2019-02-28 2020-09-03 Yandex Europe Ag Method and server for training a machine learning algorithm for translation
CN111723209A (zh) * 2020-06-28 2020-09-29 上海携旅信息技术有限公司 半监督文本分类模型训练方法、文本分类方法、系统、设备及介质
CN112270200A (zh) * 2020-11-11 2021-01-26 北京有竹居网络技术有限公司 一种文本信息的翻译方法、装置、电子设备和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095753A (zh) * 2016-06-07 2016-11-09 大连理工大学 一种基于信息熵和术语可信度的金融领域术语识别方法
CN109920501A (zh) * 2019-01-24 2019-06-21 西安交通大学 基于卷积神经网络和主动学习的电子病历分类方法及系统
US20200279022A1 (en) * 2019-02-28 2020-09-03 Yandex Europe Ag Method and server for training a machine learning algorithm for translation
CN111582366A (zh) * 2020-05-07 2020-08-25 清华大学 图像处理方法、装置及设备
CN111723209A (zh) * 2020-06-28 2020-09-29 上海携旅信息技术有限公司 半监督文本分类模型训练方法、文本分类方法、系统、设备及介质
CN112270200A (zh) * 2020-11-11 2021-01-26 北京有竹居网络技术有限公司 一种文本信息的翻译方法、装置、电子设备和存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
URUN DOGAN等: "Label-similarity Curriculum Learning", ARXIV *
李雄;丁治明;苏醒;郭黎敏;: "基于词项聚类的文本语义标签抽取研究", 计算机科学, no. 2 *
陈祥凤: "基于语义知识的零样本图像分类", 中国优秀硕士学位论文全文数据库 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113449048A (zh) * 2021-08-31 2021-09-28 腾讯科技(深圳)有限公司 数据标签分布确定方法、装置、计算机设备和存储介质
CN113449048B (zh) * 2021-08-31 2021-11-09 腾讯科技(深圳)有限公司 数据标签分布确定方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN113312451B (zh) 2023-06-23

Similar Documents

Publication Publication Date Title
CN112560912B (zh) 分类模型的训练方法、装置、电子设备和存储介质
US11625539B2 (en) Extracting trigger words and arguments from text to obtain an event extraction result
CN111221983B (zh) 时序知识图谱生成方法、装置、设备和介质
WO2020108063A1 (zh) 特征词的确定方法、装置和服务器
CN110717339A (zh) 语义表示模型的处理方法、装置、电子设备及存储介质
CN111325020A (zh) 一种事件论元抽取方法、装置以及电子设备
CN110674314A (zh) 语句识别方法及装置
CN110705460A (zh) 图像类别识别方法及装置
CN111797216B (zh) 检索项改写方法、装置、设备以及存储介质
CN111950291A (zh) 语义表示模型的生成方法、装置、电子设备及存储介质
CN112507702B (zh) 文本信息的抽取方法、装置、电子设备及存储介质
CN111259671A (zh) 文本实体的语义描述处理方法、装置及设备
CN111078878A (zh) 文本处理方法、装置、设备及计算机可读存储介质
US20220027575A1 (en) Method of predicting emotional style of dialogue, electronic device, and storage medium
CN112148881A (zh) 用于输出信息的方法和装置
CN111950256A (zh) 断句处理方法、装置、电子设备和计算机存储介质
CN111783861A (zh) 数据分类方法、模型训练方法、装置和电子设备
CN111538815A (zh) 一种文本查询方法、装置、设备及存储介质
CN111581358A (zh) 信息抽取方法、装置及电子设备
CN111984774A (zh) 搜索方法、装置、设备以及存储介质
CN114444462B (zh) 模型训练方法及人机交互方法、装置
CN111783427A (zh) 用于训练模型与输出信息的方法、装置、设备及存储介质
CN111241302A (zh) 职位信息图谱生成方法、装置、设备和介质
CN113342946B (zh) 客服机器人的模型训练方法、装置、电子设备及介质
CN112232089B (zh) 语义表示模型的预训练方法、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant