CN113011182A - 一种对目标对象进行标签标注的方法、装置和存储介质 - Google Patents
一种对目标对象进行标签标注的方法、装置和存储介质 Download PDFInfo
- Publication number
- CN113011182A CN113011182A CN201911318624.7A CN201911318624A CN113011182A CN 113011182 A CN113011182 A CN 113011182A CN 201911318624 A CN201911318624 A CN 201911318624A CN 113011182 A CN113011182 A CN 113011182A
- Authority
- CN
- China
- Prior art keywords
- target object
- frequency
- phrase
- word
- corpus information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Strategic Management (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Game Theory and Decision Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种对目标对象进行标签标注的方法、装置和存储介质,其中方法包括:获取与所述目标对象关联的语料信息,从所述语料信息中确定与所述目标对象对应的第一词语集合,其中所述第一词语集合包括与所述目标对象对应的多个高频词语,所述高频词语为通过已构建的词频统计模型得到的所述语料信息中大于第一预设统计次数的词语,根据所述多个高频词语生成与所述目标对象对应的第一词组对集合,其中所述第一词组对集合包括根据所述多个高频词语生成的词组对,根据所述第一词组对集合以及与多个目标对象关联的第二词组对集合,确定与所述目标对象对应的标签。通过本实施例可以提高标签标注的的准确率。
Description
技术领域
本申请涉及互联网领域,特别是涉及一种对目标对象进行标签标注的方法、装置和存储介质。
背景技术
随着互联网技术的快速发展,对互联网数据进行标签标注的需求越来越高,尤其针对互联网营销平台的各种数据进行标签标注,准确率高的标签标注对应互联网营销起着非常重要的作用。目前对于标签标注的技术,一般先使用分词算法对数据内容集合进行分词处理,然后将其中出现频率较高的词语或者指定的词语提取出来作为标签,这种基于分词算法提取出来的标签容易提取出无意义的标签,导致标签标注的的准确率不高。
本公开的实施例提供了一种对目标对象进行标签标注的方法、装置和存储介质,以提高标签标注的的准确率。
发明内容
本公开的实施例提供了一种对目标对象进行标签标注的方法、装置和存储介质,可以提高标签标注的的准确率。
为解决上述技术问题,本发明实施例是这样实现的:
第一方面,本公开实施例提供了一种对目标对象进行标签标注的方法,包括:
获取与所述目标对象关联的语料信息;
从所述语料信息中确定与所述目标对象对应的第一词语集合,其中所述第一词语集合包括与所述目标对象对应的多个高频词语,所述高频词语为通过已构建的词频统计模型得到的所述语料信息中大于第一预设统计次数的词语;
根据所述多个高频词语生成与所述目标对象对应的第一词组对集合,其中所述第一词组对集合包括根据所述多个高频词语生成的词组对;
根据所述第一词组对集合以及与多个目标对象关联的第二词组对集合,确定与所述目标对象对应的标签。
第二方面,本公开实施例还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时由处理器执行如上述第一方面所述的对目标对象进行标签标注的方法。
第三方面,根据本公开实施例还提供了一种对目标对象进行标签标注的装置,包括:
语料信息获取模块,用于获取与所述目标对象关联的语料信息;
词语集合确定模块,用于从所述语料信息中确定与所述目标对象对应的第一词语集合,其中所述第一词语集合包括与所述目标对象对应的多个高频词语,所述高频词语为通过已构建的词频统计模型得到的所述语料信息中大于第一预设统计次数的词语;
词组对集合生成模块,用于根据所述多个高频词语生成与所述目标对象对应的第一词组对集合,其中所述第一词组对集合包括根据所述多个高频词语生成的词组对;
目标标签确认模块,用于根据所述第一词组对集合以及与多个目标对象关联的第二词组对集合,确定与所述目标对象对应的标签。
第四方面,本公开实施例还提供了一种对目标对象进行标签标注的装置,包括:
处理器;以及
存储器,与所述处理器连接,用于为所述处理器提供处理以下处理步骤的指令:
获取与所述目标对象关联的语料信息;
从所述语料信息中确定与所述目标对象对应的第一词语集合,其中所述第一词语集合包括与所述目标对象对应的多个高频词语,所述高频词语为通过已构建的词频统计模型得到的所述语料信息中大于第一预设统计次数的词语;
根据所述多个高频词语生成与所述目标对象对应的第一词组对集合,其中所述第一词组对集合包括根据所述多个高频词语生成的词组对;
根据所述第一词组对集合以及与多个目标对象关联的第二词组对集合,确定与所述目标对象对应的标签。
本发明实施例中,获取与目标对象关联的语料信息,从语料信息中确定与目标对象对应的第一词语集合,其中第一词语集合包括与目标对象对应的多个高频词语,高频词语为通过已构建的词频统计模型得到的语料信息中大于第一预设统计次数的词语,根据多个高频词语生成与目标对象对应的第一词组对集合,其中第一词组对集合包括根据多个高频词语生成的词组对,根据第一词组对集合以及与多个目标对象关联的第二词组对集合,确定与目标对象对应的标签。本发明实施例从多个目标对象关联的语料信息中确定由统计次数到达预定数量的高频词语组成的词组对集合,通过一个目标对象的高频词组和该词组对集合确定该目标对象的标签,可以提高标签标注的的准确率。
附图说明
此处所说明的附图用来提供对本公开的进一步理解,构成本申请的一部分,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。在附图中:
图1为本公开一实施例提供的用于实现一种对目标对象进行标签标注的方法的计算设备的硬件结构框图;
图2为本公开一实施例提供的对目标对象进行标签标注的方法的流程示意图;
图3为本公开另一实施例提供的对目标对象进行标签标注的方法的流程示意图;
图4为本公开一实施例提供的对目标对象进行标签标注的装置示意图;
图5为本公开另一实施例提供的对目标对象进行标签标注的装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本公开的技术方案,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本公开一部分的实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本公开保护的范围。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本实施例,还提供了一种对目标对象进行标签标注的方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本实施例所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的计算设备中执行。图1示出了一种用于实现一种对目标对象进行标签标注的方法的计算设备的硬件结构框图。如图1所示,计算设备可以包括一个或多个处理器(处理器可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器、以及用于通信功能的传输装置。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算设备还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算设备中的其他元件中的任意一个内。如本公开实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器可用于存储应用软件的软件程序以及模块,如本公开实施例中的对目标对象进行标签标注的方法对应的程序指令/数据存储装置,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的应用程序的对目标对象进行标签标注的方法。存储器可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至计算设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算设备的通信供应商提供的无线网络。在一个实例中,传输装置包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算设备的用户界面进行交互。
此处需要说明的是,在一些可选实施例中,上述图1所示的计算设备可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是,图1仅为特定具体实例的一个实例,并且旨在示出可存在于上述计算设备中的部件的类型。
在上述运行环境下,本实施例提供了一种对目标对象进行标签标注的方法。图2为本公开一实施例提供的对目标对象进行标签标注的方法的流程示意图,参考图2所示,该方法包括:
S202:获取与目标对象关联的语料信息;
S204:从语料信息中确定与目标对象对应的第一词语集合,其中第一词语集合包括与目标对象对应的多个高频词语,高频词语为通过已构建的词频统计模型得到的语料信息中大于第一预设统计次数的词语;
S206:根据多个高频词语生成与目标对象对应的第一词组对集合,其中第一词组对集合包括根据多个高频词语生成的词组对;
S208:根据第一词组对集合以及与多个目标对象关联的第二词组对集合,确定与目标对象对应的标签。
本发明实施例中,获取与目标对象关联的语料信息,从语料信息中确定与目标对象对应的第一词语集合,其中第一词语集合包括与目标对象对应的多个高频词语,高频词语为通过已构建的词频统计模型得到的语料信息中大于第一预设统计次数的词语,根据多个高频词语生成与目标对象对应的第一词组对集合,其中第一词组对集合包括根据多个高频词语生成的词组对,根据第一词组对集合以及与多个目标对象关联的第二词组对集合,确定与目标对象对应的标签。本发明实施例从多个目标对象关联的语料信息中确定由统计次数到达预定数量的高频词语组成的词组对集合,通过一个目标对象的高频词组和该词组对集合确定该目标对象的标签,可以提高标签标注的的准确率。
上述步骤S202中,获取与目标对象关联的语料信息,其中目标对象可以是在互联网营销领域的直播中获取的语料信息,也可以是某应用程序中用户的购物分享中获得的语料信息,不做特殊限定。本发明中的语料信息可以是中文,也可以是英文、韩文等除中文以外的文字。
进一步地,在获取与目标对象关联的语料信息时,对语料信息进行预处理操作,对语料信息进行分词处理并且删除一些无实际意义的字和词语(比如一勺、的),保留具有实际意义的词语。
上述步骤S204中,从语料信息中确定与目标对象对应的第一词语集合,其中第一词语集合包括与目标对象对应的多个高频词语,高频词语为通过已构建的词频统计模型得到的语料信息中大于第一预设统计次数的词语。从语料信息中筛选出由目标对象对应的多个高频词语组成的第一词语集合,其中高频词语为通过已构建的词频统计模型得到的语料信息中大于第一预设统计次数的词语,这里第一预设统计次数可以设置为16,也可以设置其他次数,这里不做特殊限制,词频统计模型输出与目标对象的语料信息中对应的高频词语以及高频词语的统计次数,比如,从直播平台中一美妆博主作品中确定第一词语集合为美妆、嘴唇、眼线、口红、化妆品。
上述步骤S206中,根据多个高频词语生成与目标对象对应的第一词组对集合,其中第一词组对集合包括根据多个高频词语生成的词组对,也可以说第一词语对集合为根据多个高频词语两两组合的词组对,当高频词语为N个时,则生成对应的第一词组对的数量为N*(N-1)/2个,比如在上述S204中的举例中,第一词语集合中的高频词语有5个,则由该第一词语集合生成的第一词组对有10对,组成的第一词组对集合为:美妆-嘴唇、美妆-眼线、美妆-口红、美妆-化妆品、嘴唇-眼线、嘴唇-口红、嘴唇-化妆品、眼线-口红、眼线-化妆品、口红-化妆品。
上述步骤S208中,根据第一词组对集合以及与多个目标对象关联的第二词组对集合,确定与目标对象对应的标签。该步骤中预先通过词频统计模型获取与目标对象相同领域或相近领域的多个目标对象的第二词组对集合,第二词组对集合的确定与第一词组对集合的确定方式相同,根据第一词组对集合以及与多个目标对象关联的第二词组对集合,确定与目标对象对应的标签。通过上述步骤能够显著提高标签标注的准确率,且易于操作。
本发明实施例中,在对目标对象进行标签标注时,该目标对象可以是一个用户的一个作品,也可以是一个用户的所有作品,这里不做特殊限制。比如,可以给一个美妆博主的其中一个作品进行标签标注,也可以对一个美妆博主所有的作品进行标签标注。
进一步的,方法还包括通过以下操作生成第二词组对集合:
(a1),生成分别与多个目标对象对应的多个词组对集合;
(a2),根据生成的多个词组对集合生成第二词组对集合。
上述动作(a1)和(a2)中,根据多个目标对象对应的语料信息分别通过词频统计模型生成每个目标对象对应的多个词组对集合,根据生成的多个词组对集合生成第二词组对集合。
进一步地,根据第一词组对集合以及与多个目标对象关联的第二词组对集合,确定与目标对象对应的标签,包括:
(b1),确定第一词组对集合与第二词组对集合中的相同的词组对;
(b2),根据相同的词组对中的高频词语确定与目标对象对应的标签。
上述动作(b1)和(b2)中,确定第一词组对集合与第二词组对集合中的相同的词组对,根据相同的词组对中的高频词语确定与目标对象对应的标签。确定第一词组对集合与第二词组对集合中相同的词组对,比如,得到第一词组对集合与第二词组对集合中相同的词组对为美妆-嘴唇、美妆-眼线、美妆-口红、美妆-化妆品、嘴唇-眼线、嘴唇-口红、嘴唇-化妆品,则根据该7组词组对生成目标对象的标签。
进一步地,根据相同的词组对中的高频词语确定与目标对象对应的标签,包括:
(c1),将相同的词组对中的高频词语确定为候选标签,获取候选标签的统计次数;
(c2),将大于第二预设统计次数的候选标签确定为目标对象对应的标签。
上述动作(c1)和(c2)中,将相同的词组对中的高频词语确定为候选标签,获取候选标签的统计次数,将大于第二预设统计次数的候选标签确定为目标对象对应的标签。通过词频统计模型获取的高频词语同时标注有与高频词语对应的统计次数,将相同的词组对中的高频词语确定为候选标签并获取候选标签的统计次数,将大于第二预设统计次数的候选标签确定为目标对象对应的标签,其中第二预设统计次数不做特殊限定。一个实施例中,在目标对象相同的词组对中确定的候选标签为美妆(10次)、嘴唇(3次)、眼线(5次)、口红(6次)、化妆品(7次),第二预设统计次数设置为4,则将统计次数大于4次的美妆、化妆品、口红和眼线确定为该目标对象的标签。
进一步地,在获取与目标对象关联的语料信息之前,包括:
(d1),获取由多个目标对象关联的语料信息组成的语料信息库;
(d2),根据语料信息库通过TF/IDF算法训练得到词频统计模型。
上述动作(d1)中,获取由多个目标对象关联的语料信息组成的语料信息库,比如,获取互联网直播平台所有主播的各个作品的属性文本组成语料信息库,包括直播平台中所有视频文件的视频标题、视频描述、视频关键字等语料信息。
上述动作(d2)中,根据语料信息库通过TF/IDF算法训练得到词频统计模型,将获取的语料信息库进行词语预处理,对语料信息库进行文本清理,包括删除文本中的链接,将非文字字符替换为空格,对于汉语进行中文分词并标注词性,从中筛选出名词,将其他词性的词语删除,对英文则剔除字符较少的单词,最后剔除出现次数较少的低频词组。将预处理后的语料信息库中的词语通过TF/IDF算法训练得到词频统计模型。
进一步地,根据确定后的标签的统计次数,在标签中确定该标签的权重。具体地,可以根据标签中各个词语的统计次数进行归一化计算,得到每个标签的权重值,将该权重值标注在对应的标签上。比如,确定某目标对象的标签为美妆、口红和化妆品,获取标签对应的统计次数分别为美妆(20次)、口红(10次)和化妆品(10次),进行归一化处理后得到的标签为:美妆0.5、口红0.25和化妆品0.25。
图3为本公开另一实施例提供的对目标对象进行标签标注的方法的流程示意图,如图3所示,该方法包括如下:
S302:构建由多个目标对象组成的语料信息库;
S304:根据语料统计模型确定目标对象的第一词组对集合;
S306:根据词频统计模型确定语料信息库的第二词组对集合;
S308:通过第一词组对集合和第二词组对集合确定目标对象的标签。
本发明实施例中,获取与目标对象关联的语料信息,从语料信息中确定与目标对象对应的第一词语集合,其中第一词语集合包括与目标对象对应的多个高频词语,高频词语为通过已构建的词频统计模型得到的语料信息中大于第一预设统计次数的词语,根据多个高频词语生成与目标对象对应的第一词组对集合,其中第一词组对集合包括根据多个高频词语生成的词组对,根据第一词组对集合以及与多个目标对象关联的第二词组对集合,确定与目标对象对应的标签。本发明实施例从多个目标对象关联的语料信息中确定由统计次数到达预定数量的高频词语组成的词组对集合,通过一个目标对象的高频词组和该词组对集合确定该目标对象的标签,可以提高标签标注的的准确率。
此外,参考图1所示,根据本实施例的第二方面,提供了一种存储介质。所述存储介质包括存储的程序,其中,在所述程序运行时由处理器执行以上任意一项所述的对目标对象进行标签标注的方法。
本发明实施例中,获取与目标对象关联的语料信息,从语料信息中确定与目标对象对应的第一词语集合,其中第一词语集合包括与目标对象对应的多个高频词语,高频词语为通过已构建的词频统计模型得到的语料信息中大于第一预设统计次数的词语,根据多个高频词语生成与目标对象对应的第一词组对集合,其中第一词组对集合包括根据多个高频词语生成的词组对,根据第一词组对集合以及与多个目标对象关联的第二词组对集合,确定与目标对象对应的标签。本发明实施例从多个目标对象关联的语料信息中确定由统计次数到达预定数量的高频词语组成的词组对集合,通过一个目标对象的高频词组和该词组对集合确定该目标对象的标签,可以提高标签标注的的准确率。
本申请实施例提供的一种存储介质能够实现前述方法实施例中的各个过程,并达到相同的功能和效果,这里不再重复。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
图4为本公开一实施例提供的一种对目标对象进行标签标注的装置示意图,该装置400与根据实施例1的一种对目标对象进行标签标注的方法相对应。参考图4所示,该装置400包括:
语料信息获取模块401,用于获取与所述目标对象关联的语料信息;
词语集合确定模块402,用于从所述语料信息中确定与所述目标对象对应的第一词语集合,其中所述第一词语集合包括与所述目标对象对应的多个高频词语,所述高频词语为通过已构建的词频统计模型得到的所述语料信息中大于第一预设统计次数的词语;
词组对集合生成模块403,用于根据所述多个高频词语生成与所述目标对象对应的第一词组对集合,其中所述第一词组对集合包括根据所述多个高频词语生成的词组对;
目标标签确认模块404,用于根据所述第一词组对集合以及与多个目标对象关联的第二词组对集合,确定与所述目标对象对应的标签。
可选地,该装置还包括通过以下操作生成所述第二词组对集合:
生成分别与多个目标对象对应的多个词组对集合;
根据生成的多个词组对集合生成所述第二词组对集合。
可选地,所述目标标签确认模块404具体用于:
确定所述第一词组对集合与所述第二词组对集合中的相同的词组对;
根据所述相同的词组对中的所述高频词语确定与所述目标对象对应的标签。
可选地,所述目标标签确认模块404还具体用于:
将相同的所述词组对中的所述高频词语确定为候选标签,获取所述候选标签的统计次数;
将大于第二预设统计次数的所述候选标签确定为所述目标对象对应的标签。
可选地,该装置还包括统计模型训练模块,用于在获取与所述目标对象关联的语料信息之前:
获取由多个目标对象关联的语料信息组成的语料信息库;
根据所述语料信息库通过TF/IDF算法训练得到所述词频统计模型。
本发明实施例中,获取与目标对象关联的语料信息,从语料信息中确定与目标对象对应的第一词语集合,其中第一词语集合包括与目标对象对应的多个高频词语,高频词语为通过已构建的词频统计模型得到的语料信息中大于第一预设统计次数的词语,根据多个高频词语生成与目标对象对应的第一词组对集合,其中第一词组对集合包括根据多个高频词语生成的词组对,根据第一词组对集合以及与多个目标对象关联的第二词组对集合,确定与目标对象对应的标签。本发明实施例从多个目标对象关联的语料信息中确定由统计次数到达预定数量的高频词语组成的词组对集合,通过一个目标对象的高频词组和该词组对集合确定该目标对象的标签,可以提高标签标注的的准确率。
本申请实施例提供的对目标对象进行标签标注的方法装置能够实现前述方法实施例中的各个过程,并达到相同的功能和效果,这里不再重复。
实施例3
图5为本公开另一实施例提供的对目标对象进行标签标注的装置的示意图,该装置500与根据实施例1的第一个方面所述的方法相对应。参考图5所示,该装置500包括:处理器510;以及存储器520,与处理器510连接,用于为处理器510提供处理以下处理步骤的指令:获取与所述目标对象关联的语料信息;
从所述语料信息中确定与所述目标对象对应的第一词语集合,其中所述第一词语集合包括与所述目标对象对应的多个高频词语,所述高频词语为通过已构建的词频统计模型得到的所述语料信息中大于第一预设统计次数的词语;
根据所述多个高频词语生成与所述目标对象对应的第一词组对集合,其中所述第一词组对集合包括根据所述多个高频词语生成的词组对;
根据所述第一词组对集合以及与多个目标对象关联的第二词组对集合,确定与所述目标对象对应的标签。
可选地,该装置还包括通过以下操作生成所述第二词组对集合:
生成分别与多个目标对象对应的多个词组对集合;
根据生成的多个词组对集合生成所述第二词组对集合。
可选地,根据所述第一词组对集合以及与多个目标对象关联的第二词组对集合,确定与所述目标对象对应的标签,包括:
确定所述第一词组对集合与所述第二词组对集合中的相同的词组对;
根据所述相同的词组对中的所述高频词语确定与所述目标对象对应的标签。
可选地,根据所述相同的词组对中的所述高频词语确定与所述目标对象对应的标签,包括:
将相同的所述词组对中的所述高频词语确定为候选标签,获取所述候选标签的统计次数;
将大于第二预设统计次数的所述候选标签确定为所述目标对象对应的标签。
可选地,在获取与所述目标对象关联的语料信息之前,包括:
获取由多个目标对象关联的语料信息组成的语料信息库;
根据所述语料信息库通过TF/IDF算法训练得到所述词频统计模型。
本发明实施例中,获取与目标对象关联的语料信息,从语料信息中确定与目标对象对应的第一词语集合,其中第一词语集合包括与目标对象对应的多个高频词语,高频词语为通过已构建的词频统计模型得到的语料信息中大于第一预设统计次数的词语,根据多个高频词语生成与目标对象对应的第一词组对集合,其中第一词组对集合包括根据多个高频词语生成的词组对,根据第一词组对集合以及与多个目标对象关联的第二词组对集合,确定与目标对象对应的标签。本发明实施例从多个目标对象关联的语料信息中确定由统计次数到达预定数量的高频词语组成的词组对集合,通过一个目标对象的高频词组和该词组对集合确定该目标对象的标签,可以提高标签标注的的准确率。
本申请实施例提供的对目标对象进行标签标注的装置能够实现前述方法实施例中的各个过程,并达到相同的功能和效果,这里不再重复。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种对目标对象进行标签标注的方法,其特征在于,包括:
获取与所述目标对象关联的语料信息;
从所述语料信息中确定与所述目标对象对应的第一词语集合,其中所述第一词语集合包括与所述目标对象对应的多个高频词语,所述高频词语为通过已构建的词频统计模型得到的所述语料信息中大于第一预设统计次数的词语;
根据所述多个高频词语生成与所述目标对象对应的第一词组对集合,其中所述第一词组对集合包括根据所述多个高频词语生成的词组对;
根据所述第一词组对集合以及与多个目标对象关联的第二词组对集合,确定与所述目标对象对应的标签。
2.根据权利要求1所述的方法,其特征在于,还包括通过以下操作生成所述第二词组对集合:
生成分别与多个目标对象对应的多个词组对集合;
根据生成的多个词组对集合生成所述第二词组对集合。
3.根据权利要求1所述的方法,其特征在于,根据所述第一词组对集合以及与多个目标对象关联的第二词组对集合,确定与所述目标对象对应的标签,包括:
确定所述第一词组对集合与所述第二词组对集合中的相同的词组对;
根据所述相同的词组对中的所述高频词语确定与所述目标对象对应的标签。
4.根据权利要求3所述的方法,其特征在于,根据所述相同的词组对中的所述高频词语确定与所述目标对象对应的标签,包括:
将相同的所述词组对中的所述高频词语确定为候选标签,获取所述候选标签的统计次数;
将大于第二预设统计次数的所述候选标签确定为所述目标对象对应的标签。
5.根据权利要求1所述的方法,其特征在于,在获取与所述目标对象关联的语料信息之前,包括:
获取由多个目标对象关联的语料信息组成的语料信息库;
根据所述语料信息库通过TF/IDF算法训练得到所述词频统计模型。
6.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时由处理器执行权利要求1至5中任意一项所述的对目标对象进行标签标注的方法。
7.一种对目标对象进行标签标注的装置,其特征在于,包括:
语料信息获取模块,用于获取与所述目标对象关联的语料信息;
词语集合确定模块,用于从所述语料信息中确定与所述目标对象对应的第一词语集合,其中所述第一词语集合包括与所述目标对象对应的多个高频词语,所述高频词语为通过已构建的词频统计模型得到的所述语料信息中大于第一预设统计次数的词语;
词组对集合生成模块,用于根据所述多个高频词语生成与所述目标对象对应的第一词组对集合,其中所述第一词组对集合包括根据所述多个高频词语生成的词组对;
目标标签确认模块,用于根据所述第一词组对集合以及与多个目标对象关联的第二词组对集合,确定与所述目标对象对应的标签。
8.根据权利要求7所述的装置,其特征在于,还包括通过以下操作生成所述第二词组对集合:
生成分别与多个目标对象对应的多个词组对集合;
根据生成的多个词组对集合生成所述第二词组对集合。
9.根据权利要求7所述的装置,其特征在于,所述目标标签确认模块具体用于:
确定所述第一词组对集合与所述第二词组对集合中的相同的词组对;
根据所述相同的词组对中的所述高频词语确定与所述目标对象对应的标签。
10.一种对目标对象进行标签标注的装置,其特征在于,包括:
处理器;以及
存储器,与所述处理器连接,用于为所述处理器提供处理以下处理步骤的指令:
获取与所述目标对象关联的语料信息;
从所述语料信息中确定与所述目标对象对应的第一词语集合,其中所述第一词语集合包括与所述目标对象对应的多个高频词语,所述高频词语为通过已构建的词频统计模型得到的所述语料信息中大于第一预设统计次数的词语;
根据所述多个高频词语生成与所述目标对象对应的第一词组对集合,其中所述第一词组对集合包括根据所述多个高频词语生成的词组对;
根据所述第一词组对集合以及与多个目标对象关联的第二词组对集合,确定与所述目标对象对应的标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911318624.7A CN113011182B (zh) | 2019-12-19 | 2019-12-19 | 一种对目标对象进行标签标注的方法、装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911318624.7A CN113011182B (zh) | 2019-12-19 | 2019-12-19 | 一种对目标对象进行标签标注的方法、装置和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113011182A true CN113011182A (zh) | 2021-06-22 |
CN113011182B CN113011182B (zh) | 2023-10-03 |
Family
ID=76381200
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911318624.7A Active CN113011182B (zh) | 2019-12-19 | 2019-12-19 | 一种对目标对象进行标签标注的方法、装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113011182B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023000728A1 (zh) * | 2021-07-23 | 2023-01-26 | 华为云计算技术有限公司 | 一种分词方法及其相关设备 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104111933A (zh) * | 2013-04-17 | 2014-10-22 | 阿里巴巴集团控股有限公司 | 获取业务对象标签、建立训练模型的方法及装置 |
CN105117428A (zh) * | 2015-08-04 | 2015-12-02 | 电子科技大学 | 一种基于词语对齐模型的web评论情感分析方法 |
CN105975453A (zh) * | 2015-12-01 | 2016-09-28 | 乐视网信息技术(北京)股份有限公司 | 评论标签提取方法和装置 |
CN107102980A (zh) * | 2016-02-19 | 2017-08-29 | 北京国双科技有限公司 | 情感信息的提取方法及装置 |
CN108228665A (zh) * | 2016-12-22 | 2018-06-29 | 阿里巴巴集团控股有限公司 | 确定对象标签、建立标签索引、搜索对象的方法及装置 |
CN108549625A (zh) * | 2018-02-28 | 2018-09-18 | 首都师范大学 | 一种基于句法宾语聚类的中文篇章表现主题分析方法 |
CN108595679A (zh) * | 2018-05-02 | 2018-09-28 | 武汉斗鱼网络科技有限公司 | 一种标签确定方法、装置、终端和存储介质 |
CN109255066A (zh) * | 2018-09-30 | 2019-01-22 | 武汉斗鱼网络科技有限公司 | 一种业务对象的标签标记方法、装置、服务器和存储介质 |
CN109271493A (zh) * | 2018-11-26 | 2019-01-25 | 腾讯科技(深圳)有限公司 | 一种语言文本处理方法、装置和存储介质 |
CN109657013A (zh) * | 2018-11-30 | 2019-04-19 | 杭州数澜科技有限公司 | 一种系统化生成标签的方法和系统 |
CN109918656A (zh) * | 2019-02-28 | 2019-06-21 | 武汉斗鱼鱼乐网络科技有限公司 | 一种直播热点获取方法、装置、服务器及存储介质 |
CN110263854A (zh) * | 2019-06-20 | 2019-09-20 | 广州酷狗计算机科技有限公司 | 直播标签确定方法、装置及存储介质 |
-
2019
- 2019-12-19 CN CN201911318624.7A patent/CN113011182B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104111933A (zh) * | 2013-04-17 | 2014-10-22 | 阿里巴巴集团控股有限公司 | 获取业务对象标签、建立训练模型的方法及装置 |
CN105117428A (zh) * | 2015-08-04 | 2015-12-02 | 电子科技大学 | 一种基于词语对齐模型的web评论情感分析方法 |
CN105975453A (zh) * | 2015-12-01 | 2016-09-28 | 乐视网信息技术(北京)股份有限公司 | 评论标签提取方法和装置 |
WO2017092337A1 (zh) * | 2015-12-01 | 2017-06-08 | 乐视控股(北京)有限公司 | 评论标签提取方法和装置 |
CN107102980A (zh) * | 2016-02-19 | 2017-08-29 | 北京国双科技有限公司 | 情感信息的提取方法及装置 |
CN108228665A (zh) * | 2016-12-22 | 2018-06-29 | 阿里巴巴集团控股有限公司 | 确定对象标签、建立标签索引、搜索对象的方法及装置 |
CN108549625A (zh) * | 2018-02-28 | 2018-09-18 | 首都师范大学 | 一种基于句法宾语聚类的中文篇章表现主题分析方法 |
CN108595679A (zh) * | 2018-05-02 | 2018-09-28 | 武汉斗鱼网络科技有限公司 | 一种标签确定方法、装置、终端和存储介质 |
CN109255066A (zh) * | 2018-09-30 | 2019-01-22 | 武汉斗鱼网络科技有限公司 | 一种业务对象的标签标记方法、装置、服务器和存储介质 |
CN109271493A (zh) * | 2018-11-26 | 2019-01-25 | 腾讯科技(深圳)有限公司 | 一种语言文本处理方法、装置和存储介质 |
CN109657013A (zh) * | 2018-11-30 | 2019-04-19 | 杭州数澜科技有限公司 | 一种系统化生成标签的方法和系统 |
CN109918656A (zh) * | 2019-02-28 | 2019-06-21 | 武汉斗鱼鱼乐网络科技有限公司 | 一种直播热点获取方法、装置、服务器及存储介质 |
CN110263854A (zh) * | 2019-06-20 | 2019-09-20 | 广州酷狗计算机科技有限公司 | 直播标签确定方法、装置及存储介质 |
Non-Patent Citations (1)
Title |
---|
李良等: "网购农产品评论中的消费者情感标签抽取方法研究", 《电子科技大学学报》, vol. 20, no. 4, pages 1 - 7 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023000728A1 (zh) * | 2021-07-23 | 2023-01-26 | 华为云计算技术有限公司 | 一种分词方法及其相关设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113011182B (zh) | 2023-10-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108334533B (zh) | 关键词提取方法和装置、存储介质及电子装置 | |
CN110380954B (zh) | 数据分享方法和装置,存储介质及电子装置 | |
CN110633458A (zh) | 裁判文书的生成方法和生成装置 | |
CN109086420B (zh) | 选择阅读材料的方法、装置以及存储介质 | |
CN110909549A (zh) | 对古汉语进行断句的方法、装置以及存储介质 | |
CN112581162A (zh) | 资讯内容展示方法、装置、存储介质以及终端 | |
CN110516251B (zh) | 一种电商实体识别模型的构建方法、构建装置、设备和介质 | |
CN115858741A (zh) | 一种适用于多场景的智能问答方法、装置及存储介质 | |
CN113011182B (zh) | 一种对目标对象进行标签标注的方法、装置和存储介质 | |
CN111222328A (zh) | 标签提取方法、装置和电子设备 | |
CN113688629A (zh) | 文本去重的方法、装置以及存储介质 | |
CN115861606B (zh) | 一种针对长尾分布文档的分类方法、装置及存储介质 | |
CN113779297A (zh) | 基于图片的信息搜索方法、装置以及存储介质 | |
CN115730037A (zh) | 目标文本检索方法及装置 | |
CN115905459A (zh) | 问题答案的预测方法、装置及存储介质 | |
CN114595760A (zh) | 数据分类方法及装置 | |
CN113204973A (zh) | 答非所问识别模型的训练方法、装置、设备和存储介质 | |
CN110728138A (zh) | 新闻文本识别的方法、装置以及存储介质 | |
CN110765779A (zh) | 字矩阵的训练方法及装置 | |
CN111563387A (zh) | 语句相似度确定方法及装置、语句翻译方法及装置 | |
CN110956034A (zh) | 词语的获取方法及装置、商品搜索方法 | |
CN112446202A (zh) | 文本的分析方法和装置 | |
CN111858994A (zh) | 文字检索方法和装置 | |
CN111523952B (zh) | 信息提取的方法及装置、存储介质和处理器 | |
CN110826582A (zh) | 图像特征训练方法、装置和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |