CN114021577A - 内容标签的生成方法、装置、电子设备及存储介质 - Google Patents
内容标签的生成方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114021577A CN114021577A CN202111290462.8A CN202111290462A CN114021577A CN 114021577 A CN114021577 A CN 114021577A CN 202111290462 A CN202111290462 A CN 202111290462A CN 114021577 A CN114021577 A CN 114021577A
- Authority
- CN
- China
- Prior art keywords
- target
- label
- labeled
- text content
- tag
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种内容标签的生成方法、装置、电子设备及存储介质,应用于搜索技术领域,所述方法包括:获取待标注文本内容;确定所述待标注文本内容所属的目标垂域类别和目标意图类别;根据所述目标垂域类别和所述目标意图类别,从预设的不同垂域类别下不同意图类别对应的多个标签库中,确定出所述目标垂域类别下与所述目标意图类别对应的目标标签库;获取与所述目标标签库中的目标标签关联的目标关键词集合,并将所述目标关键词集合中的目标关键词在所述待标注文本内容中进行字符匹配;如果从所述待标注文本内容中匹配到所述目标关键词的个数大于或等于预设阈值,则为所述待标注文本内容标注所述目标标签。本申请可以提高标签标注的准确性。
Description
技术领域
本申请涉及搜索技术领域,尤其涉及一种内容标签的生成方法、装置、电子设备及存储介质。
背景技术
随着互联网发展的日新月异,出现了海量的异构信息资源,通过标签可以使用户更有效地认知这些资源的主题以及内容。
在传统的内容标签生成任务中,对文本内容进行关键词提取,利用提取的关键词作为文本内容的标签是常用方式。比如使用词频-逆文本频率指数(Term Frequency–Inverse Document Frequency,TF-IDF)算法对文本内容提取关键词进行标签标注。然而,上述方式很难保证生成的标签具有较好的质量。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供了一种内容标签的生成方法、装置、电子设备及存储介质。
根据本申请的第一方面,提供了一种内容标签的生成方法,包括:
获取待标注文本内容;
确定所述待标注文本内容所属的目标垂域类别和目标意图类别;
根据所述目标垂域类别和所述目标意图类别,从预设的不同垂域类别下不同意图类别对应的多个标签库中,确定出所述目标垂域类别下与所述目标意图类别对应的目标标签库;
获取与所述目标标签库中的目标标签关联的目标关键词集合,并将所述目标关键词集合中的目标关键词在所述待标注文本内容中进行字符匹配;
如果从所述待标注文本内容中匹配到所述目标关键词的个数大于或等于预设阈值,则为所述待标注文本内容标注所述目标标签。
根据本申请的第二方面,提供了一种内容标签的生成装置,包括:
待标注内容获取模块,用于获取待标注文本内容;
意图确定模块,用于确定所述待标注文本内容所属的目标垂域类别和目标意图类别;
标签库确定模块,用于根据所述目标垂域类别和所述目标意图类别,从预设的不同垂域类别下不同意图类别对应的多个标签库中,确定出所述目标垂域类别下与所述目标意图类别对应的目标标签库;
字符匹配模块,用于获取与所述目标标签库中的目标标签关联的目标关键词集合,并将所述目标关键词集合中的目标关键词在所述待标注文本内容中进行字符匹配;
标注模块,用于如果从所述待标注文本内容中匹配到所述目标关键词的个数大于或等于预设阈值,则为所述待标注文本内容标注所述目标标签。
根据本申请的第三方面,提供了一种电子设备,包括:处理器,所述处理器用于执行存储于存储器的计算机程序,所述计算机程序被处理器执行时实现第一方面所述的内容标签的生成方法。
根据本申请的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的内容标签的生成方法。
根据本申请的第五方面,提供了一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行第一方面所述的内容标签的生成方法。
本申请实施例提供的技术方案与现有技术相比具有如下优点:
通过预先设置不同垂域类别下不同意图类别对应的多个标签库,对于待标注文本内容,先确定待标注文本内容所属的目标垂域类别和目标意图类别,再根据目标垂域类别和目标意图类别,从预设的不同垂域类别下不同意图类别对应的多个标签库中,确定出目标垂域类别下与目标意图类别对应的目标标签库,进而获取与目标标签库中的目标标签关联的目标关键词集合,并将目标关键词集合中的目标关键词在待标注文本内容中进行字符匹配,在从待标注文本内容中匹配到目标关键词的个数大于或等于预设阈值,则为待标注文本内容标注目标标签,由此,实现了利用预设标签库中的标签对待标注文本内容进行标注,在确定标签时结合了标签库中的标签关联的关键词与待标注文本的字符匹配结果,能够保证确定的标签与待标注文本内容相关,从而保证了生成的标签的质量,提高了标签标注的准确性。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一实施例提供的内容标签的生成方法的流程示意图;
图2为本申请另一实施例提供的内容标签的生成方法的流程示意图;
图3为本申请一实施例提供的内容标签的生成装置的结构示意图;
图4为本申请一实施例提供的电子设备的一种结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
随着互联网发展的日新月异,出现了海量的异构信息资源,通过标注标签可以使用户更有效地认知这些资源的主题以及内容。
目前,获取标签的方法基本上可以分为两类:一是利用数据挖掘算法从文本信息中自动生成标签,这种自动生成标签的方法不需要人工介入,成本低且便于实施,针对于大量数据也能很高效地标注出数据的标签;二是利用众包系统由用户标注标签,这种基于用户标记标签的方式适用于拥有较多在线用户的系统,而且需要一定时间积累和人工介入,适用范围小且人工成本和时间成本较高。因此,自动生成标签的方法是目前应用最为广泛的标签生成方法。
在传统的内容标签生成任务中,对文本内容进行关键词提取是最常见的思路,大多使用TF-IDF算法对文本内容提取关键词。TF-IDF算法是一种基于概率统计的方法,思想是:单词在该文档中出现次数越多,说明该单词重要性越强(TF);单词在整个语料库中出现次数越多,单词识别性越低,重要程度越低(IDF)。TF-IDF的分数是由TF和IDF两个项相乘得到的。
然而,尽管TF-IDF算法在一般的文本搜索场景中可以生成关键词,但由于它仅仅是依据词频寻找关键词,不会将频率较低的词提取作为标签,无法解决词汇空缺(Vocabulary Gap)的问题。另外,适合作为标签词的词语不一定会出现在文本内容中,因此就算提取出关键词,其权重也很难把控,提取的关键词不一定适合作为标签来准确的描述文本内容。因此,仅仅对文本内容使用TF-IDF算法来生成标签,很难保证生成的标签具有较好的质量,使得文本内容所标注标签的准确性难以保证。
针对上述问题,本申请提供了一种内容标签的生成方法,通过预先设置不同垂域类别下不同意图类别对应的多个标签库,对于待标注文本内容,先确定待标注文本内容所属的目标垂域类别和目标意图类别,再根据目标垂域类别和目标意图类别,从预设的不同垂域类别下不同意图类别对应的多个标签库中,确定出目标垂域类别下与目标意图类别对应的目标标签库,进而获取与目标标签库中的目标标签关联的目标关键词集合,并将目标关键词集合中的目标关键词在待标注文本内容中进行字符匹配,在从待标注文本内容中匹配到目标关键词的个数大于或等于预设阈值,则为待标注文本内容标注目标标签,由此,实现了利用预设标签库中的标签对待标注文本内容进行标注,在确定标签时结合了标签库中的标签关联的关键词与待标注文本的字符匹配结果,能够保证确定的标签与待标注文本内容相关,从而保证了生成的标签的质量,提高了标签标注的准确性,通过预先构建标签库,能够有效规避标签库不规范以及待标注文本内容的数据稀疏导致无法生成质量较好的标签的问题。
图1为本申请一实施例提供的内容标签的生成方法的流程示意图,该方法可以由本申请实施例提供的内容标签的生成装置执行,其中该装置可以采用软件和/或硬件实现,一般可集成在搜索引擎服务器、云端服务器等电子设备中。如图1所示,该内容标签的生成方法可以包括以下步骤:
步骤101,获取待标注文本内容。
本申请实施例中,可以获取网络资源中任意未标注的文本内容作为待标注文本内容。
步骤102,确定所述待标注文本内容所属的目标垂域类别和目标意图类别。
本申请实施例中,对于获取的待标注文本内容,可以先确定该待标注文本内容所属的目标垂域类别和目标意图类型。
示例性地,可以使用深度学习预先训练好垂域和意图分类模型,将待标注文本内容输入至垂域和意图分类模型中,由垂域和意图分类模型输出该待标注文本内容对应的目标垂域类别和目标意图类别。
能够理解的是,意图类别可以是垂域下的子类别,比如,对于垂域类别“影音娱乐”,其下包含的意图类别可以有:电影、音乐、综艺、电视剧等等。
步骤103,根据所述目标垂域类别和所述目标意图类别,从预设的不同垂域类别下不同意图类别对应的多个标签库中,确定出所述目标垂域类别下与所述目标意图类别对应的目标标签库。
本申请实施例中,可以预先构建不同的垂域类别下,不同的意图类别分别对应的标签库,每个标签库中包含至少一个标签,进而根据待标注文本内容所属的目标垂域类别和目标意图类别,从预先构建的多个标签库中,确定出目标垂域类别下与目标意图类别对应的目标标签库。
示例性地,假设垂域类别A下的意图类别有A1、A2和A3,预先构建的该垂域类别A下的各意图类别对应的标签库分别为a1、a2和a3;垂域类别B下的意图类别有B1、B2、B3和B4,预先构建的该垂域类别B下的各意图类别对应的标签库分别为b1、b2、b3和b4。并假设确定的待标注文本内容所属的目标垂域类别为垂域类别B,确定的目标意图类别为B2,则从预先构建的多个标签库中,可以确定出目标标签库为b2。
步骤104,获取与所述目标标签库中的目标标签关联的目标关键词集合,并将所述目标关键词集合中的目标关键词在所述待标注文本内容中进行字符匹配。
本申请实施例中,针对预先构建的不同垂域类别下不同意图类别对应的各个标签库,对于各个标签库中的每个标签,可以预先构建每个标签对应的关键词集合,关键词集合中包含与该标签相关的至少一个关键词。
其中,与标签相关的关键词,可以是从标签标注的文本内容中提取的关键词,也可以是从标准词库(比如百科、汉语词典等)中筛选的与标签相关的近义词,还可以是通过上述两种方式结合确定的关键词,本申请对此不作限制。
进而,本申请实施例中,对于确定的目标标签库中的任一目标标签,可以获取与该目标标签关联的目标关键词集合,目标关键词集合中包含至少一个目标关键词,可以将各个目标关键词依次在待标注文本内容中进行字符匹配,如果从待标注文本中找到与某个目标关键词相同的词,则待标注文本内容与该目标关键词匹配成功。
能够理解的是,对于不同垂域类别或不同意图类别下的至少两个相同的标签,可以分别构建对应的关键词集合,以提高标签生成的准确性;或者,为简便起见,也可以针对相同的标签,仅构建一个关键词集合,但这种情况下,关键词集合中包含了该标签所属每个垂域类别或每个意图类别时关联的所有关键词。
步骤105,如果从所述待标注文本内容中匹配到所述目标关键词的个数大于或等于预设阈值,则为所述待标注文本内容标注所述目标标签。
其中,预设阈值可以预先设定,比如预设阈值可以预先设置为1个、3个、4个等,本申请对预设阈值的取值不作限制。
本申请实施例中,在待标注文本内容中每成功匹配一个目标关键词,则将匹配成功的次数累加1,并在匹配成功的次数大于或等于预设阈值时,即从待标注文本内容中匹配到目标关键词的个数大于或等于预设阈值时,则可以将该目标关键词集合所关联的目标标签作为该待标注文本内容的标签,并为该待标注文本内容标注该目标标签。标注的标签可以在用户搜索时用于query(查询词)与内容之间的匹配,使得为用户提供搜索服务时能更加贴近用户的实际需求,提高搜索算法的召回效果。
对于目标关键词集合中包含的目标关键词较少,但设置的预设阈值较大的情况,即使目标关键词全部在待标注文本内容中匹配到,但匹配成功的次数也无法大于或等于预设阈值,针对这种情况,可以根据匹配成功的次数和目标关键词的总个数来决定是否将该目标关键词集合所关联的目标标签确定为该待标注文本内容的标签。从而,在本申请的一种可选实施方式中,如果从所述待标注文本内容中匹配到所述目标关键词的个数小于预设阈值,则可以获取目标关键词集合中所有目标关键词的个数,并获取匹配成功的次数,如果匹配成功的次数与该目标关键词集合中所有目标关键词的个数一致,即所有的目标关键词均在待标注文本中成功匹配到,则也为待标注文本内容标注该目标标签。
能够理解的是,对于每次获取的待标注文本内容,在生成该待标注文本内容的标签时,目标关键词在待标注文本内容中匹配成功的次数清零,也就是说,每个待标注文本内容对应一个匹配成功的次数,匹配成功的次数的初始值为0,并在匹配目标关键词的过程中,每在待标注文本内容中匹配到一个目标关键词,该待标注文本内容对应的匹配成功的次数加1。
本实施例的内容标签的生成方法,通过预先设置不同垂域类别下不同意图类别对应的多个标签库,对于待标注文本内容,先确定待标注文本内容所属的目标垂域类别和目标意图类别,再根据目标垂域类别和目标意图类别,从预设的不同垂域类别下不同意图类别对应的多个标签库中,确定出目标垂域类别下与目标意图类别对应的目标标签库,进而获取与目标标签库中的目标标签关联的目标关键词集合,并将目标关键词集合中的目标关键词在待标注文本内容中进行字符匹配,在从待标注文本内容中匹配到目标关键词的个数大于或等于预设阈值,则为待标注文本内容标注目标标签,由此,实现了利用预设标签库中的标签对待标注文本内容进行标注,在确定标签时结合了标签库中的标签关联的关键词与待标注文本的字符匹配结果,能够保证确定的标签与待标注文本内容相关,从而保证了生成的标签的质量,提高了标签标注的准确性,标签的生成无需人工参与,实现了高效且准确地为文本内容生成标签。
在本申请是一种可选实施方式中,可以从网络上爬取不同垂域类别下携带标签的文本数据来构建标签库,从而,在前述实施例的基础上,在确定目标标签库之前,如图2所示,所述方法还可以包括以下步骤:
步骤201,爬取不同垂域类别下携带标签的多个文本数据。
目前较多的网络平台在定义标签时,所用数据库通常是该平台本地的数据库,这样而言能够获取的数据量较少,且本地数据库中存储的通常是与本平台相关的数据,使得能够获取的信息不够全面。针对这一问题,本申请实施例中采用爬虫的方式从多个平台获取数据,获取的数据是已标注标签的文本数据,利用爬取的各平台的文本数据来构建标签库,使得构建得到的标签库中涵盖的标签更加全面,有利于实现更准确的标签生成。
示例性地,本申请实施例中,可以从网购平台、搜索平台等多个平台中爬取不同垂域类别(比如影音娱乐、购物、新闻等)下携带标签的文本数据。
步骤202,根据所述多个文本数据分别对应的垂域类别和意图类别,将所述多个文本数据携带的标签在垂域类别下按照意图类别进行分类和去重处理,得到所述不同垂域类别下每个所述意图类别对应的标签库,所述标签库中包含至少一个标签。
本申请实施例中,对于爬取的每一条文本数据,其所属的垂域类别和携带的标签是已知的,可以继续获取该文本数据所属的意图类别,比如可以利用预先训练好的意图分类模型来获取爬取的每条文本数据对应的意图类别,每条文本数据对应的意图类别可以作为该文本数据所携带的标签的意图类别,每条文本数据对应的垂域类别也可以作为该文本数据所携带的标签的垂域类别,从而,对于爬取的不同垂域类别下的每条文本数据携带的标签,可以获取到该标签所属的垂域类别和意图类别,并可以在所属的垂域类别下,按照意图类别对标签进行分类和去重处理,得到不同垂域类别下每个意图类别对应的标签库,其中,一个意图类别对应一个标签库,标签库中包含至少一个标签。
由于爬取的每条文本数据可能携带多个标签,以及每个意图类别下有多条文本数据,同一意图类别下的多条文本数据可能携带相同的标签,因此本申请实施例中,在创建标签库时,对于垂域类别下同一意图类别的标签进行去重处理,得到该垂域类别下该意图类别对应的标签库,使得生成的标签库中没有重复的标签,有利于提高标签生成的准确性。
本实施例的内容标签的生成方法,通过爬取不同垂域类别下携带标签的多个文本数据,根据多个文本数据分别对应的垂域类别和意图类别,将多个文本数据携带的标签在垂域类别下按照意图类别进行分类和去重处理,得到不同垂域类别下每个意图类别对应的标签库,其中,标签库中包含至少一个标签,由此,实现了借助外部资源构建标准的标签库,提高了标签库的规范程度,为提高生成标签的质量提供了数据支撑。
在本申请的一种可选实施方式中,可以从爬取的带标签的文本数据中挖掘与标签相关的关键词来构建关键词集合,从而,所述方法还包括:针对所述标签库中的每个标签,利用TF-IDF算法从所述每个标签标注的文本数据中提取出至少一个关键词;利用所述至少一个关键词,构建所述每个标签关联的关键词集合。
本申请实施例中,对于标签库中的每个标签,可以从爬取的携带标签的文本数据中,获取携带该标签的文本数据,并利用TF-IDF算法从携带该标签的文本数据中提取出至少一个关键词,利用所提取的至少一个关键词来构建得到该标签关联的关键词集合。此外,为了降低关键词提取的数据处理量,在提取关键词之前,可以先对携带该标签的文本数据进行分词、去停用词等处理,之后再利用TF-IDF算法从处理后的数据中提取至少一个关键词。
进一步地,当利用TF-IDF算法提取的关键词的数量较多时,可能部分关键词与标签的相关度较低,可以对提取的关键词进行筛选,仅选择与标签的相关度较高的部分关键词来构建关键词集合。从而。在本申请的一种可选实施方式中,所述利用所述至少一个关键词,构建所述每个标签关联的关键词集合,包括:
根据所述至少一个关键词的TF-IDF分数,将所述至少一个关键词按照TF-IDF分数由高到低的顺序进行排序;
从排序后的至少一个关键词中,选取前n个关键词构建所述每个标签关联的关键词集合。
能够理解的是,在利用TF-IDF算法提取关键词时,通常是依据词语的TF-IDF分数进行提取,某个词对文章的重要性越高,它的TF-IDF分数就越大,选择TF-IDF分数较多的几个词作为关键词。其中,TF-IDF分数是词频TF与逆文档频率IDF相乘得到的。从而本实施例中,当提取的关键词的数量较多时,可以根据提取的每个关键词的TF-IDF分数,将提取的至少一个关键词按照TF-IDF分数由高到低的顺序进行排序,并排序后的至少一个关键词中,选取前n个关键词来构建关键词集合。其中,n的取值可以预先设定,比如可以设置n为2、5等,本申请对此不作限制。
通过根据TF-IDF分数选取TF-IDF分数较高的前n个关键词来构建标签关联的关键词集合,使得关键词集合中的关键词在文本数据中的重要程度较高,将这些关键词作为与标签关联的关键词,有利于后续根据关键词进行字符匹配来确定标签时,使得生成的标签与待标注文本内容具有较高的相关性,保证标签的质量。
通常,公开的词汇数据平台(比如百科数据)中收集了大量的词汇,可以利用公开的词汇对确定的关键词集合进行完善。从而,在本申请的一种可选实施方式中,所述方法还包括:
获取所述每个标签的词向量;
根据所述每个标签的词向量与预设词库中各词汇的词向量,计算所述每个标签与所述各词汇之间的第一语义相似度;
从所述各词汇中选择所述第一语义相似度大于预设的语义相似度阈值的词汇,作为所述每个标签的近义词添加至所述关键词集合中。
其中,预设词库可以是公开的词汇数据库,例如收集了大量词汇的百科数据。
本申请实施例中,对于标签库中的任一标签,可以获取该标签的词向量,其中,标签的词向量可以采用常用的生成词向量的方式来确定,比如word2vec、glove、bert等生成词向量的方式。接着,根据该标签的词向量以及预设词库中各词汇对应的词向量,分别计算该标签与各词汇之间的第一语义相似度,标签与各词汇之间的第一语义相似度可以采用常用的基于词向量计算语义相似度的方式计算得到,本申请对此不再详述。在计算得到第一语义相似度之后,可以将标签与各词汇之间的第一语义相似度与预设的语义相似度阈值进行比较,从各词汇中选择出与标签之间的第一语义相似度大于语义相似度阈值的词汇,选出的这些词汇作为该标签的近义词被添加至该标签关联的关键词集合中,以实现对关键词集合中的标签进行完善,使得标签相关的关键词更丰富和全面。其中,语义相似度阈值可以预先设定,比如可以设置语义相似度阈值为80%、90%等。
进一步地,如果关键词集合中存在与选出的标签的近义词一致的词汇,则可以进行去重处理,以使最终确定的关键词集合中不存在重复的关键词。
在本申请的一种可选实施方式中,在确定了各标签关联的关键词集合之后,针对任一关键词集合中的各个关键词,可以根据各关键词与标签的语义相似度,对各个关键词进行排序。从而,所述方法还包括:
计算所述每个标签关联的关键词集合中的各关键词,分别与所述每个标签之间的第二语义相似度;
按照所述第二语义相似度从大到小的顺序,对所述每个标签关联的关键词集合中的各关键词进行排序;
相应地,所述将所述目标关键词集合中的目标关键词在所述待标注文本内容中进行字符匹配,包括:
选取所述目标关键词集合中的前m个关键词作为目标关键词;
将所述目标关键词在所述待标注文本内容中进行字符匹配。
本申请实施例中,对于任一标签关联的关键词集合,可以计算该关键词集合中的各个关键词,分别与该标签之间的第二语义相似度,并按照第二语义相似度从大到小的顺序,对关键词集合中的各个关键词进行排序。之后,在将关键词与待标注文本内容进行字符匹配时,可以从确定的目标关键词集合中,选择排序在前的m个关键词作为目标关键词,将目标关键词在待标注文本内容中进行字符匹配。
其中,m的取值可以预先设定,m的取值应当不小于前述实施例所述的预设阈值,以保证可以满足从待标注文本内容中匹配到目标关键词的个数大于或等于预设阈值这一条件。需要说明的是,当关键词集合中包含的关键词的总数小于m的取值时,可以选择关键词集合中的所有关键词作为目标关键词用于和待标注文本内容进行字符匹配。
本申请实施例中,通过计算每个标签关联的关键词集合中的各关键词,分别与每个标签之间的第二语义相似度,按照第二语义相似度从大到小的顺序,对每个标签关联的关键词集合中的各关键词进行排序,进而选取目标关键词集合中的前m个关键词作为目标关键词,将目标关键词在待标注文本内容中进行字符匹配,由此,通过将关键词集合中的各关键词按照第二语义相似度由大到小的顺序进行降序排序,选取前m个关键词与待标注文本内容进行匹配,使得用于和待标注文本内容进行匹配的关键词更具有代表性,有利于提高生成的标签的质量。
在本申请的一种可选实施方式中,如果从所述待标注文本内容中匹配到所述目标关键词的个数小于所述预设阈值,则从所述待标注文本内容中提取至少一个待匹配关键词;根据所述至少一个待匹配关键词的词向量,计算得到第一平均词向量;根据所述目标关键词集合中各个关键词的词向量,计算得到第二平均词向量;计算所述第一平均词向量与所述第二平均词向量之间的相似度;在所述相似度大于或等于预设的相似度阈值的情况下,则为所述待标注文本内容标注所述目标标签。
其中,可以采用常用的关键词提取算法来提取待标注文本内容中的关键词,得到至少一个待匹配关键词,比如,可以采用TF-IDF算法、TextRank算法等方式提取文本中的关键词,本申请对此不作限制。
本申请实施例中,当从待标注文本内容中匹配到目标关键词的个数小于预设阈值时,可以通过关键词提取算法从待标注文本内容中提取出至少一个待匹配关键词,并对至少一个待匹配关键词的词向量进行相加后求平均值,得到第一平均词向量,以及,对目标关键词集合中的所有关键词的词向量进行相加后求平均值,得到第二平均词向量,进而计算第一平均词向量与第二平均词向量之间的相似度,其中,第一平均词向量与第二平均词向量之间的相似度可以采用常用的相似度计算方式计算得到,比如通过余弦公式计算得到余弦相似度、通过欧几里德距离计算得到欧几里德相似度,等等。之后,将计算得到的相似度与预设的相似度阈值进行比较,并在计算得到的相似度大于或等于预设的相似度阈值时,为待标注文本内容标注目标关键词集合关联的目标标签。其中,相似度阈值可以预先设定,比如设置相似度阈值为80%、90%等,本申请对此不作限制。
进一步地,当计算得到的相似度小于预设的相似度阈值时,则不为待标注文本内容标注标签。
相应于上述方法实施例,本申请实施例还提供了一种内容标签的生成装置。
图3为本申请一实施例提供的内容标签的生成装置的结构示意图,如图3所示,该内容标签的生成装置30可以包括:待标注内容获取模块310、意图确定模块320、标签库确定模块330、字符匹配模块340和标注模块350。
其中,待标注内容获取模块310,用于获取待标注文本内容;
意图确定模块320,用于确定所述待标注文本内容所属的目标垂域类别和目标意图类别;
标签库确定模块330,用于根据所述目标垂域类别和所述目标意图类别,从预设的不同垂域类别下不同意图类别对应的多个标签库中,确定出所述目标垂域类别下与所述目标意图类别对应的目标标签库;
字符匹配模块340,用于获取与所述目标标签库中的目标标签关联的目标关键词集合,并将所述目标关键词集合中的目标关键词在所述待标注文本内容中进行字符匹配;
标注模块350,用于如果从所述待标注文本内容中匹配到所述目标关键词的个数大于或等于预设阈值,则为所述待标注文本内容标注所述目标标签。
可选地,所述内容标签的生成装置30还包括:
数据爬取模块,用于爬取不同垂域类别下携带标签的多个文本数据;
标签库构建模块,用于根据所述多个文本数据分别对应的垂域类别和意图类别,将所述多个文本数据携带的标签在垂域类别下按照意图类别进行分类和去重处理,得到所述不同垂域类别下每个所述意图类别对应的标签库,所述标签库中包含至少一个标签。
可选地,所述内容标签的生成装置30还包括:
关键词提取模块,用于针对所述标签库中的每个标签,利用TF-IDF算法从所述每个标签标注的文本数据中提取出至少一个关键词;
关键词集合构建模块,用于利用所述至少一个关键词,构建所述每个标签关联的关键词集合。
可选地,所述关键词集合构建模块,还用于:
根据所述至少一个关键词的TF-IDF分数,将所述至少一个关键词按照TF-IDF分数由高到低的顺序进行排序;
从排序后的至少一个关键词中,选取前n个关键词构建所述每个标签关联的关键词集合。
可选地,所述内容标签的生成装置30还包括:
词向量获取模块,用于获取所述每个标签的词向量;
第一语义相似度计算模块,用于根据所述每个标签的词向量与预设词库中各词汇的词向量,计算所述每个标签与所述各词汇之间的第一语义相似度;
近义词添加模块,用于从所述各词汇中选择所述第一语义相似度大于预设的语义相似度阈值的词汇,作为所述每个标签的近义词添加至所述关键词集合中。
可选地,所述内容标签的生成装置30还包括:
第二语义相似度计算模块,用于计算所述每个标签关联的关键词集合中的各关键词,分别与所述每个标签之间的第二语义相似度;
排序模块,用于按照所述第二语义相似度从大到小的顺序,对所述每个标签关联的关键词集合中的各关键词进行排序;
相应地,所述字符匹配模块,还用于:
选取所述目标关键词集合中的前m个关键词作为目标关键词;
将所述目标关键词在所述待标注文本内容中进行字符匹配。
可选地,所述内容标签的生成装置30还包括:
待匹配关键词提取模块,用于如果从所述待标注文本内容中匹配到所述目标关键词的个数小于所述预设阈值,则从所述待标注文本内容中提取至少一个待匹配关键词;
第一计算模块,用于根据所述至少一个待匹配关键词的词向量,计算得到第一平均词向量;
第二计算模块,用于根据所述目标关键词集合中各个关键词的词向量,计算得到第二平均词向量;
相似度计算模块,用于计算所述第一平均词向量与所述第二平均词向量之间的相似度;
所述标注模块350,还用于:
在所述相似度大于或等于预设的相似度阈值的情况下,则为所述待标注文本内容标注所述目标标签。
本公开实施例所提供的内容标签的生成装置,可执行本公开实施例所提供的任意可应用于搜索引擎服务器等电子设备的内容标签的生成方法,具备执行方法相应的功能模块和有益效果。本公开装置实施例中未详尽描述的内容可以参考本公开任意方法实施例中的描述。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
在本申请的示例性实施例中,还提供一种电子设备,包括:处理器,所述处理器用于执行存储于存储器的计算机程序,所述计算机程序被处理器执行时实现如上述实施例所述的内容标签的生成方法的步骤。
图4为本申请一实施例提供的电子设备的一种结构示意图。需要说明的是,图4示出的电子设备500仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图4所示,电子设备500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有系统操作所需的各种程序和数据。中央处理单元501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如局域网(LAN)卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元501执行时,执行本申请的装置中限定的各种功能。
本申请实施例中,还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述实施例所述的内容标签的生成方法的步骤。
本申请实施例中,还提供了一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行上述实施例所述的内容标签的生成方法的步骤。
需要说明的是,本申请所示的计算机可读存储介质例如可以是—但不限于—电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器、只读存储器、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、射频等等,或者上述的任意合适的组合。
本申请实施例中,还提供了一种计算机程序产品,当计算机程序产品在计算机上运行时,使得计算机执行上述搜索方法。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种内容标签的生成方法,其特征在于,所述方法包括:
获取待标注文本内容;
确定所述待标注文本内容所属的目标垂域类别和目标意图类别;
根据所述目标垂域类别和所述目标意图类别,从预设的不同垂域类别下不同意图类别对应的多个标签库中,确定出所述目标垂域类别下与所述目标意图类别对应的目标标签库;
获取与所述目标标签库中的目标标签关联的目标关键词集合,并将所述目标关键词集合中的目标关键词在所述待标注文本内容中进行字符匹配;
如果从所述待标注文本内容中匹配到所述目标关键词的个数大于或等于预设阈值,则为所述待标注文本内容标注所述目标标签。
2.根据权利要求1所述的内容标签的生成方法,其特征在于,所述方法还包括:
爬取不同垂域类别下携带标签的多个文本数据;
根据所述多个文本数据分别对应的垂域类别和意图类别,将所述多个文本数据携带的标签在垂域类别下按照意图类别进行分类和去重处理,得到所述不同垂域类别下每个所述意图类别对应的标签库,所述标签库中包含至少一个标签。
3.根据权利要求2所述的内容标签的生成方法,其特征在于,所述方法还包括:
针对所述标签库中的每个标签,利用TF-IDF算法从所述每个标签标注的文本数据中提取出至少一个关键词;
利用所述至少一个关键词,构建所述每个标签关联的关键词集合。
4.根据权利要求3所述的内容标签的生成方法,其特征在于,所述利用所述至少一个关键词,构建所述每个标签关联的关键词集合,包括:
根据所述至少一个关键词的TF-IDF分数,将所述至少一个关键词按照TF-IDF分数由高到低的顺序进行排序;
从排序后的至少一个关键词中,选取前n个关键词构建所述每个标签关联的关键词集合。
5.根据权利要求4所述的内容标签的生成方法,其特征在于,所述方法还包括:
获取所述每个标签的词向量;
根据所述每个标签的词向量与预设词库中各词汇的词向量,计算所述每个标签与所述各词汇之间的第一语义相似度;
从所述各词汇中选择所述第一语义相似度大于预设的语义相似度阈值的词汇,作为所述每个标签的近义词添加至所述关键词集合中。
6.根据权利要求5所述的内容标签的生成方法,其特征在于,所述方法还包括:
计算所述每个标签关联的关键词集合中的各关键词,分别与所述每个标签之间的第二语义相似度;
按照所述第二语义相似度从大到小的顺序,对所述每个标签关联的关键词集合中的各关键词进行排序;
相应地,所述将所述目标关键词集合中的目标关键词在所述待标注文本内容中进行字符匹配,包括:
选取所述目标关键词集合中的前m个关键词作为目标关键词;
将所述目标关键词在所述待标注文本内容中进行字符匹配。
7.根据权利要求1-6任一项所述的内容标签的生成方法,其特征在于,所述方法还包括:
如果从所述待标注文本内容中匹配到所述目标关键词的个数小于所述预设阈值,则从所述待标注文本内容中提取至少一个待匹配关键词;
根据所述至少一个待匹配关键词的词向量,计算得到第一平均词向量;
根据所述目标关键词集合中各个关键词的词向量,计算得到第二平均词向量;
计算所述第一平均词向量与所述第二平均词向量之间的相似度;
在所述相似度大于或等于预设的相似度阈值的情况下,则为所述待标注文本内容标注所述目标标签。
8.一种内容标签的生成装置,其特征在于,包括:
待标注内容获取模块,用于获取待标注文本内容;
意图确定模块,用于确定所述待标注文本内容所属的目标垂域类别和目标意图类别;
标签库确定模块,用于根据所述目标垂域类别和所述目标意图类别,从预设的不同垂域类别下不同意图类别对应的多个标签库中,确定出所述目标垂域类别下与所述目标意图类别对应的目标标签库;
字符匹配模块,用于获取与所述目标标签库中的目标标签关联的目标关键词集合,并将所述目标关键词集合中的目标关键词在所述待标注文本内容中进行字符匹配;
标注模块,用于如果从所述待标注文本内容中匹配到所述目标关键词的个数大于或等于预设阈值,则为所述待标注文本内容标注所述目标标签。
9.一种电子设备,其特征在于,包括:处理器,所述处理器用于执行存储于存储器的计算机程序,所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的内容标签的生成方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的内容标签的生成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111290462.8A CN114021577A (zh) | 2021-11-02 | 2021-11-02 | 内容标签的生成方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111290462.8A CN114021577A (zh) | 2021-11-02 | 2021-11-02 | 内容标签的生成方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114021577A true CN114021577A (zh) | 2022-02-08 |
Family
ID=80059815
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111290462.8A Pending CN114021577A (zh) | 2021-11-02 | 2021-11-02 | 内容标签的生成方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114021577A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116522164A (zh) * | 2023-06-26 | 2023-08-01 | 北京百特迈科技有限公司 | 一种基于用户采集信息的用户匹配方法、装置及存储介质 |
CN116702775A (zh) * | 2023-08-07 | 2023-09-05 | 深圳市智慧城市科技发展集团有限公司 | 文本处理方法、文本处理装置及计算机可读存储介质 |
CN116805044A (zh) * | 2023-08-17 | 2023-09-26 | 北京睿企信息科技有限公司 | 一种标签的获取方法、电子设备及存储介质 |
-
2021
- 2021-11-02 CN CN202111290462.8A patent/CN114021577A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116522164A (zh) * | 2023-06-26 | 2023-08-01 | 北京百特迈科技有限公司 | 一种基于用户采集信息的用户匹配方法、装置及存储介质 |
CN116522164B (zh) * | 2023-06-26 | 2023-09-05 | 北京百特迈科技有限公司 | 一种基于用户采集信息的用户匹配方法、装置及存储介质 |
CN116702775A (zh) * | 2023-08-07 | 2023-09-05 | 深圳市智慧城市科技发展集团有限公司 | 文本处理方法、文本处理装置及计算机可读存储介质 |
CN116702775B (zh) * | 2023-08-07 | 2023-11-03 | 深圳市智慧城市科技发展集团有限公司 | 文本处理方法、文本处理装置及计算机可读存储介质 |
CN116805044A (zh) * | 2023-08-17 | 2023-09-26 | 北京睿企信息科技有限公司 | 一种标签的获取方法、电子设备及存储介质 |
CN116805044B (zh) * | 2023-08-17 | 2023-11-17 | 北京睿企信息科技有限公司 | 一种标签的获取方法、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108629043B (zh) | 网页目标信息的提取方法、装置及存储介质 | |
CN107832414B (zh) | 用于推送信息的方法和装置 | |
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
JP6526329B2 (ja) | ウェブページトレーニング方法及び装置、検索意図識別方法及び装置 | |
CN103699625B (zh) | 基于关键词进行检索的方法及装置 | |
CN107657048B (zh) | 用户识别方法及装置 | |
CN114021577A (zh) | 内容标签的生成方法、装置、电子设备及存储介质 | |
CN110147425B (zh) | 一种关键词提取方法、装置、计算机设备及存储介质 | |
US20150095300A1 (en) | System and method for mark-up language document rank analysis | |
CN108874996B (zh) | 网站分类方法及装置 | |
US20150100308A1 (en) | Automated Formation of Specialized Dictionaries | |
CN103678576A (zh) | 基于动态语义分析的全文检索系统 | |
US20150032753A1 (en) | System and method for pushing and distributing promotion content | |
CN107506472B (zh) | 一种学生浏览网页分类方法 | |
CN109299235B (zh) | 知识库搜索方法、装置及计算机可读存储介质 | |
CN108038099B (zh) | 基于词聚类的低频关键词识别方法 | |
JP2023516209A (ja) | コンテンツを検索する方法、装置、機器及びコンピュータ読み取り可能な記憶媒体 | |
CN109948154A (zh) | 一种基于邮箱名的人物获取及关系推荐系统和方法 | |
CN112818200A (zh) | 基于静态网站的数据爬取及事件分析方法及系统 | |
CN113282754A (zh) | 针对新闻事件的舆情检测方法、装置、设备和存储介质 | |
JP2013003663A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
CN111753526A (zh) | 一种相似竞品数据分析方法及系统 | |
CN111625619B (zh) | 查询省略方法、装置、计算机可读介质及电子设备 | |
CN114742062B (zh) | 文本关键词提取处理方法及系统 | |
US9336317B2 (en) | System and method for searching aliases associated with an entity |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |