CN109857957B - 建立标签库的方法、电子设备及计算机存储介质 - Google Patents
建立标签库的方法、电子设备及计算机存储介质 Download PDFInfo
- Publication number
- CN109857957B CN109857957B CN201910086230.7A CN201910086230A CN109857957B CN 109857957 B CN109857957 B CN 109857957B CN 201910086230 A CN201910086230 A CN 201910086230A CN 109857957 B CN109857957 B CN 109857957B
- Authority
- CN
- China
- Prior art keywords
- label
- type
- corpus data
- parent
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Abstract
本发明公开了一种建立标签库的方法、电子设备及计算机存储介质,该方法包括:通过爬虫爬取多个标签,得到标签集合;分别通过至少两种相关度计算规则,计算标签集合中的各个标签之间的相关度,得到与至少两种相关度计算规则相对应的至少两种相关度等级结果;根据至少两种相关度等级结果的组合,确定标签集合中的各个标签之间的相关度结果;根据标签集合中的各个标签之间的相关度结果,对标签集合中的各个标签进行分类,得到分类标签库。由此可见,本发明能根据标签间的相关度对标签分类,从而能根据分类结果快速查询,提升了标签库的查询便捷性。另外,该发明能准确识别各类同义词或近义词,从而使标签库中的各个标签按照相关度情况分类存储。
Description
技术领域
本发明涉及计算机领域,具体涉及一种建立标签库的方法、电子设备及计算机存储介质。
背景技术
随着互联网的高速发展,网络对象的数量和种类也越来越多。为了便于从海量的网络对象中快速定位用户感兴趣的对象,需要使用标签技术对网络对象进行标注。其中,标签能够起到标识作用,从而能够广泛应用于电子书、电影等各类网络对象的标注过程中。目前,为了便于标注,通常需要预先构建标签库,以存储海量的标签资源。现有的标签库中直接将全部标签按照拼音顺序或笔画顺序存储在一起,查询时直接按照拼音顺序或笔画顺序进行查询。
但是,在实现本发明的过程中,发明人发现现有技术中的上述方案至少存在下述缺陷:由于标签库中的标签数量庞大,因此,将全部标签统一存储的方式势必存在着查询不便的缺陷。并且,由于汉语中的近义词很多,导致标签库中往往存在很多语义相近的标签;而且,由于同一个术语能够对应于不同的表达方式,从而也会导致标签库中存在术语不统一的多个同义标签。由此可见,现有的标签库将全部标签混杂存储在一起的方式存在查询不便等诸多缺陷。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的建立标签库的方法、电子设备及计算机存储介质。
根据本发明的一个方面,提供了一种建立标签库的方法,包括:
通过爬虫爬取多个标签,得到标签集合;
分别通过至少两种相关度计算规则,计算所述标签集合中的各个标签之间的相关度,得到与所述至少两种相关度计算规则相对应的至少两种相关度等级结果;
根据所述至少两种相关度等级结果的组合,确定所述标签集合中的各个标签之间的相关度结果;
根据所述标签集合中的各个标签之间的相关度结果,对所述标签集合中的各个标签进行分类,得到分类标签库。
根据本发明的另一方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行以下操作:
通过爬虫爬取多个标签,得到标签集合;
分别通过至少两种相关度计算规则,计算所述标签集合中的各个标签之间的相关度,得到与所述至少两种相关度计算规则相对应的至少两种相关度等级结果;
根据所述至少两种相关度等级结果的组合,确定所述标签集合中的各个标签之间的相关度结果;
根据所述标签集合中的各个标签之间的相关度结果,对所述标签集合中的各个标签进行分类,得到分类标签库。
根据本发明的又一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使所述处理器执行以下操作:
通过爬虫爬取多个标签,得到标签集合;
分别通过至少两种相关度计算规则,计算所述标签集合中的各个标签之间的相关度,得到与所述至少两种相关度计算规则相对应的至少两种相关度等级结果;
根据所述至少两种相关度等级结果的组合,确定所述标签集合中的各个标签之间的相关度结果;
根据所述标签集合中的各个标签之间的相关度结果,对所述标签集合中的各个标签进行分类,得到分类标签库。
在本发明提供的建立标签库的方法、电子设备及计算机存储介质中,通过爬虫爬取多个标签,得到标签集合后,分别通过至少两种相关度计算规则,计算标签集合中的各个标签之间的相关度,得到与至少两种相关度计算规则相对应的至少两种相关度等级结果;根据至少两种相关度等级结果的组合,确定标签集合中的各个标签之间的相关度结果,从而对标签集合中的各个标签进行分类,得到分类标签库。由此可见,该方式能够根据标签之间的相关度对标签进行分类,从而能够根据分类结果进行快速查询,提升了标签库的查询便捷性。另外,具体分类时,通过多种相关度计算规则得到多种相关度等级结果,从而根据多种相关度等级结果的组合来判断标签集合中的各个标签是否相关,能够避免因单一的相关度计算规则的局限性而导致的计算不准确的情况,从而提升标签分类的准确性。该方式能够准确识别各类同义词或近义词,从而使标签库中的各个标签按照相关度情况进行分类存储。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明一个实施例提供的建立标签库的方法的流程图;
图2示出了本发明另一个实施例提供的建立标签库的方法的流程图;
图3示出了根据本发明另一个实施例的一种电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
实施例一
图1示出了本发明一个实施例提供的建立标签库的方法的流程图。如图1所示,该方法包括以下步骤:
步骤S110:通过爬虫爬取多个标签,得到标签集合。
其中,通过网络爬虫能够爬取网络中已有的各类标签,包括:各类应用所对应的标签、各种网页中包含的标签等。本发明不限定标签的爬取来源,只要能够获取到大量的标签即可。通过爬虫爬取到的各个标签,全部汇总到一起,从而得到包含大量标签的标签集合。
步骤S120:分别通过至少两种相关度计算规则,计算标签集合中的各个标签之间的相关度,得到与至少两种相关度计算规则相对应的至少两种相关度等级结果。
为了避免单一的相关度计算规则所具有的局限性,本实施例中采用至少两种相关度计算规则,计算标签集合中的各个标签之间的相关度,从而得到与至少两种相关度计算规则相对应的至少两种相关度等级结果。其中,本发明不限定每种相关度计算规则的具体内涵,凡是能够计算标签间相关度的规则均可用于本发明。另外,每种相关度等级结果可以通过分值表示,也可以通过预设的等级标识表示。
步骤S130:根据至少两种相关度等级结果的组合,确定标签集合中的各个标签之间的相关度结果。
其中,通过至少两种相关度等级结果的组合确定标签集合中的各个标签之间的相关度结果的方式,能够避免单一的等级结果的误差,从而提升相关度结果的准确性。例如,当相关度等级结果通过高中低三类结果表示时,若两种相关度等级结果均为高,则构成“高高”组合,从而确定对应的标签之间的相关度结果为相关;若两种相关度等级结果均为低,则构成“低低”组合,从而确定对应的标签之间的相关度结果为非相关。
步骤S140:根据标签集合中的各个标签之间的相关度结果,对标签集合中的各个标签进行分类,得到分类标签库。
根据相关度结果,能够确定标签集合中的各个标签之间是否相关,从而将相关的多个标签聚为一类,实现对标签集合中的各个标签进行分类的目的。通过分类,能够生成与标签集合相对应的分类标签库。该分类标签库中的各个标签按照相似度聚类结果划分为多个分类,从而使相同分类的标签聚集在一起,实现了便于查询的效果。
在本发明提供的建立标签库的方法中,通过爬虫爬取多个标签,得到标签集合后,分别通过至少两种相关度计算规则,计算标签集合中的各个标签之间的相关度,得到与至少两种相关度计算规则相对应的至少两种相关度等级结果;根据至少两种相关度等级结果的组合,确定标签集合中的各个标签之间的相关度结果,从而对标签集合中的各个标签进行分类,得到分类标签库。由此可见,该方式能够根据标签之间的相关度对标签进行分类,从而能够根据分类结果进行快速查询,提升了标签库的查询便捷性。另外,具体分类时,通过多种相关度计算规则得到多种相关度等级结果,从而根据多种相关度等级结果的组合来判断标签集合中的各个标签是否相关,能够避免因单一的相关度计算规则的局限性而导致的计算不准确的情况,从而提升标签分类的准确性。该方式能够准确识别各类同义词或近义词,从而使标签库中的各个标签按照相关度情况进行分类存储。
实施例二
图2示出了本发明另一个实施例提供的建立标签库的方法的流程图。本实施例中的标签主要用于电子书标注领域。如图2所示,该方法包括以下步骤:
步骤S210:通过爬虫爬取多个标签,得到标签集合。
其中,通过网络爬虫能够爬取网络中已有的各类标签,包括:各类应用所对应的标签、各种网页中包含的标签等。本发明不限定标签的爬取来源,只要能够获取到大量的标签即可。通过爬虫爬取到的各个标签,全部汇总到一起,从而得到包含大量标签的标签集合。
标签集合中的标签也可以理解为原始标签。标签集合中的标签的获取来源可以包括多种,例如,可以从电子书的书名、扉页、正文等内容中提取;又如,也可以从电子书所对应的用户交互信息(如评论信息、想法信息、笔记信息等)中提取,本实施例可以采取多种获取来源,以扩充标签的数量。
步骤S220:分别通过至少两种相关度计算规则,计算标签集合中的各个标签之间的相关度,得到与至少两种相关度计算规则相对应的至少两种相关度等级结果。
其中,本实施例中的相关度计算规则包括以下三种中的至少两种:
第一种相关度计算规则包括:根据两个特征词之间的凝固度计算结果确定相关度的规则。其中,凝固度计算结果根据观测到的两个特征词同时出现的观测概率以及计算出的两个特征词同时出现的随机概率之间的比值确定。若该比值大于预设凝固度阈值,则说明两个特征词之间的相关度大于预设相关阈值,需要执行预设的合并处理。其中,观测到的两个特征词同时出现的观测概率是指:实际观测到的两个特征词同时出现的概率。假设两个特征词分别为词A和词B,观测到的两个特征词同时出现的观测概率可以通过条件概率的计算方式得到,例如,计算词A和词B同时出现的条件概率(比如可以计算在词A出现的条件下词B出现的概率,或计算在词B出现的条件下词A出现的概率),以得到两个特征词同时出现的观测概率。计算出的两个特征词同时出现的随机概率是指:通过随机概率方式计算出的两个相互独立的特征词同时出现的随机概率,例如,假设词A和词B是相互独立的,且词A和词B单独出现的概率分别是P(A)和P(B),则两个词同时出现的随机概率为P(A)*P(B)。当词A和词B之间不是相互独立的,而是存在一定关联时,二者同时出现的观测概率必然远大于二者同时出现的随机概率,因此,若凝固度计算结果大于预设凝固度阈值,则说明两个特征词之间的相关度较大。
具体实施时,可以通过计算特征词在多个电子书中的出现次数来确定各个特征词单独出现的概率,进而基于各个特征词单独出现的概率确定两个特征词同时出现的观测概率以及随机概率,从而确定凝固度计算结果。其中,在确定每个特征词单独出现的概率时,可以通过该特征词在各个电子书中的出现次数确定,具体可以统计该特征词在样本集合所包含的每一本电子书的用户评论中的出现频次。例如,针对一个特征词,分别统计该特征词在样本集合所包含的每本书中所对应的评论数量(即该特征词出现于几条评论中)、和/或该特征词在每本书的全部评论中出现的总次数等,并根据上述统计结果计算该特征词在样本集合中单独出现的概率。其中,样本集合是用于计算特征词的出现概率的电子书集合,该集合中包含的电子书的种类和数量通常与特征词的获取来源相对应。
另外,由于全网范围的电子书数量庞大,且类型多样,若以全网范围内的全部电子书为样本集合统计特征词的出现概率必然导致结果不够准确。例如,对于科普类型的特征词,若全网范围内包含大量言情类型的电子书,此时,若将样本集合设置为全网范围内的全部电子书集合,则会导致该特征词的出现概率降低。相应地,发明人在实现本发明的过程中发现:样本集合的选取会影响到特征词的概率统计结果,因此,为了提升结果的准确性,在本实施例中,针对每个待统计的特征词,先统计全网范围内(即全量样本集合中)与该特征词相对应的电子书,将与该特征词相对应的电子书确定为与待统计的特征词相对应的局部样本集合,然后,基于该特征词所对应的局部样本集合,统计该特征词的出现概率。该方式能够防止因样本集合过于杂糅所导致的统计结果不准确的问题。
另外,发明人在实现本发明的过程中发现,由于电子书所对应的不同类型的语料数据的重要程度不同,因此,两个特征词之间的凝固度计算结果还需要进一步根据两个特征词分别在各种类型的语料数据中同时出现的观测概率和/或随机概率以及预设的各种类型所对应的类型权重信息综合确定。具体地,语料数据用于反映电子书的相关信息,语料数据可以包括以下类型:书名类型、简介类型、内容类型、以及交互类型。其中,预先针对不同类型的语料数据设置不同的类型权重信息(也叫语料类型权重),若两个特征词在权重类型信息较高的语料数据中的同时出现的观测概率较高,则表明这两个特征词之间的凝固度计算结果较高。也就是说,在计算凝固度计算结果时,进一步根据两个特征词同时出现时所对应的语料数据的类型权重信息对计算结果进行修正:若两个特征词同时出现时所对应的语料数据的类型权重信息较高,则通过大于1的修正因子乘以计算结果,以提升凝固度计算结果的数值;若两个特征词同时出现时所对应的语料数据的类型权重信息较低,则通过小于1的修正因子乘以计算结果,以降低凝固度计算结果的数值。
第二种相关度计算规则包括:获取各个特征词所对应的英文翻译结果中包含的词根,并根据各个特征词是否对应于相同的词根计算相关度的规则。具体地,针对一个特征词,首先,确定该特征词所对应的英文翻译结果,并提取该英文翻译结果中包含的一个或多个词根(即英文词根),从而建立特征词与英文词根之间的映射关系。然后,根据英文词根对各个特征词进行聚类,将包含相同英文词根的多个特征词聚为一类,并根据同类特征词之间包含的相同词根的数量、相同词根的权重等因素,计算各个特征词之间的相关度大小。其中,可以预先根据各个英文词根的出现频次、区分度等因素为各个英文词根设置不同的权重,以便结合相同词根的权重来确定特征词之间的相关度。例如,若一个英文词根出现于大量的英文单词中,通常该词根的区分度可能不太高,则为该词根设置较低的权重。
第三种相关度计算规则包括:确定各个特征词所对应的词向量,根据各个特征词所对应的词向量之间的距离计算相关度的规则。具体地,针对一个特征词,首先,按照预设的词向量生成规则,将该特征词映射为一个空间向量,也叫词向量,该词向量的具体维数、以及具体生成方式可由本领域技术人员灵活设置。然后,根据欧式定理或余弦定理等算法,计算两个特征词所对应的词向量之间的距离,距离越大,说明两个特征词之间的相关度越低;距离越小,说明两个特征词之间的相关度越高。
优选地,上述三种规则同时使用,能够提升准确率。
步骤S230:根据至少两种相关度等级结果的组合,确定标签集合中的各个标签之间的相关度结果。
在本实施例中,主要通过上述三种相关度等级结果的组合,确定标签集合中的各个标签之间的相关度结果。具体地,每种相关度等级结果可以为高、中、低三种结果。相应地,三种相关度等级结果的组合共有3*3*3=27种组合形式。根据三种相关度等级结果的组合,确定标签集合中的各个标签之间的相关度结果时,可以将“高高高”以及“高高低”类型的组合确定为相关,将“低低低”以及“高低低”类型的组合确定为非相关。总之,通过多种相关度等级结果的组合,能够避免单一方式的局限性,从而提升结果的准确性。
步骤S240:根据标签集合中的各个标签之间的相关度结果,对标签集合中的各个标签进行分类,得到分类标签库。
根据相关度结果,能够确定标签集合中的各个标签之间是否相关,从而将相关的多个标签聚为一类,实现对标签集合中的各个标签进行分类的目的。通过分类,能够生成与标签集合相对应的分类标签库。该分类标签库中的各个标签按照相似度聚类结果划分为多个分类,从而使相同分类的标签聚集在一起,实现了便于查询的效果。
步骤S250:针对分类标签库中的每个分类,确定该分类所对应的父类标签;根据分类标签库中的各个分类的父类标签,得到第一父类标签集合。
其中,步骤S250为一个可选的步骤。通过该步骤能够为每个分类创建一个父类标签。例如,假设分类标签库中共包含10个分类,通过为每个分类设置一个对应的父类标签,能够得到一个包含10个父类标签的第一父类标签集合,通过父类标签集合能够快速查询分类标签库中的各个分类,提升查询效率。
具体地,确定该分类所对应的父类标签时,计算该分类下的各个标签之间的词向量距离,根据计算结果,从该分类下的各个标签中提取一个标签作为该分类所对应的父类标签。例如,假设一个分类中包含“妈妈、母亲、妈咪、娘亲”等标签,则计算该分类下的各个标签之间的词向量距离,算出中心点,从而从该分类中提取一个标签作为该分类的父类标签,例如本例中可以将“妈妈”提取为该分类的父类标签。
步骤S260:根据第一父类标签集合中的各个父类标签之间的相关度结果,对第一父类标签集合中的各个父类标签进行分类,得到二级标签库;针对二级标签库中的每个分类,确定该分类所对应的父类标签,根据二级标签库中的各个分类的父类标签,得到第二父类标签集合。
其中,步骤S260也为一个可选的步骤。本步骤的目的在于进一步缩减分类的数量,以提升查询效率。实际情况中,本步骤还可以循环执行,例如,针对第二父类标签集合,根据第二父类标签集合中的各个父类标签之间的相关度结果,对第二父类标签集合中的各个父类标签进行分类,得到三级标签库;针对三级标签库中的每个分类,确定该分类所对应的父类标签,根据三级标签库中的各个分类的父类标签,得到第三父类标签集合……具体取决于分类标签库的规模,规模越大,越需要建立多级标签库。
其中,第一父类标签集合中的各个父类标签之间的相关度结果可以采用步骤S220以及步骤S230中的方式实现,例如,分别通过至少两种相关度计算规则,计算第一父类标签集合中的各个父类标签之间的相关度,得到与至少两种相关度计算规则相对应的至少两种相关度等级结果;根据至少两种相关度等级结果的组合,确定第一父类标签集合中的各个父类标签之间的相关度结果。
步骤S270:确定与待标注的电子书相对应的各种类型的语料数据。
其中,与待标注的电子书相对应的各种类型的语料数据用于反映该电子书的相关信息,因此,凡是与电子书相关的信息均可作为与该电子书相对应的语料数据,本发明不限定语料数据的具体种类和来源。例如,从类型角度而言,语料数据可以包括:书名类型的语料数据、简介类型的语料数据、内容类型的语料数据等等。另外,从来源角度而言,语料数据可以包括:来源于电子书本身的语料数据、来源于与该电子书相对应的用户交互信息的语料数据、以及来源于爬虫爬取的与该电子书相关的网络内容的语料数据。
在本实施例中,语料数据主要包括以下类型:书名类型、简介类型、内容类型、以及交互类型。其中,交互类型的语料数据泛指根据用户交互信息确定的语料数据,其中,用户交互信息包括:用户评论信息、用户想法信息、用户笔记信息等。相应地,确定与待标注的电子书相对应的各种类型的语料数据时,可通过以下方式确定:根据待标注的电子书的书名确定书名类型的语料数据;根据待标注的电子书的简介确定简介类型的语料数据;根据待标注的电子书的内容确定内容类型的语料数据;根据待标注的电子书的用户交互信息确定交互类型的语料数据。另外,除上述类型外,在本发明其他的实施例中,还可以包括爬虫类型的语料数据,即:通过爬虫爬取的与电子书相关的内容信息。
步骤S280:将分类标签库和/或第一父类标签集合中包含的各个标签分别与各种类型的语料数据进行匹配。
为了提取合适的标签(也叫候选标签)来标注电子书,需要将分类标签库和/或第一父类标签集合中的各个标签分别与待标注的电子书所对应的各种类型的语料数据进行匹配。当然,除分类标签库和/或第一父类标签集合之外,还可以进一步将二级标签库和/或第二父类标签集合中的各个标签分别与待标注的电子书所对应的各种类型的语料数据进行匹配。即,将分类标签库、第一父类标签集合、二级标签库和/或第二父类标签集合中包含的各个标签分别与各种类型的语料数据进行匹配。
具体匹配时,可以灵活通过各种方式实现。例如,可以统计各个候选标签在各种类型的语料数据中的出现次数、出现频率等数据,并根据统计结果确定匹配结果。通常,出现次数越高、出现频率越大的候选标签与该电子书的匹配度越高。另外,由于语料数据包括多种类型,因此,在针对一个标签进行匹配时,需要分别确定该标签与各种类型的语料数据相对应的类型匹配结果。其中,类型匹配结果用于描述一个标签与对应类型的语料数据之间的匹配度,包括该标签在对应类型的语料数据中的出现次数、出现频率等数据。本实施例中,针对每个标签,统计该标签在每种类型的语料数据中的匹配数据;根据匹配数据,确定该标签与各种类型的语料数据之间的类型匹配结果。其中,匹配数据包括:该标签在每种类型的语料数据中出现的第一次数、该标签在全部类型的语料数据中出现的第二次数、和/或包含该标签的语料数据的类型总数量。例如,在计算与书名类型的语料数据相对应的类型匹配结果时,先统计候选标签在书名类型的语料数据中出现的第一次数,再统计候选标签在全部类型的语料数据中出现的第二次数(即总次数),并且,还要统计包含该候选标签的语料数据的类型总数量,比如,当书名类型以及简介类型的语料数据中均包含该候选标签,且其他类型的语料数据中不包含该候选标签时,类型总数量为2。其中,第一次数以及第二次数均用于描述该候选标签的出现次数,出现次数越大,说明该候选标签与电子书内容越接近。之所以要分别确定该候选标签相对应每种语料类型相对应的第一次数,是为了在后续步骤中结合各种语料类型所对应的类型权重信息来确定候选标签的质量。另外,上述的类型总数量能够反映该候选标签所对应的语料类型总数,该类型总数量越大,说明该候选标签在电子书中的影响力越大,从而表明该候选标签的稳定性越好。
另外,本实施例中的标签库具体包括多级架构:位于底层的分类标签库(其包含的分类数量最多)、第一父类标签集合、二级标签库(其包含的分类数量较少,且各分类由父类标签组成)、以及第二父类标签集合。其中,父类标签更具有代表性,因此,可以利用父类标签来标注电子书,相应地,在针对每个标签,统计该标签在每种类型的语料数据中的匹配数据;根据匹配数据,确定该标签与各种类型的语料数据之间的类型匹配结果时,具体通过以下方式实现:
首先,针对第一父类标签集合中的每个父类标签,获取该父类标签在分类标签库中对应的各个标签。例如,对于“妈妈”这一父类标签,获取该父类标签在分类标签库中对应的各个标签为“妈妈、母亲、妈咪、娘亲”。当然,可选的,此步骤也可以针对第二父类标签集合中的每个父类标签实现,相应地,获取该父类标签在二级标签库中对应的各个标签。
然后,确定该父类标签在分类标签库中对应的各个标签在每种类型的语料数据中的匹配数据。具体地,针对“妈妈、母亲、妈咪、娘亲”每个标签,确定其在每种类型的语料数据中的匹配数据。
接下来,根据匹配数据,确定该父类标签在分类标签库中对应的各个标签与各种类型的语料数据之间的匹配结果。
最后,根据该父类标签在分类标签库中对应的各个标签与各种类型的语料数据之间的匹配结果,确定该父类标签与各种类型的语料数据之间的类型匹配结果。
例如,对于“妈妈”这一父类标签而言,即使电子书的语料数据中未包含“妈妈”这一表述,但是,只要电子书中包含“母亲、妈咪、娘亲”等任一表述方式,则“妈妈”这一父类标签的类型匹配结果则非空,最终可以通过“妈妈”这一父类标签对电子书进行标注。由此能够提升匹配范围,使各种同义词或近义词都能参与匹配过程。该方式能够限制提升电子书标注的准确性。例如,对于“牛顿第二定律”这一术语而言,可能电子书中未直接包含这一术语,但是,该术语所对应的分类中包含“重力加速度”这一表述,则通过上述匹配方式能够发现该电子书与“牛顿第二定律”之间的关联,从而通过“牛顿第二定律”进行标注。由此可见,该方式能够挖掘出未直接出现在电子书中的专业术语。
步骤S290:根据各个标签与各种类型的语料数据之间的类型匹配结果以及预设的各种类型所对应的类型权重信息,确定各个标签的评价结果。
其中,为了提升标签的准确度,预先根据各种类型的语料数据在标注电子书的过程中的重要程度,为各种类型的语料数据分别设置类型权重信息。其中,重要程度越高的语料数据的类型所对应的类型权重信息越大,以便提升与该类型相对应的类型匹配结果所占的权重。
在本实施例中,预设的各种类型所对应的类型权重信息主要根据待标注的预设维度确定。其中,待标注的预设维度包括以下中的至少一个:类型维度、题材维度、情节维度、时间维度、地点维度、金手指维度、以及身份性格维度。其中,金手指主要是指主人公外挂、少数民族、或特异功能等与主人公相关的特征信息。由此可见,在本发明的标注方式中,能够分别标注上述各个维度所对应的标签信息。例如,类型维度的标注结果中包含的标签可能为“言情”,题材维度的标注结果中包含的标签可能为“宫廷”,时间维度的标注结果中包含的标签可能为“古穿今”,地点维度的标注结果中包含的标签可能为“上海”等。总之,通过从不同的维度进行标注,能够便于用户准确把握电子书的大概情节。
相应地,在该方法执行之前,进一步执行如下操作:根据待标注的预设维度,确定与该预设维度相关的语料数据的类型,并根据确定的与该预设维度相关的语料数据的类型,设置各种类型所对应的类型权重信息。例如,由于书名以及简介中通常会介绍与类型相关的内容,因此,与类型维度相关的语料数据的类型包括:书名类型、以及简介类型。相应地,在从类型维度标注电子书时,需要针对书名类型以及简介类型的语料数据设置较高的权重,以提升出现于书名类型以及简介类型的语料数据中的候选标签的评价分值。又如,由于电子书内容中通常会介绍与主人公的身份性格相关的内容,因此,与身份性格维度相关的语料数据的类型包括:内容类型。相应地,在从身份性格维度标注电子书时,需要针对内容类型的语料数据设置较高的权重,以提升出现于内容类型的语料数据中的候选标签的评价分值。再如,由于电子书内容中通常会介绍与主人公的身份性格相关的内容,因此,与身份性格维度相关的语料数据的类型包括:内容类型。相应地,在从身份性格维度标注电子书时,需要针对内容类型的语料数据设置较高的权重,以提升出现于内容类型的语料数据中的候选标签的评价分值。另外,在标注时间维度时,可以提取电子书中包含的时间信息,并将各个时间信息绘制在预设的时间轴上,通过各个时间信息的密度分布等情况来分析该电子书为古代时间或现代时间,若该电子书的头部包含密度较高的现代时间,尾部包含密度较高的古代时间,则说明该电子书为今穿古类的时间。
步骤S2100:根据各个标签的评价结果,标注电子书。
其中,评价结果能够反映各个候选标签与待标注的电子书之间的相关度,根据相关度提取的用于标注电子书的目标标签能够准确标注电子书。其中,评价结果可通过评价分值等方式表示。其中,具体提取时,可以提取一个或多个目标标签,本发明对具体实现细节不做限定。另外,当待标注的预设维度为多个时,需要分别针对每个维度提取与该维度相对应的目标标签,以实现对该预设维度的准确标注。
综上可知,该方式能够根据标签之间的相关度对标签进行分类,从而能够根据分类结果进行快速查询,提升了标签库的查询便捷性。另外,具体分类时,通过多种相关度计算规则得到多种相关度等级结果,从而根据多种相关度等级结果的组合来判断标签集合中的各个标签是否相关,能够避免因单一的相关度计算规则的局限性而导致的计算不准确的情况,从而提升标签分类的准确性。该方式能够准确识别各类同义词或近义词,从而使标签库中的各个标签按照相关度情况进行分类存储。该方式能够预先获取并设置各种类型的语料数据所对应的类型权重信息,并根据预设标签库中的各个候选标签与各种类型的语料数据之间的类型匹配结果自动提取标签进行标注。一方面,该方式能够综合各种类型的语料数据以及预设的标签库进行标注,从而全面挖掘标签与电子书之间的相关度,提升标注准确性;另一方面,该方式能够自动实施,省去了人工标注的繁琐操作,提升了标注效率。并且,该方式能够从多个维度来标注电子书,提升标注结果的可读性。而且,由于标签库中的候选标签经过了相关度处理,能够合并、统一同义或近义的标签,从而提升标签库的质量以及标注效果。
实施例三
本申请实施例提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的建立标签库的方法。
可执行指令具体可以用于使得处理器执行以下操作:
通过爬虫爬取多个标签,得到标签集合;
分别通过至少两种相关度计算规则,计算所述标签集合中的各个标签之间的相关度,得到与所述至少两种相关度计算规则相对应的至少两种相关度等级结果;
根据所述至少两种相关度等级结果的组合,确定所述标签集合中的各个标签之间的相关度结果;
根据所述标签集合中的各个标签之间的相关度结果,对所述标签集合中的各个标签进行分类,得到分类标签库。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
根据两个特征词之间的凝固度计算结果确定相关度的规则;其中,所述凝固度计算结果根据观测到的两个特征词同时出现的观测概率以及计算出的两个特征词同时出现的随机概率之间的比值确定;和/或,
获取各个特征词所对应的英文翻译结果中包含的词根,并根据各个特征词是否对应于相同的词根计算相关度的规则;和/或,
确定各个特征词所对应的词向量,根据各个特征词所对应的词向量之间的距离计算相关度的规则。
在一种可选的方式中,所述两个特征词之间的凝固度计算结果根据所述两个特征词分别在各种类型的语料数据中同时出现的观测概率和/或随机概率以及预设的各种类型所对应的类型权重信息综合确定。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
针对所述分类标签库中的每个分类,确定该分类所对应的父类标签;
根据所述分类标签库中的各个分类的父类标签,得到第一父类标签集合。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
根据所述第一父类标签集合中的各个父类标签之间的相关度结果,对所述第一父类标签集合中的各个父类标签进行分类,得到二级标签库;
针对所述二级标签库中的每个分类,确定该分类所对应的父类标签,根据所述二级标签库中的各个分类的父类标签,得到第二父类标签集合。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
计算该分类下的各个标签之间的词向量距离,根据计算结果,从所述该分类下的各个标签中提取一个标签作为该分类所对应的父类标签。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
确定与待标注的电子书相对应的各种类型的语料数据;
将所述分类标签库和/或所述第一父类标签集合中包含的各个标签分别与所述各种类型的语料数据进行匹配;
根据各个标签与所述各种类型的语料数据之间的类型匹配结果以及预设的各种类型所对应的类型权重信息,确定各个标签的评价结果;
根据各个标签的评价结果,标注所述电子书。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
针对每个标签,统计该标签在每种类型的语料数据中的匹配数据;
根据所述匹配数据,确定该标签与各种类型的语料数据之间的类型匹配结果。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
针对所述第一父类标签集合中的每个父类标签,获取该父类标签在所述分类标签库中对应的各个标签;
确定该父类标签在所述分类标签库中对应的各个标签在每种类型的语料数据中的匹配数据;
根据所述匹配数据,确定该父类标签在所述分类标签库中对应的各个标签与各种类型的语料数据之间的匹配结果;
根据所述该父类标签在所述分类标签库中对应的各个标签与各种类型的语料数据之间的匹配结果,确定该父类标签与各种类型的语料数据之间的类型匹配结果。
在一种可选的方式中,所述匹配数据包括:该标签在每种类型的语料数据中出现的第一次数、该标签在全部类型的语料数据中出现的第二次数、和/或包含该标签的语料数据的类型总数量。
在一种可选的方式中,所述预设的各种类型所对应的类型权重信息根据待标注的预设维度确定;其中,所述待标注的预设维度包括以下中的至少一个:类型维度、题材维度、情节维度、时间维度、地点维度、金手指维度、以及身份性格维度。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
根据待标注的预设维度,确定与该预设维度相关的语料数据的类型,并根据确定的与该预设维度相关的语料数据的类型,设置各种类型所对应的类型权重信息;
其中,与类型维度相关的语料数据的类型包括:书名类型、以及简介类型;与身份性格维度相关的语料数据的类型包括:内容类型。
在一种可选的方式中,语料数据的类型包括:书名类型、简介类型、内容类型、和/或交互类型;
所述确定与待标注的电子书相对应的各种类型的语料数据包括:根据所述待标注的电子书的书名确定书名类型的语料数据;根据所述待标注的电子书的简介确定简介类型的语料数据;根据所述待标注的电子书的内容确定内容类型的语料数据;和/或,根据所述待标注的电子书的用户交互信息确定交互类型的语料数据。
实施例四
图3示出了根据本发明另一个实施例的一种电子设备的结构示意图,本发明具体实施例并不对电子设备的具体实现做限定。
如图3所示,该电子设备可以包括:处理器(processor)302、通信接口(Communications Interface)304、存储器(memory)306、以及通信总线308。
其中:处理器302、通信接口304、以及存储器306通过通信总线308完成相互间的通信。通信接口304,用于与其它设备比如客户端或其它服务器等的网元通信。处理器302,用于执行程序310,具体可以执行上述建立标签库的方法实施例中的相关步骤。
具体地,程序310可以包括程序代码,该程序代码包括计算机操作指令。
处理器302可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。电子设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器306,用于存放程序310。存储器306可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序310具体可以用于使得处理器302执行以下操作:
通过爬虫爬取多个标签,得到标签集合;
分别通过至少两种相关度计算规则,计算所述标签集合中的各个标签之间的相关度,得到与所述至少两种相关度计算规则相对应的至少两种相关度等级结果;
根据所述至少两种相关度等级结果的组合,确定所述标签集合中的各个标签之间的相关度结果;
根据所述标签集合中的各个标签之间的相关度结果,对所述标签集合中的各个标签进行分类,得到分类标签库。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
根据两个特征词之间的凝固度计算结果确定相关度的规则;其中,所述凝固度计算结果根据观测到的两个特征词同时出现的观测概率以及计算出的两个特征词同时出现的随机概率之间的比值确定;和/或,
获取各个特征词所对应的英文翻译结果中包含的词根,并根据各个特征词是否对应于相同的词根计算相关度的规则;和/或,
确定各个特征词所对应的词向量,根据各个特征词所对应的词向量之间的距离计算相关度的规则。
在一种可选的方式中,所述两个特征词之间的凝固度计算结果根据所述两个特征词分别在各种类型的语料数据中同时出现的观测概率和/或随机概率以及预设的各种类型所对应的类型权重信息综合确定。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
针对所述分类标签库中的每个分类,确定该分类所对应的父类标签;
根据所述分类标签库中的各个分类的父类标签,得到第一父类标签集合。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
根据所述第一父类标签集合中的各个父类标签之间的相关度结果,对所述第一父类标签集合中的各个父类标签进行分类,得到二级标签库;
针对所述二级标签库中的每个分类,确定该分类所对应的父类标签,根据所述二级标签库中的各个分类的父类标签,得到第二父类标签集合。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
计算该分类下的各个标签之间的词向量距离,根据计算结果,从所述该分类下的各个标签中提取一个标签作为该分类所对应的父类标签。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
确定与待标注的电子书相对应的各种类型的语料数据;
将所述分类标签库和/或所述第一父类标签集合中包含的各个标签分别与所述各种类型的语料数据进行匹配;
根据各个标签与所述各种类型的语料数据之间的类型匹配结果以及预设的各种类型所对应的类型权重信息,确定各个标签的评价结果;
根据各个标签的评价结果,标注所述电子书。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
针对每个标签,统计该标签在每种类型的语料数据中的匹配数据;
根据所述匹配数据,确定该标签与各种类型的语料数据之间的类型匹配结果。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
针对所述第一父类标签集合中的每个父类标签,获取该父类标签在所述分类标签库中对应的各个标签;
确定该父类标签在所述分类标签库中对应的各个标签在每种类型的语料数据中的匹配数据;
根据所述匹配数据,确定该父类标签在所述分类标签库中对应的各个标签与各种类型的语料数据之间的匹配结果;
根据所述该父类标签在所述分类标签库中对应的各个标签与各种类型的语料数据之间的匹配结果,确定该父类标签与各种类型的语料数据之间的类型匹配结果。
在一种可选的方式中,所述匹配数据包括:该标签在每种类型的语料数据中出现的第一次数、该标签在全部类型的语料数据中出现的第二次数、和/或包含该标签的语料数据的类型总数量。
在一种可选的方式中,所述预设的各种类型所对应的类型权重信息根据待标注的预设维度确定;其中,所述待标注的预设维度包括以下中的至少一个:类型维度、题材维度、情节维度、时间维度、地点维度、金手指维度、以及身份性格维度。
在一种可选的方式中,所述可执行指令使所述处理器执行以下操作:
根据待标注的预设维度,确定与该预设维度相关的语料数据的类型,并根据确定的与该预设维度相关的语料数据的类型,设置各种类型所对应的类型权重信息;
其中,与类型维度相关的语料数据的类型包括:书名类型、以及简介类型;与身份性格维度相关的语料数据的类型包括:内容类型。
在一种可选的方式中,语料数据的类型包括:书名类型、简介类型、内容类型、和/或交互类型;
所述确定与待标注的电子书相对应的各种类型的语料数据包括:根据所述待标注的电子书的书名确定书名类型的语料数据;根据所述待标注的电子书的简介确定简介类型的语料数据;根据所述待标注的电子书的内容确定内容类型的语料数据;和/或,根据所述待标注的电子书的用户交互信息确定交互类型的语料数据。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
Claims (33)
1.一种建立标签库的方法,包括:
通过爬虫爬取多个标签,得到标签集合;
分别通过至少两种相关度计算规则,计算所述标签集合中的各个标签之间的相关度,得到与所述至少两种相关度计算规则相对应的至少两种相关度等级结果;
根据所述至少两种相关度等级结果的组合,确定所述标签集合中的各个标签之间的相关度结果;
根据所述标签集合中的各个标签之间的相关度结果,对所述标签集合中的各个标签进行分类,得到分类标签库;
针对所述分类标签库中的每个分类,确定该分类所对应的父类标签;根据所述分类标签库中的各个分类的父类标签,得到第一父类标签集合;
确定与待标注的电子书相对应的各种类型的语料数据;所述分类标签库和/或所述第一父类标签集合中包含的各个标签分别与所述各种类型的语料数据进行匹配;根据各个标签与所述各种类型的语料数据之间的类型匹配结果以及预设的各种类型所对应的类型权重信息,确定各个标签的评价结果;根据各个标签的评价结果,标注所述电子书;其中,标签的评价结果用于反映各个候选标签与待标注的电子书之间的相关度,根据相关度提取用于标注电子书的目标标签以标注电子书。
2.根据权利要求1所述的方法,其中,所述至少两种相关度计算规则包括:
根据两个特征词之间的凝固度计算结果确定相关度的规则;其中,所述凝固度计算结果根据观测到的两个特征词同时出现的观测概率以及计算出的两个特征词同时出现的随机概率之间的比值确定;和/或,
获取各个特征词所对应的英文翻译结果中包含的词根,并根据各个特征词是否对应于相同的词根计算相关度的规则;和/或,
确定各个特征词所对应的词向量,根据各个特征词所对应的词向量之间的距离计算相关度的规则。
3.根据权利要求2所述的方法,其中,所述两个特征词之间的凝固度计算结果根据所述两个特征词分别在各种类型的语料数据中同时出现的观测概率和/或随机概率以及预设的各种类型所对应的类型权重信息综合确定。
4.根据权利要求1所述的方法,其中,所述得到第一父类标签集合之后,进一步包括:
根据所述第一父类标签集合中的各个父类标签之间的相关度结果,对所述第一父类标签集合中的各个父类标签进行分类,得到二级标签库;
针对所述二级标签库中的每个分类,确定该分类所对应的父类标签,根据所述二级标签库中的各个分类的父类标签,得到第二父类标签集合。
5.根据权利要求1所述的方法,其中,所述确定该分类所对应的父类标签包括:
计算该分类下的各个标签之间的词向量距离,根据计算结果,从所述该分类下的各个标签中提取一个标签作为该分类所对应的父类标签。
6.根据权利要求1所述的方法,其中,所述将所述分类标签库和/或所述第一父类标签集合中包含的各个标签分别与所述各种类型的语料数据进行匹配包括:
针对每个标签,统计该标签在每种类型的语料数据中的匹配数据;
根据所述匹配数据,确定该标签与各种类型的语料数据之间的类型匹配结果。
7.根据权利要求6所述的方法,其中,所述针对每个标签,统计该标签在每种类型的语料数据中的匹配数据;根据所述匹配数据,确定该标签与各种类型的语料数据之间的类型匹配结果包括:
针对所述第一父类标签集合中的每个父类标签,获取该父类标签在所述分类标签库中对应的各个标签;
确定该父类标签在所述分类标签库中对应的各个标签在每种类型的语料数据中的匹配数据;
根据所述匹配数据,确定该父类标签在所述分类标签库中对应的各个标签与各种类型的语料数据之间的匹配结果;
根据所述该父类标签在所述分类标签库中对应的各个标签与各种类型的语料数据之间的匹配结果,确定该父类标签与各种类型的语料数据之间的类型匹配结果。
8.根据权利要求6-7任一所述的方法,其中,所述匹配数据包括:该标签在每种类型的语料数据中出现的第一次数、该标签在全部类型的语料数据中出现的第二次数、和/或包含该标签的语料数据的类型总数量。
9.根据权利要求1-7任一所述的方法,其中,所述预设的各种类型所对应的类型权重信息根据待标注的预设维度确定;其中,所述待标注的预设维度包括以下中的至少一个:类型维度、题材维度、情节维度、时间维度、地点维度、金手指维度、以及身份性格维度。
10.根据权利要求9所述的方法,其中,所述确定与待标注的电子书相对应的各种类型的语料数据之前,进一步包括:
根据待标注的预设维度,确定与该预设维度相关的语料数据的类型,并根据确定的与该预设维度相关的语料数据的类型,设置各种类型所对应的类型权重信息;
其中,与类型维度相关的语料数据的类型包括:书名类型、以及简介类型;与身份性格维度相关的语料数据的类型包括:内容类型。
11.根据权利要求1-7任一所述的方法,其中,语料数据的类型包括:书名类型、简介类型、内容类型、和/或交互类型;
所述确定与待标注的电子书相对应的各种类型的语料数据包括:根据所述待标注的电子书的书名确定书名类型的语料数据;根据所述待标注的电子书的简介确定简介类型的语料数据;根据所述待标注的电子书的内容确定内容类型的语料数据;和/或,根据所述待标注的电子书的用户交互信息确定交互类型的语料数据。
12.一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行以下操作:
通过爬虫爬取多个标签,得到标签集合;
分别通过至少两种相关度计算规则,计算所述标签集合中的各个标签之间的相关度,得到与所述至少两种相关度计算规则相对应的至少两种相关度等级结果;
根据所述至少两种相关度等级结果的组合,确定所述标签集合中的各个标签之间的相关度结果;
根据所述标签集合中的各个标签之间的相关度结果,对所述标签集合中的各个标签进行分类,得到分类标签库;
针对所述分类标签库中的每个分类,确定该分类所对应的父类标签;根据所述分类标签库中的各个分类的父类标签,得到第一父类标签集合;
确定与待标注的电子书相对应的各种类型的语料数据;所述分类标签库和/或所述第一父类标签集合中包含的各个标签分别与所述各种类型的语料数据进行匹配;根据各个标签与所述各种类型的语料数据之间的类型匹配结果以及预设的各种类型所对应的类型权重信息,确定各个标签的评价结果;根据各个标签的评价结果,标注所述电子书;其中,标签的评价结果用于反映各个候选标签与待标注的电子书之间的相关度,根据相关度提取用于标注电子书的目标标签以标注电子书。
13.根据权利要求12所述的电子设备,其中,所述可执行指令使所述处理器执行以下操作:
根据两个特征词之间的凝固度计算结果确定相关度的规则;其中,所述凝固度计算结果根据观测到的两个特征词同时出现的观测概率以及计算出的两个特征词同时出现的随机概率之间的比值确定;和/或,
获取各个特征词所对应的英文翻译结果中包含的词根,并根据各个特征词是否对应于相同的词根计算相关度的规则;和/或,
确定各个特征词所对应的词向量,根据各个特征词所对应的词向量之间的距离计算相关度的规则。
14.根据权利要求13所述的电子设备,其中,所述两个特征词之间的凝固度计算结果根据所述两个特征词分别在各种类型的语料数据中同时出现的观测概率和/或随机概率以及预设的各种类型所对应的类型权重信息综合确定。
15.根据权利要求12所述的电子设备,其中,所述可执行指令使所述处理器执行以下操作:
根据所述第一父类标签集合中的各个父类标签之间的相关度结果,对所述第一父类标签集合中的各个父类标签进行分类,得到二级标签库;
针对所述二级标签库中的每个分类,确定该分类所对应的父类标签,根据所述二级标签库中的各个分类的父类标签,得到第二父类标签集合。
16.根据权利要求12所述的电子设备,其中,所述可执行指令使所述处理器执行以下操作:
计算该分类下的各个标签之间的词向量距离,根据计算结果,从所述该分类下的各个标签中提取一个标签作为该分类所对应的父类标签。
17.根据权利要求12所述的电子设备,其中,所述可执行指令使所述处理器执行以下操作:
针对每个标签,统计该标签在每种类型的语料数据中的匹配数据;
根据所述匹配数据,确定该标签与各种类型的语料数据之间的类型匹配结果。
18.根据权利要求17所述的电子设备,其中,所述可执行指令使所述处理器执行以下操作:
针对所述第一父类标签集合中的每个父类标签,获取该父类标签在所述分类标签库中对应的各个标签;
确定该父类标签在所述分类标签库中对应的各个标签在每种类型的语料数据中的匹配数据;
根据所述匹配数据,确定该父类标签在所述分类标签库中对应的各个标签与各种类型的语料数据之间的匹配结果;
根据所述该父类标签在所述分类标签库中对应的各个标签与各种类型的语料数据之间的匹配结果,确定该父类标签与各种类型的语料数据之间的类型匹配结果。
19.根据权利要求17-18任一所述的电子设备,其中,所述匹配数据包括:该标签在每种类型的语料数据中出现的第一次数、该标签在全部类型的语料数据中出现的第二次数、和/或包含该标签的语料数据的类型总数量。
20.根据权利要求12-18任一所述的电子设备,其中,所述预设的各种类型所对应的类型权重信息根据待标注的预设维度确定;其中,所述待标注的预设维度包括以下中的至少一个:类型维度、题材维度、情节维度、时间维度、地点维度、金手指维度、以及身份性格维度。
21.根据权利要求20所述的电子设备,其中,所述可执行指令使所述处理器执行以下操作:
根据待标注的预设维度,确定与该预设维度相关的语料数据的类型,并根据确定的与该预设维度相关的语料数据的类型,设置各种类型所对应的类型权重信息;
其中,与类型维度相关的语料数据的类型包括:书名类型、以及简介类型;与身份性格维度相关的语料数据的类型包括:内容类型。
22.根据权利要求12-18任一所述的电子设备,其中,语料数据的类型包括:书名类型、简介类型、内容类型、和/或交互类型;
所述确定与待标注的电子书相对应的各种类型的语料数据包括:根据所述待标注的电子书的书名确定书名类型的语料数据;根据所述待标注的电子书的简介确定简介类型的语料数据;根据所述待标注的电子书的内容确定内容类型的语料数据;和/或,根据所述待标注的电子书的用户交互信息确定交互类型的语料数据。
23.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行以下操作:
通过爬虫爬取多个标签,得到标签集合;
分别通过至少两种相关度计算规则,计算所述标签集合中的各个标签之间的相关度,得到与所述至少两种相关度计算规则相对应的至少两种相关度等级结果;
根据所述至少两种相关度等级结果的组合,确定所述标签集合中的各个标签之间的相关度结果;
根据所述标签集合中的各个标签之间的相关度结果,对所述标签集合中的各个标签进行分类,得到分类标签库;
针对所述分类标签库中的每个分类,确定该分类所对应的父类标签;根据所述分类标签库中的各个分类的父类标签,得到第一父类标签集合;
确定与待标注的电子书相对应的各种类型的语料数据;所述分类标签库和/或所述第一父类标签集合中包含的各个标签分别与所述各种类型的语料数据进行匹配;根据各个标签与所述各种类型的语料数据之间的类型匹配结果以及预设的各种类型所对应的类型权重信息,确定各个标签的评价结果;根据各个标签的评价结果,标注所述电子书;其中,标签的评价结果用于反映各个候选标签与待标注的电子书之间的相关度,根据相关度提取用于标注电子书的目标标签以标注电子书。
24.根据权利要求23所述的计算机存储介质,其中,所述可执行指令使所述处理器执行以下操作:
根据两个特征词之间的凝固度计算结果确定相关度的规则;其中,所述凝固度计算结果根据观测到的两个特征词同时出现的观测概率以及计算出的两个特征词同时出现的随机概率之间的比值确定;和/或,
获取各个特征词所对应的英文翻译结果中包含的词根,并根据各个特征词是否对应于相同的词根计算相关度的规则;和/或,
确定各个特征词所对应的词向量,根据各个特征词所对应的词向量之间的距离计算相关度的规则。
25.根据权利要求24所述的计算机存储介质,其中,所述两个特征词之间的凝固度计算结果根据所述两个特征词分别在各种类型的语料数据中同时出现的观测概率和/或随机概率以及预设的各种类型所对应的类型权重信息综合确定。
26.根据权利要求23所述的计算机存储介质,其中,所述可执行指令使所述处理器执行以下操作:
根据所述第一父类标签集合中的各个父类标签之间的相关度结果,对所述第一父类标签集合中的各个父类标签进行分类,得到二级标签库;
针对所述二级标签库中的每个分类,确定该分类所对应的父类标签,根据所述二级标签库中的各个分类的父类标签,得到第二父类标签集合。
27.根据权利要求23所述的计算机存储介质,其中,所述可执行指令使所述处理器执行以下操作:
计算该分类下的各个标签之间的词向量距离,根据计算结果,从所述该分类下的各个标签中提取一个标签作为该分类所对应的父类标签。
28.根据权利要求23所述的计算机存储介质,其中,所述可执行指令使所述处理器执行以下操作:
针对每个标签,统计该标签在每种类型的语料数据中的匹配数据;
根据所述匹配数据,确定该标签与各种类型的语料数据之间的类型匹配结果。
29.根据权利要求28所述的计算机存储介质,其中,所述可执行指令使所述处理器执行以下操作:
针对所述第一父类标签集合中的每个父类标签,获取该父类标签在所述分类标签库中对应的各个标签;
确定该父类标签在所述分类标签库中对应的各个标签在每种类型的语料数据中的匹配数据;
根据所述匹配数据,确定该父类标签在所述分类标签库中对应的各个标签与各种类型的语料数据之间的匹配结果;
根据所述该父类标签在所述分类标签库中对应的各个标签与各种类型的语料数据之间的匹配结果,确定该父类标签与各种类型的语料数据之间的类型匹配结果。
30.根据权利要求28-29任一所述的计算机存储介质,其中,所述匹配数据包括:该标签在每种类型的语料数据中出现的第一次数、该标签在全部类型的语料数据中出现的第二次数、和/或包含该标签的语料数据的类型总数量。
31.根据权利要求23-29任一所述的计算机存储介质,其中,所述预设的各种类型所对应的类型权重信息根据待标注的预设维度确定;其中,所述待标注的预设维度包括以下中的至少一个:类型维度、题材维度、情节维度、时间维度、地点维度、金手指维度、以及身份性格维度。
32.根据权利要求31所述的计算机存储介质,其中,所述可执行指令使所述处理器执行以下操作:
根据待标注的预设维度,确定与该预设维度相关的语料数据的类型,并根据确定的与该预设维度相关的语料数据的类型,设置各种类型所对应的类型权重信息;
其中,与类型维度相关的语料数据的类型包括:书名类型、以及简介类型;与身份性格维度相关的语料数据的类型包括:内容类型。
33.根据权利要求23-29任一所述的计算机存储介质,其中,语料数据的类型包括:书名类型、简介类型、内容类型、和/或交互类型;
所述确定与待标注的电子书相对应的各种类型的语料数据包括:根据所述待标注的电子书的书名确定书名类型的语料数据;根据所述待标注的电子书的简介确定简介类型的语料数据;根据所述待标注的电子书的内容确定内容类型的语料数据;和/或,根据所述待标注的电子书的用户交互信息确定交互类型的语料数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910086230.7A CN109857957B (zh) | 2019-01-29 | 2019-01-29 | 建立标签库的方法、电子设备及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910086230.7A CN109857957B (zh) | 2019-01-29 | 2019-01-29 | 建立标签库的方法、电子设备及计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109857957A CN109857957A (zh) | 2019-06-07 |
CN109857957B true CN109857957B (zh) | 2021-06-15 |
Family
ID=66896622
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910086230.7A Active CN109857957B (zh) | 2019-01-29 | 2019-01-29 | 建立标签库的方法、电子设备及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109857957B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109976622B (zh) * | 2019-04-04 | 2021-02-02 | 掌阅科技股份有限公司 | 书籍标签确定方法、电子设备及计算机存储介质 |
CN112035750A (zh) * | 2020-09-17 | 2020-12-04 | 上海二三四五网络科技有限公司 | 一种用户标签扩展的控制方法及装置 |
CN113065947A (zh) * | 2021-03-18 | 2021-07-02 | 平安普惠企业管理有限公司 | 数据处理方法、装置、设备及存储介质 |
CN113961725A (zh) * | 2021-10-25 | 2022-01-21 | 北京明略软件系统有限公司 | 一种标签自动标注方法及系统、设备和存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102789467A (zh) * | 2011-05-20 | 2012-11-21 | 腾讯科技(深圳)有限公司 | 一种数据融合的方法、装置及数据处理系统 |
CN102902665A (zh) * | 2012-09-25 | 2013-01-30 | 太原理工大学 | 一种基于词缀的用于对未知词进行语义分类的系统 |
CN103198057A (zh) * | 2012-01-05 | 2013-07-10 | 深圳市腾讯计算机系统有限公司 | 一种自动给文档添加标签的方法和装置 |
CN103631874A (zh) * | 2013-11-07 | 2014-03-12 | 微梦创科网络科技(中国)有限公司 | 社交平台的ugc标签类别确定方法和装置 |
CN105630890A (zh) * | 2015-12-18 | 2016-06-01 | 北京中科汇联科技股份有限公司 | 基于智能问答系统会话历史的新词发现方法及系统 |
CN105893349A (zh) * | 2016-03-31 | 2016-08-24 | 新浪网技术(中国)有限公司 | 类目标签匹配映射方法及装置 |
CN106960017A (zh) * | 2017-03-03 | 2017-07-18 | 掌阅科技股份有限公司 | 电子书分类及其训练方法、装置和设备 |
CN107391565A (zh) * | 2017-06-13 | 2017-11-24 | 东南大学 | 一种基于主题模型的跨语言层次分类体系匹配方法 |
CN108345679A (zh) * | 2018-02-26 | 2018-07-31 | 科大讯飞股份有限公司 | 一种音视频检索方法、装置、设备及可读存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7680341B2 (en) * | 2006-05-05 | 2010-03-16 | Xerox Corporation | Generic visual classification with gradient components-based dimensionality enhancement |
-
2019
- 2019-01-29 CN CN201910086230.7A patent/CN109857957B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102789467A (zh) * | 2011-05-20 | 2012-11-21 | 腾讯科技(深圳)有限公司 | 一种数据融合的方法、装置及数据处理系统 |
CN103198057A (zh) * | 2012-01-05 | 2013-07-10 | 深圳市腾讯计算机系统有限公司 | 一种自动给文档添加标签的方法和装置 |
CN102902665A (zh) * | 2012-09-25 | 2013-01-30 | 太原理工大学 | 一种基于词缀的用于对未知词进行语义分类的系统 |
CN103631874A (zh) * | 2013-11-07 | 2014-03-12 | 微梦创科网络科技(中国)有限公司 | 社交平台的ugc标签类别确定方法和装置 |
CN105630890A (zh) * | 2015-12-18 | 2016-06-01 | 北京中科汇联科技股份有限公司 | 基于智能问答系统会话历史的新词发现方法及系统 |
CN105893349A (zh) * | 2016-03-31 | 2016-08-24 | 新浪网技术(中国)有限公司 | 类目标签匹配映射方法及装置 |
CN106960017A (zh) * | 2017-03-03 | 2017-07-18 | 掌阅科技股份有限公司 | 电子书分类及其训练方法、装置和设备 |
CN107391565A (zh) * | 2017-06-13 | 2017-11-24 | 东南大学 | 一种基于主题模型的跨语言层次分类体系匹配方法 |
CN108345679A (zh) * | 2018-02-26 | 2018-07-31 | 科大讯飞股份有限公司 | 一种音视频检索方法、装置、设备及可读存储介质 |
Non-Patent Citations (1)
Title |
---|
面向互联网网站标注的标签库的研究;张聪聪;《中国优秀硕士学位论文全文数据库 信息科技辑》;20131115(第11(2013)期);I139-264 * |
Also Published As
Publication number | Publication date |
---|---|
CN109857957A (zh) | 2019-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109857957B (zh) | 建立标签库的方法、电子设备及计算机存储介质 | |
RU2643467C1 (ru) | Сопоставление разметки для похожих документов | |
Trstenjak et al. | KNN with TF-IDF based framework for text categorization | |
WO2022116537A1 (zh) | 一种资讯推荐方法、装置、电子设备和存储介质 | |
CN104850633B (zh) | 一种基于手绘草图部件分割的三维模型检索系统及方法 | |
CN111898366B (zh) | 文献主题词聚合方法、装置、计算机设备及可读存储介质 | |
CN110363049B (zh) | 图形元素检测识别和类别确定的方法及装置 | |
WO2019096032A1 (zh) | 文本信息处理方法、计算机设备及计算机可读存储介质 | |
CN110083832B (zh) | 文章转载关系的识别方法、装置、设备及可读存储介质 | |
US11651014B2 (en) | Source code retrieval | |
CN111767738A (zh) | 一种标签校验方法、装置、设备和存储介质 | |
CN113312899B (zh) | 文本分类方法、装置和电子设备 | |
CN110263127A (zh) | 基于用户查询词进行文本搜索方法及装置 | |
CN107909054A (zh) | 图片文本的相似度评价方法及装置 | |
CN104077555A (zh) | 一种识别图片搜索中坏例的方法和装置 | |
CN113486976B (zh) | 一种地图标注内容的自动分类方法和装置 | |
CN111291208B (zh) | 前端页面元素的命名方法、装置及电子设备 | |
CN116029280A (zh) | 一种文档关键信息抽取方法、装置、计算设备和存储介质 | |
CN114328844A (zh) | 一种文本数据集管理方法、装置、设备及存储介质 | |
CN114373088A (zh) | 一种图像检测模型的训练方法和相关产品 | |
CN114021716A (zh) | 一种模型训练的方法、系统及电子设备 | |
CN113468339A (zh) | 基于知识图谱的标签提取方法、系统、电子设备及介质 | |
CN110610001B (zh) | 短文本完整性识别方法、装置、存储介质及计算机设备 | |
CN115481240A (zh) | 一种数据资产质量检测方法和检测装置 | |
CN112579841B (zh) | 一种多模态数据库建立方法、检索方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |