CN104991920A - 标签的生成方法及装置 - Google Patents

标签的生成方法及装置 Download PDF

Info

Publication number
CN104991920A
CN104991920A CN201510359673.0A CN201510359673A CN104991920A CN 104991920 A CN104991920 A CN 104991920A CN 201510359673 A CN201510359673 A CN 201510359673A CN 104991920 A CN104991920 A CN 104991920A
Authority
CN
China
Prior art keywords
label
participle
dictionary
concordance list
word content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510359673.0A
Other languages
English (en)
Inventor
张云飞
刘艳
曾宏威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
All Over World (beijing) Information Technology Co Ltd
Original Assignee
All Over World (beijing) Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by All Over World (beijing) Information Technology Co Ltd filed Critical All Over World (beijing) Information Technology Co Ltd
Priority to CN201510359673.0A priority Critical patent/CN104991920A/zh
Publication of CN104991920A publication Critical patent/CN104991920A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种标签的生成方法及装置。其中,该方法包括:提取页面中的文字内容;将预先设置的标签字典中的标签与文字内容进行匹配,根据标签建立索引表;根据预先设置的中文分词规则对文字内容进行分词,确定文字内容的分词词库;根据索引表对分词词库中分词的有效性进行筛选;根据分词词库中的有效分词生成文字内容的分词标签集合。本发明解决了现有技术中因无法对信息内容精确的设置标签导致的信息分类不准确的问题。

Description

标签的生成方法及装置
技术领域
本发明涉及互联网领域,具体而言,涉及一种标签的生成方法及装置。
背景技术
在网络日益发展的今天,在网络中都会有成千上万条的信息通过各类网站发布出来。用户除了通过网站类型来对信息进行初步的过滤外,只能通过一条条的阅读来获取自己需要的信息内容。
有些信息类网站为了方便用户阅读,可以根据用户选择的兴趣标签来推荐自己所需要的信息内容。这虽然方便了用户,但是对于信息类网站,就需要在获取到各类信息的同时,对信息进行分类。
现有的分类方法,只是根据预先设置好的标签字典对信息内容进行匹配,通过判断信息内容中是否出现标签字典中的某类关键字,对信息内容设置标签,进而通过标签来对信息进行分类。例如,当信息中出现“小米”、“魅族”、“苹果”等科技类关键词时,为该信息设置科技标签;当信息中出现“奔跑吧兄弟”、“我是歌手”等娱乐类关键词时,为该信息设置娱乐标签。
上述只能通过关键字的匹配,粗略的对信息的设置标签。如果想要进一步精确对信息的分类时,就需要工作人员阅读后对信息的标签进行整理。通过工作人员对信息的标签进行整理,不但工作量巨大,而且很难保证信息的时效性。
针对现有技术中因无法对信息内容精确的设置标签导致的信息分类不准确的问题,目前尚未提出有效的解决方案。
发明内容
本发明的主要目的在于提供一种标签的生成方法及装置,以解决现有技术中因无法对信息内容精确的设置标签导致的信息分类不准确的问题。
为了实现上述目的,根据本发明实施例的一个方面,提供了一种标签的生成方法。该方法包括:提取页面中的文字内容;将预先设置的标签字典中的标签与文字内容进行匹配,根据标签建立索引表;根据预先设置的中文分词规则对文字内容进行分词,确定文字内容的分词词库;根据索引表对分词词库中分词的有效性进行筛选;根据分词词库中的有效分词生成文字内容的分词标签集合。
进一步的,索引表为二级索引表,其中,将预先设置的标签字典中的标签与文字内容进行匹配,根据标签建立索引表包括:将标签字典中标签的第一个字与文字内容进行匹配,建立第一级索引表;将标签字典中标签与文字内容进行匹配,在第一级索引表的基础上建立第二级索引表;根据第一级索引表和第二级索引表,生成二级索引表。
进一步的,根据索引表对分词词库中分词的有效性进行筛选包括:通过二级索引表对分词词库中分词进行判断,确定分词的有效性;当分词存在于二级索引表中时,确定分词为有效分词。
进一步的,在根据分词词库中的有效分词生成文字内容的分词标签集合之后,方法还包括:获取标签字典中各标签的第一权重系数;根据第一权重系数计算分词标签集合中各标签的标签权重值;根据标签权重值,确定预先设置个数的标签作为文字内容的标签。
进一步的,在根据第一权重系数计算分词标签集合中各个标签的标签权重值中,还包括:根据索引表确定分词标签集合中各标签的出现次数;根据出现次数,确定分词标签集合中各标签的第二权重系数;根据第一权重系数和第二权重系数,计算分词标签集合中各标签的标签权重值。
为了实现上述目的,根据本发明实施例的另一方面,提供了一种标签的生成装置,该装置包括:提取模块,用于提取页面中的文字内容;索引模块,用于将预先设置的标签字典中的标签与文字内容进行匹配,根据标签建立索引表;分词模块,用于根据预先设置的中文分词规则对文字内容进行分词,确定文字内容的分词词库;筛选模块,用于根据索引表对分词词库中分词的有效性进行筛选;生成模块,用于根据分词词库中的有效分词生成文字内容的分词标签集合。
进一步的,索引表为二级索引表,索引模块包括:第一子匹配模块,用于将标签字典中标签的第一个字与文字内容进行匹配,建立第一级索引表;第二子匹配模块,用于将标签字典中标签与文字内容进行匹配,在第一级索引表的基础上建立第二级索引表;子生成模块,用于根据第一级索引表和第二级索引表,生成二级索引表。
进一步的,筛选模块包括:第一子确定模块,用于通过二级索引表对分词词库中分词进行判断,确定分词的有效性;第二子确定模块,用于当分词存在于二级索引表中时,确定分词为有效分词。
进一步的,装置还包括:获取模块,用于获取标签字典中各标签的第一权重系数;处理模块,用于根据第一权重系数计算分词标签集合中各标签的标签权重值;确定模块,用于根据标签权重值,确定预先设置个数的标签作为文字内容的标签。
进一步的,处理模块包括:第三子确定模块,用于根据索引表确定分词标签集合中各标签的出现次数;第四子确定模块,用于根据出现次数,确定分词标签集合中各标签的第二权重系数;子处理模块,用于根据第一权重系数和第二权重系数,计算分词标签集合中各标签的标签权重值。
根据发明实施例,通过提取页面中的文字内容;将预先设置的标签字典中的标签与文字内容进行匹配,根据标签建立索引表;根据预先设置的中文分词规则对文字内容进行分词,确定文字内容的分词词库;根据索引表对分词词库中分词的有效性进行筛选;根据分词词库中的有效分词生成文字内容的分词标签集合,实现了精确的根据文字内容生成标签的效果,达到了避免根据文字内容中无效分词生成无效标签的目的,解决了现有技术中因无法对信息内容精确的设置标签导致的信息分类不准确的问题。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例一的一种标签的生成方法的流程图;
图2是根据本发明实施例一可选的一种标签的生成方法的流程图;
图3是根据本发明实施例二的一种标签的生成装置的结构示意图;以及
图4是根据本发明实施例二可选的一种标签的生成装置的结构示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
本发明实施例提供了一种标签的生成方法,图1是根据本发明实施例的标签的生成方法的流程图,如图1所示,该方法包括步骤如下:
步骤S11,提取页面中的文字内容。
步骤S13,将预先设置的标签字典中的标签与文字内容进行匹配,根据标签建立索引表。
步骤S15,根据预先设置的中文分词规则对文字内容进行分词,确定文字内容的分词词库。
步骤S17,根据索引表对分词词库中分词的有效性进行筛选。
步骤S19,根据分词词库中的有效分词生成文字内容的分词标签集合。
通过上述步骤S11至步骤S19,首先提取网页中的文字内容,并根据预先设置的标签字典对文字内容根据所述标签建立索引表。与此同时,根据中文分词规则对文字内容进行分词。将通过索引表中的标签对中文分词规则得到的分词词库进行筛选,筛选去除分词词库中无效的分词。将分词词库中有效的分词作为文字内容的标签。利用上述实施例,实现了精确的根据文字内容生成标签的效果,达到了避免根据文字内容中无效分词生成无效标签的目的,解决了现有技术中因无法对信息内容精确的设置标签导致的信息分类不准确的问题。
作为一个可选实施例,页面中除了文字内容以外,还有其他干扰内容,例如:推广链接、广告信息等。而网页页面通过几块元素<div>、<p>等标记标签对网页中用于对各类信息进行显示的区域进行划分。可以直接通过标记标签对网页页面中文字内容进行筛选,来获取网页页面内记载了正文的文字内容,以排除网页中干扰信息。从而缩小了需要生成标签文字内容的范围,提高了生成标签的效率。
作为一个可选实施例,可以在步骤S17根据索引表对分词词库中分词的有效性进行筛选之后,将有效分词与文字内容进行匹配,根据有效分词建立新的索引表。根据新的索引表对根据第二种中文分词规则对文字内容进行分词得到的分词词库进行筛选,进一步去除无效分词得到分词标签集合。上述步骤可以重复执行,每次执行可以使用不同的中文分词规则对文字内容进行重新分词,以优化分词标签集合中的标签内容。
作为一个可选实施例,可以先根据中文分词规则对文字内容进行分词,得到与文字内容对应的分词词库之后,根据分词词库中的分词生成文字内容的索引表。进一步的,将索引表中的各个分词与预先设置的标签词典中的标签进行匹配,去除分词词库中无效的分词。
作为一个可选实施例,索引表可以为二级索引表,其中,在步骤S13将预先设置的标签字典中的标签与文字内容进行匹配,根据标签建立索引表中,可以包括:
步骤S131,将标签字典中标签的第一个字与文字内容进行匹配,建立第一级索引表。
步骤S133,将标签字典中标签与文字内容进行匹配,在第一级索引表的基础上建立第二级索引表。
步骤S135,根据第一级索引表和第二级索引表,生成二级索引表。
通过上述步骤S131至上述步骤S135,以标签字典中标签的第一个字与文字内容进行匹配,根据标签第一字建立字与文字内容相互映射的第一级索引表。然后,根据字典标签中的完整标签,建立与第一级索引表相互映射的第二级索引表。最后,根据第一级索引表和第二级索引表,生成一个二级索引表。
作为一个可选实施例,上述二级索引表作为一种用于对文字内容进行快速索引工具,可以为聚集索引结构、堆结构、非聚集索引结构的索引表之中的任意一种。
作为一个可选实施例,在步骤S17根据索引表对分词词库中分词的有效性进行筛选中,可以包括:
步骤S171,通过二级索引表对分词词库中分词进行判断,确定分词的有效性。
步骤S173,当分词存在于二级索引表中时,确定分词为有效分词。
具体的,通过上述步骤S171至步骤S173,将二级索引表中的标签与分词词库中的分词进行匹配,来确定分词词库中的分词的有效性进行判断,从而得到有效分词。其中,当分词词库中的分词存在于二级索引表中时,认为该分词为有效分词。当分词词库中的分词不存在于二级索引表中时,认为该分词为无效分词。
作为一个可选实施例,在上述步骤S171中,可以包括:首先,根据二级索引表中的第一级索引表对分词词库中的分词进行筛选,筛选出可以与第一级索引表匹配的第一级有效分词。然后,根据第二级索引表对第一级有效分词进行筛选,筛选出可以与第二级索引表匹配的第二级有效分词。第二级有效分词即为上述步骤得到的有效分词。通过上述步骤,可以精确的对分词词库中分词的有效性进行筛选,提高根据文字内容生成标签的准确性。
作为一个可选实施例,如图2所示,在步骤S19根据分词词库中的有效分词生成文字内容的分词标签集合之后,方法还包括:
步骤S21,获取标签字典中各标签的第一权重系数。
步骤S23,根据第一权重系数计算分词标签集合中各标签的标签权重值。
步骤S25,根据标签权重值,确定预先设置个数的标签作为文字内容的标签。
通过上述步骤S21至步骤S25,根据标签字典中个标签的第一权重系数对分词标签集合中的各个标签进行加权计算。根据计算得到的分词标签集合中的各个分词标签的权重值,选择权重值最高的预设个数的标签作为文字内容的标签。通过上述方法可以以科学的计算方法确定出文字内容的标签。
作为一个可选实施例,标签字典中的第一权重系数,可以根据各个标签在网络总出现的次数、周期性时间、搜索引擎搜索数量等实时更新。通过实时更新的第一权重值计算确定出的文字内容的标签,更加具有时效性。
通过对标签字典中各个标签的权重系数与索引表中各个标签出现的次数进行加权运算,计算得出分词标签集合中各个标签的权重值。选择分词标签集合中权重值最高的预订数量的标签作为本文字内容的标签。根据上述加权运算的计算结果确定的标签,可以进一步提高生成标签的准确性。
作为一个可选实施例,在步骤S23根据第一权重系数计算分词标签集合中各个标签的标签权重值中,还包括:
步骤S231,根据索引表确定分词标签集合中各标签的出现次数。
步骤S233,根据出现次数,确定分词标签集合中各标签的第二权重系数。
步骤S235,根据第一权重系数和第二权重系数,计算分词标签集合中各标签的标签权重值。
通过上述步骤S231至步骤S235,对标签字典中各个标签的权重系数与索引表中各个标签出现的次数进行加权运算,计算得出分词标签集合中各个标签的权重值。选择分词标签集合中权重值最高的预订数量的标签作为本文字内容的标签。根据上述加权运算的计算结果确定的标签,可以进一步提高生成标签的准确性。
实施例2
本发明实施例还提供了一种标签的生成装置,如图3所示,该装置可以包括:提取模块31、索引模块33、分词模块35、筛选模块37和生成模块39。
其中,提取模块31,用于提取页面中的文字内容;索引模块33,用于将预先设置的标签字典中的标签与文字内容进行匹配,根据标签建立索引表;分词模块35,用于根据预先设置的中文分词规则对文字内容进行分词,确定文字内容的分词词库;筛选模块37,用于根据索引表对分词词库中分词的有效性进行筛选;生成模块39,用于根据分词词库中的有效分词生成文字内容的分词标签集合。
通过上述提取模块31、索引模块33、分词模块35、筛选模块37和生成模块39,首先提取网页中的文字内容,并根据预先设置的标签字典对文字内容根据所述标签建立索引表。与此同时,根据中文分词规则对文字内容进行分词。将通过索引表中的标签对中文分词规则得到的分词词库进行筛选,筛选去除分词词库中无效的分词。将分词词库中有效的分词作为文字内容的标签。利用上述实施例,实现了精确的根据文字内容生成标签的效果,达到了避免根据文字内容中无效分词生成无效标签的目的,解决了现有技术中因无法对信息内容精确的设置标签导致的信息分类不准确的问题。
作为一个可选实施例,索引表为二级索引表,索引模块33可以包括:第一子匹配模块331、第二子匹配模块333和子生成模块335。
其中,第一子匹配模块331,用于将标签字典中标签的第一个字与文字内容进行匹配,建立第一级索引表;第二子匹配模块333,用于将标签字典中标签与文字内容进行匹配,在第一级索引表的基础上建立第二级索引表;子生成模块335,用于根据第一级索引表和第二级索引表,生成二级索引表。
通过上述第一子匹配模块331、第二子匹配模块333和子生成模块335,以标签字典中标签的第一个字与文字内容进行匹配,根据标签第一字建立字与文字内容相互映射的第一级索引表。然后,根据字典标签中的完整标签,建立与第一级索引表相互映射的第二级索引表。最后,根据第一级索引表和第二级索引表,生成一个二级索引表。
作为一个可选实施例,上述二级索引表作为一种用于对文字内容进行快速索引工具,可以为聚集索引结构、堆结构、非聚集索引结构的索引表之中的任意一种。
作为一个可选实施例,筛选模块37可以包括:第一子确定模块371和第二子确定模块373。
其中,第一子确定模块371,用于通过二级索引表对分词词库中分词进行判断,确定分词的有效性;第二子确定模块373,用于当分词存在于二级索引表中时,确定分词为有效分词。
具体的,通过上述第一子确定模块371和第二子确定模块373,将二级索引表中的标签与分词词库中的分词进行匹配,来确定分词词库中的分词的有效性进行判断,从而得到有效分词。其中,当分词词库中的分词存在于二级索引表中时,认为该分词为有效分词。当分词词库中的分词不存在于二级索引表中时,认为该分词为无效分词。
作为一个可选实施例,如图4所示,装置还包括:获取模块41、处理模块43和确定模块45。
其中,获取模块41,用于获取标签字典中各标签的第一权重系数;处理模块43,用于根据第一权重系数计算分词标签集合中各标签的标签权重值;确定模块45,用于根据标签权重值,确定预先设置个数的标签作为文字内容的标签。
通过上述获取模块41、处理模块43和确定模块45,根据标签字典中个标签的第一权重系数对分词标签集合中的各个标签进行加权计算。根据计算得到的分词标签集合中的各个分词标签的权重值,选择权重值最高的预设个数的标签作为文字内容的标签。通过上述方法可以以科学的计算方法确定出文字内容的标签。
作为一个可选实施例,处理模块43包括:第三子确定模块431、第四子确定模块433和子处理模块435。
其中,第三子确定模块431,用于根据索引表确定分词标签集合中各标签的出现次数;第四子确定模块433,用于根据出现次数,确定分词标签集合中各标签的第二权重系数;子处理模块435,用于根据第一权重系数和第二权重系数,计算分词标签集合中各标签的标签权重值
通过上述第三子确定模块431、第四子确定模块433和子处理模块435,对标签字典中各个标签的权重系数与索引表中各个标签出现的次数进行加权运算,计算得出分词标签集合中各个标签的权重值。选择分词标签集合中权重值最高的预订数量的标签作为本文字内容的标签。根据上述加权运算的计算结果确定的标签,可以进一步提高生成标签的准确性。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、移动终端、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种标签的生成方法,其特征在于,包括:
提取页面中的文字内容;
将预先设置的标签字典中的标签与所述文字内容进行匹配,根据所述标签建立索引表;
根据预先设置的中文分词规则对所述文字内容进行分词,确定所述文字内容的分词词库;
根据所述索引表对所述分词词库中分词的有效性进行筛选;
根据所述分词词库中的有效分词生成所述文字内容的分词标签集合。
2.根据权利要求1所述的方法,其特征在于,所述索引表为二级索引表,其中,将预先设置的标签字典中的标签与所述文字内容进行匹配,根据所述标签建立索引表包括:
将所述标签字典中所述标签的第一个字与所述文字内容进行匹配,建立第一级索引表;
将所述标签字典中所述标签与所述文字内容进行匹配,在所述第一级索引表的基础上建立第二级索引表;
根据所述第一级索引表和所述第二级索引表,生成所述二级索引表。
3.根据权利要求2所述的方法,其特征在于,根据所述索引表对所述分词词库中分词的有效性进行筛选包括:
通过所述二级索引表对所述分词词库中分词进行判断,确定所述分词的有效性;
当所述分词存在于所述二级索引表中时,确定所述分词为所述有效分词。
4.根据权利要求1所述的方法,其特征在于,在根据所述分词词库中的有效分词生成所述文字内容的分词标签集合之后,所述方法还包括:
获取所述标签字典中各标签的第一权重系数;
根据所述第一权重系数计算所述分词标签集合中各标签的标签权重值;
根据所述标签权重值,确定预先设置个数的标签作为所述文字内容的标签。
5.根据权利要求4所述的方法,其特征在于,在根据所述第一权重系数计算所述分词标签集合中各个标签的标签权重值中,还包括:
根据所述索引表确定所述分词标签集合中各标签的出现次数;
根据所述出现次数,确定所述分词标签集合中各标签的第二权重系数;
根据所述第一权重系数和所述第二权重系数,计算所述分词标签集合中各标签的标签权重值。
6.一种标签的生成装置,其特征在于,包括:
提取模块,用于提取页面中的文字内容;
索引模块,用于将预先设置的标签字典中的标签与所述文字内容进行匹配,根据所述标签建立索引表;
分词模块,用于根据预先设置的中文分词规则对所述文字内容进行分词,确定所述文字内容的分词词库;
筛选模块,用于根据所述索引表对所述分词词库中分词的有效性进行筛选;
生成模块,用于根据所述分词词库中的有效分词生成所述文字内容的分词标签集合。
7.根据权利要求6所述的装置,其特征在于,所述索引表为二级索引表,所述索引模块包括:
第一子匹配模块,用于将所述标签字典中所述标签的第一个字与所述文字内容进行匹配,建立第一级索引表;
第二子匹配模块,用于将所述标签字典中所述标签与所述文字内容进行匹配,在所述第一级索引表的基础上建立第二级索引表;
子生成模块,用于根据所述第一级索引表和所述第二级索引表,生成所述二级索引表。
8.根据权利要求7所述的装置,其特征在于,所述筛选模块包括:
第一子确定模块,用于通过所述二级索引表对所述分词词库中分词进行判断,确定所述分词的有效性;
第二子确定模块,用于当所述分词存在于所述二级索引表中时,确定所述分词为所述有效分词。
9.根据权利要求6所述的装置,其特征在于,所述装置还包括:
获取模块,用于获取所述标签字典中各标签的第一权重系数;
处理模块,用于根据所述第一权重系数计算所述分词标签集合中各标签的标签权重值;
确定模块,用于根据所述标签权重值,确定预先设置个数的标签作为所述文字内容的标签。
10.根据权利要求9所述的装置,其特征在于,处理模块包括:
第三子确定模块,用于根据所述索引表确定所述分词标签集合中各标签的出现次数;
第四子确定模块,用于根据所述出现次数,确定所述分词标签集合中各标签的第二权重系数;
子处理模块,用于根据所述第一权重系数和所述第二权重系数,计算所述分词标签集合中各标签的标签权重值。
CN201510359673.0A 2015-06-25 2015-06-25 标签的生成方法及装置 Pending CN104991920A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510359673.0A CN104991920A (zh) 2015-06-25 2015-06-25 标签的生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510359673.0A CN104991920A (zh) 2015-06-25 2015-06-25 标签的生成方法及装置

Publications (1)

Publication Number Publication Date
CN104991920A true CN104991920A (zh) 2015-10-21

Family

ID=54303736

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510359673.0A Pending CN104991920A (zh) 2015-06-25 2015-06-25 标签的生成方法及装置

Country Status (1)

Country Link
CN (1) CN104991920A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145110A (zh) * 2018-06-29 2019-01-04 深圳市彬讯科技有限公司 基于标签的信息分类处理、标签查询方法和装置
CN111814423A (zh) * 2020-09-08 2020-10-23 北京安帝科技有限公司 一种日志的格式化方法、装置和存储介质
CN113486266A (zh) * 2021-06-29 2021-10-08 平安银行股份有限公司 页面标签添加方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101216842A (zh) * 2008-01-07 2008-07-09 华为技术有限公司 获取页面关键词的方法及页面信息处理装置
CN101876981A (zh) * 2009-04-29 2010-11-03 阿里巴巴集团控股有限公司 一种构建知识库的方法及装置
CN102646124A (zh) * 2012-02-27 2012-08-22 杨志远 一种自动识别地址信息的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101216842A (zh) * 2008-01-07 2008-07-09 华为技术有限公司 获取页面关键词的方法及页面信息处理装置
CN101876981A (zh) * 2009-04-29 2010-11-03 阿里巴巴集团控股有限公司 一种构建知识库的方法及装置
CN102646124A (zh) * 2012-02-27 2012-08-22 杨志远 一种自动识别地址信息的方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145110A (zh) * 2018-06-29 2019-01-04 深圳市彬讯科技有限公司 基于标签的信息分类处理、标签查询方法和装置
CN109145110B (zh) * 2018-06-29 2022-06-28 土巴兔集团股份有限公司 标签查询方法和装置
CN111814423A (zh) * 2020-09-08 2020-10-23 北京安帝科技有限公司 一种日志的格式化方法、装置和存储介质
CN113486266A (zh) * 2021-06-29 2021-10-08 平安银行股份有限公司 页面标签添加方法、装置、设备及存储介质
CN113486266B (zh) * 2021-06-29 2024-05-21 平安银行股份有限公司 页面标签添加方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN106919619B (zh) 一种商品聚类方法、装置及电子设备
CN104881458B (zh) 一种网页主题的标注方法和装置
CN108959383A (zh) 网络舆情的分析方法、装置及计算机可读存储介质
CN104111941B (zh) 信息展示的方法及设备
CN107704503A (zh) 用户关键词提取装置、方法及计算机可读存储介质
CN105404699A (zh) 一种搜索财经文章的方法、装置及服务器
CN109948121A (zh) 文章相似度挖掘方法、系统、设备及存储介质
CN111104526A (zh) 一种基于关键词语义的金融标签提取方法及系统
CN103942712A (zh) 基于产品相似度的电子商务推荐系统及其方法
CN103123624B (zh) 确定中心词的方法及装置、搜索方法及装置
CN107194430A (zh) 一种样本筛选方法及装置,电子设备
CN109635260B (zh) 用于生成文章模板的方法、装置、设备和存储介质
CN105843796A (zh) 一种微博情感倾向分析方法及装置
CN110134845A (zh) 项目舆情监控方法、装置、计算机设备及存储介质
CN104077415A (zh) 搜索方法及装置
CN104504086A (zh) 网页页面的聚类方法和装置
CN105550253B (zh) 一种类型关系的获取方法及装置
CN106951571A (zh) 一种给应用标注标签的方法和装置
CN103838754A (zh) 信息搜索装置及方法
CN104850617A (zh) 短文本处理方法及装置
CN111522901A (zh) 文本中地址信息的处理方法及装置
CN107688563B (zh) 一种同义词的识别方法及识别装置
CN112818200A (zh) 基于静态网站的数据爬取及事件分析方法及系统
CN104991920A (zh) 标签的生成方法及装置
CN104881446A (zh) 搜索方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20151021