CN104679731B

CN104679731B - 提取页面中关键词的方法及装置

Info

Publication number: CN104679731B
Application number: CN201510109354.4A
Authority: CN
Inventors: 范斌
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-03-12
Filing date: 2015-03-12
Publication date: 2018-05-08
Anticipated expiration: 2035-03-12
Also published as: CN104679731A

Abstract

本发明公开了一种提取页面中关键词的方法及装置，所述方法包括：对页面的标题内容进行字符串分析得到候选词，得到的候选词构成候选词查找表；对页面进行页面分析得到文字组合，得到的所述文字组合构成短串集合；对短串集合进行字符串分析得到字符串，得到的字符串构成原始权重池；按照原始权重池中每个字符串包含单词个数的顺序，由字符串向候选词查找表中的候选词进行权重投票，如果字符串与候选词查找表中的候选词匹配一致，则增加候选词的权重值；按照候选字的权重值从大到小进行排序，则根据排序将权重值排序靠前的预定数目的候选词提取为关键词。通过采用本发明可提高关键词提取技术的通用性，使提取关键词的方式更加智能和高效。

Description

提取页面中关键词的方法及装置

技术领域

本发明涉及计算机网络领域，更为具体而言，涉及一种提取页面中关键词的方法及装置。

背景技术

随着网络的发展，人们可以通过网络处理越来越多的事情，然而，用户在面对查询各类信息的时候，需要以关键词作为搜索内容，如果可以对页面中的关键词进行科学的提取和应用，将使查询效果得到事半功倍的改善。

现有技术中分析提取关键词需要依赖先验知识，比如需要切词，需要词性标注，需要停用词词典，这些自然语言类的处理逻辑需要积累词库才能开展。常用的有基于统计的TF-IDF(term frequency-inverse document frequency，即一种用于资讯检索与资讯探勘的常用加权技术)统计方法，有基于机器学习的，有基于语义的。传统的关键词统计方法一般利用网页内容特征和词语词性特征，通过TF-IDF公式来计算出核心的关键词，这种方法在推广到国际语言的时的问题是要有先验知识库，这构成了比较大的障碍，从而导致现有技术的关键词提取方法通用性低、不够智能和处理效率低的问题。

因此，为了解决现有技术中通用关键词提取在国际化语言上无法工作的问题，亟需一种通用性更强且智能高效的提取页面中关键词的方法及装置。

发明内容

为了解决现有技术中通用关键词提取在国际化语言上无法工作，从而导致现有技术中关键词提取技术的通用性低、不够智能和处理效率低的问题，本发明的实施方式提供了一种提取页面中关键词的方法及装置。

一方面，本发明实施方式提供了一种提取页面中关键词的方法，所述方法包括：

对页面的标题内容进行字符串分析得到候选词，得到的所述候选词构成候选词查找表；

对所述页面进行页面分析得到文字组合，得到的所述文字组合构成短串集合；

对所述短串集合进行字符串分析得到字符串，得到的字符串构成原始权重池；

按照所述原始权重池中每个所述字符串包含单词个数的顺序，由所述字符串向所述候选词查找表中的候选词进行权重投票，如果所述字符串与候选词查找表中的候选词匹配一致，则增加所述候选词的权重值；

按照所述候选字的权重值从大到小进行排序，则根据所述排序将权重值排序靠前的预定数目的所述候选词提取为关键词。

另一方面，本发明实施方式还提供了一种提取页面中关键词的装置，所述装置包括：

候选词查找表构建模块，用于对页面的标题内容进行字符串分析得到候选词，得到的所述候选词构成候选词查找表；

短串集合模块，用于对所述页面进行页面分析得到文字组合，得到的所述文字组合构成短串集合；

原始权重池模块，用于对所述短串集合进行字符串分析得到字符串，得到的字符串构成原始权重池；

权重投票模块，用于按照所述原始权重池中每个所述字符串包含单词个数的顺序，由所述字符串向所述候选词查找表中的候选词进行权重投票，如果所述字符串与候选词查找表中的候选词匹配一致，则增加所述候选词的权重值；

关键词提取模块，用于按照所述候选字的权重值从大到小进行排序，则根据所述排序将权重值排序靠前的预定数目的所述候选词提取为关键词。

实施本发明的各种实施方式具有以下有益效果：可解决现有技术中关键词提取在国际化语言上无法工作的问题，提高关键词提取技术的通用性，使提取关键词的方式更加智能和高效。

附图说明

图1是根据本发明实施方式的提取页面中关键词的方法的流程图；

图2示出了图1所示方法的步骤S4的具体流程图；

图3是根据本发明实施方式的提取页面中关键词的装置1的架构图；

图4示出了图3所示的候选词查找表构建模块100的框图；

图5示出了图3所示的短串集合模块200的框图。

具体实施方式

以下结合附图和具体实施方式对本发明的各个方面进行详细阐述。其中，众所周知的模块、单元及其相互之间的连接、链接、通信或操作没有示出或未作详细说明。并且，所描述的特征、架构或功能可在一个或一个以上实施方式中以任何方式组合。本领域技术人员应当理解，下述的各种实施方式只用于举例说明，而非用于限制本发明的保护范围。还可以容易理解，本文所述和附图所示的各实施方式中的模块或单元或处理方式可以按各种不同配置进行组合和设计。

图1是根据本发明实施方式的提取页面中关键词的方法的流程图；参见图1，所述方法包括：

S1，对页面的标题内容进行字符串分析得到候选词，得到的所述候选词构成候选词查找表；其中，通过NGram(N元法)的方法进行所述字符串分析，将标题内容拆解为多个字符串，每个所述字符串作为一个候选词。例如：通过NGram的方法可将标题内容“ABC”进行分析，并拆解为以下多个字符串组合：“ABC”、“AB”、“BC”、“A”、“B”和“C”；

S2，对所述页面进行页面分析得到文字组合，得到的所述文字组合构成短串集合；具体而言，分析所述页面中的文字内容(包括页面链接和标题内容等)，将所述文字内容与所述候选词关联的文字组合(例如：“国家主席习近平出席XX会议”或“习近平访美”等)构成短串集合(例如：“国家主席”、“习近平”、“XX会议”和“访美”等)；

S3，对所述短串集合进行字符串分析得到字符串，得到的字符串构成原始权重池，其形式可表示为(“A,1”，“B,1”，“C,1”)或类似的形式，其中“1”表示该字符串出现的次数；

S4，按照所述原始权重池中每个所述字符串包含单词个数的顺序，由所述字符串向所述候选词查找表中的候选词进行权重投票，如果所述字符串与候选词查找表中的候选词匹配一致，则增加所述候选词的权重值(例如：所述候选词的权重值加1，但不限于此，权重值可以增加其他数量)；

S5，按照所述候选字的权重值从大到小进行排序(但不限于按照从大到小的排序顺序，也可以按照其他方式进行排序，例如权重值从小到大的顺序等)，则根据所述排序将权重值排序靠前的预定数目(例如：第一位或前N位)的所述候选词提取为关键词，其中预定数目的选择可根据实际需要自行设定。

通过采用本发明实施方式所述的方法可解决现有技术中关键词提取在国际化语言上无法工作的问题，提高关键词提取技术的通用性，使提取关键词的方式更加智能和高效。

图2示出了图1所示方法的步骤S4的具体流程图；参见图2，所述步骤S4包括：

S41，按照原始权重池中每个所述字符串包含单词个数由多至少的顺序排列所述字符串，例如：字符串“ABC”的排列顺序为“ABC”、“AB”、“BC”、“A”、“B”和“C”；

S42，由所述字符串向所述候选词查找表中的候选词进行权重投票，如果所述字符串“ABC”与候选词查找表中的候选词“ABC”匹配一致，则所述候选词“ABC”的权重值加1；

S43，当所述字符串中较长的字符串向所述候选词投票成功时，其包含的各个较短字符串则不再进行投票，也就是说，如果字符串“ABC”匹配成功，则其包含的各个较短字符串(“AB”、“BC”、“A”、“B”和“C”)则不再进行投票。从而避免了较短字符串的重复投票，提高了较长字符串的匹配率和权重值的准确性。

图3是根据本发明实施方式的提取页面中关键词的装置1的架构图；参见图3，所述装置1包括：

候选词查找表构建模块100，用于对页面的标题内容进行字符串分析得到候选词，得到的所述候选词构成候选词查找表；

短串集合模块200，用于对所述页面进行页面分析得到文字组合，得到的所述文字组合构成短串集合；

原始权重池模块300，用于对所述短串集合进行字符串分析得到字符串，得到的字符串构成原始权重池；其形式可表示为(“A,1”，“B,1”，“C,1”)或类似的形式，其中“1”表示该字符串出现的次数；

权重投票模块400，用于按照所述原始权重池中每个所述字符串包含单词个数的顺序，由所述字符串向所述候选词查找表中的候选词进行权重投票，如果所述字符串与候选词查找表中的候选词匹配一致，则增加所述候选词的权重值(例如：所述候选词的权重值加1，但不限于此，权重值可以增加其他数量)；其中，所述按照所述原始权重池中每个所述字符串包含单词个数的顺序包括：按照所述原始权重池中每个所述字符串包含单词个数由多至少的顺序(例如：字符串“ABC”的排列顺序为“ABC”、“AB”、“BC”、“A”、“B”和“C”)，当所述字符串中较长的字符串向所述候选词投票成功时，其包含的各个较短字符串则不再进行投票，也就是说，如果字符串“ABC”匹配成功，则其包含的各个较短字符串(“AB”、“BC”、“A”、“B”和“C”)则不再进行投票。从而避免了较短字符串的重复投票，提高了较长字符串的匹配率和权重值的准确性。

关键词提取模块500，用于按照所述候选字的权重值从大到小进行排序，(但不限于按照从大到小的排序顺序，也可以按照其他方式进行排序，例如权重值从小到大的顺序等)，则根据所述排序将权重值排序靠前的预定数目(例如：第一位或前N位)的所述候选词提取为关键词，其中预定数目的选择可根据实际需要自行设定。

图4示出了图3所示的候选词查找表构建模块100的框图；参见图4，所述候选词查找表构建模块100包括：

字符串分析单元110，用于通过NGram(N元法)的方法进行所述字符串分析，将标题内容拆解为多个字符串，每个所述字符串作为一个候选词；例如：通过NGram的方法可将标题内容“ABC”进行分析，并拆解为以下多个字符串组合：“ABC”、“AB”、“BC”、“A”、“B”和“C”；

查找表构成单元120，用于将得到的所述候选词构成所述候选词查找表。

图5示出了图3所示的短串集合模块200的框图；参见图5，所述短串集合模块200包括：

页面分析单元210，用于分析所述页面中的文字内容(包括页面链接和标题内容等)；

短串集合构成单元220，用于将所述文字内容与所述候选词关联的文字组合(例如：“国家主席习近平出席XX会议”或“习近平访美”等)构成短串集合(例如：“国家主席”、“习近平”、“XX会议”和“访美”等)。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助软件结合硬件平台的方式来实现，当然也可以全部通过硬件来实施。基于这样的理解，本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，智能手机或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本发明说明书中使用的术语和措辞仅仅为了举例说明，并不意味构成限定。本领域技术人员应当理解，在不脱离所公开的实施方式的基本原理的前提下，对上述实施方式中的各细节可进行各种变化。因此，本发明的范围只由权利要求确定，在权利要求中，除非另有说明，所有的术语应按最宽泛合理的意思进行理解。

Claims

1.一种提取页面中关键词的方法，其特征在于，所述方法包括：

按照所述候选词的权重值从大到小进行排序，则根据所述排序将权重值排序靠前的预定数目的所述候选词提取为关键词；

其中，所述按照所述原始权重池中每个所述字符串包含单词个数的顺序，由所述字符串向所述候选词查找表中的候选词进行权重投票包括：

按照所述原始权重池中每个所述字符串包含单词个数由多至少的顺序，当所述字符串中较长的字符串向所述候选词投票成功时，其包含的各个较短字符串则不再进行投票。

2.如权利要求1所述的方法，其特征在于，所述对页面的标题内容进行字符串分析得到候选词：

通过NGram的方法进行所述字符串分析，将标题内容拆解为多个字符串，每个所述字符串作为一个候选词。

3.如权利要求1所述的方法，其特征在于，所述对所述页面进行页面分析得到文字组合，得到的所述文字组合构成短串集合包括：

分析所述页面中的文字内容，将所述文字内容与所述候选词关联的文字组合构成短串集合。

4.如权利要求1所述的方法，其特征在于，所述根据所述排序将权重值排序靠前的预定数目的所述候选词提取为关键词包括：

将所述排序第一位的所述候选词提取为所述关键词。

5.一种提取页面中关键词的装置，其特征在于，所述装置包括：

关键词提取模块，用于按照所述候选词的权重值从大到小进行排序，则根据所述排序将权重值排序靠前的预定数目的所述候选词提取为关键词；

所述按照所述原始权重池中每个所述字符串包含单词个数的顺序，由所述字符串向所述候选词查找表中的候选词进行权重投票包括：

6.如权利要求5所述的装置，其特征在于，所述候选词查找表构建模块包括：

字符串分析单元，用于通过NGram的方法进行所述字符串分析，将标题内容拆解为多个字符串，每个所述字符串作为一个候选词；

查找表构成单元，用于将得到的所述候选词构成所述候选词查找表。

7.如权利要求5所述的装置，其特征在于，所述短串集合模块包括：

页面分析单元，用于分析所述页面中的文字内容；

短串集合构成单元，用于将所述文字内容与所述候选词关联的文字组合构成短串集合。

8.如权利要求5所述的装置，其特征在于，所述根据所述排序将权重值排序靠前的预定数目的所述候选词提取为关键词包括：

将所述排序第一位的所述候选词提取为所述关键词。