CN104679731B - 提取页面中关键词的方法及装置 - Google Patents

提取页面中关键词的方法及装置 Download PDF

Info

Publication number
CN104679731B
CN104679731B CN201510109354.4A CN201510109354A CN104679731B CN 104679731 B CN104679731 B CN 104679731B CN 201510109354 A CN201510109354 A CN 201510109354A CN 104679731 B CN104679731 B CN 104679731B
Authority
CN
China
Prior art keywords
candidate word
character string
word
page
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510109354.4A
Other languages
English (en)
Other versions
CN104679731A (zh
Inventor
范斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201510109354.4A priority Critical patent/CN104679731B/zh
Publication of CN104679731A publication Critical patent/CN104679731A/zh
Application granted granted Critical
Publication of CN104679731B publication Critical patent/CN104679731B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种提取页面中关键词的方法及装置,所述方法包括:对页面的标题内容进行字符串分析得到候选词,得到的候选词构成候选词查找表;对页面进行页面分析得到文字组合,得到的所述文字组合构成短串集合;对短串集合进行字符串分析得到字符串,得到的字符串构成原始权重池;按照原始权重池中每个字符串包含单词个数的顺序,由字符串向候选词查找表中的候选词进行权重投票,如果字符串与候选词查找表中的候选词匹配一致,则增加候选词的权重值;按照候选字的权重值从大到小进行排序,则根据排序将权重值排序靠前的预定数目的候选词提取为关键词。通过采用本发明可提高关键词提取技术的通用性,使提取关键词的方式更加智能和高效。

Description

提取页面中关键词的方法及装置
技术领域
本发明涉及计算机网络领域,更为具体而言,涉及一种提取页面中关键词的方法及装置。
背景技术
随着网络的发展,人们可以通过网络处理越来越多的事情,然而,用户在面对查询各类信息的时候,需要以关键词作为搜索内容,如果可以对页面中的关键词进行科学的提取和应用,将使查询效果得到事半功倍的改善。
现有技术中分析提取关键词需要依赖先验知识,比如需要切词,需要词性标注,需要停用词词典,这些自然语言类的处理逻辑需要积累词库才能开展。常用的有基于统计的TF-IDF(term frequency-inverse document frequency,即一种用于资讯检索与资讯探勘的常用加权技术)统计方法,有基于机器学习的,有基于语义的。传统的关键词统计方法一般利用网页内容特征和词语词性特征,通过TF-IDF公式来计算出核心的关键词,这种方法在推广到国际语言的时的问题是要有先验知识库,这构成了比较大的障碍,从而导致现有技术的关键词提取方法通用性低、不够智能和处理效率低的问题。
因此,为了解决现有技术中通用关键词提取在国际化语言上无法工作的问题,亟需一种通用性更强且智能高效的提取页面中关键词的方法及装置。
发明内容
为了解决现有技术中通用关键词提取在国际化语言上无法工作,从而导致现有技术中关键词提取技术的通用性低、不够智能和处理效率低的问题,本发明的实施方式提供了一种提取页面中关键词的方法及装置。
一方面,本发明实施方式提供了一种提取页面中关键词的方法,所述方法包括:
对页面的标题内容进行字符串分析得到候选词,得到的所述候选词构成候选词查找表;
对所述页面进行页面分析得到文字组合,得到的所述文字组合构成短串集合;
对所述短串集合进行字符串分析得到字符串,得到的字符串构成原始权重池;
按照所述原始权重池中每个所述字符串包含单词个数的顺序,由所述字符串向所述候选词查找表中的候选词进行权重投票,如果所述字符串与候选词查找表中的候选词匹配一致,则增加所述候选词的权重值;
按照所述候选字的权重值从大到小进行排序,则根据所述排序将权重值排序靠前的预定数目的所述候选词提取为关键词。
另一方面,本发明实施方式还提供了一种提取页面中关键词的装置,所述装置包括:
候选词查找表构建模块,用于对页面的标题内容进行字符串分析得到候选词,得到的所述候选词构成候选词查找表;
短串集合模块,用于对所述页面进行页面分析得到文字组合,得到的所述文字组合构成短串集合;
原始权重池模块,用于对所述短串集合进行字符串分析得到字符串,得到的字符串构成原始权重池;
权重投票模块,用于按照所述原始权重池中每个所述字符串包含单词个数的顺序,由所述字符串向所述候选词查找表中的候选词进行权重投票,如果所述字符串与候选词查找表中的候选词匹配一致,则增加所述候选词的权重值;
关键词提取模块,用于按照所述候选字的权重值从大到小进行排序,则根据所述排序将权重值排序靠前的预定数目的所述候选词提取为关键词。
实施本发明的各种实施方式具有以下有益效果:可解决现有技术中关键词提取在国际化语言上无法工作的问题,提高关键词提取技术的通用性,使提取关键词的方式更加智能和高效。
附图说明
图1是根据本发明实施方式的提取页面中关键词的方法的流程图;
图2示出了图1所示方法的步骤S4的具体流程图;
图3是根据本发明实施方式的提取页面中关键词的装置1的架构图;
图4示出了图3所示的候选词查找表构建模块100的框图;
图5示出了图3所示的短串集合模块200的框图。
具体实施方式
以下结合附图和具体实施方式对本发明的各个方面进行详细阐述。其中,众所周知的模块、单元及其相互之间的连接、链接、通信或操作没有示出或未作详细说明。并且,所描述的特征、架构或功能可在一个或一个以上实施方式中以任何方式组合。本领域技术人员应当理解,下述的各种实施方式只用于举例说明,而非用于限制本发明的保护范围。还可以容易理解,本文所述和附图所示的各实施方式中的模块或单元或处理方式可以按各种不同配置进行组合和设计。
图1是根据本发明实施方式的提取页面中关键词的方法的流程图;参见图1,所述方法包括:
S1,对页面的标题内容进行字符串分析得到候选词,得到的所述候选词构成候选词查找表;其中,通过NGram(N元法)的方法进行所述字符串分析,将标题内容拆解为多个字符串,每个所述字符串作为一个候选词。例如:通过NGram的方法可将标题内容“ABC”进行分析,并拆解为以下多个字符串组合:“ABC”、“AB”、“BC”、“A”、“B”和“C”;
S2,对所述页面进行页面分析得到文字组合,得到的所述文字组合构成短串集合;具体而言,分析所述页面中的文字内容(包括页面链接和标题内容等),将所述文字内容与所述候选词关联的文字组合(例如:“国家主席习近平出席XX会议”或“习近平访美”等)构成短串集合(例如:“国家主席”、“习近平”、“XX会议”和“访美”等);
S3,对所述短串集合进行字符串分析得到字符串,得到的字符串构成原始权重池,其形式可表示为(“A,1”,“B,1”,“C,1”)或类似的形式,其中“1”表示该字符串出现的次数;
S4,按照所述原始权重池中每个所述字符串包含单词个数的顺序,由所述字符串向所述候选词查找表中的候选词进行权重投票,如果所述字符串与候选词查找表中的候选词匹配一致,则增加所述候选词的权重值(例如:所述候选词的权重值加1,但不限于此,权重值可以增加其他数量);
S5,按照所述候选字的权重值从大到小进行排序(但不限于按照从大到小的排序顺序,也可以按照其他方式进行排序,例如权重值从小到大的顺序等),则根据所述排序将权重值排序靠前的预定数目(例如:第一位或前N位)的所述候选词提取为关键词,其中预定数目的选择可根据实际需要自行设定。
通过采用本发明实施方式所述的方法可解决现有技术中关键词提取在国际化语言上无法工作的问题,提高关键词提取技术的通用性,使提取关键词的方式更加智能和高效。
图2示出了图1所示方法的步骤S4的具体流程图;参见图2,所述步骤S4包括:
S41,按照原始权重池中每个所述字符串包含单词个数由多至少的顺序排列所述字符串,例如:字符串“ABC”的排列顺序为“ABC”、“AB”、“BC”、“A”、“B”和“C”;
S42,由所述字符串向所述候选词查找表中的候选词进行权重投票,如果所述字符串“ABC”与候选词查找表中的候选词“ABC”匹配一致,则所述候选词“ABC”的权重值加1;
S43,当所述字符串中较长的字符串向所述候选词投票成功时,其包含的各个较短字符串则不再进行投票,也就是说,如果字符串“ABC”匹配成功,则其包含的各个较短字符串(“AB”、“BC”、“A”、“B”和“C”)则不再进行投票。从而避免了较短字符串的重复投票,提高了较长字符串的匹配率和权重值的准确性。
图3是根据本发明实施方式的提取页面中关键词的装置1的架构图;参见图3,所述装置1包括:
候选词查找表构建模块100,用于对页面的标题内容进行字符串分析得到候选词,得到的所述候选词构成候选词查找表;
短串集合模块200,用于对所述页面进行页面分析得到文字组合,得到的所述文字组合构成短串集合;
原始权重池模块300,用于对所述短串集合进行字符串分析得到字符串,得到的字符串构成原始权重池;其形式可表示为(“A,1”,“B,1”,“C,1”)或类似的形式,其中“1”表示该字符串出现的次数;
权重投票模块400,用于按照所述原始权重池中每个所述字符串包含单词个数的顺序,由所述字符串向所述候选词查找表中的候选词进行权重投票,如果所述字符串与候选词查找表中的候选词匹配一致,则增加所述候选词的权重值(例如:所述候选词的权重值加1,但不限于此,权重值可以增加其他数量);其中,所述按照所述原始权重池中每个所述字符串包含单词个数的顺序包括:按照所述原始权重池中每个所述字符串包含单词个数由多至少的顺序(例如:字符串“ABC”的排列顺序为“ABC”、“AB”、“BC”、“A”、“B”和“C”),当所述字符串中较长的字符串向所述候选词投票成功时,其包含的各个较短字符串则不再进行投票,也就是说,如果字符串“ABC”匹配成功,则其包含的各个较短字符串(“AB”、“BC”、“A”、“B”和“C”)则不再进行投票。从而避免了较短字符串的重复投票,提高了较长字符串的匹配率和权重值的准确性。
关键词提取模块500,用于按照所述候选字的权重值从大到小进行排序,(但不限于按照从大到小的排序顺序,也可以按照其他方式进行排序,例如权重值从小到大的顺序等),则根据所述排序将权重值排序靠前的预定数目(例如:第一位或前N位)的所述候选词提取为关键词,其中预定数目的选择可根据实际需要自行设定。
图4示出了图3所示的候选词查找表构建模块100的框图;参见图4,所述候选词查找表构建模块100包括:
字符串分析单元110,用于通过NGram(N元法)的方法进行所述字符串分析,将标题内容拆解为多个字符串,每个所述字符串作为一个候选词;例如:通过NGram的方法可将标题内容“ABC”进行分析,并拆解为以下多个字符串组合:“ABC”、“AB”、“BC”、“A”、“B”和“C”;
查找表构成单元120,用于将得到的所述候选词构成所述候选词查找表。
图5示出了图3所示的短串集合模块200的框图;参见图5,所述短串集合模块200包括:
页面分析单元210,用于分析所述页面中的文字内容(包括页面链接和标题内容等);
短串集合构成单元220,用于将所述文字内容与所述候选词关联的文字组合(例如:“国家主席习近平出席XX会议”或“习近平访美”等)构成短串集合(例如:“国家主席”、“习近平”、“XX会议”和“访美”等)。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件结合硬件平台的方式来实现,当然也可以全部通过硬件来实施。基于这样的理解,本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,智能手机或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本发明说明书中使用的术语和措辞仅仅为了举例说明,并不意味构成限定。本领域技术人员应当理解,在不脱离所公开的实施方式的基本原理的前提下,对上述实施方式中的各细节可进行各种变化。因此,本发明的范围只由权利要求确定,在权利要求中,除非另有说明,所有的术语应按最宽泛合理的意思进行理解。

Claims (8)

1.一种提取页面中关键词的方法,其特征在于,所述方法包括:
对页面的标题内容进行字符串分析得到候选词,得到的所述候选词构成候选词查找表;
对所述页面进行页面分析得到文字组合,得到的所述文字组合构成短串集合;
对所述短串集合进行字符串分析得到字符串,得到的字符串构成原始权重池;
按照所述原始权重池中每个所述字符串包含单词个数的顺序,由所述字符串向所述候选词查找表中的候选词进行权重投票,如果所述字符串与候选词查找表中的候选词匹配一致,则增加所述候选词的权重值;
按照所述候选词的权重值从大到小进行排序,则根据所述排序将权重值排序靠前的预定数目的所述候选词提取为关键词;
其中,所述按照所述原始权重池中每个所述字符串包含单词个数的顺序,由所述字符串向所述候选词查找表中的候选词进行权重投票包括:
按照所述原始权重池中每个所述字符串包含单词个数由多至少的顺序,当所述字符串中较长的字符串向所述候选词投票成功时,其包含的各个较短字符串则不再进行投票。
2.如权利要求1所述的方法,其特征在于,所述对页面的标题内容进行字符串分析得到候选词:
通过NGram的方法进行所述字符串分析,将标题内容拆解为多个字符串,每个所述字符串作为一个候选词。
3.如权利要求1所述的方法,其特征在于,所述对所述页面进行页面分析得到文字组合,得到的所述文字组合构成短串集合包括:
分析所述页面中的文字内容,将所述文字内容与所述候选词关联的文字组合构成短串集合。
4.如权利要求1所述的方法,其特征在于,所述根据所述排序将权重值排序靠前的预定数目的所述候选词提取为关键词包括:
将所述排序第一位的所述候选词提取为所述关键词。
5.一种提取页面中关键词的装置,其特征在于,所述装置包括:
候选词查找表构建模块,用于对页面的标题内容进行字符串分析得到候选词,得到的所述候选词构成候选词查找表;
短串集合模块,用于对所述页面进行页面分析得到文字组合,得到的所述文字组合构成短串集合;
原始权重池模块,用于对所述短串集合进行字符串分析得到字符串,得到的字符串构成原始权重池;
权重投票模块,用于按照所述原始权重池中每个所述字符串包含单词个数的顺序,由所述字符串向所述候选词查找表中的候选词进行权重投票,如果所述字符串与候选词查找表中的候选词匹配一致,则增加所述候选词的权重值;
关键词提取模块,用于按照所述候选词的权重值从大到小进行排序,则根据所述排序将权重值排序靠前的预定数目的所述候选词提取为关键词;
所述按照所述原始权重池中每个所述字符串包含单词个数的顺序,由所述字符串向所述候选词查找表中的候选词进行权重投票包括:
按照所述原始权重池中每个所述字符串包含单词个数由多至少的顺序,当所述字符串中较长的字符串向所述候选词投票成功时,其包含的各个较短字符串则不再进行投票。
6.如权利要求5所述的装置,其特征在于,所述候选词查找表构建模块包括:
字符串分析单元,用于通过NGram的方法进行所述字符串分析,将标题内容拆解为多个字符串,每个所述字符串作为一个候选词;
查找表构成单元,用于将得到的所述候选词构成所述候选词查找表。
7.如权利要求5所述的装置,其特征在于,所述短串集合模块包括:
页面分析单元,用于分析所述页面中的文字内容;
短串集合构成单元,用于将所述文字内容与所述候选词关联的文字组合构成短串集合。
8.如权利要求5所述的装置,其特征在于,所述根据所述排序将权重值排序靠前的预定数目的所述候选词提取为关键词包括:
将所述排序第一位的所述候选词提取为所述关键词。
CN201510109354.4A 2015-03-12 2015-03-12 提取页面中关键词的方法及装置 Active CN104679731B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510109354.4A CN104679731B (zh) 2015-03-12 2015-03-12 提取页面中关键词的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510109354.4A CN104679731B (zh) 2015-03-12 2015-03-12 提取页面中关键词的方法及装置

Publications (2)

Publication Number Publication Date
CN104679731A CN104679731A (zh) 2015-06-03
CN104679731B true CN104679731B (zh) 2018-05-08

Family

ID=53314795

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510109354.4A Active CN104679731B (zh) 2015-03-12 2015-03-12 提取页面中关键词的方法及装置

Country Status (1)

Country Link
CN (1) CN104679731B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915451A (zh) * 2015-06-30 2015-09-16 北京奇虎科技有限公司 在浏览器中快速定位搜索查询词的方法和浏览器
CN106202215A (zh) * 2016-06-24 2016-12-07 维沃移动通信有限公司 一种显示元素的处理方法及移动终端
CN106294596A (zh) * 2016-07-29 2017-01-04 北京小米移动软件有限公司 信息搜索的方法及装置
CN107577671B (zh) * 2017-09-19 2020-09-22 中央民族大学 一种基于多特征融合的主题词提取方法
CN112115335B (zh) * 2019-06-20 2024-05-28 百度(中国)有限公司 数据融合处理方法、装置、设备和存储介质
CN112052396A (zh) * 2020-09-28 2020-12-08 中国平安人寿保险股份有限公司 课程匹配方法、系统、计算机设备和存储介质
CN117152778B (zh) * 2023-10-31 2024-01-16 安徽省立医院(中国科学技术大学附属第一医院) 一种基于ocr的医疗器械注册证识别方法、装置及介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101196900A (zh) * 2007-12-27 2008-06-11 中国移动通信集团湖北有限公司 一种基于元数据的信息检索方法
CN102262625B (zh) * 2009-12-24 2014-02-26 华为技术有限公司 网页关键词提取方法及装置
CN102012915A (zh) * 2010-11-22 2011-04-13 百度在线网络技术(北京)有限公司 一种文档共享平台的关键词推荐方法及系统
CN102270244B (zh) * 2011-08-26 2013-03-13 四川长虹电器股份有限公司 基于核心语句的网页内容关键词快速提取方法
CN103544139A (zh) * 2012-07-13 2014-01-29 江苏新瑞峰信息科技有限公司 一种基于中文检索的正向分词方法及装置
CN103577595B (zh) * 2013-11-15 2017-09-22 北京奇虎科技有限公司 基于当前浏览页面的关键词推送方法及装置
CN103745012A (zh) * 2014-01-28 2014-04-23 广州一呼百应网络技术有限公司 一种根据产品标题智能匹配显示网页推荐信息的方法和系统

Also Published As

Publication number Publication date
CN104679731A (zh) 2015-06-03

Similar Documents

Publication Publication Date Title
CN104679731B (zh) 提取页面中关键词的方法及装置
CN111144723B (zh) 人岗匹配推荐方法及系统、存储介质
CN106776574B (zh) 用户评论文本挖掘方法及装置
Zainuddin et al. Sentiment analysis using support vector machine
US20230195773A1 (en) Text classification method, apparatus and computer-readable storage medium
CN106201465B (zh) 面向开源社区的软件项目个性化推荐方法
CN110442857B (zh) 情感智能判断方法、装置及计算机可读存储介质
CN108763213A (zh) 主题特征文本关键词提取方法
CN110134792B (zh) 文本识别方法、装置、电子设备以及存储介质
Kaibi et al. A comparative evaluation of word embeddings techniques for twitter sentiment analysis
CN106126619A (zh) 一种基于视频内容的视频检索方法及系统
EP2657852A1 (en) Method and device for filtering harmful information
CN104484380A (zh) 个性化搜索方法及装置
CN101782898A (zh) 一种情感词倾向性的分析方法
CN110362678A (zh) 一种自动提取中文文本关键词的方法与装置
CN108304509B (zh) 一种基于文本多向量表示相互学习的垃圾评论过滤方法
CN104408033A (zh) 一种文本信息提取的方法及系统
CN102081602A (zh) 确定未登录词的类别的方法和设备
CN113434636A (zh) 基于语义的近似文本搜索方法、装置、计算机设备及介质
Barnaghi et al. Text analysis and sentiment polarity on FIFA world cup 2014 tweets
CN105045808A (zh) 一种复合规则集匹配方法和系统
CN109299235A (zh) 知识库搜索方法、装置及计算机可读存储介质
CN113076735A (zh) 目标信息的获取方法、装置和服务器
CN106202038A (zh) 基于迭代的同义词挖掘方法及装置
Khalil et al. Which configuration works best? an experimental study on supervised Arabic twitter sentiment analysis

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant