CN110232112B - 文章中关键词提取方法及装置 - Google Patents
文章中关键词提取方法及装置 Download PDFInfo
- Publication number
- CN110232112B CN110232112B CN201910468815.5A CN201910468815A CN110232112B CN 110232112 B CN110232112 B CN 110232112B CN 201910468815 A CN201910468815 A CN 201910468815A CN 110232112 B CN110232112 B CN 110232112B
- Authority
- CN
- China
- Prior art keywords
- word
- weight
- article
- words
- importance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 80
- 230000011218 segmentation Effects 0.000 claims abstract description 122
- 238000000605 extraction Methods 0.000 claims abstract description 77
- 238000012216 screening Methods 0.000 claims abstract description 51
- 239000013585 weight reducing agent Substances 0.000 claims description 58
- 238000004590 computer program Methods 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 14
- 230000007246 mechanism Effects 0.000 claims description 10
- 238000012163 sequencing technique Methods 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 5
- 230000015556 catabolic process Effects 0.000 claims description 5
- 238000006731 degradation reaction Methods 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 27
- 238000004364 calculation method Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000014509 gene expression Effects 0.000 description 5
- 230000004044 response Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 235000013305 food Nutrition 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 4
- 230000019771 cognition Effects 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 235000002568 Capsicum frutescens Nutrition 0.000 description 2
- 230000000593 degrading effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003203 everyday effect Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 241000723346 Cinnamomum camphora Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 239000011324 bead Substances 0.000 description 1
- 239000006227 byproduct Substances 0.000 description 1
- 238000005266 casting Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000010287 polarization Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本公开实施例涉及计算机技术领域,提供一种文章中关键词提取方法及装置,其中,方法包括:对待进行文章中关键词提取的文章进行分割得到分割语句,并确定分割语句的位置;基于分割语句,确定分割语句的语义重要性分值;基于语义重要性分值和分割语句的位置,确定分割语句的重要性分值;基于分割语句的重要性分值确定分割语句权重;基于分割语句权重确定文章分词后的词语权重;基于词语权重对分割语句中的词语进行筛选,得到关键词。本公开实施例结合文章内容,提取得到关键词,可提高提取的关键词体现文章重要信息的准确度。
Description
技术领域
本公开涉及计算机技术领域,尤其涉及一种文章中关键词提取方法及装置。
背景技术
随着互联网技术的发展,每天有大量的文章被制造出来,其中,文章可以包括 新闻、游记、散文等类型。关键词成为人们阅读文章、快速了解文章大概内容的不可 或缺的分析工具。通过与文章主旨最贴切、表述能力最精确的关键词,可以减少用于 概括文章的词语的数量,并且可以提高人们的阅读效率以及加深对文章的理解。
相关技术中,一方面可采用人工方式提取关键词,但处理量较大,并且由于每 个人对关键词的认知不同,容易造成文章中关键词提取标准不一致。另一方面可基于 词频的关键词自动提取关键词,但此种方式基于词频的提取是将词与文章脱离,提取 后的关键词可能体现不出文章的重要信息。
综上,目前对文章中关键词的提取方式,提取准确度不高,很难使提取的关键 词精准体现文章重要信息。
发明内容
为了解决现有技术中存在的上述问题,本公开提供一种文章中关键词提取方案。
根据本公开实施例的第一方面,提供一文章中关键词提取方法,包括:文章分割步骤,对待进行文章中关键词提取的文章进行分割得到分割语句,并确定分割语句的 位置;语义重要性确定步骤,基于分割语句,确定分割语句的语义重要性分值;分割 语句重要性确定步骤,基于语义重要性分值和分割语句的位置,确定分割语句的重要 性分值;分割语句权重获取步骤,基于分割语句的重要性分值确定分割语句权重;词 语权重获取步骤,基于分割语句权重确定文章分词后的词语重要度权重,文章分词后 的词语权重包括词语重要度权重;词语筛选步骤,基于词语权重对分割语句中的词语 进行筛选,得到关键词。
在一例中,词语权重获取步骤之前,方法还包括:全局权重获取步骤,基于配置 语料库、词语在文章中的词频与逆向文件频率,确定词语全局权重;语义投票权重获 取步骤,利用投票机制对文章中的词语进行排序,得到词语语义投票权重;词语权重 还包括词语全局权重和词语的语义投票权重。
在一例中,在文章分割步骤之后,方法还包括:属性权重获取步骤,基于词语的 属性,得到词语属性权重,其中,词语的属性包括词性、词长度、特殊位置,特殊位 置包括引号内、括号内、书名号内中的至少一种;词语权重还包括词语属性权重。
在一例中,词语筛选步骤之前,方法还包括:词类型匹配步骤,确定词语与配 置词库中参照词的相似度,参照词具有参照词权重;基于相似度以及参照词权重,确 定词类型权重;词语权重还包括词语类型权重。
在一例中,方法还包括:降权系数获取步骤,基于词语与参照词中相同字的个数、参照词的字数、词语的字数,得到对参照词的词权重进行权重降级的降权系数。
在一例中,其中,在词语筛选步骤之后,方法还包括:停用词对比步骤,将关键 词与配置的停用词库中的停用词进行对比;响应于停用词库中存在与关键词相同的停 用词,去除与停用词相同的关键词。
在一例中,方法还包括:关键词排序步骤,对关键词按照关键词的词语权重进行排序,并基于排序后的关键词得到关键词列表。
在一例中,关键词排序步骤之前,方法还包括:关键词筛选步骤,针对去除与停 用词相同的关键词之后的剩余关键词,基于剩余关键词的词性,对剩余关键词进行筛 选,获得目标关键词,目标关键词具有与词语权重等值的目标关键词权重;关键词列 表基于目标关键词获得。
在一例中,语义重要性确定步骤,包括:分割语句语义重要性概率获取步骤,调 用预先训练的语义模型,并将分割语句作为语义模型的输入参数,确定分割语句语义 重要概率以及分割语句语义不重要概率;语义重要性分值确定步骤,基于分割语句语 义重要概率以及分割语句语义不重要概率,确定语义重要性分值。
在一例中,文章中包括有至少两个相同的词语;词语权重为文章中所有相同的词语的词语重要度权重之和。
本公开实施例的第二方面,提供一种文章中关键词提取方法,包括:文章分割步骤,对待进行文章中关键词提取的文章进行分割得到分割语句,并确定分割语句的位 置;分割语句重要性确定步骤,将分割语句及分割语句的位置采用句子位置重要性模 型进行预测,确定分割语句位置重要性分值;词语权重获取步骤,基于分割语句位置 重要性分值,确定文章分词后的词语权重;词语筛选步骤,基于词语权重对分割语句 中的词语进行筛选,得到关键词。
在一例中,在分割语句重要性确定步骤之前,方法还包括:模型训练步骤,采用 类型与文章类型相同的文本信息训练神经网络,获得句子位置重要性模型,文本信息 包括标注有位置重要性标识的句子。
在一例中,在词语权重获取步骤之前,方法还包括:全局权重获取步骤,基于配 置语料库、词语在文章中的词频与逆向文件频率,确定词语全局权重;语义投票权重 获取步骤,利用投票机制对文章中的词语进行排序,得到词语语义投票权重;词语权 重还包括词语全局权重和词语的语义投票权重。
在一例中,在文章分割步骤之后,方法还包括:属性权重获取步骤,基于词语的 属性,得到词语属性权重,其中,词语的属性包括词性、词长度、特殊位置,特殊位 置包括引号内、括号内、书名号内中的至少一种;词语权重还包括词语属性权重。
在一例中,在词语筛选步骤之前,方法还包括:词类型匹配步骤,确定词语与配 置词库中参照词的相似度,参照词具有参照词权重;若相似度小于预设阈值,则对参 照词权重进行权重降级,并将降级后的参照词权重作为词语类型权重;若相似度大于 或等于预设阈值,则将参照词权重作为词语类型权重;基于参照词权重与相似度获取 词语类型权重;词语权重还包括词语类型权重。
在一例中,方法还包括:降权系数获取步骤,基于词语与参照词中相同字的个数、参照词的字数、词语的字数,得到对参照词的词权重进行权重降级的降权系数。
在一例中,在词语筛选步骤之后,方法还包括:关键词排序步骤,对关键词按照 关键词的词语权重进行排序,并基于排序后的关键词得到关键词列表。
在一例中,在关键词排序步骤之前,方法还包括:关键词筛选步骤,针对去除与 停用词相同的关键词之后的剩余关键词,基于剩余关键词的词性,对剩余关键词进行 筛选,获得目标关键词,目标关键词具有与词语权重等值的目标关键词权重;关键词 列表基于目标关键词获得。
在一例中,文章中包括有至少两个相同的词语;词语权重为文章中所有相同的词语的词语重要度权重之和。
根据本公开实施例的第三方面,提供一种文章中关键词提取装置,包括:文章 分割单元,用于对待进行文章中关键词提取的文章进行分割得到分割语句,并确定分 割语句的位置;语义重要性确定单元,用于基于分割语句,确定分割语句的语义重要 性分值;分割语句重要性确定单元,用于基于语义重要性分值和分割语句的位置,确 定分割语句的重要性分值;分割语句权重获取单元,用于基于分割语句的重要性分值 确定分割语句权重;词语权重获取单元,用于基于分割语句权重确定文章分词后的词 语重要度权重,文章分词后的词语权重包括词语重要度权重;词语筛选单元,用于基 于词语权重对分割语句中的词语进行筛选,得到关键词。
在一例中,装置还包括:全局权重获取单元,用于基于配置语料库、词语在文章 中的词频与逆向文件频率,确定词语全局权重;语义投票权重获取单元,用于利用投 票机制对文章中的词语进行排序,得到词语语义投票权重;词语权重还包括词语全局 权重和词语的语义投票权重。
在一例中,装置还包括:属性权重获取单元,用于基于词语的属性,得到词语属 性权重,其中,词语的属性包括词性、词长度、特殊位置,特殊位置包括引号内、括 号内、书名号内中的至少一种;词语权重还包括词语属性权重。
在一例中,装置还包括:词类型匹配单元,用于确定词语与配置词库中参照词 的相似度,参照词具有参照词权重;基于参照词权重与相似度获取词语类型权重;词 语权重还包括词语类型权重。
在一例中,装置还包括:降权系数获取单元,用于基于词语与参照词中相同字 的个数、参照词的字数、词语的字数,得到对参照词的词权重进行权重降级的降权系 数。
在一例中,装置还包括:停用词对比单元,用于将关键词与配置的停用词库中的停用词进行对比;响应于停用词库中存在与关键词相同的停用词,去除与停用词相同 的关键词。
在一例中,装置还包括:关键词排序单元,用于对关键词按照关键词的词语权 重进行排序,并基于排序后的关键词得到关键词列表。
在一例中,装置还包括:关键词筛选单元,用于针对去除与停用词相同的关键 词之后的剩余关键词,基于剩余关键词的词性,对剩余关键词进行筛选,获得目标关 键词,目标关键词具有与词语权重等值的目标关键词权重;关键词列表基于目标关键 词获得。
在一例中,语义重要性确定单元,包括:分割语句语义重要性概率获取模块, 用于调用预先训练的语义模型,并将分割语句作为语义模型的输入参数,确定分割语 句语义重要概率以及分割语句语义不重要概率;语义重要性分值确定模块,用于基于 分割语句语义重要概率以及分割语句语义不重要概率,确定语义重要性分值。
在一例中,文章中包括有至少两个相同的词语;词语权重为文章中所有相同的词语的词语重要度权重之和。
根据本公开实施例的第四方面,提供一种文章中关键词提取装置,包括:文章 分割单元,用于对待进行文章中关键词提取的文章进行分割得到分割语句,并确定分 割语句的位置;分割语句重要性确定单元,用于将分割语句及分割语句的位置采用句 子位置重要性模型进行预测,确定分割语句位置重要性分值;词语权重获取单元,用 于基于分割语句位置重要性分值,确定文章分词后的词语权重;词语筛选单元,用于 基于词语权重对分割语句中的词语进行筛选,得到关键词。
在一例中,装置还包括:模型训练单元,用于采用类型与文章类型相同的文本信息训练神经网络,获得句子位置重要性模型,文本信息包括标注有位置重要性标识的 句子。
根据本公开实施例的第五方面,提供一种电子设备,其中,包括:存储器,用 于存储计算机程序;处理器,用于执行存储器中存储的计算机程序,且计算机程序被 执行时,实现上述任一实施例的方法。
根据本公开实施例的第六方面,提供一种计算机可读存储介质,存储有计算机 程序,其中,计算机程序被处理器执行时,实现上述任一实施例的方法。
基于本公开实施例的文章中关键词提取方法及装置、电子设备、计算机可读存储介质,通过基于语义重要性分值和分割语句的位置,确定分割语句的重要性分值,结 合文章语义与分割句的位置重要性,避免了提取的关键词与文章主旨。基于分割语句 的重要性分值确定分割语句权重;基于分割语句权重确定文章分词后的词语权重;基 于词语权重对分割语句中的词语进行筛选,得到关键词。提高了提取的关键词体现文 章重要信息的准确度。
附图说明
通过参考附图阅读下文的详细描述,本公开实施方式的上述以及其他目的、特 征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的若 干实施方式,其中:
图1示出了本公开文章中关键词提取方法一个实施例的流程示意图;
图2示出了本公开文章中关键词提取方法另一实施例的流程示意图;
图3示出了本公开文章中关键词提取方法另一实施例的流程示意图;
图4示出了本公开文章中关键词提取方法另一实施例的流程示意图;
图5示出了本公开文章中关键词提取方法另一实施例的流程示意图;
图6示出了本公开文章中关键词提取方法另一实施例的流程示意图;
图7示出了本公开文章中关键词提取方法另一实施例的流程示意图;
图8示出了本公开文章中关键词提取方法另一实施例的流程示意图;
图9示出了本公开文章中关键词提取装置一个实施例的结构示意图;
图10示出了本公开文章中关键词提取装置另一实施例的结构框图;
图11示出了本公开文章中关键词提取装置另一实施例的结构框图;
图12示出了本公开文章中关键词提取装置另一实施例的结构框图;
图13示出了本公开文章中关键词提取装置另一实施例的结构框图;
图14示出了本公开文章中关键词提取装置另一实施例的结构框图;
图15示出了本公开文章中关键词提取装置另一实施例的结构框图;
图16示出了本公开文章中关键词提取装置另一实施例的结构框图;
图17示出了本公开电子设备的一个实施例的结构示意图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解,给出 这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开,而并非 以任何方式限制本公开的范围。
需要注意,虽然本文中使用“第一”、“第二”等表述来描述本公开的实施方 式的不同模块、步骤和数据等,但是“第一”、“第二”等表述仅是为了在不同的模 块、步骤和数据等之间进行区分,而并不表示特定的顺序或者重要程度。实际上,“第 一”、“第二”等表述完全可以互换使用。
本公开实施例可以应用于终端设备、计算机系统及服务器等电子设备,其可与 众多其它通用或者专用的计算系统环境或者配置一起操作。适于与终端设备、计算机 系统以及服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或 配置的例子,包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客 户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络 个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技 术环境,等等。
终端设备、计算机系统以及服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例 程、程序、目标程序、组件、逻辑以及数据结构等等,它们执行特定的任务或者实现 特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式 云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算 环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
由于本公开的文章中关键词提取方法适用于多种文章进行关键词的提取,如新闻、游记、散文等类型,以下实施例仅以游记为例对本公开的文章中关键词提取方法 进行详细阐述。
游记内容通常为较长的文本信息,关键词是对游记文本的缩略表达,从游记文 本中提取关键词,是搜索和推荐所使用的基本元素。关键词是针对游记内容的一层抽 象,能够包含游记中必要的关键信息。随着现在经济的发展,出游人群也越来越多, 每天都会有大量的游记内容产生。
图1为本公开文章中关键词提取方法一个实施例的流程图。如图1所示,该实 施例方法包括:文章分割步骤100、语义重要性确定步骤200、分割语句重要性确定 步骤300、分割语句权重获取步骤400、词语权重获取步骤500以及词语筛选步骤600。 下面对图1中的各步骤进行详细说明。
基于本公开实施例是对文章进行关键词提取,在进行本公开实施例的方法步骤之前可以基于结构化感知机对文章内容进行分词,并对分词后得到的词语进行词性标 注。在一例中,可以通过采用“_”标识符进行分词,采用词性的英文简称在“_”后 标注词性。例如“名词”的英文为noun,“动词”的英文为verb,可以采用“n”作 为名词简称,采用“v”作为动词简称,其他词性简称在此不再一一列举。在一具体 示例中,“跟尼泊尔的缘分大概要追溯到7年前了,那是2012年离开职场开始独自 背包旅行,计划之外的决定去了珠峰,却错过了从樟木口岸前往尼泊尔”这一文章中 的部分文字,分词后结果为“跟_p尼泊尔_ns的_u缘分_n大概_d要_v追溯_v到 _v 7年_t前_f了_y,_w那_r是_v 2012年_t离开_v职场_n开始_v独自_d背 包_v旅行_v,_w计划_n之外_f的_u决定_n去_v了_u珠峰_ns,_w却_d错 过_v了_u从_p樟木_ns口岸_n前往_v尼泊尔_ns。_w”。
文章分割步骤100,对待进行文章中关键词提取的文章进行分割得到分割语句,并确定分割语句的位置。
在一个实施例中,对游记类型的文章进行分割,标记出段落;对段落进行分割, 标记出分割句;对分割句进行分割并标记出每一个分词后的词语。记录每个词语所在 分割句的位置,该位置包括章节号、段落号和分割句序号。根据换行符来确定段落, 根据标点符号来确定分割语句,标点符号包括逗号、句号、分号等。对游记进行分割 后,对于游记中的每一个词语,可以通过章节号(即第几章)、段落号(即第几段)、 分割句序号(即当前段落中的第几句)组合后的位置标识进行标注。
语义重要性确定步骤200,基于分割语句,确定分割语句的语义重要性分值。
在一些实施例中,分割语句的语义重要性分值可以通过分割语句的语义重要性概率计算得到。具体地,语义重要性确定步骤200可以包括分割语句语义重要性概率获 取步骤210以及语义重要性分值获取步骤220。图2示出了本公开文章中关键词提取 方法的另一些实施例的流程示意图,参照图2,本实施例的分割语句语义重要性概率 获取步骤210,调用预先训练的语义模型,并将分割语句作为语义模型的输入参数, 确定分割语句语义重要概率以及分割语句语义不重要概率。
采用游记对待训练模型进行训练,得到语义模型。游记的每个分割语句作为一 个输入,重要不重要作为分类标签,输入一个词的序列(一段文本或者一句话),输 出这个词序列属于不同类别标签的概率。分割句中的词和词组组成特征向量,特征向 量通过线性变换映射到中间层,中间层再映射到标签。在预测标签时使用非线性激活 函数,在中间层不使用非线性激活函数。例如,选择10000篇游记作为训练样本,人 工标注出样本中每个分割句是否重要。比如“吉隆是个很小的镇子”就是重要的句子, 设置得分为1,“每每这种时刻”就是不重要的句子,设置得分为0等,训练该待训 练模型。基于上下文关系、语义内容来学习训练,进行语义重要性模型训练,得到一 个根据输入分割句来判断该分割句是否重要的语义模型。
使用训练后得到的语义模型对分割句重要的概率以及不重要的概率进行预测,将待分析游记的每个分割句输入到该语义模型中进行预测,得到每个分割语句的重要 概率Pfast_pos,以及不重要概率Pfast_neg。
语义重要性分值获取步骤220,基于分割语句语义重要概率以及分割语句语义 不重要概率,确定语义重要性分值。
基于分割语句的重要概率Pfast_pos,以及不重要概率Pfast_neg计算句子语义重要性得分,该得分可以使用上述两者的除法、减法、或者其他运算方法,在此不做具体限 定,比如该得分可以是Pfast_pos/Pfast_neg,也可以是Pfast_pos+Pfast_neg等。
由于游记是通过句子来表达完整的意思,通过确定分割语句的语义重要性,可 以在关键词提取的过程中缩小关键词的提取范围,即,可以在语义重要性分数较高的 分割语句中提取关键词。
分割语句重要性确定步骤300,基于语义重要性分值和分割语句的位置,确定 分割语句的重要性分值。
在一些实施例中,将分割语句、语义重要性得分,以及分割语句的位置标识, 即分割语句章节号、段落号以及分割语句序号,作为输入特征,训练得到判断句子是 否重要的位置模型。使用该模型进行游记中分割句的预测,可以获得一个重要的概率 Pxgb_pos和一个不重要的概率Pxgb_neg,使用Pxgb_pos/Pxgb_neg(或者其他的计算方法,在此不做 限定)作为最终的分割语句的重要性分值wxgb。为防止过于两极化,对阈值进行控制, 限制此wxgb的范围为0.05-19。对于一篇游记中的所有分割句,可得出一个最大值 wxgb_max和一个最小值wxgb_min。
分割语句权重获取步骤400,基于分割语句的重要性分值确定分割语句权重。
在一些实施例中,使用min-max方法进行对分割语句的重要性分值归一化处理 得到分割语句权重。其中,可以采用如下公式对分割语句权重的计算:
Y=(x-xmin)/(xmax-xmin)公式(一)
其中,Y为分割语句的重要性分值,在采用公式(一)计算分割语句重要性分 值的过程中x代入待测分割语句的语义重要性分值,xmin代入游记中分割句重要性分 值的最小值wxgb_min,xmax代入游记中分割句重要性分值的最大值wxgb_max。通过归一化处 理得到的值即为分割语句权重。
通过分割句、分割语句的语义重要性分值以及分割语句的位置信息获得的分割语句权重,可体现该分割语句在整篇游记中的重要程度,通过分割语句权重可确定关 键词提取的范围,以保障提取的关键词能够体现游记中的重要信息。
词语权重获取步骤500,基于分割语句权重确定文章分词后的词语重要度权重,文章分词后的词语权重包括词语重要度权重。
在一些实施例中,分词后的某一词语在游记中只出现一次,该游记中的分割语 句权重可以直接作为分词后的词语的重要性权重。基于分词后的的词语在游记中出现 至少两次,即游记中包括有至少两个相同的词语;词语权重可以是文章中所有相同词 语的词语重要度权重之和。对文章中的词进行遍历,对相同的词语做词语重要度权重 的加和,即位置权重与词频的结合。例如某一词语在游记中共出现了n次,则词语权 重计算得到wt的公式为:其中,wl为词语在某一分割语句中的词语重要 性权重,词语重要度权重基于分割语句权重确定,其具体形式可以是词语重要度权重 与分割语句权重相等。
通过确定词语权重,可以通过数据直接得知该词语在整篇游记中的重要性,包 括语义重要性以及位置重要性。避免了人为提取关键词时对关键词的认知不同,可能 出现标准不一致的情况产生,提高了关键词提取的准确性以及公平性。
词语筛选步骤600,基于词语权重对分割语句中的词语进行筛选,得到关键词。 可以作为特征用于文章内容的分类,聚类,也可以用于后续的目的地提取,POI提取, 作为推荐算法的召回通道等等。
每一种类型的文章都具有其特殊的文本形式,其关注的重要内容各有不同,例如,游记关注的重要信息是旅游方面的内容,景点、节日、城市特点等;新闻关注的 重要信息是时间、事件、地点、事件影响等;散文关注的是情感表达等。根据每一种 类型的文章提取能够表达其重要内容的关键词,同一词语可能在不同类型的文章中的 重要程度不同,造成词语权重不同。
在游记类型的文章通常篇幅较长,作者一般以时间线来贯穿全文,且没有固定 的事件和中心思想,主要是以一种记叙的方式来记录一次旅行的过程,除了极少数词 会出现多次,大部分词汇都只出现了一次两次。因此使用与新闻类似的以词频为主的 关键词提取算法在游记内容上表现不佳。同时,游记由于通常由广大的用户生产,而 不是由专业的写作编辑生产,在句子的书写规范,句子形式以及用词上往往有较大的 差异,使用基于句式特点的关键词提取效果也不是很好。而游记所包含的重要信息往 往都分布在一些特定的位置,比如一般会在开头做一些总述性的描述,在新一章节的 开始交代一天的行程等等,与位置的关系较强。故,本公开实施例中在进行关键词提 取时,结合语义重要性与位置重要性能更好地从多维度体现关键词的特点。
本实施例基于词语权重对分割语句中的词语进行筛选后获得关键词。词语权重越高的关键词,其越能概括文章的重要信息。基于词语权重筛选后的关键词能够结合 语义信息以及位置信息,提高对文章重要信息的概括,更准确表达文章的主旨内容。
图3示出了本公开文章中关键词提取方法的另一些实施例的流程示意图,如图 3所示,本实施例的文章中关键词提取方法还包括:全局权重获取步骤700与语义投 票权重获取步骤800,其中,
全局权重获取步骤700,基于配置语料库、词语在文章中的词频与逆向文件频 率,确定词语全局权重。
语料库中存放的是在语言的实际使用中真实出现过的语言材料;语料库是以电子计算机为载体承载语言知识的基础资源。词频为某个词语在文章中出现的次数,逆 向文件频率为:以配置语料库中的文章总数与包含该词语的文章数加1后的文章总数 的比值为真数,固定的(0,+∞)中任意值为底的对数。通过词频与逆向文件频率的 乘积确定词语全局权重wf。其中,词语全局权重与词语在文章中的出现次数成正比, 与该词语在整个语料库中的出现次数成反比。由此可知,词语全局权重越高的词语在 文章中出现的次数越多,越低的词在文章中出现的次数越少。
在本实施例中,通过以“词频”衡量词语在文章中的重要性结合上述的词语重 要度权重,不仅可以在数量方面体现词语的重要性,还可以在语义重要性以及位置重 要性方面对关键词提取准确性做出贡献。
语义投票权重获取步骤800,利用投票机制对文章中的词语进行排序,得到词 语语义投票权重。
在一些实施例中通过把文章分割成若干分割句以及词语,并建立图模型,利用投票机制对文本中的重要成分进行排序,仅利用单篇文档本身的信息即可实现关键词提 取。可以表示为一个有向有权图G=(V,E),由点集合V和边集合E组成,E是V×V的 子集。任两点Vi,Vj之间边的权重为wji,对于一个给定的点Vi,In(Vi)为指向该点的 点集合,Out(Vi)为点Vi指向的点集合。点Vi的得分定义如下:
其中,d为阻尼系数,取值范围为0到1,代表从图中某一特定点指向其他任意点 的概率,一般取值为0.85;k∈(1,i)。计算图中各点的得分时,需要给图中的点指 定任意的初值,并递归计算直到收敛,即图中任意一点的误差率小于给定的极限值时 就可以达到收敛,一般该极限值取0.0001。
本实施例中,通过计算得出的Vi的得分WS(Vi)可以得出词语的投票语义权重 wr,用于筛选分割语句中词语的词语权重还可以包括词语的语义投票权重wr。
图4示出了本公开文章中关键词提取方法的另一些实施例的流程示意图,如图 4所示,本实施例的文章中关键词提取方法还可以包括属性权重获取步骤900,基于 词语的属性,得到词语属性权重,其中,词语的属性包括词性、词长度、特殊位置, 特殊位置包括引号内、括号内、书名号内中的至少一种;词语权重还包括词语属性权 重。
在一些实施例中,根据词性、词长度给出的属性权重可以是正值,也可以是负 值,具体的可以使用预先制定的策略或者训练的模型给出。其中,在游记内容中,名 词提供有效价值的可能性更高,动词稍差,数量词和时间词也会有一定的贡献,而对 于助词,副词,介词这种词没有什么价值,甚至会影响判断,因此名词,动词会给予 正值,而助词,副词,介词等会给予负值,根据词性给出的属性权重记为wp,根据词 语词长度给出的属性权重记为wc。根据特殊位置给出的属性权重为正值,如引号内、 括号内、书名号内等词语给出一个特殊位置的属性权重wd。这些特殊位置,往往是一 些有价值的词语,因此会给予一个加分。比如本文中出现“《高山上的夏尔巴人》”, 高山上的夏尔巴人就是一个比较有意义的词语,是作者提到的一个跟尼泊尔相关的电 影名称。
在一些实施例中,词语权重还可以包括词语属性权重。通过将词语的属性权重 作为词语权重的一部分,可以进一步体现出文章类型,提高关键词体现游记类型文章 重要信息的准确性。
图5示出了本公开文章中关键词提取方法的另一些实施例的流程示意图,如图 5所示,本实施例的文章中关键词提取方法还可以包括词类型匹配步骤1000,具体地, 确定词语与配置词库中参照词的相似度,参照词具有参照词权重;若相似度小于预设 阈值,则对参照词权重进行权重降级,并将降级后的参照词权重作为词语类型权重; 若相似度大于或等于预设阈值,则将参照词权重作为词语类型权重;词语权重还包括 词语类型权重we。
在一些实施例中,参照词库可以是实体词库,根据预先收集整理好的旅行实体 词库,把能够体现游记的实体词划分为目的地词、POI词、景色实体词、玩法实体词、 食物实体词、行前准备实体词等一系列的实体词,其中,POI是基于位置服务的最核 心数据,在电子地图上运用场景广泛,如导航前选择的目的地、查看周边的餐馆等。
每一种类型的实体词都会有一个不同的重要度分数。比如“尼泊尔”就是一个 目的地词,“辣椒油”是一个食物类实体词。使用游记中的词语与实体词库中的词进 行匹配,以及进行命名实体识别,对于能完全匹配的词使用该实体词库原有的重要度 权重分数,对于识别到的相似词汇对实体词权重分数降级,其中,δ可以作为降权系 数。
图6示出了本公开文章中关键词提取方法的另一些实施例的流程示意图,如图 6所示,本实施例的文章中关键词提取方法还可以包括降权系数获取步骤1100,基于 词语与参照词中相同字的个数、参照词的字数、词语的字数,得到对参照词的词权重 进行权重降级的降权系数。
计算降权系数方法可以参照如下方式进行:首先对于相似的实体,比如实体词 库中的实体为“珠穆拉玛峰”,找到相似的词为“珠峰”。相同的字的个数为same=2, 不同的字的个数为diff=3,“珠穆拉玛峰”的长度为lena=5,“珠峰”的长度为 lenb=2。那么降权系数可以表示为:
δ=same/(diff+|lena-lenb|)≈0.33
其中,降权后的词类型权重wv=δwe。
本实施例中的词语权重可以为wt+wr+wf+wp+wc+wd+we计算后获得的最终值,或者也可以为wt+wr+wf+wp+wc+wd+wv计算得出的最终值。
图7示出了本公开文章中关键词提取方法的另一些实施例的流程示意图,如图 7所示,本实施例的文章中关键词提取方法在词语筛选步骤600之后还可以包括停用 词对比步骤1200,具体地,将关键词与配置的停用词库中的停用词进行对比;响应 于停用词库中存在与关键词相同的停用词,去除与停用词相同的关键词。
本实施例中,停用词是指在信息检索中,为节省存储空间和提高搜索效率,在 处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被 称为停用词。这些停用词都是人工输入、非自动化生成的,生成后的停用词会形成一 个停用词表。本实施例通过在获得的关键词中去除与停用词相同的关键词,可以提高 关键词提取效率及精简性。
图8示出了本公开文章中关键词提取方法的另一些实施例的流程示意图,如图 8所示,本实施例的文章中关键词提取方法在停用词对比步骤1200之后,还可以包 括关键词排序步骤1300,对目标关键词按照目标关键词权重进行排序,并基于排序 后的目标关键词得到关键词列表。
本实施例的关键词列表中按照关键词在游记中对应的词语权重进行排序,提取得到的目标关键词在旅行兴趣方面的效果佳。提取后的关键词可以准确概括游记中的 重要信息且没有多余关键词。
继续参照图8,在获取关键词之后,还可以对获取得到的关键词进行关键词筛 选步骤1400,具体地,针对去除与停用词相同的关键词之后的剩余关键词,基于剩 余关键词的词性,对剩余关键词进行筛选,获得目标关键词,目标关键词具有与词语 权重等值的目标关键词权重。
在一些实施例中,语气助词、副词、介词、连接词等,通常自身并无明确的意 义,只有将其放入一个完整的句子中才有一定作用,为了能够避免这些词语对提取的 关键词的影响,将上述词性的关键词从去除了与停用词相同的关键词之后的剩余关键 词中去掉。获得能够表达具体意思并能够概括游记重要信息的目标关键词,作为最终 的游记的关键词。
本公开实施例还提供一种文章中关键词提取方法,其中,文章分割步骤,对待 进行文章中关键词提取的文章进行分割得到分割语句,并确定分割语句的位置;分割 语句重要性确定步骤,将分割语句及分割语句的位置采用句子位置重要性模型进行预 测,确定分割语句位置重要性分值;词语权重获取步骤,基于分割语句位置重要性分 值,确定文章分词后的词语权重;词语筛选步骤,基于词语权重对分割语句中的词语 进行筛选,得到关键词。
本实施例中,文章分割步骤、词语筛选步骤可分别参照前述实施例中所涉及的 文章分割步骤100、词语筛选步骤600进行理解,在此不再一一赘述。现只对本实施 例中分割语句重要性确定步骤、词语权重获取步骤进行具体阐述。
分割语句重要性确定步骤中,可以通过训练神经网络模型得到句子位置重要性模型。采用类型与文章类型相同的文本信息训练神经网络,获得句子位置重要性模型, 文本信息包括标注有位置重要性标识的句子。可以采用多篇类型相同的文章,比如 1000篇游记、新闻等输入神经网络模型,在输入的多篇类型相同的文章中人工标记 出重要位置的句子。通过上述多篇类型相同的文章训练后得到的神经网络模型,可具 备预测文章中句子位置重要性的能力。神经网络模型训练后得到的句子位置重要性模 型可以采用输出分值的方式得到待预测的分割语句的重要性。
与语句重要性确定步骤相对应的,词语权重获取步骤可以是基于分割语句位置重要性分值,确定文章分词后的词语权重。本实施例中,关键词是基于整篇文章提取 得到的,提取得到的关键词在文章中的位置可以是段首、句首、句中的任何一个位置, 本实施例对关键词在句中的位置不做限定。
本实施例的文章中关键词提取方法还可以包括全局权重获取步骤、语义投票权重获取步骤、属性权重获取步骤、词类型匹配步骤、降权系数获取步骤、关键词排序步 骤、关键词筛选步骤中的一项或者多项。其中,全局权重获取步骤,基于配置语料库、 词语在文章中的词频与逆向文件频率,确定词语全局权重;语义投票权重获取步骤, 利用投票机制对文章中的词语进行排序,得到词语语义投票权重;词语权重还包括词 语全局权重和词语的语义投票权重。属性权重获取步骤,基于词语的属性,得到词语 属性权重;词语权重还包括词语属性权重。词类型匹配步骤,确定词语与配置词库中 参照词的相似度,参照词具有参照词权重;基于相似度以及参照词权重,确定词类型 权重;词语权重还包括词语类型权重。降权系数获取步骤,基于词语与参照词中相同 字的个数、参照词的字数、词语的字数,得到对参照词的词权重进行权重降级的降权 系数。关键词排序步骤,对关键词按照关键词的词语权重进行排序,并基于排序后的 关键词得到关键词列表。关键词筛选步骤,针对去除与停用词相同的关键词之后的剩 余关键词,基于剩余关键词的词性,对剩余关键词进行筛选,获得目标关键词,目标 关键词具有与词语权重等值的目标关键词权重;关键词列表基于目标关键词获得。
基于相同的构思,本公开实施例还提供一种文章中关键字提取装置。图9示出 了本公开文章中关键词提取装置一个实施例的结构示意图。该文章中关键字提取装置 可用于多种类型的文章中的关键字进行提取,其中,多种类型的文章包括游记、新闻、 小说等。该文章中关键字提取装置包括文章分割单元10、语义重要性确定单元20、 分割语句重要性确定单元30、分割语句权重获取单元40、词语权重获取单元50、词 语筛选单元60,其中,
文章分割单元10用于对待进行文章中关键词提取的文章进行分割得到分割语句,并确定分割语句的位置;语义重要性确定单元20用于基于分割语句,确定分割 语句的语义重要性分值;分割语句重要性确定单元30,用于基于语义重要性分值和 分割语句的位置,确定分割语句的重要性分值;分割语句权重获取单元40用于基于 分割语句的重要性分值确定分割语句权重;词语权重获取单元50用于基于分割语句 权重确定文章分词后的词语重要度权重,文章分词后的词语权重包括词语重要度权 重;词语筛选单元60用于基于词语权重对分割语句中的词语进行筛选,得到关键词。
在一些实施例中,基于本公开实施例是对文章进行关键词提取,在进行本公开 实施例的方法步骤之前可以基于结构化感知机对文章内容进行分词,并对分词后得到 的词语进行词性标注。其具体的分词方式与分词后的标注形式可以参照上述实施例中 的分词方式进行,也可以是现有技术中可以实现分词以及词性标注的多种形式,本实 施例在此不做限定。
文章分割单元10对游记类型的文章进行分割,标记出段落;对段落进行分割, 标记出分割句;对分割句进行分割并标记出每一个分词后的词语。记录每个词语所在 分割句的位置,该位置包括章节号、段落号和分割句序号。根据换行符来确定段落, 根据标点符号来确定分割语句,标点符号包括逗号、句号、分号等。对游记进行分割 后,对于游记中的每一个词语,可以通过章节号(即第几章)、段落号(即第几段)、 分割句序号(即当前段落中的第几句)组合后的位置标识进行标注。
在一些实施例中,语义重要性确定单元20在获取分割语句的语义重要性分值可以通过分割语句的语义重要性概率计算得到。具体地,语义重要性确定单元20可以 包括分割语句语义重要性概率获取模块21以及语义重要性分值获取模块22。图10 示出了本公开文章中关键词提取装置的另一些实施例的结构框图,参照图10,本实 施例的分割语句语义重要性概率获取模块21用于调用预先训练的语义模型,将分割 语句作为语义模型的输入参数,确定分割语句重要概率Pfast_pos,以及不重要概率 Pfast_neg。
语义重要性分值获取模块22基于分割语句的重要概率Pfast_pos,以及不重要概率Pfast_neg计算句子语义重要性得分,该得分可以使用上述两者的除法、减法、或者其他 运算方法,在此不做具体限定,比如该得分可以是Pfast_pos/Pfast_neg,也可以是 Pfast_pos+Pfast_neg等。具体的运算可以通过设置配置文件对本市实施例的语义重要性分值 获取模块22进行配置,已得到预期的语义重要性分值。
分割语句重要性确定单元30将分割语句、语义重要性得分,以及分割语句的位 置标识,即分割语句章节号、段落号以及分割语句序号,作为输入特征,训练得到判 断句子是否重要的位置模型。使用该模型进行游记中分割句的预测,可以获得一个重 要的概率Pxgb_pos和一个不重要的概率Pxgb_neg,使用Pxgb_pos/Pxgb_neg(或者其他的计算方法, 在此不做限定)作为最终的分割语句的重要性分值wxgb。对于一篇游记中的所有分割 句,可得出一个最大值wxgb_max和一个最小值wxgb_min。
分割语句权重获取单元40使用min-max方法进行对分割语句的重要性分值归一化处理得到分割语句权重。通过分割句、分割语句的语义重要性分值以及分割语句的 位置信息获得的分割语句权重,可体现该分割语句在整篇游记中的重要程度,通过分 割语句权重可确定关键词提取的范围,以保障提取的关键词能够体现游记中的重要信 息。
在一些实施例中,分词后的某一词语在游记中只出现一次,该游记中的分割语 句权重可以直接作为分词后的词语的重要性权重。基于分词后的的词语在游记中出现 至少两次,即游记中包括有至少两个相同的词语;词语权重可以是文章中所有相同词 语的词语重要度权重之和。词语权重获取单元50对文章中的词进行遍历,对相同的 词语做词语重要度权重的加和,即位置权重与词频的结合。通过词语权重获取单元 50确定的词语权重,使得人们可以通过数据直接得知该词语在整篇游记中的重要性, 包括语义重要性以及位置重要性。避免了人为提取关键词时对关键词的认知不同,可 能出现标准不一致的情况产生,提高了关键词提取的准确性以及公平性。
本实施例的词语筛选单元60基于词语权重对分割语句中的词语进行筛选后获 得关键词。词语权重越高的关键词,其越能概括文章的重要信息。基于词语权重筛选 后的关键词能够结合语义信息以及位置信息,提高对文章重要信息的概括,更准确表 达文章的主旨内容。
图11示出了本公开文章中关键词提取装置的另一些实施例的结构框图。如图 11所示,本实施例的文章中关键词提取装置还包括:全局权重获取单元70,用于基 于配置语料库、词语在文章中的词频与逆向文件频率,确定词语全局权重;语义投票 权重获取单元80,用于利用投票机制对文章中的词语进行排序,得到词语的语义投 票权重。
全局权重获取单元70通过词频与逆向文件频率的乘积确定词语全局权重wf。其中,词语全局权重与词语在文章中的出现次数成正比,与该词语在整个语料库中的出 现次数成反比。由此可知,词语全局权重越高的词语在文章中出现的次数越多,越低 的词在文章中出现的次数越少。
语义投票权重获取单元80通过把文章分割成若干分割句以及词语,并建立图模型,利用投票机制对文本中的重要成分进行排序,仅利用单篇文档本身的信息即可实 现关键词提取。
在本实施例中,通过以“词频”衡量词语在文章中的重要性得出的词语全局权 重wf、词语的语义投票权重wr结合上述的词语重要度权重,不仅可以在数量方面体 现词语的重要性,还可以在语义重要性以及位置重要性方面对关键词提取准确性做出 贡献。
图12示出了本公开文章中关键词提取装置的另一些实施例的结构框图。如图 12所示,本实施例的文章中关键词提取装置相对于图9所示实施例还可以包括,属 性权重获取单元90,用于基于词语的属性,得到词语属性权重。其中,词语的属性 包括词性、词长度、特殊位置,特殊位置包括引号内、括号内、书名号内中的至少一 种。
根据词性、词长度给出的属性权重可以是正值,也可以是负值,具体的可以使 用预先制定的策略或者训练的模型给出。其中,在游记内容中,名词提供有效价值的 可能性更高,动词稍差,数量词和时间词也会有一定的贡献,而对于助词,副词,介 词这种词没有什么价值,甚至会影响判断,因此名词,动词会给予正值,而助词,副 词,介词等会给予负值,根据词性给出的属性权重记为wp,根据词语词长度给出的属 性权重记为wc。根据特殊位置给出的属性权重为正值,如引号内、括号内、书名号内 等词语给出一个特殊位置的属性权重wd。这些特殊位置,往往是一些有价值的词语, 因此会给予一个加分。比如本文中出现“《高山上的夏尔巴人》”,高山上的夏尔巴 人就是一个比较有意义的词语,是作者提到的一个跟尼泊尔相关的电影名称。
在一些实施例中,词语权重还可以包括词语属性权重。通过将词语的属性权重 作为词语权重的一部分,可以进一步体现出文章类型,提高关键词体现游记类型文章 重要信息的准确性。
图13示出了本公开文章中关键词提取装置的另一些实施例的结构框图。如图 13所示,本实施例的文章中关键词提取装置相对于图9所示实施例还可以包括,词 类型匹配单元1。具体地,词类型匹配单元1用于确定词语与配置词库中参照词的相 似度,参照词具有参照词权重;若相似度小于预设阈值,则对参照词权重进行权重降 级,并将降级后的参照词权重作为词语类型权重;若相似度大于或等于预设阈值,则 将参照词权重作为词语类型权重;词语权重还包括词语类型权重we。
在一些实施例中,参照词库可以是实体词库,根据预先收集整理好的旅行实体 词库,把能够体现游记的实体词划分为目的地词、POI词、景色实体词、玩法实体词、 食物实体词、行前准备实体词等一系列的实体词,其中,POI是基于位置服务的最核 心数据,在电子地图上运用场景广泛,如导航前选择的目的地、查看周边的餐馆等。
每一种类型的实体词都会有一个不同的重要度分数。比如“尼泊尔”就是一个 目的地词,“辣椒油”是一个食物类实体词。使用游记中的词语与实体词库中的词进 行匹配,以及进行命名实体识别,对于能完全匹配的词使用该实体词库原有的重要度 权重分数,对于识别到的相似词汇对实体词权重分数降级,其中,δ可以作为降权系 数。
图14示出了本公开文章中关键词提取装置的另一些实施例的结构框图。如图 14所示,本实施例的文章中关键词提取装置相对于图13所示实施例还可以包括,降 权系数获取单元11,用于基于词语与参照词中相同字的个数、参照词的字数、词语 的字数,得到对参照词的词权重进行权重降级的降权系数。
在一具体例中,降权系数获取单元11计算降权系数方法可以参照如下方式进 行:首先对于相似的实体词,比如实体词库中的实体词为“珠穆拉玛峰”,在游记中 找到相似的词为“珠峰”。相同的字的个数为same=2,不同的字的个数为diff=3, “珠穆拉玛峰”的长度为lena=5,“珠峰”的长度为lenb=2。那么降权系数可以表 示为:
δ=same/(diff+|lena-lenb|)≈0.33
其中,降权后的词类型权重wv=δwe。
本实施例中的词语权重可以为wt+wr+wf+wp+wc+wd+we计算后获得的最终值,或者也可以为wt+wr+wf+wp+wc+wd+wv计算得出的最终值。
图15示出了本公开文章中关键词提取装置的另一些实施例的结构框图。如图 15所示,本实施例的文章中关键词提取装置中还可以设置停用词对比单元12与词语 筛选单元60连接。具体地,停用词对比单元12用于将关键词与配置的停用词库中的 停用词进行对比;响应于停用词库中存在与关键词相同的停用词,去除与停用词相同 的关键词。本实施例通过停用词对比单元12在获得的关键词中去除与停用词相同的 关键词,可以提高关键词提取效率及精简性。
图16示出了本公开文章中关键词提取装置的另一些实施例的结构框图。如图 16所示,本实施例的文章中关键词提取装置还可以设置关键词排序单元13、关键词 筛选单元14分别与词语筛选单元60连接。其中,语气助词、副词、介词、连接词等, 通常自身并无明确的意义,经关键词排序单元13获取的关键词列表中按照关键词在 游记中对应的词语权重进行排序,提取得到的目标关键词在旅行兴趣方面的关键词提 取效果佳。提取后的关键词可以准确概括游记中的重要信息。关键词筛选单元14能 够避免语气助词、副词、介词、连接词等对提取的关键词的影响,将上述词性的关键 词从去除了与停用词相同的关键词之后的剩余关键词中去掉。获得能够表达具体意思 并能够概括游记重要信息的目标关键词,作为最终的游记的关键词,且没有多余关键 词。
本公开实施例还提供一种文章中关键词提取装置,包括:文章分割单元,用于对待进行文章中关键词提取的文章进行分割得到分割语句,并确定分割语句的位置;分 割语句重要性确定单元,用于将分割语句及分割语句的位置采用句子位置重要性模型 进行预测,确定分割语句位置重要性分值;词语权重获取单元,用于基于分割语句位 置重要性分值,确定文章分词后的词语权重;词语筛选单元,用于基于词语权重对分 割语句中的词语进行筛选,得到关键词。
在一些实施例中,装置还包括:模型训练单元,用于采用类型与文章类型相同的文本信息训练神经网络,获得句子位置重要性模型,文本信息包括标注有位置重要性 标识的句子。
在一些实施例中,装置还包括:全局权重获取单元,用于基于配置语料库、词语 在文章中的词频与逆向文件频率,确定词语全局权重;语义投票权重获取单元,用于 利用投票机制对文章中的词语进行排序,得到词语语义投票权重;词语权重还包括词 语全局权重和词语的语义投票权重。
在一些实施例中,装置还包括:属性权重获取单元,用于基于词语的属性,得到 词语属性权重,其中,词语的属性包括词性、词长度、特殊位置,特殊位置包括引号 内、括号内、书名号内中的至少一种;词语权重还包括词语属性权重。
在一些实施例中,装置还包括:词类型匹配单元,用于确定词语与配置词库中参照词的相似度,参照词具有参照词权重;基于参照词权重与相似度获取词语类型权重; 词语权重还包括词语类型权重。
在一些实施例中,装置还包括:降权系数获取单元,用于基于词语与参照词中相同字的个数、参照词的字数、词语的字数,得到对参照词的词权重进行权重降级的降 权系数。
在一些实施例中,装置还包括:停用词对比单元,用于将关键词与配置的停用词库中的停用词进行对比;响应于停用词库中存在与关键词相同的停用词,去除与停用 词相同的关键词。
在一些实施例中,装置还包括:关键词排序单元,用于对关键词按照关键词的词语权重进行排序,并基于排序后的关键词得到关键词列表。
在一些实施例中,装置还包括:关键词筛选单元,用于针对去除与停用词相同的关键词之后的剩余关键词,基于剩余关键词的词性,对剩余关键词进行筛选,获得目 标关键词,目标关键词具有与词语权重等值的目标关键词权重;关键词列表基于目标 关键词获得。
图17示出了本公开的电子设备的一个实施例的结构示意图。下面参考图17, 其示出了适于用来实现本申请实施例的终端设备或服务器的电子设备的结构示意图。 如图17所示,该电子设备该电子设备包括处理器和存储器。电子设备也可以包括输 入输出装置。存储器、输入输出装置均通过总线与处理器连接。其中,存储器,用于 存储处理器执行的指令;处理器,用于调用存储器存储的指令,并执行上述实施例涉 及的文章中关键字提取方法。
本公开实施例中处理器可调用存储器存储的指令,进行对待进行文章中关键词提取的文章进行分割得到分割语句,并确定分割语句的位置;基于分割语句,确定分 割语句的语义重要性分值;基于语义重要性分值和分割语句的位置,确定分割语句的 重要性分值;基于分割语句的重要性分值确定分割语句权重;基于分割语句权重确定 文章分词后的词语权重,词语权重包括词语重要度权重,词语重要度权重基于分割语 句权重确定;基于词语权重对分割语句中的词语进行筛选,得到关键词。其中,电子 设备执行视频图像处理的过程,可参阅上述实施例描述的文章中关键字提取的实施过 程,在此不再赘述。
本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,计算机可执行指令在计算机上运行时,执行上述实施例涉及的文 章中关键字提取方法。
本公开实施例还提供一种包含指令的计算机程序产品,当包含指令的计算机程序产品在计算机上运行时,使得计算机执行上述实施例涉及的文章中关键字提取方 法。
在一个或多个可选实施方式中,本公开实施例还提供了一种计算机可读存储介质,用于存储计算机可读指令,该指令被执行时使得计算机执行上述任一可能的实现 方式中的文章中关键字提取方法。在另一个可选例子中,该计算机程序产品具体体现 为软件产品,例如软件开发包(Software Development Kit,SDK)等等。
尽管在附图中以特定的顺序描述操作,但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作,或是要求执行全部所示的操作以得到期望的结 果。在特定环境中,多任务和并行处理可能是有利的。
本公开的方法和装置能够利用标准编程技术来完成,利用基于规则的逻辑或者其他逻辑来实现各种方法步骤。还应当注意的是,此处以及权利要求书中使用的词语 “装置”和“模块”意在包括使用一行或者多行软件代码的实现和/或硬件实现和/ 或用于接收输入的设备。
此处描述的任何步骤、操作或程序可以使用单独的或与其他设备组合的一个或多个硬件或软件模块来执行或实现。在一个实施方式中,软件模块使用包括包含计算 机程序代码的计算机可读介质的计算机程序产品实现,其能够由计算机处理器执行用 于执行任何或全部的所描述的步骤、操作或程序。
出于示例和描述的目的,已经给出了本公开实施的前述说明。前述说明并非是 穷举性的也并非要将本公开限制到所公开的确切形式,根据上述教导还可能存在各种 变形和修改,或者是可能从本公开的实践中得到各种变形和修改。选择和描述这些实 施例是为了说明本公开的原理及其实际应用,以使得本领域的技术人员能够以适合于 构思的特定用途来以各种实施方式和各种修改而利用本公开。
Claims (13)
1.一种文章中关键词提取方法,其中,包括:
文章分割步骤,对待进行文章中关键词提取的文章进行分割得到分割语句,并确定所述分割语句的位置;
语义重要性确定步骤,基于所述分割语句,确定所述分割语句的语义重要性分值;
分割语句重要性确定步骤,基于所述语义重要性分值和所述分割语句的位置,确定所述分割语句的重要性分值;
分割语句权重获取步骤,基于所述分割语句的重要性分值确定分割语句权重,所述分割语句权重用于确定关键词提取的范围;
词语权重获取步骤,基于所述分割语句权重确定所述文章分词后的词语重要度权重,文章分词后的词语权重包括所述词语重要度权重以及词类型权重;
词类型匹配步骤,确定所述词语与配置词库中参照词的相似度,所述参照词具有参照词权重;基于所述相似度以及所述参照词权重,确定词类型权重;
降权系数获取步骤,基于所述词语与所述参照词中相同字的个数、所述参照词的字数、所述词语的字数,得到对所述词类型权重进行权重降级的降权系数;
所述降权系数通过如下公式得到:
δ=same/(diff+|lena-lenb|)
其中,δ表示降权系数,same表示所述词语与所述参照词中相同字的个数,diff表示所述词语与所述参照词中不同字的个数,lena表示所述词语的字数,lenb表示所述参照词的字数;
所述方法还包括:
基于所述降权系数,对所述词类型权重进行降权,得到降权后的词类型权重;词语筛选步骤,基于所述词语权重对所述分割语句中的词语进行筛选,得到关键词,所述词语权重包括词义重要性以及位置重要性,其中,对所述分割语句中的词语进行筛选的词语权重,包括所述词类型权重或所述降权后的词类型权重。
2.根据权利要求1所述的方法,其中,所述词语权重获取步骤之前,所述方法还包括:
全局权重获取步骤,基于配置语料库、所述词语在所述文章中的词频与逆向文件频率,确定词语全局权重;
语义投票权重获取步骤,利用投票机制对所述文章中的词语进行排序,得到词语语义投票权重;
所述词语权重还包括所述词语全局权重和所述词语的语义投票权重。
3.根据权利要求1所述的方法,其中,所述文章分割步骤之后,所述方法还包括:
属性权重获取步骤,基于所述词语的属性,得到词语属性权重;
所述词语权重还包括所述词语属性权重。
4.根据权利要求1至3中任意一项所述的方法,其中,在所述词语筛选步骤之后,所述方法还包括:
关键词排序步骤,对所述关键词按照所述关键词的词语权重进行排序,并基于排序后的关键词得到关键词列表。
5.根据权利要求4所述的方法,其中,所述关键词排序步骤之前,所述方法还包括:
关键词筛选步骤,针对去除与停用词相同的关键词之后的剩余关键词,基于所述剩余关键词的词性,对所述剩余关键词进行筛选,获得目标关键词,所述目标关键词具有与所述词语权重等值的目标关键词权重;所述关键词列表基于所述目标关键词获得。
6.根据权利要求1所述的方法,其中,所述语义重要性确定步骤,包括:
分割语句语义重要性概率获取步骤,调用预先训练的语义模型,并将所述分割语句作为所述语义模型的输入参数,确定分割语句语义重要概率以及分割语句语义不重要概率;
语义重要性分值确定步骤,基于所述分割语句语义重要概率以及所述分割语句语义不重要概率,确定所述语义重要性分值。
7.根据权利要求6所述的方法,其中,所述文章中包括有至少两个相同的所述词语;
所述词语权重为所述文章中所有相同的所述词语的词语重要度权重之和。
8.一种文章中关键词提取方法,其中,包括:
文章分割步骤,对待进行文章中关键词提取的文章进行分割得到分割语句,并确定所述分割语句的位置;
分割语句重要性确定步骤,将所述分割语句及所述分割语句的位置采用句子位置重要性模型进行预测,确定分割语句位置重要性分值;
词语权重获取步骤,基于所述分割语句位置重要性分值,确定所述文章分词后的词语权重,文章分词后的词语权重包括词类型权重;
所述方法还包括:
确定所述词语与配置词库中参照词的相似度,所述参照词具有参照词权重;基于所述相似度以及所述参照词权重,确定词类型权重;
基于所述词语与所述参照词中相同字的个数、所述参照词的字数、所述词语的字数,得到对所述词类型权重进行权重降级的降权系数;
基于所述降权系数,对所述词类型权重进行降权,得到降权后的词类型权重;
其中,所述降权系数通过如下公式得到:
δ=same/(diff+|lena-lenb|)
其中,δ表示降权系数,same表示所述词语与所述参照词中相同字的个数,diff表示所述词语与所述参照词中不同字的个数,lena表示所述词语的字数,lenb表示所述参照词的字数;
词语筛选步骤,基于所述词语权重对所述分割语句中的词语进行筛选,得到关键词,所述词语权重包括词义重要性以及位置重要性,其中,对所述分割语句中的词语进行筛选的词语权重,包括所述词类型权重或所述降权后的词类型权重。
9.如权利要求8所述的方法,其中,在所述分割语句重要性确定步骤之前,所述方法还包括:
模型训练步骤,采用类型与所述文章类型相同的文本信息训练神经网络,获得所述句子位置重要性模型,所述文本信息包括标注有位置重要性标识的句子。
10.一种文章中关键词提取装置,其中,包括:
文章分割单元,用于对待进行文章中关键词提取的文章进行分割得到分割语句,并确定所述分割语句的位置;
语义重要性确定单元,用于基于所述分割语句,确定所述分割语句的语义重要性分值;
分割语句重要性确定单元,用于基于所述语义重要性分值和所述分割语句的位置,确定所述分割语句的重要性分值;
分割语句权重获取单元,用于基于所述分割语句的重要性分值确定分割语句权重,所述分割语句权重用于确定关键词提取的范围;
词语权重获取单元,用于基于所述分割语句权重确定所述文章分词后的词语重要度权重,文章分词后的词语权重包括所述词语重要度权重以及词类型权重;
词类型匹配单元,确定所述词语与配置词库中参照词的相似度,所述参照词具有参照词权重;基于所述相似度以及所述参照词权重,确定词类型权重;
降权系数获取单元,基于所述词语与所述参照词中相同字的个数、所述参照词的字数、所述词语的字数,得到对所述词类型权重进行权重降级的降权系数;
所述降权系数通过如下公式得到:
δ=same/(diff+|lena-lenb|)
其中,δ表示降权系数,same表示所述词语与所述参照词中相同字的个数,diff表示所述词语与所述参照词中不同字的个数,lena表示所述词语的字数,lenb表示所述参照词的字数;
所述降权系数获取单元还用于:
基于所述降权系数,对所述词类型权重进行降权,得到降权后的词类型权重;
词语筛选单元,用于基于所述词语权重对所述分割语句中的词语进行筛选,得到关键词,所述词语权重包括词义重要性以及位置重要性,其中,对所述分割语句中的词语进行筛选的词语权重,包括所述词类型权重或所述降权后的词类型权重。
11.一种文章中关键词提取装置,其中,包括:
文章分割单元,用于对待进行文章中关键词提取的文章进行分割得到分割语句,并确定所述分割语句的位置;
分割语句重要性确定单元,用于将所述分割语句及所述分割语句的位置采用句子位置重要性模型进行预测,确定分割语句位置重要性分值;
词语权重获取单元,用于基于所述分割语句位置重要性分值,确定所述文章分词后的词语权重,文章分词后的词语权重包括词类型权重;
所述词语权重获取单元还用于:
确定所述词语与配置词库中参照词的相似度,所述参照词具有参照词权重;基于所述相似度以及所述参照词权重,确定词类型权重;
基于所述词语与所述参照词中相同字的个数、所述参照词的字数、所述词语的字数,得到对所述词类型权重进行权重降级的降权系数;
基于所述降权系数,对所述词类型权重进行降权,得到降权后的词类型权重;
其中,所述降权系数通过如下公式得到:
δ=same/(diff+|lena-lenb|)
其中,δ表示降权系数,same表示所述词语与所述参照词中相同字的个数,diff表示所述词语与所述参照词中不同字的个数,lena表示所述词语的字数,lenb表示所述参照词的字数;
词语筛选单元,用于基于所述词语权重对所述分割语句中的词语进行筛选,得到关键词,所述词语权重包括词义重要性以及位置重要性,其中,对所述分割语句中的词语进行筛选的词语权重,包括所述词类型权重或所述降权后的词类型权重。
12.一种电子设备,其中,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述存储器中存储的计算机程序,且所述计算机程序被执行时,实现权利要求1-7中任意一项所述的文章中关键词提取方法或权利要求8-9中任意一项所述的文章中关键词提取方法。
13.一种计算机可读存储介质,存储有计算机程序,其中,所述计算机程序被处理器执行时,实现权利要求1-7中任意一项所述的文章中关键词提取方法或权利要求8-9中任意一项所述的文章中关键词提取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910468815.5A CN110232112B (zh) | 2019-05-31 | 2019-05-31 | 文章中关键词提取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910468815.5A CN110232112B (zh) | 2019-05-31 | 2019-05-31 | 文章中关键词提取方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110232112A CN110232112A (zh) | 2019-09-13 |
CN110232112B true CN110232112B (zh) | 2022-06-21 |
Family
ID=67858279
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910468815.5A Active CN110232112B (zh) | 2019-05-31 | 2019-05-31 | 文章中关键词提取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110232112B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111079422B (zh) | 2019-12-13 | 2023-07-14 | 北京小米移动软件有限公司 | 关键词提取方法、装置及存储介质 |
CN111062201B (zh) * | 2019-12-20 | 2023-07-21 | 北京百度网讯科技有限公司 | 用于处理信息的方法和装置 |
CN111400484B (zh) * | 2020-03-20 | 2023-06-02 | 支付宝(杭州)信息技术有限公司 | 一种关键词提取方法和系统 |
CN111666769A (zh) * | 2020-06-11 | 2020-09-15 | 暨南大学 | 一种年报中的金融领域事件句提取方法 |
CN111931480B (zh) * | 2020-07-03 | 2023-07-18 | 北京新联财通咨询有限公司 | 文本主要内容的确定方法、装置、存储介质及计算机设备 |
CN112579821A (zh) * | 2020-12-16 | 2021-03-30 | 北京影谱科技股份有限公司 | 一种基于实时语音输入的视频推荐方法、装置及计算设备 |
CN113435193B (zh) * | 2021-06-16 | 2024-08-27 | 深圳市世强元件网络有限公司 | 一种落地页面关键词投放方法、装置及计算机设备 |
CN113609864B (zh) * | 2021-08-06 | 2022-02-11 | 珠海市鸿瑞信息技术股份有限公司 | 一种基于工业控制系统的文本语义识别处理系统及方法 |
CN113779965A (zh) * | 2021-09-10 | 2021-12-10 | 中联国智科技管理(北京)有限公司 | 一种语句词语采集方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108399165A (zh) * | 2018-03-28 | 2018-08-14 | 广东技术师范学院 | 一种基于位置加权的关键词抽取方法 |
CN108595425A (zh) * | 2018-04-20 | 2018-09-28 | 昆明理工大学 | 基于主题与语义的对话语料关键词抽取方法 |
CN108664473A (zh) * | 2018-05-11 | 2018-10-16 | 平安科技(深圳)有限公司 | 文本关键信息的识别方法、电子装置及可读存储介质 |
CN109408802A (zh) * | 2018-08-28 | 2019-03-01 | 厦门快商通信息技术有限公司 | 一种提升句向量语义的方法、系统及存储介质 |
CN109766416A (zh) * | 2018-11-27 | 2019-05-17 | 中国电力科学研究院有限公司 | 一种新能源政策信息抽取方法及系统 |
-
2019
- 2019-05-31 CN CN201910468815.5A patent/CN110232112B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108399165A (zh) * | 2018-03-28 | 2018-08-14 | 广东技术师范学院 | 一种基于位置加权的关键词抽取方法 |
CN108595425A (zh) * | 2018-04-20 | 2018-09-28 | 昆明理工大学 | 基于主题与语义的对话语料关键词抽取方法 |
CN108664473A (zh) * | 2018-05-11 | 2018-10-16 | 平安科技(深圳)有限公司 | 文本关键信息的识别方法、电子装置及可读存储介质 |
CN109408802A (zh) * | 2018-08-28 | 2019-03-01 | 厦门快商通信息技术有限公司 | 一种提升句向量语义的方法、系统及存储介质 |
CN109766416A (zh) * | 2018-11-27 | 2019-05-17 | 中国电力科学研究院有限公司 | 一种新能源政策信息抽取方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110232112A (zh) | 2019-09-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110232112B (zh) | 文章中关键词提取方法及装置 | |
CN109657054B (zh) | 摘要生成方法、装置、服务器及存储介质 | |
CN108829893B (zh) | 确定视频标签的方法、装置、存储介质和终端设备 | |
US8042053B2 (en) | Method for making digital documents browseable | |
US10489439B2 (en) | System and method for entity extraction from semi-structured text documents | |
JP4726528B2 (ja) | マルチセンスクエリについての関連語提案 | |
JP5167546B2 (ja) | 文単位検索方法、文単位検索装置、コンピュータプログラム、記録媒体及び文書記憶装置 | |
US11151191B2 (en) | Video content segmentation and search | |
CN106997382A (zh) | 基于大数据的创新创意标签自动标注方法及系统 | |
US20040049499A1 (en) | Document retrieval system and question answering system | |
Hurst et al. | Retrieving topical sentiments from online document collections | |
JP4904496B2 (ja) | 文書類似性導出装置及びそれを用いた回答支援システム | |
JP5321583B2 (ja) | 共起辞書生成システム、スコアリングシステム、共起辞書生成方法、スコアリング方法及びプログラム | |
CN113806482A (zh) | 视频文本跨模态检索方法、装置、存储介质和设备 | |
Huang et al. | Automatic meeting summarization and topic detection system | |
CN111090771A (zh) | 歌曲搜索方法、装置及计算机存储介质 | |
CN114491034B (zh) | 一种文本分类方法及智能设备 | |
CN114138936A (zh) | 一种文本摘要的生成方法、装置、电子设备和存储介质 | |
KR102351745B1 (ko) | 사용자 리뷰 기반 평점 재산정 장치 및 방법 | |
CN111460224B (zh) | 评论数据的质量标注方法、装置、设备及存储介质 | |
JPH11110409A (ja) | 情報分類方法及び装置 | |
JP2003263441A (ja) | キーワード決定データベース作成方法、キーワード決定方法、装置、プログラム、および記録媒体 | |
US20220179894A1 (en) | Automatic document classification | |
Das et al. | Sentence level emotion tagging | |
KR102357023B1 (ko) | 대화 분절 문장의 복원을 위한 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20231023 Address after: No. 407, 4th Floor, Digital Content Industrial Park, Building 19, Group A3-3, Yuncheng Shangpin, Yuncheng Street, Baiyun District, Guiyang City, Guizhou Province, 550000 Patentee after: Mafengwo (Guizhou) Tourism Group Co.,Ltd. Address before: 100015 building 10, No.9 Jiuxianqiao North Road, Chaoyang District, Beijing Patentee before: BEIJING CHUANGXIN JOURNEY NETWORK TECHNOLOGY Co.,Ltd. |