CN110321561A - 一种关键词提取方法和装置 - Google Patents

一种关键词提取方法和装置 Download PDF

Info

Publication number
CN110321561A
CN110321561A CN201910570592.3A CN201910570592A CN110321561A CN 110321561 A CN110321561 A CN 110321561A CN 201910570592 A CN201910570592 A CN 201910570592A CN 110321561 A CN110321561 A CN 110321561A
Authority
CN
China
Prior art keywords
text
unit
keyword
information
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910570592.3A
Other languages
English (en)
Inventor
王兴光
许阳寅
牛成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910570592.3A priority Critical patent/CN110321561A/zh
Publication of CN110321561A publication Critical patent/CN110321561A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本申请实施例公开了一种关键词提取方法和装置,所述方法包括:获取文本集,对每个文本单元的文本内容进行关键词提取,得到每个文本单元对应的候选关键词,根据候选关键词对文本单元重要程度的文本单元度量参数,获取候选关键词针对文本单元的单元频率信息,根据单元频率信息,从每个文本单元对应的候选关键词中,选取每个文本单元对应的单元关键词,根据单元关键词对文本集重要程度的文本集度量参数,获取单元关键词针对文本集的文本频率信息,根据文本频率信息,从文本集的多个单元关键词中提取出关键词。该方案可以提高文本集中关键词提取的准确性。

Description

一种关键词提取方法和装置
技术领域
本申请涉及计算机技术领域,具体涉及一种关键词提取方法和装置。
背景技术
关键词为能够反应文本主题或者文本主要内容的词语。比如,用户在查询书籍文本时,可以通过书籍文本对应的关键词,了解到该书籍文本的主题或者书籍文本中主要叙述的内容,进而判断该书籍文本是否为用户需要的书籍文本,因此,对于文本而言,准确的提取关键词可以提升用户针对性获取信息的效率。而现在对于书籍文本中关键词的提取方法不够准确。
发明内容
本申请实施例提供一种关键词提取方法和装置,可以根据关键词针对文本单元的单元频率信息、以及关键词针对文本集的文本频率信息,提取出文本集中的关键词,从而提高文本集中关键词提取的准确性。
本申请实施例提供一种关键词提取方法,包括:
获取文本集,所述文本集中包括多个呈一定排序关系的文本单元;
对每个文本单元的文本内容进行关键词提取,得到每个文本单元对应的候选关键词;
根据所述候选关键词对所述文本单元重要程度的文本单元度量参数,获取所述候选关键词针对所述文本单元的单元频率信息;
根据所述单元频率信息,从每个文本单元对应的候选关键词中,选取每个文本单元对应的单元关键词;
根据所述单元关键词对所述文本集重要程度的文本集度量参数,获取所述单元关键词针对所述文本集的文本频率信息;
根据所述文本频率信息,从所述文本集的多个单元关键词中提取出关键词。
相应的,本申请实施例还提供一种关键词提取装置,包括:
文本集获取模块,用于获取文本集,所述文本集中包括多个呈一定排序关系的文本单元;
第一提取模块,用于对每个文本单元的文本内容进行关键词提取,得到每个文本单元对应的候选关键词;
第一信息获取模块,用于根据所述候选关键词对所述文本单元重要程度的文本单元度量参数,获取所述候选关键词针对所述文本单元的单元频率信息;
选取模块,用于根据所述单元频率信息,从每个文本单元对应的候选关键词中,选取每个文本单元对应的单元关键词;
第二信息获取模块,用于根据所述单元关键词对所述文本集重要程度的文本集度量参数,获取所述单元关键词针对所述文本集的文本频率信息;
第二提取模块,用于根据所述文本频率信息,从所述文本集的多个单元关键词中提取出关键词。
可选的,在一些实施例中,所述第一信息获取模块可以包括单元主题概率获取子模块、相关信息获取子模块、单元频率子信息获取子模块、词语长度信息获取子模块和单元频率信息获取子模块,如下:
所述单元主题概率获取子模块,可以用于获取每个候选关键词对应预设主题的关键词主题概率、以及每个文本单元对应预设主题的单元主题概率;
所述相关信息获取子模块,可以用于根据所述候选关键词对应的关键词主题概率、以及所述候选关键词所在文本单元对应的单元主题概率,获取所述候选关键词与所述文本单元之间的主题相关信息;
所述单元频率子信息获取子模块,可以用于根据所述候选关键词在相应文本单元中出现的频次,获取所述候选关键词针对文本单元的单元频率子信息;
所述词语长度信息获取子模块,可以用于基于所述候选关键词的词语长度,获取所述候选关键词对应的词语长度信息;
所述单元频率信息获取子模块,可以用于将主题相关信息、单元频率子信息以及词语长度信息进行融合,得到所述候选关键词针对所述文本单元的单元频率信息。
所述单元频率子信息获取子模块可以用于:获取所述文本单元中所述候选关键词出现的频次占所述文本单元中所有候选关键词数量的单元词语占比子信息,从所述文本集的多个文本单元中选取包括所述候选关键词的候选目标文本单元,获取候选目标文本单元数量占所述文本集中所有文本单元数量的文本单元占比子信息,基于所述单元词语占比子信息和所述文本单元占比子信息,获取所述候选关键词针对文本单元的单元频率子信息。
所述单元主题概率获取子模块可以用于:确定每个候选关键词对应预设主题的初始关键词主题概率、以及每个文本单元对应预设主题的初始单元主题概率,基于所述初始关键词主题概率和所述初始单元主题概率,通过预设采样算法对主题概率分布进行采样,得到每个候选关键词对应预设主题的关键词主题概率、以及每个文本单元对应预设主题的单元主题概率,当所述关键词主题概率和所述单元主题概率满足概率调整条件时,将所述初始关键词主题概率调整为关键词主题概率,并将所述初始单元主题概率调整为单元主题概率,返回执行基于所述初始关键词主题概率和所述初始单元主题概率,通过预设采样算法对主题概率分布进行采样,得到每个候选关键词对应预设主题的关键词主题概率、以及每个文本单元对应预设主题的单元主题概率的步骤,当所述关键词主题概率和所述单元主题概率不满足概率调整条件时,获取每个候选关键词对应预设主题的关键词主题概率、以及每个文本单元对应预设主题的单元主题概率。
可选的,在一些实施例中,所述第二信息获取模块可以包括第一文本频率子信息获取子模块、第二文本频率子信息获取子模块和文本频率信息获取子模块,如下:
所述第一文本频率子信息获取子模块,可以用于根据所述单元关键词的单元频率信息、以及所述单元关键词在所述文本集中出现的频次,获取所述单元关键词对应的第一文本频率子信息;
所述第二文本频率子信息获取子模块,可以用于根据所述文本集的文本单元中所述单元关键词对应的单元频率信息,获取所述单元关键词对应的第二文本频率子信息;
所述文本频率信息获取子模块,可以用于将所述第一文本频率子信息和所述第二文本频率子信息进行融合,得到所述单元关键词针对所述文本集的文本频率信息。
所述第一文本频率子信息获取子模块可以用于:将所述单元关键词的单元频率信息、以及所述单元关键词在所述文本集中出现的频次进行融合,得到所述单元关键词在所述文本集中的融合频率子信息,根据所述文本集中每个单元关键词的单元频率信息,获取所述文本集中所有单元关键词的累计频率子信息,根据所述融合频率子信息占所述累计频率子信息的比值,获取所述单元关键词对应的第一文本频率子信息。
所述第二文本频率子信息获取子模块可以用于:获取所述文本集的每个文本单元中单元频率信息值最大的最大频率关键词,将所述文本集中所有最大频率关键词对应的单元频率信息进行累加,得到综合累计频率子信息,从所述文本集的多个文本单元中选取包括所述单元关键词的目标文本单元,获取每个目标文本单元中所述单元关键词对应值最大的单元频率信息,将所有目标文本单元中所述单元关键词对应值最大的单元频率信息进行累加,得到指定累计频率子信息,根据所述综合累计频率子信息、以及所述指定累计频率子信息获取所述单元关键词对应的第二文本频率子信息。
可选的,在一些实施例中,所述第一提取模块可以包括原始关键词获取子模块和候选关键词获取子模块,如下:
所述原始关键词获取子模块,可以用于对每个文本单元的文本内容进行文本分词处理,将所述文本单元的文本内容分为多个原始关键词;
所述候选关键词获取子模块,可以用于根据预设词语合并规则对所述原始关键词进行词语合并,得到每个文本单元对应的候选关键词。
所述候选关键词获取子模块可以用于:根据预设词语合并规则对所述原始关键词进行词语合并,得到每个文本单元对应的原始候选关键词,当所述原始候选关键词满足预设拆分条件时,将所述原始候选关键词拆分为至少一个候选关键词,当所述原始候选关键词不满足预设拆分条件时,将所述原始候选关键词确定为候选关键词。
可选的,在一些实施例中,所述关键词提取装置还可以包括标注模块和关键词提取模块,如下:
所述标注模块,可以用于根据每个原始关键词的词语特征,对所述文本内容中的原始关键词进行标注;
所述关键词提取模块,可以用于根据所述原始关键词的标注,从所述文本内容的原始关键词中提取出候选关键词。
此外,本申请实施例还提供一种存储介质,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本申请实施例提供的任一种关键词提取方法中的步骤。
本申请实施例可以获取文本集,文本集中包括多个呈一定排序关系的文本单元,对每个文本单元的文本内容进行关键词提取,得到每个文本单元对应的候选关键词,根据候选关键词对文本单元重要程度的文本单元度量参数,获取候选关键词针对文本单元的单元频率信息,根据单元频率信息,从每个文本单元对应的候选关键词中,选取每个文本单元对应的单元关键词,根据单元关键词对文本集重要程度的文本集度量参数,获取单元关键词针对文本集的文本频率信息,根据所述文本频率信息,从所述文本集的多个单元关键词中提取出关键词。该方案可以根据关键词针对文本单元的单元频率信息、以及关键词针对文本集的文本频率信息,提取出文本集中的关键词,从而提高文本集中关键词提取的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的关键词提取系统的场景示意图;
图2是本申请实施例提供的关键词提取方法的第一流程图;
图3是本申请实施例提供的关键词提取方法的第二流程图;
图4是本申请实施例提供的关键词提取方法的第三流程图;
图5是本申请实施例提供的文本阅读应用主界面示意图;
图6是本申请实施例提供的文本阅读应用推荐书籍的第一示意图;
图7是本申请实施例提供的文本阅读应用推荐书籍的第二示意图;
图8是本申请实施例提供的关键词提取装置的结构示意图;
图9是本申请实施例提供的网络设备的结构示意图。
具体实施方式
请参照图式,其中相同的组件符号代表相同的组件,本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本申请具体实施例,其不应被视为限制本申请未在此详述的其它具体实施例。
在以下的说明中,本申请的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说明,除非另有述明。因此,这些步骤及操作将有数次提到由计算机执行,本文所指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存系统中的位置处,其可重新配置或另外以本领域测试人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构为该内存的实体位置,其具有由该数据格式所定义的特定特性。但是,本申请原理以上述文字来说明,其并不代表为一种限制,本领域测试人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。
本文所使用的术语“模块”可看作为在该运算系统上执行的软件对象。本文所述的不同组件、模块、引擎及服务可看作为在该运算系统上的实施对象。而本文所述的装置及方法可以以软件的方式进行实施,当然也可在硬件上进行实施,均在本申请保护范围之内。
本申请中的术语“第一”、“第二”和“第三”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、系统、产品或设备没有限定于已列出的步骤或模块,而是某些实施例还包括没有列出的步骤或模块,或某些实施例还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本申请实施例提供一种关键词提取方法,该关键词提取方法的执行主体可以是本申请实施例提供的关键词提取装置,或者集成了该关键词提取装置的网络设备,其中该关键词提取装置可以采用硬件或者软件的方式实现。其中,网络设备可以是智能手机、平板电脑、掌上电脑、笔记本电脑、或者台式电脑等设备。网络设备包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或者多个服务器构成的云。
请参阅图1,图1为本申请实施例提供的关键词提取方法的应用场景示意图,以关键词提取装置集成在网络设备中为例,网络设备可以获取文本集,文本集中包括多个呈一定排序关系的文本单元,对每个文本单元的文本内容进行关键词提取,得到每个文本单元对应的候选关键词,根据候选关键词对文本单元重要程度的文本单元度量参数,获取候选关键词针对文本单元的单元频率信息,根据单元频率信息,从每个文本单元对应的候选关键词中,选取每个文本单元对应的单元关键词,根据单元关键词对文本集重要程度的文本集度量参数,获取单元关键词针对文本集的文本频率信息,根据所述文本频率信息,从所述文本集的多个单元关键词中提取出关键词。
具体地,比如,该文本集可以为书籍文本,该书籍文本中可以包括多个章节,从书籍文本中提取出关键词后,用户可以根据提取出的关键词,了解到该书籍文本的内容、主题等信息,以确定该书籍文本是否为用户希望阅读的书籍。文本阅读应用还可以根据该提取出的关键词,查找与该书籍文本主题内容相似的书籍,进而根据用户的阅读历史推荐给用户,从而可以根据用户的喜好进行书籍的推荐。
请参阅图2,图2为本申请实施例提供的关键词提取方法的流程示意图。本申请实施例提供的关键词提取方法的具体流程可以如下:
201、获取文本集。
其中,文本可以为具有完整、系统含义的若干句子的组合,一个文本可以是一个句子、一个段落或者一个篇章等。
其中,文本集可以为由若干文本组成的集合,比如,文本集中可以包括多个呈一定排序关系的文本单元,如文本集可以为一本书,书中可以包括多个按顺序排列的章节,如书中可以包括第一章、第二章等。
其中,文本单元可以为文本集的组成部分,如,当文本集为书籍时,文本单元可以为书籍中的多个章节,每个章节可以作为一个文本单元,文本集中的多个文本单元可以呈一定排序关系,如按第一章、第二章的顺序进行排列。
在实际应用中,可以获取文本集,该文本集中可以包括多个呈一定排序关系的文本单元,比如,可以获取一本书作为文本集,这本书中可以包括多个章节,可以通过Book表示文本集,通过Chap表示文本单元,文本集和文本单元之间的关系可以表示为Book={Chap1,Chap2,...,Chapn},其中,Chapn可以表示书中的第N个章节。
在一实施例中,文本集的获取可以有多种方法,比如,可以从本地文本数据库中获取文本集,如,用户打开文本阅读应用,可以通过文本阅读应用调用本地文本数据库,从本地文本数据库中获取需要的文本集。又比如,还可以通过外部存储单元获取文本集,如,还可以通过网络侧设备获取文本集等等。
202、对每个文本单元的文本内容进行关键词提取,得到每个文本单元对应的候选关键词。
在实际应用中,可以对每个文本单元的文本内容进行关键词提取,得到每个文本单元对应的候选关键词。比如,可以对一本书的每个章节都进行关键词提取,如将能够表达章节内容的词语作为候选关键词。
在一实施例中,由于中文句子中没有词语的界限,因此,在对中文进行语言处理时,可以首先对文本进行文本分词,然后通过预设词语合并规则对文本单元中的词语进行合并,从而获取到准确的候选关键词。具体地,步骤“对每个文本单元的文本内容进行关键词提取,得到每个文本单元对应的候选关键词”,可以包括:
对每个文本单元的文本内容进行文本分词处理,将所述文本单元的文本内容分为多个原始关键词;
根据预设词语合并规则对所述原始关键词进行词语合并,得到每个文本单元对应的候选关键词。
在实际应用中,可以对每个文本单元的文本内容进行文本分词处理,将文本单元的文本内容分为多个原始关键词。比如,可以通过分词算法对每个章节中的文本内容进行分词处理,将书中的每个章节都划分为多个原始关键词的组合,可以通过Bookseg表示分词处理后的书籍文本,通过Chapn seg表示分词处理后书中的第N个章节,分词处理后的书籍文本和章节之间的关系可以表示为Bookseg={Chap1 seg,Chap2 seg,...,Chapn seg}。
如书中某部分章节可为“有时候是稼轩,但我最喜欢的词倒是清楚的,该是蒋捷的《虞美人·听雨》”,对该部分章节进行分词处理后,该部分章节可以被处理为“有时:d候:v是:v稼轩:n,:w但:c我:r最:d喜欢:v的:u词:n倒是:d清楚:a的:u,:w该:r是:v蒋:n捷:n的:u《:w虞:n美人:n·:w听雨:n》:w”。其中,“有时”“候”“是”“稼轩”等可以为对章节进行分词处理后得到的多个原始关键词。通过上述方式,可以将原始连续的章节划分为多个分散的原始关键词。
在一实施例中,分词算法可以有多种,比如基于字符串匹配的分词方法、基于理解的分词方法、基于统计的分词方法等等。其中,基于字符串匹配的分词方法是按照一定的策略将待处理的汉字串与机器词典中的词条进行匹配,并进行分词处理的方法。其中,基于理解的分词方法是在分词处理的同时进行句法、语义分析,并利用句法信息和语义信息模拟人对句子的理解,从而达到分词处理的效果。其中,基于统计的分词方法可以对语料中相邻共现的各个字的组合频度进行统计,获取它们的互现信息,该互现信息可以表征汉字之间结合关系的紧密程度,当紧密程度达到一定阈值时,可以认为此字组构成一个词,从而实现分词处理的效果。
其中,还可以通过分词处理对每个原始关键词的词性进行标记,比如,可以在每个原始关键词的后面通过字符标记相应原始关键词对应的词性。其中,d可以表示副词,v可以表示动词,n可以表示名词,w可以表示标点符号,c可以表示连词,r可以表示代词,a可以表示形容词,u可以表示助词,等等。通过这种方式,不但可以将连续的章节划分为多个原始关键词,以便关键词的提取,还可以通过对每个原始关键词进行词性的标记,方便根据词性进行原始关键词的合并,从而提高关键词提取的准确性。
在实际应用中,对每个文本单元的文本内容进行文本分词处理,将文本单元的文本内容分为多个原始关键词之后,可以根据预设词语合并规则对原始关键词进行词语合并,得到每个文本单元对应的候选关键词。比如,将每个章节划分为多个分散的原始关键词后,可以获取每个原始关键词的词性,并根据预设词语合并规则将至少一个原始关键词合并为一个候选关键词。如可以获取三个原始关键词“白净:a”“脸:n”“儿:Ng”,根据预设词语合并规则,按顺序排列的形容词、名词和名词性语素可以进行合并,因此可以将三个原始关键词合并为一个候选关键词“白净脸儿”。
在一实施例中,预设词语合并规则可以有多种:
按顺序排列的形容词、名词和名词性语素可以进行合并,如“白净:a”“脸:n”“儿:Ng”可以合并为“白净脸儿”;
按顺序排列的形容词、助词和名词性语素可以进行合并,如“明智:a”“之:u”“举:Ng”可以合并为“明智之举”;
按顺序排列的名动词和名词可以进行合并,如“投资:vn”“理念:n”可以合并为“投资理念”;
按顺序排列的名词、标点符号和名词可以进行合并,如“纳西姆:n”“·:w”“尼古拉斯:n”可以合并为“纳西姆·尼古拉斯”;
按顺序排列的形容词、名词和名词可以进行合并,如“高:a”“风险:n”“贷款:n”可以合并为“高风险贷款”;
按顺序排列的名词、助词和名词可以进行合并,如“国债:n”“的:u”“利率:n”可以合并为“国债的利率”;
按顺序排列的名词和名动词可以进行合并,如“动量:n”“投资:vn”可以合并为“动量投资”;
按顺序排列的形容词、名词和名动词可以进行合并,如“合理:a”“价格:n”“增长:vn”可以合并为“合理价格增长”;
按顺序排列的其他专名和名词可以进行合并,如“花旗:nz”“银行:n”可以合并为“花旗银行”;
按顺序排列的名动词、名词和名词可以进行合并,如“预测:vn”“关键:n”“事件:n”可以合并为“预测关键事件”;
按顺序排列的名词、名动词和名词可以进行合并,如“风险:n”“调整:vn”“概念:n”可以合并为“风险调整概念”;
按顺序排列的名词和后接成分可以进行合并,如“波动:n”“性:k”可以合并为“波动性”;
按顺序排列的形容词、助词和名词可以进行合并,如“优秀:a”“的:u”“敌人:n”可以合并为“优秀的敌人”;
按顺序排列的名词、助词、名动词和名词性语素可以进行合并,如“资产:n”“的:u”“相关:vn”“性:Ng”可以合并为“资产的相关性”;
按顺序排列的名词、助词、名动词和名词可以进行合并,如“集团:n”“的:u”“负责:vn”“人:n”可以合并为“集团的负责人”;
按顺序排列的名词和动词性语素可以进行合并,如“姜:n”“瓷:Vg”可以合并为“姜瓷”;
按顺序排列的数词、名词和名词性语素可以进行合并,如“五:m”“星斗:n”“帝:Ng”可以合并为“五星斗帝”;
按顺序排列的数词、形容词、名词性语素和名词可以进行合并,如“九:m”“玄:a”“金:Ng”“雷龙:n”可以合并为“九玄金雷龙”,等等。
在一实施例中,预设词语合并规则还可以包括将连续的多个名词性的原始关键词合并为一个候选关键词,比如可以将连续的两个或者三个名词合并为一个候选关键词。
在一实施例中,由于在实际使用中,词语长度过长的候选关键词不宜进行后续词语主题获取的步骤,因此,需要对合并后过长的原始候选关键词进行再度词语拆分,使得候选关键词的长度适宜。具体地,步骤“根据预设词语合并规则对所述原始关键词进行词语合并,得到每个文本单元对应的候选关键词”,可以包括:
根据预设词语合并规则对所述原始关键词进行词语合并,得到每个文本单元对应的原始候选关键词;
当所述原始候选关键词满足预设拆分条件时,将所述原始候选关键词拆分为至少一个候选关键词;
当所述原始候选关键词不满足预设拆分条件时,将所述原始候选关键词确定为候选关键词。
在实际应用中,可以根据预设词语合并规则对原始关键词进行词语合并,得到每个文本单元对应的原始候选关键词,当原始候选关键词满足预设拆分条件时,将原始候选关键词拆分为至少一个候选关键词,当原始候选关键词不满足预设拆分条件时,将原始候选关键词确定为候选关键词。比如,可以根据预设词语合并规则将多个原始关键词合并为原始候选关键词,并对原始候选关键词的词语长度进行检测,当原始候选关键词的词语长度超过预设词语长度阈值时,可以认为该原始候选关键词满足预设拆分条件,并将该原始候选关键词拆分为至少一个候选关键词,原始候选关键词与拆分后的候选关键词之间的关系可以表示为word={wordsub,0,wordsub,1,...};当原始候选关键词的词语长度没有超过预设词语长度阈值时,可以认为该原始候选关键词不满足预设拆分条件,则可以不对该原始候选关键词进行拆分。
在一实施例中,还可以根据原始候选关键词中包括原始关键词的数量,判断原始候选关键词是否满足预设拆分条件,比如,当原始候选关键词中包括原始关键词的数量超过预设关键词数量时,可以认为该原始候选关键词满足预设拆分条件,并将该原始候选关键词拆分为至少一个候选关键词;当原始候选关键词中包括原始关键词的数量没有超过预设关键词数量时,可以认为该原始候选关键词不满足预设拆分条件,则可以不对该原始候选关键词进行拆分。
比如,当原始候选关键词中包括5个原始关键词时,可以认为该原始候选关键词满足预设拆分条件,并将该原始候选关键词拆分为两个候选关键词,拆分后的两个候选关键词中可以分别包括2个原始关键词和3个原始关键词。
在一实施例中,出现频率过低的候选关键词也不宜进行后续词语主题的获取,因此,获取到候选关键词后,还可以对出现频率过低的候选关键词进行筛选并删除,从而保留更为准确的候选关键词。
在一实施例中,由于文本中的人名、机构名、地名等命名实体也属于文本的关键词,但是命名实体侧重于表征文本的标识特征,因此还可以通过对文本中的命名实体进行识别,获取由命名实体组成的关键词,使得用户可以多角度地获取到更为准确的关键词。具体地,步骤“对每个文本单元的文本内容进行文本分词处理,将所述文本单元的文本内容分为多个原始关键词”之后,还可以包括:
根据每个原始关键词的词语特征,对所述文本内容中的原始关键词进行标注;
根据所述原始关键词的标注,从所述文本内容的原始关键词中提取出候选关键词。
其中,命名实体可以为待识别文本中具有特定意义的实体,比如,命名实体可以包括人名、机构名、地名、专有名词、时间、日期、数量短语等。
在实际应用中,可以根据每个原始关键词的词语特征,对文本内容中的原始关键词进行标注,然后根据原始关键词的标注,从文本内容的原始关键词中提取出候选关键词。比如,在经过文本分词处理,将文本单元分为多个原始关键词后,可以通过命名实体识别,根据每个原始关键词的词语特征,对每个原始关键词进行标注,即给每个原始关键词一个标签,并根据原始关键词的标签,从原始关键词中提取出候选关键词。可以通过Bookner表示经过命名实体识别后的书籍文本,通过Chapn ner表示经过命名实体识别后的第N章,此时,书籍文本和章节文本之间的关系可以表示为Bookner={Chap1 ner,Chap2 ner,...,Chapn ner}。
比如,经过命名实体识别后,可以识别出“稼轩/PER”“蒋捷/PER”“江阔云/PER”“天明/LOC”“美国/LOC”等命名实体,并将上述命名实体作为候选关键词。其中,“PER”“LOC”可以为命名实体的标签,“PER”说明该命名实体为人名,“LOC”说明该命名实体为地名等。
在一实施例中,可以通过网络模型进行命名实体的识别,比如,可以通过将CRF(条件随机场算法,conditional random field algorithm)作为NER(命名实体识别,NamedEntity Recognition)的基准模型的网络模型进行命名实体的识别。还可以通过深度学习网络模型或者HMM(隐马尔可夫模型,Hidden Markov Model)等实体模型进行命名实体的识别。
203、根据候选关键词对文本单元重要程度的文本单元度量参数,获取候选关键词针对文本单元的单元频率信息。
其中,文本单元度量参数可以为度量该候选关键词相对于文本单元重要程度的参数,根据文本单元度量参数可以得知该候选关键词相对于文本单元的重要程度,进而确定该候选关键词对文本单元而言是否为准确的关键词。其中,文本单元度量参数可以包括多个种类,比如,文本单元度量参数可以包括主题相关信息、单元频率子信息、词语长度信息等。
其中,单元频率信息可以为根据候选关键词在文本单元中出现的频次获取的文本单元度量参数,单元频率信息可以为表征关键词相对于文本单元重要程度的信息,该单元频率信息的数值越大,说明该关键词对于文本单元越重要,即对于文本单元而言,单元频率信息数值越大的关键词为更准确的关键词。其中,该单元频率信息可以通过关键词权重的方式进行表示。
在实际应用中,可以根据候选关键词对文本单元重要程度的文本单元度量参数,获取候选关键词针对文本单元的单元频率信息。比如,可以通过计算候选关键词对文本单元重要程度的多个文本单元度量参数,以获取候选关键词针对文本单元的权重形式的单元频率信息。
在一实施例中,由于关键词对于文本单元的重要程度由多个因素决定,因此可以通过具体计算候选关键词对应的主题相关信息、单元频率子信息和词语长度信息,获取候选关键词针对文本单元的单元频率信息,然后进行关键词的提取步骤,从而提升关键词提取的准确性。具体地,步骤“根据所述候选关键词对所述文本单元重要程度的文本单元度量参数,获取所述候选关键词针对所述文本单元的单元频率信息”,可以包括:
将主题相关信息、单元频率子信息以及词语长度信息进行融合,得到所述候选关键词针对所述文本单元的单元频率信息。
由于关键词对于文本单元的重要性会随着关键词在文本单元中出现的频次成正比增加,同时会随着关键词在文本单元在语料库中出现的频次成反比下降,因此文本单元度量参数可以包括单元频率子信息。同时关键词与文本单元主题越相近,关键词对于文本单元而言越重要,因此文本单元度量参数可以包括单元频率子信息主题相关信息。在实际应用中,关键词的词语长度也会影响到关键词的重要程度,因此文本单元度量参数还可以包括词语长度信息。
在实际应用中,可以将主题相关信息、单元频率子信息以及词语长度信息进行融合,得到候选关键词针对文本单元的单元频率信息。比如,可以获取到候选关键词对应的主题相关信息、单元频率子信息以及词语长度信息,并将上述信息进行融合,将融合后的信息作为候选关键词针对文本单元的单元频率信息。
在一实施例中,具体地,步骤“将主题相关信息、单元频率子信息以及词语长度信息进行融合,得到所述候选关键词针对所述文本单元的单元频率信息”,可以包括:
获取每个候选关键词对应预设主题的关键词主题概率、以及每个文本单元对应预设主题的单元主题概率;
根据所述候选关键词对应的关键词主题概率、以及所述候选关键词所在文本单元对应的单元主题概率,获取所述候选关键词与所述文本单元之间的主题相关信息;
根据所述候选关键词在相应文本单元中出现的频次,获取所述候选关键词针对文本单元的单元频率子信息;
基于所述候选关键词的词语长度,获取所述候选关键词对应的词语长度信息;
将主题相关信息、单元频率子信息以及词语长度信息进行融合,得到所述候选关键词针对所述文本单元的单元频率信息。
在实际应用中,比如,可以通过LDA(文档主题生成模型,LatentDirichletAllocation)获取每个候选关键词对应预设主题的关键词主题概率Topicwordj=[vj,1,vj,2,...,vj,k]、以及每个文本单元对应预设主题的单元主题概率Topicchapi=[vi,1,vi,2,...,vi,k],并根据公式ri,j=cosine(Topicchapi,Topicwordj)获取候选关键词与文本单元之间的主题相关信息rchap,word。然后根据候选关键词在相应文本单元中出现的频次,获取候选关键词针对文本单元的单元频率子信息wchap,word。然后根据候选关键词的词语长度,获取候选关键词对应的词语长度信息weightlen(word)。并根据公式weightword=rchap,word×wchap,word×weightlen(word),将主题相关信息、单元频率子信息以及词语长度信息进行融合,得到候选关键词针对文本单元的单元频率信息weightword
在一实施例中,由于在实际应用中,词语的长度也会影响到关键词对于文本单元的重要程度,因此,可以通过如下规则获取不同词语长度候选关键词的词语长度信息weightlen(word)
weightlength={1:0.7,2:1.0,3:1.2,4:1.5,5:1.2}
其中,由一个字组成候选关键词的词语长度信息可以为0.7;由两个字组成候选关键词的词语长度信息可以为1.0;由三个字组成候选关键词的词语长度信息可以为1.2;由四个字组成候选关键词的词语长度信息可以为1.5;由五个字组成候选关键词的词语长度信息可以为1.2;其他长度候选关键词的词语长度信息可以为1.0。
在实际应用中,为了提升主题概率获取的准确性,可以根据通过LDA(文档主题生成模型,Latent Dirichlet Allocation)进行主题概率的获取。具体地,步骤“获取每个候选关键词对应预设主题的关键词主题概率、以及每个文本单元对应预设主题的单元主题概率”,可以包括:
确定每个候选关键词对应预设主题的初始关键词主题概率、以及每个文本单元对应预设主题的初始单元主题概率;
基于所述初始关键词主题概率和所述初始单元主题概率,通过预设采样算法对主题概率分布进行采样,得到每个候选关键词对应预设主题的关键词主题概率、以及每个文本单元对应预设主题的单元主题概率;
当所述关键词主题概率和所述单元主题概率满足概率调整条件时,将所述初始关键词主题概率调整为关键词主题概率,并将所述初始单元主题概率调整为单元主题概率;
返回执行基于所述初始关键词主题概率和所述初始单元主题概率,通过预设采样算法对主题概率分布进行采样,得到每个候选关键词对应预设主题的关键词主题概率、以及每个文本单元对应预设主题的单元主题概率的步骤;
当所述关键词主题概率和所述单元主题概率不满足概率调整条件时,获取每个候选关键词对应预设主题的关键词主题概率、以及每个文本单元对应预设主题的单元主题概率。
其中,LDA(文档主题生成模型,Latent Dirichlet Allocation)可以为包括词语、主题和文本三层结构的一种生成模型。可以认为文本的生成过程为:以一定概率从多个预设主题中选择某个具体主题,并从这个主题中以一定概率选择某个词语,然后选择出的多个词语可以生成一个文本。从文本到主题服从多项式分布,从主题到词语也服从多项式分布。
在实际应用中,可以首先对每个候选关键词赋予一个对应预设主题的初始关键词主题概率,并且对每个文本单元赋予一个对应预设主题的初始单元主题概率,然后根据初始赋予的初始关键词主题概率和初始单元主题概率,将吉布斯采样公式完整化,并根据完整的吉布斯采样公式,获取每个候选关键词对应预设主题的关键词主题概率、以及每个文本单元对应预设主题的单元主题概率。
将获取到的关键词主题概率和初始关键词主题概率、以及单元主题概率和初始单元主题概率进行比较,当比较结果表明吉布斯采样公式已经收敛时,即关键词主题概率和单元主题概率不满足概率调整条件时,可以直接获取关键词主题概率和单元主题概率。当比较结果表明吉布斯采样公式没有收敛时,即关键词主题概率和单元主题概率满足概率调整条件时,可以将初始关键词主题概率调整为关键词主题概率,并将初始单元主题概率调整为单元主题概率,继续根据吉布斯采样公式进行主题概率的获取,直至吉布斯采样公式收敛,得到关键词主题概率Topicwordj=[vj,1,vj,2,...,vj,k]和单元主题概率Topicchapi=[vi,1,vi,2,...,vi,k]。
在一实施例中,比如,可以获取10000本书进行主题概率的获取,该10000本书中可以包括5000000个章节、以及3000000个不重复的候选关键词。然后对获取到的数据进行主题概率的获取。但是由于数据量过大,因此单机的LDA很难运行,而能够用于分布式LDA工作集群的获取又十分困难,因此,可以通过将数据分成若干份,分别进行LDA主题概率获取的方案,以解决数据量过大的问题。比如可以将10000本书中的5000000个章节、以及3000000个不重复的候选关键词分为K份,每一份都按照章节号进行划分,使得每一本书的数据都均匀的分布在每一份数据中。其中,K的数值可以根据实际情况进行调整,使得每一份数据都能够在单机中运行即可。
在一实施例中,由于关键词对于文本单元的重要性会随着关键词在文本单元中出现的频次成正比增加,同时会随着关键词在文本单元在语料库中出现的频次成反比下降,因此可以通过计算单元频率子信息,提升确定关键词重要程度的准确性。具体地,步骤“根据所述候选关键词在相应文本单元中出现的频次,获取所述候选关键词针对文本单元的单元频率子信息”,可以包括:
获取所述文本单元中所述候选关键词出现的频次占所述文本单元中所有候选关键词数量的单元词语占比子信息;
从所述文本集的多个文本单元中选取包括所述候选关键词的候选目标文本单元;
获取候选目标文本单元数量占所述文本集中所有文本单元数量的文本单元占比子信息;
基于所述单元词语占比子信息和所述文本单元占比子信息,获取所述候选关键词针对文本单元的单元频率子信息。
在实际应用中,可以通过TF-IDF(信息检索与数据挖掘的加权技术,termfrequency–inverse document frequency)计算候选关键词对应的单元频率子信息;当计算候选关键词“我”对应的单元频率子信息时,可以获取文本单元中候选关键词“我”出现的频次#(wordj)、以及文本单元中所有候选关键词的数量#(word in chap),并根据公式计算单元词语占比子信息。然后从文本集中选取包括候选关键词“我”的候选目标文本单元,并获取候选目标文本单元的数量#(chap has wordj)、以及文本集中所有文本单元的数量#(chap),然后根据公式计算文本单元占比子信息。最后根据单元频率子信息计算公式计算候选关键词“我”针对文本单元的单元频率子信息。
其中,TF-IDF(信息检索与数据挖掘的加权技术,term frequency–inversedocument frequency)可以为一种用于信息检索和数据挖掘的加权技术。TF-IDF的主要思想为:如果某个词语在一个文本中出现的频率高,并且在其他文本中很少出现,那么可以认为这个词语具有很好的类别区分能力,适合用来分类。
在一实施例中,单元频率子信息的计算方式可以有多种,只要可以在统计的维度上为候选关键词赋予一个单元频率子信息即可,比如,还可以通过TextRank获取候选关键词对应的单元频率子信息,其中,TextRank是一种自然语言处理领域的关键词提取算法,可以用于提取关键词、短语、以及自动生成文本摘要。又比如,还可以通过TF获取候选关键词对应的单元频率子信息,等等。
204、根据单元频率信息,从每个文本单元对应的候选关键词中,选取每个文本单元对应的单元关键词。
在实际应用中,可以根据单元频率信息,从每个文本单元对应的候选关键词中,选取每个文本单元对应的单元关键词。比如,获取到候选关键词针对章节的单元频率信息weightword之后,可以根据候选关键词的单元频率信息值的大小,将每一章中的候选关键词按照单元频率信息值的大小进行从大到小的排序,并将单元频率信息值大的前20个候选关键词,作为每个章节对应的单元关键词。
205、根据单元关键词对文本集重要程度的文本集度量参数,获取单元关键词针对文本集的文本频率信息。
其中,文本集度量参数可以为度量该候选关键词相对于文本集重要程度的参数,根据文本集度量参数可以得知该候选关键词相对于文本集的重要程度,进而确定该候选关键词对文本集而言是否为准确的关键词。其中,文本集度量参数可以包括多个种类,比如,文本集度量参数可以包括第一文本频率子信息、第二文本频率子信息等。
其中,文本频率信息可以为表征关键词相对于文本集重要程度的信息,该文本频率信息的数值越大,说明该关键词对于文本集越重要,即对于文本集而言,文本频率信息数值越大的关键词为更为准确的关键词。其中,该文本频率信息可以通过关键词权重的方式进行表示。
在实际应用中,可以根据单元关键词对文本集重要程度的文本集度量参数,获取单元关键词针对文本集的文本频率信息。比如,可以计算单元关键词对文本集重要程度的第一文本频率子信息KFweighted和第二文本频率子信息通过公式获取单元关键词针对文本集的权重形式的文本频率信息weightword
在一实施例中,由于度量单元关键词针对文本集重要程度的文本集度量参数可以有多种,因此,为了提高文本频率信息获取的准确性,可以对多种文本集度量参数进行计算,以获取准确的文本频率信息。具体地,步骤“根据所述单元关键词对所述文本集重要程度的文本集度量参数,获取所述单元关键词针对所述文本集的文本频率信息”,可以包括:
根据所述单元关键词的单元频率信息、以及所述单元关键词在所述文本集中出现的频次,获取所述单元关键词对应的第一文本频率子信息;
根据所述文本集的文本单元中所述单元关键词对应的单元频率信息,获取所述单元关键词对应的第二文本频率子信息;
将所述第一文本频率子信息和所述第二文本频率子信息进行融合,得到所述单元关键词针对所述文本集的文本频率信息。
在实际应用中,比如,当获取单元关键词“我”对应的文本频率信息时,可以获取单元关键词“我”对应的单元频率信息、以及单元关键词“我”在整本书中出现的频次,然后计算单元关键词“我”对应的第一文本频率子信息KFweighted。然后根据整本书中出现单元关键词“我”的章节、以及单元关键词“我”对应的单元频率信息,计算单元关键词“我”对应的第二文本频率子信息然后将获取到的第一文本频率子信息和第二文本频率子信息进行融合,得到单元关键词“我”针对整本书的文本频率信息weightword
在一实施例中,由于在一本书中有多个章节,而从这些章节中提取出的单元关键词可能存在重复,这些重复的关键词对于整本书而言更为重要,因此可以通过计算单元关键词对应的第一文本频率子信息,以提升关键词获取的准确性。具体地,步骤“根据所述单元关键词的单元频率信息、以及所述单元关键词在所述文本集中出现的频次,获取所述单元关键词对应的第一文本频率子信息”,可以包括:
将所述单元关键词的单元频率信息、以及所述单元关键词在所述文本集中出现的频次进行融合,得到所述单元关键词在所述文本集中的融合频率子信息;
根据所述文本集中每个单元关键词的单元频率信息,获取所述文本集中所有单元关键词的累计频率子信息;
根据所述融合频率子信息占所述累计频率子信息的比值,获取所述单元关键词对应的第一文本频率子信息。
在实际应用中,比如,当计算单元关键词“我”的第一文本频率子信息时,可以获取单元关键词“我”对应的单元频率信息weightwordi、以及单元关键词“我”在整本书中出现的频次,并根据“我”在整本书中出现的频次对单元频率信息weightwordi进行累加,计算出单元关键词“我”在整本书中的融合频率子信息∑wordiweightwordi。然后获取整本书中每个单元关键词对应的单元频率信息weightword,并对所有单元关键词对应的单元频率信息进行累加,得到整本书中所有单元关键词的累计频率子信息∑wordsweightword。然后可以计算融合频率子信息占累计频率子信息的比值获取单元关键词“我”对应的第一文本频率子信息KFweighted
在一实施例中,由于在计算关键词针对文本单元的频率信息时,每个关键词对于文本单元频率信息对应的权重都是1,但是在计算关键词针对文本集的频率信息时,关键词对于文本集频率信息对应的权重未必是1,因此可以通过赋予关键词针对文本集的第二文本频率子信息,提高关键词获取的准确性。具体地,步骤“根据所述文本集的文本单元中所述单元关键词对应的单元频率信息,获取所述单元关键词对应的第二文本频率子信息”,可以包括:
获取所述文本集的每个文本单元中单元频率信息值最大的最大频率关键词;
将所述文本集中所有最大频率关键词对应的单元频率信息进行累加,得到综合累计频率子信息;
从所述文本集的多个文本单元中选取包括所述单元关键词的目标文本单元;
获取每个目标文本单元中所述单元关键词对应值最大的单元频率信息;
将所有目标文本单元中所述单元关键词对应值最大的单元频率信息进行累加,得到指定累计频率子信息;
根据所述综合累计频率子信息、以及所述指定累计频率子信息获取所述单元关键词对应的第二文本频率子信息。
在实际应用中,比如,当计算单元关键词“我”的第二文本频率子信息时,可以获取整本书的每个章节中单元频率信息值最大的最大频率关键词、以及该最大频率关键词对应的单元频率信息值max(weightwords),并将该最大频率关键词对应的单元频率信息值与1进行比较,获取最大频率关键词对应的单元频率信息值与1中比较大的值max(1.0,max(weightwords)。并将文本集的所有章节中该较大的值进行累加,得到综合累计频率子信息∑docsmax(1.0,max(weightwords))。然后可以从整本书的多个章节中选取包括单元关键词“我”的目标文本单元,并获取每个目标文本单元中对应单元关键词“我”的最大的单元频率信息max(weightwordi),然后将所有目标文本单元中单元关键词“我”对应值最大的单元频率信息进行累加,得到指定累计频率子信息∑docs has wordimax(weightwordi)。然后根据公式计算单元关键词“我”对应的第二文本频率子信息
206、根据文本频率信息,从文本集的多个单元关键词中提取出关键词。
在实际应用中,可以根据文本频率信息,从文本集的多个单元关键词中提取出关键词。比如,可以将文本频率信息数值较大的预设数目的单元关键词,作为整本书的关键词。
比如,获取到整本书对应的关键词可以如下:钟世:0.075168、特警队员:0.059726、冬:0.046732、蛙人:0.039869、发起:0.037946、预备役部队:0.035875、唐:0.033632、滨海警方:0.032783、琴:0.030709、墨镜男人:0.026317、公司权益:0.025288、狙击步枪:0.024864、战术背包:0.023070、甲方:0.022199、合伙公司:0.021476、离婚律师:0.020492、集训队:0.020036、会展:0.020034、眼镜蛇:0.020021、责任保险:0.019668、棒球帽男人:0.019668、侦察设备:0.019124、照片公:0.018494、电网:0.017971、管理人:0.017759、战备工作:0.017301、枪刺:0.015978、调查表:0.015415、急诊室:0.015231、巡警:0.014060、猎狗:0.013307、安全岛:0.012297、急救中心:0.012257、嘶哑着喉咙:0.011931、违反:0.011926、音乐学院:0.011926、秃鹫:0.011550、雇佣:0.011215、劳动标准法:0.011134、个人原因:0.010949、蒙面人:0.010912、委任:0.010890、清贫:0.010751、投资者:0.010691、506:0.010574、义务:0.010220、终止:0.010217、翕动:0.009624、部下:0.009364、鹰:0.009084、望远镜:0.008983、56:0.008353、股票:0.007776、单位:0.007724、0.001:0.007514、成员:0.006807、货轮:0.006679、巡逻:0.006429,等等。其中,还可以将每个关键词对应的文本频率信息标注在关键词之后。
在一实施例中,由于还可以通过命名实体识别的方式获取候选关键词,因此,还可以从命名实体识别后得到的候选关键词进行关键词的提取,得到由命名实体组成的多个关键词。比如,ner-韩光:1.053325、ner-纪慧:0.812526、ner-何世昌:0.651450、ner-晓军:0.547707、ner-蔡晓春:0.371123、ner-林锐:0.201864、ner-唐晓军:0.185442、ner-严林:0.146594、ner-赫尔曼:0.128432、ner-赵百合:0.107168、ner-王欣:0.074263、ner-钟世佳:0.068198、ner-冯云山:0.068186、ner-秦伟:0.065761、ner-田小牛:0.064950、ner-富康:0.063059、ner-黑豹:0.048289、ner-罗伊:0.046849、ner-薛刚:0.044375、ner-黄毛:0.042946、ner-秦秘书:0.034775、ner-迪特:0.034694、ner-葛桐:0.034419、ner-张超:0.029652、ner-天宇:0.026411、ner-佳美:0.024464、ner-马迪:0.023369、ner-长焦:0.023190、ner-钟老师:0.021387、ner-许律师:0.020115、ner-王斌:0.019930、ner-任期:0.018647、ner-百合:0.017575、ner-林大夫:0.016030、ner-休假:0.014477、ner-勤勉:0.014009、ner-董事:0.013335、ner-山鹰:0.012984、ner-刑警:0.011864、ner-船老大:0.011813、ner-关键:0.011650、ner-队长:0.008063,等等。其中,ner可以表示该关键词为命名实体,并且可以将关键词对应的文本频率信息标注在关键词之后。
由上可知,本申请实施例可以获取文本集,文本集中包括多个呈一定排序关系的文本单元,对每个文本单元的文本内容进行关键词提取,得到每个文本单元对应的候选关键词,根据候选关键词对文本单元重要程度的文本单元度量参数,获取候选关键词针对文本单元的单元频率信息,根据单元频率信息,从每个文本单元对应的候选关键词中,选取每个文本单元对应的单元关键词,根据单元关键词对文本集重要程度的文本集度量参数,获取单元关键词针对文本集的文本频率信息,根据所述文本频率信息,从所述文本集的多个单元关键词中提取出关键词。该方案可以从两个层级上获取关键词的频率信息,首先获取关键词针对文本单元的单元频率信息,然后根据关键词的单元频率信息,获取关键词针对文本集的文本频率信息,并将该文本频率信息作为关键词针对整个文本集的重要程度,根据该重要程度从文本集中获取关键词,从而提高了文本集中关键词提取的准确性。
根据前面实施例所描述的方法,以下将以该关键词提取装置具体集成在网络设备举例作进一步详细说明。
参考图3,本申请实施例的关键词提取方法的具体流程可以如下:
301、网络设备获取待处理书籍。
在实际应用中,比如,如图5所示,网络设备可以通过文本阅读应用获取一本书作为待处理书籍,该待处理书籍中可以包括多个章节,可以通过Book表示待处理书籍,通过Chap表示章节,待处理书籍和章节之间的关系可以表示为Book={Chap1,Chap2,...,Chapn},其中,Chapn可以表示待处理书籍中的第N个章节。
302、网络设备对待处理书籍中每个章节的文本内容进行关键词提取,得到每个章节对应的候选关键词。
在实际应用中,比如,网络设备可以对待处理书籍中的每个章节都进行文本分词,将“有时候是稼轩,但我最喜欢的词倒是清楚的,该是蒋捷的《虞美人·听雨》”进行分词处理可以得到“有时:d候:v是:v稼轩:n,:w但:c我:r最:d喜欢:v的:u词:n倒是:d清楚:a的:u,:w该:r是:v蒋:n捷:n的:u《:w虞:n美人:n·:w听雨:n》:w”。从而可以将待处理书籍中的每个章节都划分为多个原始关键词,待处理书籍和划分后的章节之间的关系可以表示为Bookseg={Chap1 seg,Chap2 seg,...,Chapn seg}。
对每个章节都进行文本分词后,可以根据预设词语合并规则,对得到的多个原始关键词进行词语合并。如可以获取三个原始关键词“白净:a”“脸:n”“儿:Ng”,根据预设词语合并规则,按顺序排列的形容词、名词和名词性语素可以进行合并,因此可以将三个原始关键词合并为一个候选关键词“白净脸儿”。其中,预设词语合并规则在上文中已经进行叙述,此处不再赘述。
由于在实际使用中,词语长度过长的候选关键词、以及出现频率过低的候选关键词都不宜进行后续词语主题获取的步骤,因此可以对词语长度过长的候选关键词进行拆分,可以表示为word={wordsub,0,wordsub,1,...},如当原始候选关键词中包括5个原始关键词时,可以将该原始候选关键词拆分为两个候选关键词,拆分后的两个候选关键词中可以分别包括2个原始关键词和3个原始关键词。若候选关键词由于频率过低而不适合作为关键词时,可以直接将该候选关键词予以忽略。
303、网络设备根据候选关键词对章节重要程度的文本单元度量参数,获取候选关键词针对章节的单元频率信息。
在实际应用中,比如,网络设备可以获取10000本书进行主题获取,可以将该10000本书划分为5000000个章节、以及3000000个没有重复的候选关键词。但由于数据量过大,单机无法支持LDA的运行,因此,可以将获取到的数据分为k份,每一份都按照章节号进行划分,使得每一本书的数据都均匀的分布在每一份数据中。其中,K的数值可以根据实际情况进行调整,使得每一份数据都能够在单机中运行即可。然后通过LDA,分别获取每个候选关键词对应预设主题的关键词主题概率Topicwordj=[vj,1,vj,2,...,vj,k]、以及每个章节对应预设主题的单元主题概率Topicchapi=[vi,1,vi,2,...,vi,k]。然后可以通过公式ri,j=cosine(Topicchapi,Topicwordj)计算候选关键词与章节之间的主题相关信息rchap,word
然后可以通过TF-IDF计算候选关键词对应的单元频率子信息;当计算候选关键词“我”对应的单元频率子信息时,可以获取章节中候选关键词“我”出现的频次#(wordj)、以及章节中所有候选关键词的数量#(word in chap),并根据公式计算单元词语占比子信息。然后从待处理书籍中选取包括候选关键词“我”的候选目标文本单元,并获取候选目标文本单元的数量#(chap has wordj)、以及待处理书籍中所有章节的数量#(chap),然后根据公式计算文本单元占比子信息。最后根据单元频率子信息的计算公式计算候选关键词“我”针对章节的单元频率子信息。
然后可以根据候选关键词的词语长度,通过获取词语长度信息的计算公式weightlength={1:0.7,2:1.0,3:1.2,4:1.5,5:1.2}获取候选关键词对应的词语长度信息weightlen(word)
最后根据公式weightword=rchap,word×wchap,word×weightlen(word),将主题相关信息、单元频率子信息以及词语长度信息进行融合,得到候选关键词针对章节的单元频率信息weightword
304、网络设备根据单元频率信息,从每个章节对应的候选关键词中,选取每个章节对应的单元关键词。
在实际应用中,比如,获取到候选关键词针对章节的单元频率信息weightword之后,可以根据候选关键词的单元频率信息值的大小,将每一章中的候选关键词按照单元频率信息值的大小进行从大到小的排序,并将单元频率信息值大的前20个候选关键词,作为每个章节对应的单元关键词。
305、网络设备根据单元关键词对待处理书籍重要程度的文本集度量参数,获取单元关键词针对待处理书籍的文本频率信息。
在实际应用中,比如,当计算单元关键词“我”的第一文本频率子信息时,可以获取单元关键词“我”对应的单元频率信息weightwordi、以及单元关键词“我”在待处理书籍中出现的频次,并根据“我”在待处理书籍中出现的频次对单元频率信息weightwordi进行累加,计算出单元关键词“我”在待处理书籍中的融合频率子信息∑wordiweightwordi。然后获取待处理书籍中每个单元关键词对应的单元频率信息weightword,并对所有单元关键词对应的单元频率信息进行累加,得到待处理书籍中所有单元关键词的累计频率子信息∑wordsweightword。然后可以计算融合频率子信息占累计频率子信息的比值获取单元关键词“我”对应的第一文本频率子信息KFweighted
然后,可以获取待处理书籍的每个章节中单元频率信息值最大的最大频率关键词、以及该最大频率关键词对应的单元频率信息值max(weightwords),并将该最大频率关键词对应的单元频率信息值与1进行比较,获取最大频率关键词对应的单元频率信息值与1中比较大的值max(1.0,max(weightwords)。并将待处理书籍的所有章节中该较大的值进行累加,得到综合累计频率子信息∑docsmax(1.0,max(weightwords))。然后可以从待处理书籍的多个章节中选取包括单元关键词“我”的目标文本单元,并获取每个目标文本单元中对应单元关键词“我”的最大的单元频率信息max(weightwordi),然后将所有目标文本单元中单元关键词“我”对应值最大的单元频率信息进行累加,得到指定累计频率子信息∑docs has wordimax(weightwordi)。然后根据第二文本频率子信息的计算公式计算单元关键词“我”对应的第二文本频率子信息然后可以根据公式获取单元关键词针对待处理书籍的权重形式的文本频率信息weightword
306、网络设备根据文本频率信息,从待处理书籍的多个单元关键词中提取出关键词。
在实际应用中,比如,可以将文本频率信息数值较大的预设数目的单元关键词,作为整本书的关键词。其中,获取到整本书对应的关键词可以如下:钟世:0.075168、特警队员:0.059726、冬:0.046732、蛙人:0.039869、发起:0.037946、预备役部队:0.035875、唐:0.033632、滨海警方:0.032783、琴:0.030709、墨镜男人:0.026317、公司权益:0.025288、狙击步枪:0.024864、战术背包:0.023070、甲方:0.022199、合伙公司:0.021476、离婚律师:0.020492、集训队:0.020036、会展:0.020034、眼镜蛇:0.020021、责任保险:0.019668、棒球帽男人:0.019668、侦察设备:0.019124、照片公:0.018494、电网:0.017971、管理人:0.017759、战备工作:0.017301、枪刺:0.015978、调查表:0.015415、急诊室:0.015231、巡警:0.014060、猎狗:0.013307、安全岛:0.012297、急救中心:0.012257、嘶哑着喉咙:0.011931、违反:0.011926、音乐学院:0.011926、秃鹫:0.011550、雇佣:0.011215、劳动标准法:0.011134、个人原因:0.010949、蒙面人:0.010912、委任:0.010890、清贫:0.010751、投资者:0.010691、506:0.010574、义务:0.010220、终止:0.010217、翕动:0.009624、部下:0.009364、鹰:0.009084、望远镜:0.008983、56:0.008353、股票:0.007776、单位:0.007724、0.001:0.007514、成员:0.006807、货轮:0.006679、巡逻:0.006429,等等。其中,还可以将每个关键词对应的文本频率信息标注在关键词之后。
在一实施例中,获取到待处理书籍对应的关键词后,网络设备可以根据该获取到的关键词对文本阅读应用中的书籍进行相应关键词的标记,以便用户可以根据文本阅读应用中书籍对应标记的关键词,了解文本阅读应用中对应书籍的内容、主题等信息,进而决定是否进行书籍的阅读。
在一实施例中,文本阅读应用还可以获取用户之前阅读过的历史阅读书籍、以及历史阅读书籍对应的关键词,并根据历史阅读书籍对应的关键词向用户推荐关键词相似或者相同的推荐书籍。如图6所示,当用户通过文本阅读应用进行书籍查找时,文本阅读应用可以在界面上显示推荐书籍的封面,用户可以通过点击感兴趣书籍的封面,进行书籍的阅读。当界面上显示的推荐书籍不能满足用户的阅读需求时,用户还可以通过点击界面上“换一批”的按钮,进行推荐书籍的切换。通过这种方法根据用户的历史阅读记录,向用户推荐其可能感兴趣的书籍,从而使得阅读次数较少的新书也能够通过关键词获取的方式被推荐,有效地提高了新书的被召回率。文本阅读应用界面中的推荐书籍可以每隔一天更新一次,以便用户每日都可以获取到不同的推荐书籍。
在一实施例中,文本阅读应用中还可以在推荐的书籍后,标注该书籍是根据哪本具体历史阅读书籍进行推荐的,比如,如图7所示,文本阅读应用可以在推荐的书籍1旁边,标注该书籍1是根据书籍a推荐的,当用户希望阅读与书籍a类似的书籍时,能够快速查找到相应的书籍1,从而提升了用户查找书籍的准确性以及效率。其中,根据书籍a推荐的书籍1可以为与书籍a具有相似关键词的书籍,比如,书籍1可以为与书籍a包括相同关键词最多的书籍,书籍1还可以为与书籍a包括相似关键词最多的书籍等等。
由上可知,本申请实施例可以通过网络设备获取待处理书籍,对待处理书籍中每个章节的文本内容进行关键词提取,得到每个章节对应的候选关键词,根据候选关键词对章节重要程度的文本单元度量参数,获取候选关键词针对章节的单元频率信息,根据单元频率信息,从每个章节对应的候选关键词中,选取每个章节对应的单元关键词,根据单元关键词对待处理书籍重要程度的文本集度量参数,获取单元关键词针对待处理书籍的文本频率信息,根据文本频率信息,从待处理书籍的多个单元关键词中提取出关键词。该方案可以从两个层级上获取关键词的频率信息,首先获取关键词针对文本单元的单元频率信息,然后根据关键词的单元频率信息,获取关键词针对文本集的文本频率信息,并将该文本频率信息作为关键词针对整个文本集的重要程度,根据该重要程度从文本集中获取关键词,从而提高了文本集中关键词提取的准确性。
根据前面实施例所描述的方法,以下将以该关键词提取装置具体集成在网络设备举例作进一步详细说明。
参考图4,本申请实施例的关键词提取方法的具体流程可以如下:
401、网络设备获取待处理书籍。
在实际应用中,比如,网络设备可以获取一本书作为待处理书籍,这本书中可以包括多个章节,可以通过Book表示待处理书籍,通过Chap表示章节,待处理书籍和章节之间的关系可以表示为Book={Chap1,Chap2,...,Chapn},其中,Chapn可以表示待处理书籍中的第N个章节。
402、网络设备对待处理书籍中每个章节的文本内容通过命名实体识别进行关键词的提取,得到每个章节对应的候选关键词。
在实际应用中,比如,网络设备可以对待处理书籍中的每个章节都进行文本分词,将待处理书籍中的每个章节都划分为多个原始关键词,待处理书籍和划分后的章节之间的关系可以表示为Bookseg={Chap1 seg,Chap2 seg,...,Chapn seg}。
对每个章节都进行文本分词后,可以通过命名实体识别,根据每个原始关键词的词语特征,对每个原始关键词进行标注,即给每个原始关键词一个标签,并根据原始关键词的标签,从原始关键词中提取出候选关键词。此时,待处理书籍和章节之间的关系可以表示为Bookner={Chap1 ner,Chap2 ner,...,Chapn ner}。
比如,经过命名实体识别后,可以识别出“稼轩/PER”“蒋捷/PER”“江阔云/PER”“天明/LOC”“美国/LOC”等命名实体,并将上述命名实体作为候选关键词。其中,“PER”“LOC”可以为命名实体的标签,“PER”说明该命名实体为人名,“LOC”说明该命名实体为地名等。
403、网络设备根据候选关键词对章节重要程度的文本单元度量参数,获取候选关键词针对章节的单元频率信息。
在实际应用中,比如,网络设备可以获取10000本书进行主题获取,可以将该10000本书划分为5000000个章节、以及3000000个没有重复的候选关键词。但由于数据量过大,单机无法支持LDA的运行,因此,可以将获取到的数据分为k份,每一份都按照章节号进行划分,使得每一本书的数据都均匀的分布在每一份数据中。其中,K的数值可以根据实际情况进行调整,使得每一份数据都能够在单机中运行即可。然后通过LDA,分别获取每个候选关键词对应预设主题的关键词主题概率Topicwordj=[vj,1,vj,2,...,vj,k]、以及每个章节对应预设主题的单元主题概率Topicchapi=[vi,1,vi,2,...,vi,k]。然后可以通过公式ri,j=cosine(Topicchapi,Topicwordj)计算候选关键词与章节之间的主题相关信息rchap,word
然后可以通过TF-IDF计算候选关键词对应的单元频率子信息;当计算候选关键词“中国”对应的单元频率子信息时,可以获取章节中候选关键词“中国”出现的频次#(wordj)、以及章节中所有候选关键词的数量#(word in chap),并根据公式计算单元词语占比子信息。然后从待处理书籍中选取包括候选关键词“中国”的候选目标文本单元,并获取候选目标文本单元的数量#(chap has wordj)、以及待处理书籍中所有章节的数量#(chap),然后根据公式计算文本单元占比子信息。最后根据单元频率子信息的计算公式计算候选关键词“中国”针对章节的单元频率子信息。
然后可以根据候选关键词的词语长度,通过获取词语长度信息的计算公式weightlength={1:0.7,2:1.0,3:1.2,4:1.5,5:1.2}获取候选关键词对应的词语长度信息weightlen(word)
最后根据公式weightword=rchap,word×wchap,word×weightlen(word),将主题相关信息、单元频率子信息以及词语长度信息进行融合,得到候选关键词针对章节的单元频率信息weightword
404、网络设备根据单元频率信息,从每个章节对应的候选关键词中,选取每个章节对应的单元关键词。
在实际应用中,比如,获取到候选关键词针对章节的单元频率信息weightword之后,可以根据候选关键词的单元频率信息值的大小,将每一章中的候选关键词按照单元频率信息值的大小进行从大到小的排序,并将单元频率信息值大的前20个候选关键词,作为每个章节对应的单元关键词。
405、网络设备根据单元关键词对待处理书籍重要程度的文本集度量参数,获取单元关键词针对待处理书籍的文本频率信息。
在实际应用中,比如,当计算单元关键词“中国”的第一文本频率子信息时,可以获取单元关键词“中国”对应的单元频率信息weightwordi、以及单元关键词“中国”在待处理书籍中出现的频次,并根据“中国”在待处理书籍中出现的频次对单元频率信息weightwordi进行累加,计算出单元关键词“中国”在待处理书籍中的融合频率子信息∑wordiweightwordi。然后获取待处理书籍中每个单元关键词对应的单元频率信息weightword,并对所有单元关键词对应的单元频率信息进行累加,得到待处理书籍中所有单元关键词的累计频率子信息∑wordsweightword。然后可以计算融合频率子信息占累计频率子信息的比值获取单元关键词“中国”对应的第一文本频率子信息KFweighted
然后,可以获取待处理书籍的每个章节中单元频率信息值最大的最大频率关键词、以及该最大频率关键词对应的单元频率信息值max(weightwords),并将该最大频率关键词对应的单元频率信息值与1进行比较,获取最大频率关键词对应的单元频率信息值与1中比较大的值max(1.0,max(weightwords)。并将待处理书籍的所有章节中该较大的值进行累加,得到综合累计频率子信息∑docsmax(1.0,max(weightwords))。然后可以从待处理书籍的多个章节中选取包括单元关键词“中国”的目标文本单元,并获取每个目标文本单元中对应单元关键词“中国”的最大的单元频率信息max(weightwordi),然后将所有目标文本单元中单元关键词“中国”对应值最大的单元频率信息进行累加,得到指定累计频率子信息∑docs has wordimax(weightwordi)。然后根据第二文本频率子信息的计算公式计算单元关键词“中国”对应的第二文本频率子信息然后可以根据公式获取单元关键词针对待处理书籍的权重形式的文本频率信息weightword
406、网络设备根据文本频率信息,从待处理书籍的多个单元关键词中提取出关键词。
在实际应用中,比如,可以将文本频率信息数值较大的预设数目的单元关键词,作为整本书的关键词。其中,获取到整本书对应的关键词可以如下:ner-韩光:1.053325、ner-纪慧:0.812526、ner-何世昌:0.651450、ner-晓军:0.547707、ner-蔡晓春:0.371123、ner-林锐:0.201864、ner-唐晓军:0.185442、ner-严林:0.146594、ner-赫尔曼:0.128432、ner-赵百合:0.107168、ner-王欣:0.074263、ner-钟世佳:0.068198、ner-冯云山:0.068186、ner-秦伟:0.065761、ner-田小牛:0.064950、ner-富康:0.063059、ner-黑豹:0.048289、ner-罗伊:0.046849、ner-薛刚:0.044375、ner-黄毛:0.042946、ner-秦秘书:0.034775、ner-迪特:0.034694、ner-葛桐:0.034419、ner-张超:0.029652、ner-天宇:0.026411、ner-佳美:0.024464、ner-马迪:0.023369、ner-长焦:0.023190、ner-钟老师:0.021387、ner-许律师:0.020115、ner-王斌:0.019930、ner-任期:0.018647、ner-百合:0.017575、ner-林大夫:0.016030、ner-休假:0.014477、ner-勤勉:0.014009、ner-董事:0.013335、ner-山鹰:0.012984、ner-刑警:0.011864、ner-船老大:0.011813、ner-关键:0.011650、ner-队长:0.008063,等等。其中,ner可以表示该关键词为命名实体,并且可以将关键词对应的文本频率信息标注在关键词之后。
由上可知,本申请实施例可以通过网络设备获取待处理书籍,对待处理书籍中每个章节的文本内容通过命名实体识别进行关键词的提取,得到每个章节对应的候选关键词,根据候选关键词对章节重要程度的文本单元度量参数,获取候选关键词针对章节的单元频率信息,根据单元频率信息,从每个章节对应的候选关键词中,选取每个章节对应的单元关键词,根据单元关键词对待处理书籍重要程度的文本集度量参数,获取单元关键词针对待处理书籍的文本频率信息,根据文本频率信息,从待处理书籍的多个单元关键词中提取出关键词。该方案可以从两个层级上获取关键词的频率信息,首先获取关键词针对文本单元的单元频率信息,然后根据关键词的单元频率信息,获取关键词针对文本集的文本频率信息,并将该文本频率信息作为关键词针对整个文本集的重要程度,根据该重要程度从文本集中获取关键词,从而提高了文本集中关键词提取的准确性。
为了更好地实施以上方法,本申请实施例还可以提供一种关键词提取装置,该关键词提取装置具体可以集成在网络设备中,该网络设备可以包括服务器、终端等,其中,终端可以包括:手机、平板电脑、笔记本电脑或个人计算机(PC,Personal Computer)等。
例如,如图8所示,该关键词提取装置可以包括文本集获取模块81、第一提取模块82、第一信息获取模块83、选取模块84、第二信息获取模块85和第二提取模块86,如下:
文本集获取模块81,用于获取文本集,所述文本集中包括多个呈一定排序关系的文本单元;
第一提取模块82,用于对每个文本单元的文本内容进行关键词提取,得到每个文本单元对应的候选关键词;
第一信息获取模块83,用于根据所述候选关键词对所述文本单元重要程度的文本单元度量参数,获取所述候选关键词针对所述文本单元的单元频率信息;
选取模块84,用于根据所述单元频率信息,从每个文本单元对应的候选关键词中,选取每个文本单元对应的单元关键词;
第二信息获取模块85,用于根据所述单元关键词对所述文本集重要程度的文本集度量参数,获取所述单元关键词针对所述文本集的文本频率信息;
第二提取模块86,用于根据所述文本频率信息,从所述文本集的多个单元关键词中提取出关键词。
在一实施例中,所述第一信息获取模块83可以包括单元主题概率获取子模块831、相关信息获取子模块832、单元频率子信息获取子模块833、词语长度信息获取子模块834和单元频率信息获取子模块835,如下:
单元主题概率获取子模块831,用于获取每个候选关键词对应预设主题的关键词主题概率、以及每个文本单元对应预设主题的单元主题概率;
相关信息获取子模块832,用于根据所述候选关键词对应的关键词主题概率、以及所述候选关键词所在文本单元对应的单元主题概率,获取所述候选关键词与所述文本单元之间的主题相关信息;
单元频率子信息获取子模块833,用于根据所述候选关键词在相应文本单元中出现的频次,获取所述候选关键词针对文本单元的单元频率子信息;
词语长度信息获取子模块834,用于基于所述候选关键词的词语长度,获取所述候选关键词对应的词语长度信息;
单元频率信息获取子模块835,用于将主题相关信息、单元频率子信息以及词语长度信息进行融合,得到所述候选关键词针对所述文本单元的单元频率信息。
在一实施例中,所述单元频率子信息获取子模块833具体可以用于:
获取所述文本单元中所述候选关键词出现的频次占所述文本单元中所有候选关键词数量的单元词语占比子信息;
从所述文本集的多个文本单元中选取包括所述候选关键词的候选目标文本单元;
获取候选目标文本单元数量占所述文本集中所有文本单元数量的文本单元占比子信息;
基于所述单元词语占比子信息和所述文本单元占比子信息,获取所述候选关键词针对文本单元的单元频率子信息。
在一实施例中,所述单元主题概率获取子模块831可以具体用于:
确定每个候选关键词对应预设主题的初始关键词主题概率、以及每个文本单元对应预设主题的初始单元主题概率;
基于所述初始关键词主题概率和所述初始单元主题概率,通过预设采样算法对主题概率分布进行采样,得到每个候选关键词对应预设主题的关键词主题概率、以及每个文本单元对应预设主题的单元主题概率;
当所述关键词主题概率和所述单元主题概率满足概率调整条件时,将所述初始关键词主题概率调整为关键词主题概率,并将所述初始单元主题概率调整为单元主题概率;
返回执行基于所述初始关键词主题概率和所述初始单元主题概率,通过预设采样算法对主题概率分布进行采样,得到每个候选关键词对应预设主题的关键词主题概率、以及每个文本单元对应预设主题的单元主题概率的步骤;
当所述关键词主题概率和所述单元主题概率不满足概率调整条件时,获取每个候选关键词对应预设主题的关键词主题概率、以及每个文本单元对应预设主题的单元主题概率。
在一实施例中,所述第二信息获取模块85可以包括第一文本频率子信息获取子模块851、第二文本频率子信息获取子模块852和文本频率信息获取子模块853,如下:
第一文本频率子信息获取子模块851,用于根据所述单元关键词的单元频率信息、以及所述单元关键词在所述文本集中出现的频次,获取所述单元关键词对应的第一文本频率子信息;
第二文本频率子信息获取子模块852,用于根据所述文本集的文本单元中所述单元关键词对应的单元频率信息,获取所述单元关键词对应的第二文本频率子信息;
文本频率信息获取子模块853,用于将所述第一文本频率子信息和所述第二文本频率子信息进行融合,得到所述单元关键词针对所述文本集的文本频率信息。
在一实施例中,所述第一文本频率子信息获取子模块851可以具体用于:
将所述单元关键词的单元频率信息、以及所述单元关键词在所述文本集中出现的频次进行融合,得到所述单元关键词在所述文本集中的融合频率子信息;
根据所述文本集中每个单元关键词的单元频率信息,获取所述文本集中所有单元关键词的累计频率子信息;
根据所述融合频率子信息占所述累计频率子信息的比值,获取所述单元关键词对应的第一文本频率子信息。
在一实施例中,所述第二文本频率子信息获取子模块852可以具体用于:
获取所述文本集的每个文本单元中单元频率信息值最大的最大频率关键词;
将所述文本集中所有最大频率关键词对应的单元频率信息进行累加,得到综合累计频率子信息;
从所述文本集的多个文本单元中选取包括所述单元关键词的目标文本单元;
获取每个目标文本单元中所述单元关键词对应值最大的单元频率信息;
将所有目标文本单元中所述单元关键词对应值最大的单元频率信息进行累加,得到指定累计频率子信息;
根据所述综合累计频率子信息、以及所述指定累计频率子信息获取所述单元关键词对应的第二文本频率子信息。
在一实施例中,所述第一提取模块82可以包括原始关键词获取子模块821和候选关键词获取子模块822,如下:
原始关键词获取子模块821,用于对每个文本单元的文本内容进行文本分词处理,将所述文本单元的文本内容分为多个原始关键词;
候选关键词获取子模块822,用于根据预设词语合并规则对所述原始关键词进行词语合并,得到每个文本单元对应的候选关键词。
在一实施例中,所述候选关键词获取子模块822可以具体用于:
根据预设词语合并规则对所述原始关键词进行词语合并,得到每个文本单元对应的原始候选关键词;
当所述原始候选关键词满足预设拆分条件时,将所述原始候选关键词拆分为至少一个候选关键词;
当所述原始候选关键词不满足预设拆分条件时,将所述原始候选关键词确定为候选关键词。
在一实施例中,所述关键词提取装置还可以包括标注模块87和关键词提取模块88,如下:
标注模块87,用于根据每个原始关键词的词语特征,对所述文本内容中的原始关键词进行标注;
关键词提取模块88,用于根据所述原始关键词的标注,从所述文本内容的原始关键词中提取出候选关键词。
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
由上可知,本实施例的关键词提取装置通过文本集获取模块81获取文本集,文本集中包括多个呈一定排序关系的文本单元,通过第一提取模块82对每个文本单元的文本内容进行关键词提取,得到每个文本单元对应的候选关键词,通过第一信息获取模块83根据候选关键词对文本单元重要程度的文本单元度量参数,获取候选关键词针对文本单元的单元频率信息,通过选取模块84根据单元频率信息,从每个文本单元对应的候选关键词中,选取每个文本单元对应的单元关键词,通过第二信息获取模块85根据所述单元关键词对所述文本集重要程度的文本集度量参数,获取单元关键词针对文本集的文本频率信息,通过第二提取模块86根据文本频率信息,从文本集的多个单元关键词中提取出关键词。该方案可以从两个层级上获取关键词的频率信息,首先获取关键词针对文本单元的单元频率信息,然后根据关键词的单元频率信息,获取关键词针对文本集的文本频率信息,并将该文本频率信息作为关键词针对整个文本集的重要程度,根据该重要程度从文本集中获取关键词,从而提高了文本集中关键词提取的准确性。
本申请实施例还提供一种网络设备,该网络设备可以集成本申请实施例所提供的任一种关键词提取装置。
例如,如图9所示,其示出了本申请实施例所涉及的网络设备的结构示意图,具体来讲:
该网络设备可以包括一个或者一个以上处理核心的处理器901、一个或一个以上计算机可读存储介质的存储器902、电源903和输入单元904等部件。本领域技术人员可以理解,图9中示出的网络设备结构并不构成对网络设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器901是该网络设备的控制中心,利用各种接口和线路连接整个网络设备的各个部分,通过运行或执行存储在存储器902内的软件程序和/或模块,以及调用存储在存储器902内的数据,执行网络设备的各种功能和处理数据,从而对网络设备进行整体监控。可选的,处理器901可包括一个或多个处理核心;优选的,处理器901可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器901中。
存储器902可用于存储软件程序以及模块,处理器901通过运行存储在存储器902的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器902可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据网络设备的使用所创建的数据等。此外,存储器902可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器902还可以包括存储器控制器,以提供处理器901对存储器902的访问。
网络设备还包括给各个部件供电的电源903,优选的,电源903可以通过电源管理系统与处理器901逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源903还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该网络设备还可包括输入单元904,该输入单元904可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,网络设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,网络设备中的处理器901会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器902中,并由处理器901来运行存储在存储器902中的应用程序,从而实现各种功能,如下:
获取文本集,文本集中包括多个呈一定排序关系的文本单元,对每个文本单元的文本内容进行关键词提取,得到每个文本单元对应的候选关键词,根据候选关键词对文本单元重要程度的文本单元度量参数,获取候选关键词针对文本单元的单元频率信息,根据单元频率信息,从每个文本单元对应的候选关键词中,选取每个文本单元对应的单元关键词,根据单元关键词对文本集重要程度的文本集度量参数,获取单元关键词针对文本集的文本频率信息,根据所述文本频率信息,从所述文本集的多个单元关键词中提取出关键词。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
由上可知,本申请实施例可以获取文本集,文本集中包括多个呈一定排序关系的文本单元,对每个文本单元的文本内容进行关键词提取,得到每个文本单元对应的候选关键词,根据候选关键词对文本单元重要程度的文本单元度量参数,获取候选关键词针对文本单元的单元频率信息,根据单元频率信息,从每个文本单元对应的候选关键词中,选取每个文本单元对应的单元关键词,根据单元关键词对文本集重要程度的文本集度量参数,获取单元关键词针对文本集的文本频率信息,根据所述文本频率信息,从所述文本集的多个单元关键词中提取出关键词。该方案可以从两个层级上获取关键词的频率信息,首先获取关键词针对文本单元的单元频率信息,然后根据关键词的单元频率信息,获取关键词针对文本集的文本频率信息,并将该文本频率信息作为关键词针对整个文本集的重要程度,根据该重要程度从文本集中获取关键词,从而提高了文本集中关键词提取的准确性。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种关键词提取方法中的步骤。例如,该指令可以执行如下步骤:
获取文本集,文本集中包括多个呈一定排序关系的文本单元,对每个文本单元的文本内容进行关键词提取,得到每个文本单元对应的候选关键词,根据候选关键词对文本单元重要程度的文本单元度量参数,获取候选关键词针对文本单元的单元频率信息,根据单元频率信息,从每个文本单元对应的候选关键词中,选取每个文本单元对应的单元关键词,根据单元关键词对文本集重要程度的文本集度量参数,获取单元关键词针对文本集的文本频率信息,根据所述文本频率信息,从所述文本集的多个单元关键词中提取出关键词。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本申请实施例所提供的任一种关键词提取方法中的步骤,因此,可以实现本申请实施例所提供的任一种关键词提取方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种关键词提取方法和装置进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种关键词提取方法,其特征在于,包括:
获取文本集,所述文本集中包括多个呈一定排序关系的文本单元;
对每个文本单元的文本内容进行关键词提取,得到每个文本单元对应的候选关键词;
根据所述候选关键词对所述文本单元重要程度的文本单元度量参数,获取所述候选关键词针对所述文本单元的单元频率信息;
根据所述单元频率信息,从每个文本单元对应的候选关键词中,选取每个文本单元对应的单元关键词;
根据所述单元关键词对所述文本集重要程度的文本集度量参数,获取所述单元关键词针对所述文本集的文本频率信息;
根据所述文本频率信息,从所述文本集的多个单元关键词中提取出关键词。
2.根据权利要求1所述的关键词提取方法,其特征在于,所述文本单元度量参数包括主题相关信息、单元频率子信息以及词语长度信息;
根据所述候选关键词对所述文本单元重要程度的文本单元度量参数,获取所述候选关键词针对所述文本单元的单元频率信息,包括:
获取每个候选关键词对应预设主题的关键词主题概率、以及每个文本单元对应预设主题的单元主题概率;
根据所述候选关键词对应的关键词主题概率、以及所述候选关键词所在文本单元对应的单元主题概率,获取所述候选关键词与所述文本单元之间的主题相关信息;
根据所述候选关键词在相应文本单元中出现的频次,获取所述候选关键词针对文本单元的单元频率子信息;
基于所述候选关键词的词语长度,获取所述候选关键词对应的词语长度信息;
将主题相关信息、单元频率子信息以及词语长度信息进行融合,得到所述候选关键词针对所述文本单元的单元频率信息。
3.根据权利要求2所述的关键词提取方法,其特征在于,根据所述候选关键词在相应文本单元中出现的频次,获取所述候选关键词针对文本单元的单元频率子信息,包括:
获取所述文本单元中所述候选关键词出现的频次占所述文本单元中所有候选关键词数量的单元词语占比子信息;
从所述文本集的多个文本单元中选取包括所述候选关键词的候选目标文本单元;
获取候选目标文本单元数量占所述文本集中所有文本单元数量的文本单元占比子信息;
基于所述单元词语占比子信息和所述文本单元占比子信息,获取所述候选关键词针对文本单元的单元频率子信息。
4.根据权利要求2所述的关键词提取方法,其特征在于,获取每个候选关键词对应预设主题的关键词主题概率、以及每个文本单元对应预设主题的单元主题概率,包括:
确定每个候选关键词对应预设主题的初始关键词主题概率、以及每个文本单元对应预设主题的初始单元主题概率;
基于所述初始关键词主题概率和所述初始单元主题概率,通过预设采样算法对主题概率分布进行采样,得到每个候选关键词对应预设主题的关键词主题概率、以及每个文本单元对应预设主题的单元主题概率;
当所述关键词主题概率和所述单元主题概率满足概率调整条件时,将所述初始关键词主题概率调整为关键词主题概率,并将所述初始单元主题概率调整为单元主题概率;
返回执行基于所述初始关键词主题概率和所述初始单元主题概率,通过预设采样算法对主题概率分布进行采样,得到每个候选关键词对应预设主题的关键词主题概率、以及每个文本单元对应预设主题的单元主题概率的步骤;
当所述关键词主题概率和所述单元主题概率不满足概率调整条件时,获取每个候选关键词对应预设主题的关键词主题概率、以及每个文本单元对应预设主题的单元主题概率。
5.根据权利要求1所述的关键词提取方法,其特征在于,所述文本集度量参数包括第一文本频率子信息和第二文本频率子信息;
根据所述单元关键词对所述文本集重要程度的文本集度量参数,获取所述单元关键词针对所述文本集的文本频率信息,包括:
根据所述单元关键词的单元频率信息、以及所述单元关键词在所述文本集中出现的频次,获取所述单元关键词对应的第一文本频率子信息;
根据所述文本集的文本单元中所述单元关键词对应的单元频率信息,获取所述单元关键词对应的第二文本频率子信息;
将所述第一文本频率子信息和所述第二文本频率子信息进行融合,得到所述单元关键词针对所述文本集的文本频率信息。
6.根据权利要求5所述的关键词提取方法,其特征在于,根据所述单元关键词的单元频率信息、以及所述单元关键词在所述文本集中出现的频次,获取所述单元关键词对应的第一文本频率子信息,包括:
将所述单元关键词的单元频率信息、以及所述单元关键词在所述文本集中出现的频次进行融合,得到所述单元关键词在所述文本集中的融合频率子信息;
根据所述文本集中每个单元关键词的单元频率信息,获取所述文本集中所有单元关键词的累计频率子信息;
根据所述融合频率子信息占所述累计频率子信息的比值,获取所述单元关键词对应的第一文本频率子信息。
7.根据权利要求5所述的关键词提取方法,其特征在于,根据所述文本集的文本单元中所述单元关键词对应的单元频率信息,获取所述单元关键词对应的第二文本频率子信息,包括:
获取所述文本集的每个文本单元中单元频率信息值最大的最大频率关键词;
将所述文本集中所有最大频率关键词对应的单元频率信息进行累加,得到综合累计频率子信息;
从所述文本集的多个文本单元中选取包括所述单元关键词的目标文本单元;
获取每个目标文本单元中所述单元关键词对应值最大的单元频率信息;
将所有目标文本单元中所述单元关键词对应值最大的单元频率信息进行累加,得到指定累计频率子信息;
根据所述综合累计频率子信息、以及所述指定累计频率子信息获取所述单元关键词对应的第二文本频率子信息。
8.根据权利要求1所述的关键词提取方法,其特征在于,对每个文本单元的文本内容进行关键词提取,得到每个文本单元对应的候选关键词,包括:
对每个文本单元的文本内容进行文本分词处理,将所述文本单元的文本内容分为多个原始关键词;
根据预设词语合并规则对所述原始关键词进行词语合并,得到每个文本单元对应的原始候选关键词;
当所述原始候选关键词满足预设拆分条件时,将所述原始候选关键词拆分为至少一个候选关键词;
当所述原始候选关键词不满足预设拆分条件时,将所述原始候选关键词确定为候选关键词。
9.根据权利要求8所述的关键词提取方法,其特征在于,对每个文本单元的文本内容进行文本分词处理,将所述文本单元的文本内容分为多个原始关键词之后,还包括:
根据每个原始关键词的词语特征,对所述文本内容中的原始关键词进行标注;
根据所述原始关键词的标注,从所述文本内容的原始关键词中提取出候选关键词。
10.一种关键词提取装置,其特征在于,包括:
文本集获取模块,用于获取文本集,所述文本集中包括多个呈一定排序关系的文本单元;
第一提取模块,用于对每个文本单元的文本内容进行关键词提取,得到每个文本单元对应的候选关键词;
第一信息获取模块,用于根据所述候选关键词对所述文本单元重要程度的文本单元度量参数,获取所述候选关键词针对所述文本单元的单元频率信息;
选取模块,用于根据所述单元频率信息,从每个文本单元对应的候选关键词中,选取每个文本单元对应的单元关键词;
第二信息获取模块,用于根据所述单元关键词对所述文本集重要程度的文本集度量参数,获取所述单元关键词针对所述文本集的文本频率信息;
第二提取模块,用于根据所述文本频率信息,从所述文本集的多个单元关键词中提取出关键词。
CN201910570592.3A 2019-06-27 2019-06-27 一种关键词提取方法和装置 Pending CN110321561A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910570592.3A CN110321561A (zh) 2019-06-27 2019-06-27 一种关键词提取方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910570592.3A CN110321561A (zh) 2019-06-27 2019-06-27 一种关键词提取方法和装置

Publications (1)

Publication Number Publication Date
CN110321561A true CN110321561A (zh) 2019-10-11

Family

ID=68121388

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910570592.3A Pending CN110321561A (zh) 2019-06-27 2019-06-27 一种关键词提取方法和装置

Country Status (1)

Country Link
CN (1) CN110321561A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111797225A (zh) * 2020-06-16 2020-10-20 北京北大软件工程股份有限公司 一种文本摘要生成方法和装置
CN113204578A (zh) * 2021-04-29 2021-08-03 北京金山数字娱乐科技有限公司 内容关联方法、系统、装置、电子设备及存储介质
CN114138857A (zh) * 2021-11-10 2022-03-04 北京师范大学 一种基于流域水环境的大数据挖掘方法及装置
CN114491092A (zh) * 2022-01-26 2022-05-13 深圳市前海手绘科技文化有限公司 一种根据文档内容和配色推荐素材的方法和系统
WO2022156730A1 (zh) * 2021-01-22 2022-07-28 北京有竹居网络技术有限公司 文本处理方法、装置、设备及介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111797225A (zh) * 2020-06-16 2020-10-20 北京北大软件工程股份有限公司 一种文本摘要生成方法和装置
CN111797225B (zh) * 2020-06-16 2023-08-22 北京北大软件工程股份有限公司 一种文本摘要生成方法和装置
WO2022156730A1 (zh) * 2021-01-22 2022-07-28 北京有竹居网络技术有限公司 文本处理方法、装置、设备及介质
CN113204578A (zh) * 2021-04-29 2021-08-03 北京金山数字娱乐科技有限公司 内容关联方法、系统、装置、电子设备及存储介质
CN114138857A (zh) * 2021-11-10 2022-03-04 北京师范大学 一种基于流域水环境的大数据挖掘方法及装置
CN114491092A (zh) * 2022-01-26 2022-05-13 深圳市前海手绘科技文化有限公司 一种根据文档内容和配色推荐素材的方法和系统
CN114491092B (zh) * 2022-01-26 2023-02-10 深圳市前海手绘科技文化有限公司 一种根据文档内容和配色推荐素材的方法和系统

Similar Documents

Publication Publication Date Title
CA3129745C (en) Neural network system for text classification
Yue et al. A survey of sentiment analysis in social media
Rudkowsky et al. More than bags of words: Sentiment analysis with word embeddings
US11720572B2 (en) Method and system for content recommendation
CN110321561A (zh) 一种关键词提取方法和装置
CN108038725A (zh) 一种基于机器学习的电商产品客户满意度分析方法
CN112507715A (zh) 确定实体之间关联关系的方法、装置、设备和存储介质
CN107330011A (zh) 多策略融合的命名实体的识别方法及装置
CN106940726B (zh) 一种基于知识网络的创意自动生成方法与终端
CN111324771B (zh) 视频标签的确定方法、装置、电子设备及存储介质
CN104008091A (zh) 一种基于情感值的网络文本情感分析方法
Gao et al. Text classification research based on improved Word2vec and CNN
Zouaghi et al. A hybrid approach for arabic word sense disambiguation
WO2015004006A1 (en) Method and computer server system for receiving and presenting information to a user in a computer network
Lin et al. A simple but effective method for Indonesian automatic text summarisation
Chen et al. Sentiment classification of tourism based on rules and LDA topic model
US20210056131A1 (en) Methods and systems for generating timelines for entities
CN112597768B (zh) 文本审核方法、装置、电子设备、存储介质及程序产品
Rahul et al. Social media sentiment analysis for Malayalam
Voronov et al. Forecasting popularity of news article by title analyzing with BN-LSTM network
Omurca et al. An annotated corpus for Turkish sentiment analysis at sentence level
Kong et al. Construction of microblog-specific chinese sentiment lexicon based on representation learning
Rai et al. Identification of landscape preferences by using social media analysis
Nahar et al. SAP: Standard Arabic profiling toolset for textual analysis
Fu et al. Sentiment Analysis of Tourist Scenic Spots Internet Comments Based on LSTM

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination