CN112395395A - 文本关键词提取方法、装置、设备及存储介质 - Google Patents
文本关键词提取方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112395395A CN112395395A CN202110068459.5A CN202110068459A CN112395395A CN 112395395 A CN112395395 A CN 112395395A CN 202110068459 A CN202110068459 A CN 202110068459A CN 112395395 A CN112395395 A CN 112395395A
- Authority
- CN
- China
- Prior art keywords
- word
- text
- keywords
- candidate
- word list
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及人工智能技术领域,提供一种文本关键词提取方法、装置、设备及存储介质。其中,方法包括:对文本进行新词查询,将所述新词进行归集以生成新词候选词表;将所述新词候选词表添加到分词词典的自定义词表中,得到文本词语列表,基于所述文本词语列表,采用至少两种关键词提取方法分别提取关键词;对所有方法提取得到的关键词进行整合处理,得到所述文本关键词集合。本发明通过新词发现并融合多种关键词提取的方法可实现特定领域文本关键词的提取,可实现多角度、全方面的文本关键词提取,且可提高关键词提取的准确率。
Description
技术领域
本发明涉及人工智能技术领域,特别是涉及一种文本关键词提取方法、装置、设备及存储介质。
背景技术
文本关键词抽取是从整个文本里面把与文本意义最相关的一些词语抽取出来,例如,ppt文本关键词抽取是从整个ppt文本里面把与ppt意义最相关的一些词语抽取出来。文本关键词抽取在文献检索、自动文摘、文本聚类等方面有着重要的应用。
关键词提取算法一般分为有监督和无监督两类。有监督的关键词提取方法主要是通过分类的方式进行,通过构建一个较为丰富和完善的词表,然后判断每个文本与词表中每个词的匹配程度,达到关键词抽取的效果。所述有监督的关键词提取方法虽然精度高,但是存在:需要大批量的人工标注数据,成本较高,且词表需要及时维护等问题。相比较而言,无监督的方法对数据要求低,不需要人工标注数据,也不需要及时维护词表。目前比较常用的关键词提取算法都是基于无监督算法;例如TF-IDF算法,TextRank算法、主题模型算法,但是,这些算法各有利弊。
TF-IDF:文本中的关键词,一方面,应该在文本中出现的次数比较多;另一方面,应该不那么常见,若是这个词在很多文本中都有出现,显然这个词不能用来作为代表某个文本的重要词汇。
TextRank:从图网络的角度找关键词,虽然,好处在于不用事先基于大量数据进行训练。其基本思想来自于pagerank算法。如果一个网页被很多其他网页链接到,说明这个网页比较重要;如果一个网页被一个权重很高的网页链接到,则其重要性也会相应增加。在TextRank中判断两个词间是否存在相关关系,则根据词语的共现关系。可见,所述方法本质上还是基于词频进行的。
上述两种方法本质上还是基于词频,这也造成了一定的弊端,因为文字中的主题词并不会一直出现。词频可以认为通过词语来描述文章,即一层的传递关系。
主题模型:主题模型则认为文章是由主题组成,文章中的词,是以一定概率从主题中选取出来的。在不同主题下,词语出现的概率分布式不同的。即,文本和词语之间还有一层关系。但是主题模型需要提前基于大量数据进行训练。
综上所述,目前市面上目前市面上没有发现可以用来抽取特定领域文本关键词的方法,现有的单一的关键词抽取算法,无法达到准确提取关键词的目的,无法完全契合一些特定领域词汇文本的关键词,例如,保险、法律等领域词汇文本的关键词。
发明内容
基于上述问题,本发明的目的在于提供一种文本关键词提取方法、装置、设备及存储介质,本发明通过新词发现并融合至少两种关键词提取的方法可实现特定领域文本关键词的提取,可实现多角度、全方面的文本关键词提取,且可提高关键词提取的准确率。
上述目的是通过以下技术方案实现的:
根据本发明一个方面,本发明提供的一种文本关键词提取方法,所述方法包括:
对文本进行新词查询,将所述新词进行归集以生成新词候选词表;
添加所述新词候选词表到分词词典的自定义词表中,得到文本词语列表,基于所述文本词语列表,采用至少两种关键词提取方法分别提取关键词;
对所有方法提取得到的关键词进行整合处理,得到所述文本关键词集合。
可选地,所述的对文本进行新词查询,将所述新词进行归集以生成新词候选词表的步骤中,包括:
从所述文本中筛选出符合预设词频数、信息熵以及预设阈值的词生成第一候选词表;
依次根据分词词表和统计特征,对所述第一候选词表进行清洗,得到所述新词候选词表;其中,所述分词词表通过分词器对所述文本进行分词得到。可选地,所述统计特征可以为词性统计特征。
可选地,所述的从所述文本中筛选出符合预设词频数、信息熵以及预设阈值的词生成第一候选词表的步骤中,包括:
选取文本中预设长度的片段作为潜在词,根据所述潜在词构造前缀树,通过遍历前缀树,得到候选词、以及候选词的频数和候选词的信息熵;
根据所述信息熵,计算得到候选词的自由运用程度;
根据所述频数计算PMI,根据PMI,计算得到候选词的内部凝固程度;
筛选出自由运用程度和内部凝固程度符合预设阈值的候选词,生成所述第一候选词表。
可选地,所述的根据所述信息熵,计算得到词的自由运用程度的步骤中,计算公式为:
可选地,所述的依次根据分词词表和统计特征,对所述第一候选词表进行清洗,得到所述新词候选词表的步骤中,包括:
从所述第一候选词表中挑选出包含特殊领域的特定字的词进行保留,得到保留词表W1和其他候选词表W2;
采用jieba分词器和pyltp分词器分别对所述文本进行分词,得到两种分词词表,从其他候选词表W2中依次清洗掉属于所述分词词表的候选词,得到词表W6;
根据词性统计特征清洗所述词表W6,得到词表W7;
将所述词表W7和保留词表W1相加,得到所述新词候选词表。
可选地,采用TF-IDF,TextRank和主题模型三种关键词提取方法分别提取关键词。其中,采用TF-IDF关键词提取方法提取关键词的步骤中,包括:
计算词的TF和IDF;
根据所述词在文本中的出现位置、字体大小、以及是否属于所述新词候选词表,给出所述词的权重weight;
根据I=TF*IDF*weight,计算得到所述词在所述文本中的重要程度I;
根据词的重要程度提取得到关键词。
可选地,所述的对所有方法提取得到的关键词进行整合处理,得到所述文本的关键词集合的步骤中,包括:
去除重复后,将所有方法得到的关键词整合,得到第一关键词集合;
对所述第一关键词集合中位置连续的关键词进行拼接;
根据词性统计特征对拼接后的关键词进行清洗,得到所述文本关键词集合。
根据本发明另一个方面,本发明提供的一种文本关键词提取装置,所述访问装置包括:
新词查询单元,对文本进行新词查询,将所述新词进行归集以生成新词候选词表;
提取单元,用于将所述新词候选词表添加到分词词典的自定义词表中,得到文本词语列表,并基于所述文本词语列表,采用至少两种关键词提取方法分别提取关键词;
整合单元,用于对所有方法提取得到的关键词进行整合处理,得到所述文本的关键词集合。
根据本发明的再一个方面,本发明提供的一种电子设备,所述电子设备包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行所述的文本关键词提取方法中的各步骤。
根据本发明的还一个方面,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现所述的文本关键词提取方法中的各步骤。
有益效果:本发明文本关键词提取方法、装置、设备及存储介质涉及人工智能自然语言处理技术领域,本发明通过新词发现并融合至少两种关键词提取的方法对关键词进行提取,实现了特定领域文本关键词的提取,实现了多角度、全方面的文本关键词提取,且提高了关键词提取的准确率。
附图说明
通过参考以下结合附图的说明,并且随着对本发明的更全面理解,本发明的其它目的及结果将更加明白及易于理解。附图中:
图1是本发明实施例中文本关键词提取方法的流程示意图;
图2是本发明实施例中文本关键词提取方法的逻辑示意图;
图3是本发明一实施例新词候选词表的获取流程示意图;
图4是本发明实施例中第一候选词表的筛选流程示意图;
图5是本发明另一实施例新词候选词表的获取流程示意图;
图6是本发明实施例中采用加权TF-IDF方法提取关键词的流程示意图;
图7是本发明实施例中对关键词进行整合的流程示意图;
图8是本发明实施例中文本关键词提取装置的结构框图;
图9是本发明电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述:
图1示意性地示出了本发明示例性实施例文本关键词提取方法的流程示意图;图2示意性示出了本发明实施例中文本关键词提取方法的逻辑示意图。如图1所示,本发明提供的一种文本关键词提取方法,所述方法包括:
步骤S100,对文本进行新词查询,将所述新词进行归集以生成新词候选词表。其中,所述文本可以为包含特殊领域词汇的文本,例如,包含保险、法律等特殊领域词汇的文本,所述文本可以为word文本、ppt文本等。具体地例如为平安安行保ppt文本。
步骤S200,添加所述新词候选词表到分词词典的自定义词表中,得到文本词语列表,基于所述文本词语列表,采用至少两种关键词提取方法分别提取关键词。
其中,所述分词词典对应的分词器可以为jieba分词器和pyltp分词器等;所述的关键词提取方法可以采用无监督关键词提取类别中的TF-IDF,TextRank或主题模型等关键词提取方法,可选地,如图2所示,关键词提取开始后,先进行新词发现,分词时使用加权TF-IDF,加权TextRank和主题模型方法进行关键词提取,然后对关键词进行拼接并清洗,得到文本关键词集合,提取流程结束。需要说明的是,本发明图2示意性示出了采用三种方法进行关键词提取,但是不限于此,也可以采用一种关键词提取方法,当然为了使得提取结果更加精准和全面采用至少两种关键词提取方法进行关键词提取。
步骤S300,即对上述两种或以上的所有提取方法得到的关键词进行整合处理,例如去重复、拼接、清洗等,从而得到所述文本关键词集合。
本发明通过先对文本进行新词发现,然后融合通过至少两种关键词提取的方法提取得到的关键词,实现了特定领域文本关键词的提取,实现了多角度、全方面的文本关键词提取,且提高了关键词提取的准确率。
图3示意性示出了本发明一个实施例新词候选词表的获取流程图。本发明步骤S100,对文本进行新词查询,将所述新词进行归集以生成新词候选词表的步骤中,如图3所示,可以包括以下步骤:
步骤S110,从所述文本中筛选出符合预设词频数、信息熵以及预设阈值的词生成第一候选词表。
示例性地,所述第一候选词表的筛选流程如图4所示,可以包括:
步骤S111,选取文本中预设长度的片段作为潜在词,根据所述潜在词构造前缀树,通过遍历前缀树,得到候选词、以及候选词的频数和候选词的信息熵。其中,所述预设长度为潜在词的字符长度。所述信息熵用来衡量一个文本片段的左邻字集合和右邻字集合有多随机,可认为是对有序程度的度量,所述信息熵包括:左邻字信息熵和右邻字信息熵。
其中,所述的通过遍历前缀树得到候选词、以及候选词的频数和候选词的信息熵的步骤中,具体可以包括:通过遍历前缀树实现词频统计和字符串排序;筛选出预设个数词语作为候选词,同时也得到了候选词对应的频数和右邻字信息熵;然后将整个文本逆序后能统计出每个候选词的左邻字信息熵。
例如,将ppt文本中出现过的长度不超过d的文本片段作为潜在词,其中,d为设定潜在词的长度上限,取3、4、5、6;根据所述潜在词构造前缀树,通过不断地查找字符串的前缀,由根节点向下遍历前缀树,便能算出各个候选词的频数和右邻字信息熵,可以最大限度地减少无谓字符串的比较,以避免每次查询都要统计全文信息,加快文本检索速度;将ppt文本或整个语料逆序后,统计出每个候选词的左邻字信息熵。可选地,为了将大规模的语料中可能成词的文本片段全部提取出来,可以把语料库中每个ppt文本中出现过的所有长度不超过d的文本片段均作为潜在词,所述语料库可以为多个ppt文本的集合。
步骤S112,根据所述信息熵,计算得到候选词的自由运用程度。
步骤S113,根据所述频数计算PMI,根据PMI,计算得到候选词的内部凝固程度。
步骤S114,筛选出自由运用程度和内部凝固程度符合预设阈值的候选词形成所述第一候选词表。即给频数、内部凝固程度、自由运用程度设定一个阈值,将符合阈值的提取出来即得到第一新词候选词表;后续再从所述第一新词候选词表中去掉通过现有分词器对文本进行分词得到的分词词表中存在的词,即可得到最终的新词候选词表。
本发明上述实施例中,所述信息熵、自由运用程度、内部凝固程度的计算方法,具体如下:
1)信息熵:用来衡量一个文本片段的左邻字集合和右邻字集合有多随机,可认为是对有序程度的度量,包括:左邻字信息熵和右邻字信息熵。
信息熵的计算公式如下:
其中,字符x0的有n个不同的邻接字i;p i 是字符x0与i共现的概率;e(x0)字符x0的熵。
2)自由运用程度:如果一个文本片段能够算作一个词,其应该能够灵活地出现在各种不同的环境中,具有丰富的左邻字与右邻字。信息熵诠释了这种丰富程度,熵越大则丰富程度越高。
自由运用程度计算公式如下:
3)内部凝固程度:表示某一词语中,各个字符之间组合在一起关联度,例如在一段文本中,“的电影”出现次数高于“电影院”,但是我们倾向于把“电影院”作为一个词,因为“电影”和“院”凝固地更紧一些。
PMI(Pointwise mutual information)被用来度量词搭配与关联性。
PMI定义即计算公式如下:
其中,x为字符串1;y为字符串2;pmi(x,y)为字符串x与y的PMI值;P(x)为字符串x在整段文本中出现的频率;P(x,y)为字符串x与y在整段文本中字符串x与y拼在一起出现的频率;P(y)为字符串y在整段文本中出现的频率。
若PMI高,即两个词共现(co-occurrence)的频率远大于两个词自由拼接的乘积概率,则说明这两个词搭配更为合理一些。针对一个词有多种搭配组合,比如“电影院”可以由“电影”+“院”构成,也可以由“电”+“影院”构成,取其所有PMI最小值(去掉log)作为内部凝固程度。
内部凝固程度计算公式如下:
步骤S120,根据分词词表和统计特征,依次对所述第一候选词表进行清洗,得到所述新词候选词表;其中,所述分词词表通过分词器对所述文本进行分词得到。
示例性地,所述新词候选词表的获取流程可以如图5所示,包括:
步骤S121,从所述第一候选词表中挑选出包含特殊领域的特定字的词进行保留,得到保留词表W1和其他候选词表W2。在清洗前先从先从第一候选词表中挑选出包含特殊领域的特定字的词进行保留,例如,对于平安特殊领域,包含字符“安”、“寿”、“保”等的候选词先挑选保留,以免被清洗掉。
步骤S122,采用jieba分词器和pyltp分词器分别对所述文本进行分词,得到两种分词词表,从其他候选词表W2中依次清洗掉属于所述分词词表的候选词,得到词表W6。示例性地,采用两种分词器进行清洗,具体可以包括以下步骤:第一次清洗:采用jieba分词器对ppt文本进行分词,得到分词词表W3;清洗掉其他候选词W2中与分词词表W3同时出现的词,得到词表W4。第二次清洗:采用pyltp分词器对ppt文本进行分词,得到分词词表W5;清洗掉词表W4中与分词词表W5同时出现的词,得到词表W6。申请人考虑到一些通过常用的分词器就可以正确划分出的词,无需作为新词,所以,将采用常用分词器分词得到的分词词表,与所述其他候选词表W2进行比较,清洗掉包含在所述分词词表中的词,以简化后续关键词提取过程,提高提取速度。
步骤S123,根据统计特征清洗所述词表W6,得到词表W7。其中,可以根据词性、异常符号以及其他一些统计特征进行清洗。例如,可以清洗掉以疑问词开头的词、副词开头的词、包含异常符号的词,或者“某一领域”、“还能这样”这样的词等。
步骤S124,将所述词表W7和保留词表W1相加得到所述新词候选词表。
申请人考虑到常用的例如jieba,pyltp等分词工具中的分词表缺乏一些特定领域的专业词汇,分词工具就无法正确地将一些特定领域词汇切分出来。例如,平安特定领域专业词汇“平安安行保”,是平安保险的一款产品,虽然它在文本中出现频率很高,但却被目前的分词工具切成了多个词,从而失去了原有的语义。因此,对于类似上述含有特定领域词汇的ppt课程文本,需要采用新词发现策略,先抽出特定词汇形成新词候选词表,然后将其添加到分词工具的自定义词表中,以确保这些特定词在数据预处理时会被正确地切分出来,从而保证在后续关键词抽取环节中,可能会被作为关键词抽取出来。
本发明步骤S200,添加所述新词候选词表到分词器的自定义词表中,得到文本词语列表,基于所述文本词语列表,采用至少两种关键词提取方法分别提取关键词的步骤中,可以将所述新词候选词表添加到jieba分词器的自定义词表中,当然不限于此。进一步地,在分词之前需要进行数据处理,例如进行细粒度切分等操作。
在一个可选实施例中,采用TF-IDF、TextRank和主题模型三种方法分别提取关键词。下面以ppt文档为例详细描述三种方法提取关键词的过程。
一、采用TF-IDF算法,获取关键词。
Tf-idf是一种统计的方法,用来评估某词语在整个ppt文档语料库中对于某文档的重要程度。通过计算单词的tf-idf值,并进行排序,选topk个单词作为该文档的关键词。该词语的重要性即tf-idf值随着该词语在某文档中出现的次数而增加,同时随着某词语在语料库中其他文档中出现的次数而减少。
图6示意性示出了本发明实施例中采用加权TF-IDF方法提取关键词的流程图。如图6所示,采用TF-IDF关键词提取方法提取关键词的步骤中,可以包括以下步骤:
步骤S211,计算词的TF和IDF。其中,TF表示当前ppt文档中的单词i的词频;IDF表示逆文档频率,用来衡量词常见程度。Idf计算公式如下:
其中,语料库为所有ppt文档的集合;文档总数为该集合中ppt文档的个数。需要说明的是,语料库当然也可以是当前某一个ppt文档。
步骤S212,根据所述词在文本中的出现位置、字体大小、以及是否属于所述新词候选词表,给出所述词的权重weight。本申请针对某ppt文档中单词i,结合ppt特性,赋予不同的权重,其中,所述的词在文档中出现的位置,例如可以为该词是否在标题中和/或副标题中出现等。
步骤S213,根据I=TF*IDF*weight,计算得到所述词在所述文本中的重要程度I。
在一可选实施例中,所述步骤S212和步骤S213中,可以包括以下步骤:
对于课程文档的每页ppt中,标题中的单词作为关键词的可能较大。若单词i出现在标题中,则对单词i的tf-idf乘权重weight1。
对于课程文档的每页ppt中,副标题中的单词作为关键词的可能较大。若单词i出现在副标题中,则对单词i的tf-idf乘权重weight2。
如果单词i为新词发现中获得的新词,则表明该单词很有可能为本课程文档中的特有名词。因此当单词i包含在新词表中,则对单词i的tf-idf乘权重weight3。
如果单词i在某页ppt中字体较大,则表明该单词很有可能比较重要。因此针对单词i所有的字体进行计算,对单词i的tf-idf乘权重weight4。
步骤S214,根据词的重要程度提取得到关键词。具体地,将所有关键词的重要程度值进行排序,输出topk个分值最高的候选词作为关键词K1。
二、采用TextRank算法,获取关键词。
Textrank采用无向图算法,分别对整个课程文档以及ppt最小单元即每页中的各个内容块进行关键词提取。具体地,可以包括:
1)选用文档中所有候选词作为节点,并计算节点之间边的权重。其中,节点之间边的权重计算方式为:对于文档中的每个句子,在长度为d的滑动窗口内,两个单词同时出现,因为是无向图,所以单词i到j的边权重,单词j到i的边权重均加1,遍历整个文档的句子之后,图构造完毕。
2)根据节点之间边的权重,计算ppt文档每个词语的TR值。
TR值的计算公式为:
其中,i=1,2,…n ;w ji 为节点i与j之间边权重;ln(v i )是图中连接入节点i的所有节点集合,Out(v j )是节点j连接出去的所有节点的集合;d是可调参数,n是节点总数。
3)将所有单词的TR值进行排序,选出前topk个词语作为文档的关键词K2。
三、采用主题模型算法,获取关键词。
主题模型是以无监督学习的方式对文档的隐含语义结构进行聚类的统计模型,其中,LDA模型是主题模型的一种。LDA是根据词的共现信息的分析,拟合出候选词-文档-主题的分布,从而将词、ppt文档映射到一个语义空间中。
所述LDA模型可以使用Gibbs采样算法进行训练。具体地,LDA Gibbs采样算法流程,可以包括:选择合适的主题数,选择合适的超参数a,b。对应语料库中每一篇ppt文档的每一个候选词,随机的赋予一个主题编号Z。重新扫描语料库,对每一个候选词,利用Gibbs采样公式更新它的topic编号,并更新语料库中该词的编号。重复上一步骤中的基于坐标轴轮换的Gibbs采样,直到Gibbs采样收敛。统计语料库中的各个文档各个词的主题,得到文档主题分布θ d ;统计语料库中各个主题词的分布,得到LDA的主题与词的分布β k 。至此,LDA模型已定,即LDA的各个主题与词分布β k 已定,当新ppt文档出现时,具体预测流程中,只需计算文档的主题分布即可。
在一可选实施例中,采用主题模型算法,获取ppt关键词K3的步骤,具体地,可以包括:统计ppt文档中各个词的主题,得到ppt文档的主题分布。具体可以包括:对当前新文档的每一个词,随机的赋予一个主题编号z。重新扫描当前文档,对于每一个词,利用Gibbs采用公式更新它的topic编号。重复上一步骤的基于坐标轴轮换的Gibbs采样,直到Gibbs采样收敛。统计文档中各个词的主题,得到所述文档主题分布。根据所述主题分布,基于训练好的LDA模型,得到ppt的前k个关键词K3。
可选地,所述训练好的LDA模型可以采用百度基于新闻领域数据集训练好的LDA模型Ida-news。当然也可以采用通过本申请上述训练方式训练得到的模型。考虑到训练模型成本较高,且特定领域的数据量较小,可以直接采用百度基于新闻领域数据集训练好的LDA模型lda_news;基于lda_news模型,可以直接查找每个课程ppt的前k个关键词K3。
本发明步骤S300,对所述方法提取得到的关键词进行整合处理,得到所述文本的关键词集合的步骤中,所述整合处理具体可以包括去重复、拼接、清洗等操作。图7示意性示出了本发明实施例中对关键词进行整合的流程图。如图7所示,所述的对所述方法提取得到的关键词进行整合处理,得到所述文本的关键词集合的步骤中,具体可以包括以下步骤:
步骤S310,去除重复后,将所有方法得到的关键词整合,得到第一关键词集合。也就是将三种算法获得的三组关键词K1、K2、K3中有重复出现多次的关键词去掉,仅保留一次即可。
步骤S320,对第一关键词集合中位置连续的关键词进行拼接。本发明申请人,考虑到有许多词组或者较长短语作为课件的知识点,需要对算法抽取出来的关键词候选词进行最大长度拼接,最大长度拼接就是指将所有的位置可连续的关键词都拼接起来。例如想要得到“伪造资料”这个关键词,算法抽取出来的关键词为:“伪造”,“资料”,以ppt最小单元进行拼接,可以防止不同段落的信息被错误地连接,对位置连续的关键词进行最大长度的拼接,直到没有关键词可以拼接为止。
步骤S330,根据统计特征例如词性统计特征,对拼接后的关键词进行清洗,得到所述文本的关键词集合。例如,所述统计特征包括词性、词频等。可选地,根据词性统计特征进行清洗,例如去除形容词、疑问词,保留动词、名词。
示例性地,可以对拼接后的关键词进行以下清洗操作:
删除动词堆叠构成的词,例如:挖掘挖掘。
形容词堆叠构成的词,例如:不错不错。
删除状语形容词开头的词,例如:严重影响。
删除包含疑问词的词,例如:是否。
若分词和组合词均为关键词:删除非法词,例如:化茧成蝶,茧成蝶。删除茧成蝶;分词为动词,直接删除;组合词为新词加分词,删除分词或者保留新词,例如:保险,平安安行保保险。
若候选词比jieba词表中的某个词相差一个字符,删除候选词。可能是连接了其他单字,大概率是错词。
本发明上述实施例通过对ppt文本先进行新词发现,得到保留特定领域词汇的候选词表即新词候选词表;将所述新词候选词表添加到分词工具的自定义词表中,并经数据处理得到文本词语列表,基于该文本词语列表采用无监督的三种关键词抽取方法分别获取ppt关键词,然后三种关键词提取方法独立提取ppt文本得到的关键词进行去除重复、拼接、以及清洗等处理操作,将三种方法得到的关键词整合为一个集合,即得到文本的关键词集合。从而实现了多角度、全方面的ppt关键词的提取,例如平安特定课程ppt文本的提取,提高了关键词提取的准确率,加快了提取速度;本发明提取关键词的整个流程步骤完善,条理清晰,适用于其他场景下的关键词提取。
图8示意性地示出了本发明实施例的文本关键词提取装置的结构。如图8所示,本申请提供的一种文本关键词提取装置,包括:新词查询单元100、提取单元200、以及整合单元300。其中,
所述新词查询单元100,用于对文本进行新词查询,将所述新词进行归集以生成新词候选词表。
所述提取单元200,用于将所述新词候选词表添加到分词词典的自定义词表中,得到文本词语列表,并基于所述文本词语列表,采用至少两种关键词提取方法分别提取关键词。
所述整合单元300,用于对所有方法提取得到的关键词进行整合处理,得到所述文本的关键词集合。
本发明所述文本关键词提取装置通过新词查询单元100进行新词发现,通过提取单元200和整合单元300融合至少两种关键词提取的方法对关键词进行提取并整合,实现了特定领域文本关键词的提取,实现了多角度、全方面的文本关键词提取,且提高了关键词提取的准确率。
在一可选实施例中,所述新词查询单元100,可以包括:第一候选词表筛选模块,用于从文本中筛选出符合预设词频数、信息熵以及预设阈值的词生成第一候选词表;新词候选词表获取模块,依次根据分词词表和统计特征,对所述第一候选词表进行清洗,得到所述新词候选词表;其中,所述分词词表通过分词器对所述文本进行分词得到。
在一可选实施例中,所述整合单元300,可以包括:去除重复模块,用于去除重复后,将所有方法得到的关键词进行整合,得到第一关键词集合;拼接模块,用于对第一关键词集合中位置连续的关键词进行最大长度拼接;清洗模块,用于根据统计特征,例如词性统计特征对拼接后的关键词进行清洗,得到所述文本关键词集合。
图9示意性示出了本发明电子设备的结构,如图9所示,本发明中,所述电子设备1包括:存储器11、处理器10、总线以及存储在存储器11中并可在所述处理器10上运行的计算机程序,如关键词提取程序12等。所述处理器10执行所述计算机程序时实现本发明文本关键词提取方法的步骤。例如,实现对文本进行新词查询,将所述新词进行归集以生成新词候选词表;将所述新词候选词表添加到分词词典的自定义词表中,得到文本词语列表;基于所述文本词语列表,采用至少两种关键词提取方法分别提取关键词;对所有方法提取得到的关键词进行整合处理,得到所述文本关键词集合等步骤。
所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式移动硬盘、智能存储卡(Smart Media Card, SMC)、安全数字(Secure Digital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如关键词提取程序12的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备1的控制核心(Control Unit),利用各种接口和线路连接整个电子设备1的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块,以及调用存储在所述存储器11内的数据,以执行电子设备1的各种功能和处理数据。
所述总线可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
本领域技术人员可以理解的是,具有上述部件的电子设备1并不构成对所述电子设备1的限定,可以包括更少或者更多的部件,或者组合某些部件,或者不同的部件布置。例如,尽管未示出,所述电子设备1还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
进一步地,所述电子设备1还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备1与其他电子设备之间建立通信连接。
可选地,所述电子设备1还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备1中的所述存储器11存储的关键词提取程序12是多个指令的组合,在所述处理器10中运行时,可以实现方法中各步骤,或者可以实现各单元和/或模块的功能,例如:实现对文本进行新词查询,将所述新词进行归集以生成新词候选词表;将所述新词候选词表添加到分词词典的自定义词表中,得到文本词语列表;基于所述文本词语列表,采用至少两种关键词提取方法分别提取关键词;对所有方法提取得到的关键词进行整合处理,得到所述文本关键词集合等步骤。
本发明中,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。其中,所述计算机可读存储介质可以是任何包含或存储程序或指令的有形介质,其上存储有可以被执行的计算机程序,该计算机程序被处理器10执行时,通过存储的程序指令相关的硬件实现本发明文本关键词提取方法中各步骤或系统中各单元/模块的功能。例如,实现对文本进行新词查询,将所述新词进行归集以生成新词候选词表;将所述新词候选词表添加到分词词典的自定义词表中,得到文本词语列表;基于所述文本词语列表,采用至少两种关键词提取方法分别提取关键词;对所有方法提取得到的关键词进行整合处理,得到所述文本关键词集合等步骤。所述计算机可读介质,例如可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-OnlyMemory)。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备和装置,可以通过其它的方式实现。以上所描述的系统实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或模块也可以由一个单元或模块通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种文本关键词提取方法,其特征在于,所述方法包括:
对文本进行新词查询,将所述新词进行归集以生成新词候选词表;
将所述新词候选词表添加到分词词典的自定义词表中,得到文本词语列表;基于所述文本词语列表,采用至少两种关键词提取方法分别提取关键词;
对所有方法提取得到的关键词进行整合处理,得到所述文本关键词集合。
2.根据权利要求1所述的文本关键词提取方法,其特征在于,所述的对文本进行新词查询,将所述新词进行归集以生成新词候选词表的步骤中,包括:
从所述文本中筛选出符合预设词频数、信息熵以及预设阈值的词生成第一候选词表;
依次根据分词词表和统计特征,对所述第一候选词表中的词进行清洗,得到所述新词候选词表;其中,所述分词词表通过分词器对所述文本进行分词得到。
3.根据权利要求2所述的文本关键词提取方法,其特征在于,所述的从所述文本中筛选出符合预设词频数、信息熵以及预设阈值的词生成第一候选词表的步骤中,包括:
选取文本中预设长度的片段作为潜在词,根据所述潜在词构造前缀树,通过遍历前缀树,得到候选词、以及候选词的频数和候选词的信息熵;
根据所述信息熵,计算得到候选词的自由运用程度;
根据所述频数计算PMI,根据PMI,计算得到候选词的内部凝固程度;
筛选出自由运用程度和内部凝固程度符合预设阈值的候选词,生成所述第一候选词表。
5.根据权利要求2所述的文本关键词提取方法,其特征在于,所述的依次根据分词词表和统计特征,对所述第一候选词表进行清洗,得到所述新词候选词表的步骤中,包括:
从所述第一候选词表中挑选出包含特殊领域的特定字的词进行保留,得到保留词表W1和其他候选词表W2;
采用jieba分词器和pyltp分词器分别对所述文本进行分词,得到两种分词词表,从其他候选词表W2中依次清洗掉属于所述分词词表的候选词,得到词表W6;
根据词性统计特征清洗所述词表W6,得到词表W7;
将所述词表W7和保留词表W1相加,得到所述新词候选词表。
6.根据权利要求1所述的文本关键词提取方法,其特征在于,采用TF-IDF,TextRank和主题模型三种关键词提取方法分别提取关键词;其中,采用TF-IDF关键词提取方法提取关键词的步骤中,包括:
计算词的TF和IDF;
根据所述词在文本中的出现位置、字体大小、以及是否属于所述新词候选词表,给出所述词的权重weight;
根据I=TF*IDF*weight,计算得到所述词在所述文本中的重要程度I;
根据词的重要程度提取得到关键词。
7.根据权利要求1所述的文本关键词提取方法,其特征在于,所述的对所有方法提取得到的关键词进行整合处理,得到所述文本的关键词集合的步骤中,包括:
去除重复后,将所有方法得到的关键词整合,得到第一关键词集合;
对第一关键词集合中位置连续的关键词进行拼接;
根据词性统计特征对拼接后的关键词进行清洗,得到所述文本关键词集合。
8.一种文本关键词提取装置,其特征在于,包括:
新词查询单元,用于对文本进行新词查询,将所述新词进行归集以生成新词候选词表;
提取单元,用于将所述新词候选词表添加到分词词典的自定义词表中,得到文本词语列表,并基于所述文本词语列表,采用至少两种关键词提取方法分别提取关键词;
整合单元,用于对所有方法提取得到的关键词进行整合处理,得到所述文本的关键词集合。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一项所述的文本关键词提取方法中的各步骤。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的文本关键词提取方法中的各步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110068459.5A CN112395395B (zh) | 2021-01-19 | 2021-01-19 | 文本关键词提取方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110068459.5A CN112395395B (zh) | 2021-01-19 | 2021-01-19 | 文本关键词提取方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112395395A true CN112395395A (zh) | 2021-02-23 |
CN112395395B CN112395395B (zh) | 2021-05-28 |
Family
ID=74625132
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110068459.5A Active CN112395395B (zh) | 2021-01-19 | 2021-01-19 | 文本关键词提取方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112395395B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113191147A (zh) * | 2021-05-27 | 2021-07-30 | 中国人民解放军军事科学院评估论证研究中心 | 无监督的自动术语抽取方法、装置、设备和介质 |
CN113190658A (zh) * | 2021-06-10 | 2021-07-30 | 湖南正宇软件技术开发有限公司 | 提案热点精准提取的方法、装置、计算机设备和存储介质 |
CN113743107A (zh) * | 2021-08-30 | 2021-12-03 | 北京字跳网络技术有限公司 | 实体词提取方法、装置和电子设备 |
CN114462384A (zh) * | 2022-04-12 | 2022-05-10 | 北京大学 | 一种面向数字对象建模的元数据自动生成装置 |
CN114707471A (zh) * | 2022-06-06 | 2022-07-05 | 浙江大学 | 基于超参数评估图算法的人工智能课件制作方法及装置 |
CN115034211A (zh) * | 2022-05-19 | 2022-09-09 | 一点灵犀信息技术(广州)有限公司 | 未登录词发现方法、装置、电子设备及存储介质 |
CN116186067A (zh) * | 2023-04-27 | 2023-05-30 | 浪潮云洲(山东)工业互联网有限公司 | 一种工业数据表存储查询方法及设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102169496A (zh) * | 2011-04-12 | 2011-08-31 | 清华大学 | 基于锚文本分析的领域术语自动生成方法 |
CN102930055A (zh) * | 2012-11-18 | 2013-02-13 | 浙江大学 | 结合内部聚合度和外部离散信息熵的网络新词发现方法 |
CN103955453A (zh) * | 2014-05-23 | 2014-07-30 | 清华大学 | 一种从文档集中自动发现新词的方法及装置 |
CN110298033A (zh) * | 2019-05-29 | 2019-10-01 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 关键词语料标注训练提取工具 |
US20200005194A1 (en) * | 2018-06-30 | 2020-01-02 | Microsoft Technology Licensing, Llc | Machine learning for associating skills with content |
-
2021
- 2021-01-19 CN CN202110068459.5A patent/CN112395395B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102169496A (zh) * | 2011-04-12 | 2011-08-31 | 清华大学 | 基于锚文本分析的领域术语自动生成方法 |
CN102930055A (zh) * | 2012-11-18 | 2013-02-13 | 浙江大学 | 结合内部聚合度和外部离散信息熵的网络新词发现方法 |
CN103955453A (zh) * | 2014-05-23 | 2014-07-30 | 清华大学 | 一种从文档集中自动发现新词的方法及装置 |
US20200005194A1 (en) * | 2018-06-30 | 2020-01-02 | Microsoft Technology Licensing, Llc | Machine learning for associating skills with content |
CN110298033A (zh) * | 2019-05-29 | 2019-10-01 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 关键词语料标注训练提取工具 |
Non-Patent Citations (1)
Title |
---|
张月: "基于ElasticSearch的分布式搜索引擎的设计与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113191147A (zh) * | 2021-05-27 | 2021-07-30 | 中国人民解放军军事科学院评估论证研究中心 | 无监督的自动术语抽取方法、装置、设备和介质 |
CN113190658A (zh) * | 2021-06-10 | 2021-07-30 | 湖南正宇软件技术开发有限公司 | 提案热点精准提取的方法、装置、计算机设备和存储介质 |
CN113190658B (zh) * | 2021-06-10 | 2021-08-24 | 湖南正宇软件技术开发有限公司 | 提案热点精准提取的方法、装置、计算机设备和存储介质 |
CN113743107A (zh) * | 2021-08-30 | 2021-12-03 | 北京字跳网络技术有限公司 | 实体词提取方法、装置和电子设备 |
CN114462384A (zh) * | 2022-04-12 | 2022-05-10 | 北京大学 | 一种面向数字对象建模的元数据自动生成装置 |
CN115034211A (zh) * | 2022-05-19 | 2022-09-09 | 一点灵犀信息技术(广州)有限公司 | 未登录词发现方法、装置、电子设备及存储介质 |
CN114707471A (zh) * | 2022-06-06 | 2022-07-05 | 浙江大学 | 基于超参数评估图算法的人工智能课件制作方法及装置 |
CN116186067A (zh) * | 2023-04-27 | 2023-05-30 | 浪潮云洲(山东)工业互联网有限公司 | 一种工业数据表存储查询方法及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112395395B (zh) | 2021-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112395395B (zh) | 文本关键词提取方法、装置、设备及存储介质 | |
CN109189942B (zh) | 一种专利数据知识图谱的构建方法及装置 | |
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
Tiun et al. | Automatic topic identification using ontology hierarchy | |
US8751218B2 (en) | Indexing content at semantic level | |
CN106776574B (zh) | 用户评论文本挖掘方法及装置 | |
CN114065758B (zh) | 一种基于超图随机游走的文档关键词抽取方法 | |
CN110162768B (zh) | 实体关系的获取方法、装置、计算机可读介质及电子设备 | |
CN110413787B (zh) | 文本聚类方法、装置、终端和存储介质 | |
Noaman et al. | Naive Bayes classifier based Arabic document categorization | |
WO2009154570A1 (en) | System and method for aligning and indexing multilingual documents | |
CN112131863A (zh) | 一种评论观点主题抽取方法、电子设备及存储介质 | |
CN111090731A (zh) | 基于主题聚类的电力舆情摘要提取优化方法及系统 | |
CN109062895B (zh) | 一种智能语义处理方法 | |
CN112989208B (zh) | 一种信息推荐方法、装置、电子设备及存储介质 | |
CN112559684A (zh) | 一种关键词提取及信息检索方法 | |
CN109522396B (zh) | 一种面向国防科技领域的知识处理方法及系统 | |
CN115186050B (zh) | 基于自然语言处理的选题推荐方法、系统及相关设备 | |
CN112052356A (zh) | 多媒体分类方法、装置和计算机可读存储介质 | |
Dorji et al. | Extraction, selection and ranking of Field Association (FA) Terms from domain-specific corpora for building a comprehensive FA terms dictionary | |
CN111460162A (zh) | 一种文本分类方法、装置、终端设备及计算机可读存储介质 | |
CN115017303A (zh) | 基于新闻文本进行企业风险评估的方法、计算设备和介质 | |
CN111325018A (zh) | 一种基于web检索和新词发现的领域词典构建方法 | |
Tonkin | Searching the long tail: Hidden structure in social tagging | |
CN114218406A (zh) | 基于传动知识图谱的传动解决方案生成方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |