CN109933787A - 文本关键信息的提取方法、装置及介质 - Google Patents

文本关键信息的提取方法、装置及介质 Download PDF

Info

Publication number
CN109933787A
CN109933787A CN201910114073.6A CN201910114073A CN109933787A CN 109933787 A CN109933787 A CN 109933787A CN 201910114073 A CN201910114073 A CN 201910114073A CN 109933787 A CN109933787 A CN 109933787A
Authority
CN
China
Prior art keywords
text
list
extracted
title
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910114073.6A
Other languages
English (en)
Other versions
CN109933787B (zh
Inventor
吴云鹤
李德彦
吴少军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Tai Yue Xiang Sheng Software Co Ltd
Original Assignee
Anhui Tai Yue Xiang Sheng Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Tai Yue Xiang Sheng Software Co Ltd filed Critical Anhui Tai Yue Xiang Sheng Software Co Ltd
Priority to CN201910114073.6A priority Critical patent/CN109933787B/zh
Publication of CN109933787A publication Critical patent/CN109933787A/zh
Application granted granted Critical
Publication of CN109933787B publication Critical patent/CN109933787B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开一种文本关键信息的提取方法、装置及介质。该提取方法包括:获取待提取文本,所述待提取文本包括标题和正文;生成第一列表,其中,所述第一列表中包括至少一个候选关键单元,所述候选关键单元为利用正文中的组成单元的相似度权重,从正文中抽取出的组成单元;从正文中选取出标题相似单元,其中,所述标题相似单元为与标题相似度最高的组成单元;如果标题相似单元与任一个候选关键单元都不同,则将标题相似单元添加到第一列表中;利用第一列表生成关键信息。利用该提取方法,可以避免提取出的关键信息发生遗漏的情况,提高了提取出的关键信息的准确率,同时提取出的关键信息相对更加精简、全面。

Description

文本关键信息的提取方法、装置及介质
技术领域
本发明涉及信息抽取与文本挖掘领域,具体涉及一种文本关键信息的提取方法、装置及介质。
背景技术
随着信息技术的不断发展,海量的数据成为最具价值的财富。如何快速、精准地掌握信息,并准确做出合理的决策,成为企业生存与发展的必经之路。这就要求从海量的文本中挖掘出有效的关键信息,例如文本摘要、关键词等。
很多文本,例如网络上的新闻文本等,都是非结构化的文本。要从这些非结构化的文本中挖掘出有效的、结构化的关键信息,可以采用TextRank算法。TextRank算法是一种用于文本的基于图的排序算法。其基本思想是通过把文本分割成若干组成单元(例如句子)并建立图模型,利用投票机制对文本中的每一个组成单元进行排序,然后利用排序靠前的部分组成单元,组合形成关键信息(例如文本摘要)。这样,仅利用单篇文档本身的信息即可实现文本关键信息的提取。
采用TextRank算法来从文本中提取出关键信息的方法,由于TextRank算法本身的局限性,提取出的关键信息容易出现相似度高或重复的内容。例如,采用TextRank算法从一个包括100个句子的文本A中提取出5个句子,组成文本A的文本摘要,但是该文本摘要中可能存在3个相似度很高的句子,这3个句子所表达出的语义信息是很相似的,导致该文本摘要不够精简。
发明内容
本申请提供一种、装置及介质,以使提取出的关键信息更加精简、准确、全面。
第一方面,本申请提供一种文本关键信息的提取方法,包括:
获取待提取文本,所述待提取文本包括标题和正文;
生成第一列表,其中,所述第一列表中包括至少一个候选关键单元,所述候选关键单元为利用所述正文中的组成单元的相似度权重,从所述正文中抽取出的组成单元;
从所述正文中选取出标题相似单元,其中,所述标题相似单元为与所述标题相似度最高的组成单元;
如果所述标题相似单元与任一个候选关键单元都不同,则将所述标题相似单元添加到所述第一列表中;
利用所述第一列表生成关键信息。
结合第一方面,在第一方面第一种可能的实现方式中,生成第一列表的步骤,包括:
分别计算未存在于第一列表中的每一个组成单元各自对应的MMR得分;
将MMR得分最高的组成单元确定为一个候选关键单元,添加到第一列表中;
迭代执行计算组成单元对应的MMR得分和确定候选关键单元的步骤,直到第一列表中的候选关键单元达到预设的数量。
结合第一方面及上述可能的实现方式,在第一方面第二种可能的实现方式中,利用所述第一列表生成关键信息的步骤,包括:
从所述第一列表中的选取n个关键单元,其中,所述n个关键单元中包括所述标题相似单元,以及(n-1)个相似度权重最大的候选关键单元,n为大于或等于2的整数;
按照所述n个关键单元在所述正文中位置组合所述n个关键单元,得到关键信息。
结合第一方面及上述可能的实现方式,在第一方面第三种可能的实现方式中,当所述组成单元为句子,所述候选关键单元为候选关键句,所述标题相似单元为标题相似句时,生成的所述关键信息包括文本摘要。
结合第一方面及上述可能的实现方式,在第一方面第四种可能的实现方式中,当所述组成单元为词语,所述候选关键单元为候选关键词,所述标题相似单元为标题相似词时,生成的所述关键信息包括关键词。
结合第一方面及上述可能的实现方式,在第一方面第五种可能的实现方式中,所述关键信息还包括关键实体,所述方法还包括:
从所述正文中识别出至少一个命名实体;
如果所述命名实体存在于所述标题或者所述文本摘要中,则将所述命名实体确定为关键实体。
第二方面,本申请提供一种文本关键信息的提取方法,所述关键信息包括关键词,包括:
获取待提取文本,所述待提取文本包括正文;
从所述正文中抽取出至少一个待校关键词;
从所述正文中识别出至少一个命名实体;
如果第一待校关键词为一个命名实体的子串,则将所述命名实体确定为从所述正文中提取出的一个关键词;其中,所述第一待校关键词为所述至少一个待校关键词中的任一个。
结合第二方面,在第二方面的第一种可能的实现方式中,所述关键信息还包括关键短语;
如果短语集合中的至少两个词在所述正文中相邻,则将所述至少两个词组成关键短语;其中,所述短语集合包括所有从所述正文中提取出的关键词。
结合第二方面及上述可能的实现方式,在第二方面第二种可能的实现方式中,所述关键信息还包括关键短语;
如果短语集合中的至少两个词在所述文本摘要中相邻,则将所述至少两个词组成关键短语;其中,所述短语集合包括所有从所述正文中提取出的关键词,所述文本摘要为利用所述待提取文本的正文和标题,从所述正文中提取出的文本。
结合第二方面及上述可能的实现方式,在第二方面第三种可能的实现方式中,所述短语集合还包括从所述正文中识别出的、与所述关键词不相同的至少一个命名实体。
结合第二方面及上述可能的实现方式,在第二方面第四种可能的实现方式中,所述短语集合还包括与所述关键词不相同的至少一个关键实体;其中,所述关键实体为从所述正文中识别出的、根据所述文本的标题或文本摘要筛选得到的命名实体。
第三方面,本申请提供一种文本关键信息的提取装置,该提取装置包括:
第一获取模块,用于获取待提取文本,所述待提取文本包括标题和正文;
第一处理模块,用于按照所述正文中的组成单元的相似度权重,生成第一列表;从所述正文中选取出标题相似单元;在所述标题相似单元与所述第一列表中的任一个候选关键单元都不同的情况下,将所述标题相似单元添加到所述第一列表中;以及,利用所述第一列表生成关键信息;其中,所述第一列表中包括至少一个从所述正文中抽取出的候选关键单元,所述标题相似单元为与所述标题相似度最高的组成单元。
第四方面,本申请提供一种文本关键信息的提取装置,该提取装置包括:
第二获取模块,用于获取待提取文本,所述待提取文本包括正文;
第二处理模块,用于从所述正文中抽取出至少一个待校关键词;从所述正文中识别出至少一个命名实体;以及,在第一待校关键词为一个命名实体的子串的情况下,将所述命名实体确定为从所述正文中提取出的一个关键词;其中,所述第一待校关键词为所述至少一个待校关键词中的任一个。
第五方面,本申请提供一种计算机可读存储介质,包括指令,当所述指令在计算机上运行时,使得所述计算机执行第一方面的任一种关键信息提取方法。
第六方面,本申请提供一种计算机可读存储介质,包括指令,当所述指令在计算机上运行时,使得所述计算机执行第二方面的任一种关键信息提取方法。
上述的提取方法,首先获取待提取文本,该待提取文本包括标题和正文。然后按照正文中的组成单元的相似度权重,生成第一列表,其中,所述第一列表中包括至少一个候选关键单元,所述候选关键单元为利用正文中的组成单元的相似度权重,从正文中抽取出的组成单元。再从正文中选取出与所述标题相似度最高的标题相似单元,判断标题相似单元是否已经存在于第一列表中。如果不存在,就表示生成的关键信息中已经遗漏了部分重要的信息,故而将标题相似单元添加到第一列表中。最后利用已经添加了标题相似单元的第一列表生成关键信息。这样就可以确保与标题相似度高的组成单元被添加到第一列表中,避免提取出的关键信息发生遗漏的情况,提高了提取出的关键信息的准确率。
此外,利用正文中的组成单元的相似度权重从正文中抽取出候选关键单元,添加到第一列表中,可以使提取出的关键信息更加准确、全面、精简,避免关键信息内容重复和遗漏的问题。具体来说,相似度权重采用基于MRR算法思想的方法计算得到,第一列表中除标题相似单元以外其他的候选关键单元则是根据组成单元的相似度权重来抽取,并且,后续添加到第一列表中的标题相似单元也与第一列表中已有的候选关键单元不同。基于此,采用本申请的方法,一方面可以缓解从文本中提取出的关键信息内容重复的问题,使提取出的关键信息更加精简,保证关键信息中组成单元的多样化。另一方面,由于第一列表中的候选关键单元相似程度较低,故而可以包含更多不同的语义,从而降低提取出的关键信息遗漏的概率,使关键信息更加准确、全面。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍。
图1为本申请文本关键信息提取方法的第一个实施例中提取关键信息的一种实现方式的流程图;
图2为本申请文本关键信息提取方法的第一个实施例中,提取关键实体的一种实现方式的流程图;
图3为本申请文本关键信息提取方法的第二个实施例中,提取关键词的一种实现方式的流程图;
图4为本申请的文本关键信息提取装置的具体实施方式之一的结构示意图;
图5为本申请的文本关键信息提取装置的具体实施方式之二的结构示意图。
具体实施方式
采用TextRank算法来从文本中提取出关键信息的方法,除了前述的不够简要的问题之外,还存在容易遗漏关键信息的问题。一方面,由于关键信息(例如文本摘要)是由排序靠前的组成单元(例如句子)组合形成的,如果排序考前的某几个组成单元之间相似度很高,这些相似度很高的组成单元不但会导致关键信息的内容重复,而且会导致内容相似度较低但排序相对靠后的组成单元被误认为是不重要的信息,从而导致关键信息遗漏。另一方面,即便排序靠前的组成单元之间重复程度较低,仍然会有一些排序相对靠后、但实际表达了文本中的重要信息的组成单元被误认为是不重要的信息,从而导致关键信息遗漏。
为此,本申请提出一种新的关键信息提取方法,引入最大边界相关(MaximumMargin Relevance,MMR)算法的思想来提取关键信息,同时将文本的标题也引入到关键信息提取的方法中,从而使提取出的关键信息更加准确、精简,减少了内容重复和部分关键信息遗漏的情况。
请参见图1,图1为本申请的关键信息提取方法的一种实现方式的流程图。在本申请的第一个实施例中,该方法包括S110至S150的步骤。
S110:获取待提取文本,所述待提取文本包括标题和正文。
这里的待提取文本可以来自网络,例如网络上的新闻文本等,或者来自企业或个人的数据库,本申请对待提取文本的来源不作限定。这些待提取文本一般为非结构化文本或者半结构化文本。
一般的关键信息提取方法在提取关键信息时仅利用待提取文本的正文,或者不会区分待提取文本的标题和正文。而在本申请中,在提取关键信息之前,可以从待提取文本中识别出标题和正文,分别进行标注,以便将标题和正文分别应用到后续关键信息提取的步骤中,从而减少遗漏提取出的关键信息遗漏的情况。
此外,待提取文本的原始语料中可能还包括一些杂质,例如html标签、乱码字符、特殊字符等。故而可以对原始语料先进行清洗,以除去这些杂质,从而得到待提取文本,避免这些杂质对文本关键信息提取产生干扰。
S120:生成第一列表,其中,所述第一列表中包括至少一个候选关键单元,所述候选关键单元为利用所述正文中的组成单元的相似度权重,从所述正文中抽取出的组成单元。
本申请中的组成单元可以是指句子,也可以是指词语。当需要提取的关键信息不相同时,具体的组成单元相应地会有所不同。例如,当需要提取的关键信息为文本摘要时,对应的组成单元可以采用句子。在一种实现方式中,将标题和正文都按照分句符号,比如“?”、“!”、“:”、“;”、“。”、“……”等,进行划分,从而得到至少一个句子。这样,后续就可以从中选择部分句子组合得到文本摘要。
又例如,当需要提取的关键信息为关键词时,对应的组成单元可以采用词语。在一种实现方式中,将标题和正文都采用现有的分词工具,比如结巴分词(Jieba),进行分词,得到分词结果。分词结果中一般包括多个词语。这样,后续就可以从分词结果中选择部分词语作为关键词。此外,在分词时,除了使用分词工具之外,还可以配合使用自定义的词典等,以提升分词效果。
一个组成单元的相似度权重,表示该组成单元在正文中的重要程度。以组成单元为句子为例,以D表示正文中所有句子的集合,m表示正文中的句子总数量,Dr表示m个句子中的第r个句子,则第r个句子的相似度权重可以表示为score(Dr)。
在计算score(Dr)的一种实现方式中,计算第r个句子和剩余的其他(m-1)个句子之间的余弦相似度,就可以得到第r个句子的相似度权重score(Dr)。其中,第r个句子,以及剩余的其他(m-1)个句子,均可以采用现有的向量表示方法来表示,例如采用词频向量等。在计算好所有组成单元的相似度权重之后,可以将集合D中的m个组成单元按照相似度权重从大到小排序,以Di表示排序之后的m个组成单元中的第i个组成单元。
Maximum Margin Relevance(MMR)算法,也称为最大边界相关算法或最大边缘相关算法,其主要应用在搜索引擎领域,用来计算查询语句与被搜索文档之间的相似度。在本申请中,采用MMR算法的思想,对原本应用于搜索领域的MMR算法做出一些改变,从而使其可以被应用到关键信息提取领域。
可选地,在一种实现方式中,S120的步骤包括:
分别计算未存在于第一列表中的每一个组成单元各自对应的MMR得分;
将MMR得分最高的组成单元确定为一个候选关键单元,添加到第一列表中;
迭代执行计算组成单元对应的MMR得分和确定候选关键单元的步骤,直到第一列表中的候选关键单元达到预设的数量。
在每一个迭代轮次中,计算未存在于第一列表中的每一个组成单元对应的MMR得分,可以利用组成单元的相似度权重,以及,组成单元和当前已经存在于第一列表中的候选关键单元的集合之间的相似度。可选地,可以采用如下公式:
MMR(Di,j)=α×score(Di)-(1-α)×similarity(Di,Rj) 公式(1);
MMR(j)=max[MMR(Di,j)],i=1,2,…,m 公式(2);
其中,α表示调整参数,可以预设为0至1之间的任意数值。
Di表示根据相似度权重从大到小排序后的m个句子中的第i个组成单元,score(Di)表示第i个组成单元的相似度权重。
j表示迭代轮次,Rj表示第j轮迭代时已经存在于第一列表中的候选关键单元的集合。
similarity(Di,Rj)表示第j轮迭代时,根据相似度权重从大到小排序后的m个组成单元中的第i个组成单元,与当前已经存在于第一列表中的候选关键单元的集合,二者之间的相似度;similarity(Di,Rj)可以采用Di和Rj的余弦相似度计算方法来计算。
MMR(j)表示第j轮迭代中MMR得分最高的组成单元的MMR得分。
这里,在计算MMR得分时,用“α×score(Di)”减去“(1-α)×similarity(Di,Rj)”,从而均衡未存在于第一列表中的句子的重要性,以及,未存在于第一列表中的句子和已经存在于第一列表中的句子的相似度。
通过这样的方法,一方面可以缓解从文本中提取出的关键信息内容重复的问题,保证关键信息中组成单元的多样化,均衡考虑了关键信息中每一个关键单元的重要性和多样性。另一方面,由于相似度权重较大但内容与第一候选单元重复的组成单元不会被添加到第一列表中,从而使其他相似度权重相对较小,但内容不重复的组成单元能够有机会被添加到第一列表中,用以生成关键信息,进而降低了关键信息遗漏的情况。通过两方面的作用,可以使提取出的关键信息更加准确、精简。
当需要提取的关键信息为文本摘要时,对应的第一列表中包括至少一个候选关键句。当需要提取的关键信息为关键词时,对应的第一列表中包括至少一个候选关键词。
为便于理解,以下将以组成单元为句子的一个实例来说明生成第一列表的过程。
假设一个待提取文本总共包括4个句子,分别为:a、b、c、d。
需要选取选择2句作为候选关键句。人为设定为α=0.7。建立第一列表,第一列表起始为空。
假设计算得到每一个句子对应的相似度权重如下:
score(a)=0.9,score(b)=0.75,score(c)=0.3,score(d)=0.65,
将其按照相似度权重从大到小排列,结果如下:
score(1)=score(a)=0.9,score(2)=score(b)=0.75,score(3)=score(d)=0.65,score(4)=score(c)=0.3。
在第一轮迭代中,由于第一列表为空,每一个句子与其的相似度均为零,故而利用公式1计算4个句子各自对应的MMR得分,结果如下:
MMR(a,1)=0.7×score(a)=0.63;
MMR(b,1)=0.7×score(b)=0.525;
MMR(d,1)=0.7×score(d)=0.455;
MMR(c,1)=0.7×score(c)=0.21。
基于此,MMR(1)=max[0.63,0.525,0.455,0.21]=0.63,即句子a的MMR得分最高,将其添加到第一列表中,作为一个候选关键单元。
在第二轮迭代中,第一列表中的候选关键单元的集合R2={a}。由于a已经被添加到第一列表中,其不再参与后续的迭代计算。
计算其他未被添加到第一列表中的每一个句子对应的similarity(Di,R2),假设计算结果如下:
similarity(D2,R2)=similarity(b,R2)=0.8;
similarity(D3,R2)=similarity(d,R2)=0.5;
similarity(D4,R2)=similarity(c,R2)=0.4。
故而利用公式1计算3个句子各自对应的MMR得分,结果如下:
MMR(b,2)=0.7×score(b)-0.3×similarity(b,R2)=0.285;
MMR(d,2)=0.7×score(d)-0.3×similarity(d,R2)=0.305;
MMR(c,2)=0.7×score(c)-0.3×similarity(c,R2)=0.09。
基于此,MMR(2)=max[0.285,0.305,0.09]=0.305,即句子d的MMR得分最高,将其添加到第一列表中,作为一个候选关键单元。
由于预设的数量为2个,经过第二轮迭代之后第一列表中已经包含了2个句子,即a和c,故而停止迭代。
S130:从所述正文中选取出标题相似单元;其中,所述标题相似单元为与所述标题相似度最高的组成单元。
分别计算正文中的每一个组成单元与标题之间的相似度。与前述类似,这里的相似度,也可以采用余弦相似度来表示,也可以采用其他的相似度来表示,本申请对此不作限定。然后将相似度最大值所对应的组成单元,确定为选取出的标题相似单元。
当需要提取的关键信息为文本摘要时,对应的此步骤中选取出的标题相似单元为标题相似句。当需要提取的关键信息为关键词时,对应的此步骤中选取出的标题相似单元为标题相似词。
S140:如果所述标题相似单元与任一个候选关键单元都不同,则将所述标题相似单元添加到所述第一列表中。
文本的标题通常能够概括整个文本的核心内容,如果整个文本中与标题相似度最高的标题相似单元没有被包含在用于生成关键信息的第一列表中,利用这样的第一列表生成的关键信息有较大的概率会存在遗漏的情况。为此,如果标题相似单元与任一个候选关键单元都不相同,也就是说,第一列表中不包含与标题相似单元相同的组成单元,那么就将标题相似单元添加到第一列表中。这样,当利用第一列表来生成关键信息的时候,就可以使关键信息中能够包含与标题紧密相关的内容,从而减少信息遗漏的情况。
如果标题相似单元与第一列表中的任一个候选关键单元相同,则说明当前的第一列表中已经包含了该标题相似单元,则无需再将其添加到第一列表中,接着执行S150的步骤即可。通过这样的方式,可以验证当前的用于生成关键信息的第一列表中是否已经包含了标题相似单元,从而确保提取出的关键信息能够包含与标题紧密相关的内容,减少信息遗漏的情况。
S150:利用所述第一列表生成关键信息。
生成的关键信息中包含标题相似单元。在一种实现方式中,从第一列表中的选取n个关键单元,其中,这n个关键单元中包括前述确定标题相似单元,以及(n-1)个相似度权重最大的候选关键单元,n为大于或等于2的整数。当具体需要提取的关键信息为关键词时,可以直接将这n个关键单元作为从文本中提取出的关键词。当具体需要提取的关键信息为文本摘要时,可以按照这n个关键单元在正文中位置顺序,组合这n个关键单元,得到关键信息。这样,就可以一定程度上保证所得到的文本摘要语义通顺、连贯。
在S120步骤的一种实现方式中,生成的第一列表中多个候选关键单元按照相似度权重从大到小排序。当要将标题相似单元添加到所述第一列表中时,可以将标题相似单元添加到第一列表中所有的候选关键单元之前,将标题相似单元的相似度权重视为大于已经存在于第一列表中的所有候选关键单元的相似度权重。可选地,还可以将第一列表中多个候选关键单元中相似度权重最小的候选关键单元从第一列表中删除。基于此,在S150步骤的利用第一列表生成关键信息时,可以直接按照第一列表中标题相似单元以及各个候选关键单元的相似度权重大小排序,直接选取其中的前n个,用以组成关键信息。
需要说明的是,在获取待提取文本时,有的待提取文本的标题为空,对于这样的待提取的文本,则首先生成第一列表;其中,所述第一列表中包括至少一个候选关键单元,所述候选关键单元为利用所述正文中的组成单元的相似度权重,从所述正文中抽取出的组成单元;然后,直接利用所述第一列表生成关键信息。
上述的提取方法,首先获取待提取文本,该待提取文本包括标题和正文。然后按照正文中的组成单元的相似度权重,生成第一列表,其中,所述第一列表中包括至少一个候选关键单元,所述候选关键单元为利用正文中的组成单元的相似度权重,从正文中抽取出的组成单元。再从正文中选取出与所述标题相似度最高的标题相似单元,判断标题相似单元是否已经存在于第一列表中。如果不存在,就表示生成的关键信息中已经遗漏了部分重要的信息,故而将标题相似单元添加到第一列表中。最后利用已经添加了标题相似单元的第一列表生成关键信息。这样就可以确保与标题相似度高的组成单元被添加到第一列表中,避免提取出的关键信息发生遗漏的情况,提高了提取出的关键信息的准确率。
此外,利用正文中的组成单元的相似度权重从正文中抽取出候选关键单元,添加到第一列表中,可以使提取出的关键信息更加准确、全面、精简,避免关键信息内容重复和遗漏的问题。具体来说,相似度权重采用基于MRR算法思想的方法计算得到,第一列表中除标题相似单元以外其他的候选关键单元则是根据组成单元的相似度权重来抽取,并且,后续添加到第一列表中的标题相似单元也与第一列表中已有的候选关键单元不同。基于此,采用本申请的方法,一方面可以缓解从文本中提取出的关键信息内容重复的问题,使提取出的关键信息更加精简,保证关键信息中组成单元的多样化。另一方面,由于第一列表中的候选关键单元相似程度较低,故而可以包含更多不同的语义,从而降低提取出的关键信息遗漏的概率,使关键信息更加准确、全面。
为便于理解,以下将通过一个实例,以组成单元为句子,对应要提取的关键信息为文本摘要,进一步说明提取关键信息的过程。
待提取文本1为一篇新闻,具体如下:
标题:N雪の茶创始人怒怼A茶抄袭,同质化网红茶还能火多久?
正文:
“中国至今尚未诞生一个可以比肩星B克的茶饮品牌,近年来红透网络的新式茶饮企业却先陷入内战中。近日,新式茶饮行业的两大品牌“N雪の茶”与“A茶”的创始人隔空互怼。先是N雪の茶创始人彭X指责A茶抄袭其产品;继而,A茶创始人聂云C回怼称“对方在碰瓷”。一场口水战,足以暴露出“网红茶”在高速扩张的背后隐藏着严重的“同质化”现象。
N雪の茶创始人怒怼A茶抄袭
日前,N雪の茶创始人彭X在朋友圈喊话A茶创始人聂云C,称“A茶抄袭”。彭X在朋友圈里指责A茶抄袭N雪の茶的芝士草莓、霸气蜜桃、霸气黑提、霸气石榴、软欧包等产品。“前段时间看到采访,原来是想抄我们的霸气车厘子没搞定呀。今年我们的霸气车厘子又回归啦,我就在等着看,会不会又抄呢?”
“创新不是抢时间占位。”针对此番隔空喊话,A茶创始人聂云C直接回怼称:“如果是这样,我们可以把所有世界上的水果或者材料都拼凑起来先出了,然后指责以后的人都在‘抄袭’自己。如果只是这样,那创新真是太简单和幼稚了。”
聂云C强调,“我们一向是用市场结果说话,而不是做一些无意义的无病呻吟。言尽于此,无论你说什么,我不会再回了。”
“大多数人都觉得对方在碰瓷。”A茶相关负责人昨天对北京晨报记者表示。对此,N雪の茶并没有给予回应。
按照分句符号,将标题和正文都进行分句。按照正文中的每一个句子各自的相似度权重,生成第一列表1,第一列表1中的4个候选关键句按照相似度权重从大到小的顺序排序。
第一列表1:
①先是N雪の茶创始人彭X指责A茶抄袭其产品;继而,A茶创始人聂云C回怼称“对方在碰瓷”。
②日前,N雪の茶创始人彭X在朋友圈喊话A茶创始人聂云C,称“A茶抄袭”。
③近日,新式茶饮行业的两大品牌“N雪の茶”与“A茶”的创始人隔空互怼。
④继而,A茶创始人聂云C回怼称“对方在碰瓷”。
文本1的标题为:N雪の茶创始人怒怼A茶抄袭,同质化网红茶还能火多久?
分别计算正文中每一个句子与标题之间的相似度。结果相似度最高的句子为:N雪の茶创始人怒怼A茶抄袭。将该句子确定为标题相似句。由于第一列表1中不存在该标题相似句,故而将其添加到第一列表1中,并排在原本的候选关键句①之前,作为相似度权重最大的句子。此处还可以删除原本排在最后的候选关键句④,也可以保留,本申请对此不作限定。
此时,第一列表1更新如下:
⑤N雪の茶创始人怒怼A茶抄袭。
①先是N雪の茶创始人彭X指责A茶抄袭其产品;继而,A茶创始人聂云C回怼称“对方在碰瓷”。
②日前,N雪の茶创始人彭X在朋友圈喊话A茶创始人聂云C,称“A茶抄袭”。
③近日,新式茶饮行业的两大品牌“N雪の茶”与“A茶”的创始人隔空互怼。
假设取相似度权重最大的3个句子,作为组成文本摘要的关键句。故而,取⑤、①、②这3个句子。将这3个句子按照其在文本1中的位置顺序排序,得到文本摘要1如下:
先是N雪の茶创始人彭X指责A茶抄袭其产品;继而,A茶创始人聂云C回怼称“对方在碰瓷”。N雪の茶创始人怒怼A茶抄袭。日前,N雪の茶创始人彭X在朋友圈喊话A茶创始人聂云C,称“A茶抄袭”。
从该例子中也可以看出,为了避免文本摘要中的内容重复,在根据相似度权重生成第一列表1时,已经将句子⑤排除在外,并没有添加到第一列表1中。这就导致与标题最紧密相关的句子⑤被遗漏。故而,再将句子⑤添加到第一列表1中,这样,一方面缓解了文本摘要内容重复的问题,另一方面,也避免了重要的信息遗漏的问题,从而使得到的文本摘要精简、准确、全面。
可选地,前述的关键信息除了可以包括文本摘要以外,还可以包括关键实体。
命名实体(named entity)一般是指人名、机构名、地名,以及其他所有以名称为标识的实体,更广泛地说,命名实体还包括数字、日期、货币等。其中部分人名、机构名、地名等,往往是文本中所描述的事件的主体,或者阅读文本的读者所关注的对象。本申请中的关键实体主要指的就是这些作为事件主体、关注对象等的命名实体。
请参见图2,在提取关键实体的方法中,可以包括以下S210至S220的步骤。
S210:从所述正文中识别出至少一个命名实体。
从正文中抽取出命名实体,可以采用命名实体识别模型来实现。在一种实现方式中,命名实体识别模型可以是已经被训练好的机器学习模型。利用基于机器学习的识别模型可以从文本中识别出前述的各种命名实体,以及其对应的类型。这样的识别模型通用性较强,可以识别出大部分命名实体。
在另一种实现方式中,命名实体识别模型也可以是基于识别规则所构建的识别模型。利用基于识别规则的识别模型也可以从文本中识别出前述的各种命名实体,以及其对应的类型。这样的识别模型一般会基于应用场景来构建,识别的准确率更较好。
从待提取文本中识别出来的所有命名实体都可以存储在一个命名实体列表中,以便后续从中筛选关键实体。
S220:如果所述命名实体存在于所述标题或者文本摘要中,则将所述命名实体确定为关键实体。
文本的标题通常能够概括整个文本的核心内容,如果一个命名实体出现在标题中,则可以将其确定为关键实体。文本摘要提炼出了文本的主要内容,如果一个命名实体出现在文本摘要中,也可以将其确定为关键实体。遍历前述的命名实体列表中的每一个命名实体,逐一判断该命名实体是否为关键实体。遍历完毕,就从文本中提取出了所有的关键实体。提取出的关键实体可以存储在关键实体列表中,以便其他步骤的调用。
通过这样的方式,首先利用识别模型从文本中识别出所有的命名实体,然后利用标题和/或文本摘要,过滤掉非重点关注的命名实体,从命名实体中筛选出关键实体。这可以降低关键实体识别的错误率,提高关键实体识别的准确率。
需要说明的是,这里的文本摘要可以是前述的利用标题和正文所提取得到的文本摘要,也可以是不利用标题,仅利用正文所提取到的文本摘要。
以下将以一个实例来进一步说明关键实体提取的过程。
首先利用命名实体识别模型,从文本1中识别出命名实体包括:
人名:“聂云C”、“彭X”;
机构名:“A茶”、“星B克”、“N雪の茶”、“北京晨报”。
将这6个命名实体分别与文本摘要1或者标题匹配,判断其是否出现在文本摘要或者标题中。结果,“星B克”和“北京晨报”并没有出现在标题中,也没有出现在文本摘要1中。故而,最后从文本1中提取出的关键实体包括:
人名:“聂云C”、“彭X”;
机构名:“A茶”、“N雪の茶”。
从文本1可见,该文本1中所描述的事件或者对象与“星B克”和“北京晨报”并没有太大关系。通过前述的提取关键实体的方法,可以过滤掉一些读者不关注的命名实体,从而避免误导读者,让读者以为该文本涉及到所有的命名实体。
如前所述,在提取关键词时,一般会将文本进行分词,得到多个词语。然后采用TextRank算法,利用投票机制对这多个词语进行排序,从中选取出关键词。在分词的过程中,由于切分不正确,导致切分得到的词语不正确,从而容易提取出的关键词不准确。
例如,对前述的文本1分词,采用TextRank算法进行排序,得到的排序结果如下所示:
"N雪","创始人","聂云C","A茶","抄袭","霸气","指责","彭X","品牌","回怼","产品","创新","碰瓷",…
从中选取靠前的预设数量个,例如10个词语,作为关键词,则提取出的关键词为"N雪","创始人","聂云C","A茶","抄袭","霸气","指责","彭X","品牌","回怼"。
可见,由于在分词时“N雪の茶”被误分成“N雪”、“の”、“茶”三个词,故而在排序时,并没有将“N雪の茶”作为一个整体。最终导致提取出的关键词为“N雪”,进而降低了提取出的关键词的准确率。
由于在分词时,这种切分错误的情况较难避免,为此,在本申请的第二个实施例中,提供一种文本关键信息的提取方法,通过引入命名实体进行校正,来提高关键词提取的准确率。
请参见图3,图3为本申请的文本关键信息提取方法中,提取关键词的一种实现方式的流程图,包括S310至S340的步骤。
S310:获取待提取文本,所述待提取文本包括正文。
此处的待提取文本与S110步骤中的待提取文本类似,区别仅在于此处的待提取文本可以包含标题,也可以不包含标题。待提取文本的其他相关描述可参见S110步骤,此处不再赘述。
S320:从所述正文中抽取出至少一个待校关键词。
在一种实现方式中,抽取待校关键词可以采用TextRank算法。即,首先,将待提取文本分词,得到多个词语。然后采用TextRank算法,对这多个词语进行排序。将排序靠前的k个词语确定为待校关键词,其中,k为大于或等于1的整数。这些抽取出的待校关键词,都可以存储到第二列表中,以便后续调用。
在另一种实现方式中,抽取待校关键词可以采用与第一个实施例中S120步骤类似的方法。即:在待提取文本被分词之后,按照正文中的词语的相似度权重,生成第一列表;其中,第一列表中包括至少一个从正文中抽取出的候选关键词;直接将候选关键词确定为待校关键词,用于后续的校验步骤。
在又一种实现方式中,抽取待校关键词可以采用第一个实施例中生成关键信息的方法,即第一个实施例中当需要提取的关键信息为关键词,对应的组成单元为词语时的情况。此时,首先获取待提取文本,所述待提取文本包括标题和正文。然后在待提取文本被分词之后,按照正文中的词语的相似度权重,生成第一列表;其中,第一列表中包括至少一个从正文中抽取出的候选关键词。再从正文中选取出标题相似词;其中,标题相似词为与所述标题相似度最高的词语;如果标题相似词与第一列表中的任一个候选关键词都不同,则将标题相似词添加到第一列表中;再利用第一列表生成待校关键词。从上述方案可以发现,如果将第一列表中所有的候选关键词都确定为待校关键词,存储在第二列表中,则第二列表实际上与第一列表相同。
S330:从所述正文中识别出至少一个命名实体。
与S210步骤类似地,从正文中抽取出命名实体,可以采用命名实体识别模型来实现。识别出的命名实体,可以存储在命名实体列表中,以便后续调用。具体可以参见S210的描述,此处不再赘述。
S340:如果第一待校关键词为一个命名实体的子串,则将所述命名实体确定为从所述正文中提取出的一个关键词;
第一待校关键词为前述的至少一个待校关键词,也就是第二列表中的任一个。通过将第一待校关键词与从正文中识别出的命名实体进行比较,来判断切分词语时是否将存在将命名实体切分错误的情况。
需要说明的是,这里的用于与第一待校关键词比较的一个命名实体,可以是前述的命名实体列表中的任一个命名实体,也可以是第一个实施例中所述的关键实体列表中的任一个关键实体。即,本实施例中关键词的校验的方法可以与前述的关键实体的提取方法相结合。
在一种实现方式中,在判断是否存在词语切分错误的情况时,可以遍历第二列表,依次将其中的每一个待校关键词作为第一待校关键词,将其与命名实体列表或关键实体列表中的命名实体做比对。如果第一待校关键词是命名实体列表或关键实体列表中某一个命名实体的子串,则将该命名实体作为关键词,将其存储到关键词列表中。如果第一待校关键词不是命名实体列表或关键实体列表中任一个命名实体的子串,就认为该第一待校关键词并没有被错误切分,故而可以将该第一待校关键词确定为关键词,存储到关键词列表中。遍历完毕之后,关键词列表中存储的就是从文本中提取出的所有关键词。
上述的方法,利用命名实体来校验命名实体类的待校关键词。如果其中存在由于切分错误而仅剩下局部字符串的命名实体,就将其替换为完整的命名实体,从而对最后提取出的关键词中被错误切分的命名实体类的关键词进行校正,进而提高关键词提取的准确率。
沿用前述的例子,假设从文本1中提取出的待校关键词有:"N雪","创始人","聂云C","A茶","抄袭","霸气","指责","彭X","品牌","回怼"。从文本1中识别出的命名实体包括6个:“聂云C”、“彭X”、“A茶”、“N雪の茶”、“星B克”、“北京晨报”。但此处采用关键实体列表中的4个命名实体来校验,即“聂云C”、“彭X”、“A茶”、“N雪の茶”。
遍历所有的待校关键词。先将"N雪"作为第一待校关键词,将其分别与4个命名实体匹配,结果第一待校关键词"N雪"为命名实体“N雪の茶”的子串,故而将“N雪の茶”替代原本的"N雪",确定为关键词,存储到关键词列表中。然后将"创始人"作为第一待校关键词,将其分别与4个命名实体匹配,结果第一待校关键词"创始人"不是4个命名实体中任何一个的子串,故而将“创始人”确定为关键词,存储到关键词列表中。依次遍历,直到所有的待校关键词都遍历完毕,则关键词列表中存储的提取出的关键词共有10个,分别是:"N雪の茶","创始人","聂云C","A茶","抄袭","霸气","指责","彭X","品牌","回怼"。
关键词可以一定程度上体现出文本所描述的部分主要信息,但是由于一个个关键词之间的语义彼此独立,不利于阅读者理解,有时也无法体现出完整的重要信息。为此,本申请的关键信息提取方法中,还包括了关键短语的提取步骤。
在提取关键短语的一种实现方式中,前述提取方法还可以包括以下步骤:
如果短语集合中的至少两个词在所述正文中相邻,则将所述至少两个词组成关键短语。
这里,短语集合可以包括所有从正文中提取出的关键词。由于命名实体往往是文本中所描述的事件的主体,或者阅读文本的读者所关注的对象,因此,短语集合中也可以包括命名实体。这里的命名实体可以是从文本中识别出的所有命名实体,也可以是经过筛选得到的关键实体,本申请对此不作限定。由于从一个文本中提取出的关键词和命名实体可能存在重复的情况,故而可以先将所有的关键词和命名实体去重,再添加到短语集合中。
两个词相邻,指的是这两个词在文本中的间隔为零个字符。除了前述的判断短语集合中的词在正文中是否相邻之外,以此来组成关键短语之外,也可以判断这些词在文本摘要中是否相邻,以此来组成关键短语。这里的文本摘要可以是采用常规方法提取到的文本摘要,也可以是采用前述第一个实施例中的任一种方法提取到的文本摘要,即利用待提取文本的正文和标题,从正文中提取出的文本,本申请对此不作限定。
在一种实现方式中,可以通过最大匹配法来提取关键短语。首先将短语集合中的所有词按照字符串从长到短排列。然后按照所有词的排列顺序,将每一个词依次在正文或者文本摘要中进行匹配,并将匹配到的字符串在文本中标记出来。在匹配时,可以设置匹配的优先级,例如,可以优先匹配关键实体,再匹配关键词。一旦文本中的一个字符串已经被标记为命名实体,该字符串就不再参与下一轮的匹配。
通过这样的方法,可以将在原文中相邻的关键词以关键短语的形式输出,从而便于更加连贯、完整地体现文本中重要的信息,便于阅读者理解。
需要说明的是,在最终输出的时候,可以将前述方法提取出的文本摘要、命名实体、关键实体、关键词、以及关键短语等,组合进行输出。将这些信息作为标签,与待提取文本之间构建关联关系,则在检索时可以根据不同的检索需求,为用户提供多种不同字段的组合检索。输出的关键信息可以应用在多种领域,例如新闻推荐系统等。
为便于理解,以下沿用前述的实例来进一步说明关键短语的提取过程。
从文本1中提取出的关键词包括:
"N雪の茶","创始人","聂云C","A茶","抄袭","霸气","指责","彭X","品牌","回怼"。
文本中提取出的关键实体包括:
人名:“聂云C”、“彭X”;
机构名:“A茶”、“N雪の茶”。
去重、排序之后,得到短语集合1包括:
"N雪の茶","创始人","聂云C","A茶","抄袭","霸气","指责","彭X","品牌","回怼"。
利用前述的文本摘要1来进行匹配,并且,优先匹配命名实体,再匹配关键词。以文本摘要1中的第一句为例,首先匹配短语集合1中的“N雪の茶”,将“N”标记为“ORG-B”,即表示一个机构命名实体的起始字符;将“雪”和“の”分别标记为“ORG-M”,即表示一个机构命名实体的中间字符;将“茶”标记为“ORG-E”,即表示一个机构命名实体的结束字符。然后以类似的方法依次匹配和标记其他的命名实体“聂云C”、“A茶”、“彭X”,最后以类似的方式依次匹配和标记其他的关键词。需要说明的是,摘要文本中此前已经标注过的字符,在后续的匹配和标记步骤中将直接跳过,不会被重复匹配和标记。最后得到的标记结果如下所示。
N ORG-B
雪 ORG-M
の ORG-M
茶 ORG-E
创 KEY-B
始 KEY-M
人 KEY-E
彭 PER-B
X PER-E
指 KEY-B
责 KEY-E
A ORG-B
茶 ORG-E
抄 KEY-B
袭 KEY-E
A ORG-B
茶 ORG-E
创 KEY-B
始 KEY-M
人 KEY-E
聂 PER-B
云 PER-M
C PER-E
回 KEY-B
怼 KEY-E
全部标记完毕之后,连续的字符串都抽取出来,就得到了关键短语的抽取结果:"N雪の茶创始人彭X指责A茶抄袭","A茶创始人聂云C回怼","N雪の茶创始人","A茶抄袭","N雪の茶创始人彭X","A茶创始人聂云C","A茶抄袭"。
由于其中存在重复的关键短语,故而可以再进行去重,从而输出最后的关键短语为:"N雪の茶创始人彭X指责A茶抄袭","A茶创始人聂云C回怼"。
在本申请的第三个实施例中,提供了与前述关键信息提取方法对应的关键信息提取装置。
在一种实现方式中,请参考图4,该关键信息提取装置,包括:
第一获取模块1,用于获取待提取文本,所述待提取文本包括标题和正文;
第一处理模块2,用于生成第一列表;从所述正文中选取出标题相似单元;在所述标题相似单元与任一个候选关键单元都不同的情况下,将所述标题相似单元添加到所述第一列表中;以及,利用所述第一列表生成关键信息;其中,所述第一列表中包括至少一个候选关键单元,所述候选关键单元为利用所述正文中的组成单元的相似度权重,从所述正文中抽取出的组成单元,所述标题相似单元为与所述标题相似度最高的组成单元。
可选地,第一处理模块2还用于分别计算未存在于第一列表中的每一个组成单元各自对应的MMR得分;将MMR得分最高的组成单元确定为一个候选关键单元,添加到第一列表中;以及,迭代执行计算组成单元对应的MMR得分和确定候选关键单元的步骤,直到第一列表中的候选关键单元达到预设的数量。
可选地,第一处理模块2还用于从所述第一列表中的选取n个关键单元;以及,按照所述n个关键单元在所述正文中位置组合所述n个关键单元,得到关键信息。其中,所述n个关键单元中包括所述标题相似单元,以及(n-1)个相似度权重最大的候选关键单元,n为大于或等于2的整数。
可选地,当所述组成单元为句子,所述候选关键单元为候选关键句,所述标题相似单元为标题相似句时,生成的所述关键信息包括文本摘要。
可选地,当所述组成单元为词语,所述候选关键单元为候选关键词,所述标题相似单元为标题相似词时,生成的所述关键信息包括关键词。
可选地,所述关键信息还包括关键实体;第一处理模块2还用于从所述正文中识别出至少一个命名实体;以及,在所述命名实体存在于所述标题或者所述文本摘要中的情况下,将所述命名实体确定为关键实体。
在另一种实现方式中,所述关键信息包括关键词,请参考图5,该关键信息提取装置,包括:
第二获取模块3,用于获取待提取文本,所述待提取文本包括正文;
第二处理模块4,用于从所述正文中抽取出至少一个待校关键词;从所述正文中识别出至少一个命名实体;以及,在第一待校关键词为一个命名实体的子串的情况下,将所述命名实体确定为从所述正文中提取出的一个关键词;其中,所述第一待校关键词为所述至少一个待校关键词中的任一个。
可选地,所述关键信息还包括关键短语;
第二处理模块4还用于在短语集合中的至少两个词在所述正文中相邻的情况下,将所述至少两个词组成关键短语;其中,所述短语集合包括所有从所述正文中提取出的关键词。
可选地,所述关键信息还包括关键短语;
第二处理模块4还用于在短语集合中的至少两个词在所述文本摘要中相邻的情况下,将所述至少两个词组成关键短语;其中,所述短语集合包括所有从所述正文中提取出的关键词,所述文本摘要为利用所述待提取文本的正文和标题,从所述正文中提取出的文本。
可选地,所述短语集合还包括从所述正文中识别出的、与所述关键词不相同的至少一个命名实体。
可选地,所述短语集合还包括与所述关键词不相同的至少一个关键实体;其中,所述关键实体为从所述正文中识别出的、根据所述文本的标题或文本摘要筛选得到的命名实体。
需要说明的是,上述的第一获取模块1、第二获取模块3仅仅是逻辑上的划分,在实际应用中,第一获取模块1和第二获取模块3可以由同一个获取模块来实现。类似地,第一处理模块2、第二处理模块4也仅仅是逻辑上的划分,在实际应用中,第一处理模块2和第二处理模块4可以由同一个处理模块来实现。
此外,本实施例还提供一种计算机可读存储介质,包括指令,当所述指令在计算机上运行时,使得所述计算机执行第一个实施例和/或第二个实施例中的任一种关键信息提取方法的部分或全部步骤。
这里的可读存储介质可为磁碟、光盘、DVD、USB、只读存储记忆体(ROM)或随机存储记忆体(RAM)等,本申请对具体的存储介质形式不作限定。
关键信息提取装置以及计算机可读存储介质用于执行第一个实施例和/或第二个实施例中的任一种方法的部分或全部步骤,相应地具有前述方法所具有的有益效果,此处不再赘述。
应理解,在本申请的各种实施例中,各步骤的执行顺序应以其功能和内在逻辑确定,各步骤序号的大小并不意味着执行顺序的先后,不对实施例的实施过程构成限定。例如,S120的步骤可以在S130的步骤之前执行,也可以在S130的步骤之后执行,还可以与S130的步骤同时执行。还例如,S210可以在S150的步骤之前执行,也可以在S150的步骤之后执行,还可以与S150的步骤同时执行,但从该方法的内在逻辑上可以确定S210之后的S220必须在S150的步骤之后执行。
除非另外说明,本说明书中的“多个”,指的是两个或者两个以上。此外,在本申请的实施例中,采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。本领域技术人员可以理解,“第一”、“第二”等字样并不对数量和执行次序构成限定,并且“第一”、“第二”等字样也并不限定一定不同。
应理解,只要逻辑上不相互矛盾,本说明书中各个不同的实施例可以相互结合,实施例之间相同或相似的部分互相参见即可。尤其,对于关键信息提取装置、计算机可读存储介质的实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例中的说明即可。以上所述的本发明实施方式并不构成对本发明保护范围的限定。

Claims (10)

1.一种文本关键信息的提取方法,其特征在于,包括:
获取待提取文本,所述待提取文本包括标题和正文;
生成第一列表,其中,所述第一列表中包括至少一个候选关键单元,所述候选关键单元为利用所述正文中的组成单元的相似度权重,从所述正文中抽取出的组成单元;
从所述正文中选取出标题相似单元,其中,所述标题相似单元为与所述标题相似度最高的组成单元;
如果所述标题相似单元与任一个候选关键单元都不同,则将所述标题相似单元添加到所述第一列表中;
利用所述第一列表生成关键信息。
2.根据权利要求1所述的方法,其特征在于,生成第一列表的步骤,包括:
分别计算未存在于第一列表中的每一个组成单元各自对应的MMR得分;
将MMR得分最高的组成单元确定为一个候选关键单元,添加到第一列表中;
迭代执行计算组成单元对应的MMR得分和确定候选关键单元的步骤,直到第一列表中的候选关键单元达到预设的数量。
3.根据权利要求1所述的方法,其特征在于,利用所述第一列表生成关键信息的步骤,包括:
从所述第一列表中的选取n个关键单元,其中,所述n个关键单元中包括所述标题相似单元,以及(n-1)个相似度权重最大的候选关键单元,n为大于或等于2的整数;
按照所述n个关键单元在所述正文中位置组合所述n个关键单元,得到关键信息。
4.根据权利要求1-3任一项所述的方法,其特征在于,当所述组成单元为句子,所述候选关键单元为候选关键句,所述标题相似单元为标题相似句时,生成的所述关键信息包括文本摘要;或者,
当所述组成单元为词语,所述候选关键单元为候选关键词,所述标题相似单元为标题相似词时,生成的所述关键信息包括关键词。
5.根据权利要求4所述的方法,其特征在于,所述关键信息还包括关键实体,所述方法还包括:
从所述正文中识别出至少一个命名实体;
如果所述命名实体存在于所述标题或者所述文本摘要中,则将所述命名实体确定为关键实体。
6.一种文本关键信息的提取方法,其特征在于,所述关键信息包括关键词,包括:
获取待提取文本,所述待提取文本包括正文;
从所述正文中抽取出至少一个待校关键词;
从所述正文中识别出至少一个命名实体;
如果第一待校关键词为一个命名实体的子串,则将所述命名实体确定为从所述正文中提取出的一个关键词;其中,所述第一待校关键词为所述至少一个待校关键词中的任一个。
7.根据权利要求6所述的方法,其特征在于,所述关键信息还包括关键短语;
如果短语集合中的至少两个词在所述正文中相邻,则将所述至少两个词组成关键短语;其中,所述短语集合包括所有从所述正文中提取出的关键词;或者,
如果短语集合中的至少两个词在所述文本摘要中相邻,则将所述至少两个词组成关键短语;其中,所述短语集合包括所有从所述正文中提取出的关键词,所述文本摘要为利用所述待提取文本的正文和标题,从所述正文中提取出的文本。
8.根据权利要求7所述的方法,其特征在于,所述短语集合还包括从所述正文中识别出的、与所述关键词不相同的至少一个命名实体;或者,
所述短语集合还包括与所述关键词不相同的至少一个关键实体;其中,所述关键实体为从所述正文中识别出的、根据所述文本的标题或文本摘要筛选得到的命名实体。
9.一种文本关键信息的提取装置,其特征在于,该提取装置包括:
第一获取模块,用于获取待提取文本,所述待提取文本包括标题和正文;
第一处理模块,用于按照所述正文中的组成单元的相似度权重,生成第一列表;从所述正文中选取出标题相似单元;在所述标题相似单元与所述第一列表中的任一个候选关键单元都不同的情况下,将所述标题相似单元添加到所述第一列表中;以及,利用所述第一列表生成关键信息;其中,所述第一列表中包括至少一个从所述正文中抽取出的候选关键单元,所述标题相似单元为与所述标题相似度最高的组成单元;
或者,
该提取装置包括:
第二获取模块,用于获取待提取文本,所述待提取文本包括正文;
第二处理模块,用于从所述正文中抽取出至少一个待校关键词;从所述正文中识别出至少一个命名实体;以及,在第一待校关键词为一个命名实体的子串的情况下,将所述命名实体确定为从所述正文中提取出的一个关键词;其中,所述第一待校关键词为所述至少一个待校关键词中的任一个。
10.一种计算机可读存储介质,其特征在于,该介质包括指令,当所述指令在计算机上运行时,使得所述计算机执行权利要求1至5中任一项所述的方法;或者,
该介质包括指令,当所述指令在计算机上运行时,使得所述计算机执行权利要求6至8中任一项所述的方法。
CN201910114073.6A 2019-02-14 2019-02-14 文本关键信息的提取方法、装置及介质 Active CN109933787B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910114073.6A CN109933787B (zh) 2019-02-14 2019-02-14 文本关键信息的提取方法、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910114073.6A CN109933787B (zh) 2019-02-14 2019-02-14 文本关键信息的提取方法、装置及介质

Publications (2)

Publication Number Publication Date
CN109933787A true CN109933787A (zh) 2019-06-25
CN109933787B CN109933787B (zh) 2023-07-14

Family

ID=66985532

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910114073.6A Active CN109933787B (zh) 2019-02-14 2019-02-14 文本关键信息的提取方法、装置及介质

Country Status (1)

Country Link
CN (1) CN109933787B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111401040A (zh) * 2020-03-17 2020-07-10 上海爱数信息技术股份有限公司 一种适用于word文本的关键词提取方法
CN111460117A (zh) * 2020-03-20 2020-07-28 平安科技(深圳)有限公司 对话机器人意图语料生成方法、装置、介质及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015179643A1 (en) * 2014-05-23 2015-11-26 Codeq Llc Systems and methods for generating summaries of documents
WO2017084267A1 (zh) * 2015-11-18 2017-05-26 乐视控股(北京)有限公司 一种关键词提取方法和装置
CN109190111A (zh) * 2018-08-07 2019-01-11 北京奇艺世纪科技有限公司 一种文档正文关键词提取方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015179643A1 (en) * 2014-05-23 2015-11-26 Codeq Llc Systems and methods for generating summaries of documents
WO2017084267A1 (zh) * 2015-11-18 2017-05-26 乐视控股(北京)有限公司 一种关键词提取方法和装置
CN109190111A (zh) * 2018-08-07 2019-01-11 北京奇艺世纪科技有限公司 一种文档正文关键词提取方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
蒲梅等: "基于加权TextRank的新闻关键事件主题句提取", 《计算机工程》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111401040A (zh) * 2020-03-17 2020-07-10 上海爱数信息技术股份有限公司 一种适用于word文本的关键词提取方法
CN111401040B (zh) * 2020-03-17 2021-06-18 上海爱数信息技术股份有限公司 一种适用于word文本的关键词提取方法
CN111460117A (zh) * 2020-03-20 2020-07-28 平安科技(深圳)有限公司 对话机器人意图语料生成方法、装置、介质及电子设备
CN111460117B (zh) * 2020-03-20 2024-03-08 平安科技(深圳)有限公司 对话机器人意图语料生成方法、装置、介质及电子设备

Also Published As

Publication number Publication date
CN109933787B (zh) 2023-07-14

Similar Documents

Publication Publication Date Title
Bennani-Smires et al. Simple unsupervised keyphrase extraction using sentence embeddings
US8335787B2 (en) Topic word generation method and system
US8560485B2 (en) Generating a domain corpus and a dictionary for an automated ontology
US8200671B2 (en) Generating a dictionary and determining a co-occurrence context for an automated ontology
CN103365992B (zh) 一种基于一维线性空间实现Trie树的词典检索方法
CN109255012B (zh) 机器阅读理解以及减少候选数据集规模的方法、装置
CN110008473B (zh) 一种基于迭代方法的医疗文本命名实体识别标注方法
US20040122660A1 (en) Creating taxonomies and training data in multiple languages
Hamdi et al. In-depth analysis of the impact of OCR errors on named entity recognition and linking
CN110990003B (zh) 一种基于词嵌入技术的api推荐方法
CN109933787A (zh) 文本关键信息的提取方法、装置及介质
Tonkin Searching the long tail: Hidden structure in social tagging
Al Mostakim et al. Bangla content categorization using text based supervised learning methods
Adar et al. Building a scientific concept hierarchy database (schbase)
Mustafa et al. Optimizing document classification: Unleashing the power of genetic algorithms
CN116304347A (zh) 一种基于群智知识的Git命令推荐方法
Islam et al. Hate speech detection using machine learning in bengali languages
Pratheek et al. Prediction of answer keywords using char-RNN
Figueroa et al. Collaborative ranking between supervised and unsupervised approaches for keyphrase extraction
CN112132214A (zh) 兼容多种语言的文档信息精准提取系统
Cortez et al. Unsupervised information extraction by text segmentation
Ramachandran et al. Document Clustering Using Keyword Extraction
Zafarani-Moattar et al. A comprehensive study on Frequent Pattern Mining and Clustering categories for topic detection in Persian text stream
Goslin et al. English Language Spelling Correction as an Information Retrieval Task Using Wikipedia Search Statistics
Fkih et al. Novel Machine Learning–Based Approach for Arabic Text Classification Using Stylistic and Semantic Features

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant