CN111259660A - 基于文本对的关键词抽取方法、装置、设备及存储介质 - Google Patents
基于文本对的关键词抽取方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111259660A CN111259660A CN202010042447.0A CN202010042447A CN111259660A CN 111259660 A CN111259660 A CN 111259660A CN 202010042447 A CN202010042447 A CN 202010042447A CN 111259660 A CN111259660 A CN 111259660A
- Authority
- CN
- China
- Prior art keywords
- text
- word
- pair
- pairs
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及人工智能领域,公开了基于文本对的关键词抽取方法、装置、设备及存储介质,用于提高关键词的召回率,提高关键词抽取的准确率。本发明方法包括:获取原始问题语句,并基于原始问题语句生成原始语料库数据集;根据原始语料库数据集构建文本对数据集,文本对数据集包括相似文本对和不相似文本对;生成每个文本对所对应的多个词语对;根据每个文本对的多个词语对分别计算每个词语对在相似文本对中的正向词频和在不相似文本对中的反向词频;基于每个词语对的正向词频和反向词频,计算每个词语对的综合特征分值;对所有词语对的综合特征分值进行排序,生成关键词集;结合业务场景对关键词集进行筛选,生成目标关键词。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种基于文本对的关键词抽取方法、装置、设备及存储介质。
背景技术
关键词抽取技术是自然语言处理(natural language processing,NLP)领域非常重要的一个基础技术,由于其可解释性较强,适应范围广,易于扩展等优势被广泛应用于各个NLP项目中,因此关键词抽取的准确率和召回率在一定程度上影响了NLP项目策略的效果。
常用的关键词抽取技术是将每个文档进行独立处理,然后基于词频-逆文档频率(term frequency–inverse document frequency,TF-IDF)特征进行排序抽取,这种方法主要存在以下2个不足:1)文档集可能不是独立同分布的,文档之间的关联特征(例如文档相似)被丢弃,从而进一步弱化了有关联文档集中词语之间的关联性,因此影响关键词抽取的准确率。2)针对不同的项目,不同的业务场景,在垂直业务场景下,有些比较关键的高频词语会出现在很多文档集内,例如在平安寿险问答知识库系统语料中,“投保”、“理赔”会出现在很多问题中,会导致IDF值较小,从而进一步导致TF-IDF特征值较小,难以被召回,因此影响关键词的召回率。导致现有方案对关键词的抽取准确率低。
发明内容
本发明提供了一种基于文本对的关键词抽取方法、装置、设备及存储介质,用于通过构建相似文本对和不相似文本对,计算关键词分别在相似文本对和不相似文本对中的词频,提高了关键词的召回率,提高了每个关键词的综合分数,提高了关键词抽取的准确率。
本发明实施例的第一方面提供一种基于文本对的关键词抽取方法,包括:获取原始问题语句,并基于所述原始问题语句生成原始语料库数据集,所述原始问题语句用于指示客服系统查找对应的问题答案;根据所述原始语料库数据集构建文本对数据集,所述文本对数据集包括相似文本对和不相似文本对;在所述文本对数据集中,对每个文本对中的两个子文本分别进行分词操作,并生成每个文本对所对应的多个词语对,每个词语对包括每个子文本中的一个候选词语;根据每个文本对的多个词语对分别计算每个词语对在所述相似文本对中的正向词频和在所述不相似文本对中的反向词频;基于每个词语对的正向词频和反向词频,计算每个词语对的综合特征分值;对所有词语对的综合特征分值进行排序,生成关键词集;结合业务场景对所述关键词集进行筛选,生成目标关键词。
可选的,在本发明实施例第一方面的第一种实现方式中,所述根据所述原始语料库数据集构建文本对数据集,所述文本对数据集包括相似文本对和不相似文本对,包括:在原始语料库数据集中确定与原始问题语句的语义相似的问题,生成多个相似问题语句;将所述多个相似问题语句两两组合生成相似文本对;在所述原始语料库数据集中确定与原始问题语句的语义不相似的问题,生成多个不相似问题语句;将所述多个不相似问题语句两两组合生成不相似文本对;按照预置比例将第一预置数目的相似文本对和第二预置数目的不相似文本对进行融合,生成文本对数据集。
可选的,在本发明实施例第一方面的第二种实现方式中,所述在所述文本对数据集中,对每个文本对中的两个子文本分别进行分词操作,并生成每个文本对所对应的多个词语对,每个词语对包括每个子文本中的一个候选词语,包括:在文本对数据集中,对每个文本对中的第一子文本和第二子文本分别进行分词操作,得到第一子文本的第一分词结果和第二子文本的第二分词结果;利用预置的模型算法从所述第一分词结果和所述第二分词结果中分别抽取一个候选词语,生成每个文本对的多个词语对。
可选的,在本发明实施例第一方面的第三种实现方式中,所述在文本对数据集中,对每个文本对中的第一子文本和第二子文本分别进行分词操作,得到第一子文本的第一分词结果和第二子文本的第二分词结果,包括:在文本对数据集中随机选择一个文本对作为目标文本对;获取所述目标文本对中的第一子文本和第二子文本,并对第一子文本和第二子文本分别进行分词;生成所述第一子文本对应的第一分词结果和所述第二子文本对应的第二分词结果,所述第一分词结果包括第一子文本中的各个候选词,所述第二分词结果包括第二子文本中的各个候选词。
可选的,在本发明实施例第一方面的第四种实现方式中,所述利用预置的模型算法从所述第一分词结果和所述第二分词结果中分别抽取一个候选词语,生成每个文本对的多个词语对,包括:利用预置的二元模型2-gram算法从每个文本对中第一子文本中选择一个候选词语,从第二子文本中选择另一个候选词语;将分别抽取得到的两个候选词语组成词语对,生成每个文本对的多个词语对。
可选的,在本发明实施例第一方面的第五种实现方式中,所述根据每个文本对的多个词语对分别计算每个词语对在所述相似文本对中的正向词频和在所述不相似文本对中的反向词频,包括:在每个文本对的多个词语对中选择一个词语对为目标词语对;统计目标词语对分别在所述相似文本对中的出现次数x1和在所述不相似文本对中的出现次数x2;确定所述相似文本对中词语对总数N1,以及所述不相似文本对中词语对总数N2;生成所述目标词语对在相似文本对中的正向词频x1/N1,在所述不相似文本对中的反向词频x2/N2;依次生成每个词语对的正向词频和反向词频。
可选的,在本发明实施例第一方面的第六种实现方式中,所述对所有词语对的综合特征分值进行排序,生成关键词集,包括:对所有词语对的综合特征分值按照从大到小的顺序进行排序;比较每个词语对的综合特征分值是否大于阈值;将综合特征分值大于阈值的词语对确定为候选词语对;将生成的所有候选词语对进行集合,生成关键词集。
本发明实施例的第二方面提供了一种基于文本对的关键词抽取装置,包括:获取单元,用于获取原始问题语句,并基于所述原始问题语句生成原始语料库数据集,所述原始问题语句用于指示客服系统查找对应的问题答案;构建单元,用于根据所述原始语料库数据集构建文本对数据集,所述文本对数据集包括相似文本对和不相似文本对;分词单元,用于在所述文本对数据集中,对每个文本对中的两个子文本分别进行分词操作,并生成每个文本对所对应的多个词语对,每个词语对包括每个子文本中的一个候选词语;第一计算单元,用于根据每个文本对的多个词语对分别计算每个词语对在所述相似文本对中的正向词频和在所述不相似文本对中的反向词频;第二计算单元,用于基于每个词语对的正向词频和反向词频,计算每个词语对的综合特征分值;排序单元,用于对所有词语对的综合特征分值进行排序,生成关键词集;生成单元,用于结合业务场景对所述关键词集进行筛选,生成目标关键词。
可选的,在本发明实施例第二方面的第一种实现方式中,构建单元具体用于:在原始语料库数据集中确定与原始问题语句的语义相似的问题,生成多个相似问题语句;将所述多个相似问题语句两两组合生成相似文本对;在所述原始语料库数据集中确定与原始问题语句的语义不相似的问题,生成多个不相似问题语句;将所述多个不相似问题语句两两组合生成不相似文本对;按照预置比例将第一预置数目的相似文本对和第二预置数目的不相似文本对进行融合,生成文本对数据集。
可选的,在本发明实施例第二方面的第二种实现方式中,分词单元包括:分词模块,用于在文本对数据集中,对每个文本对中的第一子文本和第二子文本分别进行分词操作,得到第一子文本的第一分词结果和第二子文本的第二分词结果;抽取模块,用于利用预置的模型算法从所述第一分词结果和所述第二分词结果中分别抽取一个候选词语,生成每个文本对的多个词语对。
可选的,在本发明实施例第二方面的第三种实现方式中,分词模块具体用于:在文本对数据集中随机选择一个文本对作为目标文本对;获取所述目标文本对中的第一子文本和第二子文本,并对第一子文本和第二子文本分别进行分词;生成所述第一子文本对应的第一分词结果和所述第二子文本对应的第二分词结果,所述第一分词结果包括第一子文本中的各个候选词,所述第二分词结果包括第二子文本中的各个候选词。
可选的,在本发明实施例第二方面的第四种实现方式中,抽取模块具体用于:利用预置的二元模型2-gram算法从每个文本对中第一子文本中选择一个候选词语,从第二子文本中选择另一个候选词语;将分别抽取得到的两个候选词语组成词语对,生成每个文本对的多个词语对。
可选的,在本发明实施例第二方面的第五种实现方式中,第一计算单元具体用于:在每个文本对的多个词语对中选择一个词语对为目标词语对;统计目标词语对分别在所述相似文本对中的出现次数x1和在所述不相似文本对中的出现次数x2;确定所述相似文本对中词语对总数N1,以及所述不相似文本对中词语对总数N2;生成所述目标词语对在相似文本对中的正向词频x1/N1,在所述不相似文本对中的反向词频x2/N2;依次生成每个词语对的正向词频和反向词频。
可选的,在本发明实施例第二方面的第六种实现方式中,排序单元具体用于:对所有词语对的综合特征分值按照从大到小的顺序进行排序;比较每个词语对的综合特征分值是否大于阈值;将综合特征分值大于阈值的词语对确定为候选词语对;将生成的所有候选词语对进行集合,生成关键词集。
本发明实施例的第三方面提供了一种基于文本对的关键词抽取设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一实施方式所述的基于文本对的关键词抽取方法。
本发明实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被处理器执行时实现上述任一实施方式所述的基于文本对的关键词抽取方法的步骤。
本发明实施例提供的技术方案中,获取原始问题语句,并基于原始问题语句生成原始语料库数据集,原始问题语句用于指示客服系统查找对应的问题答案;根据原始语料库数据集构建文本对数据集,文本对数据集包括相似文本对和不相似文本对;在文本对数据集中,对每个文本对中的两个子文本分别进行分词操作,并生成每个文本对所对应的多个词语对,每个词语对包括每个子文本中的一个候选词语;根据每个文本对的多个词语对分别计算每个词语对在相似文本对中的正向词频和在不相似文本对中的反向词频;基于每个词语对的正向词频和反向词频,计算每个词语对的综合特征分值;对所有词语对的综合特征分值进行排序,生成关键词集;结合业务场景对关键词集进行筛选,生成目标关键词。本发明实施例,通过构建相似文本对和不相似文本对,计算关键词分别在相似文本对和不相似文本对中的词频,提高了关键词的召回率,进而提高了每个关键词的综合分数,提高了关键词抽取的准确率。
附图说明
图1为本发明实施例中基于文本对的关键词抽取方法的一个实施例示意图;
图2为本发明实施例中基于文本对的关键词抽取方法的另一个实施例示意图;
图3为本发明实施例中基于文本对的关键词抽取装置的一个实施例示意图;
图4为本发明实施例中基于文本对的关键词抽取装置的另一个实施例示意图;
图5为本发明实施例中基于文本对的关键词抽取设备的一个实施例示意图。
具体实施方式
本发明提供了一种基于文本对的关键词抽取方法、装置、设备及存储介质,用于通过构建相似文本对和不相似文本对,计算关键词分别在相似文本对和不相似文本对中的词频,提高了关键词的召回率,提高了每个关键词的综合分数,提高了关键词抽取的准确率。
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例进行描述。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
请参阅图1,本发明实施例提供的基于文本对的关键词抽取方法的流程图,具体包括:
101、获取原始问题语句,并基于原始问题语句生成原始语料库数据集,原始问题语句用于指示客服系统查找对应的问题答案。
服务器获取原始问题语句,并基于该原始问题语句生成原始语料库数据集,该原始问题语句用于指示客服系统查找对应的问题答案。原始语料库数据集包括标准问题语句和相似问题语句。
需要说明的是,同样的一个问题,可能有不同的表达方式,例如,标准问题语句为:“岗前培训有哪些重点”,该语句的相似问题语句为:“岗前培训的重点内容”或“岗前培训的重点包括哪些?”。又例如,标准问题语句为:“肠胃炎投保”,该语句的相似问题语句为:“肠胃炎投保能投保吗”或“急性肠胃炎投保”或“急性肠胃炎可以买保险吗?”。
可以理解的是,本发明的执行主体可以为基于文本对的关键词抽取装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。
102、根据原始语料库数据集构建文本对数据集,文本对数据集包括相似文本对和不相似文本对。
服务器根据原始语料库数据集构建文本对数据集,文本对数据集包括相似文本对和不相似文本对,其中,相似文本对和不相似文本对为按照预置相似度标准进行确定得到的。
需要说明的是,原始语料库数据集(预置问答知识库)中一般已包含语义相似文本,若不包含可通过自动标注相似文本,对于不相似问题的采样抽取,针对不同的业务场景有不同的采样规则和采样数量,例如,采样规则一般可进行随机采样/分层采样/文本相似程度采样等,采样数量一般可根据相似文本对和不相似文本对的比例为1:1/1:2/1:3来进行采样。
例如,相似文本对数据集包括:
“平安福投保,我要购买平安福”、“平安福投保,我要投保平安福”、“我要购买平安福,我要投保平安福”、“癌症可否投保爱满分,癌症能否投保爱满分”。
假设按照正负样本1:1采样,不相似文本对数据集包括:
“平安福投保,癌症可否投保爱满分”、“我要购买平安福,癌症能否投保爱满分”、“我要投保平安福,癌症可否投保爱满分”、“癌症可否投保爱满分,我要购买平安福”。
103、在文本对数据集中,对每个文本对中的两个子文本分别进行分词操作,并生成每个文本对所对应的多个词语对,每个词语对包括每个子文本中的一个候选词语。
服务器在文本对数据集中,分别对每个文本对中的两个子文本进行分词操作,其中,每个子文本对应一个候选词集合,每个文本对对应两个个候选词集合,对于一个文本对而言,每次从不同的两个候选词集合中分别选择一个候选词,得到该文本对的一个词语对。
需要说明的是,候选词集合中包括多个候选词语,因此,每个文本对可以对应有多个词语对,每个词语对都不相同。
104、根据每个文本对的多个词语对分别计算每个词语对在相似文本对中的正向词频和在不相似文本对中的反向词频。
服务器根据每个文本对的多个词语对分别计算每个词语对在相似文本对中的正向词频和在不相似文本对中的反向词频。具体的,服务器先选择一个词语对,计算该词语对在相似文本对中的正向词频,同时计算该词语对在不相似文本对中的反向词频,然后计算其他词语对所对应的正向词频和反向词频。
其中,词频就是统计这个词语对到底出现了几次,例如,在相似对文本对中,总共抽取了5万个词语对,其中(岗前,培训)这个词语对出现了1000次,所以这个词语对的频数x1就是1000,N1=50000,进行归一化,统计这个词语对的正向词频,就是x1/N1=1000/50000=0.02,同理,不在相似文本对中,总共抽取10万个词语对,其中(岗前,培训)这个词语对只出现了10次,因此频数x2就是10,N2=100000,反向词频是x2/N2=10/100000=0.0001。
105、基于每个词语对的正向词频和反向词频,计算每个词语对的综合特征分值。
服务器基于每个词语对的正向词频和反向词频,计算每个词语对的综合特征分值。具体的,服务器基于每个词语对的正向词频、反向词频和预置计算公式,计算每个词语对的综合特征分值score,其中,预置计算公式具体为score=freq_positve/freq_negative=(x/N1)/(x2/N2)。该词语对在相似文本对中的频率越高,该词语对的关键程度越高;该词语对在不相似文本对中的频率越低,该词语对的关键程度越高,score越高。
例如,对于词语对(买保险,投保)而言,这两个词语义是相同的,因此在相似文本对中出现的频率比较高,即正向词频(freq_positve)较大,但是在不相似文本对中出现的频率是较低的,即反向词频(freq_negative)较小,因此整体score较大,这个词语对极有可能是关键词。又例如,对于词语对(吧,吗)而言,这两个词语属于停顿词,口水词,在相似文本对中出现的频率比较高,即freq_positve较大,在不相似文本对中出现的频率也很高,即freq_negative较大,因此整体score较小,这个词语对不太可能是关键词。又例如,对于词语对(投保,培训)而言,这两个词语毫无关联,在相似文本对中出现的频率比较低,即freq_positve较小,在不相似文本对中出现的频率中等,即freq_negative一般,但整体score也可能偏小,这个词语对不太可能是关键词。例如,上文说的(岗前,培训)的正向词频freq_positve是0.02,反向词频freq_negative是0.0001,则综合特征分值是0.02/0.0001=200。
需要说明的是,预置计算公式还可以是其他形式,例如,预置计算公式可以为:score=freq_positve-freq_negative;预置计算公式或者为:score=w1*freq_positve+w2*(1-freq_negative),还可以是其他形式,此处不做限定。
106、对所有词语对的综合特征分值进行排序,生成关键词集。
服务器对所有词语对的综合特征分值按照从大到小的顺序进行排序;服务器比较每个词语对的综合特征分值是否大于阈值;服务器将综合特征分值大于阈值的词语对确定为候选词语对;服务器将生成的所有候选词语对进行集合,生成关键词集。
107、结合业务场景对所述关键词集进行筛选,生成目标关键词。
服务器结合业务场景对所述关键词集进行筛选,生成目标关键词。
需要说明的是,不同的业务场景,需要的关键词也不同,例如,对于车险投保场景,关键词可以是:车型、汽车品牌、保险额度等,对于医疗保险投保场景,关键词可以是:病史、诊断报告、健康状况等,具体此处不做限定。
本发明实施例,通过构建相似文本对和不相似文本对,计算关键词分别在相似文本对和不相似文本对中的词频,提高了关键词的召回率,提高了每个关键词的综合分数,提高了关键词抽取的准确率。
请参阅图2,本发明实施例提供的基于文本对的关键词抽取方法的另一个流程图,具体包括:
201、获取原始问题语句,并基于原始问题语句生成原始语料库数据集,原始问题语句用于指示客服系统查找对应的问题答案。
服务器获取原始问题语句,并基于该原始问题语句生成原始语料库数据集,该原始问题语句用于指示客服系统查找对应的问题答案。原始语料库数据集包括标准问题语句和相似问题语句。
需要说明的是,同样的一个问题,可能有不同的表达方式,例如,标准问题语句为:“岗前培训有哪些重点”,该语句的相似问题语句为:“岗前培训的重点内容”或“岗前培训的重点包括哪些?”。又例如,标准问题语句为:“肠胃炎投保”,该语句的相似问题语句为:“肠胃炎投保能投保吗”或“急性肠胃炎投保”或“急性肠胃炎可以买保险吗?”。
可以理解的是,本发明的执行主体可以为基于文本对的关键词抽取装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。
202、根据原始语料库数据集构建文本对数据集,文本对数据集包括相似文本对和不相似文本对。
具体的,(1)服务器在原始语料库数据集中确定与原始问题语句的语义相似的问题,生成多个相似问题语句。
(2)服务器将多个相似问题语句两两组合生成相似文本对。
例如,在原始语料库数据集里面,语义相似的问题数据有两种,一种是标准问题语句,一种是相似问题语句,相似问题语句是对标准问题语句的扩展,一般是有多个,而标准问题语句却是唯一的。例如,对于原始问题语句“患肠胃炎投保”而言,相似问题语句包括“肠胃炎能投保吗?”、“急性胃肠炎”、“急性肠胃炎投保”等,标准问题语句为“胃肠炎投保”。在相似问题语句和标准问题语句中选择任意两个相似问题语句作为相似文本对。可以得到,相似文本对:“肠胃炎投保,肠胃炎能投保吗?”、相似文本对:“肠胃炎投保,患胃肠炎投保”。
(3)服务器在原始语料库数据集中确定与原始问题语句的语义不相似的问题,生成多个不相似问题语句。
(4)服务器将多个不相似问题语句两两组合生成不相似文本对。
又例如,在原始语料库数据集里面,语义相似的问题数据有两种,一种是标准问题语句,一种是相似问题语句,相似问题语句是对标准问题语句的扩展,一般是有多个,而标准问题语句却是唯一的(如果存在多条语义相同的标准问,理论上是可以合并的)。因此选择不相同的标准问题语句作为不相似文本。例如,对于原始问题语句“患肠胃炎投保”而言,相似问题语句包括“肠胃炎能投保吗?”、“急性胃肠炎”和“胃肠炎”等,标准问题语句包括“胃肠炎投保”。语义不相似的标准问题包括“岗前培训有哪些重点”,“意外险的保险额度是多少”,选择任意两个标准问题语句作为不相似文本对,得到,不相似文本对:“肠胃炎投保,岗前培训有哪些重点?”。
需要说明的是,若数据噪声比较大,可以先用BM25算法计算两个文本的相似度,再根据阈值来判断是否可以作为不相似文本。
(5)服务器按照预置比例将第一预置数目的相似文本对和第二预置数目的不相似文本对进行融合,生成文本对数据集。
203、在文本对数据集中,对每个文本对中的第一子文本和第二子文本分别进行分词操作,得到第一子文本的第一分词结果和第二子文本的第二分词结果。
具体的,服务器在文本对数据集中随机选择一个文本对作为目标文本对;服务器获取目标文本对中的第一子文本和第二子文本,并对第一子文本和第二子文本分别进行分词;服务器生成第一子文本对应的第一分词结果和第二子文本对应的第二分词结果,第一分词结果包括第一子文本中的各个候选词,第二分词结果包括第二子文本中的各个候选词。
例如,选择的文本对为相似文本对,具体内容为“岗前培训有哪些重点岗前培训的重点内容”,第一子文本为“岗前培训有哪些重点”,第二子文本为“岗前培训的重点内容”,那么对该文本分词结果如下:
“岗前,培训,有,哪些,重点,?”
“岗前,培训,的,重点,内容,?”
204、利用预置的模型算法从第一分词结果和第二分词结果中分别抽取一个候选词语,生成每个文本对的多个词语对。
具体的,服务器利用预置的二元模型2-gram算法从每个文本对中第一子文本中选择一个候选词语,从第二子文本中选择另一个候选词语;服务器将分别抽取得到的两个候选词语组成词语对,生成每个文本对的多个词语对。
例如,对于“岗前,培训,有,哪些,重点,?”而言,基于2-gram抽取词语对,依次将第一个句子的词结合第二个句子的词组成的词语对,则抽取结果为:(岗前,岗前),(岗前,培训),(岗前,的),(岗前,重点),(岗前,内容),(培训,岗前),(培训,培训),(培训,的),(培训,重点),(培训,内容),…,(岗前培训,岗前),(岗前,岗前培训)等。2-gram指的是在分词的基础上,任意相邻的两个词也组成新的词进行配对。
205、根据每个文本对的多个词语对分别计算每个词语对在相似文本对中的正向词频和在不相似文本对中的反向词频。
206、基于每个词语对的正向词频和反向词频,计算每个词语对的综合特征分值。
207、对所有词语对的综合特征分值进行排序,生成关键词集。
208、结合业务场景对所述关键词集进行筛选,生成目标关键词。
步骤205-208与步骤104-107类似,具体此处不再赘述。
本发明实施例,通过构建相似文本对和不相似文本对,计算关键词分别在相似文本对和不相似文本对中的词频,提高了关键词的召回率,提高了每个关键词的综合分数,提高了关键词抽取的准确率。
上面对本发明实施例中基于文本对的关键词抽取方法进行了描述,下面对本发明实施例中基于文本对的关键词抽取装置进行描述,请参阅图3,本发明实施例中基于文本对的关键词抽取装置的一个实施例包括:
获取单元301,用于获取原始问题语句,并基于所述原始问题语句生成原始语料库数据集,所述原始问题语句用于指示客服系统查找对应的问题答案;
构建单元302,用于根据所述原始语料库数据集构建文本对数据集,所述文本对数据集包括相似文本对和不相似文本对;
分词单元303,用于在所述文本对数据集中,对每个文本对中的两个子文本分别进行分词操作,并生成每个文本对所对应的多个词语对,每个词语对包括每个子文本中的一个候选词语;
第一计算单元304,用于根据每个文本对的多个词语对分别计算每个词语对在所述相似文本对中的正向词频和在所述不相似文本对中的反向词频;
第二计算单元305,用于基于每个词语对的正向词频和反向词频,计算每个词语对的综合特征分值;
排序单元306,用于对所有词语对的综合特征分值进行排序,生成关键词集;
生成单元307,用于结合业务场景对所述关键词集进行筛选,生成目标关键词。
本发明实施例,通过构建相似文本对和不相似文本对,计算关键词分别在相似文本对和不相似文本对中的词频,提高了关键词的召回率,提高了每个关键词的综合分数,提高了关键词抽取的准确率。
请参阅图4,本发明实施例中基于文本对的关键词抽取装置的另一个实施例包括:
获取单元301,用于获取原始问题语句,并基于所述原始问题语句生成原始语料库数据集,所述原始问题语句用于指示客服系统查找对应的问题答案;
构建单元302,用于根据所述原始语料库数据集构建文本对数据集,所述文本对数据集包括相似文本对和不相似文本对;
分词单元303,用于在所述文本对数据集中,对每个文本对中的两个子文本分别进行分词操作,并生成每个文本对所对应的多个词语对,每个词语对包括每个子文本中的一个候选词语;
第一计算单元304,用于根据每个文本对的多个词语对分别计算每个词语对在所述相似文本对中的正向词频和在所述不相似文本对中的反向词频;
第二计算单元305,用于基于每个词语对的正向词频和反向词频,计算每个词语对的综合特征分值;
排序单元306,用于对所有词语对的综合特征分值进行排序,生成关键词集;
生成单元307,用于结合业务场景对所述关键词集进行筛选,生成目标关键词。
可选的,构建单元302具体用于:
在原始语料库数据集中确定与原始问题语句的语义相似的问题,生成多个相似问题语句;将所述多个相似问题语句两两组合生成相似文本对;在所述原始语料库数据集中确定与原始问题语句的语义不相似的问题,生成多个不相似问题语句;将所述多个不相似问题语句两两组合生成不相似文本对;按照预置比例将第一预置数目的相似文本对和第二预置数目的不相似文本对进行融合,生成文本对数据集。
可选的,分词单元303包括:
分词模块3031,用于在文本对数据集中,对每个文本对中的第一子文本和第二子文本分别进行分词操作,得到第一子文本的第一分词结果和第二子文本的第二分词结果;
抽取模块3032,用于利用预置的模型算法从所述第一分词结果和所述第二分词结果中分别抽取一个候选词语,生成每个文本对的多个词语对。
可选的,分词模块3031具体用于:
在文本对数据集中随机选择一个文本对作为目标文本对;获取所述目标文本对中的第一子文本和第二子文本,并对第一子文本和第二子文本分别进行分词;生成所述第一子文本对应的第一分词结果和所述第二子文本对应的第二分词结果,所述第一分词结果包括第一子文本中的各个候选词,所述第二分词结果包括第二子文本中的各个候选词。
可选的,抽取模块3032具体用于:
利用预置的二元模型2-gram算法从每个文本对中第一子文本中选择一个候选词语,从第二子文本中选择另一个候选词语;将分别抽取得到的两个候选词语组成词语对,生成每个文本对的多个词语对。
可选的,第一计算单元304具体用于:
在每个文本对的多个词语对中选择一个词语对为目标词语对;统计目标词语对分别在所述相似文本对中的出现次数x1和在所述不相似文本对中的出现次数x2;确定所述相似文本对中词语对总数N1,以及所述不相似文本对中词语对总数N2;生成所述目标词语对在相似文本对中的正向词频x1/N1,在所述不相似文本对中的反向词频x2/N2;依次生成每个词语对的正向词频和反向词频。
可选的,排序单元306具体用于:
对所有词语对的综合特征分值按照从大到小的顺序进行排序;比较每个词语对的综合特征分值是否大于阈值;将综合特征分值大于阈值的词语对确定为候选词语对;将生成的所有候选词语对进行集合,生成关键词集。
本发明实施例提供的技术方案中,获取原始问题语句,并基于原始问题语句生成原始语料库数据集,原始问题语句用于指示客服系统查找对应的问题答案;根据原始语料库数据集构建文本对数据集,文本对数据集包括相似文本对和不相似文本对;在文本对数据集中,对每个文本对中的第一子文本和第二子文本分别进行分词操作,得到第一子文本的第一分词结果和第二子文本的第二分词结果;利用预置的模型算法从第一分词结果和第二分词结果中分别抽取一个候选词语,生成每个文本对的多个词语对;根据每个文本对的多个词语对分别计算每个词语对在相似文本对中的正向词频和在不相似文本对中的反向词频;基于每个词语对的正向词频和反向词频,计算每个词语对的综合特征分值;对所有词语对的综合特征分值进行排序,生成关键词集;结合业务场景对关键词集进行筛选,生成目标关键词。本发明实施例,通过构建相似文本对和不相似文本对,计算关键词分别在相似文本对和不相似文本对中的词频,提高了关键词的召回率,提高了每个关键词的综合分数,提高了关键词抽取的准确率。
上面图3至图4从模块化功能实体的角度对本发明实施例中的基于文本对的关键词抽取装置进行详细描述,下面从硬件处理的角度对本发明实施例中基于文本对的关键词抽取设备进行详细描述。
图5是本发明实施例提供的一种基于文本对的关键词抽取设备的结构示意图,该基于文本对的关键词抽取设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)501(例如,一个或一个以上处理器)和存储器509,一个或一个以上存储应用程序507或数据506的存储介质508(例如一个或一个以上海量存储设备)。其中,存储器509和存储介质508可以是短暂存储或持久存储。存储在存储介质508的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对基于文本对的关键词抽取设备中的一系列指令操作。更进一步地,处理器501可以设置为与存储介质508通信,在基于文本对的关键词抽取设备500上执行存储介质508中的一系列指令操作。
基于文本对的关键词抽取设备500还可以包括一个或一个以上电源502,一个或一个以上有线或无线网络接口503,一个或一个以上输入输出接口504,和/或,一个或一个以上操作系统505,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图5中示出的基于文本对的关键词抽取设备结构并不构成对基于文本对的关键词抽取设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。处理器501可以执行上述实施例中获取单元301、构建单元302、分词单元303、第一计算单元304、第二计算单元305、排序单元306和生成单元307的功能。
下面结合图5对基于文本对的关键词抽取设备的各个构成部件进行具体的介绍:
处理器501是基于文本对的关键词抽取设备的控制中心,可以按照设置的基于文本对的关键词抽取方法进行处理。处理器501利用各种接口和线路连接整个基于文本对的关键词抽取设备的各个部分,通过运行或执行存储在存储器509内的软件程序和/或模块,以及调用存储在存储器509内的数据,执行基于文本对的关键词抽取设备的各种功能和处理数据,从而提高了关键词的召回率,提高了每个关键词的综合分数,提高了关键词抽取的准确率。存储介质508和存储器509都是存储数据的载体,本发明实施例中,存储介质508可以是指储存容量较小,但速度快的内存储器,而存储器509可以是储存容量大,但储存速度慢的外存储器。
存储器509可用于存储软件程序以及模块,处理器501通过运行存储在存储器509的软件程序以及模块,从而执行基于文本对的关键词抽取设备500的各种功能应用以及数据处理。存储器509可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如根据原始语料库数据集构建文本对数据集,文本对数据集包括相似文本对和不相似文本对)等;存储数据区可存储根据基于文本对的关键词抽取设备的使用所创建的数据(比如关键词集或目标关键词等)等。此外,存储器509可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在本发明实施例中提供的基于文本对的关键词抽取方法程序和接收到的数据流存储在存储器中,当需要使用时,处理器501从存储器509中调用。
在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、双绞线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,光盘)、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于文本对的关键词抽取方法,其特征在于,包括:
获取原始问题语句,并基于所述原始问题语句生成原始语料库数据集,所述原始问题语句用于指示客服系统查找对应的问题答案;
根据所述原始语料库数据集构建文本对数据集,所述文本对数据集包括相似文本对和不相似文本对;
在所述文本对数据集中,对每个文本对中的两个子文本分别进行分词操作,并生成每个文本对所对应的多个词语对,每个词语对包括每个子文本中的一个候选词语;
根据每个文本对的多个词语对分别计算每个词语对在所述相似文本对中的正向词频和在所述不相似文本对中的反向词频;
基于每个词语对的正向词频和反向词频,计算每个词语对的综合特征分值;
对所有词语对的综合特征分值进行排序,生成关键词集;
结合业务场景对所述关键词集进行筛选,生成目标关键词。
2.根据权利要求1所述的基于文本对的关键词抽取方法,其特征在于,所述根据所述原始语料库数据集构建文本对数据集,所述文本对数据集包括相似文本对和不相似文本对,包括:
在原始语料库数据集中确定与原始问题语句的语义相似的问题,生成多个相似问题语句;
将所述多个相似问题语句两两组合生成相似文本对;
在所述原始语料库数据集中确定与原始问题语句的语义不相似的问题,生成多个不相似问题语句;
将所述多个不相似问题语句两两组合生成不相似文本对;
按照预置比例将第一预置数目的相似文本对和第二预置数目的不相似文本对进行融合,生成文本对数据集。
3.根据权利要求1所述的基于文本对的关键词抽取方法,其特征在于,所述在所述文本对数据集中,对每个文本对中的两个子文本分别进行分词操作,并生成每个文本对所对应的多个词语对,每个词语对包括每个子文本中的一个候选词语,包括:
在文本对数据集中,对每个文本对中的第一子文本和第二子文本分别进行分词操作,得到第一子文本的第一分词结果和第二子文本的第二分词结果;
利用预置的模型算法从所述第一分词结果和所述第二分词结果中分别抽取一个候选词语,生成每个文本对的多个词语对。
4.根据权利要求3所述的基于文本对的关键词抽取方法,其特征在于,所述在文本对数据集中,对每个文本对中的第一子文本和第二子文本分别进行分词操作,得到第一子文本的第一分词结果和第二子文本的第二分词结果,包括:
在文本对数据集中随机选择一个文本对作为目标文本对;
获取所述目标文本对中的第一子文本和第二子文本,并对第一子文本和第二子文本分别进行分词;
生成所述第一子文本对应的第一分词结果和所述第二子文本对应的第二分词结果,所述第一分词结果包括第一子文本中的各个候选词,所述第二分词结果包括第二子文本中的各个候选词。
5.根据权利要求3所述的基于文本对的关键词抽取方法,其特征在于,所述利用预置的模型算法从所述第一分词结果和所述第二分词结果中分别抽取一个候选词语,生成每个文本对的多个词语对,包括:
利用预置的二元模型2-gram算法从每个文本对中第一子文本中选择一个候选词语,从第二子文本中选择另一个候选词语;
将分别抽取得到的两个候选词语组成词语对,生成每个文本对的多个词语对。
6.根据权利要求1所述的基于文本对的关键词抽取方法,其特征在于,所述根据每个文本对的多个词语对分别计算每个词语对在所述相似文本对中的正向词频和在所述不相似文本对中的反向词频,包括:
在每个文本对的多个词语对中选择一个词语对为目标词语对;
统计目标词语对分别在所述相似文本对中的出现次数x1和在所述不相似文本对中的出现次数x2;
确定所述相似文本对中词语对总数N1,以及所述不相似文本对中词语对总数N2;
生成所述目标词语对在相似文本对中的正向词频x1/N1,在所述不相似文本对中的反向词频x2/N2;
依次生成每个词语对的正向词频和反向词频。
7.根据权利要求1-6中任一项所述的基于文本对的关键词抽取方法,其特征在于,所述对所有词语对的综合特征分值进行排序,生成关键词集,包括:
对所有词语对的综合特征分值按照从大到小的顺序进行排序;
比较每个词语对的综合特征分值是否大于阈值;
将综合特征分值大于阈值的词语对确定为候选词语对;
将生成的所有候选词语对进行集合,生成关键词集。
8.一种基于文本对的关键词抽取装置,其特征在于,包括:
获取单元,用于获取原始问题语句,并基于所述原始问题语句生成原始语料库数据集,所述原始问题语句用于指示客服系统查找对应的问题答案;
构建单元,用于根据所述原始语料库数据集构建文本对数据集,所述文本对数据集包括相似文本对和不相似文本对;
分词单元,用于在所述文本对数据集中,对每个文本对中的两个子文本分别进行分词操作,并生成每个文本对所对应的多个词语对,每个词语对包括每个子文本中的一个候选词语;
第一计算单元,用于根据每个文本对的多个词语对分别计算每个词语对在所述相似文本对中的正向词频和在所述不相似文本对中的反向词频;
第二计算单元,用于基于每个词语对的正向词频和反向词频,计算每个词语对的综合特征分值;
排序单元,用于对所有词语对的综合特征分值进行排序,生成关键词集;
生成单元,用于结合业务场景对所述关键词集进行筛选,生成目标关键词。
9.一种基于文本对的关键词抽取设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-7中任意一项所述的基于文本对的关键词抽取方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被处理器执行时实现如权利要求1-7中任意一项所述的基于文本对的关键词抽取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010042447.0A CN111259660A (zh) | 2020-01-15 | 2020-01-15 | 基于文本对的关键词抽取方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010042447.0A CN111259660A (zh) | 2020-01-15 | 2020-01-15 | 基于文本对的关键词抽取方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111259660A true CN111259660A (zh) | 2020-06-09 |
Family
ID=70950442
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010042447.0A Pending CN111259660A (zh) | 2020-01-15 | 2020-01-15 | 基于文本对的关键词抽取方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111259660A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111753516A (zh) * | 2020-06-29 | 2020-10-09 | 平安国际智慧城市科技股份有限公司 | 文本查重处理方法、装置、计算机设备及计算机存储介质 |
CN112214578A (zh) * | 2020-10-09 | 2021-01-12 | 中国平安人寿保险股份有限公司 | 话术生成方法、装置、电子设备及存储介质 |
CN113221533A (zh) * | 2021-04-29 | 2021-08-06 | 支付宝(杭州)信息技术有限公司 | 一种针对体验声音的标签提取方法、装置以及设备 |
CN113836916A (zh) * | 2021-09-28 | 2021-12-24 | 多点生活(成都)科技有限公司 | 物品品牌方的确定方法、装置及服务器 |
CN113990288A (zh) * | 2021-12-23 | 2022-01-28 | 江苏微皓智能科技有限公司 | 一种语音客服自动生成部署语音合成模型的方法及系统 |
CN114254090A (zh) * | 2021-12-08 | 2022-03-29 | 马上消费金融股份有限公司 | 问答知识库的扩充方法及装置 |
CN116167352A (zh) * | 2023-04-03 | 2023-05-26 | 联仁健康医疗大数据科技股份有限公司 | 数据处理方法、装置、电子设备及存储介质 |
CN116842180A (zh) * | 2023-08-30 | 2023-10-03 | 中电科大数据研究院有限公司 | 公文所属产业识别方法及装置 |
-
2020
- 2020-01-15 CN CN202010042447.0A patent/CN111259660A/zh active Pending
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111753516A (zh) * | 2020-06-29 | 2020-10-09 | 平安国际智慧城市科技股份有限公司 | 文本查重处理方法、装置、计算机设备及计算机存储介质 |
CN111753516B (zh) * | 2020-06-29 | 2024-04-16 | 平安国际智慧城市科技股份有限公司 | 文本查重处理方法、装置、计算机设备及计算机存储介质 |
CN112214578A (zh) * | 2020-10-09 | 2021-01-12 | 中国平安人寿保险股份有限公司 | 话术生成方法、装置、电子设备及存储介质 |
CN113221533A (zh) * | 2021-04-29 | 2021-08-06 | 支付宝(杭州)信息技术有限公司 | 一种针对体验声音的标签提取方法、装置以及设备 |
CN113221533B (zh) * | 2021-04-29 | 2024-07-05 | 支付宝(杭州)信息技术有限公司 | 一种针对体验声音的标签提取方法、装置以及设备 |
CN113836916B (zh) * | 2021-09-28 | 2023-06-20 | 多点生活(成都)科技有限公司 | 物品品牌方的确定方法、装置及服务器 |
CN113836916A (zh) * | 2021-09-28 | 2021-12-24 | 多点生活(成都)科技有限公司 | 物品品牌方的确定方法、装置及服务器 |
CN114254090A (zh) * | 2021-12-08 | 2022-03-29 | 马上消费金融股份有限公司 | 问答知识库的扩充方法及装置 |
CN113990288B (zh) * | 2021-12-23 | 2022-05-10 | 江苏微皓智能科技有限公司 | 一种语音客服自动生成部署语音合成模型的方法 |
CN113990288A (zh) * | 2021-12-23 | 2022-01-28 | 江苏微皓智能科技有限公司 | 一种语音客服自动生成部署语音合成模型的方法及系统 |
CN116167352B (zh) * | 2023-04-03 | 2023-07-21 | 联仁健康医疗大数据科技股份有限公司 | 数据处理方法、装置、电子设备及存储介质 |
CN116167352A (zh) * | 2023-04-03 | 2023-05-26 | 联仁健康医疗大数据科技股份有限公司 | 数据处理方法、装置、电子设备及存储介质 |
CN116842180A (zh) * | 2023-08-30 | 2023-10-03 | 中电科大数据研究院有限公司 | 公文所属产业识别方法及装置 |
CN116842180B (zh) * | 2023-08-30 | 2023-12-19 | 中电科大数据研究院有限公司 | 公文所属产业识别方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111259660A (zh) | 基于文本对的关键词抽取方法、装置、设备及存储介质 | |
US11537820B2 (en) | Method and system for generating and correcting classification models | |
US10437867B2 (en) | Scenario generating apparatus and computer program therefor | |
Kågebäck et al. | Extractive summarization using continuous vector space models | |
US9558264B2 (en) | Identifying and displaying relationships between candidate answers | |
KR102256240B1 (ko) | 논팩토이드형 질의 응답 시스템 및 방법 | |
US10095685B2 (en) | Phrase pair collecting apparatus and computer program therefor | |
CN109299280B (zh) | 短文本聚类分析方法、装置和终端设备 | |
US9183285B1 (en) | Data clustering system and methods | |
US20160224662A1 (en) | Systems and methods for keyword determination and document classification from unstructured text | |
CN111797226A (zh) | 会议纪要的生成方法、装置、电子设备以及可读存储介质 | |
Mills et al. | Graph-based methods for natural language processing and understanding—A survey and analysis | |
US10430717B2 (en) | Complex predicate template collecting apparatus and computer program therefor | |
CN111309916B (zh) | 摘要抽取方法和装置、存储介质和电子装置 | |
CN110297893A (zh) | 自然语言问答方法、装置、计算机装置及存储介质 | |
García et al. | Efficient n-gram construction for text categorization using feature selection techniques | |
Ilievski et al. | Commonsense knowledge in wikidata | |
EP3499386A1 (en) | Apparatus, program, and method for storing and processing graph data | |
CN106649732B (zh) | 一种信息推送方法及装置 | |
CN111401039A (zh) | 基于二元互信息的词语检索方法、装置、设备及存储介质 | |
Rousseau | Graph-of-words: mining and retrieving text with networks of features | |
Rodrigues et al. | Mining online product reviews and extracting product features using unsupervised method | |
Hajlaoui et al. | Enhancing patent expertise through automatic matching with scientific papers | |
Bar et al. | Automatic metaphor interpretation using word embeddings | |
Van Landeghem et al. | HIGH‐PRECISION BIO‐MOLECULAR EVENT EXTRACTION FROM TEXT USING PARALLEL BINARY CLASSIFIERS |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |