CN112100327B - 一种基于综合特征提取的对话摘要生成方法及系统 - Google Patents

一种基于综合特征提取的对话摘要生成方法及系统 Download PDF

Info

Publication number
CN112100327B
CN112100327B CN202010896670.1A CN202010896670A CN112100327B CN 112100327 B CN112100327 B CN 112100327B CN 202010896670 A CN202010896670 A CN 202010896670A CN 112100327 B CN112100327 B CN 112100327B
Authority
CN
China
Prior art keywords
word
keyword
feature
abstract
dialog
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010896670.1A
Other languages
English (en)
Other versions
CN112100327A (zh
Inventor
宋晓
韩道麟
周军华
魏宏夔
姬杭
施国强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Beijing Institute of Electronic System Engineering
Original Assignee
Beihang University
Beijing Institute of Electronic System Engineering
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University, Beijing Institute of Electronic System Engineering filed Critical Beihang University
Priority to CN202010896670.1A priority Critical patent/CN112100327B/zh
Publication of CN112100327A publication Critical patent/CN112100327A/zh
Application granted granted Critical
Publication of CN112100327B publication Critical patent/CN112100327B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种基于综合特征提取的对话摘要生成方法,涉及信息处理技术领域,包括:获取对话数据;对所述对话数据进行词性标注和命名实体识别,得到候选词;对所述对话数据利用数理统计法进行特征提取,得到词特征;将所述词特征进行拼接得到特征向量;根据所述特征向量和所述候选词利用无监督算法得到第一关键词;根据所述特征向量和所述候选词利用有监督算法得到第二关键词;根据所述第一关键词和所述第二关键词生成对话摘要。本发明提供的方法及系统能够提高复杂对话场景的对话摘要的生成质量。

Description

一种基于综合特征提取的对话摘要生成方法及系统
技术领域
本发明涉及信息处理技术领域,特别是涉及一种基于综合特征提取的对话摘要生成方法及系统。
背景技术
目前对于自动摘要问题,研究者主要采用机器学习、深度学习和特征工程的方法。有研究学者采用频率、情绪、语义单方面特征,使用SVM和决策树提取对话摘要,实验证明在聊天摘要任务中决策树优于SVM;一些学者提出了一种Pointer-Generator网络以解决摘要问题;还有学者提出了一种基于RNN的SummaRuNNer网络模型以解决文档摘要问题;另有学者提出了一种基于对话行为选择的Sentence-Gated模型;此外,某些研究机构基于辅助要点序列提出了一种Leader-Writer网络解决摘要生成问题,可以让客服对话摘要的生成更具有完整性、逻辑性与正确性。近年来的研究主要集中于深度学习的方法,取得了较好的成果,但是相较于经典的机器学习方法(比如K近邻、决策树等),深度学习方法的训练、测试复杂度更高,对于数据复杂度高的情况,对话摘要的生成质量不够理想。
发明内容
本发明的目的是提供一种基于综合特征提取的对话摘要生成方法及系统,以提高复杂对话场景的对话摘要的生成质量。
为实现上述目的,本发明提供了如下方案:
一种基于综合特征提取的对话摘要生成方法,包括:
获取对话数据;
对所述对话数据进行词性标注和命名实体识别,得到候选词;
对所述对话数据利用数理统计法进行特征提取,得到词特征;
将所述词特征进行拼接得到特征向量;
根据所述特征向量和所述候选词利用无监督算法得到第一关键词;
根据所述特征向量和所述候选词利用有监督算法得到第二关键词;
根据所述第一关键词和所述第二关键词生成对话摘要。
可选的,所述将所述词特征进行拼接得到特征向量,具体包括:
根据所述词特征利用如下公式进行拼接得到特征向量;
vi=[x1,x2,...,xj]
其中,vi为词i的特征向量,x1~xj表示词特征;j表示第j个词特征。
可选的,所述根据所述特征向量和所述候选词利用无监督算法得到第一关键词,具体包括:
根据所述特征向量利用如下公式确定词的分数;
Figure BDA0002658612480000021
其中,xi,j为词i的特征向量中的第j个特征,xmin,j为所有词中第j个特征的最小值,xmax,j为所有词中第j个特征的最大值,k为词特征的个数,Si为词i无监督算法取得的分数;
将分数在第一设定阈值范围内对应的词确定为第一关键词。
可选的,所述根据所述特征向量和所述候选词利用有监督算法得到第二关键词,具体包括:
采用C4.5决策树算法对特征向量进行有监督学习,得到特征向量的得分;
将特征向量的得分在第二设定阈值范围内对应的词确定为第二关键词。
可选的,所述根据所述第一关键词和所述第二关键词生成对话摘要,具体包括:
根据所述第一关键词生成第一摘要;
根据所述第二关键词生成第二摘要;
根据ROUGE指标分别计算所述第一摘要和所述第二摘要的得分;
将得分高的摘要确定为最终对话摘要。
可选的,所述根据ROUGE指标分别计算所述第一摘要和所述第二摘要的得分,具体包括:
利用如下公式计算所述第一摘要的得分,
Figure BDA0002658612480000031
Figure BDA0002658612480000032
Figure BDA0002658612480000033
其中,S1为第一摘要,ref1为第一数据集的标签集,cand1为第一摘要候选词集合,(n-gram)1为第一摘要选取的词长度,Countmatch1为计算第一摘要中的(n-gram)1出现在第一数据集的标签集中的数量的函数,CountClip1为计算第一摘要中的(n-gram)1出现在第一摘要候选词集合中的数量的函数,F1为第一摘要的ROUGE指标的最终得分,P1n为第一摘要ROUGE指标的准确率,R1n为第一摘要ROUGE指标的召回率,Count1为计算第一摘要中的(n-gram)1出现的数量的函数;
利用如下公式计算所述第二摘要的得分,
Figure BDA0002658612480000034
Figure BDA0002658612480000035
Figure BDA0002658612480000036
其中,S2为第二摘要,ref2为第二数据集的标签集,cand2为第二摘要候选词集合,(n-gram)2为第二摘要选取的词长度,Countmatch2为计算第二摘要中的(n-gram)2出现在第二数据集的标签集中的数量的函数,CountClip2为计算第二摘要中的(n-gram)2出现在第二摘要候选词集合中的数量的函数,F2为第二摘要的ROUGE指标的最终得分,P1n为第二摘要ROUGE指标的准确率,R2n为第二摘要ROUGE指标的召回率,Count2为计算第二摘要中的(n-gram)2出现的数量的函数。
一种基于综合特征提取的对话摘要生成系统,包括:
数据获取模块,用于获取对话数据;
候选词获取模块,用于对所述对话数据进行词性标注和命名实体识别,得到候选词;
特征提取模块,用于对所述对话数据利用数理统计法进行特征提取,得到词特征;
拼接模块,用于将所述词特征进行拼接得到特征向量;
第一关键词获取模块,用于根据所述特征向量和所述候选词利用无监督算法得到第一关键词;
第二关键词获取模块,用于根据所述特征向量和所述候选词利用有监督算法得到第二关键词;
对话摘要生成模块,用于根据所述第一关键词和所述第二关键词生成对话摘要。
可选的,所述第一关键词获取模块,具体包括:
第一关键词分数确定单元,用于根据所述特征向量利用如下公式确定词的分数;
Figure BDA0002658612480000041
其中,xi,j为词i的特征向量中的第j个特征,xmin,j为所有词中第j个特征的最小值,xmax,j为所有词中第j个特征的最大值,k为词特征的个数,Si为词i无监督算法取得的分数;
第一关键词确定单元,用于将分数在第一设定阈值范围内对应的词确定为第一关键词。
可选的,所述第二关键词获取模块,具体包括:
第二关键词得分确定单元,用于采用C4.5决策树算法对特征向量进行有监督学习,得到特征向量的得分;
第二关键词确定单元,用于将特征向量的得分在第二设定阈值范围内对应的词确定为第二关键词。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提供一种基于综合特征提取的对话摘要生成方法及系统,对话摘要生成方法采用有监督算法和无监督算法进行关键词提取,算法的复杂度较低,对复杂对话场景时的适应性更高。通过将词特征拼接得到特征向量,再通过有监督算法和无监督算法进行关键词提取,从而生成对话摘要,提高了生成对话摘要的质量。并且对话摘要生成方法的运行速度快,具有更好的实时性,更适用于在线应用。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一种基于综合特征提取的对话摘要生成方法流程图;
图2为本发明一种基于综合特征提取的对话摘要生成方法流程示意图;
图3为本发明一种基于综合特征提取的对话摘要生成系统结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于综合特征提取的对话摘要生成方法及系统,以提高复杂对话场景的对话摘要的生成质量。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明提供的一种基于综合特征提取的对话摘要生成方法,包括:
步骤101:获取对话数据。
步骤102:对对话数据进行词性标注和命名实体识别,得到候选词。
步骤103:对对话数据利用数理统计法进行特征提取,得到词特征。
步骤104:将词特征进行拼接得到特征向量。
步骤104,具体包括:
根据词特征利用如下公式进行拼接得到特征向量,
vi=[x1,x2,...,xj]
其中,vi为词i的特征向量,x1~xj表示词特征;j表示第j个词特征。
步骤105:根据特征向量和候选词利用无监督算法得到第一关键词。
步骤105,具体包括:
根据特征向量利用如下公式确定词的分数,
Figure BDA0002658612480000061
其中,xi,j为词i的特征向量中的第j个特征,xmin,j为所有词中第j个特征的最小值,xmax,j为所有词中第j个特征的最大值,k为词特征的个数,Si为词i无监督算法取得的分数。
将分数在第一设定阈值范围内对应的词确定为第一关键词。
步骤106:根据特征向量和候选词利用有监督算法得到第二关键词。
步骤106,具体包括:
采用C4.5决策树算法对特征向量进行有监督学习,得到特征向量的得分。
将特征向量的得分在第二设定阈值范围内对应的词确定为第二关键词。
步骤107:根据第一关键词和第二关键词生成对话摘要。
步骤107,具体包括:
根据第一关键词生成第一摘要。
根据第二关键词生成第二摘要。
根据ROUGE指标分别计算第一摘要和第二摘要的得分。
将得分高的摘要确定为最终对话摘要。
其中,根据ROUGE指标分别计算第一摘要和第二摘要的得分,具体包括:
利用如下公式计算第一摘要的得分,
Figure BDA0002658612480000071
Figure BDA0002658612480000072
Figure BDA0002658612480000073
其中,S1为第一摘要,ref1为第一数据集的标签集,cand1为第一摘要候选词集合,(n-gram)1为第一摘要选取的词长度,Countmatch1为计算第一摘要中的(n-gram)1出现在第一数据集的标签集中的数量的函数,CountClip1为计算第一摘要中的(n-gram)1出现在第一摘要候选词集合中的数量的函数,F1为第一摘要的ROUGE指标的最终得分,P1n为第一摘要ROUGE指标的准确率,R1n为第一摘要ROUGE指标的召回率,Count1为计算第一摘要中的(n-gram)1出现的数量的函数;
利用如下公式计算第二摘要的得分,
Figure BDA0002658612480000081
Figure BDA0002658612480000082
Figure BDA0002658612480000083
其中,S2为第二摘要,ref2为第二数据集的标签集,cand2为第二摘要候选词集合,(n-gram)2为第二摘要选取的词长度,Countmatch2为计算第二摘要中的(n-gram)2出现在第二数据集的标签集中的数量的函数,CountClip2为计算第二摘要中的(n-gram)2出现在第二摘要候选词集合中的数量的函数,F2为第二摘要的ROUGE指标的最终得分,P1n为第二摘要ROUGE指标的准确率,R2n为第二摘要ROUGE指标的召回率,Count2为计算第二摘要中的(n-gram)2出现的数量的函数。
如图2所示,本发明还提供一种基于综合特征提取的对话摘要生成方法的具体方式,包括:
步骤1:将对话数据进行文本预处理,将对话分为用户和非用户两部分,并对每一句话进行分词、去除停用词和数字、统一大小写操作。
步骤2:使用斯坦福工具包(StanfordNLP toolkit)对步骤1中预处理过的数据进行词性标注和命名实体识别。并将识别出的名词和实体挑选出来作为候选词。
步骤3:以文本中的词为单位设计16种特征,基于数理统计的方法从词和词之间、词和段落之间、词和对话共现图三个方面综合提取步骤1中得到的候选词的词特征。词特征包括16种,具体如下:
1)词频:当前对话中词出现的次数,该特征为整数形式。
2)词频-逆文本频率:TF-IDF(Term frequency-inverse document frequency),该特征为整数形式。
3)词长,该特征为整数形式。
4)词是否大写,该特征为0/1形式。
5)实体长度:包涵该词的实体对应的长度,该特征为整数形式。
6)在对话两次是否出现:该词是否在对话两侧都出现,该特征为0/1形式。
7)在对话两侧是否连续出现:该词是否在对话两侧都连续出现,该特征为0/1形式。
8)词段落差:该词首次出现和最后一次出现之间的段落差,该特征为整数形式。
9)词两侧段落差:该词第一次出现在对话两方的单句距离差,该特征为整数形式。
10)包涵该词最长段落词汇量,该特征为整数形式。
11)该词是否出现在第一段,该特征为0/1形式。
12)包涵该词的段落数量,该特征为整数形式。
13)包涵该词的段落平均长度,该特征为整数形式。
14)该词在所有段落中的平均位置,该特征为整数形式。
15)度数(degree):在共现图中词节点链接的边数,该特征为整数形式。
16)核数(coreness):假设原对话生成的共现图为G且其子图都为H。如果所有H中的节点至少都有K条边,则称H为一个K核的子图。该特征为整数形式。
步骤4:将步骤3中得出的词特征进行拼接生成特征向量vi
vi=[x1,x2,...,x16]
其中vi为词i的特征向量,x1~x16为步骤3中求取出的16个特征。将该特征向量作为输入进行有监督/无监督算法排序。
对于无监督方法具体包括,根据步骤3中提取候选词的特征向量进行归一化处理后求和。并将得分最高的前n个词作为当前对话文本的关键词输出,得到第一关键词。
Figure BDA0002658612480000101
其中xi,j为词i的特征向量中的第j个特征,xmin,j为所有词中第j个特征的最小值。xmax,j为所有词中第j个特征的最大值。Si为词i无监督算法取得的分数。
对于有监督方法,使用C4.5决策树对特征向量进行有监督学习,得到特征向量的得分。将特征向量的得分在第二设定阈值范围内对应的词确定为第二关键词,使用0/1标签判断候选词是否为关键词,其中1代表特征向量的得分在第二设定阈值范围内,确定为关键词,0代表特征向量的得分不在第二设定阈值范围内,不是关键词。
步骤5:根据步骤4中得到的关键词生成对话摘要。根据第一关键词生成第一摘要,根据第二关键词生成第二摘要。第一摘要和第二摘要通过ROUGE指标计算得分。ROUGE指标的计算公式如下所示。
Figure BDA0002658612480000102
Figure BDA0002658612480000103
Figure BDA0002658612480000104
其中S代表当前生成的摘要,ref代表数据集的标签集,cand代表步骤二中生成的候选词集合。n-gram当前摘要选取的词长度(一般设定为5)。Countmatch为计算当前生成摘要中的n-gram出现在数据集的标签集中的数量的函数。CountClip为计算当前生成摘要中的n-gram出现在候选词集合中的数量的函数。F为ROUGE指标的最终得分。选取第一摘要和第一摘要中ROUGE指标得分较高的摘要作为最终生成的对话摘要。
如图3所示,本发明提供的一种基于综合特征提取的对话摘要生成系统,包括:
数据获取模块301,用于获取对话数据。
候选词获取模块302,用于对对话数据进行词性标注和命名实体识别,得到候选词。
特征提取模块303,用于对对话数据利用数理统计法进行特征提取,得到词特征。
拼接模块304,用于将词特征进行拼接得到特征向量。
第一关键词获取模块305,用于根据特征向量和候选词利用无监督算法得到第一关键词。
第二关键词获取模块306,用于根据特征向量和候选词利用有监督算法得到第二关键词。
对话摘要生成模块307,用于根据第一关键词和第二关键词生成对话摘要。
第一关键词获取模块305,具体包括:
第一关键词分数确定单元,用于根据特征向量利用如下公式确定词的分数,
Figure BDA0002658612480000111
其中,xi,j为词i的特征向量中的第j个特征,xmin,j为所有词中第j个特征的最小值,xmax,j为所有词中第j个特征的最大值,k为词特征的个数,Si为词i无监督算法取得的分数。
第一关键词确定单元,用于将分数在第一设定阈值范围内对应的词确定为第一关键词。
第二关键词获取模块306,具体包括:
第二关键词得分确定单元,用于采用C4.5决策树算法对特征向量进行有监督学习,得到特征向量的得分。
第二关键词确定单元,用于将特征向量的得分在第二设定阈值范围内对应的词确定为第二关键词。
本发明提供的方法和系统,首先将真实场景产生的对话数据进行文本预处理,再进行综合特征提取、候选关键词提取,根据提取到的特征使用有监督/无监督算法对候选词进行排序,生成对话摘要。在特征提取环节,提出了多种新式特征,包括新提出的特征和在对话摘要任务中前人未使用过的已提出特征。本发明提供的方法和系统具有以下优势:
1、相较于深度学习方法,本发明采用特征工程进行综合特征提取,采用了16种特征描述文本信息,避免了深度学习方法对于复杂文本不能很好提取文本语义信息,从而影响端到端训练的问题。
2、相较于深度学习方法,本发明采用的有监督/无监督算法复杂度更低,在面向复杂对话场景时适应性更高。
3、相比较于深度学习方法,本发明在面对复杂对话数据时的生成摘要的质量更高。
4、相较于深度学习方法,本发明提出的方法运行速度更快,具有更好的实时性,适于在线应用。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (7)

1.一种基于综合特征提取的对话摘要生成方法,其特征在于,包括:
获取对话数据;
对所述对话数据进行词性标注和命名实体识别,得到候选词;
对所述对话数据利用数理统计法进行特征提取,得到词特征;
将所述词特征进行拼接得到特征向量;
根据所述特征向量和所述候选词利用无监督算法得到第一关键词;
根据所述特征向量和所述候选词利用有监督算法得到第二关键词;所述根据所述特征向量和所述候选词利用有监督算法得到第二关键词,具体包括:
采用C4.5决策树算法对所述特征向量进行有监督学习,得到特征向量的得分;
将所述特征向量的得分在第二设定阈值范围内对应的词确定为第二关键词;
根据所述第一关键词和所述第二关键词生成对话摘要。
2.根据权利要求1所述的基于综合特征提取的对话摘要生成方法,其特征在于,所述将所述词特征进行拼接得到特征向量,具体包括:
根据所述词特征利用如下公式进行拼接得到特征向量;
vi=[x1,x2,...,xj]
其中,vi为词i的特征向量,x1~xj表示词特征;j表示第j个词特征。
3.根据权利要求1所述的基于综合特征提取的对话摘要生成方法,其特征在于,所述根据所述特征向量和所述候选词利用无监督算法得到第一关键词,具体包括:
根据所述特征向量利用如下公式确定词的分数;
Figure FDA0003577794350000011
其中,xi,j为词i的特征向量中的第j个特征,xmin,j为所有词中第j个特征的最小值,xmax,j为所有词中第j个特征的最大值,k为词特征的个数,Si为词i无监督算法取得的分数;
将分数在第一设定阈值范围内对应的词确定为第一关键词。
4.根据权利要求1或权利要求3所述的基于综合特征提取的对话摘要生成方法,其特征在于,所述根据所述第一关键词和所述第二关键词生成对话摘要,具体包括:
根据所述第一关键词生成第一摘要;
根据所述第二关键词生成第二摘要;
根据ROUGE指标分别计算所述第一摘要和所述第二摘要的得分;
将得分高的摘要确定为最终对话摘要。
5.根据权利要求4所述的基于综合特征提取的对话摘要生成方法,其特征在于,所述根据ROUGE指标分别计算所述第一摘要和所述第二摘要的得分,具体包括:
利用如下公式计算所述第一摘要的得分,
Figure FDA0003577794350000021
Figure FDA0003577794350000022
Figure FDA0003577794350000023
其中,S1为第一摘要,ref1为第一数据集的标签集,cand1为第一摘要候选词集合,(n-gram)1为第一摘要选取的词长度,Countmatch1为计算第一摘要中的(n-gram)1出现在第一数据集的标签集中的数量的函数,CountClip1为计算第一摘要中的(n-gram)1出现在第一摘要候选词集合中的数量的函数,F1为第一摘要的ROUGE指标的最终得分,P1n为第一摘要ROUGE指标的准确率,R1n为第一摘要ROUGE指标的召回率,Count1为计算第一摘要中的(n-gram)1出现的数量的函数;
利用如下公式计算所述第二摘要的得分,
Figure FDA0003577794350000031
Figure FDA0003577794350000032
Figure FDA0003577794350000033
其中,S2为第二摘要,ref2为第二数据集的标签集,cand2为第二摘要候选词集合,(n-gram)2为第二摘要选取的词长度,Countmatch2为计算第二摘要中的(n-gram)2出现在第二数据集的标签集中的数量的函数,CountClip2为计算第二摘要中的(n-gram)2出现在第二摘要候选词集合中的数量的函数,F2为第二摘要的ROUGE指标的最终得分,P1n为第二摘要ROUGE指标的准确率,R2n为第二摘要ROUGE指标的召回率,Count2为计算第二摘要中的(n-gram)2出现的数量的函数。
6.一种基于综合特征提取的对话摘要生成系统,其特征在于,包括:
数据获取模块,用于获取对话数据;
候选词获取模块,用于对所述对话数据进行词性标注和命名实体识别,得到候选词;
特征提取模块,用于对所述对话数据利用数理统计法进行特征提取,得到词特征;
拼接模块,用于将所述词特征进行拼接得到特征向量;
第一关键词获取模块,用于根据所述特征向量和所述候选词利用无监督算法得到第一关键词;
第二关键词获取模块,用于根据所述特征向量和所述候选词利用有监督算法得到第二关键词;所述第二关键词获取模块,具体包括:
第二关键词得分确定单元,用于采用C4.5决策树算法对所述特征向量进行有监督学习,得到特征向量的得分;
第二关键词确定单元,用于将所述特征向量的得分在第二设定阈值范围内对应的词确定为第二关键词;
对话摘要生成模块,用于根据所述第一关键词和所述第二关键词生成对话摘要。
7.根据权利要求6所述的基于综合特征提取的对话摘要生成系统,其特征在于,所述第一关键词获取模块,具体包括:
第一关键词分数确定单元,用于根据所述特征向量利用如下公式确定词的分数;
Figure FDA0003577794350000041
其中,xi,j为词i的特征向量中的第j个特征,xmin,j为所有词中第j个特征的最小值,xmax,j为所有词中第j个特征的最大值,k为词特征的个数,Si为词i无监督算法取得的分数;
第一关键词确定单元,用于将分数在第一设定阈值范围内对应的词确定为第一关键词。
CN202010896670.1A 2020-08-31 2020-08-31 一种基于综合特征提取的对话摘要生成方法及系统 Active CN112100327B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010896670.1A CN112100327B (zh) 2020-08-31 2020-08-31 一种基于综合特征提取的对话摘要生成方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010896670.1A CN112100327B (zh) 2020-08-31 2020-08-31 一种基于综合特征提取的对话摘要生成方法及系统

Publications (2)

Publication Number Publication Date
CN112100327A CN112100327A (zh) 2020-12-18
CN112100327B true CN112100327B (zh) 2022-05-31

Family

ID=73756829

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010896670.1A Active CN112100327B (zh) 2020-08-31 2020-08-31 一种基于综合特征提取的对话摘要生成方法及系统

Country Status (1)

Country Link
CN (1) CN112100327B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109918510A (zh) * 2019-03-26 2019-06-21 中国科学技术大学 跨领域关键词提取方法
CN110737968A (zh) * 2019-09-11 2020-01-31 北京航空航天大学 基于深层次卷积长短记忆网络的人群轨迹预测方法及系统
CN111125349A (zh) * 2019-12-17 2020-05-08 辽宁大学 基于词频和语义的图模型文本摘要生成方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109918510A (zh) * 2019-03-26 2019-06-21 中国科学技术大学 跨领域关键词提取方法
CN110737968A (zh) * 2019-09-11 2020-01-31 北京航空航天大学 基于深层次卷积长短记忆网络的人群轨迹预测方法及系统
CN111125349A (zh) * 2019-12-17 2020-05-08 辽宁大学 基于词频和语义的图模型文本摘要生成方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
《Simulation of Pedestrian Rotation Dynamics Near Crowded Exits》;Song, X 等;《IEEE TRANSACTIONS ON INTELLIGENT TRANSPORTATION SYSTEMS》;20190831;全文 *
《主题关键词信息融合的中文生成式自动摘要研究》;侯丽微 等;《自动化学报》;20190331;第4.2章第535页 *
《基于卷积神经网络与多特征融合的Twitter情感分类方法》;王汝娇 等;《计算机工程》;20180228;第44卷(第2期);第2.2章节第213页第二栏 *
《基于深度学习的生成式自动摘要技术研究》;郭洪杰;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑(月刊)2019年第01期》;20190115;第3.2.1章;3.3.4章 *
郭洪杰.《基于深度学习的生成式自动摘要技术研究》.《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑(月刊)2019年第01期》.2019, *

Also Published As

Publication number Publication date
CN112100327A (zh) 2020-12-18

Similar Documents

Publication Publication Date Title
CN111177365B (zh) 一种基于图模型的无监督自动文摘提取方法
CN107451126B (zh) 一种近义词筛选方法及系统
CN110321563B (zh) 基于混合监督模型的文本情感分析方法
Daumé III et al. A large-scale exploration of effective global features for a joint entity detection and tracking model
CN104881458B (zh) 一种网页主题的标注方法和装置
Newman et al. Bayesian text segmentation for index term identification and keyphrase extraction
CN111797898B (zh) 一种基于深度语义匹配的在线评论自动回复方法
JP6335898B2 (ja) 製品認識に基づく情報分類
CN109657053B (zh) 多文本摘要生成方法、装置、服务器及存储介质
WO2008107305A2 (en) Search-based word segmentation method and device for language without word boundary tag
CN109271524B (zh) 知识库问答系统中的实体链接方法
CN110287314B (zh) 基于无监督聚类的长文本可信度评估方法及系统
CN111859961B (zh) 一种基于改进TopicRank算法的文本关键词抽取方法
CN109697288B (zh) 一种基于深度学习的实例对齐方法
CN110704638A (zh) 一种基于聚类算法的电力文本词典构造方法
Zhang et al. Research on keyword extraction of Word2vec model in Chinese corpus
CN110555109A (zh) 基于个人计算机电商评论的多粒度观点挖掘方法
CN111259156A (zh) 一种面向时间序列的热点聚类方法
CN107239455B (zh) 核心词识别方法及装置
CN117474703B (zh) 基于社交网络的话题智能推荐方法
CN112711666B (zh) 期货标签抽取方法及装置
Mondal et al. Improved algorithms for keyword extraction and headline generation from unstructured text
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
CN112528640A (zh) 一种基于异常子图检测的领域术语自动抽取方法
CN112632272A (zh) 基于句法分析的微博情感分类方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant