CN105740310A - 一种用于问答系统中的自动答案摘要方法及系统 - Google Patents

一种用于问答系统中的自动答案摘要方法及系统 Download PDF

Info

Publication number
CN105740310A
CN105740310A CN201510963623.3A CN201510963623A CN105740310A CN 105740310 A CN105740310 A CN 105740310A CN 201510963623 A CN201510963623 A CN 201510963623A CN 105740310 A CN105740310 A CN 105740310A
Authority
CN
China
Prior art keywords
concept
answer
sentence
word
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510963623.3A
Other languages
English (en)
Other versions
CN105740310B (zh
Inventor
刘秉权
游世学
孙承杰
成昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongke Huilian Technology Co Ltd
Harbin Institute of Technology
Original Assignee
Beijing Zhongke Huilian Technology Co Ltd
Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongke Huilian Technology Co Ltd, Harbin Institute of Technology filed Critical Beijing Zhongke Huilian Technology Co Ltd
Priority to CN201510963623.3A priority Critical patent/CN105740310B/zh
Publication of CN105740310A publication Critical patent/CN105740310A/zh
Application granted granted Critical
Publication of CN105740310B publication Critical patent/CN105740310B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种用于问答系统中的自动答案摘要方法及系统,其包括:获得用户查询问题与问答系统返回的候选答案集;从问题中提取概念,将概念与问题建立映射,得到问题概念集,从候选答案句子中提取概念,将概念与句子建立映射,得到句子概念集,对所有句子的概念集取并集得到答案概念集;对问题概念集进行概念扩展、概念约减,得到问题扩展概念集,问题扩展概念集与答案概念集取交集获得命中概念集;对命中概念集中包含的概念进行句子质量计算,得到答案摘要。本发明利用概念网络中各个概念的关系,构建句子等权重,克服句子可能与问题无关的问题,然后通过整数规划的方法,选出答案中和问题最为相关的句子,构成最终的答案摘要。

Description

一种用于问答系统中的自动答案摘要方法及系统
技术领域
本发明涉及计算机信息检索及自然语言处理领域,尤其是一种用于问答系统中的,基于概念网络与整数规划的自动答案摘要方法及系统。
背景技术
随着互联网的普及,人们越来越多地在互联网上寻求帮助,面对不断丰富的海量互联网知识,以百度知道为首的各种问答系统为其在网上寻求信息提供了极大的便利。但是以百度知道为例,其答案长度都较短,口语化等噪声比较严重,由此造成了答案可能包含的信息不全,甚至答非所问。答案摘要技术是解决上述问题的一种有效技术手段,将候选答案中的信息进行聚合、去冗余等,从而得到精练而全面的答案信息,从而辅助用户快速理解。
目前已有的答案摘要方法大多是沿用多文档摘要方法:基于图的方法,如TextRank、Lexrank,这类方法将句子视作节点,不光考虑了句子节点自身的权重,也将各个句子间的关系(边)作为考虑因素,缺点是对于较长答案摘要构建图时间较长,摘要冗余度较高。基于有监督学习的方法,该类方法利用如SVM等机器学习方法,对数据进行训练,学习答案句子和问题间的相关程度,从而对句子进行排序的方式进行摘要,缺点则是需要进行大量的标注,容易过拟合同时对数据要求较高,不适应实际的问答检索系统的场景。
基于整数规划的方法,全局寻找质量最高的句子组成摘要,但是没有考虑答案句子和问题间的联系,虽然减少了冗余但是选出的句子会与问题无关。因此,传统的文档摘要技术难以很好的应用到实际的问答系统场景中。
因此,有必要提出一种新的测试方案。
发明内容
为克服现有问答系统针对用户查询返回的结果存在的信息不全、噪声较多的问题,本发明提供一种用于问答系统中的自动答案摘要方法,其从问题和答案中的概念角度出发,利用概念网络中各个概念在现实世界中的实际关系,构建句子等权重,克服句子可能与问题无关的问题,然后通过整数规划的方法,选出答案中和问题最为相关的句子,构成最终的答案摘要。
本发明提供一种用于问答系统中的自动答案摘要方法,其包括如下步骤:
S1、获得用户查询问题与问答系统返回的候选答案集;
S2、从问题中提取概念,将提取的概念与问题建立映射关系,得到问题概念集,从候选答案的句子中提取概念,将提取的概念与句子建立映射关系,得到句子概念集,对所有句子的概念集取并集得到答案概念集,并获得答案概念集中的概念与答案中句子的共现矩阵;
S3、对问题概念集进行概念扩展、概念约减,得到问题扩展概念集,所述问题扩展概念集与答案概念集取交集获得命中概念集;
S4、根据命中概念集中包含的概念进行句子质量计算,建立优化函数,利用整数规划方法得到答案摘要。
进一步的,所述步骤S2中概念映射方法包括:利用词性标注结果,抽取出对于问题和答案具有表义信息的概念,具体包括如下步骤:
S21、输入候选答案集中的句子,通过分词、词性标注、去停用词,得到词序列;
S22、若所述词序列中的任一词在概念网络中,则将该词加入概念集中;
S23、根据词序列产生二元词序列,对于任一二元词,词3=词1+词2,若词3在概念网络中,且词1和词2的词性为名词或动词,则将词3加入概念集中,否则跳过词3,继续循环,直至二元词序列中所有二元词被遍历,返回概念集;
S24、重复上述步骤,处理所有候选答案集中的句子,得到答案中每个句子的概念集,对每个句子的概念集取并集得到答案概念集,并获得答案概念集中的概念与答案中句子的共现矩阵。
进一步的,对于问题和答案具有表义信息的概念包括名词、动词、名词短语、动词短语。
进一步的,步骤S3中,概念扩展包括同义层扩展和关联层扩展,
所述概念扩展的方法包括:利用概念网络中的概念间的同义关系对概念先进行同义层扩展,再利用概念网络中的概念间的关联关系对概念进一步扩展,得到概念扩展后的扩展概念集;
概念约减方法包括:
对于同义层扩展结果,利用PageRank算法得到同义层概念权重,其中,PageRank算法的阻尼系数d=0.85;
对于关联层扩展结果,采用启发式概念权重计算方法得到关联层概念权重,其中,启发式概念权重计算公式如下:
wc=(count(R)+1)2×∑s∈SynCSWs×E(s,c)
其中SynC表示经过同义层约减后的概念集合,count(R)表示概念c和SynC中概念在概念网络中的连接数,SW表示概念经过PageRank后得到的权重,E是查找边权重的函数,如果c和s间有连接则是边的权重,否则为0。
进一步的,步骤S4中句子质量计算方法包括如下步骤:
S41、在步骤S3中概念约减得到的权重基础上,增加概念在答案中的频次权重,定义概念c权重wc如下:
w c = l o g ( ow c + β ) + α × l o g ( f r e q D )
其中owc为概念约减后的权重,freq为概念在答案中出现的频次,α,β为常量系数;
S42、定义句子质量tj
t j = b 1 × c o u n t ( a j ) + b 2 × Σ c ∈ a j w c
其中aj为句子sj的概念列表,count(x)返回集合x中元素个数,wc表示概念c的权重,bi是加权系数。
根据本发明的另一方面,本发明还提供一种自动答案摘要系统,其包括:输入模块、输出模块、概念映射模块、概念扩展及约减模块、句子质量计算模块及整体规划答案摘要模块,
所述输入模块,用于接受问答系统输出的问题和候选答案集;
所述概念映射模块,用于从问题中提取概念,将提取的概念与问题建立映射关系,得到问题概念集,从候选答案的句子中提取概念,将提取的概念与句子建立映射关系,得到句子概念集,对所有句子的概念集取并集得到答案概念集;
所述概念扩展及约减模块,用于对问题概念集进行概念扩展、概念约减,得到问题扩展概念集,所述问题扩展概念集与答案概念集取交集获得命中概念集;
所述句子质量计算模块,用于对命中概念集中包含的概念进行句子质量计算;
所述整体规划答案摘要模块,利用整数规划方法得到答案摘要;
所述输出模块,用于将得到的答案摘要返回给用户。
进一步的,所述概念映射模块进行概念映射的方法包括如下步骤:
步骤一、输入候选答案集中的句子,通过分词、词性标注、去停用词,得到词序列;
步骤二、若所述词序列中的任一词在概念网络中,则将该词加入概念集中;
步骤三、根据词序列产生二元词序列,对于任一二元词,词3=词1+词2,若词3在概念网络中,且词1和词2的词性为名词或动词,则将词3加入概念集中,否则跳过词3,继续循环,直至二元词序列中所有二元词被遍历,返回概念集;
步骤四、重复上述步骤,处理所有候选答案集中的句子,得到答案中每个句子的概念集,对所有句子的概念集取并集得到答案概念集,并获得答案概念集中的概念与答案中句子的共现矩阵。
进一步的,采用所述概念扩展及约减模块对问题概念集进行概念扩展、概念约减的方法包括:
概念扩展方法包括:采用概念扩展算法对概念先进行同义层扩展,然后利用关联关系进一步扩展,得到概念扩展后的概念集;
概念约减方法包括:对于同义层扩展的结果利用PageRank算法得到同义层概念权重,其中,PageRank算法的阻尼系数d=0.85;
对于关联层扩展结果,采用启发式概念权重计算方法得到关联层概念权重其中,启发式概念权重计算公式如下:
wc=(count(R)+1)2×∑s∈SynCSWs×E(s,c)
其中SynC表示经过同义层约减后的概念集合,count(R)表示概念c和SynC中概念在概念网络中的连接数,SW表示概念经过PageRank后得到的权重,E是查找边权重的函数,如果c和s间有连接则是边的权重,否则为0。
进一步的,采用所述句子质量计算模块进行句子质量计算的方法包括:
步骤(一)、在概念约减得到的权重基础上,增加概念在答案中的频次权重,定义概念c权重wc如下:
w c = l o g ( ow c + β ) + α × l o g ( f r e q D )
其中owc为概念约减后的权重,freq为概念在答案中出现的频次,α,β为常量系数;
步骤(二)、定义句子质量tj
t j = b 1 × c o u n t ( a j ) + b 2 × Σ c ∈ a j w c
其中aj为句子sj的概念列表,count(x)返回集合x中元素个数,wc表示概念c的权重,bi是加权系数。
进一步的,采用所述整体规划答案摘要模块获得答案摘要的方法如下:建立如下优化函数,通过整数规划的求解选择符合问题的句子集合作为摘要,具体如下:
O b j e c t i v e : m a x Σ i w i · x i + t j · y j
s . t . Σ j l j · y j ≤ L
Σ j OCC i j · y j = x i , ∀ i
w i = l o g ( ow i + β ) + α · l o g ( f r e q D )
t j = b 1 · c o u n t ( a j ) + b 2 · Σ c ∈ a j w c
x i ∈ N , y i , OCC i j ∈ { 0 , 1 } , ∀ i , j
其中,sj是答案句子集合第j个句子,其长度为lj,ci是命中的第i个概念,权重为wi,假设生成摘要为S,xi,yj分别表明概念ci和句子sj是否会出现在S中,x是自然数,当x为0时,表示概念ci不会出现在S中,其他则表示概念ci在S中出现的次数,yj为0表明句子sj不会出现在S中,否则表明句子sj在S中出现一次,OCC是二维矩阵,表明ci是否在sj中。
有益效果:本发明的用于问答系统中的自动答案摘要方法及系统,其具有如下优点:
(1)本发明用于问答系统中的自动答案摘要方法,全程无监督自动化完成,使用者只需离线维护、扩充概念网络中的关系,即可提升方法的适应性及整体效果。
(2)本发明可以作为一个独立的模块嵌入一般的问答系统中,以原有的问题及候选答案集作为输入,经过摘要处理,最终得到较为全面且简练的摘要返回给用户,方便用户快速、准确的获得相关信息,提升问答系统的用户体验。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明方法的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其为本发明方法的流程示意图。如图1所示,本发明一种用于问答系统中的自动答案摘要方法,包括以下步骤:
S1、获得用户查询问题与原系统返回的候选答案集
S2、利用概念网络对问题进行概念映射,得到问题的概念集QC(Query_Concept)。对候选答案集中的句子进行概念映射,得到答案中每个句子的概念集SC(Sentece_Concept),对所有句子的概念集取并集得到答案概念集,并获得答案概念集中的概念与答案中句子的共现矩阵OCC。其中,对问题进行概念映射是从问题中提取概念,将提取的概念与问题建立映射关系,得到问题概念集。对候选答案集进行映射是从候选答案的句子中提取概念,将提取的概念与句子建立映射关系,得到句子概念集。在该步骤中,概念映射方法包括:利用词性标注的结果,尽可能多的抽取出名词、动词、名词短语、动词短语这些对于问题和答案具有较强表义信息的概念,其中,对于问题和答案具有表义信息的概念包括名词、动词、名词短语、动词短语。本发明概念映射方法具体包括如下步骤:
S21、输入候选答案集中的句子,通过分词、词性标注、去停用词,得到词序列;
S22、若所述词序列中的任一词在概念网络中,则将该词加入概念集中;
S23、根据词序列产生二元词序列,对于任一二元词,词3=词1+词2,若词3在概念网络中,且词1和词2的词性为名词或动词,则将词3加入概念集中,否则跳过词3,继续循环,直至二元词序列中所有二元词被遍历,返回概念集;
S24、重复上述步骤,处理所有候选答案集中的句子,得到答案中每个句子的概念集,对所有句子的概念集取并集得到答案概念集,即可获得答案概念集中的概念与答案中句子的共现矩阵。
S3、利用概念网络对问题概念集QC进行概念扩展、概念约减,得到问题扩展概念集QEC(Query_Expand_Concept),所述问题扩展概念集与答案概念集AC取交集获得命中概念集HC(Hit_Concept)AC。在概念网络中概念间存在多种关系,在步骤S3中,所述概念扩展的方法包括:利用其中的同义关系与关联关系作为扩展依据,先进行同义层扩展,尽可能多地获得同义概念,然后利用关联关系进一步扩展,加深语义表达,得到概念扩展后的扩展概念集。如概念“污染”同义层扩展得到的是诸如“污染物”等概念,而关联层扩展则是找到“尾气”、“垃圾”等概念。
针对概念扩展后的扩展概念集可能包含过多概念,本发明利用PageRank算法及启发式权重计算方法获得概念的权重,并以此选取前K个权重较大的概念作为约减后的概念扩展结果。具体的概念约减方法包括:
对于同义层扩展的结果,利用PageRank算法(阻尼系数d=0.85)迭代收敛后选取前M个概念作为约减后的同义层扩展概念集SynC,同义层概念权重为收敛时对应节点的权重,它主要取决于同义层各概念间的连接强度。
对于关联层扩展结果,由于该层扩展出概念数目较多,PageRank算法效率低下,本发明定义了启发式概念权重计算方法,根据计算所得权重选取较关键的K个概念作为关联层扩展的最终结果,其中,K为整数。具体公式如下:
wc=(count(R)+1)2×∑s∈SynCSWs×E(s,c)
其中SynC表示经过同义层约减后的概念集合,count(R)表示概念c和SynC中概念在概念网络中的连接数,SW表示概念经过PageRank后得到的权重,E是查找边权重的函数,如果c和s间有连接则是边的权重,否则为0。
S4、根据命中概念集中包含的概念集AC中包含的概念计算句子质量计算,本发明将句子表示成一系列带有权重的概念,句子质量主要由答案句子中的概念数和句子中概念的权重决定。更好地表达概念和问题、答案的关系,在步骤S3所得扩展权重基础上,增加了概念在答案中的频次信息,构成完整的概念权重,并在此基础上定义了答案句子质量的计算方法。定义概念c权重wc如下:
w c = l o g ( ow c + β ) + α × l o g ( f r e q D )
其中owc为概念约减后的权重,freq为概念在答案中出现的频次,α,β为常量系数;
定义句子质量tj
t j = b 1 × c o u n t ( a j ) + b 2 × Σ c ∈ a j w c
其中aj为句子sj的概念列表,count(x)返回集合x中元素个数,wc表示概念c的权重,bi是加权系数。
S5、定义全局优化函数,利用整数规划方法,得到最终的答案摘要。
本发明还提供一种自动答案摘要系统,所述系统包括:输入模块、输出模块、概念映射模块、概念扩展及约减模块、句子质量计算模块及整体规划答案摘要模块,
所述输入模块,用于接受问答系统输出的问题和候选答案集。所述输出模块,用于将得到的答案摘要返回给用户。所述输入模块和输出模块可以作为附加模块嵌入到一般的问答检索系统中,输入模块接受原系统输出的问题和候选答案集,经过一系列处理后,将原问题与得到的答案摘要作为输出返回。
所述概念映射模块,用于从问题中提取概念,将提取的概念与问题建立映射关系,得到问题概念集,从候选答案的句子中提取概念,将提取的概念与句子建立映射关系,得到句子概念集,对所有句子的概念集取并集得到答案概念集,并获得答案概念集中的概念与答案中句子的共现矩阵。利用词性标注结果,尽可能多的抽取出名词、动词、名词短语、动词短语这些对于问题和答案具有表义信息的概念。具体步骤如下:
步骤一、输入句子,分词、词性标注、去停,得到词序列pos。
步骤二、对于pos中的任一词,若该词在概念网络中,将其加入概念集Concept_Set中。
步骤三、根据pos产生的二元词序列bigram_pos,对于任一二元词,词3=词1+词2,若词3在概念网络中,且词1词2的词性为名词或动词,则将词3加入概念集Concept_Set中,否则跳过词3,继续循环,直到bigram_pos中所有二元词被遍历。
步骤四、返回由此得到的概念集Concept_Set。由此处理所有答案中句子,即可获得每个答案句子与其中包含的概念的共现矩阵OCC。
所述概念扩展及约减模块,用于对问题概念集进行概念扩展、概念约减,得到问题扩展概念集QEC(Query_Expand_Concept),所述问题扩展概念集与答案概念集AC取交集获得命中概念集HC(Hit_Concept)。如表1,其为概念网络中概念间关系举例。概念网络中的概念间存在多种关系,我们利用其中的同义关系与关联关系作为扩展依据,先进行同义层扩展,尽可能多地获得同义概念,然后利用关联关系进一步扩展,加深语义表达。如概念“电脑”同义层扩展得到的是“笔记本”等概念,而关联层扩展则是找到“计算”等概念。针对概念扩展后的概念集可能包含过多概念,对于同义层扩展的结果,利用PageRank算法(d=0.85)迭代收敛后选取前M个概念作为约减后的同义层扩展概念集SynC,同义层概念权重为收敛时对应节点的权重,它主要取决于同义层各概念间的连接强度。对于关联层扩展结果,由于该层扩展出概念数目较多,PageRank效率低下,本发明定义了启发式概念权重计算方法,根据计算所得权重选取较关键的K个概念作为关联层扩展的最终结果。具体公式如下:
wc=(count(R)+1)2×∑s∈SynCSWs×E(s,c)
其中SynC表示经过同义层约减后的概念集合,count(R)表示概念c和SynC中概念在概念网络中的连接数,SW表示概念经过PageRank后得到的权重,E是查找边权重的函数,如果c和s间有连接则是边的权重,否则为0。
所述句子质量计算模块,用于对答案概念集中包含的概念进行句子质量计算。本发明将句子表示成一系列带有权重的概念,句子质量主要由答案句子中的概念数和句子中概念的权重决定,具体步骤是:
步骤(一)、为更好的表达概念和问题、答案的关系,在概念约减得到的权重基础上,增加概念在答案中的频次权重,定义概念c权重wc如下:
w c = l o g ( ow c + β ) + α × l o g ( f r e q D )
其中owc为概念约减后的权重,freq为概念在答案中出现的频次,α,β为常量系数。
步骤(二)、定义句子质量tj
t j = b 1 × c o u n t ( a j ) + b 2 × Σ c ∈ a j w c
其中aj为句子sj的概念列表,count(x)返回集合x中元素个数,wc表示概念c的权重,bi是加权系数。
所述整体规划答案摘要模块,利用整数规划方法得到答案摘要。所述整体规划答案摘要模块主要工作在如何选择符合问句要求的句子来组成摘要,即要找到一个句子子集,满足以下两个条件:长度限制和摘要权重最大化。本发明利用概念权重与句子质量,建立最优化函数,通过整数规划的求解选择最优的句子集合作为摘要。具体如下:
O b j e c t i v e : m a x Σ i w i · x i + t j · y j
Σ j OCC i j · y j = x i , ∀ i
w i = l o g ( ow i + β ) + α · l o g ( f r e q D )
t j = b 1 · c o u n t ( a j ) + b 2 · Σ c ∈ a j w c
x i ∈ N , y i , OCC i j ∈ { 0 , 1 } , ∀ i , j
其中,sj是答案句子集合第j个句子,其长度为lj,ci是命中的第i个概念,权重为wi。假设生成摘要为S,xi,yj分别表明概念ci和句子sj是否会出现在S中。x是自然数,当为0时,表示概念ci不会出现在S中,其他则表示其在S中出现的次数。yj为0表明句子sj不会出现在S中,否则表明其在S中出现一次,OCC是二维矩阵,表明ci是否在sj中。
本发明提出了一种基于概念网络和整数规划的自动答案摘要方法,可以作为独立的模块嵌入到一般的问答检索系统中,以用户查询与原系统输出的候选答案集作为输入,返回一定长度的答案摘要,能够帮助用户快速获得与查询最相关且全面的答案信息。
本发明的用于问答系统中的自动答案摘要方法及系统,其具有如下优点:
(1)本发明用于问答系统中的自动答案摘要方法,全程无监督自动化完成,使用者只需离线维护、扩充概念网络中的关系,即可提升方法的适应性及整体效果。
(2)本发明可以作为一个独立的模块嵌入一般的问答系统中,以原有的问题及候选答案集作为输入,经过摘要处理,最终得到较为全面且简练的摘要返回给用户,方便用户快速、准确的获得相关信息,提升问答系统的用户体验。
以上所揭露的仅为本发明的几种较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (10)

1.一种用于问答系统中的自动答案摘要方法,其特征在于:其包括如下步骤:
S1、获得用户查询问题与问答系统返回的候选答案集;
S2、从问题中提取概念,将提取的概念与问题建立映射关系,得到问题概念集,从候选答案的句子中提取概念,将提取的概念与句子建立映射关系,得到句子概念集,对所有句子的概念集取并集得到答案概念集,并获得答案概念集中的概念与答案中句子的共现矩阵;
S3、对问题概念集进行概念扩展、概念约减,得到问题扩展概念集,所述问题扩展概念集与答案概念集取交集获得命中概念集;
S4、根据命中概念集中包含的概念进行句子质量计算,建立优化函数,利用整数规划方法得到答案摘要。
2.根据权利要求1所述的用于问答系统中的自动答案摘要方法,其特征在于:所述步骤S2中概念映射方法包括:利用词性标注结果,抽取出对于问题和答案具有表义信息的概念,具体包括如下步骤:
S21、输入候选答案集中的句子,通过分词、词性标注、去停用词,得到词序列;
S22、若所述词序列中的任一词在概念网络中,则将该词加入概念集中;
S23、根据词序列产生二元词序列,对于任一二元词,词3=词1+词2,若词3在概念网络中,且词1和词2的词性为名词或动词,则将词3加入概念集中,否则跳过词3,继续循环,直至二元词序列中所有二元词被遍历,返回概念集;
S24、重复上述步骤,处理所有候选答案集中的句子,得到答案中每个句子的概念集,对所有句子的概念集取并集得到答案概念集,并获得答案概念集中的概念与答案中句子的共现矩阵。
3.根据权利要求2所述的用于问答系统中的自动答案摘要方法,其特征在于:对于问题和答案具有表义信息的概念包括名词、动词、名词短语、动词短语。
4.根据权利要求3所述的用于问答系统中的自动答案摘要方法,其特征在于:步骤S3中,概念扩展包括同义层扩展和关联层扩展,所述概念扩展的方法包括:利用概念网络中的概念间的同义关系对概念先进行同义层扩展,再利用概念网络中的概念间的关联关系对概念进一步扩展,得到概念扩展后的扩展概念集;
概念约减方法包括:对于同义层扩展结果,利用PageRank算法得到同义层概念权重,其中,PageRank算法的阻尼系数d=0.85;
对于关联层扩展结果,采用启发式概念权重计算方法得到关联层概念权重,其中,启发式概念权重计算公式如下:
wc=(count(R)+1)2×∑s∈SynCSWs×E(s,c)
其中SynC表示经过同义层约减后的概念集合,count(R)表示概念c和SynC中概念在概念网络中的连接数,SW表示概念经过PageRank后得到的权重,E是查找边权重的函数,如果c和s间有连接则是边的权重,否则为0。
5.根据权利要求4所述的用于问答系统中的自动答案摘要方法,其特征在于:步骤S4中句子质量计算方法包括如下步骤:
S41、在步骤S3中概念约减得到的权重基础上,增加概念在答案中的频次权重,定义概念c权重wc如下:
w c = log ( ow c + β ) + α × l o g ( f r e q D )
其中owc为概念约减后的权重,freq为概念在答案中出现的频次,α,β为常量系数;
S42、定义句子质量tj
t j = b 1 × c o u n t ( a j ) + b 2 × Σ c ∈ a j w c
其中aj为句子sj的概念列表,count(x)返回集合x中元素个数,wc表示概念c的权重,bi是加权系数。
6.一种自动答案摘要系统,其特征在于:其包括:输入模块、输出模块、概念映射模块、概念扩展及约减模块、句子质量计算模块及整体规划答案摘要模块,
所述输入模块,用于接受问答系统输出的问题和候选答案集;
所述概念映射模块,用于从问题中提取概念,将提取的概念与问题建立映射关系,得到问题概念集,从候选答案的句子中提取概念,将提取的概念与句子建立映射关系,得到句子概念集,对所有句子的概念集取并集得到答案概念集;
所述概念扩展及约减模块,用于对问题概念集进行概念扩展、概念约减,得到问题扩展概念集,所述问题扩展概念集与答案概念集取交集获得命中概念集;
所述句子质量计算模块,用于对命中概念集中包含的概念进行句子质量计算;
所述整体规划答案摘要模块,利用整数规划方法得到答案摘要;
所述输出模块,用于将得到的答案摘要返回给用户。
7.根据权利要求6所述的自动答案摘要系统,其特征在于:所述概念映射模块进行概念映射的方法包括如下步骤:
步骤一、输入候选答案集中的句子,通过分词、词性标注、去停用词,得到词序列;
步骤二、若所述词序列中的任一词在概念网络中,则将该词加入概念集中;
步骤三、根据词序列产生二元词序列,对于任一二元词,词3=词1+词2,若词3在概念网络中,且词1和词2的词性为名词或动词,则将词3加入概念集中,否则跳过词3,继续循环,直至二元词序列中所有二元词被遍历,返回概念集;
步骤四、重复上述步骤,处理所有候选答案集中的句子,得到答案中每个句子的概念集,对每个句子的概念集取并集得到答案概念集,并获得答案概念集中的概念与答案中句子的共现矩阵。
8.根据权利要求6所述的自动答案摘要系统,其特征在于:采用所述概念扩展及约减模块对问题概念集进行概念扩展、概念约减的方法包括:
概念扩展方法包括:采用概念扩展算法对概念先进行同义层扩展,然后利用关联关系进一步扩展,得到概念扩展后的概念集;
概念约减方法包括:对于同义层扩展的结果利用PageRank算法得到同义层概念权重,其中,PageRank算法的阻尼系数d=0.85;
对于关联层扩展结果,采用启发式概念权重计算方法得到关联层概念权重其中,启发式概念权重计算公式如下:
wc=(count(R)+1)2×∑s∈SynCSWs×E(s,c)
其中SynC表示经过同义层约减后的概念集合,count(R)表示概念c和SynC中概念在概念网络中的连接数,SW表示概念经过PageRank后得到的权重,E是查找边权重的函数,如果c和s间有连接则是边的权重,否则为0。
9.根据权利要求8所述的自动答案摘要系统,其特征在于:采用所述句子质量计算模块进行句子质量计算的方法包括:
步骤(一)、在概念约减得到的权重基础上,增加概念在答案中的频次权重,定义概念c权重wc如下:
w c = log ( ow c + β ) + α × l o g ( f r e q D )
其中owc为概念约减后的权重,freq为概念在答案中出现的频次,α,β为常量系数;
步骤(二)、定义句子质量tj
t j = b 1 × c o u n t ( a j ) + b 2 × Σ c ∈ a j w c
其中aj为句子sj的概念列表,count(x)返回集合x中元素个数,wc表示概念c的权重,bi是加权系数。
10.根据权利要求9所述的自动答案摘要系统,其特征在于:采用所述整体规划答案摘要模块获得答案摘要的方法如下:建立如下优化函数,通过整数规划的求解选择符合问题的句子集合作为摘要,具体如下:
O b j e c t i v e : m a x Σ i w i · x i + t j · y j
s . t . Σ j l j · y j ≤ L
Σ j OCC i j · y j = x i , ∀ i
w i = log ( ow i + β ) + α · log ( f r e q D )
t j = b 1 · c o u n t ( a j ) + b 2 · Σ c ∈ a j w c
x i ∈ N , y i , OCC i j ∈ { 0 , 1 } , ∀ i , j
其中,sj是答案句子集合第j个句子,其长度为lj,ci是命中的第i个概念,权重为wi,假设生成摘要为S,xi,yj分别表明概念ci和句子sj是否会出现在S中,x是自然数,当x为0时,表示概念ci不会出现在S中,其他则表示概念ci在S中出现的次数,yj为0表明句子sj不会出现在S中,否则表明句子sj在S中出现一次,OCC是二维矩阵,表明ci是否在sj中。
CN201510963623.3A 2015-12-21 2015-12-21 一种用于问答系统中的自动答案摘要方法及系统 Active CN105740310B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510963623.3A CN105740310B (zh) 2015-12-21 2015-12-21 一种用于问答系统中的自动答案摘要方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510963623.3A CN105740310B (zh) 2015-12-21 2015-12-21 一种用于问答系统中的自动答案摘要方法及系统

Publications (2)

Publication Number Publication Date
CN105740310A true CN105740310A (zh) 2016-07-06
CN105740310B CN105740310B (zh) 2019-08-02

Family

ID=56296280

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510963623.3A Active CN105740310B (zh) 2015-12-21 2015-12-21 一种用于问答系统中的自动答案摘要方法及系统

Country Status (1)

Country Link
CN (1) CN105740310B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649612A (zh) * 2016-11-29 2017-05-10 中国银联股份有限公司 一种自动问答模板匹配的方法及装置
CN107329995A (zh) * 2017-06-08 2017-11-07 北京神州泰岳软件股份有限公司 一种语义受控的答案生成方法、装置及系统
CN107766419A (zh) * 2017-09-08 2018-03-06 广州汪汪信息技术有限公司 一种基于阈值去噪的TextRank文档摘要方法及装置
CN109977428A (zh) * 2019-03-29 2019-07-05 北京金山数字娱乐科技有限公司 一种答案获取的方法及装置
CN113535957A (zh) * 2021-07-27 2021-10-22 哈尔滨工业大学 基于双重知识交互和多任务学习的对话情绪识别网络模型、构建方法、电子设备及存储介质
CN113761142A (zh) * 2020-09-25 2021-12-07 北京沃东天骏信息技术有限公司 一种生成答案摘要的方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101286161A (zh) * 2008-05-28 2008-10-15 华中科技大学 一种基于概念的智能中文问答系统
US20090070311A1 (en) * 2007-09-07 2009-03-12 At&T Corp. System and method using a discriminative learning approach for question answering
CN103425635A (zh) * 2012-05-15 2013-12-04 北京百度网讯科技有限公司 一种答案推荐方法和装置
CN103902652A (zh) * 2014-02-27 2014-07-02 深圳市智搜信息技术有限公司 自动问答系统
CN104536991A (zh) * 2014-12-10 2015-04-22 乐娟 答案抽取方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090070311A1 (en) * 2007-09-07 2009-03-12 At&T Corp. System and method using a discriminative learning approach for question answering
CN101286161A (zh) * 2008-05-28 2008-10-15 华中科技大学 一种基于概念的智能中文问答系统
CN103425635A (zh) * 2012-05-15 2013-12-04 北京百度网讯科技有限公司 一种答案推荐方法和装置
CN103902652A (zh) * 2014-02-27 2014-07-02 深圳市智搜信息技术有限公司 自动问答系统
CN104536991A (zh) * 2014-12-10 2015-04-22 乐娟 答案抽取方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
LI C等: "Document Summarization via Guided Sentence Compression", 《EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING》 *
LI S等: "Answer summarization via term hierarchical structure", 《IEEE》 *
孙振鹏: "面向问答社区意见选择类问题的答案融合技术研究", 《万方数据》 *
徐振: "面向问答社区的问题类型敏感的答案摘要", 《万方数据》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649612A (zh) * 2016-11-29 2017-05-10 中国银联股份有限公司 一种自动问答模板匹配的方法及装置
CN106649612B (zh) * 2016-11-29 2020-05-01 中国银联股份有限公司 一种自动问答模板匹配的方法及装置
CN107329995A (zh) * 2017-06-08 2017-11-07 北京神州泰岳软件股份有限公司 一种语义受控的答案生成方法、装置及系统
CN107766419A (zh) * 2017-09-08 2018-03-06 广州汪汪信息技术有限公司 一种基于阈值去噪的TextRank文档摘要方法及装置
CN109977428A (zh) * 2019-03-29 2019-07-05 北京金山数字娱乐科技有限公司 一种答案获取的方法及装置
CN109977428B (zh) * 2019-03-29 2024-04-02 北京金山数字娱乐科技有限公司 一种答案获取的方法及装置
CN113761142A (zh) * 2020-09-25 2021-12-07 北京沃东天骏信息技术有限公司 一种生成答案摘要的方法和装置
CN113535957A (zh) * 2021-07-27 2021-10-22 哈尔滨工业大学 基于双重知识交互和多任务学习的对话情绪识别网络模型、构建方法、电子设备及存储介质

Also Published As

Publication number Publication date
CN105740310B (zh) 2019-08-02

Similar Documents

Publication Publication Date Title
CN106844658B (zh) 一种中文文本知识图谱自动构建方法及系统
CN108573411B (zh) 基于用户评论的深度情感分析和多源推荐视图融合的混合推荐方法
CN105740310A (zh) 一种用于问答系统中的自动答案摘要方法及系统
CN101630314B (zh) 一种基于领域知识的语义查询扩展方法
US11775594B2 (en) Method for disambiguating between authors with same name on basis of network representation and semantic representation
CN106951438A (zh) 一种面向开放域的事件抽取系统及方法
CN102737042B (zh) 建立问句生成模型的方法和装置以及问句生成方法和装置
CN104391842A (zh) 一种翻译模型构建方法和系统
CN103886099B (zh) 一种模糊概念的语义检索系统及方法
CN105045826A (zh) 一种基于图模型的实体链接算法
Du et al. An approach for selecting seed URLs of focused crawler based on user-interest ontology
CN111709244A (zh) 一种用于矛盾纠纷事件因果关系识别的深度学习方法
Sadr et al. Unified topic-based semantic models: a study in computing the semantic relatedness of geographic terms
CN107092605A (zh) 一种实体链接方法及装置
CN113761890A (zh) 一种基于bert上下文感知的多层级语义信息检索方法
CN112036178A (zh) 一种配网实体相关的语义搜索方法
CN103678499A (zh) 一种基于多源异构专利数据语义集成的数据挖掘方法
CN101763395A (zh) 采用人工智能技术自动生成网页的方法
CN105335510A (zh) 文本数据高效搜索方法
CN100401301C (zh) 基于本体学习的智能主题式网络爬虫系统构建方法
CN110851584A (zh) 一种法律条文精准推荐系统和方法
CN107480197B (zh) 实体词识别方法及装置
CN113761192B (zh) 文本处理方法、文本处理装置及文本处理设备
CN103699568B (zh) 一种从维基中抽取领域术语间上下位关系的方法
Basile et al. Populating a knowledge base with object-location relations using distributional semantics

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant