CN108595413A - 一种基于语义依存树的答案抽取方法 - Google Patents
一种基于语义依存树的答案抽取方法 Download PDFInfo
- Publication number
- CN108595413A CN108595413A CN201810239159.7A CN201810239159A CN108595413A CN 108595413 A CN108595413 A CN 108595413A CN 201810239159 A CN201810239159 A CN 201810239159A CN 108595413 A CN108595413 A CN 108595413A
- Authority
- CN
- China
- Prior art keywords
- sentence
- candidate answers
- semantic
- tree
- question sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于语义依存树的答案抽取方法,该方法在考虑问句和候选答案句之间的语义关系的基础上,综合考虑向量相似度、词形相似度和依存路径长度相似度,在候选答案句中选取最佳答案,相比于其他算法在选择最佳答案句的准确率上有较大提升。
Description
技术领域
本发明属于自动问答(QA)领域,涉及一种基于语义依存树的答案抽取方法。
背景技术
自动问答系统作为一种新型的搜索引擎,为用户返回精确、简洁的答案,其处理流程为三个模块:问题解析,信息检索,答案抽取。其中,答案抽取算法是答案抽取模块的核心研究问题,算法性能会最直接的影响问答系统用户体验。
答案抽取算法的基本流程是将信息检索模块的结果——排序的段落,作为输入,通过计算分析,选择一个计算权重最高的、与用户问题最相关的、准确、简洁的答案,返回给用户,而不仅仅满足于提供一个含有答案的网页链接。因此,答案抽取模块的本质即为计算候选答案句和查询句的相似度。
常见的答案抽取算法主要有三种:基于模式匹配的算法,该算法的实现无需关心句子的语法语义信息,通过预先定义的答案和问句之间的模式,匹配问句的答案。其模式可以通过手工编辑或机器学习自动生成的方式实现,通过人工总结模式匹配的方式需要耗费大量的精力和时间,需手工编辑抽取规则,总结存在的模式,但准确率要更高。通过机器学习进行模式匹配的方式,依赖于标注语料,通过语料总结问句和答案的共现短语或结构,自动学习,进行结构提取得到模式,进行模式匹配。基于向量空间模型的算法,该算法框架清晰,实现简单且效果较好,被广泛的应用在文本检索领域中的相似度计算排序的实现。在答案抽取中,通过VSM计算各个候选答案和问句之间的相似度,对候选答案进行排序,得到最可能的答案。向量空间模型的计算,假设各个特征词相互独立,虽然在一定程度上简化了计算量,但忽略了特征词之间的语义相关性。基于语法结构的算法通过提取问句和答案句的语法结构和语义信息,进行相似度的计算,将相似度作为句法匹配度,对候选答案排序,并返回匹配度最高的答案。
基于语法结构的算法相比于其他算法,通过语义依存分析来进行语义深层理解,算法性能更好,其中效果较好的算法是基于语义依存树的算法。现有的基于语义依存树的算法中,虽然得到了更全面的语义信息,但计算异常复杂,没有考虑词频、句法结构、关键词之间的关联等特征,往往不能取得良好的效果。
发明内容
基于上述现有技术中存在的问题,本发明的目的在于,提供一种基于语义依存树的答案抽取方法,该方法能够大大降低计算复杂度的同时,且提高选取问句的最佳答案的准确率。
为了实现上述目的,本发明采用如下技术方案:
一种基于语义依存树的答案抽取方法,包括以下步骤:
步骤1,利用语义技术平台对问句和多个候选答案句分别进行依存句法分析,得到问句的语义分析结果和每个候选答案句的语义分析结果;语义分析结果包括语义依存图和语义依存树;
步骤2,选取多个候选答案句中的一个候选答案句,计算该候选答案句的语义依存树与问句的语义依存树之间的向量相似度Simtree;
步骤3,计算问句和步骤2中选取的候选答案句的词形相似度Simword,采用的公式如下:
其中,wi为对问句进行问题解析得到的关键词列表中的第i个关键词,m为对问句进行问题解析得到的关键词列表中关键词的总数,pl为问句的长度,sl为候选答案句的长度;
步骤4,计算问句和步骤2中选取的候选答案句的依存路径长度相似度,具体方法如下:
步骤4.1,对候选答案句采用jieba分词工具包进行分词,得到多个词项;
步骤4.2,在多个词项中找到与问句对应的关键词相同的词项,作为匹配词项;
步骤4.3,采用如下公式计算问句和候选答案句的依存路径长度相似度Simpath:
其中,wi,wj分别表示匹配词项中的第i个匹配词项和第j个匹配词项,a表示匹配词项的个数;path_len(wi,wj)表示匹配词项wi和匹配词项wj的依存路径长度;
步骤5,根据向量相似度Simtree、词形相似度Simword和依存路径长度相似度Simpath,计算得到整体相似度Sim,采用如下公式计算:
Sim=α·Simtree+β·Simword+γ·Simpath
其中,α,β和γ均为调权参数;
步骤6,返回步骤2,在多个候选答案句中重新选取一个候选答案句,得到所有候选答案句对应的整体相似度;选择整体相似度中的最大值对应的候选答案句即为问句的最佳答案句。
可选地,所述步骤2中的计算该候选答案句的语义依存树与问句的语义依存树之间的向量相似度Simtree,采用的方法如下:
步骤2.1:找到问句的语义依存树T1的所有子树以及候选答案句的语义依存树T2的所有子树,所有子树形成子树序列t1,...,tk,...tn,子树序列中的任意两个子树不相同,其中,tk表示子树序列中的第k个子树,n表示子树序列中子树的个数;
步骤2.2:计算该候选答案句的语义依存树与问句的语义依存树之间的向量相似度Simtree,采用的公式如下:
其中,T1为问句的语义依存树,T2为候选答案句的语义依存树,hk(T1)为子树序列中的第k个子树在问句的语义依存树T1中出现的次数,hk(T2)为子树序列中的第k个子树在候选答案句的语义依存树T2中出现的次数。
与现有技术相比,本发明具有以下技术效果:本发明在考虑问句和候选答案句之间的语义关系的基础上,综合考虑向量相似度、词形相似度和依存路径长度相似度,在候选答案句中选取最佳答案,相比于其他算法在选择最佳答案句的准确率上有较大提升。
下面结合附图和具体实施方式对本发明的方案作进一步详细地解释和说明。
附图说明
图1是本发明的流程图;
图2是问句的依存关系图和依存关系树;其中,(a)表示问句的依存关系图,(b)表示问句的依存关系树;
图3是候选答案句的依存关系图和依存关系树;其中,(a)表示候选答案句的依存关系图,(b)表示候选答案句的依存关系树;
具体实施方式
本发明提供一种基于语义依存树的答案抽取方法,参见图1,该方法用于在多个候选答案句中选择出问句的最佳答案句,其特征在于,包括以下步骤:
步骤1,利用哈尔滨工业大学社会计算与信息检索研究中心的语言技术平台(LTP)对问句和多个候选答案句分别进行依存句法分析,得到问句的语义分析结果和每个候选答案句的语义分析结果;语义分析结果包括语义依存图和语义依存树。如图2中的(a)和(b)分别为问句“陕西的省会是哪里”的语义依存图和语义依存树,图3(a)和(b)分别为候选答案句“西安是陕西的省会”的语义依存图和语义依存树。
步骤2,选取多个候选答案句中的一个候选答案句,计算该候选答案句的语义依存树与问句的语义依存树之间的向量相似度Simtree;具体方法如下:
步骤2.1:找到问句的语义依存树T1的所有子树以及候选答案句的语义依存树T2的所有子树,所有子树形成子树序列t1,...,tk,...tn,其中,tk表示子树序列中的第k个子树,n表示子树序列中子树的个数,子树序列中不存在相同子树;
步骤2.2:计算该候选答案句的语义依存树与问句的语义依存树之间的向量相似度Simtree,采用的公式如下:
其中,T1为问句的语义依存树,T2为候选答案句的语义依存树,hk(T1)为子树序列中的第k个子树在问句的语义依存树T1中出现的次数,hk(T2)为子树序列中的第k个子树在候选答案句的语义依存树T2中出现的次数。
步骤3,计算问句和步骤2中选取的候选答案句的词形相似度Simword,采用的公式如下:
其中,wi为对问句进行问题解析得到的关键词列表中的第i个关键词,m为对问句进行问题解析得到的关键词列表中关键词的总数,pl为问句的长度,sl为候选答案句的长度。
步骤4,计算问句和步骤2中选取的候选答案句的依存路径长度相似度,具体方法如下:
步骤4.1,对候选答案句采用jieba分词工具包进行分词,得到多个词项;
步骤4.2,在多个词项中找到与问句对应的关键词相同的词项,作为匹配词项;问句对应的关键词指的是对问句进行问题解析得到的关键词列表中的关键词。
步骤4.3,采用如下公式计算问句和候选答案句的依存路径长度相似度Simpath:
其中,wi,wj分别表示匹配词项中的第i个匹配词项和第j个匹配词项,a表示匹配词项的个数;path_len(wi,wj)表示匹配词项wi和匹配词项wj的依存路径长度,该依存路径长度通过候选答案句的依存关系图即可得到。如图3中的(a)中词项“陕西”和“首都”的依存路径长度为1,“西安”和“陕西”的依存路径长度为3。
步骤5,根据向量相似度、词形相似度和依存路径长度相似度,计算得到整体相似度Sim,采用如下公式计算:
Sim=α·Simtree+β·Simword+γ·Simpath
其中,α,β和γ均为调权参数,在本实施例中,α=0.7,β=0.1,γ=0.1。
步骤6,返回步骤2,在多个候选答案句中重新选取一个候选答案句,得到所有候选答案句对应的整体相似度;选择整体相似度中的最大值对应的候选答案句即为问句的最佳答案句。
实施例:
本实施例使用了从百度知道中爬取并选择了5340个问句,一个问句对应多个答案,将每个问句的答案打破原有顺序重新混合,利用本发明的基于语义依存树的改进算法,获取问句的最佳答案句。
利用准确率和MRR(平均排序倒数)值衡量方法性能,并将本发明的方法与基于向量空间模型的算法和原始基于语义依存树的算法对比,其结果如表1所示,从表1可知,本发明的方法综合考虑向量相似度、词形相似度和依存路径长度相似度,相比于其他算法在选择最佳答案句的准确率上有较大提升。
表1
Claims (2)
1.一种基于语义依存树的答案抽取方法,其特征在于,包括以下步骤:
步骤1,利用语义技术平台对问句和多个候选答案句分别进行依存句法分析,得到问句的语义分析结果和每个候选答案句的语义分析结果;语义分析结果包括语义依存图和语义依存树;
步骤2,选取多个候选答案句中的一个候选答案句,计算该候选答案句的语义依存树与问句的语义依存树之间的向量相似度Simtree;
步骤3,计算问句和步骤2中选取的候选答案句的词形相似度Simword,采用的公式如下:
其中,wi为对问句进行问题解析得到的关键词列表中的第i个关键词,m为对问句进行问题解析得到的关键词列表中关键词的总数,pl为问句的长度,sl为候选答案句的长度;
步骤4,计算问句和步骤2中选取的候选答案句的依存路径长度相似度,具体方法如下:
步骤4.1,对候选答案句采用j ieba分词工具包进行分词,得到多个词项;
步骤4.2,在多个词项中找到与问句对应的关键词相同的词项,作为匹配词项;
步骤4.3,采用如下公式计算问句和候选答案句的依存路径长度相似度Simpath:
其中,wi,wj分别表示匹配词项中的第i个匹配词项和第j个匹配词项,a表示匹配词项的个数;path-len(wi,wj)表示匹配词项wi和匹配词项wj的依存路径长度;
步骤5,根据向量相似度Simtree、词形相似度Simword和依存路径长度相似度Simpath,计算得到整体相似度Sim,采用如下公式计算:
Sim=α·Simtree+β·Simword+γ·Simpath
其中,α,β和γ均为调权参数;
步骤6,返回步骤2,在多个候选答案句中重新选取一个候选答案句,得到所有候选答案句对应的整体相似度;选择整体相似度中的最大值对应的候选答案句即为问句的最佳答案句。
2.如权利要求1所述的基于语义依存树的答案抽取方法,其特征在于,所述步骤2中的计算该候选答案句的语义依存树与问句的语义依存树之间的向量相似度Simtree,采用的方法如下:
步骤2.1:找到问句的语义依存树T1的所有子树以及候选答案句的语义依存树T2的所有子树,所有子树形成子树序列t1,...,tk,...tn,子树序列中的任意两个子树不相同,其中,tk表示子树序列中的第k个子树,n表示子树序列中子树的个数;
步骤2.2:计算该候选答案句的语义依存树与问句的语义依存树之间的向量相似度Simtree,采用的公式如下:
其中,T1为问句的语义依存树,T2为候选答案句的语义依存树,hk(T1)为子树序列中的第k个子树在问句的语义依存树T1中出现的次数,hk(T2)为子树序列中的第k个子树在候选答案句的语义依存树T2中出现的次数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810239159.7A CN108595413B (zh) | 2018-03-22 | 2018-03-22 | 一种基于语义依存树的答案抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810239159.7A CN108595413B (zh) | 2018-03-22 | 2018-03-22 | 一种基于语义依存树的答案抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108595413A true CN108595413A (zh) | 2018-09-28 |
CN108595413B CN108595413B (zh) | 2021-11-09 |
Family
ID=63626974
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810239159.7A Expired - Fee Related CN108595413B (zh) | 2018-03-22 | 2018-03-22 | 一种基于语义依存树的答案抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108595413B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109948143A (zh) * | 2019-01-25 | 2019-06-28 | 网经科技(苏州)有限公司 | 社区问答系统的答案抽取方法 |
CN111259653A (zh) * | 2020-01-15 | 2020-06-09 | 重庆邮电大学 | 基于实体关系消歧的知识图谱问答方法、系统以及终端 |
CN111666770A (zh) * | 2020-06-02 | 2020-09-15 | 泰康保险集团股份有限公司 | 一种语义匹配方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102298642A (zh) * | 2011-09-15 | 2011-12-28 | 苏州大学 | 文本信息抽取方法和系统 |
CN103226580A (zh) * | 2013-04-02 | 2013-07-31 | 西安交通大学 | 一种面向交互文本的话题识别方法 |
CN103617280A (zh) * | 2013-12-09 | 2014-03-05 | 苏州大学 | 一种中文事件信息挖掘方法和系统 |
CN104598445A (zh) * | 2013-11-01 | 2015-05-06 | 腾讯科技(深圳)有限公司 | 自动问答系统和方法 |
US20160275073A1 (en) * | 2015-03-20 | 2016-09-22 | Microsoft Technology Licensing, Llc | Semantic parsing for complex knowledge extraction |
CN106649266A (zh) * | 2016-11-29 | 2017-05-10 | 北京科技大学 | 一种本体知识的逻辑推理方法 |
-
2018
- 2018-03-22 CN CN201810239159.7A patent/CN108595413B/zh not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102298642A (zh) * | 2011-09-15 | 2011-12-28 | 苏州大学 | 文本信息抽取方法和系统 |
CN103226580A (zh) * | 2013-04-02 | 2013-07-31 | 西安交通大学 | 一种面向交互文本的话题识别方法 |
CN104598445A (zh) * | 2013-11-01 | 2015-05-06 | 腾讯科技(深圳)有限公司 | 自动问答系统和方法 |
CN103617280A (zh) * | 2013-12-09 | 2014-03-05 | 苏州大学 | 一种中文事件信息挖掘方法和系统 |
US20160275073A1 (en) * | 2015-03-20 | 2016-09-22 | Microsoft Technology Licensing, Llc | Semantic parsing for complex knowledge extraction |
CN106649266A (zh) * | 2016-11-29 | 2017-05-10 | 北京科技大学 | 一种本体知识的逻辑推理方法 |
Non-Patent Citations (3)
Title |
---|
MICHAEL MOHLER: "Learning to Grade Short Answer Questions using Semantic Sililarity Measures and Dependency Graph Alignments", 《PROCEEDINGS OF THE 49TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 * |
崔桓 等: "基于网络的中文问答系统及信息抽取算法研究", 《中文信息学报》 * |
王肖磊: "自动问答系统的研究与应用", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109948143A (zh) * | 2019-01-25 | 2019-06-28 | 网经科技(苏州)有限公司 | 社区问答系统的答案抽取方法 |
CN111259653A (zh) * | 2020-01-15 | 2020-06-09 | 重庆邮电大学 | 基于实体关系消歧的知识图谱问答方法、系统以及终端 |
CN111259653B (zh) * | 2020-01-15 | 2022-06-24 | 重庆邮电大学 | 基于实体关系消歧的知识图谱问答方法、系统以及终端 |
CN111666770A (zh) * | 2020-06-02 | 2020-09-15 | 泰康保险集团股份有限公司 | 一种语义匹配方法及装置 |
CN111666770B (zh) * | 2020-06-02 | 2023-07-18 | 泰康保险集团股份有限公司 | 一种语义匹配方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN108595413B (zh) | 2021-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108052583B (zh) | 电商本体构建方法 | |
CN109492077B (zh) | 基于知识图谱的石化领域问答方法及系统 | |
CN106649260B (zh) | 基于评论文本挖掘的产品特征结构树构建方法 | |
CN109800284B (zh) | 一种面向任务的非结构化信息智能问答系统构建方法 | |
CN111125334B (zh) | 一种基于预训练的搜索问答系统 | |
CN109948143B (zh) | 社区问答系统的答案抽取方法 | |
CN110377715A (zh) | 基于法律知识图谱的推理式精准智能问答方法 | |
CN105528437B (zh) | 一种基于结构化文本知识提取的问答系统构建方法 | |
CN107818164A (zh) | 一种智能问答方法及其系统 | |
CN103218436B (zh) | 一种融合用户类别标签的相似问题检索方法及装置 | |
CN112035730B (zh) | 一种语义检索方法、装置及电子设备 | |
CN106815252A (zh) | 一种搜索方法和设备 | |
CN107992542A (zh) | 一种基于主题模型的相似文章推荐方法 | |
CN109002473A (zh) | 一种基于词向量与词性的情感分析方法 | |
CN113268569B (zh) | 基于语义的关联词查找方法及装置、电子设备、存储介质 | |
CN102253982A (zh) | 一种基于查询语义和点击流数据的查询建议方法 | |
CN110362678A (zh) | 一种自动提取中文文本关键词的方法与装置 | |
CN105426529A (zh) | 基于用户搜索意图定位的图像检索方法及系统 | |
CN112307182B (zh) | 一种基于问答系统的伪相关反馈的扩展查询方法 | |
CN111414763A (zh) | 一种针对手语计算的语义消歧方法、装置、设备及存储装置 | |
CN110348024A (zh) | 基于法律知识图谱的智能识别系统 | |
CN111625621B (zh) | 一种文档检索方法、装置、电子设备及存储介质 | |
CN112507109A (zh) | 一种基于语义分析与关键词识别的检索方法和装置 | |
CN108984711B (zh) | 一种基于分层嵌入的个性化app推荐方法 | |
CN112036178A (zh) | 一种配网实体相关的语义搜索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20211109 |
|
CF01 | Termination of patent right due to non-payment of annual fee |