CN113742469B - 基于Pipeline处理和ES储存问答系统构建方法 - Google Patents
基于Pipeline处理和ES储存问答系统构建方法 Download PDFInfo
- Publication number
- CN113742469B CN113742469B CN202111030767.5A CN202111030767A CN113742469B CN 113742469 B CN113742469 B CN 113742469B CN 202111030767 A CN202111030767 A CN 202111030767A CN 113742469 B CN113742469 B CN 113742469B
- Authority
- CN
- China
- Prior art keywords
- question
- answer
- sentences
- rewritten
- features
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000012545 processing Methods 0.000 title claims abstract description 15
- 238000003860 storage Methods 0.000 title claims abstract description 15
- 238000004140 cleaning Methods 0.000 claims abstract description 18
- 230000008707 rearrangement Effects 0.000 claims abstract description 6
- 230000011218 segmentation Effects 0.000 claims description 18
- 238000000605 extraction Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 7
- 238000007689 inspection Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 5
- 238000002372 labelling Methods 0.000 claims description 3
- 239000000203 mixture Substances 0.000 claims description 3
- 230000007547 defect Effects 0.000 abstract description 3
- 238000003058 natural language processing Methods 0.000 abstract description 3
- 238000012423 maintenance Methods 0.000 abstract description 2
- 235000013336 milk Nutrition 0.000 description 9
- 239000008267 milk Substances 0.000 description 9
- 210000004080 milk Anatomy 0.000 description 9
- 239000000843 powder Substances 0.000 description 6
- 239000003973 paint Substances 0.000 description 3
- YTAHJIFKAKIKAV-XNMGPUDCSA-N [(1R)-3-morpholin-4-yl-1-phenylpropyl] N-[(3S)-2-oxo-5-phenyl-1,3-dihydro-1,4-benzodiazepin-3-yl]carbamate Chemical compound O=C1[C@H](N=C(C2=C(N1)C=CC=C2)C1=CC=CC=C1)NC(O[C@H](CCN1CCOCC1)C1=CC=CC=C1)=O YTAHJIFKAKIKAV-XNMGPUDCSA-N 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 210000004251 human milk Anatomy 0.000 description 2
- 235000020256 human milk Nutrition 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 244000146462 Centella asiatica Species 0.000 description 1
- 235000004032 Centella asiatica Nutrition 0.000 description 1
- 206010012735 Diarrhoea Diseases 0.000 description 1
- 206010020994 Hypoglycaemia neonatal Diseases 0.000 description 1
- 206010036590 Premature baby Diseases 0.000 description 1
- 210000000481 breast Anatomy 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000008230 hearing development Effects 0.000 description 1
- 208000005252 hepatitis A Diseases 0.000 description 1
- 238000011081 inoculation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002028 premature Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000007958 sleep Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 230000009261 transgenic effect Effects 0.000 description 1
- 230000007306 turnover Effects 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及自然语言处理,具体涉及基于Pipeline处理和ES储存问答系统构建方法,对行业领域数据问答对进行收集清洗,并针对问答对中的问题构建多维度语义特征标签;将问答对中的问题及与其对应匹配的多维度语义特征标签、答案批量存入ES数据库;判断输入问题语句中是否包含敏感词,若包含敏感词则直接给出答案,否则对输入问题语句进行改写;对改写后的问题语句进行多维度语义特征标签抽取,并转化为查询语句,召回候选问答对;对改写后的问题语句与候选问答对中的问题进行相似度打分重排,推荐最优答案;本发明提供的技术方案能够克服现有技术所存在的缺乏对问答对库的全面维护、对输入问题与库内候选问题的相似判定不够准确的缺陷。
Description
技术领域
本发明涉及自然语言处理,具体涉及基于Pipeline处理和ES储存问答系统构建方法。
背景技术
问答系统是自然语言处理领域中一项比较复杂和困难的任务,该任务就是给定一个问题,系统能够给出合理准确的答案。按照目前国内外研究进展,依据答案来源划分,可以把问答系统划分为基于结构化的问答系统、基于文本的问答系统、基于FAQ问答对的问答系统。
基于结构化的问答系统,就是将问题带入提前准备好的结构化知识库寻求答案,它能够解析输入的自然语言问句,并将解析结果转化为对应的SPARQL查询语句来获取答案。这样的问答系统,回答问题准确,逻辑性强,但是构造系统的难度特别大,需要构建一个高质量的知识图谱。而经常能获取到的数据都是非结构化的,要想从非结构化数据中提取出结构化数据,这显然是一个巨大的工程,需要高额的成本。
基于文本的问答系统中给定问题,能够从答案集中检索出对应答案,需要对问题的语义理解非常准确,同时抽取的答案也要准确合理,然而目前是不太容易做到的。
基于FAQ问答对的问答系统预先将问题和答案进行匹配,构建了一个常见问答对库,进行问题检索时只需要判定问题和库内候选问题是否相似就可以。
常见的FAQ问答系统在构建问答对库时,仅仅只是维护了问答对,没有维护其他的特征,推荐的准确性就很依赖问题和库内候选问题相似判定的准确度。目前,问题和库内候选问题的相似判定大多采用Bert模型进行语义表征来计算余弦相似度,需要大量标注相似语句,并且针对一些实例采用Bert模型进行语义表征来计算余弦相似度并不能准确判定语句是否相似,对于这些难题并不能很好地解决,这样构建的问答系统就不是那么高效和可控了,后续的优化也无法很好地持续进行下去。
发明内容
(一)解决的技术问题
针对现有技术所存在的上述缺点,本发明提供了基于Pipeline处理和ES储存问答系统构建方法,能够有效克服现有技术所存在的缺乏对问答对库的全面维护、对输入问题与库内候选问题的相似判定不够准确的缺陷。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
基于Pipeline处理和ES储存问答系统构建方法,包括以下步骤:
S1、对行业领域数据问答对进行收集清洗,并针对问答对中的问题构建多维度语义特征标签;
S2、将问答对中的问题及与其对应匹配的多维度语义特征标签、答案批量存入ES数据库;
S3、判断输入问题语句中是否包含敏感词,若包含敏感词则直接给出答案,否则对输入问题语句进行改写;
S4、对改写后的问题语句进行多维度语义特征标签抽取,并将改写后的问题语句与得到的多维度语义特征标签转化为查询语句,在ES数据库中经过查询和搜索,召回候选问答对;
S5、对改写后的问题语句与候选问答对中的问题进行相似度打分重排,推荐最优答案。
优选地,S1中对行业领域数据问答对进行收集清洗,包括:
收集行业领域数据问答对,对问答对进行噪声清洗和质量审查,形成原始模板数据,并对原始模板数据进行扩充。
优选地,所述对原始模板数据进行扩充,包括:
将行业领域内历史对话语料逐条存入ES数据库中进行检索,设定检索结果的得分阈值,选取与原始模板数据相似的行业领域内历史对话语料,进行噪声清洗和质量审查后直接扩充至对应原始模板数据中。
优选地,所述多维度语义特征标签包括句式特征、核心实体特征、关键词特征和一级意图特征、二级意图特征。
优选地,所述核心实体特征的构建方法包括:
对问题语句进行句法分析,得出问题语句的句法组成成分以及分词单位的词性,根据每个分词单位的词性、句法关系类型数目以及句法关系类型的权重进行累计打分,提取分值最高的分词单位作为核心实体。
优选地,所述关键词特征的构建方法包括:
人工收集问题语句中特征明显的词汇,针对每个具体业务场景梳理出关键词列表;
采用字典树存储关键词列表中的关键词,并将关键词分为must强匹配类型和should弱匹配类型,当问题语句中具有相同must强匹配类型的关键词才会被召回,而should弱匹配类型的关键词用于调节被召回的可能性大小;
输入问题语句后,以字符为单位在字典树上进行强匹配,匹配到一个完整路径就可以视为关键词。
优选地,S3中对输入问题语句进行改写,包括:
基于相似词列表将输入问题语句替换成同一表达方式,并进行噪声清洗;
对噪声清洗后的问题文本进行标注,对判断是否需要继承上一轮核心实体的实体继承模型进行训练;
当实体继承模型检测到继承核心实体意图时,将上一轮的核心实体直接拼接在当前问题语句的句尾。
优选地,S4中对改写后的问题语句进行多维度语义特征标签抽取,包括:
采用Pipeline方式对改写后的问题语句进行多维度语义特征标签抽取,在第一节点中分别通过句式提取模型、核心实体提取模型、关键词提取模型、一级意图模型对句式特征、核心实体特征、关键词特征、一级意图特征进行提取;在第二节点中通过二级意图模型提取二级意图特征。
优选地,S5中对改写后的问题语句与候选问答对中的问题进行相似度打分重排,推荐最优答案,包括:
基于停用词列表去掉没有实际意义的停用词,提取改写后的问题语句、候选问答对中的问题中的n_span单位集合,计算改写后的问题语句与候选问答对中的问题的相似度得分,按照相似度得分对候选问答对进行排序,并将大于相似度阈值的相似度得分最高的候选问答对中的答案作为最优答案进行推荐。
优选地,还包括在系统线上部署后,根据用户使用后的不合理反馈,分析不合理原因,并对系统进行更新优化。
(三)有益效果
与现有技术相比,本发明所提供的基于Pipeline处理和ES储存问答系统构建方法,具有以下有益效果:
1)通过梳理行业领域内历史对话语料,构建FAQ问答对,提取包含句式特征、核心实体特征、关键词特征和一级意图特征、二级意图特征的多维度语义特征标签,能够快速构建知识库;
2)在答案召回阶段通过对输入问题语句的句式特征、核心实体特征、关键词特征、一级意图特征和二级意图特征的提取,以及对是否需要继承上一轮核心实体的准确判断,保证了答案召回结果更加合理;
3)在最优答案推荐阶段,通过基于n_span的相似性度量方法,不需要模型训练,能够快速对答案召回结果进行打分,保证了答案匹配的精准性;
4)同时该方法保证了系统优化和迭代的速度,对于用户的不合理反馈,只需要通过调整对应模型或者新增知识库中的问答对就能解决,保证了问答系统的可控性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的流程示意图;
图2为本发明中核心实体特征构建方法的示例图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
基于Pipeline处理和ES储存问答系统构建方法,如图1所示,S1、对行业领域数据问答对进行收集清洗,并针对问答对中的问题构建多维度语义特征标签。
其中,对行业领域数据问答对进行收集清洗,包括:
收集行业领域数据问答对,对问答对进行噪声清洗和质量审查(主要对问答对中的错别字进行更正,以及对问题与答案之间进行准确匹配,保证原始模板数据的准确性),形成原始模板数据,并对原始模板数据进行扩充。
其中,对原始模板数据进行扩充,包括:
将行业领域内历史对话语料逐条存入ES数据库中进行检索,设定检索结果的得分阈值,选取与原始模板数据相似的行业领域内历史对话语料,进行噪声清洗和质量审查后直接扩充至对应原始模板数据中。
本申请技术方案中,多维度语义特征标签包括句式特征、核心实体特征、关键词特征和一级意图特征、二级意图特征。
句式主要涉及:what/where/when/how/why/if/which/long/其他。为了答案召回时,从知识库中检索的问题更加精准,可以使用该特征进行判定,使用强逻辑关系。句子的句式一般使用正则表达式就可以得到很高的准确率,举例如下:
新生儿低血糖是什么/什么是优质母乳/用什么储存母乳最合适——what——是什么/什么是/什么
0-6月宝宝抵抗力不好体现在哪里/罐装的奶粉生产日期印在什么地方的?——where——哪里/什么地方(地点地址)
百白破接种月龄在什么时候?/转奶的最佳时间——when——什么时候/时间(时机/周几/几号)
怎么测量宝宝身高体重是否标准?/如何刺激婴儿听力发育?/新生儿宝宝不爱喝奶瓶怎么办——how——怎么/如何/怎么办
宝宝睡觉为什么总出汗/母乳性腹泻的原因/3段奶粉为何这么潮湿/——why——为什么/原因/为何
早产宝宝需要喝早产奶粉吗?/奶粉中是否添加转基因原料?——if——吗?/是否
母乳多久喂养合适?/甲肝疫苗有效期——long——多久/有效期
美素和港版的区别/宝宝多大会翻身/宝宝大便干燥/奶粉发现异物/奶粉比较黄/6个月宝宝的奶量——其他。
核心实体特征的构建方法包括:
对问题语句进行句法分析,得出问题语句的句法组成成分以及分词单位的词性,根据每个分词单位的词性、句法关系类型数目以及句法关系类型的权重进行累计打分,提取分值最高的分词单位作为核心实体。
具体算法如下:
如图2所示,采用ddparser对问题语句进行分词和句法依存分析,得到分词结果:['我','不','明白','座位险','是','做','什么','的']
'partSpeech':['r','d','nr','n','v','v','r','uj']
'relations':{1:['SBV'],2:['ADV'],3:['SBV','ADV','HED','VOB'],4:['SBV'],5:['SBV','VOB','VOB'],6:['ATT','VOB'],7:['VOB'],8:['ATT','VOB']}
根据每个分词单位的词性、句法关系类型数目以及句法关系类型的权重进行累计打分,具有HED关系的那个分词单位如果不是名词则score为0,其他情形的评分规则如下:
对每个分词单位具有句法关系类型的权重求和:
其中,relationsweightsj表示第j个分词单位具有的关系类型权重的集合,每个关系的权重值是提前设定的;
上一步scorej乘以该分词单位具有的关系类型数目权重:
其中,r表示所有关系类型的数目,rj表示第j个分词单位具有的关系类型数目;
上一步scorej’乘以分词单位的词性权重:
scorej”=scorej'*pj
其中,pj表示j个分词单位具有的词性权重,词性权重是提前设定的,可以根据业务修改。
此外,对于句子成分不全,提取不到核心实体的问题语句,需要其他方法进行补充。
关键词特征的构建方法包括:
人工收集问题语句中特征明显的词汇,针对每个具体业务场景梳理出关键词列表;
采用字典树存储关键词列表中的关键词,并将关键词分为must强匹配类型和should弱匹配类型,当问题语句中具有相同must强匹配类型的关键词才会被召回,而should弱匹配类型的关键词用于调节被召回的可能性大小;
输入问题语句后,以字符为单位在字典树上进行强匹配,匹配到一个完整路径就可以视为关键词。
具体示例如下:
漆 must强匹配类型-漆
机场停车 must强匹配类型-机场停车
道路救援 must强匹配类型-道路救援
便宜 should弱匹配类型(价格相关)-议价
多少钱 should弱匹配类型(价格相关)-议价
费用 should弱匹配类型(价格相关)-议价
道路救援、机场停车、漆这些关键词在它们所在的语境下都是能充分体现本质区别,具有很明显的区分性;费用、多少钱、便宜它们所在的语境下就不是本质特征了,但是它们能在相似度体现上体现作用。
根据现有的问题语句数据,进行业务梳理,标注出一级、二级意图,其中一级意图之间最好界限比较明显,每一个一级意图有相应的二级意图。当达到一定数据量后,就可以训练相应的意图分类模型,作为意图提取器在答案召回阶段进行意图提取。具体示例如下:
一级意图:信息咨询、询价、赠品
二级意图:
信息咨询——保险标志、过户、产品信息、退保
询价——报价、比价、砍价
赠品——索要、置换、操作、过期、何时到达。
S2、将问答对中的问题及与其对应匹配的多维度语义特征标签、答案批量存入ES数据库。
在完成多维度语义特征标签的抽取后,每个问题具有与之匹配的多个标签——句式特征标签、核心实体特征标签、关键词特征标签和一级意图特征标签、二级意图特征标签,还有对应匹配的答案。把问题之外的所有字段都设置为keyword类型,问题设置为text类型,然后批量写入ES数据库。
S3、判断输入问题语句中是否包含敏感词,若包含敏感词则直接给出答案,否则对输入问题语句进行改写。
其中,对输入问题语句进行改写,包括:
基于相似词列表将输入问题语句替换成同一表达方式,并进行噪声清洗(例如句末的标点符号以及句中微信表情包转成的特殊文本等);
对噪声清洗后的问题文本进行标注,对判断是否需要继承上一轮核心实体的实体继承模型进行训练;
当实体继承模型检测到继承核心实体意图时,将上一轮的核心实体直接拼接在当前问题语句的句尾。
S4、对改写后的问题语句进行多维度语义特征标签抽取,并将改写后的问题语句与得到的多维度语义特征标签转化为查询语句,在ES数据库中经过查询和搜索,召回候选问答对。
其中,对改写后的问题语句进行多维度语义特征标签抽取,包括:
采用Pipeline方式对改写后的问题语句进行多维度语义特征标签抽取,在第一节点中分别通过句式提取模型、核心实体提取模型、关键词提取模型、一级意图模型对句式特征、核心实体特征、关键词特征、一级意图特征进行提取;在第二节点中通过二级意图模型提取二级意图特征。
S5、对改写后的问题语句与候选问答对中的问题进行相似度打分重排,推荐最优答案,具体包括:
基于停用词列表去掉没有实际意义的停用词,提取改写后的问题语句、候选问答对中的问题中的n_span单位集合,计算改写后的问题语句与候选问答对中的问题的相似度得分,按照相似度得分对候选问答对进行排序,并将大于相似度阈值的相似度得分最高的候选问答对中的答案作为最优答案进行推荐。
具体示例如下:
对改写后的问题语句“安检怎么搞”提取3_span单位集合:
[‘安’,‘检’,‘怎’,‘么’,‘搞’,‘安检’,‘检怎’,‘怎么’,‘么搞’,‘安检怎’,‘检怎么’,‘怎么搞’];
计算改写后的问题语句与候选问答对中的问题的相似度得分:
其中,Sq为改写后的问题语句的3_span单位集合,Sc为候选问答对中的问题中的3_span单位集合;
按照相似度得分对候选问答对进行排序,并将大于相似度阈值的相似度得分最高的候选问答对中的答案作为最优答案(Top1答案)进行推荐。
本申请技术方案中,还包括在系统线上部署后,根据用户使用后的不合理反馈(图中为badcase),分析不合理原因,并对系统进行更新优化。
若知识库中缺乏对应匹配答案时,对知识库中的问答对进行更新。
若对改写后的问题语句进行关键词特征抽取错误,则调整更新关键词列表;若对改写后的问题语句进行一级意图特征、二级意图特征抽取错误,则更新一级意图模型、二级意图模型的训练集,并进行模型训练。
若在对输入问题语句进行改写过程中,对是否需要继承上一轮核心实体判断错误,则更新实体继承模型的训练集,并进行模型训练。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不会使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (7)
1.基于Pipeline处理和ES储存问答系统构建方法,其特征在于:包括以下步骤:
S1、对行业领域数据问答对进行收集清洗,并针对问答对中的问题构建多维度语义特征标签;
S2、将问答对中的问题及与其对应匹配的多维度语义特征标签、答案批量存入ES数据库;
S3、判断输入问题语句中是否包含敏感词,若包含敏感词则直接给出答案,否则对输入问题语句进行改写;
S4、对改写后的问题语句进行多维度语义特征标签抽取,并将改写后的问题语句与得到的多维度语义特征标签转化为查询语句,在ES数据库中经过查询和搜索,召回候选问答对;
S5、对改写后的问题语句与候选问答对中的问题进行相似度打分重排,推荐最优答案;
所述多维度语义特征标签包括句式特征、核心实体特征、关键词特征和一级意图特征、二级意图特征;
所述核心实体特征的构建方法包括:
对问题语句进行句法分析,得出问题语句的句法组成成分以及分词单位的词性,根据每个分词单位的词性、句法关系类型数目以及句法关系类型的权重进行累计打分,提取分值最高的分词单位作为核心实体;
所述关键词特征的构建方法包括:
人工收集问题语句中特征明显的词汇,针对每个具体业务场景梳理出关键词列表;
采用字典树存储关键词列表中的关键词,并将关键词分为must强匹配类型和should弱匹配类型,当问题语句中具有相同must强匹配类型的关键词才会被召回,而should弱匹配类型的关键词用于调节被召回的可能性大小;
输入问题语句后,以字符为单位在字典树上进行强匹配,匹配到一个完整路径就可以视为关键词。
2.根据权利要求1所述的基于Pipeline处理和ES储存问答系统构建方法,其特征在于:S1中对行业领域数据问答对进行收集清洗,包括:
收集行业领域数据问答对,对问答对进行噪声清洗和质量审查,形成原始模板数据,并对原始模板数据进行扩充。
3.根据权利要求2所述的基于Pipeline处理和ES储存问答系统构建方法,其特征在于:所述对原始模板数据进行扩充,包括:
将行业领域内历史对话语料逐条存入ES数据库中进行检索,设定检索结果的得分阈值,选取与原始模板数据相似的行业领域内历史对话语料,进行噪声清洗和质量审查后直接扩充至对应原始模板数据中。
4.根据权利要求1所述的基于Pipeline处理和ES储存问答系统构建方法,其特征在于:S3中对输入问题语句进行改写,包括:
基于相似词列表将输入问题语句替换成同一表达方式,并进行噪声清洗;
对噪声清洗后的问题文本进行标注,对判断是否需要继承上一轮核心实体的实体继承模型进行训练;
当实体继承模型检测到继承核心实体意图时,将上一轮的核心实体直接拼接在当前问题语句的句尾。
5.根据权利要求1所述的基于Pipeline处理和ES储存问答系统构建方法,其特征在于:S4中对改写后的问题语句进行多维度语义特征标签抽取,包括:
采用Pipeline方式对改写后的问题语句进行多维度语义特征标签抽取,在第一节点中分别通过句式提取模型、核心实体提取模型、关键词提取模型、一级意图模型对句式特征、核心实体特征、关键词特征、一级意图特征进行提取;在第二节点中通过二级意图模型提取二级意图特征。
6.根据权利要求1所述的基于Pipeline处理和ES储存问答系统构建方法,其特征在于:S5中对改写后的问题语句与候选问答对中的问题进行相似度打分重排,推荐最优答案,包括:
基于停用词列表去掉没有实际意义的停用词,提取改写后的问题语句、候选问答对中的问题中的n_span单位集合,计算改写后的问题语句与候选问答对中的问题的相似度得分,按照相似度得分对候选问答对进行排序,并将大于相似度阈值的相似度得分最高的候选问答对中的答案作为最优答案进行推荐。
7.根据权利要求1所述的基于Pipeline处理和ES储存问答系统构建方法,其特征在于:还包括在系统线上部署后,根据用户使用后的不合理反馈,分析不合理原因,并对系统进行更新优化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111030767.5A CN113742469B (zh) | 2021-09-03 | 2021-09-03 | 基于Pipeline处理和ES储存问答系统构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111030767.5A CN113742469B (zh) | 2021-09-03 | 2021-09-03 | 基于Pipeline处理和ES储存问答系统构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113742469A CN113742469A (zh) | 2021-12-03 |
CN113742469B true CN113742469B (zh) | 2023-12-15 |
Family
ID=78735337
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111030767.5A Active CN113742469B (zh) | 2021-09-03 | 2021-09-03 | 基于Pipeline处理和ES储存问答系统构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113742469B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115952270B (zh) * | 2023-03-03 | 2023-05-30 | 中国海洋大学 | 冰箱的智能问答方法、装置和存储介质 |
CN117633170A (zh) * | 2023-11-07 | 2024-03-01 | 中译语通科技股份有限公司 | 一种思维链数据构造方法、装置,电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101662450B1 (ko) * | 2015-05-29 | 2016-10-05 | 포항공과대학교 산학협력단 | 다중 소스 하이브리드 질의응답 방법 및 시스템 |
CN108345672A (zh) * | 2018-02-09 | 2018-07-31 | 平安科技(深圳)有限公司 | 智能应答方法、电子装置及存储介质 |
CN111046154A (zh) * | 2019-11-20 | 2020-04-21 | 泰康保险集团股份有限公司 | 信息检索方法、装置、介质及电子设备 |
CN112069298A (zh) * | 2020-07-31 | 2020-12-11 | 杭州远传新业科技有限公司 | 基于语义网和意图识别的人机交互方法、设备及介质 |
CN112347760A (zh) * | 2020-11-16 | 2021-02-09 | 北京京东尚科信息技术有限公司 | 意图识别模型的训练方法及装置、意图识别方法及装置 |
CN112860865A (zh) * | 2021-02-10 | 2021-05-28 | 达而观信息科技(上海)有限公司 | 一种智能问答的实现方法、装置、设备及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107729468B (zh) * | 2017-10-12 | 2019-12-17 | 华中科技大学 | 基于深度学习的答案抽取方法及系统 |
CN107993724B (zh) * | 2017-11-09 | 2020-11-13 | 易保互联医疗信息科技(北京)有限公司 | 一种医学智能问答数据处理的方法及装置 |
CN112667799B (zh) * | 2021-03-15 | 2021-06-01 | 四川大学 | 一种基于语言模型和实体匹配的医疗问答系统构建方法 |
-
2021
- 2021-09-03 CN CN202111030767.5A patent/CN113742469B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101662450B1 (ko) * | 2015-05-29 | 2016-10-05 | 포항공과대학교 산학협력단 | 다중 소스 하이브리드 질의응답 방법 및 시스템 |
CN108345672A (zh) * | 2018-02-09 | 2018-07-31 | 平安科技(深圳)有限公司 | 智能应答方法、电子装置及存储介质 |
CN111046154A (zh) * | 2019-11-20 | 2020-04-21 | 泰康保险集团股份有限公司 | 信息检索方法、装置、介质及电子设备 |
CN112069298A (zh) * | 2020-07-31 | 2020-12-11 | 杭州远传新业科技有限公司 | 基于语义网和意图识别的人机交互方法、设备及介质 |
CN112347760A (zh) * | 2020-11-16 | 2021-02-09 | 北京京东尚科信息技术有限公司 | 意图识别模型的训练方法及装置、意图识别方法及装置 |
CN112860865A (zh) * | 2021-02-10 | 2021-05-28 | 达而观信息科技(上海)有限公司 | 一种智能问答的实现方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113742469A (zh) | 2021-12-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110298033B (zh) | 关键词语料标注训练提取系统 | |
CN110442760B (zh) | 一种问答检索系统的同义词挖掘方法及装置 | |
WO2018153215A1 (zh) | 一种自动生成语义相近句子样本的方法 | |
CN108255813B (zh) | 一种基于词频-逆文档与crf的文本匹配方法 | |
CN111324742B (zh) | 一种数字人文知识图谱的构建方法 | |
CN113742469B (zh) | 基于Pipeline处理和ES储存问答系统构建方法 | |
CN107590219A (zh) | 网页人物主题相关信息提取方法 | |
CN114036281B (zh) | 基于知识图谱的柑橘管控问答模块构建方法及问答系统 | |
CN107180026B (zh) | 一种基于词嵌入语义映射的事件短语学习方法及装置 | |
CN106446147A (zh) | 一种基于结构化特征的情感分析方法 | |
CN113239163A (zh) | 一种基于交通大数据的智能问答方法及系统 | |
CN113360582B (zh) | 基于bert模型融合多元实体信息的关系分类方法及系统 | |
CN112328800A (zh) | 自动生成编程规范问题答案的系统及方法 | |
CN109522396B (zh) | 一种面向国防科技领域的知识处理方法及系统 | |
CN112365372B (zh) | 一种面向裁判文书的质量检测及评估方法及系统 | |
CN110175585A (zh) | 一种简答题自动批改系统及方法 | |
CN114238653B (zh) | 一种编程教育知识图谱构建、补全与智能问答的方法 | |
CN111143531A (zh) | 一种问答对构建方法、系统、装置及计算机可读存储介质 | |
CN111966944A (zh) | 一种多层级用户评论安全审核的模型构建方法 | |
CN113157860A (zh) | 一种基于小规模数据的电力设备检修知识图谱构建方法 | |
CN116737967A (zh) | 一种基于自然语言的知识图谱构建和完善系统及方法 | |
CN111666374A (zh) | 一种在深度语言模型中融入额外知识信息的方法 | |
CN114817454A (zh) | 一种结合信息量和BERT-BiLSTM-CRF的NLP知识图谱构建方法 | |
CN113392183A (zh) | 一种儿童范畴图谱知识的表征与计算方法 | |
CN112036179B (zh) | 基于文本分类与语义框架的电力预案信息抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |