CN108920599B - 一种基于知识本体库的问答系统答案精准定位和抽取方法 - Google Patents
一种基于知识本体库的问答系统答案精准定位和抽取方法 Download PDFInfo
- Publication number
- CN108920599B CN108920599B CN201810679514.2A CN201810679514A CN108920599B CN 108920599 B CN108920599 B CN 108920599B CN 201810679514 A CN201810679514 A CN 201810679514A CN 108920599 B CN108920599 B CN 108920599B
- Authority
- CN
- China
- Prior art keywords
- question
- answer
- word
- knowledge
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于知识本体库的问答系统答案精准定位和抽取方法,通过设计一个相似度阈值判断机制,对于用户的提问,首先在知识本体库中进行基于统计的匹配,如果有最相近的问句,就把对应的答案反馈给用户,如果没有,则使用基于语义的方法来进行处理,如果仍然没有获得直接的答案,则需要进行基于知识的推理来进行解答,后续从问题中提取关键词进行推理分析,推理分析获取答案的过程不在本发明的内容范围内。本发明基于知识本体库的问答系统答案精准定位和抽取方法,采用的融合方法优势在于,使用了专门设计的专注于效率的统计匹配方法和加入了主题及知识库索引的语义匹配方法,将两类方法的优势充分结合,提高答案定位精度和效率。
Description
技术领域
本发明涉及问答系统的答案定位和抽取方法,尤其涉及用于基于知识本题库的问答系统的答案精准定位和抽取。
背景技术
自然语言推理技术的日渐完善使人们拥有了更加自然的人机交互方式,自动问答系统可以较为准确地理解人们自然语言形式的问题,并利用知识库检索即时地返回言简意赅的答案,有效地满足了各领域问答需求。自动问答系统能用自然语言句子提问又能为用户直接返回所需要的答案,而并不是相关的文档或者网页。
在问答系统中,首先需要通过对问题进行分解和对知识库进行查询,得到尽可能全的一系列假设,这些假设是需要进行甄别的备选答案的集合。对用问题进行的分解和处理,以及将处理结果与知识库对应查询结果进行匹配,该过程称之为答案精准定位和抽取。匹配的方式通常通过计算提问语句和知识本体库中问题的相似度,而相似度的计算方法有很多种,基于概率和基于语义的方法是其中最重要最有效的两种方法,被广泛使用在各种知识库问答系统中。
基于统计的相似度计算方法,其优势在于当用户输入的问题和常问问题集中问题基本一样时,系统能够快速、准确地返回答案。但其缺点是此类方法没有结合语义理解,当用户输入的问题中,其中有的词是常问问题集中的同义或近义词时,系统无法识别。基于语义的方法可以提高系统的召回率,答案的匹配结果更好,但也有其缺陷。响应时间对于问答系统来说非常重要,但基于语义的方法通常处理速度较慢,效率不高,严重影响用户体验。目前,基于英文的答案精准定位和抽取方法在国外取得了较大进展,但基于中文的研究却少有人问津。加之,不同的相似度方法如何优化,如何结合都是该领域的难点,因此有必要研究一种更高效精准的答案精准定位和抽取方法。
发明内容
本发明的目的在于提供一种基于知识本体库的问答系统答案精准定位和抽取方法,用于解决上述现有技术的问题。
本发明一种基于知识本体库的问答系统答案精准定位和抽取方法,其中,对用户输入的问题进行预处理,过滤掉非关键信息计算出候选问题集合,形成候选问题库;将所有问句用向量表示,每个问句用一个n维的问句向量表示,n为所有问句中词的总数,每个问句向量的形式为S向量=(s1,s2,…,sn),si按下面公式进行计算:
si=ki×tfi×idfi;
上述公式中ki表示第i个词的权重,tfi表示第i个词在问句集合中出现的频率,idf表示第i个词在问句集合中出现的反频率;设用户提问的问题为S',常问问题库中的问句为S,那么要计算两个问句之间的相似度,等同于计算两个向量之间的夹角余弦,公式如下所示:
完成基于统计方法的相似度判别后,将相似度结果与阈值T1进行比较;大于阈值则输出对应答案,小于阈值则进入基于语义的进一步计算步骤;用户提问问句S包含词(W1,W2,…,WM),用户提问的问题S'包含词(W1',W2',…,WM'),则用Similarity(Wi,W'j)表示词Wi(1≤i≤m)和W'j(1≤j≤n)之间的相似度,句子S和句子S'中任何两个词的相似度为S(Wi,W'j),计算句子S和句子S'之间的语义相似度Similarity(S,S')为:
根据本发明的基于知识本体库的问答系统答案精准定位和抽取方法的一实施例,其中,非关键信息包括掉连接词、语气词以及介词。
根据本发明的基于知识本体库的问答系统答案精准定位和抽取方法的一实施例,其中,预处理还包括:对知识本体库的问题集中的问题进行分词、词性标注、去停用词等处理。
根据本发明的基于知识本体库的问答系统答案精准定位和抽取方法的一实施例,其中,主题词的权重设为1,问点词的权重设为0.9,一般关键词的权重设为0.8。
根据本发明的基于知识本体库的问答系统答案精准定位和抽取方法的一实施例,其中,阈值T1设定为0.8。
根据本发明的基于知识本体库的问答系统答案精准定位和抽取方法的一实施例,其中,主题词的权重大于问点词的权重,问点词的权重又大于一般关键词的权重。
综上,本发明针对现有方法的缺点,提供基于知识本体库的问答系统答案精准定位和抽取方法。设计一个答案精准匹配流程来实现该方法,它通过结合基于统计和基于语义的答案定位及抽取方法,将用户的提问在知识本体库中进行匹配,并返回对应的答案,这种方法可以显著提高问答系统的性能。
附图说明
图1所示为本发明的基于统计方法的答案定位抽取流程图;
图2所示为本发明的基于语义方法的答案定位抽取流程图;
图3所示为本发明的答案精准匹配流程图。
具体实施方式
为使本发明的目的、内容、和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
图1所示为本发明的基于统计方法的答案定位抽取流程图,图2所示为本发明的基于语义方法的答案定位抽取流程图,如图1以及图2所示
本发明一种基于知识本体库的问答系统答案精准定位和抽取方法,包括:
①首先对用户输入的问题进行预处理,过滤掉连接词、语气词、介词等非关键信息,保留用于计算相似度的句子信息。然后对知识本体库的问题集中的问题进行分词、词性标注、去停用词等处理,计算出候选问题集合,形成候选问题库,用于答案定位;
②使用本发明提出的向量空间模型,将所有问句用向量表示成(X1,X2,…,Xn),每个Xi表示一个特征词,其中的n为所有问句中词的总数。这样每个问句用一个n维的问句向量表示,每个问句向量的形式为S=(s1,s2,…,sn)。si按下面公式进行计算:
si=ki×tfi×idfi
上述公式中ki表示第i个词的权重,主题词的权重大于问点词的权重,问点词的权重又大于一般关键词的权重。在本实施例中,主题词的权重设为1,问点词的权重设为0.9,一般关键词的权重设为0.8。tfi表示该次在问句集合中出现的频率。idf表示该词在问句集合中出现的反频率(逆频率)。
③设用户提问的问题为S',常问问题库中的问句为S,那么要计算两个问句之间的相似度,等同于计算两个向量之间的夹角余弦,具体公式如下所示:
④图3所示为本发明设计的答案精准匹配流程图,如图3所示,完成基于统计方法的相似度判别后,将相似度结果与阈值T1进行比较,本实施例中阈值T1设定为0.8,大于阈值则输出对应答案,小于阈值则进入基于语义的进一步计算步骤。
⑤用户提问问句S包含词(W1,W2,…,WM),用户提问的问题S'包含词(W1',W2',…,WM'),则可用Similarity(Wi,W'j)表示词Wi(1≤i≤m)和W'j(1≤j≤n)之间的相似度,即句子S和句子S'中任何两个词的相似度为S(Wi,W'j)。在此基础上,可以计算句子S和句子S'之间的语义相似度Similarity(S,S')为:
如果把用户提问的问题和知识本体库中的每个问句逐一比较,一个一个计算问句相似度,计算量会非常大。本发明采取将知识本体库问题集,根据问句的主题一词先建立倒排索引。当用户提问时,用户问题中会有主题词。根据此主题词建立一个较小的候选问题集,这样在一个小的范围进行问句相似度的计算,因此系统的检索效率能够得以提高。基于语义的方法完成后,同样进行阈值判断,T2设定为0.85,如仍未定位到系统答案,则采取其他基于逻辑推断的策略从问题本身直接生成答案,该策略不在本发明技术范围内。
本发明解决所述技术问题采用的技术方案包括以下步骤:
首先,使用基于统计的方法计算句子的相似度,本发明提出一种向量空间模型的方法,该方法主要从词的表面特征来进行匹配,计算复杂度低,速度快。具体方法为,对用户输入的问题和知识本体库的问题集分别进行预处理,然后将知识本体库问题集获取的VSM库与预处理后的用户问题进行相似度计算,通过阈值判断来决定是否输出知识本题库问题中对应的答案。
然后,为提升相似度计算的效果,使用基于语义的相似度计算模型计算基于知识库的句子相似度,使用主题检索的方式筛选出候选问题集合,具体方法为将用户输入的问题与经过倒排索引后的知识本体索引库中进行联合检索。接着通过同义词编码的方式计算语义相似度,相似度计算结果大于阈值则输出问题答案,小于阈值则以用户输入的问题作为返回结果。
最后,基于统计的方法和基于语义的方法,二者各有所长,将它们结合起来使用,则可以把它们的优势结合起来,从而显著提高系统的性能。本发明通过设计一个相似度阈值判断机制,对于用户的提问,首先在知识本体库中进行基于统计的匹配,如果有最相近的问句,就把对应的答案反馈给用户,如果没有,则使用基于语义的方法来进行处理,如果仍然没有获得直接的答案,则需要进行基于知识的推理来进行解答,后续从问题中提取关键词进行推理分析,推理分析获取答案的过程不在本发明的内容范围内。本发明采用的融合方法优势在于,使用了专门设计的专注于效率的统计匹配方法和加入了主题及知识库索引的语义匹配方法,将两类方法的优势充分结合,提高答案定位精度和效率。
本发明针对现有方法的缺点,提供基于知识本体库的问答系统答案精准定位和抽取方法。本发明重点设计一个答案精准匹配流程来实现该方法,它通过结合基于统计和基于语义的答案定位及抽取方法,将用户的提问在知识本体库中进行匹配,并返回对应的答案,这种方法可以显著提高问答系统的性能。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (6)
1.一种基于知识本体库的问答系统答案精准定位和抽取方法,其特征在于,
对用户输入的问题进行预处理,过滤掉非关键信息计算出候选问题集合,形成候选问题库;
将所有问句用向量表示,每个问句用一个n维的问句向量表示,n为所有问句中词的总数,每个问句向量的形式为S向量=(s1,s2,…,sn),si按下面公式进行计算:
si=ki×tfi×idfi;
上述公式中ki表示第i个词的权重,tfi表示第i个词在问句集合中出现的频率,idf表示第i个词在问句集合中出现的反频率;
设用户提问的问题为S',常问问题库中的问句为S,那么要计算两个问句之间的相似度,等同于计算两个向量之间的夹角余弦,公式如下所示:
完成基于统计方法的相似度判别后,将相似度结果与阈值T1进行比较;大于阈值则输出对应答案,小于阈值则进入基于语义的进一步计算步骤;
用户提问问句S包含词(W1,W2,…,WM),用户提问的问题S'包含词(W′1,W′2,…,W′M),则用Similarity(Wi,W′j)表示词Wi(1≤i≤m)和W′j(1≤j≤n)之间的相似度,句子S和句子S'中任何两个词的相似度为S(Wi,W′j),计算句子S和句子S'之间的语义相似度Similarity(S,S')为:
2.如权利要求1所述的基于知识本体库的问答系统答案精准定位和抽取方法,其特征在于,非关键信息包括掉连接词、语气词以及介词。
3.如权利要求1所述的基于知识本体库的问答系统答案精准定位和抽取方法,其特征在于,预处理还包括:对知识本体库的问题集中的问题进行分词、词性标注、去停用词处理。
4.如权利要求1所述的基于知识本体库的问答系统答案精准定位和抽取方法,其特征在于,主题词的权重设为1,问点词的权重设为0.9,一般关键词的权重设为0.8。
5.如权利要求1所述的基于知识本体库的问答系统答案精准定位和抽取方法,其特征在于,阈值T1设定为0.8。
6.如权利要求1所述的基于知识本体库的问答系统答案精准定位和抽取方法,其特征在于,主题词的权重大于问点词的权重,问点词的权重又大于一般关键词的权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810679514.2A CN108920599B (zh) | 2018-06-27 | 2018-06-27 | 一种基于知识本体库的问答系统答案精准定位和抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810679514.2A CN108920599B (zh) | 2018-06-27 | 2018-06-27 | 一种基于知识本体库的问答系统答案精准定位和抽取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108920599A CN108920599A (zh) | 2018-11-30 |
CN108920599B true CN108920599B (zh) | 2021-08-27 |
Family
ID=64422785
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810679514.2A Active CN108920599B (zh) | 2018-06-27 | 2018-06-27 | 一种基于知识本体库的问答系统答案精准定位和抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108920599B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110399457B (zh) * | 2019-07-01 | 2023-02-03 | 吉林大学 | 一种智能问答方法和系统 |
CN110457440B (zh) * | 2019-08-09 | 2022-08-16 | 宝宝树(北京)信息技术有限公司 | 一种反馈答案的方法、装置、设备和介质 |
CN110727781B (zh) * | 2019-10-21 | 2022-11-01 | 国网江苏省电力有限公司电力科学研究院 | 一种电力多源知识检索结果融合方法及装置 |
CN110909140B (zh) * | 2019-11-13 | 2022-08-23 | 国网江苏省电力有限公司电力科学研究院 | 一种图谱问答与检索问答结合的中枢路由方法及装置 |
CN112527965A (zh) * | 2020-12-18 | 2021-03-19 | 国家电网有限公司客户服务中心 | 基于专业库和闲聊库相结合的自动问答实现方法和装置 |
CN112685545A (zh) * | 2020-12-29 | 2021-04-20 | 浙江力石科技股份有限公司 | 一种基于多核心词匹配的智能语音交互方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106649742A (zh) * | 2016-12-26 | 2017-05-10 | 上海智臻智能网络科技股份有限公司 | 数据库维护方法和装置 |
CN106777232A (zh) * | 2016-12-26 | 2017-05-31 | 上海智臻智能网络科技股份有限公司 | 问答抽取方法、装置及终端 |
JP2018055548A (ja) * | 2016-09-30 | 2018-04-05 | 株式会社Nextremer | 対話装置、学習装置、対話方法、学習方法、およびプログラム |
CN108108449A (zh) * | 2017-12-27 | 2018-06-01 | 哈尔滨福满科技有限责任公司 | 一种面向医疗领域的基于多源异构数据问答系统及该系统的实现方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102630668B1 (ko) * | 2016-12-06 | 2024-01-30 | 한국전자통신연구원 | 입력 텍스트를 자동으로 확장하는 시스템 및 방법 |
-
2018
- 2018-06-27 CN CN201810679514.2A patent/CN108920599B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018055548A (ja) * | 2016-09-30 | 2018-04-05 | 株式会社Nextremer | 対話装置、学習装置、対話方法、学習方法、およびプログラム |
CN106649742A (zh) * | 2016-12-26 | 2017-05-10 | 上海智臻智能网络科技股份有限公司 | 数据库维护方法和装置 |
CN106777232A (zh) * | 2016-12-26 | 2017-05-31 | 上海智臻智能网络科技股份有限公司 | 问答抽取方法、装置及终端 |
CN108108449A (zh) * | 2017-12-27 | 2018-06-01 | 哈尔滨福满科技有限责任公司 | 一种面向医疗领域的基于多源异构数据问答系统及该系统的实现方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108920599A (zh) | 2018-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108920599B (zh) | 一种基于知识本体库的问答系统答案精准定位和抽取方法 | |
CN110442760B (zh) | 一种问答检索系统的同义词挖掘方法及装置 | |
Tan et al. | Unsupervised query segmentation using generative language models and wikipedia | |
CN110442777B (zh) | 基于bert的伪相关反馈模型信息检索方法及系统 | |
CN108681574B (zh) | 一种基于文本摘要的非事实类问答答案选择方法及系统 | |
CN112069298A (zh) | 基于语义网和意图识别的人机交互方法、设备及介质 | |
US20110208776A1 (en) | Method and apparatus of semantic technological approach based on semantic relation in context and storage media having program source thereof | |
CN108509521B (zh) | 一种自动生成文本索引的图像检索方法 | |
Sangodiah et al. | Question Classification Using Statistical Approach: A Complete Review. | |
Ramprasath et al. | A survey on question answering system | |
Zhang et al. | Research on keyword extraction of Word2vec model in Chinese corpus | |
CN115146629A (zh) | 一种基于对比学习的新闻文本与评论相关性分析方法 | |
CN112307182A (zh) | 一种基于问答系统的伪相关反馈的扩展查询方法 | |
CN109189907A (zh) | 一种基于语义匹配的检索方法及装置 | |
CN114298055B (zh) | 基于多级语义匹配的检索方法、装置、计算机设备和存储介质 | |
CN114722176A (zh) | 一种智能答疑的方法、装置、介质及电子设备 | |
Gopan et al. | Comparative study on different approaches in keyword extraction | |
Lin et al. | Enhanced BERT-based ranking models for spoken document retrieval | |
CN108595413B (zh) | 一种基于语义依存树的答案抽取方法 | |
Dahir et al. | Query expansion using DBpedia and WordNet | |
Ji et al. | A short text similarity calculation method combining semantic and headword attention mechanism | |
CN107818078B (zh) | 汉语自然语言对话的语义关联与匹配方法 | |
CN113505196B (zh) | 基于词性的文本检索方法、装置、电子设备及存储介质 | |
Ronghui et al. | Application of Improved Convolutional Neural Network in Text Classification. | |
US20230055769A1 (en) | Specificity ranking of text elements and applications thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |