CN117951305A - 一种基于知识库的精准问答方法、系统及计算机存储介质 - Google Patents
一种基于知识库的精准问答方法、系统及计算机存储介质 Download PDFInfo
- Publication number
- CN117951305A CN117951305A CN202310526494.6A CN202310526494A CN117951305A CN 117951305 A CN117951305 A CN 117951305A CN 202310526494 A CN202310526494 A CN 202310526494A CN 117951305 A CN117951305 A CN 117951305A
- Authority
- CN
- China
- Prior art keywords
- question
- word
- word embedding
- embedding
- answering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 239000013598 vector Substances 0.000 claims abstract description 82
- 238000003062 neural network model Methods 0.000 claims abstract description 54
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000009411 base construction Methods 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于知识库的精准问答方法、系统及计算机存储介质,所述方法包括如下步骤:S1、获取问题数据和答案数据,生成向量问答神经网路模型;S2、构建知识库;S3、获取用户问题数据,生成用户问题的词嵌入值E′q;S4、查找与用户问题的词嵌入值E′q对应的段落或章节的词嵌入值Ep;S5、将查找到的段落或章节的词嵌入值Ep对应的段落或章节的词嵌入,以及用户问题的词嵌入,输入到机器阅读理解模型中,生成用户问题的答案信息。本发明通过用户问题的词嵌入值与知识库中的段落或章节的词嵌入值匹配,将用户问题的词嵌入对应的段落或章节的词嵌入,输入机器阅读理解模型生成的答案,具备高度可概括性。
Description
技术领域
本发明涉及计算机技术领域,尤其是涉及一种基于知识库的精准问答方法、系统及计算机存储介质。
背景技术
现有技术中用户搜索相关信息时通常为全文检索,全文检索方式是将相关文档(例如office文档、在线wiki、txt等文档)作为检索的原始数据,需要用户通过关键词获取全文检索的信息。然而在全文检索时检索的信息精准命中,对用户的输入的关键词要求很高,而且全文检索命中的是相关性,只能找到答案(检索的信息)附近的文本,无法准确定位答案(检索的信息)。
发明内容
本发明提供了一种基于知识库的精准问答方法、系统及计算机存储介质,以解决现有技术中全文检索对用户的输入的关键词要求高、无法准确定位答案的技术问题。
本发明的一个方面在于提供一种基于知识库的精准问答方法,所述精准问答方法包括如下方法步骤:
S1、获取问题数据和答案数据,提取问题的词嵌入和答案的词嵌入;将问题的词嵌入和答案的词嵌入输入到神经网路模型中,对问题的词嵌入和答案的词嵌入进行相似性计算,生成一个向量问答神经网路模型;
S2、获取原始数据,将原始数据按照段落或章节,提取段落或章节的词嵌入;将段落或章节的词嵌入,输入到训练得到的向量问答神经网路模型中,生成每个段落或章节的词嵌入值Ep;将所有段落或章节的词嵌入值Ep存储,构建知识库;
S3、获取用户问题数据,提取用户问题的词嵌入;将用户问题的词嵌入,输入到训练得到的向量问答神经网路模型中,生成用户问题的词嵌入值Eq′;
S4、在步骤S2中构建的知识库中,查找与用户问题的词嵌入值Eq′对应的段落或章节的词嵌入值Ep;
S5、将步骤S4中查找到的段落或章节的词嵌入值Ep对应的段落或章节的词嵌入,以及用户问题的词嵌入,输入到机器阅读理解模型中,生成用户问题的答案信息。
在一个优选的实施例中,在步骤S1中,通过获取大量问题数据和答案数据,对神经网路模型进行训练,生成一个向量问答神经网路模型。
在一个优选的实施例中,在步骤S1中,通过不同词嵌入的夹角余弦,计算问题的词嵌入和答案的词嵌入的相似性。
本发明的另一个方面在于提供一种基于知识库的精准问答系统,所述精准问答系统包括:
向量问答神经网路模型生成模块,用于获取问题数据和答案数据,提取问题的词嵌入和答案的词嵌入,以及将问题的词嵌入和答案的词嵌入输入到神经网路模型中,对问题的词嵌入和答案的词嵌入进行相似性计算,生成一个向量问答神经网路模型;
知识库构建模块,用于获取原始数据,将原始数据按照段落或章节,提取段落或章节的词嵌入,以及将段落或章节的词嵌入,输入到训练得到的向量问答神经网路模型中,生成每个段落或章节的词嵌入值Ep,将所有段落或章节的词嵌入值Ep存储,构建知识库;
用户问题获取模块,用于获取用户问题数据,提取用户问题的词嵌入;将用户问题的词嵌入,输入到训练得到的向量问答神经网路模型中,生成用户问题的词嵌入值Eq′;
匹配模块,用于将查找到的段落或章节的词嵌入值Ep对应的段落或章节的词嵌入,以及用户问题的词嵌入,输入到机器阅读理解模型中,生成用户问题的答案信息。
在一个优选的实施例中,向量问答神经网路模型生成模块,通过获取大量问题数据和答案数据,对神经网路模型进行训练,生成一个向量问答神经网路模型。
在一个优选的实施例中,向量问答神经网路模型生成模块,通过不同词嵌入的夹角余弦,计算对问题的词嵌入和答案的词嵌入的相似性。
本发明的又一个方面在于提供一种计算机存储介质,所述计算机存储介质用于存储计算机执行指令,所述计算机执行指令,用于执行本发明提供的一种基于知识库的精准问答方法。
与现有技术相比,本发明具有以下有益效果:
本发明提供的一种基于知识库的精准问答方法、系统及计算机存储介质,通过获取大量问题数据和答案数据,对神经网路模型进行训练,生成一个向量问答神经网路模型,提升检索的精准度同时提升搜索效率。
本发明提供的一种基于知识库的精准问答方法、系统及计算机存储介质,通过用户问题的词嵌入值与知识库中的段落或章节的词嵌入值匹配,将用户问题的词嵌入对应的段落或章节的词嵌入,输入机器阅读理解模型生成的答案,具备高度可概括性,与关键词覆盖度无关。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一种基于知识库的精准问答方法的流程图。
具体实施方式
为了使本发明的上述以及其他特征和优点更加清楚,下面结合附图进一步描述本发明。应当理解,本文给出的具体实施例是出于向本领域技术人员解释的目的,仅是示例性的,而非限制性的。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
如图1所示本发明一种基于知识库的精准问答方法的流程图,根据本发明的实施例,提供一种基于知识库的精准问答方法,包括如下方法步骤:
步骤S1、生成向量问答神经网路模型。
获取问题数据和答案数据,提取问题的词嵌入(词向量、Embedding)和答案的词嵌入(词向量、Embedding);将问题的词嵌入(词向量、Embedding)和答案的词嵌入(词向量、Embedding)输入到神经网路模型中,对问题的词嵌入(词向量、Embedding)和答案的词嵌入(词向量、Embedding)进行相似性计算,生成一个向量问答神经网路模型。
本发明的实施例中,通过获取大量问题数据和答案数据,对神经网路模型进行训练,生成一个向量问答神经网路模型。
在对神经网路模型进行训练过程中,通过不同词嵌入(词向量、Embedding)的夹角余弦,计算问题的词嵌入(词向量、Embedding)和答案的词嵌入(词向量、Embedding)的相似性。
例如,将一个问题的词嵌入(词向量、Embedding)输入神经网路模型,输出一个答案的词嵌入(词向量、Embedding),则该问题的词嵌入(词向量、Embedding)与该答案的词嵌入(词向量、Embedding)的夹角进行余弦计算,判断问题与该答案是否对应(相似)。
或者,将一个答案的词嵌入(词向量、Embedding)输入神经网路模型,输出一个问题的词嵌入(词向量、Embedding),则该答案的词嵌入(词向量、Embedding)与该问题的词嵌入(词向量、Embedding)的夹角进行余弦计算,判断答案与该问题是否对应(相似),由此训练生成一个向量问答神经网路模型,使问题与答案尽可能相似。
步骤S2、构建知识库。
获取原始数据,将原始数据按照段落或章节,提取段落或章节的词嵌入(词向量、Embedding);将段落或章节的词嵌入(词向量、Embedding),输入到训练得到的向量问答神经网路模型中,生成每个段落或章节的词嵌入值Ep;将所有段落或章节的词嵌入值Ep存储,构建知识库。
本发明的实施例,原始数据来源为企业office文档、在线wiki、txt等文档,在一些实施例中,原始数据来源还可以是其他来源,例如政府网站相关政策文档、知网、万方数据库等。
将原始数据按照段落或章节划分为一段文字,提取段落或章节的词嵌入(词向量、Embedding)。
例如,“上海是个大城市,有16个区,xx万人”,则划分为“上海是个大城市”、“有16个区”、“xx万人”三个段落,提取“上海是个大城市”、“有16个区”、“xx万人”每个段落的词嵌入(词向量、Embedding)。
将段落或章节的词嵌入(词向量、Embedding),输入到训练得到的向量问答神经网路模型中,生成每个段落或章节的词嵌入值Ep;将所有段落或章节的词嵌入值Ep存储,构建知识库。
步骤S3、获取用户问题。
获取用户问题数据,提取用户问题的词嵌入(词向量、Embedding);将用户问题的词嵌入(词向量、Embedding),输入到训练得到的向量问答神经网路模型中,生成用户问题的词嵌入值Eq′。
例如,用户检索的问题是“上海有多少个区?”,提取“上海有多少个区?”的词嵌入(词向量、Embedding),并输入到训练得到的向量问答神经网路模型中,生成“上海有多少个区?”的词嵌入值Eq′。
步骤S4、在步骤S2中构建的知识库中,查找与用户问题的词嵌入值Eq′对应的段落或章节的词嵌入值Ep。
在步骤S2中,构建的知识库中已经存储原始数据生成的所有段落或章节的词嵌入值Ep。在构建的知识库中查找与用户问题的词嵌入值Eq′对应的段落或章节的词嵌入值Ep。
例如,用户问题为“上海有多少个区?”,在构建的知识库中查找与“上海有多少个区?”的词嵌入值Eq′,对应的“有16个区”的词嵌入值Ep。
步骤S5、生成用户问题的答案信息。
将步骤S4中查找到的段落或章节的词嵌入值Ep对应的段落或章节的词嵌入(词向量、Embedding),以及用户问题的词嵌入(词向量、Embedding),输入到机器阅读理解模型中,生成用户问题的答案信息。
例如,用户检索的问题是“上海有多少个区?”,在构建的知识库中查找到的“有16个区”的词嵌入值Ep,则将“有16个区”的词嵌入值Ep对应的“有16个区”的词嵌入(词向量、Embedding),以及“上海有多少个区?”的词嵌入(词向量、Embedding)输入到机器阅读理解模型中,生成用户问题的答案信息。
本发明中机器阅读理解模型采用现有的机器阅读理解模型,机器阅读理解模对搜索的问题,在对应的段落或章节上下文查找答案。
根据本发明的实施例,一种基于知识库的精准问答系统,包括:
向量问答神经网路模型生成模块,用于获取问题数据和答案数据,提取问题的词嵌入和答案的词嵌入(词向量、Embedding),以及将问题的词嵌入(词向量、Embedding)和答案的词嵌入(词向量、Embedding)输入到神经网路模型中,对问题的词嵌入(词向量、Embedding)和答案的词嵌入(词向量、Embedding)进行相似性计算,生成一个向量问答神经网路模型。
向量问答神经网路模型生成模块,通过获取大量问题数据和答案数据,对神经网路模型进行训练,生成一个向量问答神经网路模型。通过不同词嵌入(词向量、Embedding)的夹角余弦,计算问题的词嵌入(词向量、Embedding)和答案的词嵌入(词向量、Embedding)的相似性。
知识库构建模块,用于获取原始数据,将原始数据按照段落或章节,提取段落或章节的词嵌入(词向量、Embedding),以及将段落或章节的词嵌入(词向量、Embedding),输入到训练得到的向量问答神经网路模型中,生成每个段落或章节的词嵌入值Ep,将所有段落或章节的词嵌入值Ep存储,构建知识库。
用户问题获取模块,用于获取用户问题数据,提取用户问题的词嵌入(词向量、Embedding);将用户问题的词嵌入(词向量、Embedding),输入到训练得到的向量问答神经网路模型中,生成用户问题的词嵌入值Eq′。
匹配模块,用于将查找到的段落或章节的词嵌入值Ep对应的段落或章节的词嵌入(词向量、Embedding),以及用户问题的词嵌入(词向量、Embedding),输入到机器阅读理解模型中,生成用户问题的答案信息。
根据本发明的实施例,提供一种计算机存储介质,用于存储计算机执行指令。计算机执行指令,用于执行本发明提供的一种基于知识库的精准问答方法。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (7)
1.一种基于知识库的精准问答方法,其特征在于,所述精准问答方法包括如下方法步骤:
S1、获取问题数据和答案数据,提取问题的词嵌入和答案的词嵌入;将问题的词嵌入和答案的词嵌入输入到神经网路模型中,对问题的词嵌入和答案的词嵌入进行相似性计算,生成一个向量问答神经网路模型;
S2、获取原始数据,将原始数据按照段落或章节,提取段落或章节的词嵌入;将段落或章节的词嵌入,输入到训练得到的向量问答神经网路模型中,生成每个段落或章节的词嵌入值Ep;将所有段落或章节的词嵌入值Ep存储,构建知识库;
S3、获取用户问题数据,提取用户问题的词嵌入;将用户问题的词嵌入,输入到训练得到的向量问答神经网路模型中,生成用户问题的词嵌入值E′q;
S4、在步骤S2中构建的知识库中,查找与用户问题的词嵌入值E′q对应的段落或章节的词嵌入值Ep;
S5、将步骤S4中查找到的段落或章节的词嵌入值Ep对应的段落或章节的词嵌入,以及用户问题的词嵌入,输入到机器阅读理解模型中,生成用户问题的答案信息。
2.根据权利要求1所述的精准问答方法,其特征在于,在步骤S1中,通过获取大量问题数据和答案数据,对神经网路模型进行训练,生成一个向量问答神经网路模型。
3.根据权利要求1所述的精准问答方法,其特征在于,在步骤S1中,通过不同词嵌入的夹角余弦,计算问题的词嵌入和答案的词嵌入的相似性。
4.一种基于知识库的精准问答系统,其特征在于,所述精准问答系统包括:
向量问答神经网路模型生成模块,用于获取问题数据和答案数据,提取问题的词嵌入和答案的词嵌入,以及将问题的词嵌入和答案的词嵌入输入到神经网路模型中,对问题的词嵌入和答案的词嵌入进行相似性计算,生成一个向量问答神经网路模型;
知识库构建模块,用于获取原始数据,将原始数据按照段落或章节,提取段落或章节的词嵌入,以及将段落或章节的词嵌入,输入到训练得到的向量问答神经网路模型中,生成每个段落或章节的词嵌入值Ep,将所有段落或章节的词嵌入值Ep存储,构建知识库;
用户问题获取模块,用于获取用户问题数据,提取用户问题的词嵌入;将用户问题的词嵌入,输入到训练得到的向量问答神经网路模型中,生成用户问题的词嵌入值E′q;
匹配模块,用于将查找到的段落或章节的词嵌入值Ep对应的段落或章节的词嵌入,以及用户问题的词嵌入,输入到机器阅读理解模型中,生成用户问题的答案信息。
5.根据权利要求4所述的精准问答系统,其特征在于,向量问答神经网路模型生成模块,通过获取大量问题数据和答案数据,对神经网路模型进行训练,生成一个向量问答神经网路模型。
6.根据权利要求4所述的精准问答系统,其特征在于,向量问答神经网路模型生成模块,通过不同词嵌入的夹角余弦,计算问题的词嵌入和答案的词嵌入的相似性。
7.一种计算机存储介质,其特征在于,所述计算机存储介质用于存储计算机执行指令,所述计算机执行指令,用于执行权利要求1或3任一权利要求所述的精准问答方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310526494.6A CN117951305A (zh) | 2023-05-10 | 2023-05-10 | 一种基于知识库的精准问答方法、系统及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310526494.6A CN117951305A (zh) | 2023-05-10 | 2023-05-10 | 一种基于知识库的精准问答方法、系统及计算机存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117951305A true CN117951305A (zh) | 2024-04-30 |
Family
ID=90800228
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310526494.6A Pending CN117951305A (zh) | 2023-05-10 | 2023-05-10 | 一种基于知识库的精准问答方法、系统及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117951305A (zh) |
-
2023
- 2023-05-10 CN CN202310526494.6A patent/CN117951305A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106991092B (zh) | 基于大数据挖掘相似裁判文书的方法和设备 | |
CN102236640B (zh) | 命名实体的消歧 | |
CN112035730B (zh) | 一种语义检索方法、装置及电子设备 | |
US8073877B2 (en) | Scalable semi-structured named entity detection | |
CN111382255B (zh) | 用于问答处理的方法、装置、设备和介质 | |
Zhang et al. | The past is not a foreign country: Detecting semantically similar terms across time | |
CN108959559B (zh) | 问答对生成方法和装置 | |
KR100903961B1 (ko) | 시그니처 파일을 이용한 고차원 데이터 색인 및 검색방법과 그 시스템 | |
CN112417126B (zh) | 一种问答方法、计算设备以及存储介质 | |
WO2008106667A1 (en) | Searching heterogeneous interrelated entities | |
CN109508458B (zh) | 法律实体的识别方法及装置 | |
US20120143895A1 (en) | Query pattern generation for answers coverage expansion | |
CN113761890A (zh) | 一种基于bert上下文感知的多层级语义信息检索方法 | |
US8364672B2 (en) | Concept disambiguation via search engine search results | |
US20090234852A1 (en) | Sub-linear approximate string match | |
CN115563313A (zh) | 基于知识图谱的文献书籍语义检索系统 | |
CN112559682A (zh) | 基于GitHub软件仓库数据集的开源项目个性化检索推荐方法 | |
Li et al. | National University of Singapore at the TREC-13 question answering main task | |
CN110909532B (zh) | 用户名称匹配方法、装置、计算机设备和存储介质 | |
CN109684357B (zh) | 信息处理方法及装置、存储介质、终端 | |
CN117951305A (zh) | 一种基于知识库的精准问答方法、系统及计算机存储介质 | |
CN115098534A (zh) | 基于索引权重提升的数据查询方法、装置、设备及介质 | |
Li et al. | A service mode of expert finding in social network | |
CN113468307A (zh) | 文本处理方法、装置、电子设备及存储介质 | |
JP2010282403A (ja) | 文書検索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |