CN108763529A - 一种智能检索方法、装置和计算机可读存储介质 - Google Patents
一种智能检索方法、装置和计算机可读存储介质 Download PDFInfo
- Publication number
- CN108763529A CN108763529A CN201810549831.2A CN201810549831A CN108763529A CN 108763529 A CN108763529 A CN 108763529A CN 201810549831 A CN201810549831 A CN 201810549831A CN 108763529 A CN108763529 A CN 108763529A
- Authority
- CN
- China
- Prior art keywords
- topic
- answer
- unit
- question
- knowledge base
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种智能检索方法、装置和计算机可读存储介质,对获取的文档信息进行分句处理,以得到多个源语句;利用训练后的问题生成模型,对各源语句进行处理,得到对应的文档题目;根据源语句及其对应的文档题目,建立文档问答对,并将文档问答对存储于知识库中。按照预设的索引规则,对各问答对进行处理,得到对应的多个语汇单元;当出现待处理的题目时,依据各语汇单元,便可以快速的从知识库中查找出与待处理题目相对应的答案。由于知识库中存储有依据文档信息生成的问答对,其答案的准确性可以得到有效的保障,使得依据该知识库查找出的答案更容易满足用户的需求。并且通过建立语汇单元,有效的提升了检索的效率。
Description
技术领域
本发明涉及信息检索技术领域,特别是涉及一种智能检索方法、装置和计算机可读存储介质。
背景技术
随着网络的普及,网络上的信息资源越来越丰富。人们遇到问题,经常会通过网络检索的方式,寻找问题的答案。
传统问答系统的知识库的数据源来自于网上的问题和回答,有些答案较为随意,其准确性得不到保障。并且知识库中缺少基于文档作为答案的问答对,使得知识库中包含的数据资源相对有限。依据该知识库进行问题的检索时,得到的答案相对有限,用户可能无法得到所需的答案,导致答案检索的准确率较低。
可见,如何快速、准确的获取检索结果,是本领域技术人员亟待解决的问题。
发明内容
本发明实施例的目的是提供一种智能检索方法、装置和计算机可读存储介质,可以快速、准确的获取检索结果。
为解决上述技术问题,本发明实施例提供一种智能检索方法,包括:
对获取的文档信息进行分句处理,以得到多个源语句;
利用训练后的问题生成模型,对各所述源语句进行处理,得到对应的文档题目;
根据所述源语句及其对应的文档题目,建立文档问答对,并将所述文档问答对存储于知识库中;其中,所述知识库中还包括有历史问答对;
按照预设的索引规则,对所述知识库中包含的各问答对进行处理,得到对应的多个语汇单元;
依据各所述语汇单元,从所述知识库中查找与待处理题目相对应的答案。
可选的,所述问题生成模型的训练过程包括:
获取历史问答对,并将所述历史问答对存储于所述知识库中;
利用所述历史问答对训练所述问题生成模型。
可选的,所述依据各所述语汇单元,从所述知识库中查找与待处理题目相对应的答案包括:
提取待处理题目中的关键词;
从预先建立的各所述语汇单元中查询与所述关键词相对应的目标语汇单元;
从所述知识库中获取所述目标语汇单元所对应的候选题目;
利用RankSVM模型,对所述候选题目进行相似度排序;
选取相似度分数最高的候选题目作为目标题目;并将所述目标题目对应的答案作为所述待处理题目的答案。
可选的,所述从预先建立的各所述语汇单元中查询与所述关键词相对应的目标语汇单元包括:
判断各语汇单元中是否包含有与所述关键词相匹配的词;
若是,则将所述语汇单元作为初始语汇单元;
依据各所述初始语汇单元中与所述关键词相匹配的词的个数,确定出各所述初始语汇单元对应的关键词分数;
将关键词分数大于预设分数值的初始语汇单元作为目标语汇单元。
可选的,所述利用RankSVM模型,对所述候选题目进行相似度排序包括:
依据预先设定的特征提取规则,计算出所述待处理题目与各所述候选题目之间的特征参数;
将所述特征参数输入到所述RankSVM模型,以得到所述候选题目的相似度排序。
本发明实施例还提供了一种智能检索装置,包括处理单元、建立单元、得到单元、查找单元;
所述处理单元,用于对获取的文档信息进行分句处理,以得到多个源语句;利用训练后的问题生成模型,对各所述源语句进行处理,得到对应的文档题目;
所述建立单元,用于根据所述源语句及其对应的文档题目,建立文档问答对,并将所述文档问答对存储于知识库中;其中,所述知识库中还包括有历史问答对;
所述得到单元,用于按照预设的索引规则,对所述知识库中包含的各问答对进行处理,得到对应的多个语汇单元;
所述查找单元,用于依据各所述语汇单元,从所述知识库中查找与待处理题目相对应的答案。
可选的,还包括存储单元和训练单元;
所述存储单元,用于获取历史问答对,并将所述历史问答对存储于所述知识库中;
所述训练单元,用于利用所述历史问答对训练所述问题生成模型。
可选的,所述查找单元包括提取子单元、查询子单元、获取子单元、计算子单元和选取子单元;
所述提取子单元,用于提取待处理题目中的关键词;
所述查询子单元,用于从预先建立的各所述语汇单元中查询与所述关键词相对应的目标语汇单元;
所述获取子单元,用于从所述知识库中获取所述目标语汇单元所对应的候选题目;
所述计算子单元,用于利用RankSVM模型,对所述候选题目进行相似度排序;所述选取子单元,用于选取分数候选题目作为目标题目;并将所述目标题目对应的答案作为所述待处理题目的答案。
可选的,所述查询子单元具体用于判断各语汇单元中是否包含有与所述关键词相匹配的词;若是,则将所述语汇单元作为初始语汇单元;依据各所述初始语汇单元中与所述关键词相匹配的词的个数,确定出各所述初始语汇单元对应的关键词分数;将关键词分数大于预设分数值的初始语汇单元作为目标语汇单元。
可选的,所述计算子单元具体用于依据预先设定的特征提取规则,计算出所述待处理题目与各所述候选题目之间的特征参数;将所述特征参数输入到所述RankSVM模型,以得到所述候选题目的相似度排序。
本发明实施例还提供了一种智能检索装置,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现如上所述智能检索方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述智能检索方法的步骤。
由上述技术方案可以看出,对获取的文档信息进行分句处理,以得到多个源语句;利用训练后的问题生成模型,对各所述源语句进行处理,得到对应的文档题目;根据所述源语句及其对应的文档题目,建立文档问答对,并将所述文档问答对存储于知识库中;其中,所述知识库中还包括有历史问答对。通过添加文档信息,生成对应的问答对,极大的丰富了知识库中的数据资源。按照预设的索引规则,对所述知识库中包含的各问答对进行处理,得到对应的多个语汇单元;当出现待处理的题目时,依据各所述语汇单元,便可以快速的从所述知识库中查找出与待处理题目相对应的答案。由于知识库中存储有依据文档信息生成的问答对,其答案的准确性可以得到有效的保障,使得依据该知识库查找出的答案更容易满足用户的需求。并且通过建立语汇单元,为待处理题目的检索提供了索引,有效的提升了检索的效率。
附图说明
为了更清楚地说明本发明实施例,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种智能检索方法的流程图;
图2为本发明实施例提供的一种问题生成模型的示意图;
图3为本发明实施例提供的一种获取待处理题目的答案的方法流程图;
图4为本发明实施例提供的一种智能检索装置的结构示意图;
图5为本发明实施例提供的一种智能检索装置的硬件结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下,所获得的所有其他实施例,都属于本发明保护范围。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。
接下来,详细介绍本发明实施例所提供的一种智能检索方法。图1为本发明实施例提供的一种智能检索方法的流程图,该方法包括:
S101:对获取的文档信息进行分句处理,以得到多个源语句。
在具体实现中,可以利用网络爬虫从不同网站中抓取大规模的文档信息和问答对,以及高质量的人工标记的问答对。其中,问答对中包括有问题(题目)和相应的答案。
从不同网站中抓取的问答对属于现有已经存在的问答对,为了便于和后续步骤中新生成的问答对进行区分,可以将这些问答对称作历史问答对。抓取的历史问答对可以存储在知识库中,以便于后续的检索调用。
在本发明实施例中,采用历史问答对对问题生成模型进行训练,在利用训练后的问题生成模型生成文档信息对应的问答对之前,首先需要对文档信息进行分句处理,其具体过程如下。
首先,利用texttiling工具对文档信息进行分段处理,其中包括了texttiling的汉化工作,即使用texttiling对中文文档的段落划分。然后对得到的段落进行句子的划分,在具体实现中,可以使用ltp工具进行句子的划分,得到源语句。
其中,进行句子的划分时,可以以段落中的标点符号作为划分依据,形成大量的陈述句即源语句。需要说明的是,对于一个段落中语义相近的前后语句,可以将这些语句作为一个源语句。
S102:利用训练后的问题生成模型,对各源语句进行处理,得到对应的文档题目。
在本发明实施例中,可以利用历史问答对对问题生成模型进行训练。
在对问题生成模型进行训练之前,需要对问答对进行规范划化的处理,例如,删除问题和答案较长、有特殊字符的问答对。然后将经过规范化处理后的问答对作为问题生成模型的训练语料。
在实际应用中,最终获取到的训练预料保留了300万条问答对,用于支持该问题生成模型的训练。
在具体实现中,问题生成模型训练参数和配置具体如下:保留了源端和目标端分别为50000个单词和30000个单词,长短时记忆网络在编码端和解码端均设置了两层,维度均是600,并且词向量使用了基于维基百科语料训练的word2vec模型,单词向量维度为256维。整个模型优化器使用SGD(stochastic gradient descent),防止模型过拟合,设置dropout为0.5,迭代次数为15次。
采用基于神经机器网络的问题生成(Question Generation based NeuralNetwork,QGNN)技术构建问题生成模型时,只需要考虑如何提升模型的性能,无需额外的考虑规则和排序模型的性能。而基于长短期记忆网络(Long Short Term Memory,LSTM)算法是QGNN的一种常用算法,故此,在本发明实施例中,可以采用基于Bi_LSTM的序列化的问题生成模型。
基于Bi_LSTM的序列化的问题生成模型包括解码端和编码端。编码端是一个双向长短时记忆网络,输出每个词的前后语义的表示,解码端是单向长短时记忆网络,序列化解码出问题词,并且在整个模型中设计了注意力机制,使得解码问题能够更加准确的产生问题。其中编码端对句子的语义表示方式通过以下公式计算:
h=[h1,h2,...hn]
h表示编码端的隐含层输出,ht表示了句子中第t词和前后词的语义表示。
在解码端生成问题的过程通过以下公式计算:
yt表示基于先前输出和输入句子x进行的单词生成,其中P(yt|x,y<t)是一个softmax函数。
如图2所示为问题生成模型的示意图,问题生成模型输入的源语句x={x1,x2,...,xn},xi代表了源语句中第i个词,n代表了源语句的长度,问题生成模型输出题目语句Q={y1,y2,...,ym},yi代表了题目语句中第i个词,其中m代表了题目语句的长度。
图2中的h和S分别是编码端和解码端的隐含变量,嵌入层(Embedding)将输入xi转化为词向量表示。此外,Attention是神经机器翻译中常用的注意力机制,在问题生成模型中使用了soft attention中general的计算机制。
以一个文档信息为例,对其进行分句处理后,得到的源语句有多个。利用问题生成模型,可以得到每个源语句所对应的问题,可以将其称作文档题目。
例如,源语句为“腾讯手机网,点下载,然后选择QQ游戏,根据手机型号下载就可以了”,利用问题生成模型,输出的文档题目为“手机如何下载欢乐斗地主等游戏?”,又或者是源语句为“在拉丝过程中起毛、就检查一下亲润剂喷头和梭子。必要时更换一下”利用问题生成模型,输出的文档题目为“玻璃纤维纱退绕过程中起毛怎么解决?”。
S103:根据源语句及其对应的文档题目,建立文档问答对,并将文档问答对存储于知识库中。
利用问题生成模型,可以获取到每个源语句对应的文档题目,按照对应关系,可以构建文档问答对。一个文档问答对中包含有一个源语句和其对应的文档题目,其中,文档题目即为一个问题,该源语句相当于该问题的答案。
为了便于后续的检索,可以将文档问答对存储于知识库中。
S104:按照预设的索引规则,对知识库中包含的各问答对进行处理,得到对应的多个语汇单元。
由于问答对中的问题是以语句的形式呈现,不便于检索,故此,在本发明实施例中,可以针对于问答对建立相应的索引,以便于可以从知识库中快速的查找到所需的问答对。
索引规则表示建立索引时依据的规则。在具体实现中,可以使用全文搜索引擎(lucene)工具对问答对行索引的建立,通过提取问答对中问题语句的单词、去除标点符号和去除停用词等过程生成最终的语汇单元。
S105:依据各语汇单元,从知识库中查找与待处理题目相对应的答案。
每个问答对有其对应的一个语汇单元,该语汇单元中可以包括一个或多个单词。其中,单词既可以是一个字,也可以是一个词语。
在本发明实施例中,可以通过抽取待处理题目中的关键词,并与各语汇单元进行匹配,从而获取待处理题目相对应的答案。
下面将以图3所示的获取待处理题目的答案的方法流程图为例,对查找答案的具体过程展开介绍,该方法包括:
S301:提取待处理题目中的关键词。
在具体实现中,可以利用分词工具例如jieba工具,提取出待处理题目中的关键词。
S302:从预先建立的各语汇单元中查询与关键词相对应的目标语汇单元。
一个问答对中包括有题目和答案,该问答对所对应的语汇单元中包含有与题目相关联的单词。
当一个语汇单元中存在与该关键词相同的单词或者是存在与该关键词语义相近的单词时,则说明该语汇单元对应的题目与待处理题目具有较高的相关性,因此,在本发明实施例中,首先需要从众多的语汇单元中选取出与关键词相关性较高的语汇单元,并将这些语汇单元作为目标语汇单元。
在具体实现中,可以先判断各语汇单元中是否包含有与关键词相匹配的词;其中,相匹配的词既可以是完全相同的词,也可以是语义相近的词,例如,关键词为“更换”,当语汇单元中包含有“替换”时,则可以认为该语汇单元中包含有与关键词相匹配的词语。
当语汇单元中包含有与关键词相匹配的词时,则说明该语汇单元所对应的题目与待处理题目具有相关性,可以将该语汇单元作为初始语汇单元。
在实际应用中,确定出的初始语汇单元的个数往往较多,为了进一步提升检索的准确性,可以根据各初始语汇单元与关键词的相关程度的高低,从初始语汇单元中选取出与关键词相关程度较高的语汇单元作为最终的目标语汇单元。
具体的,可以依据各初始语汇单元中与关键词相匹配的词的个数,确定出各初始语汇单元对应的关键词分数;将关键词分数大于预设分数值的初始语汇单元作为目标语汇单元。
待处理题目中的关键词往往有多个,当语汇单元中与关键词相匹配的词的个数越多时,则说明该语汇单元所对应的题目与待处理题目的相关性越高。
确定初始语汇单元的关键词分数时,可以当初始语汇单元中出现与一个关键词相匹配的词时,则加1分。例如,从待处理题目中提取的关键词有5个,当语汇单元中包含有4个关键词时,则关键词分数为4。
预设分数值的取值,可以依据于实际需求进行设定,当对检索的准确度要求较高时,则可以将预设分数值设置的高一些,当对检索的准确度要求较低时,则可以将预设分数值设置的低一些。
除了设置预设分数值之外,还可以采用个数值的方式选取目标语汇单元,例如,可以将各初始语汇单元,按照关键词分数从高到低的顺序排列,选取出关键词分数前10位的语汇单元作为目标语汇单元。
S303:从知识库中获取目标语汇单元所对应的候选题目。
每个语汇单元有其对应的答案对,以一个目标语汇单元为例,可以将该目标语汇单元对应的答案对中的题目作为候选题目。
选取出的目标语汇单元的个数有几个,相应的,候选题目的个数就有几个。
S304:利用RankSVM模型,对候选题目进行相似度排序RankSVM模型。
在实际应用中,当用户输入一个待处理题目后,可以将检索到的各候选题目对应的答案全部呈现给用户。但是用户仍需要在阅读各个答案后,才能确定哪个答案最为合适。
考虑到各候选题目与待处理题目之间的相关程度存在一定的差异,为了带来更好的用户体验,使得用户可以更加快速、直观的获取所需的答案。在本发明实施例中,可以采用计算题目相似度的方式,对候选题目进行排序,将与待处理题目相似度最高的候选题目的答案作为最终的答案。
在利用RankSVM模型,计算待处理题目与各候选题目之间的相似度时,可以划分为两个步骤,第一个步骤是依据预先设定的特征提取规则,计算出待处理题目与各候选题目之间的特征参数;第二个步骤是将特征参数输入到RankSVM模型,以得到候选题目的相似度排序。
特征提取规则中包含了对待处理题目和候选题目进行处理的方式。在本发明实施例中,特征参数可以包含5种类型的参数,分别为语义相似度、共同命名实体个数、共同动词个数、相关度分值和向量空间相似度。
以一个待处理题目和一个候选题目为例,模型的特征参数的选取分为五个过程:一是计算两个题目的语义相似度;二是计算两个题目中共同命名实体个数;三是计算两个题目中共同动词个数;四是计算两个题目的相关度分值;五是计算两个题目的向量空间相似度。
具体的,计算两个题目的语义相似度,规则是利用sen2vec模型得到两个题目的向量表示,然后通过cosine函数来求两个向量的分数,以表示待处理题目与单个候选题目的语义相似度。
其中,sen2vec模型通过以下公式计算句子的向量:
m表示的是句子长度,而xi则表示了题目中第i个词的词向量。
计算待处理题目与单个候选题目的共同命名实体个数时,分别使用ltp工具对两个题目进行命名实体识别,得到两个命名实体集合,计算两个集合中重复实体词个数。其中,实体词可以包括名词和代词。
与计算共同命名实体个数的方式相同,使用ltp工具识别题目中的词性,分别取出两个题目中词性是动词的单词集合,计算两个集合中重复单词的个数。
计算两个题目的相关度分值,可以使用经典的文本相似度算法—BM25算法。通过对待处理题目Q进行语素解析,生成语素qi(单词),然后搜索单个候选题目d,计算每个语素qi与d的相关性得分,最后,将所有相关性得分进行加权求和,计算相关度分值的公式如下:
Q表示的待处理题目,d表示单个候选题目,wi是权重。
R(qi,d)表示语素qi与单个候选题目d的相关性得分,具体的计算公式如下:
其中,k1、k2和b是调节因子,在具体计算中可以分别设为2、2和0.75。fi为qi在d中的出现频率,qfi为qi在待处理题目中的出现频率。dl为候选题目d的长度,avgdl为所有候选题目的平均长度。
计算向量空间相似度,每个词代表一个维度,以one-hot形式表示一个题目的空间向量,通过一个cosine函数可以求出两个题目的向量空间相似度。
在本发明实施例中,对候选题目排序具体采用RankSVM模型。基于以上的特征抽取工作,将获取的特征参数输入到一个已训练的RankSVM模型,就可得到待处理题目与每个候选题目的相似度排序。
其中,RankSVM的训练语料可以来自于从网站上爬取的数据。
S305:选取相似度分数最高的候选题目作为目标题目;并将目标题目对应的答案作为待处理题目的答案。
相似度越高,说明候选题目与待处理题目的相关性越强。在具体实现中,可以选取与待处理题目相似度最高的候选题目作为目标题目,从而将该目标题目的答案作为待处理题目所对应的答案。
由上述技术方案可以看出,对获取的文档信息进行分句处理,以得到多个源语句;利用训练后的问题生成模型,对各源语句进行处理,得到对应的文档题目;根据源语句及其对应的文档题目,建立文档问答对,并将文档问答对存储于知识库中;其中,知识库中还包括有历史问答对。通过添加文档信息,生成对应的问答对,极大的丰富了知识库中的数据资源。按照预设的索引规则,对知识库中包含的各问答对进行处理,得到对应的多个语汇单元;当出现待处理的题目时,依据各语汇单元,便可以快速的从知识库中查找出与待处理题目相对应的答案。由于知识库中存储有依据文档信息生成的问答对,其答案的准确性可以得到有效的保障,使得依据该知识库查找出的答案更容易满足用户的需求。并且通过建立语汇单元,为待处理题目的检索提供了索引,有效的提升了检索的效率。
图4为本发明实施例提供的一种智能检索装置的结构示意图,包括处理单元41、建立单元42、得到单元43、查找单元44;
处理单元41,用于对获取的文档信息进行分句处理,以得到多个源语句;利用训练后的问题生成模型,对各源语句进行处理,得到对应的文档题目;
建立单元42,用于根据源语句及其对应的文档题目,建立文档问答对,并将文档问答对存储于知识库中;其中,知识库中还包括有历史问答对;
得到单元43,用于按照预设的索引规则,对知识库中包含的各问答对进行处理,得到对应的多个语汇单元;
查找单元44,用于依据各语汇单元,从知识库中查找与待处理题目相对应的答案。
可选的,还包括存储单元和训练单元;
存储单元,用于获取历史问答对,并将历史问答对存储于知识库中;
训练单元,用于利用历史问答对训练问题生成模型。
可选的,查找单元包括提取子单元、查询子单元、获取子单元、计算子单元和选取子单元;
提取子单元,用于提取待处理题目中的关键词;
查询子单元,用于从预先建立的各语汇单元中查询与关键词相对应的目标语汇单元;
获取子单元,用于从知识库中获取目标语汇单元所对应的候选题目;
计算子单元,用于利用RankSVM模型,对候选题目进行相似度排序;
选取子单元,用于选取相似度分数最高的候选题目作为目标题目;并将目标题目对应的答案作为待处理题目的答案。
可选的,查询子单元具体用于判断各语汇单元中是否包含有与关键词相匹配的词;若是,则将语汇单元作为初始语汇单元;依据各初始语汇单元中与关键词相匹配的词的个数,确定出各初始语汇单元对应的关键词分数;将关键词分数大于预设分数值的初始语汇单元作为目标语汇单元。
可选的,计算子单元具体用于依据预先设定的特征提取规则,计算出待处理题目与各候选题目之间的特征参数;将特征参数输入到RankSVM模型,以得到候选题目的相似度排序。
图4所对应实施例中特征的说明可以参见图1和图3所对应实施例的相关说明,这里不再一一赘述。
由上述技术方案可以看出,对获取的文档信息进行分句处理,以得到多个源语句;利用训练后的问题生成模型,对各源语句进行处理,得到对应的文档题目;根据源语句及其对应的文档题目,建立文档问答对,并将文档问答对存储于知识库中;其中,知识库中还包括有历史问答对。通过添加文档信息,生成对应的问答对,极大的丰富了知识库中的数据资源。按照预设的索引规则,对知识库中包含的各问答对进行处理,得到对应的多个语汇单元;当出现待处理的题目时,依据各语汇单元,便可以快速的从知识库中查找出与待处理题目相对应的答案。由于知识库中存储有依据文档信息生成的问答对,其答案的准确性可以得到有效的保障,使得依据该知识库查找出的答案更容易满足用户的需求。并且通过建立语汇单元,为待处理题目的检索提供了索引,有效的提升了检索的效率。
如图5所示为本发明实施例提供的一种智能检索装置50的硬件结构示意图,包括:存储器51,用于存储计算机程序;处理器52,用于执行计算机程序以实现如上智能检索方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上智能检索方法的步骤。
以上对本发明实施例所提供的一种智能检索方法、装置和计算机可读存储介质进行了详细介绍。说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
Claims (10)
1.一种智能检索方法,其特征在于,包括:
对获取的文档信息进行分句处理,以得到多个源语句;
利用训练后的问题生成模型,对各所述源语句进行处理,得到对应的文档题目;
根据所述源语句及其对应的文档题目,建立文档问答对,并将所述文档问答对存储于知识库中;其中,所述知识库中还包括有历史问答对;
按照预设的索引规则,对所述知识库中包含的各问答对进行处理,得到对应的多个语汇单元;
依据各所述语汇单元,从所述知识库中查找与待处理题目相对应的答案。
2.根据权利要求1所述的方法,其特征在于,所述问题生成模型的训练过程包括:
获取历史问答对,并将所述历史问答对存储于所述知识库中;
利用所述历史问答对训练所述问题生成模型。
3.根据权利要求1或2所述的方法,其特征在于,所述依据各所述语汇单元,从所述知识库中查找与待处理题目相对应的答案包括:
提取待处理题目中的关键词;
从预先建立的各所述语汇单元中查询与所述关键词相对应的目标语汇单元;
从所述知识库中获取所述目标语汇单元所对应的候选题目;
利用RankSVM模型,对所述候选题目进行相似度排序;
选取相似度分数最高的候选题目作为目标题目;并将所述目标题目对应的答案作为所述待处理题目的答案。
4.根据权利要求3所述的方法,其特征在于,所述从预先建立的各所述语汇单元中查询与所述关键词相对应的目标语汇单元包括:
判断各语汇单元中是否包含有与所述关键词相匹配的词;
若是,则将所述语汇单元作为初始语汇单元;
依据各所述初始语汇单元中与所述关键词相匹配的词的个数,确定出各所述初始语汇单元对应的关键词分数;
将关键词分数大于预设分数值的初始语汇单元作为目标语汇单元。
5.根据权利要求3所述的方法,其特征在于,所述利用RankSVM模型,对所述候选题目进行相似度排序包括:
依据预先设定的特征提取规则,计算出所述待处理题目与各所述候选题目之间的特征参数;
将所述特征参数输入到所述RankSVM模型,以得到所述候选题目的相似度排序。
6.一种智能检索装置,其特征在于,包括处理单元、建立单元、得到单元、查找单元;
所述处理单元,用于对获取的文档信息进行分句处理,以得到多个源语句;利用训练后的问题生成模型,对各所述源语句进行处理,得到对应的文档题目;
所述建立单元,用于根据所述源语句及其对应的文档题目,建立文档问答对,并将所述文档问答对存储于知识库中;其中,所述知识库中还包括有历史问答对;
所述得到单元,用于按照预设的索引规则,对所述知识库中包含的各问答对进行处理,得到对应的多个语汇单元;
所述查找单元,用于依据各所述语汇单元,从所述知识库中查找与待处理题目相对应的答案。
7.根据权利要求6所述的装置,其特征在于,还包括存储单元和训练单元;
所述存储单元,用于获取历史问答对,并将所述历史问答对存储于所述知识库中;
所述训练单元,用于利用所述历史问答对训练所述问题生成模型。
8.根据权利要求6或7所述的装置,其特征在于,所述查找单元包括提取子单元、查询子单元、获取子单元、计算子单元和选取子单元;
所述提取子单元,用于提取待处理题目中的关键词;
所述查询子单元,用于从预先建立的各所述语汇单元中查询与所述关键词相对应的目标语汇单元;
所述获取子单元,用于从所述知识库中获取所述目标语汇单元所对应的候选题目;
所述计算子单元,用于利用RankSVM模型,对所述候选题目进行相似度排序;
所述选取子单元,用于选取与所述待处理题目相似度最高的候选题目作为目标题目;并将所述目标题目对应的答案作为所述待处理题目的答案。
9.一种智能检索装置,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现如权利要求1至5任意一项所述智能检索方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述智能检索方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810549831.2A CN108763529A (zh) | 2018-05-31 | 2018-05-31 | 一种智能检索方法、装置和计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810549831.2A CN108763529A (zh) | 2018-05-31 | 2018-05-31 | 一种智能检索方法、装置和计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108763529A true CN108763529A (zh) | 2018-11-06 |
Family
ID=64001332
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810549831.2A Pending CN108763529A (zh) | 2018-05-31 | 2018-05-31 | 一种智能检索方法、装置和计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108763529A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109543020A (zh) * | 2018-11-27 | 2019-03-29 | 科大讯飞股份有限公司 | 问询处理方法及系统 |
CN109753558A (zh) * | 2018-12-26 | 2019-05-14 | 出门问问信息科技有限公司 | 基于用户手册构建问答系统的方法、装置及系统 |
CN110196901A (zh) * | 2019-06-28 | 2019-09-03 | 北京百度网讯科技有限公司 | 对话系统的构建方法、装置、计算机设备和存储介质 |
CN110297897A (zh) * | 2019-06-21 | 2019-10-01 | 科大讯飞(苏州)科技有限公司 | 问答处理方法及相关产品 |
CN110825859A (zh) * | 2019-10-21 | 2020-02-21 | 拉扎斯网络科技(上海)有限公司 | 检索方法、装置、可读存储介质和电子设备 |
CN111428005A (zh) * | 2020-04-12 | 2020-07-17 | 中信银行股份有限公司 | 标准问答对确定方法、装置及电子设备 |
JP2021082306A (ja) * | 2020-01-09 | 2021-05-27 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッドBeijing Baidu Netcom Science Technology Co., Ltd. | 目標内容の確定方法、装置、機器及びコンピュータ可読記憶媒体 |
CN113094472A (zh) * | 2021-04-16 | 2021-07-09 | 洛阳墨潇网络科技有限公司 | 基于人工智能的知识库生成方法和智能机器人应答方法 |
WO2022095368A1 (zh) * | 2020-11-04 | 2022-05-12 | 平安科技(深圳)有限公司 | 基于文本生成模型的问答语料生成方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101377777A (zh) * | 2007-09-03 | 2009-03-04 | 北京百问百答网络技术有限公司 | 一种自动问答方法和系统 |
CN103902652A (zh) * | 2014-02-27 | 2014-07-02 | 深圳市智搜信息技术有限公司 | 自动问答系统 |
CN106649868A (zh) * | 2016-12-30 | 2017-05-10 | 首都师范大学 | 问答匹配方法及装置 |
CN107220296A (zh) * | 2017-04-28 | 2017-09-29 | 北京拓尔思信息技术股份有限公司 | 问答知识库的生成方法、神经网络的训练方法以及设备 |
-
2018
- 2018-05-31 CN CN201810549831.2A patent/CN108763529A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101377777A (zh) * | 2007-09-03 | 2009-03-04 | 北京百问百答网络技术有限公司 | 一种自动问答方法和系统 |
CN103902652A (zh) * | 2014-02-27 | 2014-07-02 | 深圳市智搜信息技术有限公司 | 自动问答系统 |
CN106649868A (zh) * | 2016-12-30 | 2017-05-10 | 首都师范大学 | 问答匹配方法及装置 |
CN107220296A (zh) * | 2017-04-28 | 2017-09-29 | 北京拓尔思信息技术股份有限公司 | 问答知识库的生成方法、神经网络的训练方法以及设备 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109543020A (zh) * | 2018-11-27 | 2019-03-29 | 科大讯飞股份有限公司 | 问询处理方法及系统 |
CN109543020B (zh) * | 2018-11-27 | 2022-11-04 | 科大讯飞股份有限公司 | 问询处理方法及系统 |
CN109753558A (zh) * | 2018-12-26 | 2019-05-14 | 出门问问信息科技有限公司 | 基于用户手册构建问答系统的方法、装置及系统 |
CN110297897A (zh) * | 2019-06-21 | 2019-10-01 | 科大讯飞(苏州)科技有限公司 | 问答处理方法及相关产品 |
CN110196901A (zh) * | 2019-06-28 | 2019-09-03 | 北京百度网讯科技有限公司 | 对话系统的构建方法、装置、计算机设备和存储介质 |
CN110825859A (zh) * | 2019-10-21 | 2020-02-21 | 拉扎斯网络科技(上海)有限公司 | 检索方法、装置、可读存储介质和电子设备 |
JP2021082306A (ja) * | 2020-01-09 | 2021-05-27 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッドBeijing Baidu Netcom Science Technology Co., Ltd. | 目標内容の確定方法、装置、機器及びコンピュータ可読記憶媒体 |
JP7139028B2 (ja) | 2020-01-09 | 2022-09-20 | ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド | 目標内容の確定方法、装置、機器及びコンピュータ可読記憶媒体 |
CN111428005A (zh) * | 2020-04-12 | 2020-07-17 | 中信银行股份有限公司 | 标准问答对确定方法、装置及电子设备 |
WO2022095368A1 (zh) * | 2020-11-04 | 2022-05-12 | 平安科技(深圳)有限公司 | 基于文本生成模型的问答语料生成方法和装置 |
CN113094472A (zh) * | 2021-04-16 | 2021-07-09 | 洛阳墨潇网络科技有限公司 | 基于人工智能的知识库生成方法和智能机器人应答方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108763529A (zh) | 一种智能检索方法、装置和计算机可读存储介质 | |
CN111259653B (zh) | 基于实体关系消歧的知识图谱问答方法、系统以及终端 | |
US11693894B2 (en) | Conversation oriented machine-user interaction | |
US10997370B2 (en) | Hybrid classifier for assigning natural language processing (NLP) inputs to domains in real-time | |
US10496749B2 (en) | Unified semantics-focused language processing and zero base knowledge building system | |
CN108647205B (zh) | 细粒度情感分析模型构建方法、设备及可读存储介质 | |
CN110096567B (zh) | 基于qa知识库推理的多轮对话回复选择方法、系统 | |
US20180341871A1 (en) | Utilizing deep learning with an information retrieval mechanism to provide question answering in restricted domains | |
CN110059160B (zh) | 一种端到端的基于上下文的知识库问答方法及装置 | |
CN104216913B (zh) | 问题回答方法、系统和计算机可读介质 | |
JP5710317B2 (ja) | 情報処理装置、自然言語解析方法、プログラムおよび記録媒体 | |
CN109840287A (zh) | 一种基于神经网络的跨模态信息检索方法和装置 | |
CN112270193A (zh) | 基于bert-flat的中文命名实体识别方法 | |
CN104331449B (zh) | 查询语句与网页相似度的确定方法、装置、终端及服务器 | |
CN112035730B (zh) | 一种语义检索方法、装置及电子设备 | |
CN106202153A (zh) | 一种es搜索引擎的拼写纠错方法及系统 | |
CN106202010A (zh) | 基于深度神经网络构建法律文本语法树的方法和装置 | |
CN103250129A (zh) | 使用具有受限结构的文本提供具有延迟类型评估的问答 | |
CN110427478B (zh) | 一种基于知识图谱的问答搜索方法及系统 | |
CN112328800A (zh) | 自动生成编程规范问题答案的系统及方法 | |
CN110084323A (zh) | 端到端语义解析系统及训练方法 | |
CN112036178A (zh) | 一种配网实体相关的语义搜索方法 | |
CN113971394A (zh) | 文本复述改写系统 | |
CN116227466A (zh) | 一种语义不同措辞相似的句子生成方法、装置及设备 | |
CN112417170B (zh) | 面向不完备知识图谱的关系链接方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181106 |
|
RJ01 | Rejection of invention patent application after publication |