CN108256056A - 智能问答方法与系统 - Google Patents

智能问答方法与系统 Download PDF

Info

Publication number
CN108256056A
CN108256056A CN201810037976.4A CN201810037976A CN108256056A CN 108256056 A CN108256056 A CN 108256056A CN 201810037976 A CN201810037976 A CN 201810037976A CN 108256056 A CN108256056 A CN 108256056A
Authority
CN
China
Prior art keywords
descriptor
question sentence
text
title
knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810037976.4A
Other languages
English (en)
Inventor
英高海
朱德明
李坤
李冬梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GCI Science and Technology Co Ltd
Original Assignee
GCI Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GCI Science and Technology Co Ltd filed Critical GCI Science and Technology Co Ltd
Priority to CN201810037976.4A priority Critical patent/CN108256056A/zh
Publication of CN108256056A publication Critical patent/CN108256056A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/243Natural language query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种智能问答方法,所述方法包括:提取问句的所有主题词;获取所述问句的每一主题词的词向量;将所述问句的所有所述主题词的词向量进行相加,作为所述问句的主题词叠加向量;对于知识库中的每一知识的标题,确定所述问句与任一标题共现的主题词,并获取所述共现的主题词的数量,作为所述任一标题的共现词数;所述知识由标题和正文组成;将所述共现词数超过预设阈值的所述标题对应的知识确定为候选答案;计算每一候选答案的正文的主题词叠加向量与所述问句的主题词叠加向量之间的相似度,并将所述相似度最高的候选答案确定为所述问句的最终答案。采用本发明实施例,能够提高智能问答的准确性。同时本发明还提供一种智能问答系统。

Description

智能问答方法与系统
技术领域
本发明涉及人工智能领域,尤其涉及智能问答方法与系统。
背景技术
目前,问答系统的实现通常包括三个部分:问句分析、信息检索、答案抽取。基于结构化数据、限定领域的问答系统,如用于回答股民问题,基于上市公司年报的问答系统。在该类型的问答系统中,一个非常关键的环节是信息检索模块,该功能模块要求能够根据用户所提问题,从知识库中准确地定位答案的位置。对于信息检索这个模块,以往通常为在知识库中查询问句的关键词来获得最终的答案。
本发明人在实施本发明的过程中发现,现有技术至少存在以下缺点:
现有技术仅是简单地进行关键字查询,没有考虑问句的语义信息,因此,现有的智能问答方法提供的答案准确性不高。
发明内容
本发明实施例提出智能问答方法与系统,能够提高智能问答的准确性。
本发明一方面提供一种智能问答方法,所述方法包括:
提取问句的所有主题词;
获取所述问句的每一主题词的词向量;
将所述问句的所有所述主题词的词向量进行相加,作为所述问句的主题词叠加向量;
对于知识库中的每一知识的标题,确定所述问句与任一标题共现的主题词,并获取所述共现的主题词的数量,作为所述任一标题的共现词数;其中,所述知识由标题和正文组成;
将所述共现词数超过预设阈值的所述标题对应的知识确定为候选答案;
计算每一候选答案的正文的主题词叠加向量与所述问句的主题词叠加向量之间的相似度,并将所述相似度最高的候选答案确定为所述问句的最终答案。
在一种可选的实施方式中,所述计算每一候选答案的正文的主题词叠加向量与所述问句的主题词叠加向量之间的相似度,并将所述相似度最高的候选答案确定为所述问句的最终答案,包括:
计算每一候选答案的正文的主题词叠加向量与所述问句的主题词叠加向量的距离;其中,所述距离为余弦距离或欧式距离;
比较每一候选答案的正文的主题词叠加向量与所述问句的主题词叠加向量之间的距离的数值大小,确定所述距离的数值最小的所述正文的主题词叠加向量所对应的候选答案为所述问句的最终答案。
在一种可选的实施方式中,所述方法还包括:
响应于所述知识库的构建指令,获取多个文档;其中,所述文档包括多级标题和各级标题下的正文;
对于每一所述文档,根据所述文档的每一所述标题和所述标题对应的正文组成每一所述知识;
提取每一所述知识的标题的所有主题词;
提取每一所述知识的正文的所有主题词;
根据每一所述文档的每一所述知识、每一所述知识的标题的所有主题词和每一所述知识的正文的所有主题词构建所述知识库。
在一种可选的实施方式中,所述提取每一所述知识的标题的所有主题词,包括:
对所述知识的标题进行分词预处理,以得到若干标题分词结果;
将所述若干标题分词结果中的词语确定为所述标题的主题词。
在一种可选的实施方式中,所述提取每一所述知识的正文的所有主题词,包括:
对所述知识的正文进行分词预处理,以得到若干正文分词结果;
采用textrank算法从所述若干正文分词结果中选取第一预设数量的正文分词结果,并将选取的正文分词结果中的词语确定为所述知识的正文的主题词。
在一种可选的实施方式中,所述提取问句的所有主题词,包括:
对所述问句进行分词预处理,以得到若干问句分词结果;
根据预设规则从所述若干问句分词结果中选取问句分词结果,并将选取的每一问句分词结果中的词语确定为所述问句的主题词。
在一种可选的实施方式中,所述对所述问句进行分词预处理,以得到若干问句分词结果,包括:
根据预设的词典对所述问句进行分词,以得到若干问句初步分词结果;
根据预设的去停用词表对所述若干问句初步分词结果进行去停用词,以得到所述问句的若干问句分词结果。
在一种可选的实施方式中,所述获取所述问句的每一主题词的词向量,包括:
分别通过预先构建的词向量模型将所述问句的每一主题词转化为词向量;
所述方法还包括:
响应于所述词向量模型的构建指令,获取目标领域的文本语料库;
对所述文本语料库进行预处理,其中,所述预处理包括分词和去停用词;
通过word2vec算法对预处理后的所述文本语料库的文本数据进行训练,以生成所述词向量模型。
在一种可选的实施方式中,所述方法还包括:
响应于所述候选答案的正文的主题词叠加向量的获取指令,将所述候选答案的正文的每一主题词转化为词向量;
将所述候选答案的正文的所有主题词的词向量进行相加,作为所述候选答案的正文的主题词叠加向量。
本发明另一方面还提供一种智能问答系统,所述系统包括:
第一提取模块,用于提取问句的所有主题词;
第一获取模块,用于获取所述问句的每一主题词的词向量;
第一叠加模块,用于将所述问句的所有所述主题词的词向量进行相加,作为所述问句的主题词叠加向量;
共现模块,用于对于知识库中的每一知识的标题,确定所述问句与任一标题共现的主题词,并获取所述共现的主题词的数量,作为所述任一标题的共现词数;其中,所述知识由标题和正文组成;
第一确定模块,用于将所述共现词数超过预设阈值的所述标题对应的知识确定为候选答案;
计算模块,用于计算每一候选答案的正文的主题词叠加向量与所述问句的主题词叠加向量之间的相似度,并将所述相似度最高的候选答案确定为所述问句的最终答案。
相对于现有技术,本发明具有如下突出的有益效果:本发明提供了一种智能问答方法与系统,其中,所述方法通过将非结构化的词语映射到一个词向量空间,便于用词向量空间中的点表示某一特定的词语,实现从语义层面进行智能问答;通过问句的主题词与知识库中每一标题的主题词的共现关系,实现将问句与知识的匹配,从而获得候选答案,充分发挥标题的强概括性的作用,缩小答案筛选范围,从而提高处理效率;通过所述问句的主题词叠加向量和各个候选答案的主题词叠加向量之间的相似度来进一步确定最终答案,克服了单独使用标题或正文进行答案检索的准确性不足的问题,使得获取的最终答案更加准确,从而提高了智能问答的准确性。
附图说明
图1是本发明提供的智能问答方法的第一实施例的流程示意图;
图2是本发明提供的智能问答系统的第一实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,其是本发明提供的智能问答方法的第一实施例的流程示意图,如图1所示,所述方法包括:
步骤S101、提取问句的所有主题词;
步骤S102、获取所述问句的每一主题词的词向量;
步骤S103、将所述问句的所有所述主题词的词向量进行相加,作为所述问句的主题词叠加向量;
步骤S104、对于知识库中的每一知识的标题,确定所述问句与任一标题共现的主题词,并获取所述共现的主题词的数量,作为所述任一标题的共现词数;其中,所述知识由标题和正文组成;
步骤S105、将所述共现词数超过预设阈值的所述标题对应的知识确定为候选答案;
步骤S106、计算每一候选答案的正文的主题词叠加向量与所述问句的主题词叠加向量之间的相似度,并将所述相似度最高的候选答案确定为所述问句的最终答案。
例如,假设问句包括如下主题词:退货、退款、到账时间,以及假设标题包括如下主题词:商品编号、退款、到账时间,则问句与标题共现的主题词为:退款和到账时间,即该标题的共现词数为2。需要说明的是,所述问句的主题词和标题的主题词仅为说明共现词数的示例,本发明不限于该种实施方式。
例如,问句包括三个主题词,第一个主题词的词向量为(a1,a2,a3),第二个主题词的词向量为(b1,b2,b3),第三个主题词的词向量为(c1,c2,c3),则问句的主题词叠加向量为(a1+b1+c1,a2+b2+c2,a3+b3+c3);需要说明的是,所述问句的主题词个数和词向量的维度仅为说明主题词叠加向量的示例,本发明不限于该种实施方式。
即通过将非结构化的词语映射到一个词向量空间,便于用词向量空间中的点表示某一特定的词语,实现从语义层面进行智能问答;通过问句的主题词与知识库中每一标题的主题词的共现关系,实现将问句与知识的匹配,从而获得候选答案,充分发挥标题的强概括性的作用,缩小答案筛选范围,从而提高处理效率;通过所述问句的主题词叠加向量和各个候选答案的主题词叠加向量之间的相似度来进一步确定最终答案,克服了单独使用标题或正文进行答案检索的准确性不足的问题,使得获取的最终答案更加准确,从而提高了智能问答的准确性。
本发明还提供了一种智能问答方法的第二实施例,所述方法包括上述智能问答方法的第一实施例中的步骤S101 ̄S106,还进一步限定了:所述计算每一候选答案的正文的主题词叠加向量与所述问句的主题词叠加向量之间的相似度,并将所述相似度最高的候选答案确定为所述问句的最终答案,包括:
计算每一候选答案的正文的主题词叠加向量与所述问句的主题词叠加向量的距离;其中,所述距离为余弦距离或欧式距离;
比较每一候选答案的正文的主题词叠加向量与所述问句的主题词叠加向量之间的距离的数值大小,确定所述距离的数值最小的所述正文的主题词叠加向量所对应的候选答案为所述问句的最终答案。
需要说明的是,余弦距离,又称为余弦相似度,是通过计算两个向量的夹角余弦值来评估他们的相似度。余弦相似度将向量根据坐标值,绘制到向量空间中,如最常见的二维空间。欧氏距离(欧几里得度量,euclidean metric)是一个常用的距离定义,是指在m维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)。在二维和三维空间中的欧氏距离就是两点之间的实际距离。
即通过向量空间中不同点之间的距离大小来衡量正文的主题词叠加向量与问句的主题词叠加向量之间的相似度,距离越小,正文的主题词叠加向量与问句的主题词叠加向量越相似,简化相似度的计算方法,提高处理效率。
本发明还提供了一种智能问答方法的第三实施例,所述方法包括上述智能问答方法的第一实施例中的步骤S101 ̄S106,还进一步限定了:所述方法还包括:
响应于所述知识库的构建指令,获取多个文档;其中,所述文档包括多级标题和各级标题下的正文;
对于每一所述文档,根据所述文档的每一所述标题和所述标题对应的正文组成每一所述知识;
提取每一所述知识的标题的所有主题词;
提取每一所述知识的正文的所有主题词;
根据每一所述文档的每一所述知识、每一所述知识的标题的所有主题词和每一所述知识的正文的所有主题词构建所述知识库。
在一种可选的实施方式中,所述多个文档包括多个目标领域的文档;例如,公司年报,其通常是按照多层标题形式编写的文档。
在一种可选的实施方式中,所述对于每一所述文档,根据所述文档的每一所述标题和所述标题对应的正文组成每一所述知识,包括:
对于每一所述文档,将以所述文档的每一标题为键、以所述标题对应的正文为值的json键值对确定为每一所述知识。
即通过采用json键值对实现对所述多个文档进行结构化转化,从而构建结构化的知识库,提高知识库的易读性,降低数据处理的难度。
在一种可选的实施方式中,所述根据每一所述文档的每一所述知识、每一所述知识的标题的所有主题词和每一所述知识的正文的所有主题词构建所述知识库,包括:
根据每一所述文档的每一所述知识形成原始知识库;
将每一所述知识的标题的所有主题词和每一所述知识的正文的主题词存储为与原始知识库镜像对应的形式,以构建所述知识库。
例如,对于所述原始知识库中编号为8的json键值对的知识,将其标题的所有主题词和正文的主题词存储至与编号8相应的位置。
本发明还提供了一种智能问答方法的第四实施例,所述方法包括上述智能问答方法的第三实施例中的步骤S101 ̄S106,还进一步限定了:所述提取每一所述知识的标题的所有主题词,包括:
对所述知识的标题进行分词预处理,以得到若干标题分词结果;
将所述若干标题分词结果中的词语确定为所述标题的主题词。
即通过直接将所述若干标题分词结果中的词语确定为所述标题的主题词,避免将标题的重要词语过滤,进一步提高智能问答的准确性。
在一种可选的实施方式中,所述对所述知识的标题进行分词预处理,以得到若干标题分词结果,包括:
根据预设的词典对所述候选答案的标题进行分词,以得到若干标题初步分词结果;
根据预设的停用词表对所述若干标题初步分词结果进行去停用词,以得到所述候选答案的标题的若干分词结果。
需要说明的是,所述停用词表包括若干不具有实质性语义的词语,比如“的”、“了”等);如果所述若干初步分词结果中包括与停用词表相同的词,则将该词从若干初步分词结果中删除。本实施例所采用的分词技术可以为本领域人员已知的分词技术,如,正向最大匹配法、最短路径分词法和统计分词法等现有的分词技术均可采用,或者如中科院的NLPIR汉语分词系统以及结巴分词系统所提供的分词技术也可采用,这些分词技术的具体实现方式为本领域技术人员可以获知,此处不再赘述。
在一种可选的实施方式中,所述预设的词典包括目标领域的词汇表;所述目标领域为所述多个文档所属领域。例如,词典包括财经类词汇表。
在一种可选的实施方式中,所述停用词表包括目标领域的停用词。
本发明还提供了一种智能问答方法的第五实施例,所述方法包括上述智能问答方法的第三实施例中的步骤S101 ̄S106,还进一步限定了:所述提取每一所述知识的正文的所有主题词,包括:
对所述知识的正文进行分词预处理,以得到若干正文分词结果;
采用textrank算法从所述若干正文分词结果中选取第一预设数量的正文分词结果,并将选取的正文分词结果中的词语确定为所述知识的正文的主题词。
需要说明的是,textrank算法是一种在网页排序算法pagerank基础上实现的主题词提取技术,是一种效果较好的无监督方法。
即通过textrank算法从所述若干正文分词结果中快速提取主题词,提高处理效率。
在一种可选的实施方式中,所述对所述知识的正文进行分词预处理,以得到若干正文分词结果,包括:
根据预设的词典对所述候选答案的正文进行分词,以得到若干正文初步分词结果;
根据预设的停用词表对所述若干正文初步分词结果进行去停用词,以得到所述候选答案的正文的若干分词结果。
需要说明的是,所述停用词表包括若干不具有实质性语义的词语,比如“的”、“了”等);如果所述若干初步分词结果中包括与停用词表相同的词,则将该词从若干初步分词结果中删除。本实施例所采用的分词技术可以为本领域人员已知的分词技术,如,正向最大匹配法、最短路径分词法和统计分词法等现有的分词技术均可采用,或者如中科院的NLPIR汉语分词系统以及结巴分词系统所提供的分词技术也可采用,这些分词技术的具体实现方式为本领域技术人员可以获知,此处不再赘述。
在一种可选的实施方式中,所述词典包括现有词典中的词汇和用户自定义词汇。
在一种可选的实施方式中,所述词典包括目标领域的词汇表;所述目标领域为所述多个文档所属领域。
在一种可选的实施方式中,所述停用词表包括目标领域的停用词。
本发明还提供了一种智能问答方法的第六实施例,所述方法包括上述智能问答方法的第一实施例中的步骤S101 ̄S106,还进一步限定了:所述方法还包括:
响应于所述候选答案的正文的主题词叠加向量的获取指令,将所述候选答案的正文的每一主题词转化为词向量;
将所述候选答案的正文的所有主题词的词向量进行相加,作为所述候选答案的正文的主题词叠加向量。
即通过使得正文的主题词叠加向量包含了所述正文的所有主题词的词向量之间的空间关系,简化了对词向量的处理,提高了处理效率。
本发明还提供了一种智能问答方法的第七实施例,所述方法包括上述智能问答方法的第一实施例中的步骤S101 ̄S106,还进一步限定了:所述提取问句的所有主题词,包括:
对所述问句进行分词预处理,以得到若干问句分词结果;
根据预设规则从所述若干问句分词结果中选取问句分词结果,并将选取的每一问句分词结果中的词语确定为所述问句的主题词。
在一种可选的实施方式中,所述根据预设规则从所述若干问句分词结果中选取问句分词结果,并将选取的每一问句分词结果中的词语确定为所述问句的主题词,包括:
根据预设的无贡献词汇表从所述若干问句分词结果中选取问句分词结果,并将选取的每一问句分词结果中的词语确定为所述问句的主题词;其中,所述无贡献词汇表包括多个普遍存在,意义不大的词语。
例如,对于公司年报,问句中经常出现的“公司”这个词对于答案的获取没有实质作用,可将所述若干问句分词结果与“公司”对应的分词结果删除,以实现从所述若干问句分词结果中选取问句分词结果,防止对无用数据的处理,进一步减少数据处理量,提高效率。
本发明还提供了一种智能问答方法的第八实施例,所述方法包括上述智能问答方法的第七实施例中的步骤S101 ̄S106,还进一步限定了:所述对所述问句进行分词预处理,以得到若干问句分词结果,包括:
根据预设的词典对所述问句进行分词,以得到若干问句初步分词结果;
根据预设的去停用词表对所述若干问句初步分词结果进行去停用词,以得到所述问句的若干问句分词结果。
本发明还提供了一种智能问答方法的第九实施例,所述方法包括上述智能问答方法的任一实施例中的步骤S101 ̄S106,还进一步限定了:所述获取所述问句的每一主题词的词向量,包括:
分别通过预先构建的词向量模型将所述问句的每一主题词转化为词向量;
所述方法还包括:
响应于所述词向量模型的构建指令,获取目标领域的文本语料库;
对所述文本语料库进行预处理,其中,所述预处理包括分词和去停用词;
通过word2vec算法对预处理后的所述文本语料库的文本数据进行训练,以生成所述词向量模型。
需要说明的是,所述文本语料库包括大量文本数据;所述文本语料库的文本数据具有多种文本类型。
在一种可选的实施方式中,所述文本语料库包括目标领域的大量文本数据。其中,所述目标领域为所述问句所属领域。
在一种可选的实施方式中,所述文本语料库的文本数据为目标领域的文本数据。
需要说明的是,图1所示的流程图只是为了表达本发明一实施例的流程步骤,但本发明的流程步骤不限于严格地按照S101 ̄S106的顺序执行。例如,S102、S103和S104是可以并列执行的。
参见图2,其是本发明提供的智能问答系统的第一实施例的结构示意图;如图2所示,所述系统包括:
第一提取模块201,用于提取问句的所有主题词;
第一获取模块202,用于获取所述问句的每一主题词的词向量;
第一叠加模块203,用于将所述问句的所有所述主题词的词向量进行相加,作为所述问句的主题词叠加向量;
共现模块204,用于对于知识库中的每一知识的标题,确定所述问句与任一标题共现的主题词,并获取所述共现的主题词的数量,作为所述任一标题的共现词数;其中,所述知识由标题和正文组成;
第一确定模块205,用于将所述共现词数超过预设阈值的所述标题对应的知识确定为候选答案;
计算模块206,用于计算每一候选答案的正文的主题词叠加向量与所述问句的主题词叠加向量之间的相似度,并将所述相似度最高的候选答案确定为所述问句的最终答案。
在一种可选的实施方式中,所述计算模块包括:
计算单元,用于计算每一候选答案的正文的主题词叠加向量与所述问句的主题词叠加向量的距离;其中,所述距离为余弦距离或欧式距离;
比较单元,用于比较每一候选答案的正文的主题词叠加向量与所述问句的主题词叠加向量之间的距离的数值大小,确定所述距离的数值最小的所述正文的主题词叠加向量所对应的候选答案为所述问句的最终答案。
在一种可选的实施方式中,所述系统还包括:
第二获取模块,用于响应于所述知识库的构建指令,获取多个文档;其中,所述文档包括多级标题和各级标题下的正文;
组成模块,用于对于每一所述文档,根据所述文档的每一所述标题和所述标题对应的正文组成每一所述知识;
第二提取模块,用于提取每一所述知识的标题的所有主题词;
第三提取模块,用于提取每一所述知识的正文的所有主题词;
构建模块,用于根据每一所述文档的每一所述知识、每一所述知识的标题的所有主题词和每一所述知识的正文的所有主题词构建所述知识库。
在一种可选的实施方式中,所述多个文档包括多个目标领域的文档;例如,公司年报,其通常是按照多层标题形式编写的文档。
在一种可选的实施方式中,所述组成模块包括:
键值对单元,用于对于每一所述文档,将以所述文档的每一标题为键、以所述标题对应的正文为值的json键值对确定为每一所述知识。
即通过采用json键值对实现对所述多个文档进行结构化转化,从而构建结构化的知识库,提高知识库的易读性,降低数据处理的难度。
在一种可选的实施方式中,所述构建模块包括:
形成单元,用于根据每一所述文档的每一所述知识形成原始知识库;
存储单元,用于将每一所述知识的标题的所有主题词和每一所述知识的正文的主题词存储为与原始知识库镜像对应的形式,以构建所述知识库。
例如,对于所述原始知识库中编号为8的json键值对的知识,将其标题的所有主题词和正文的主题词存储至与编号8相应的位置。
在一种可选的实施方式中,所述第二提取模块包括:
第一预处理单元,用于对所述知识的标题进行分词预处理,以得到若干标题分词结果;
第一确定单元,用于将所述若干标题分词结果中的词语确定为所述标题的主题词。
在一种可选的实施方式中,所述第一预处理单元包括:
第二分词单元,用于根据预设的词典对所述候选答案的标题进行分词,以得到若干标题初步分词结果;
第二去停用词单元,用于根据预设的停用词表对所述若干标题初步分词结果进行去停用词,以得到所述候选答案的标题的若干分词结果。
需要说明的是,所述停用词表包括若干不具有实质性语义的词语,比如“的”、“了”等);如果所述若干初步分词结果中包括与停用词表相同的词,则将该词从若干初步分词结果中删除。本实施例所采用的分词技术可以为本领域人员已知的分词技术,如,正向最大匹配法、最短路径分词法和统计分词法等现有的分词技术均可采用,或者如中科院的NLPIR汉语分词系统以及结巴分词系统所提供的分词技术也可采用,这些分词技术的具体实现方式为本领域技术人员可以获知,此处不再赘述。
在一种可选的实施方式中,所述预设的词典包括目标领域的词汇表;所述目标领域为所述多个文档所属领域。例如,词典包括财经类词汇表。
在一种可选的实施方式中,所述停用词表包括目标领域的停用词。
在一种可选的实施方式中,所述第三提取模块包括:
第二预处理单元,用于对所述知识的正文进行分词预处理,以得到若干正文分词结果;
第一选取单元,用于采用textrank算法从所述若干正文分词结果中选取第一预设数量的正文分词结果,并将选取的正文分词结果中的词语确定为所述知识的正文的主题词。
在一种可选的实施方式中,所述第二预处理单元包括:
第三分词单元,用于根据预设的词典对所述候选答案的正文进行分词,以得到若干正文初步分词结果;
第三去停用词单元,用于根据预设的停用词表对所述若干正文初步分词结果进行去停用词,以得到所述候选答案的正文的若干分词结果。
需要说明的是,所述停用词表包括若干不具有实质性语义的词语,比如“的”、“了”等);如果所述若干初步分词结果中包括与停用词表相同的词,则将该词从若干初步分词结果中删除。本实施例所采用的分词技术可以为本领域人员已知的分词技术,如,正向最大匹配法、最短路径分词法和统计分词法等现有的分词技术均可采用,或者如中科院的NLPIR汉语分词系统以及结巴分词系统所提供的分词技术也可采用,这些分词技术的具体实现方式为本领域技术人员可以获知,此处不再赘述。
在一种可选的实施方式中,所述词典包括现有词典中的词汇和用户自定义词汇。
在一种可选的实施方式中,所述词典包括目标领域的词汇表;所述目标领域为所述多个文档所属领域。
在一种可选的实施方式中,所述停用词表包括目标领域的停用词。
在一种可选的实施方式中,所述系统还包括:
转化模块,用于响应于所述候选答案的正文的主题词叠加向量的获取指令,将所述候选答案的正文的每一主题词转化为词向量;
第二叠加模块,用于将所述候选答案的正文的所有主题词的词向量进行相加,作为所述候选答案的正文的主题词叠加向量。
在一种可选的实施方式中,所述第一提取模块包括:
第三预处理单元,用于对所述问句进行分词预处理,以得到若干问句分词结果;
第二选取单元,用于根据预设规则从所述若干问句分词结果中选取问句分词结果,并将选取的每一问句分词结果中的词语确定为所述问句的主题词。
在一种可选的实施方式中,所述第二选取单元包括:
第三选取单元,用于根据预设的无贡献词汇表从所述若干问句分词结果中选取问句分词结果,并将选取的每一问句分词结果中的词语确定为所述问句的主题词;其中,所述无贡献词汇表包括多个普遍存在,意义不大的词语。
例如,对于公司年报,问句中经常出现的“公司”这个词对于答案的获取没有实质作用,可将所述若干问句分词结果与“公司”对应的分词结果删除,以实现从所述若干问句分词结果中选取问句分词结果,防止对无用数据的处理,进一步减少数据处理量,提高效率。
在一种可选的实施方式中,所述对所述问句进行分词预处理,以得到若干问句分词结果,包括:
第一分词单元,用于根据预设的词典对所述问句进行分词,以得到若干问句初步分词结果;
第一去停用词单元,用于根据预设的去停用词表对所述若干问句初步分词结果进行去停用词,以得到所述问句的若干问句分词结果。
在一种可选的实施方式中,所述第一获取模块包括:
转化单元,用于分别通过预先构建的词向量模型将所述问句的每一主题词转化为词向量;
所述系统还包括:
第三获取模块,用于响应于所述词向量模型的构建指令,获取目标领域的文本语料库;
预处理模块,用于对所述文本语料库进行预处理,其中,所述预处理包括分词和去停用词;
训练模块,用于通过word2vec算法对预处理后的所述文本语料库的文本数据进行训练,以生成所述词向量模型。
需要说明的是,所述文本语料库包括大量文本数据;所述文本语料库的文本数据具有多种文本类型。
在一种可选的实施方式中,所述文本语料库包括目标领域的大量文本数据。其中,所述目标领域为所述问句所属领域。
在一种可选的实施方式中,所述文本语料库的文本数据为目标领域的文本数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccess Memory,RAM)等。
需说明的是,以上所描述的装置或系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (10)

1.一种智能问答方法,其特征在于,包括:
提取问句的所有主题词;
获取所述问句的每一主题词的词向量;
将所述问句的所有所述主题词的词向量进行相加,作为所述问句的主题词叠加向量;
对于知识库中的每一知识的标题,确定所述问句与任一标题共现的主题词,并获取所述共现的主题词的数量,作为所述任一标题的共现词数;其中,所述知识由标题和正文组成;
将所述共现词数超过预设阈值的所述标题对应的知识确定为候选答案;
计算每一候选答案的正文的主题词叠加向量与所述问句的主题词叠加向量之间的相似度,并将所述相似度最高的候选答案确定为所述问句的最终答案。
2.如权利要求1所述的智能问答方法,其特征在于,所述计算每一候选答案的正文的主题词叠加向量与所述问句的主题词叠加向量之间的相似度,并将所述相似度最高的候选答案确定为所述问句的最终答案,包括:
计算每一候选答案的正文的主题词叠加向量与所述问句的主题词叠加向量的距离;其中,所述距离为余弦距离或欧式距离;
比较每一候选答案的正文的主题词叠加向量与所述问句的主题词叠加向量之间的距离的数值大小,确定所述距离的数值最小的所述正文的主题词叠加向量所对应的候选答案为所述问句的最终答案。
3.如权利要求1所述的智能问答方法,其特征在于,所述方法还包括:
响应于所述知识库的构建指令,获取多个文档;其中,所述文档包括多级标题和各级标题下的正文;
对于每一所述文档,根据所述文档的每一所述标题和所述标题对应的正文组成每一所述知识;
提取每一所述知识的标题的所有主题词;
提取每一所述知识的正文的所有主题词;
根据每一所述文档的每一所述知识、每一所述知识的标题的所有主题词和每一所述知识的正文的所有主题词构建所述知识库。
4.如权利要求3所述的智能问答方法,其特征在于,所述提取每一所述知识的标题的所有主题词,包括:
对所述知识的标题进行分词预处理,以得到若干标题分词结果;
将所述若干标题分词结果中的词语确定为所述标题的主题词。
5.如权利要求3所述的智能问答方法,其特征在于,所述提取每一所述知识的正文的所有主题词,包括:
对所述知识的正文进行分词预处理,以得到若干正文分词结果;
采用textrank算法从所述若干正文分词结果中选取第一预设数量的正文分词结果,并将选取的正文分词结果中的词语确定为所述知识的正文的主题词。
6.如权利要求1所述的智能问答方法,其特征在于,所述提取问句的所有主题词,包括:
对所述问句进行分词预处理,以得到若干问句分词结果;
根据预设规则从所述若干问句分词结果中选取问句分词结果,并将选取的每一问句分词结果中的词语确定为所述问句的主题词。
7.如权利要求6所述的智能问答方法,其特征在于,所述对所述问句进行分词预处理,以得到若干问句分词结果,包括:
根据预设的词典对所述问句进行分词,以得到若干问句初步分词结果;
根据预设的去停用词表对所述若干问句初步分词结果进行去停用词,以得到所述问句的若干问句分词结果。
8.如权利要求1-7任一项所述的智能问答方法,其特征在于,所述方法还包括:
响应于所述候选答案的正文的主题词叠加向量的获取指令,将所述候选答案的正文的每一主题词转化为词向量;
将所述候选答案的正文的所有主题词的词向量进行相加,作为所述候选答案的正文的主题词叠加向量。
9.如权利要求1-7任一项所述的智能问答方法,其特征在于,所述获取所述问句的每一主题词的词向量,包括:
分别通过预先构建的词向量模型将所述问句的每一主题词转化为词向量;
所述方法还包括:
响应于所述词向量模型的构建指令,获取目标领域的文本语料库;
对所述文本语料库进行预处理,其中,所述预处理包括分词和去停用词;
通过word2vec算法对预处理后的所述文本语料库的文本数据进行训练,以生成所述词向量模型。
10.一种智能问答系统,其特征在于,包括:
第一提取模块,用于提取问句的所有主题词;
第一获取模块,用于获取所述问句的每一主题词的词向量;
第一叠加模块,用于将所述问句的所有所述主题词的词向量进行相加,作为所述问句的主题词叠加向量;
共现模块,用于对于知识库中的每一知识的标题,确定所述问句与任一标题共现的主题词,并获取所述共现的主题词的数量,作为所述任一标题的共现词数;其中,所述知识由标题和正文组成;
第一确定模块,用于将所述共现词数超过预设阈值的所述标题对应的知识确定为候选答案;
计算模块,用于计算每一候选答案的正文的主题词叠加向量与所述问句的主题词叠加向量之间的相似度,并将所述相似度最高的候选答案确定为所述问句的最终答案。
CN201810037976.4A 2018-01-12 2018-01-12 智能问答方法与系统 Pending CN108256056A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810037976.4A CN108256056A (zh) 2018-01-12 2018-01-12 智能问答方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810037976.4A CN108256056A (zh) 2018-01-12 2018-01-12 智能问答方法与系统

Publications (1)

Publication Number Publication Date
CN108256056A true CN108256056A (zh) 2018-07-06

Family

ID=62726785

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810037976.4A Pending CN108256056A (zh) 2018-01-12 2018-01-12 智能问答方法与系统

Country Status (1)

Country Link
CN (1) CN108256056A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109062892A (zh) * 2018-07-10 2018-12-21 东北大学 一种基于Word2Vec的中文语句相似度计算方法
CN109933653A (zh) * 2019-01-24 2019-06-25 平安科技(深圳)有限公司 问答系统的问答查询方法、系统及计算机设备
CN110209790A (zh) * 2019-06-06 2019-09-06 阿里巴巴集团控股有限公司 问答匹配方法和装置
CN110489533A (zh) * 2019-07-09 2019-11-22 深圳追一科技有限公司 人机对话方法及相关设备
CN110866095A (zh) * 2019-10-10 2020-03-06 重庆金融资产交易所有限责任公司 一种文本相似度的确定方法及相关设备
CN111177316A (zh) * 2019-12-20 2020-05-19 浙江工业大学 一种基于主题词过滤的智能问答方法及系统
CN111191465A (zh) * 2018-10-25 2020-05-22 中国移动通信有限公司研究院 一种问答匹配方法、装置、设备及存储介质
CN111241848A (zh) * 2020-01-15 2020-06-05 江苏联著实业股份有限公司 一种基于机器学习的文章阅读理解答案检索系统及装置
CN111460119A (zh) * 2020-03-27 2020-07-28 海信集团有限公司 经济知识智能问答方法、系统及智能设备
CN112463943A (zh) * 2020-12-11 2021-03-09 深圳市一号互联科技有限公司 基于聚类算法的新知识点发现的处理方法及其装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100235164A1 (en) * 2009-03-13 2010-09-16 Invention Machine Corporation Question-answering system and method based on semantic labeling of text documents and user questions
CN102236677A (zh) * 2010-04-28 2011-11-09 北京大学深圳研究生院 一种基于问答系统的信息匹配方法及系统
CN103377245A (zh) * 2012-04-27 2013-10-30 腾讯科技(深圳)有限公司 一种自动问答方法及装置
CN104471568A (zh) * 2012-07-02 2015-03-25 微软公司 对自然语言问题的基于学习的处理
CN106570708A (zh) * 2016-10-31 2017-04-19 厦门快商通科技股份有限公司 一种智能客服知识库的管理方法及系统
CN107368547A (zh) * 2017-06-28 2017-11-21 西安交通大学 一种基于深度学习的智能医疗自动问答方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100235164A1 (en) * 2009-03-13 2010-09-16 Invention Machine Corporation Question-answering system and method based on semantic labeling of text documents and user questions
CN102236677A (zh) * 2010-04-28 2011-11-09 北京大学深圳研究生院 一种基于问答系统的信息匹配方法及系统
CN103377245A (zh) * 2012-04-27 2013-10-30 腾讯科技(深圳)有限公司 一种自动问答方法及装置
CN104471568A (zh) * 2012-07-02 2015-03-25 微软公司 对自然语言问题的基于学习的处理
CN106570708A (zh) * 2016-10-31 2017-04-19 厦门快商通科技股份有限公司 一种智能客服知识库的管理方法及系统
CN107368547A (zh) * 2017-06-28 2017-11-21 西安交通大学 一种基于深度学习的智能医疗自动问答方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
段旭磊等: "微博文本的句向量表示及相似度计算方法研究", 《计算机工程》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109062892A (zh) * 2018-07-10 2018-12-21 东北大学 一种基于Word2Vec的中文语句相似度计算方法
CN111191465A (zh) * 2018-10-25 2020-05-22 中国移动通信有限公司研究院 一种问答匹配方法、装置、设备及存储介质
CN111191465B (zh) * 2018-10-25 2023-05-09 中国移动通信有限公司研究院 一种问答匹配方法、装置、设备及存储介质
CN109933653A (zh) * 2019-01-24 2019-06-25 平安科技(深圳)有限公司 问答系统的问答查询方法、系统及计算机设备
CN110209790A (zh) * 2019-06-06 2019-09-06 阿里巴巴集团控股有限公司 问答匹配方法和装置
CN110209790B (zh) * 2019-06-06 2023-08-25 创新先进技术有限公司 问答匹配方法和装置
CN110489533A (zh) * 2019-07-09 2019-11-22 深圳追一科技有限公司 人机对话方法及相关设备
CN110866095A (zh) * 2019-10-10 2020-03-06 重庆金融资产交易所有限责任公司 一种文本相似度的确定方法及相关设备
CN111177316A (zh) * 2019-12-20 2020-05-19 浙江工业大学 一种基于主题词过滤的智能问答方法及系统
CN111241848A (zh) * 2020-01-15 2020-06-05 江苏联著实业股份有限公司 一种基于机器学习的文章阅读理解答案检索系统及装置
CN111460119A (zh) * 2020-03-27 2020-07-28 海信集团有限公司 经济知识智能问答方法、系统及智能设备
CN111460119B (zh) * 2020-03-27 2024-04-12 海信集团有限公司 经济知识智能问答方法、系统及智能设备
CN112463943A (zh) * 2020-12-11 2021-03-09 深圳市一号互联科技有限公司 基于聚类算法的新知识点发现的处理方法及其装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN108256056A (zh) 智能问答方法与系统
KR102055656B1 (ko) 텍스트의 의미 처리를 위한 방법, 장치 및 제품
CN106598937B (zh) 用于文本的语种识别方法、装置和电子设备
CN109190117B (zh) 一种基于词向量的短文本语义相似度计算方法
CN102479191B (zh) 提供多粒度分词结果的方法及其装置
Heigold et al. An extensive empirical evaluation of character-based morphological tagging for 14 languages
CN111221944B (zh) 文本意图识别方法、装置、设备和存储介质
Wu et al. Online asymmetric similarity learning for cross-modal retrieval
CN107577671A (zh) 一种基于多特征融合的主题词提取方法
CN109992788A (zh) 基于未登录词处理的深度文本匹配方法及装置
CN113569050B (zh) 基于深度学习的政务领域知识图谱自动化构建方法和装置
CN106557777B (zh) 一种基于SimHash改进的Kmeans文档聚类方法
CN112115716A (zh) 一种基于多维词向量下文本匹配的服务发现方法、系统及设备
CN109408802A (zh) 一种提升句向量语义的方法、系统及存储介质
CN108563766A (zh) 食品检索的方法及装置
CN106599072B (zh) 一种文本聚类方法及装置
CN114297388A (zh) 一种文本关键词提取方法
CN110728135B (zh) 文本主题标引方法、装置、电子设备及计算机存储介质
CN112434533A (zh) 实体消歧方法、装置、电子设备及计算机可读存储介质
Gopan et al. Comparative study on different approaches in keyword extraction
Babatunde et al. Automatic table recognition and extraction from heterogeneous documents
Wang et al. TF-IDF keyword extraction method combining context and semantic classification
Losnegaard et al. A data-driven approach to anglicism identification in Norwegian
Nalawade et al. Improved similarity measure for text classification and clustering
JP2017068742A (ja) 関連文書検索装置、モデル作成装置、これらの方法及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180706

RJ01 Rejection of invention patent application after publication