CN109033262A - 问答知识库更新方法及装置 - Google Patents
问答知识库更新方法及装置 Download PDFInfo
- Publication number
- CN109033262A CN109033262A CN201810742880.8A CN201810742880A CN109033262A CN 109033262 A CN109033262 A CN 109033262A CN 201810742880 A CN201810742880 A CN 201810742880A CN 109033262 A CN109033262 A CN 109033262A
- Authority
- CN
- China
- Prior art keywords
- question
- answer
- pair
- answer pair
- knowledge base
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
Landscapes
- Engineering & Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种问答知识库更新方法及装置,该方法包括:获取问答对;分析获取的所述问答对的问题的完整度,分析获取的所述问答对的问题和答案之间的第一匹配度,以及分析获取的所述问答对与设定最近时间段内的相关问答对之间的第二匹配度;利用所述完整度、所述第一匹配度及所述第二匹配度中的至少一者确定获取的所述问答对的置信度;根据所述置信度判断是否需要纠正获取的所述问答对,以更新获取的所述问答对的问题所属的问答知识库。本发明能够利用置信度指标统一管理并提高问答知识库完整度和准确度,从而提高自动问答系统提供答案的准确度。
Description
技术领域
本发明涉及信息处理技术领域,尤其涉及一种问答知识库更新方法及装置。
背景技术
人机互动问答技术已经越来越多地被应用客服系统,并初步取得了一定成效,但自动客服系统的问题也随之而来。基于问答库知识匹配的方法,通常需要具备两个条件:首先,要有足够丰富和全面的问答数据对,也就是真实的用户问题和正确的客服人员回答;其次,要有准确的领域知识库,对领域内容特定的对象和他们之间关系有明确的定义。
问答系统(QA系统)可以利用置信度对其所作回答的自信程度进行评价。目前,许多问答系统仅使用答案类型作为考量因素,来确定对不同问题答案的置信度。另有一些问答系统直接使用答案评分的结果作为置信度。然而,基于这两种方法算出的置信度往往不够精确,导致问答系统难以针对用户的问题提供准确合适的答案,影响用户的问答体验以及问答效率。
发明内容
本发明提供一种问答知识库更新方法及装置,以提高自动问答系统提供答案的准确度。
本发明实施例提供一种问答知识库更新方法,包括:获取问答对;分析获取的所述问答对的问题的完整度,分析获取的所述问答对的问题和答案之间的第一匹配度,以及分析获取的所述问答对与设定最近时间段内的相关问答对之间的第二匹配度;利用所述完整度、所述第一匹配度及所述第二匹配度中的至少一者确定获取的所述问答对的置信度;根据所述置信度判断是否需要纠正获取的所述问答对,以更新获取的所述问答对的问题所属的问答知识库。
本发明实施例还提供一种问答知识库更新装置,包括:问答对获取单元,用于:获取问答对;问答对分析单元,用于:分析获取的所述问答对的问题的完整度,分析获取的所述问答对的问题和答案之间的第一匹配度,以及分析获取的所述问答对与设定最近时间段内的相关问答对之间的第二匹配度;置信度确定单元,用于:利用所述完整度、所述第一匹配度及所述第二匹配度中的至少一者确定获取的所述问答对的置信度;问答库更新单元,用于:根据所述置信度判断是否需要纠正获取的所述问答对,以更新获取的所述问答对的问题所属的问答知识库。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述各实施例所述方法的步骤。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述各实施例所述方法的步骤。
本发明实施例的问答知识库更新方法、问答知识库更新装置、计算机可读存储介质及计算机设备,通过分析问答对的问题的完整度,分析问答对的问题和答案之间的第一匹配度,以及分析问答对与设定最近时间段内的相关问答对之间的第二匹配度,并利用所述完整度、所述第一匹配度及所述第二匹配度中的至少一者确定问答对的置信度,使得计算得到的置信度比较准确,进而使得自动问答系统的问答知识库中问答对的问题与答案的符合程度较高,从而使得自动问答系统能够针对用户的问题提供准确合适的答案,提高用户的问答体验以及问答效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1是本发明一实施例的问答知识库更新方法的流程示意图;
图2是本发明一实施例中分析获取的问答对的问题的语法结构完整性和主语描述完整性的方法流程示意图;
图3是本发明一实施例中分析获取的问答对的问题和答案之间的第一匹配度的方法流程示意图;
图4是本发明一实施例中分析获取的问答对与设定最近时间段内的相关问答对之间的第二匹配度的方法流程示意图;
图5是本发明一实施例中根据置信度判断是否需要纠正获取的问答对的方法流程示意图;
图6是本发明一实施例的问答知识库更新装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
图1是本发明一实施例的问答知识库更新方法的流程示意图。如图1所示,本实施例的问答知识库更新方法,可包括:
步骤S110:获取问答对;
步骤S120:分析获取的所述问答对的问题的完整度,分析获取的所述问答对的问题和答案之间的第一匹配度,以及分析获取的所述问答对与设定最近时间段内的相关问答对之间的第二匹配度;
步骤S130:利用所述完整度、所述第一匹配度及所述第二匹配度中的至少一者确定获取的所述问答对的置信度;
步骤S140:根据所述置信度判断是否需要纠正获取的所述问答对,以更新获取的所述问答对的问题所属的问答知识库。
在上述步骤S110中,获取问答对的方式可以包括多种,例如,从问答知识库中读取的问答对,此时,在上述步骤S140中,可以更新用来读取的问答对的该问答知识库;再例如,由用户提出的问题和从问答知识库匹配出的答案构成问答对,此时,在上述步骤S140中,可以更新用来匹配出答案的该问答知识库。
在上述步骤S120中,该完整度可以包括语法结构完整性、主语描述完整性等。三种分析方式可以根据步骤S130中置信度的生成方式选择至少一种执行。例如,步骤S130中,利用所述完整度和所述第一匹配度确定获取的所述问答对的置信度时,步骤S120中,可以仅执行分析获取的所述问答对的问题的完整度和分析获取的所述问答对的问题和答案之间的第一匹配度的步骤。再例如,步骤S130中,利用所述完整度、所述第一匹配度及所述第二匹配度中确定获取的所述问答对的置信度时,步骤S120中,可以执行分析获取的所述问答对的问题的完整度,分析获取的所述问答对的问题和答案之间的第一匹配度,以及分析获取的所述问答对与设定最近时间段内的相关问答对之间的第二匹配度。
在上述步骤S130中,可以根据按照设定计算公式,利用所述完整度、所述第一匹配度及所述第二匹配度中的至少一者确定问答对的置信度。
置信度可以通过如下公式计算得到:
其中:Score表示置信度;p表示概率;y表示“是”*(正确答案)或“非”(错误答案),当y表示“是”时,y=1,当y表示“非”时,y=0;X表示特定因素下的向量(例如,特定句子成分下的向量);f(X)表示设定函数;λi表示设定参数;gi(X,y)表示所述完整度、所述第一匹配度或所述第二匹配度的特征计算函数;i表示句子不同特征的序号,例如所述完整度、所述第一匹配度及所述第二匹配度对应特征的序号。
其中,gi(X,1)表示y=1时所述完整度、所述第一匹配度或所述第二匹配度的特征计算函数。
在上述步骤S140中,如果判断需要纠正获取的所述问答对,可以输出所述问答对并由人工或机器进行纠正。
本实施例中,通过分析问答对的问题的完整度,分析问答对的问题和答案之间的第一匹配度,以及分析问答对与设定最近时间段内的相关问答对之间的第二匹配度,并利用所述完整度、所述第一匹配度及所述第二匹配度中的至少一者确定问答对的置信度,可以得到更精确的置信度。进而利用该置信度找到需要纠正的问答对以更新问答知识库,可以提高自动问答系统提供答案的准确度。
一些实施例中,在上述步骤S120中,分析获取的所述问答对的问题的完整度的方法,可包括:通过分析获取的所述问答对的问题的语法结构完整性和主语描述完整性,确定获取的所述问答对的问题的完整度。
该语法结构完整性可以指问题的规范程度,具体地,可指问题中是否包含必须的成分,例如主语、谓语、宾语等,若缺少其中某些成分,则认为问题不完整,问题的规范程度不高。例如,“桔子长什么样子?”和“香蕉的颜色是什么?”这两个问题的主语、谓语及宾语成分是完整的,规范程度就很高。
该主语描述完整性可指根据主语的描述是否能够得到确定的答案。例如,在问题“总统是谁?”中,由于不同国家的总统是不一样的,且每个国家不同时间的总统也是不一样的,根据主语“总统”并不能得到确定的答案,所以问题“总统是谁?”的主语描述是不完整的。又例如,问题“手机的尺寸是什么?”中,由于手机的类型、型号等不同,手机的尺寸可能均不相同,根据主语“手机”并不能得到确定的答案,所述问题“手机的尺寸是什么?”的主语描述是不完整的。
该语法结构完整性可以以完整、不完整的方式表示,或者以包含哪些成分的方式表示。该主语描述完整性可以以完整、不完整的方式表示。该完整度可以以该语法结构完整性和该主语描述完整性的组合表示,例如该完整度为语法结构完整但主语描述不完整。或者,该完整度可以以该语法结构完整性和该主语描述完整性的组合对应的设定值表示,例如该完整度为语法结构完整用1表示,主语描述完整用1表示,则该完整度可以用1+1=2表示。
本实施例中,在分析问答对的问题的完整度时,不仅考虑了语法结构的完整性,还考虑了主语描述的完整性,因此基于该完整度确定的置信度会更精确。
图2是本发明一实施例中分析获取的问答对的问题的语法结构完整性和主语描述完整性的方法流程示意图。如图2所示,在上述步骤S120中,通过分析获取的所述问答对的问题的语法结构完整性和主语描述完整性,确定获取的所述问答对的问题的完整度时,其中,分析获取的所述问答对的问题的语法结构完整性和主语描述完整性的方法,可包括:
步骤S1211:判断获取的所述问答对的问题的语法结构是否完整;
步骤S1212:在语法结构完整的情况下,根据预设正则表达式判断获取的所述问答对的问题中的主语描述是否完整。
由于部分问题在主谓宾都完整的情况下,也可能不是完整的问题,例如“总统是谁?”、“手机的尺寸是什么?”,虽然,该两个问题都包含主语、谓语及宾语,即语法结构完整,但是,由于主语“总统”和“手机”的描述并不完整,所以“总统是谁?”和“手机的尺寸是什么?”这两个问题不算是完整的问题。所以,针对这种问题,在语法结构完整的情况下,进一步判断获取的所述问答对的问题中的主语描述是否完整是有必要的,有助于提高完整度分析的准确性的。
针对上述问题,可以针对问题中的主语预先设定正则表达式,并根据正则表达式来判断问题中的主语是否描述完整。例如,问题中的主语为“总统”的情况下,对应的正则表达式可以用于验证问题中“总统”之前或者之后是否有“国家”以及“时间”等,并根据验证结果确定问题中的主语是否描述完整,进而结合句子成分是否完整,确定问题的完整度,即问题的规范程度。又例如,问题“手机的尺寸是什么?”中的主语为“手机”的情况下,对应的正则表达式可以验证问题中“手机”之前或者之后是否有“手机的类型、型号”等,并根据验证结果确定问题中的主语是否描述完整,进而结合句子成分是否完整,确定问题的完整度,即问题的规范程度。
本实施例中,根据预设正则表达式能够准确判断获取的问答对的问题中的主语描述是否完整。
图3是本发明一实施例中分析获取的问答对的问题和答案之间的第一匹配度的方法流程示意图。如图3所示,在上述步骤S120中,分析获取的所述问答对的问题和答案之间的第一匹配度的方法,可包括:
步骤S1221:分析获取的所述问答对的问题对应的答案类型和答案数量;
步骤S1222:判断获取的所述问答对的答案的类型是否属于所述答案类型且获取的所述问答对的答案的数量是否为所述答案数量,并根据判断结果确定第一匹配度。
可以对问答对中的问题进行分析,确定对应的答案类型(例如,时间、人物等),以及答案数量等,具体地,例如,在问题“总统是谁”中,由于总统是人,因此,答案类型应为人名,答案数量为1个。又例如,在问题“手机的尺寸是什么”中,由于尺寸为数字等,因此,答案类型为数字,答案数量为1个。进而,可以获取问答对中答案的类型是否是上述确定出答案类型,以及问答对中答案的数量是否与上述确定的答案数量一致,从而得到问题与答案的匹配程度。在其他实施例中,除答案类型和答案数量之外,还可以利用其他参数确定问题和答案的第一匹配度,例如,参考现有技术中计算匹配程度时所参考的其他参数。
本实施例中,在分析问答对的问题和答案之间的匹配度是考虑了答案类型和答案数量,能够提高基于该匹配度确定的置信度的精确度。
图4是本发明一实施例中分析获取的问答对与设定最近时间段内的相关问答对之间的第二匹配度的方法流程示意图。如图4所示,在上述步骤S120中,分析获取的所述问答对与设定最近时间段内的相关问答对之间的第二匹配度的方法,可包括:
步骤S1231:根据获取的所述问答对从问答知识库中查找设定最近时间段内的相关问答对,所述相关问答对的问题与获取的所述问答对的问题的匹配度满足设定匹配度条件;
步骤S1232:计算获取的所述问答对的答案和所述相关问答对的答案的匹配程度,得到第二匹配度。
在上述步骤S1231中,该问答知识库可以是待更新的问答知识库,或者是最新问答知识库。可以根据获取的所述问答对的问题查找相关问答对,即将问题的匹配程度作为相关程度查找与获取的所述问答对相关的问答对。该设定最近时间段例如可以是具体更新问答知识库时的一周内、一个月内等,具体可视需要进行设定。
由于某些问题的答案,会随着时间的推移发生变化,例如总统换人等,因此,可以获取最近一段时间内的相关问答对(最新问答库),最近一段时间内问题对应的答案一般为发生变化后的答案,准确度更高,因此,可以将问答对与最新问答库进行比对,获取最新问答库中与问答对的问题匹配度较高的最新问答对,然后计算问答对中答案与最新问答对中答案之间的匹配程度。
本实施例中,问答对与最近一段时间内的相关问答对之间的第二匹配度考虑了时间因素对答案准确性的影响,基于该第二匹配度确定的置信度会具有较高的准确度。
一些实施例中,在上述步骤S140中,根据所述置信度判断是否需要纠正获取的所述问答对的方法,可包括:判断所述置信度是否低于置信度阈值;在所述置信度低于所述置信度阈值的情况下,输出获取的所述问答对,以纠正获取的所述问答对。该置信度阈值可以根据需要设定。
图5是本发明一实施例中根据置信度判断是否需要纠正获取的问答对的方法流程示意图。如图5所示,在上述步骤S140中,根据所述置信度判断是否需要纠正获取的所述问答对的方法,可包括:
步骤S141:分析获取的所述问答对所属的领域,并根据所述领域设置置信度阈值;
步骤S142:判断所述置信度是否低于所述置信度阈值;
步骤S143:在所述置信度低于所述置信度阈值的情况下,输出获取的所述问答对,以纠正获取的所述问答对。
获取问答库中每个问答对的置信度之后,可以根据置信度确定需要纠正的问答对,并可以对需要纠正的问答对进行纠正。例如,可以通过人工或机器对问答对进行纠正。在获取问答库中问答对的置信度之后,可以将各个问答对的置信度与预设的置信度阈值进行比对,对置信度低于置信度阈值的问答对进行纠正。实施例中,可以针对不同领域(例如技术领域)中的问答对,设置不同的置信度阈值。置信度阈值可以根据经验设定,也可以根据相同领域中各问答对的置信度经过一定的算法计算得到。
本实施例中,根据问答对所属的领域设置置信度阈值,不同的领域可以对应不同的置信度阈值,以此置信度阈值可以更精确地查找到需要纠正的问答对。
在其他实施例中,确定需要进行纠正的问答对后,可以根据问答对的技术领域等,将问答对分配给相应领域相应专业的人员进行纠正。
在另一些实施例中,进一步的,可以针对相同领域(例如技术领域)中不同主语的问答对,设置不同的置信度阈值,以更进一步精确地查找到需要纠正的问答对。
一些实施例中,可以根据纠正后的问答对,对问答库中相应的问答对进行替换,以更新问答知识库。
一些实施例中,在上述步骤S110中,获取问答对的方法,可包括:从问答知识库读取问答对;在上述步骤S160中,根据所述置信度判断是否需要纠正获取的所述问答对,以更新获取的所述问答对的问题所属的问答知识库的方法,可包括:根据所述置信度判断需要纠正获取的所述问答对的情况下,输出读取的所述问答对,以纠正读取的所述问答对,并利用纠正后的问答对代替读取的所述问答对存储至所述问答知识库。
本实施例中,先从问答知识库读取问答对,可以利用上述步骤S120~步骤S130确定读取的问答对的置信度,然后利用该置信度确定是否需要纠正获取的问答对,在需要纠正的情况下,可以输出该问答对给人工进行纠正,利用纠正后的问答对代替开始读取的问答对,从而可以实现对问答知识库中存储的问答对进行更新。
另一些实施例中,在上述步骤S110中,获取问答对的方法,可包括:接收用户提出的问题,并根据所述用户提出的问题从问答知识库中匹配出答案,由所述用户提出的问题和匹配出的答案构成问答对;在上述步骤S160中,根据所述置信度判断是否需要纠正获取的所述问答对,以更新获取的所述问答对的问题所属的问答知识库的方法,可包括:根据所述置信度判断不需要纠正构成的所述问答对的情况下,将构成的所述问答对存储至所述问答知识库。
具体实施例中,根据所述置信度判断不需要纠正构成的所述问答对的情况下,将构成的所述问答对存储至所述问答知识库,可包括:分析由所述用户提出的问题和所述待定答案构成的问答对的置信度;根据构成的问答对的置信度判断是否需要纠正构成的问答对;在不需要纠正构成的问答对的情况下,判断所述问答知识库中是否存在构成的问答对,并在不存在构成的问答对的情况下,将构成的问答对存储至所述问答知识库。
本实施例中,先接收用户提出的问题并在问答知识库中匹配出相应的答案,构成问答对,然后利用该置信度确定是否需要纠正构成的问答对,在不需要纠正的情况下,可以进一步判断问答知识库中是否已存在该问答对,若没有,可以将该问答对存储起来。在需要纠正的情况下,可以输出该问答对给人工进行纠正,可以进一步判断纠正后的问答对是否已存在于问答知识库中,若没有,可以将纠正后的问答对存储起来。以此,可以将新的问答对积累至问答知识库中。
一些实施例中,在问答系统的使用过程中,可以获取用户提出的问题以及对应的答案,生成每个用户对应的问答集合;针对每个用户的问答集合中的每个问答对,参考步骤S120~步骤S130计算问答对的置信度,进行纠正以及更新问答库。
首先描述下问答系统的工作过程可以是:问答系统在获取到用户提出的问题时,对问题进行分析,获取问题中的主、谓、宾等成分,对应的答案类型,以及问题所属的领域等信息;然后根据上述成分将用户提出的问题与问答库中相应领域的各个问题进行匹配,确定匹配度最高的问题,进而将问答库中匹配度最高的问题对应的答案确定为与用户的问题对应的答案,将答案提供给用户。
针对每个用户的问答集合,获取问答集合中每个问答对的置信度,获取问答对所属领域的置信度阈值,或者根据问答对的主语确定置信度阈值,将问答对的置信度与置信度阈值进行比对,确定是否需要纠正;若不需要纠正,则判断问答库中是否存在该问答对,若不存在,则将该问答对添加到问答库中。若存在,则不做处理。
若需要纠正,则将需要纠正的问答对提供给相关人员进行纠正。纠正后,判断问答库中是否存在与该问答对问题相同的问答对,若不存在,将纠正后的问答对添加到问答库中;若存在,将问答库中具有相同问题的问答对替换为该纠正后的问答对。
一些实施例中,针对问答系统中的所有问答对,以及针对用户新提出的问题以及对应的回答形成的问答对,结合以下几个方面计算问答对的置信度:(1)问题的规范程度,语义完整度等;(2)问题与答案的匹配程度;(3)问答对与最近一段时间内的相关问答对之间的匹配程度。在问答对的置信度低于预设阈值时,将问答对提供给对应的专业人员等进行人工校正,且根据校正后的问答对,对问答系统进行更新。
本实施例中,针对问答对的置信度计算方法,参考了问答对中问题的规范程度、问题与答案的匹配程度,还参考了问答对与最近一段时间内的相关问答对之间的匹配程度,使得计算得到的置信度比较准确,从而使得问答系统的问答库中的问答对,问题与答案的符合程度较高,从而使得问答系统能够针对用户的问题提供准确合适的答案,提高用户的问答体验以及问答效率。
基于与图1所示的问答知识库更新方法相同的发明构思,本申请实施例还提供了一种自动问答装置,如下面实施例所述。由于该自动问答装置解决问题的原理与问答知识库更新方法相似,因此该自动问答装置的实施可以参见问答知识库更新方法的实施,重复之处不再赘述。
图6是本发明一实施例的问答知识库更新装置的结构示意图。如图6所示,本实施例的问答知识库更新装置,可包括:问答对获取单元210、问答对分析单元220、置信度确定单元230及问答库更新单元240,上述各单元可顺序连接。
问答对获取单元210,用于:获取问答对;
问答对分析单元220,用于:分析获取的所述问答对的问题的完整度,分析获取的所述问答对的问题和答案之间的第一匹配度,以及分析获取的所述问答对与设定最近时间段内的相关问答对之间的第二匹配度;
置信度确定单元230,用于:利用所述完整度、所述第一匹配度及所述第二匹配度中的至少一者确定获取的所述问答对的置信度;
问答库更新单元240,用于:根据所述置信度判断是否需要纠正获取的所述问答对,以更新获取的所述问答对的问题所属的问答知识库。
一些实施例中,问答对分析单元220,可包括:第一问答对分析模块,用于:通过分析获取的所述问答对的问题的语法结构完整性和主语描述完整性,确定获取的所述问答对的问题的完整度。
一些实施例中,第一问答对分析模块,可包括:语法结构完整性分析模块和主语描述完整性分析模块,二者相互连接。语法结构完整性分析模块,用于:判断获取的所述问答对的问题的语法结构是否完整;主语描述完整性分析模块,用于:在语法结构完整的情况下,根据预设正则表达式判断获取的所述问答对的问题中的主语描述是否完整。
一些实施例中,问答对分析单元220,可包括:第二问答对分析模块,用于:分析获取的所述问答对的问题对应的答案类型和答案数量;判断获取的所述问答对的答案的类型是否属于所述答案类型且获取的所述问答对的答案的数量是否为所述答案数量,并根据判断结果确定第一匹配度。
一些实施例中,问答对分析单元220,可包括:第三问答对分析模块,用于:根据获取的所述问答对从问答知识库中查找设定最近时间段内的相关问答对,所述相关问答对的问题与获取的所述问答对的问题的匹配度满足设定匹配度条件;计算获取的所述问答对的答案和所述相关问答对的答案的匹配程度,得到第二匹配度。
一些实施例中,问答库更新单元240,可包括:置信度阈值确定模块、置信度判断模块及纠正问答对确定模块,上述各模块顺序连接。置信度阈值确定模块,用于:分析获取的所述问答对所属的领域,并根据所述领域设置置信度阈值;置信度判断模块,用于:判断所述置信度是否低于所述置信度阈值;纠正问答对确定模块,用于:在所述置信度低于所述置信度阈值的情况下,输出获取的所述问答对,以纠正获取的所述问答对。
一些实施例中,问答对获取单元210,可包括:第一问答对获取模块,用于:从问答知识库读取问答对。问答库更新单元240,可包括:第一问答库更新模块,用于:根据所述置信度判断需要纠正获取的所述问答对的情况下,输出读取的所述问答对,以纠正读取的所述问答对,并利用纠正后的问答对代替读取的所述问答对存储至所述问答知识库。
另一些实施例中,问答对获取单元210,可包括:第二问答对获取模块,用于:接收用户提出的问题,并根据所述用户提出的问题从问答知识库中匹配出答案,由所述用户提出的问题和匹配出的答案构成问答对。问答库更新单元240,可包括:第二问答库更新模块,用于:根据所述置信度判断不需要纠正构成的所述问答对的情况下,将构成的所述问答对存储至所述问答知识库。
本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述各实施例所述方法的步骤。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述各实施例所述方法的步骤。
综上所述,本发明实施例的问答知识库更新方法、问答知识库更新装置、计算机可读存储介质及计算机设备,通过分析问答对的问题的完整度,分析问答对的问题和答案之间的第一匹配度,以及分析问答对与设定最近时间段内的相关问答对之间的第二匹配度,并利用所述完整度、所述第一匹配度及所述第二匹配度中的至少一者确定问答对的置信度,使得计算得到的置信度比较准确,进而使得自动问答系统的问答知识库中问答对的问题与答案的符合程度较高,从而使得自动问答系统能够针对用户的问题提供准确合适的答案,提高用户的问答体验以及问答效率。
在本说明书的描述中,参考术语“一个实施例”、“一个具体实施例”、“一些实施例”、“例如”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。各实施例中涉及的步骤顺序用于示意性说明本发明的实施,其中的步骤顺序不作限定,可根据需要作适当调整。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种问答知识库更新方法,其特征在于,包括:
获取问答对;
分析获取的所述问答对的问题的完整度,分析获取的所述问答对的问题和答案之间的第一匹配度,以及分析获取的所述问答对与设定最近时间段内的相关问答对之间的第二匹配度;
利用所述完整度、所述第一匹配度及所述第二匹配度中的至少一者确定获取的所述问答对的置信度;
根据所述置信度判断是否需要纠正获取的所述问答对,以更新获取的所述问答对的问题所属的问答知识库。
2.如权利要求1所述的问答知识库更新方法,其特征在于,分析获取的所述问答对的问题的完整度,包括:
通过分析获取的所述问答对的问题的语法结构完整性和主语描述完整性,确定获取的所述问答对的问题的完整度。
3.如权利要求2所述的问答知识库更新方法,其特征在于,分析获取的所述问答对的问题的语法结构完整性和主语描述完整性,包括:
判断获取的所述问答对的问题的语法结构是否完整;
在语法结构完整的情况下,根据预设正则表达式判断获取的所述问答对的问题中的主语描述是否完整。
4.如权利要求1所述的问答知识库更新方法,其特征在于,分析获取的所述问答对的问题和答案之间的第一匹配度,包括:
分析获取的所述问答对的问题对应的答案类型和答案数量;
判断获取的所述问答对的答案的类型是否属于所述答案类型且获取的所述问答对的答案的数量是否为所述答案数量,并根据判断结果确定第一匹配度。
5.如权利要求1所述的问答知识库更新方法,其特征在于,分析获取的所述问答对与设定最近时间段内的相关问答对之间的第二匹配度,包括:
根据获取的所述问答对从问答知识库中查找设定最近时间段内的相关问答对,所述相关问答对的问题与获取的所述问答对的问题的匹配度满足设定匹配度条件;
计算获取的所述问答对的答案和所述相关问答对的答案的匹配程度,得到第二匹配度。
6.如权利要求1所述的问答知识库更新方法,其特征在于,根据所述置信度判断是否需要纠正获取的所述问答对,包括:
分析获取的所述问答对所属的领域,并根据所述领域设置置信度阈值;
判断所述置信度是否低于所述置信度阈值;
在所述置信度低于所述置信度阈值的情况下,输出获取的所述问答对,以纠正获取的所述问答对。
7.如权利要求1所述的问答知识库更新方法,其特征在于,
获取问答对,包括:
从问答知识库读取问答对;
根据所述置信度判断是否需要纠正获取的所述问答对,以更新获取的所述问答对的问题所属的问答知识库,包括:
根据所述置信度判断需要纠正获取的所述问答对的情况下,输出读取的所述问答对,以纠正读取的所述问答对,并利用纠正后的问答对代替读取的所述问答对存储至所述问答知识库;
或者
获取问答对,包括:
接收用户提出的问题,并根据所述用户提出的问题从问答知识库中匹配出答案,由所述用户提出的问题和匹配出的答案构成问答对;
根据所述置信度判断是否需要纠正获取的所述问答对,以更新获取的所述问答对的问题所属的问答知识库,包括:
根据所述置信度判断不需要纠正构成的所述问答对的情况下,将构成的所述问答对存储至所述问答知识库。
8.一种问答知识库更新装置,其特征在于,包括:
问答对获取单元,用于:获取问答对;
问答对分析单元,用于:分析获取的所述问答对的问题的完整度,分析获取的所述问答对的问题和答案之间的第一匹配度,以及分析获取的所述问答对与设定最近时间段内的相关问答对之间的第二匹配度;
置信度确定单元,用于:利用所述完整度、所述第一匹配度及所述第二匹配度中的至少一者确定获取的所述问答对的置信度;
问答库更新单元,用于:根据所述置信度判断是否需要纠正获取的所述问答对,以更新获取的所述问答对的问题所属的问答知识库。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至7所述方法的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至7所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810742880.8A CN109033262A (zh) | 2018-07-09 | 2018-07-09 | 问答知识库更新方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810742880.8A CN109033262A (zh) | 2018-07-09 | 2018-07-09 | 问答知识库更新方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109033262A true CN109033262A (zh) | 2018-12-18 |
Family
ID=64640902
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810742880.8A Pending CN109033262A (zh) | 2018-07-09 | 2018-07-09 | 问答知识库更新方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109033262A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110059182A (zh) * | 2019-03-21 | 2019-07-26 | 阿里巴巴集团控股有限公司 | 面向客服的话术推荐方法和装置 |
CN110188183A (zh) * | 2019-06-04 | 2019-08-30 | 软通智慧科技有限公司 | 一种智能问答知识库的更新方法、装置、设备和存储介质 |
CN110196897A (zh) * | 2019-05-23 | 2019-09-03 | 竹间智能科技(上海)有限公司 | 一种基于问答模板的案例识别方法 |
CN110362735A (zh) * | 2019-07-15 | 2019-10-22 | 北京百度网讯科技有限公司 | 判断陈述真实性的方法和装置、电子设备、可读介质 |
CN110659302A (zh) * | 2019-09-30 | 2020-01-07 | 出门问问信息科技有限公司 | 一种问答对热更新的方法、设备、系统及存储介质 |
CN114579732A (zh) * | 2022-05-07 | 2022-06-03 | 南京麦豆健康管理有限公司 | 一种基于画像标签的产后咨询服务系统及方法 |
WO2024051115A1 (zh) * | 2022-09-05 | 2024-03-14 | 苏州元脑智能科技有限公司 | 一种文本生成方法、装置、设备及非易失性可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014140955A1 (en) * | 2013-03-12 | 2014-09-18 | International Business Machines Corporation | Detecting and executing data re-ingestion to improve accuracy in nlp system |
CN104462492A (zh) * | 2014-12-18 | 2015-03-25 | 北京奇虎科技有限公司 | 抓取问答类网页的方法和装置 |
CN105608218A (zh) * | 2015-12-31 | 2016-05-25 | 上海智臻智能网络科技股份有限公司 | 智能问答知识库的建立方法、建立装置及建立系统 |
CN105893391A (zh) * | 2015-01-26 | 2016-08-24 | 阿里巴巴集团控股有限公司 | 智能应答方法、装置、系统及电子设备 |
CN105912600A (zh) * | 2016-04-05 | 2016-08-31 | 上海智臻智能网络科技股份有限公司 | 问答知识库及其建立方法、智能问答方法和系统 |
-
2018
- 2018-07-09 CN CN201810742880.8A patent/CN109033262A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014140955A1 (en) * | 2013-03-12 | 2014-09-18 | International Business Machines Corporation | Detecting and executing data re-ingestion to improve accuracy in nlp system |
CN104462492A (zh) * | 2014-12-18 | 2015-03-25 | 北京奇虎科技有限公司 | 抓取问答类网页的方法和装置 |
CN105893391A (zh) * | 2015-01-26 | 2016-08-24 | 阿里巴巴集团控股有限公司 | 智能应答方法、装置、系统及电子设备 |
CN105608218A (zh) * | 2015-12-31 | 2016-05-25 | 上海智臻智能网络科技股份有限公司 | 智能问答知识库的建立方法、建立装置及建立系统 |
CN105912600A (zh) * | 2016-04-05 | 2016-08-31 | 上海智臻智能网络科技股份有限公司 | 问答知识库及其建立方法、智能问答方法和系统 |
Non-Patent Citations (1)
Title |
---|
周鸣争等: "《大数据导论》", 31 March 2018 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110059182A (zh) * | 2019-03-21 | 2019-07-26 | 阿里巴巴集团控股有限公司 | 面向客服的话术推荐方法和装置 |
CN110196897A (zh) * | 2019-05-23 | 2019-09-03 | 竹间智能科技(上海)有限公司 | 一种基于问答模板的案例识别方法 |
CN110196897B (zh) * | 2019-05-23 | 2021-07-30 | 竹间智能科技(上海)有限公司 | 一种基于问答模板的案例识别方法 |
CN110188183A (zh) * | 2019-06-04 | 2019-08-30 | 软通智慧科技有限公司 | 一种智能问答知识库的更新方法、装置、设备和存储介质 |
CN110362735A (zh) * | 2019-07-15 | 2019-10-22 | 北京百度网讯科技有限公司 | 判断陈述真实性的方法和装置、电子设备、可读介质 |
CN110362735B (zh) * | 2019-07-15 | 2022-05-13 | 北京百度网讯科技有限公司 | 判断陈述真实性的方法和装置、电子设备、可读介质 |
CN110659302A (zh) * | 2019-09-30 | 2020-01-07 | 出门问问信息科技有限公司 | 一种问答对热更新的方法、设备、系统及存储介质 |
CN114579732A (zh) * | 2022-05-07 | 2022-06-03 | 南京麦豆健康管理有限公司 | 一种基于画像标签的产后咨询服务系统及方法 |
CN114579732B (zh) * | 2022-05-07 | 2022-07-29 | 南京麦豆健康管理有限公司 | 一种基于画像标签的产后咨询服务系统及方法 |
WO2024051115A1 (zh) * | 2022-09-05 | 2024-03-14 | 苏州元脑智能科技有限公司 | 一种文本生成方法、装置、设备及非易失性可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109033262A (zh) | 问答知识库更新方法及装置 | |
CN109766872B (zh) | 图像识别方法和装置 | |
CN109960653A (zh) | 回归测试方法、装置、设备和存储介质 | |
CN106202270B (zh) | 基于自然语言的人机对话方法及装置 | |
CN108764480A (zh) | 一种信息处理的系统 | |
CN109360550A (zh) | 语音交互系统的测试方法、装置、设备和存储介质 | |
CN103970806B (zh) | 一种建立歌词感情分类模型的方法及装置 | |
CN109858828B (zh) | 一种配电网定值自动整定方法、装置及配网系统 | |
CN111310057B (zh) | 在线学习挖掘方法、装置、在线学习系统及服务器 | |
CN109471981B (zh) | 评论信息排序方法、装置、服务器及存储介质 | |
CN109872262A (zh) | 一种考勤系统及方法 | |
WO2017000743A1 (zh) | 一种软件推荐的方法和装置 | |
CN110221933A (zh) | 代码缺陷辅助修复方法及系统 | |
CN113570330A (zh) | 一种临境应急环境模拟训练效果评估系统及评估方法 | |
CN114638442B (zh) | 面向个体差异的飞行训练方案生成系统、方法及设备 | |
CN112287227A (zh) | 在线学习推荐方法及在线学习系统 | |
CN111767277A (zh) | 数据处理方法和装置 | |
CN108286972A (zh) | 导航电子地图数据的智能查错方法和装置及混合导航系统 | |
CN116028702A (zh) | 学习资源推荐方法、系统及电子设备 | |
CN111967276B (zh) | 翻译质量评估方法及装置、电子设备、存储介质 | |
CN106156270A (zh) | 多媒体数据推送方法及装置 | |
CN117745222A (zh) | 面向大模型场景的标注内容审核方法、装置、设备、介质及产品 | |
CN113408880A (zh) | 试卷生成方法、装置以及智能考试系统 | |
CN109829051B (zh) | 一种数据库相似语句筛选的方法和装置 | |
CN112613321A (zh) | 一种抽取文本中实体属性信息的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181218 |