CN104572998B - 用于自动问答系统的问答排序模型更新方法及装置 - Google Patents

用于自动问答系统的问答排序模型更新方法及装置 Download PDF

Info

Publication number
CN104572998B
CN104572998B CN201510007045.6A CN201510007045A CN104572998B CN 104572998 B CN104572998 B CN 104572998B CN 201510007045 A CN201510007045 A CN 201510007045A CN 104572998 B CN104572998 B CN 104572998B
Authority
CN
China
Prior art keywords
faq
training sample
user
answer
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510007045.6A
Other languages
English (en)
Other versions
CN104572998A (zh
Inventor
薛锐青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Original Assignee
Beijing Yunzhisheng Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yunzhisheng Information Technology Co Ltd filed Critical Beijing Yunzhisheng Information Technology Co Ltd
Priority to CN201510007045.6A priority Critical patent/CN104572998B/zh
Publication of CN104572998A publication Critical patent/CN104572998A/zh
Application granted granted Critical
Publication of CN104572998B publication Critical patent/CN104572998B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3325Reformulation based on results of preceding query
    • G06F16/3326Reformulation based on results of preceding query using relevance feedback from the user, e.g. relevance feedback on documents, documents sets, document terms or passages

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种用于自动问答系统的问答排序模型更新方法及装置。该方法包括:获取表征用户对由自动问答系统返回的针对用户查询的问答集列表的交互行为的反馈信息,其中,问答集列表包括按照与用户查询的匹配度由高到低排序的预定数量的问答集;根据反馈信息,构建训练样本,并对训练样本进行正负例标注,其中,每个训练样本包括用户查询与一问答集;确定每个训练样本的特征参数集;根据每个训练样本的特征参数集、以及每个训练样本的正负例标注,构建排序训练数据;以及根据所构建的排序训练数据更新问答排序模型。由此,能基于用户反馈信息,利用机器学习方法自动更新问答排序模型,可自适应地满足用户需求,提升用户对自动问答系统的体验。

Description

用于自动问答系统的问答排序模型更新方法及装置
技术领域
本发明涉及自动问答领域,具体地,涉及一种用于自动问答系统的问答排序模型更新方法及装置。
背景技术
自动问答系统是一种能够自动回答问题的系统。该系统可以计算出用户输入的问题与问答库中的候选问答对之间的各种特征,例如,词频、逆向词频、空间向量模型等等。然后,利用问答排序模型,根据所计算出的特征、以及各特征的权值,得出问题与候选答案对之间的匹配度,再根据该匹配度对候选问答对进行排序,并将排名靠前的问答对返回给用户。
在现有的自动问答系统中,上面提到的每种特征的权值,一般由开发人员根据经验或先验知识进行设定。一旦需要更新问答排序模型,则需要开发人员手动调整特征权值,这就大大增加开发人员的维护工作量,并且效率低,维护成本高。
此外,现有的问答排序模型更新机制中,没有引入用户反馈数据。这就导致问答排序模型不能及时地按照用户的需求进行更新,也就无法更好地拟合用户意图。
发明内容
本发明的目的是提供一种用于自动问答系统的排序模型更新方法及装置,该方法和装置能够基于用户反馈信息,利用机器学习方法自动更新问答排序模型。
为了实现上述目的,本发明提供一种用于自动问答系统的问答排序模型更新方法,该方法包括:获取表征用户对由所述自动问答系统返回的针对用户查询的问答集列表的交互行为的反馈信息,其中,所述问答集列表包括按照与所述用户查询的匹配度由高到低排序的预定数量的问答集;根据所述反馈信息,构建训练样本,并对所述训练样本进行正负例标注,其中,每个训练样本包括所述用户查询与一问答集;确定每个训练样本的特征参数集;根据所述每个训练样本的特征参数集、以及每个训练样本的正负例标注,构建排序训练数据;以及根据所构建的排序训练数据更新所述问答排序模型。
优选地,所述交互行为包括以下中的一者:点击所述问答集列表中排名非第一的问答集、或者未点击所述问答集列表中的问答集而主动添加与所述用户查询匹配的问答集。
优选地,在所述反馈信息表征点击所述问答集列表中排名非第一的问答集的交互行为的情况下,将所述用户查询与所点击的问答集的构建为训练样本,并将该训练样本标注为正例;以及将所述用户查询与所述问答集列表中排在所点击的问答集之前的每个问答集一一构建为训练样本,并将该训练样本标注为负例;以及在所述反馈信息表征未点击所述问答集列表中的问答集而主动添加与所述用户查询匹配的问答集的交互行为的情况下,将所述用户查询与主动添加的问答集构建为训练样本,并将该训练样本标注为正例;以及将所述用户查询与所述问答集列表中的每个问答集一一构建为训练样本,并将该训练样本标注为负例。
优选地,该方法还包括:将所述主动添加的问答集更新到问答库中。
优选地,所述特征参数集包括相关性特征参数子集和重要性特征参数子集。
优选地,每个问答集包括标准问题、标准答案、扩展问题及扩展答案;以及确定每个训练样本的特征参数集的步骤包括:针对每个训练样本,分别计算该训练样本中的用户查询与问答集、以及与该问答集中的所述标准问题、所述标准答案、所述扩展问题、所述扩展答案之间的同种相关性特征参数,并将所计算出的同种相关性特征参数进行组合,得出该训练样本的相关性特征参数子集;获取该训练样本中的问答集的重要性特征参数,并将所获取的重要性特征参数进行组合,得出该训练样本的重要性特征参数子集;以及将所述训练样本的所述相关性特征参数子集和所述重要性特征子集进行组合,得出该训练样本的所述特征参数集。
优选地,该方法还包括:在确定每个训练样本的特征参数集之前,先对每个训练样本进行清洗,以筛除无效训练样本,之后,再确定经清洗后未被筛除的每个训练样本的特征参数集。
本发明还提供一种用于自动问答系统的问答排序模型更新装置,该装置包括:用户检索日志挖掘模块,用于获取表征用户对由所述自动问答系统返回的针对用户查询的问答集列表的交互行为的反馈信息,其中,所述问答集列表包括按照与所述用户查询的匹配度由高到低排序的预定数量的问答集;训练样本构建模块,用于根据所述反馈信息,构建训练样本,并对所述训练样本进行正负例标注,其中,每个训练样本包括所述用户查询与一问答集;特征计算模块,用于确定每个训练样本的特征参数集;以及问答排序模型训练更新模块,用于根据所述每个训练样本的特征参数集、以及每个训练样本的正负例标注,构建排序训练数据;以及根据所构建的排序训练数据更新所述问答排序模型。
优选地,所述交互行为包括以下中的一者:点击所述问答集列表中排名非第一的问答集、或者未点击所述问答集列表中的问答集而主动添加与所述用户查询匹配的问答集。
优选地,所述训练样本构建模块在所述反馈信息表征点击所述问答集列表中排名非第一的问答集的交互行为的情况下,将所述用户查询与所点击的问答集的构建为训练样本,并将该训练样本标注为正例;以及将所述用户查询与所述问答集列表中排在所点击的问答集之前的每个问答集一一构建为训练样本,并将该训练样本标注为负例;以及所述训练样本构建模块在所述反馈信息表征未点击所述问答集列表中的问答集而主动添加与所述用户查询匹配的问答集的交互行为的情况下,将所述用户查询与主动添加的问答集构建为训练样本,并将该训练样本标注为正例;以及将所述用户查询与所述问答集列表中的每个问答集一一构建为训练样本,并将该训练样本标注为负例。
优选地,该装置还包括:问答库更新模块,用于将所述主动添加的问答集更新到问答库中。
优选地,所述特征参数集包括相关性特征参数子集和重要性特征参数子集。
优选地,每个问答集包括标准问题、标准答案、扩展问题及扩展答案;以及所述特征计算模块通过以下方式确定每个训练样本的特征参数集:针对每个训练样本,分别计算该训练样本中的用户查询与问答集、以及与该问答集中的所述标准问题、所述标准答案、所述扩展问题、所述扩展答案之间的同种相关性特征参数,并将所计算出的同种相关性特征参数进行组合,得出该训练样本的相关性特征参数子集;获取该训练样本中的问答集的重要性特征参数,并将所获取的重要性特征参数进行组合,得出该训练样本的重要性特征参数子集;以及将所述训练样本的所述相关性特征参数子集和所述重要性特征子集进行组合,得出该训练样本的所述特征参数集。
优选地,该装置还包括:训练样本清洗模块,用于对所述训练样本构建模块构建出的训练样本进行清洗,以筛除无效训练样本;以及所述特征计算模块确定经清洗后未被筛除的每个训练样本的特征参数集。
在上述技术方案中,可以根据用户对问答集列表的交互行为,自动构建排序训练数据。之后,利用机器学习方法,根据所构建的排序训练数据对问答排序模型进行自动更新,从而实现排序训练数据中各特征参数的权值的自动调整。整个模型更新过程无需人工参与,全程自动化。通过这一方案,可以降低开发人员的维护工作量,维护成本低,并且更新效率高。此外,根据用户反馈进行模型自动更新,可以使得模型能够自适应地满足用户需求,从而拟合出用户最满意的结果,大幅提升用户对自动问答系统的体验。
本发明的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本发明的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明,但并不构成对本发明的限制。在附图中:
图1示出了根据本发明的实施方式的用于自动问答系统的问答排序模型更新方法的流程图;
图2示出了根据本发明的另一实施方式的用于自动问答系统的问答排序模型更新方法的流程图;
图3示出了根据本发明的实施方式的用于自动问答系统的问答排序模型更新装置的示意图;以及
图4示出了根据本发明的另一实施方式的用于自动问答系统的问答排序模型更新装置的示意图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
图1示出了根据本发明的实施方式的用于自动问答系统的问答排序模型更新方法的流程图。如图1所示,该方法可以包括:步骤S1,获取表征用户对由所述自动问答系统返回的针对用户查询的问答集列表的交互行为的反馈信息,其中,所述问答集列表包括按照与所述用户查询的匹配度由高到低排序的预定数量的问答集;步骤S2,根据所述反馈信息,构建训练样本,并对所述训练样本进行正负例标注,其中,每个训练样本包括所述用户查询与一问答集;步骤S3,确定每个训练样本的特征参数集;步骤S4,根据所述每个训练样本的特征参数集、以及每个训练样本的正负例标注,构建排序训练数据;以及步骤S5,根据所构建的排序训练数据更新所述问答排序模型。
具体地,首先,用户在向自动问答系统输入一用户查询(query)之后,该自动问答系统可以向用户返回一问答集列表,该问答集列表包括按照与所述用户查询的匹配度由高到低排序的预定数量的问答集。其中,所述预定数量的具体数值可以根据用户需求来定制。在本发明中,每个问答集可以包括标准问题、标准答案、扩展问题及扩展答案。其中,扩展问题和扩展答案是在标准问题和标准答案的基础上同义扩展而得的信息,目的是将同义的问答信息打包在一起,作为一个问答集被整体反馈给用户,从而使得每个问答集的信息更为全面。
可以通过记录用户对该问答集列表的交互行为,来判断该用户对自动问答系统产出的结果的满意程度。例如,如果交互行为是用户点击了问答集列表中排名第一的问答集,则表明返回的问答集列表满足用户需求。如果交互行为是用户点击了问答集列表中排名非第一的问答集,则表明返回的问答集列表基本上符合用户需求,但非最优。如果交互行为是用户未点击问答集列表中的问答集,而是主动添加与所述用户查询匹配的问答集,则表明返回的问答集列表不符合用户需求。
在返回的问答集列表满足用户需求的情况下,不需要进行问答排序模型更新。而在返回的问答集列表基本上符合用户需求、以及不符合用户需求这两种情况下,需要进行问答排序模型更新。
通过在步骤S1获取表征用户的所述交互行为的反馈信息,可以得知用户对返回的问答集列表的满意程度,以及是否需要进行模型更新。在需要进行模型更新的情况下,在步骤S2,可以根据该反馈信息来构建训练样本,其中每个训练样本可以包括所述用户查询与一问答集,之后,对所构建的训练样本进行正负例标注。
具体地,在所述反馈信息表征点击所述问答集列表中排名非第一的问答集的交互行为的情况下,将所述用户查询与所点击的问答集的构建为训练样本,并将该训练样本标注为正例;以及将所述用户查询与所述问答集列表中排在所点击的问答集之前的每个问答集一一构建为训练样本,并将该训练样本标注为负例。此外,在所述反馈信息表征未点击所述问答集列表中的问答集而主动添加与所述用户查询匹配的问答集的交互行为的情况下,将所述用户查询与主动添加的问答集构建为训练样本,并将该训练样本标注为正例;以及将所述用户查询与所述问答集列表中的每个问答集一一构建为训练样本,并将该训练样本标注为负例。下面举例描述构建训练样本以及对训练样本进行正负例标注的方法。
假设返回的问答集列表自上而下包括第一问答集QA1、第二问答集QA2和第三问答集QA3。此外,还假设用户点击第二问答集QA2。在这种情况下,所述反馈信息可以表明用户点击的是第二问答集QA2,并且此时需要进行问答排序模型的更新。之后,就可以根据该反馈信息构建出两个训练样本:第一训练样本为(query,QA1),并将该第一训练样本标注为负例;第二训练样本为(query,QA2),并将该第二训练样本标注为正例。
如另一示例,假设用户没有点击第一问答集QA1、第二问答集QA2和第三问答集QA3中的任一问答集,而是主动添加了第四问答集QA4。在这种情况下,所述反馈信息可以表明用户主动添加了第四问答集QA4,此时需要进行问答排序模型的更新,并且该反馈信息中可以包括用户主动添加的问答集。之后,就可以根据该反馈信息构建出四个训练样本:第一训练样本为(query,QA1),并将该第一训练样本标注为负例;第二训练样本为(query,QA2),并将该第二训练样本标注为负例;第三训练样本为(query,QA3),并将该第三训练样本标注为负例;第四训练样本为(query,QA4),并将该第四训练样本标注为正例。
根据所述反馈信息对每个训练样本进行正负例标注,可以体现出每个训练样本中包括的问答集与同一用户查询query之间的相关性关系。之后,可以根据每个训练样本的正负例标注来构建排序训练数据,以进行问答排序模型更新。
此外,在获取到的反馈信息表征用户未点击所述问答集列表中的问答集而主动添加与所述用户查询匹配的问答集的交互行为的情况下,除了将用户查询与用户主动添加的问答集构建为正例的训练样本以用于后续的模型更新之外,还可以将用户主动添加的问答集更新到问答库中,以完善所述问答库。
在构建完训练样本之后,可以进行步骤S3,即确定每个训练样本的特征参数集。在本发明中,所述特征参数集可以包括相关性特征参数子集和重要性特征参数子集。其中,相关性特征参数子集是由多个相关性特征参数组成的,所述相关性特征参数能够表明在一个训练样本中的用户查询与该训练样本中的问答集之间的相关性。
例如,所述相关性特征参数可以包括以下中的至少一者:“查询与问答集”间的分词共现数量;“查询与问答集”间的单字共现数量;“查询与问答集”间的命名实体识别共现数量;“查询与问答集”间的分词共现比例;“查询与问答集”间的单字共现比例;逆向词频赋权的“查询与问答集”间的分词共现数量;逆向词频赋权的“查询与问答集”间的单字共现数量;逆向词频加权的“查询与问答集”间的分词共现比例;逆向词频加权的“查询与问答集”间的单字共现比例;“查询与问答集”间的分词空间向量模型;“查询与问答集”间的单字空间向量模型;词频、逆向词频加权的“查询与问答集”间的分词空间向量模型;词频、逆向词频加权的“查询与问答集”间的单子空间向量模型;在二元独立模型(BIM)基础上推导出的BM25模型(分成粒度);LMIR模型(分词粒度):LMIR模型(单字粒度),等等。以上任一相关性特征参数的具体计算方法均是本领域的技术人员公知的,因此,本发明在此不进行详细描述。
如上所述,在本发明中,每个问答集可以包括标准问题、标准答案、扩展问题及扩展答案。这样,每个问答集就可以分成五个部分:标准问题部分、标准答案部分、扩展问题部分、扩展答案部分以及整个问答集部分。可以采用不同的标识来区分一个问答集中的标准问题、标准答案、扩展问题和扩展答案。
在本发明的一个优选实施方式中,在确定一个训练样本中的用户查询与该训练样本中的问答集之间的相关性特征参数的时候,不仅要确定出用户查询与整个问答集部分之间的预设类型的相关性特征参数,而且还要就同种相关性特征参数,再分别针对用户查询与标准问题部分、与标准答案部分、与扩展问题部分、以及与扩展答案部分之间进行计算。也就是说,假设要确定三种类型的相关性特征参数(可以选自以上列出的相关性特征参数),记为c1、c2和c3。那么,需要分别针对标准问题部分、标准答案部分、扩展问题部分、扩展答案部分、以及整个问答集部分这五个部分,计算出用户查询与它们的这三种类型的相关性特征参数。例如,针对标准问题部分计算出的相关性特征参数记为C1(c1,c2,c3),针对标准答案部分计算出的相关性特征参数记为C2(c1,c2,c3),针对扩展问题部分计算出的相关性特征参数记为C3(c1,c2,c3),针对扩展答案部分计算出的相关性特征参数记为C4(c1,c2,c3)以及针对整个问答集部分计算出的相关性特征参数记为C5(c1,c2,c3)。那么,对于该训练样本而言,其特征参数集中的相关性特征参数子集由上述五部分的相关性特征参数组合而成,即,(C1,C2,C3,C4,C5),该子集中包括十五项相关性特征参数。
针对上述五部分分别确定与查询的相关性特征参数,是出于同一相关性特征参数在不同的部分中可能具有不同的区分度的考虑。例如,假设针对分词共现数量这一特征参数,由于标准问题通常较短,里面包含的信息量相对较少,因此,其在标准问题中能够具有较高的区分度。然而,其在标准答案中的区分度可能并不高,因为标准答案通常较长,分词在该标准答案中出现的频率可能较高。此时,如果将该特征在这两部分中所占权重视为相同,则对标准问题部分而言是不公平的。通过针对上述五部分分别确定与查询的相关性特征参数,可以全面衡量每种相关性特征参数在不同部分中所起的作用,进而提高问答排序模型的准确度。
如上所述,训练样本的特征参数集中还可以包括重要性特征参数子集。其中,重要性特征参数子集是由多个重要性特征参数组成的。所述重要性特征参数能够表明在一个训练样本中的问答集对于用户使用而言的重要程度。例如,所述重要性特征参数可以包括以下中的至少一者:问答集的点击次数,问答集的时效性、用户行为偏好等等。这些重要性特征参数可以通过挖掘用户的检索日志来获取。应当理解的是,如何通过挖掘用户的检索日志来获取上述重要性特征参数的方法有多种,并且是本领域的技术人员公知的,对此,本发明在此不进行详细描述。
区别于相关性特征参数是针对问答集的上述五部分的,在本发明中,重要性特征参数仅针对整个问答集部分。可以将针对整个问答集部分的若干重要性特征参数组成重要性特征参数子集。例如,假设要确定问答集的两项重要性特征参数,记为K1和K2,那么,重要性特征子集可以由这两项重要性特征参数组合而成,即,(K1,K2)。
通过在训练样本中的特征参数集中引入问答集的重要性特征参数,可以使得在进行问答排序时能够充分考虑用户对问答集的实际使用情况,从而使得排序结果更切合用户的实际使用需求,并可以实现针对不同的用户使用情况来定制不同的问答更新模型。
之后,就可以将所得到的相关性特征参数子集和重要性特征参数子集进行组合,得出训练样本的特征参数集。例如,以上述示例为例,所得到的特征参数集可以为T(C1,C2,C3,C4,C5,K1,K2)。
综上,上述步骤S3可以包括以下几个步骤:针对每个训练样本,分别计算该训练样本中的用户查询与问答集、以及与该问答集中的所述标准问题、所述标准答案、所述扩展问题、所述扩展答案之间的同种相关性特征参数,并将所计算出的同种相关性特征参数进行组合,得出该训练样本的相关性特征参数子集;获取该训练样本中的问答集的重要性特征参数,并将所获取的重要性特征参数进行组合,得出该训练样本的重要性特征参数子集;以及将所述训练样本的所述相关性特征参数子集和所述重要性特征子集进行组合,得出该训练样本的所述特征参数集。
在确定出每个训练样本的特征参数集之后,就可以进行步骤S4,根据所述每个训练样本的特征参数集、以及每个训练样本的正负例标注,构建排序训练数据。
在本发明中,问答排序模型是基于Pairwise的排序模型。该模型将排序问题转化为二元分类问题。即,在给定查询下,基于Pairwise的排序模型只考虑两个问答集之间相关度的相对顺序。对于两个问答集qa1和qa2,如果查询和qa1的相关性高于查询和qa2的相关性,那么{qa1,qa2}作为一个整体被标注+1;反之则{qa1,qa2}作为一个整体被标注-1。用上述方法两两比较所有问答集的相对顺序,就可以得到给定查询下所有问答集的相关性顺序。上述给{qa1,qa2}标注+1/-1的过程是典型的二元分类问题。有大量经典的二元分类算法可供套用,本发明中选用svm(支持向量机)作为分类器。
可以根据每个训练样本的特征参数集、以及每个训练样本的正负例标注,构建用于svm分类器的排序训练数据。例如,在前面提到的示例中,假设第一训练样本为(query,QA1),并且该第一训练样本被标注为负例;第二训练样本为(query,QA2),并且该第二训练样本被标注为正例。并且,假设确定出的第一训练样本的特征参数集为T1,第二训练样本的特征参数集为T2。这样,可以构建出两组训练数据,分别是{T1,T2,-1},以及{T2,T1,+1}。
构建出所有训练数据之后,就可以将所述训练数据送入svm分类器,来更新其中的问答排序模型。
问答排序模型的更新实质上是特征参数集中的各项特征参数的权值重新调整的过程。如上述示例,假设用户点击问答集列表中排名第二的问答集QA2,那么表明用户认为问答集QA2比排名第一的问答集QA1与其查询更相关。此时,通过上述过程来更新问答排序模型,就可以使得各项特征参数的权值重新调整,从而达到提升问答集QA2针对该查询的匹配度、降低问答集QA1针对该查询的匹配度的目的,并最终满足用户需求。并且,上述更新过程(权值调整过程)无需人工参与,全程自动化,因而可以大大降低开发人员的维护工作量,减少维护成本,并且提升模型更新时效,大幅改善用户对自动问答的体验。
在本发明的另一优选的实施方式中,如图2所示,该方法还可以包括:步骤S6,在确定每个训练样本的特征参数集之前,先对每个训练样本进行清洗,以筛除无效训练样本,之后,再确定经清洗后未被筛除的每个训练样本的特征参数集。
出现无效训练样本的情形主要有以下两种:1、该训练样本是原训练集中已存在的训练样本。2、该训练样本是从用户的错误点击而得出的训练样本。针对第一种情形,可以将该训练样本与原训练集中已存在的训练样本进行比较,看是否存在相同的训练样本,如果存在,则直接清洗掉该训练样本。针对第二种情形,可以采用多种方式来分析该训练样本是否是从用户的错误点击而得出的训练样本。在一个示例实施方式中,可以对训练样本中包括的用户查询和问答集进行时效性分析。例如,假设用户的查询是某商场现在的打折信息,而用户点击的问答集中所包括的该商场的打折信息是过期的,并非当前的,那么,就可以认为用户进行了错误的点击。此时,应当将该训练样本清洗掉,以免造成错误的模型更新。上述仅仅是一种确定用户是否进行错误点击的方法,本领域的技术人员还可以采用其他方法来确定用户是否进行了错误点击,例如,根据查询与点击的问答集之间的命名实体来进行判断等等,对此,本发明不一一举例详述。
通过在确定每个训练样本的特征参数集之前,先对每个训练样本进行清洗,可以有效筛除掉无效的训练样本。这样,不仅可以避免构建错误的训练数据而降低模型准确度,而且还可以避免对这些无效训练样本的特征计算过程,从而降低计算量,避免资源浪费。
图3示出了根据本发明的实施方式的用于自动问答系统的问答排序模型更新装置的示意图。如图3所示,该装置可以包括:用户检索日志挖掘模块10,用于获取表征用户对由所述自动问答系统返回的针对用户查询的问答集列表的交互行为的反馈信息,其中,所述问答集列表包括按照与所述用户查询的匹配度由高到低排序的预定数量的问答集;训练样本构建模块20,用于根据所述反馈信息,构建训练样本,并对所述训练样本进行正负例标注,其中,每个训练样本包括所述用户查询与一问答集;特征计算模块30,用于确定每个训练样本的特征参数集;以及问答排序模型训练更新模块40,用于根据所述每个训练样本的特征参数集、以及每个训练样本的正负例标注,构建排序训练数据;以及根据所构建的排序训练数据更新所述问答排序模型。
所述交互行为可以包括以下中的一者:点击所述问答集列表中排名非第一的问答集、或者未点击所述问答集列表中的问答集而主动添加与所述用户查询匹配的问答集。
所述训练样本构建模块20可以在所述反馈信息表征点击所述问答集列表中排名非第一的问答集的交互行为的情况下,将所述用户查询与所点击的问答集的构建为训练样本,并将该训练样本标注为正例;以及将所述用户查询与所述问答集列表中排在所点击的问答集之前的每个问答集一一构建为训练样本,并将该训练样本标注为负例。此外,所述训练样本构建模块20可以在所述反馈信息表征未点击所述问答集列表中的问答集而主动添加与所述用户查询匹配的问答集的交互行为的情况下,将所述用户查询与主动添加的问答集构建为训练样本,并将该训练样本标注为正例;以及将所述用户查询与所述问答集列表中的每个问答集一一构建为训练样本,并将该训练样本标注为负例。
在另一实施方式中,如图4所示,该装置还可以包括:问答库更新模块50,用于将所述主动添加的问答集更新到问答库60中。
所述特征参数集可以包括相关性特征参数子集和重要性特征参数子集。每个问答集包括标准问题、标准答案、扩展问题及扩展答案。在这种情况下,所述特征计算模块30可以通过以下方式确定每个训练样本的特征参数集:
针对每个训练样本,分别计算该训练样本中的用户查询与问答集、以及与该问答集中的所述标准问题、所述标准答案、所述扩展问题、所述扩展答案之间的同种相关性特征参数,并将所计算出的同种相关性特征参数进行组合,得出该训练样本的相关性特征参数子集;获取该训练样本中的问答集的重要性特征参数,并将所获取的重要性特征参数进行组合,得出该训练样本的重要性特征参数子集;以及将所述训练样本的所述相关性特征参数子集和所述重要性特征子集进行组合,得出该训练样本的所述特征参数集。
在一个优选的实施方式中,如图4所示,该装置还可以包括:训练样本清洗模块70,用于对所述训练样本构建模块构建出的训练样本进行清洗,以筛除无效训练样本;以及所述特征计算模块30确定经清洗后未被筛除的每个训练样本的特征参数集。
综上所述,在本发明提供的用于自动问答系统的问答排序模型更新方法及装置中,可以根据用户对问答集列表的交互行为,自动构建排序训练数据。之后,利用机器学习方法,根据所构建的排序训练数据对问答排序模型进行自动更新,从而实现排序训练数据中各特征参数的权值的自动调整。整个模型更新过程无需人工参与,全程自动化。通过这一方案,可以降低开发人员的维护工作量,维护成本低,并且更新效率高。此外,根据用户反馈进行模型自动更新,可以使得模型能够自适应地满足用户需求,从而拟合出用户最满意的结果,大幅提升用户对自动问答系统的体验。
以上结合附图详细描述了本发明的优选实施方式,但是,本发明并不限于上述实施方式中的具体细节,在本发明的技术构思范围内,可以对本发明的技术方案进行多种简单变型,这些简单变型均属于本发明的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本发明对各种可能的组合方式不再另行说明。
此外,本发明的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明的思想,其同样应当视为本发明所公开的内容。

Claims (10)

1.一种用于自动问答系统的问答排序模型更新方法,其特征在于,该方法包括:
获取表征用户对由所述自动问答系统返回的针对用户查询的问答集列表的交互行为的反馈信息,其中,所述问答集列表包括按照与所述用户查询的匹配度由高到低排序的预定数量的问答集,所述交互行为包括以下中的一者:点击所述问答集列表中排名非第一的问答集、或者未点击所述问答集列表中的问答集而主动添加与所述用户查询匹配的问答集;
根据所述反馈信息,构建训练样本,并对所述训练样本进行正负例标注,其中,每个训练样本包括所述用户查询与一问答集,其中,
在所述反馈信息表征点击所述问答集列表中排名非第一的问答集的交互行为的情况下,将所述用户查询与所点击的问答集的构建为训练样本,并将该训练样本标注为正例;以及将所述用户查询与所述问答集列表中排在所点击的问答集之前的每个问答集一一构建为训练样本,并将该训练样本标注为负例;以及
在所述反馈信息表征未点击所述问答集列表中的问答集而主动添加与所述用户查询匹配的问答集的交互行为的情况下,将所述用户查询与主动添加的问答集构建为训练样本,并将该训练样本标注为正例;以及将所述用户查询与所述问答集列表中的每个问答集一一构建为训练样本,并将该训练样本标注为负例;
确定每个训练样本的特征参数集;
根据所述每个训练样本的特征参数集、以及每个训练样本的正负例标注,构建排序训练数据;以及
根据所构建的排序训练数据更新所述问答排序模型。
2.根据权利要求1所述的方法,其特征在于,该方法还包括:将所述主动添加的问答集更新到问答库中。
3.根据权利要求1所述的方法,其特征在于,所述特征参数集包括相关性特征参数子集和重要性特征参数子集。
4.根据权利要求3所述的方法,其特征在于,每个问答集包括标准问题、标准答案、扩展问题及扩展答案;以及确定每个训练样本的特征参数集的步骤包括:
针对每个训练样本,分别计算该训练样本中的用户查询与问答集、以及与该问答集中的所述标准问题、所述标准答案、所述扩展问题、所述扩展答案之间的同种相关性特征参数,并将所计算出的同种相关性特征参数进行组合,得出该训练样本的相关性特征参数子集;
获取该训练样本中的问答集的重要性特征参数,并将所获取的重要性特征参数进行组合,得出该训练样本的重要性特征参数子集;以及
将所述训练样本的所述相关性特征参数子集和所述重要性特征子集进行组合,得出该训练样本的所述特征参数集。
5.根据权利要求1-4中任一权利要求所述的方法,其特征在于,该方法还包括:在确定每个训练样本的特征参数集之前,先对每个训练样本进行清洗,以筛除无效训练样本,之后,再确定经清洗后未被筛除的每个训练样本的特征参数集。
6.一种用于自动问答系统的问答排序模型更新装置,其特征在于,该装置包括:
用户检索日志挖掘模块,用于获取表征用户对由所述自动问答系统返回的针对用户查询的问答集列表的交互行为的反馈信息,其中,所述问答集列表包括按照与所述用户查询的匹配度由高到低排序的预定数量的问答集,所述交互行为包括以下中的一者:点击所述问答集列表中排名非第一的问答集、或者未点击所述问答集列表中的问答集而主动添加与所述用户查询匹配的问答集;
训练样本构建模块,用于根据所述反馈信息,构建训练样本,并对所述训练样本进行正负例标注,其中,每个训练样本包括所述用户查询与一问答集,其中,
所述训练样本构建模块在所述反馈信息表征点击所述问答集列表中排名非第一的问答集的交互行为的情况下,将所述用户查询与所点击的问答集的构建为训练样本,并将该训练样本标注为正例;以及将所述用户查询与所述问答集列表中排在所点击的问答集之前的每个问答集一一构建为训练样本,并将该训练样本标注为负例;以及
所述训练样本构建模块在所述反馈信息表征未点击所述问答集列表中的问答集而主动添加与所述用户查询匹配的问答集的交互行为的情况下,将所述用户查询与主动添加的问答集构建为训练样本,并将该训练样本标注为正例;以及将所述用户查询与所述问答集列表中的每个问答集一一构建为训练样本,并将该训练样本标注为负例;
特征计算模块,用于确定每个训练样本的特征参数集;以及
问答排序模型训练更新模块,用于根据所述每个训练样本的特征参数集、以及每个训练样本的正负例标注,构建排序训练数据;以及根据所构建的排序训练数据更新所述问答排序模型。
7.根据权利要求6所述的装置,其特征在于,该装置还包括:
问答库更新模块,用于将所述主动添加的问答集更新到问答库中。
8.根据权利要求6所述的装置,其特征在于,所述特征参数集包括相关性特征参数子集和重要性特征参数子集。
9.根据权利要求8所述的装置,其特征在于,每个问答集包括标准问题、标准答案、扩展问题及扩展答案;以及所述特征计算模块通过以下方式确定每个训练样本的特征参数集:
针对每个训练样本,分别计算该训练样本中的用户查询与问答集、以及与该问答集中的所述标准问题、所述标准答案、所述扩展问题、所述扩展答案之间的同种相关性特征参数,并将所计算出的同种相关性特征参数进行组合,得出该训练样本的相关性特征参数子集;
获取该训练样本中的问答集的重要性特征参数,并将所获取的重要性特征参数进行组合,得出该训练样本的重要性特征参数子集;以及
将所述训练样本的所述相关性特征参数子集和所述重要性特征子集进行组合,得出该训练样本的所述特征参数集。
10.根据权利要求6-9中任一权利要求所述的装置,其特征在于,该装置还包括:训练样本清洗模块,用于对所述训练样本构建模块构建出的训练样本进行清洗,以筛除无效训练样本;以及
所述特征计算模块确定经清洗后未被筛除的每个训练样本的特征参数集。
CN201510007045.6A 2015-01-07 2015-01-07 用于自动问答系统的问答排序模型更新方法及装置 Active CN104572998B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510007045.6A CN104572998B (zh) 2015-01-07 2015-01-07 用于自动问答系统的问答排序模型更新方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510007045.6A CN104572998B (zh) 2015-01-07 2015-01-07 用于自动问答系统的问答排序模型更新方法及装置

Publications (2)

Publication Number Publication Date
CN104572998A CN104572998A (zh) 2015-04-29
CN104572998B true CN104572998B (zh) 2017-09-01

Family

ID=53089060

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510007045.6A Active CN104572998B (zh) 2015-01-07 2015-01-07 用于自动问答系统的问答排序模型更新方法及装置

Country Status (1)

Country Link
CN (1) CN104572998B (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106202159A (zh) * 2016-06-23 2016-12-07 深圳追科技有限公司 一种客服系统的人机交互方法
CN106951468B (zh) * 2017-03-02 2018-12-28 腾讯科技(深圳)有限公司 对话生成方法及装置
WO2018187948A1 (zh) * 2017-04-12 2018-10-18 邹霞 机器学习模型的局部修复方法
CN107180105A (zh) * 2017-06-01 2017-09-19 北京果毅科技有限公司 一种智能助理的知识库的更新方法、装置和电子设备
US11087254B2 (en) * 2017-08-30 2021-08-10 4D Technologies, LLC Automatic updating interactive query answering and feature training method and system
CN107741976B (zh) * 2017-10-16 2021-07-09 泰康保险集团股份有限公司 智能应答方法、装置、介质和电子设备
CN107918640A (zh) * 2017-10-20 2018-04-17 阿里巴巴集团控股有限公司 样本确定方法及装置
CN108170835A (zh) * 2018-01-12 2018-06-15 深圳市富途网络科技有限公司 一种组合人工与ai的智能客服系统
CN108959467B (zh) * 2018-06-20 2021-10-15 华东师范大学 一种基于强化学习的问句和答案句相关度的计算方法
CN109002515A (zh) * 2018-07-04 2018-12-14 网宿科技股份有限公司 一种智能应答的方法和装置
CN109241267B (zh) 2018-09-27 2022-07-01 北京百度网讯科技有限公司 生成vqa系统的训练数据的方法、装置、设备和介质
CN111177585A (zh) * 2018-11-13 2020-05-19 北京四维图新科技股份有限公司 地图poi反馈方法及装置
CN109783617B (zh) * 2018-12-11 2024-01-26 平安科技(深圳)有限公司 用于答复问题的模型训练方法、装置、设备及存储介质
CN110647617B (zh) * 2019-09-29 2022-04-19 百度在线网络技术(北京)有限公司 对话引导模型的训练样本构建方法和生成模型的方法
CN110689359A (zh) * 2019-09-30 2020-01-14 支付宝(杭州)信息技术有限公司 对模型进行动态更新的方法及装置
CN110990546B (zh) * 2019-11-29 2023-11-17 中国银行股份有限公司 智能问答语料库更新方法和装置
CN111611486B (zh) * 2020-05-15 2021-03-26 北京博海迪信息科技有限公司 基于在线教育大数据的深度学习样本标注方法
CN111767380A (zh) * 2020-06-29 2020-10-13 北京百度网讯科技有限公司 模型自适应重训方法、装置、电子设备和存储介质
CN112214592A (zh) * 2020-11-05 2021-01-12 中科讯飞互联(北京)信息科技有限公司 一种回复对话评分模型训练方法、对话回复方法及其装置
CN112507100B (zh) * 2020-12-18 2023-12-22 北京百度网讯科技有限公司 一种问答系统的更新处理方法和装置
CN112784600B (zh) * 2021-01-29 2024-01-16 北京百度网讯科技有限公司 信息排序方法、装置、电子设备和存储介质
CN114048104A (zh) * 2021-11-24 2022-02-15 国家电网有限公司大数据中心 一种监控方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101030210A (zh) * 2006-10-08 2007-09-05 胡继强 一种利用用户的行为影响搜索排名的方法
CN101169797A (zh) * 2007-11-30 2008-04-30 朱廷劭 一种对搜索结果优化的方法
CN102236677A (zh) * 2010-04-28 2011-11-09 北京大学深圳研究生院 一种基于问答系统的信息匹配方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7398257B2 (en) * 2003-12-24 2008-07-08 Yamaha Hatsudoki Kabushiki Kaisha Multiobjective optimization apparatus, multiobjective optimization method and multiobjective optimization program

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101030210A (zh) * 2006-10-08 2007-09-05 胡继强 一种利用用户的行为影响搜索排名的方法
CN101169797A (zh) * 2007-11-30 2008-04-30 朱廷劭 一种对搜索结果优化的方法
CN102236677A (zh) * 2010-04-28 2011-11-09 北京大学深圳研究生院 一种基于问答系统的信息匹配方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《反馈排序学习模型在个性化推荐系统中的应用研究》;王平;《中国优秀硕士学位论文全文数据库 信息科技辑》;20140115;论文第2.3、3.5节 *

Also Published As

Publication number Publication date
CN104572998A (zh) 2015-04-29

Similar Documents

Publication Publication Date Title
CN104572998B (zh) 用于自动问答系统的问答排序模型更新方法及装置
CN110427466A (zh) 用于问答匹配的神经网络模型的训练方法和装置
CN105808590B (zh) 搜索引擎实现方法、搜索方法以及装置
CN103714054B (zh) 翻译方法和翻译装置
CN104573062A (zh) 基于描述逻辑和案例推理的智能学习方法
CN104281615A (zh) 一种投诉处理的方法和系统
CN109508429B (zh) 基于教育平台大数据分析的个性化自适应学习推荐方法
CN106095684B (zh) 一种预测性变异测试方法
Obsie et al. Prediction of student academic performance using neural network, linear regression and support vector regression: a case study
CN107833059A (zh) 客服的服务质量评价方法与系统
CN112685504A (zh) 一种面向生产过程的分布式迁移图学习方法
CN107886160A (zh) 一种bp神经网络区间需水预测方法
CN109872052A (zh) 一种法院案件智能化分案辅助方法及系统
CN110287269A (zh) 一种基于复合层次分析的数据处理分类方法和装置
CN109299473B (zh) 一种基于开发者画像的软件工程任务推荐方法
CN112614552A (zh) 基于bp神经网络的土壤重金属含量预测方法及系统
CN113052217A (zh) 预测结果标识及其模型训练方法、装置及计算机存储介质
CN109599096A (zh) 一种数据筛选方法及装置
CN109409642A (zh) 一种基于大数据的教学资源评级方法
CN112149623B (zh) 一种自适应多传感器信息融合系统、方法及存储介质
CN108932289A (zh) 一种基于信息抽取和深度学习的问题回答处理方法及系统
CN106598585A (zh) 云环境下计分驱动的服务快速匹配和聚合方法
Benaija et al. Hybrid Approach for Project Portfolio Selection Taking Account of Resources Management and Interactions between Projects.
CN112579775A (zh) 非结构化文本的分类方法及计算机可读存储介质
CN110263173A (zh) 一种快速提升文本分类性能的机器学习方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 100191 Beijing, Huayuan Road, Haidian District No. 2 peony technology building, five floor, A503

Patentee after: Yunzhisheng Intelligent Technology Co., Ltd.

Address before: 100191 Beijing, Huayuan Road, Haidian District No. 2 peony technology building, five floor, A503

Patentee before: Beijing Yunzhisheng Information Technology Co., Ltd.