CN111144098B - 扩展问句的召回方法和装置 - Google Patents

扩展问句的召回方法和装置 Download PDF

Info

Publication number
CN111144098B
CN111144098B CN201911371686.4A CN201911371686A CN111144098B CN 111144098 B CN111144098 B CN 111144098B CN 201911371686 A CN201911371686 A CN 201911371686A CN 111144098 B CN111144098 B CN 111144098B
Authority
CN
China
Prior art keywords
question
extended
candidate
questions
sets
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911371686.4A
Other languages
English (en)
Other versions
CN111144098A (zh
Inventor
胡翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN201911371686.4A priority Critical patent/CN111144098B/zh
Publication of CN111144098A publication Critical patent/CN111144098A/zh
Application granted granted Critical
Publication of CN111144098B publication Critical patent/CN111144098B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Traffic Control Systems (AREA)

Abstract

本说明书提供一种扩展问句的召回方法,包括:根据输入问句与每个扩展问句集合的集合关联程度,选择P个扩展问句集合作为候选集合;每个扩展问句集合分别对应于不同的标准问句;P为大于1的自然数;在每个候选集合中,根据所述输入问句与所述候选集合中每个扩展问句的问句关联程度,选择至少一个扩展问句作为所述候选集合的候选扩展问句;基于所有候选集合的候选扩展问句生成召回结果。

Description

扩展问句的召回方法和装置
技术领域
本说明书涉及数据处理技术领域,尤其涉及一种扩展问句的召回方法和装置。
背景技术
随着人工智能技术的发展和应用,客服机器人在提升客服中心效率、降低客服成本方面的价值日益显现。对用户提出的问题,客服机器人在海量的知识库中搜寻最能匹配用户问题的答复,并播放或显示给用户。
通常客服机器人的知识库包括若干个标准问句和这些标准问句的扩展问句。标准问句是对高频问题的规范问法,每个标准问句会配一个答案;扩展问句是标准问句的各种同义表达,一个标准问句通常对应于多个扩展问句。解答用户问题的主要方法是先从扩展问句中选出最有可能的若干个,这一过程称为召回,然后在被召回的扩展问句中找到和用户问题最匹配的一个,并返回这个扩展问句对应的标准问句的答案。
由于召回时处理的是海量的扩展问句,考虑到用户等待的时间,难以应用复杂的算法来评估用户问题与扩展问句的匹配程度,因此在很多应用场景中,很容易发生这样的情况,即被召回的多个扩展问句都是对应于极少数几个(比如一个)标准问句的扩展问句。这样即使应用精准的算法来对召回的扩展问句进行排序,也往往因选择范围过窄而很难得到符合用户期望的答案。
发明内容
有鉴于此,本说明书提供一种扩展问句的召回方法,包括:
根据输入问句与每个扩展问句集合的集合关联程度,选择P个扩展问句集合作为候选集合;每个扩展问句集合分别对应于不同的标准问句;P为大于1的自然数;
在每个候选集合中,根据所述输入问句与所述候选集合中每个扩展问句的问句关联程度,选择至少一个扩展问句作为所述候选集合的候选扩展问句;
基于所有候选集合的候选扩展问句生成召回结果。
本说明书还提供了一种扩展问句的召回装置,包括:
候选集合生成单元,用于根据输入问句与每个扩展问句集合的集合关联程度,选择P个扩展问句集合作为候选集合;每个扩展问句集合分别对应于不同的标准问句;P为大于1的自然数;
候选扩展问句单元,用于在每个候选集合中,根据所述输入问句与所述候选集合中每个扩展问句的问句关联程度,选择至少一个扩展问句作为所述候选集合的候选扩展问句;
召回结果组合单元,用于基于所有候选集合的候选扩展问句生成召回结果。
本说明书提供的一种计算机设备,包括:存储器和处理器;所述存储器上存储有可由处理器运行的计算机程序;所述处理器运行所述计算机程序时,执行上述扩展问句的召回方法所述的步骤。
本说明书还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时,执行上述扩展问句的召回方法所述的步骤。
由以上技术方案可见,本说明书的实施例中,在对应于标准问句的扩展问句集合中,选择出与输入问句的集合关联程度最高的P(P为大于1的自然数)个候选集合,然后根据与输入问句的问句关联程度,在各个候选集合中分别选出至少一个扩展问句作为候选扩展问句,并采用候选扩展问句生成召回结果,从而将召回的扩展问句对应于P个标准问句,能够避免因可供选择的标准问句过少导致即使采用精准的算法对召回的扩展问句进行排序,也得不到与用户问句匹配程度高的扩展问句,通过增加召回结果的多样性提高了答复的准确性。
附图说明
图1是本说明书实施例中一种扩展问句的召回方法的流程图;
图2是本说明书应用示例中一种扩展问句召回过程的示意图;
图3是运行本说明书实施例的设备的一种硬件结构图;
图4是本说明书实施例中一种扩展问句的召回装置的逻辑结构图。
具体实施方式
本说明书的实施例提出一种新的扩展问句的召回方法,令对应于每个标准问句的扩展问句组成一个扩展问句集合,选择与输入问句的集合关联程度最高的P个扩展问句集合作为候选集合,在每个候选集合中选择与输入问句的问句关联程度最高的至少一个扩展问句作为候选扩展问句,并基于所有候选集合的候选扩展问句生成召回结果,使得召回结果中包括对应于P个标准问句的扩展问句,增加了扩展问句的多样性,能够避免因对应的标准问句过少而难以给出匹配用户问句的答复,提高了答复的准确性。
本说明书的实施例可以运行在任何具有计算和存储能力的设备上,如手机、平板电脑、PC(Personal Computer,个人电脑)、笔记本、服务器等设备;还可以由运行在两个或两个以上设备的逻辑节点来实现本说明书实施例中的各项功能。
本说明书的实施例中,用户对客服机器人一次输入为一个输入问句。输入问句可以是用户提出的问题,也可以是用户做出的陈述;可以是语音,也可以是文本。对输入问句的内容和形式均不做限定。
本说明书实施例中,预设对用户输入问句的若干个标准回复,称为答案,每个答案唯一对应于一个标准问句。每个标准问句有一个自己的扩展问句集合,扩展问句集合的成员包括所属标准问句的所有扩展问句,以及一个与所属标准问句相同的扩展问句。换言之,标准问句作为自己的一个扩展问句,与自己的其他扩展问句一同组成了自己的扩展问句集合。每个扩展问句属于且只属于一个扩展问句集合,每个扩展问句集合分别对应于不同的标准问句。
本说明书的实施例中,扩展问句的召回方法的流程如图1所示。
步骤110,根据输入问句与每个扩展问句集合的集合关联程度,选择P(P为大于1的自然数)个扩展问句集合作为候选集合。
本说明书的实施例中,集合关联程度用来衡量某个扩展问句集合作为一个整体,与输入问句之间的相关性。相关性可以由输入问句中的关键词与扩展问句集合的匹配、位置、频次等中的一项到多项来体现。扩展问句集合与输入问句中的关键词与越匹配、匹配的次数越多、关键词出现在扩展问句中越重要位置上,输入问句与扩展问句集合的集合关联程度就越高。
其中,输入问句的关键词可以是将输入问句分词后得到的全部词语,也可以是将全部词语中的停用词(Stop Word,)去除后的其他词语,还可以是采用某种算法对输入问句进行关键词提取后得到的词语;不做限定。
可以根据实际应用场景的特点来决定采用匹配、位置、频次等中的哪个或哪些因素来表达集合关联程度,如何将这些因素或其组合表达为集合关联程度,以及采用怎样的计算公式来得到匹配、位置、频次等因素;均不做限定。
实际应用场景中,各种相关性算法都可以用来计算集合关联程度,例如,可以采用输入问句与扩展问句集合的TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆文件频率)值来作为集合关联程度;再如,可以采用输入问句与扩展问句集合的BM25(Best Matching 25,最佳匹配25)值来作为集合关联程度。
在一种实现方式中,输入问句与某个扩展问句集合的集合关联程度根据输入问句中每个关键词和该扩展问句集合的相关值确定(例如可以是所有关键词与该扩展问句集合的相关值之和)。某个关键词与某个扩展问句集合的相关值采用如下方式确定:设扩展问句集合的总个数为M(M为大于1的自然数),关键词wi(i为自然数)出现其中的mi个扩展问句集合中,则当wi出现在扩展问句集合groupj(j为从1到M的自然数)中时,wi和扩展问句集合groupj的相关值与mi正相关、与
Figure BDA0002339799400000051
的对数负相关;当wi没有出现在扩展问句集合groupj中时,wi和扩展问句集合groupj的相关值为0。
以下给出一个采用上述实现方式的示例。
设输入语句为Q,共包含T个关键词,则Q与groupj的相关值F1(groupj)由式1确定:
Figure BDA0002339799400000052
式1中,
Figure BDA0002339799400000053
本步骤中,在接收到用户的输入问句后,分别计算输入问句与每个扩展问句集合的集合关联程度,按照计算结果选出P个集合关联程度最高的扩展问句集合,将每个选出的扩展问句集合作为一个候选集合,得到P个候选集合。
步骤120,在每个候选集合中,根据输入问句与候选集合中每个扩展问句的问句关联程度,选择至少一个扩展问句作为该候选集合的候选扩展问句。
本说明书的实施例中,问句关联程度用来衡量某个扩展问句与输入问句之间的相关性。
类似于集合关联程度,可以根据实际应用场景的特点来决定采用输入问句中的关键词与扩展问句的匹配、位置、频次等中的哪个或哪些因素来表达问句关联程度,如何将这些因素或其组合表达为问句关联程度,以及采用怎样的计算公式来得到匹配、位置、频次等因素;均不做限定。
实际应用场景中,各种相关性算法都可以用来计算问句关联程度,例如,可以采用输入问句与扩展问句的TF-IDF值来作为问句关联程度;再如,可以采用输入问句与扩展问句的BM25值来作为问句关联程度。
在一种实现方式中,输入问句与某个扩展问句的问句关联程度根据输入问句中每个关键词和该扩展问句的相关值确定(例如可以是所有关键词与该扩展问句的相关值之和)。某个关键词与某个扩展问句的相关值采用如下方式确定:设该扩展问句所在的扩展问句集合中所有扩展问句的总个数为N(N为大于1的自然数),关键词wi出现其中的ni个扩展问句中,则当wi出现在扩展问句qk(k为从1到N的自然数)中时,wi和扩展问句qk的相关值与ni正相关、与
Figure BDA0002339799400000061
的对数负相关;当wi没有出现在扩展问句qk中时,wi和扩展问句qk的相关值为0。
以下为一个采用上述实现方式的示例。
设输入语句Q共包含T个关键词,则Q与qk的相关值F2(qk)由式2确定:
Figure BDA0002339799400000062
式2中,TF2(wi)=ni
Figure BDA0002339799400000063
本步骤中,对每个候选集合,计算输入问句与该候选集合中每个扩展问句的问句关联程度,按照计算结果选出至少一个问句关联程度最高的扩展问句,将选出的扩展问句作为该候选集合的候选扩展问句。直到选出P个候选集合的候选扩展问句。
各个候选集合选出的候选扩展问句的个数可以相同,也可以不同;例如可以在集合关联程度较高的候选集合中选出较多的候选扩展问句,也可以在每个候选集合中都选出同样数量的候选扩展问句;不做限定。不同候选集合选出的候选扩展问句的个数可以预设(如集合关联程度最高的候选集合为p1个,次高的为p2个,等等),也可以根据运行过程中的某个变量确定(如根据集合关联程度的具体数值采用预设公式计算得出);同样不做限定。
步骤130,基于所有候选集合的候选扩展问句生成召回结果。
在选出每个候选集合的候选扩展问句后,采用所有候选扩展问句得到召回结果。可以将所有候选集合的所有候选扩展问句作为召回结果,也可以在所有候选扩展问句中按照预定条件(如,在本候选集合中问句关联程度排名在第一预设值之前或者问句关联程度的数值不低于第二预设值)选择一部分作为召回结果,不做限定。
在得到召回结果后,可以采用各种算法或机器学习模型来对召回结果中的扩展问句进行排序,并从中选出一个与用户的输入问句最为匹配的扩展问句,将该扩展问句所属标准问句的答案作为对用户输入问句的回复。
可见,本说明书的实施例中,将对应于每个标准问句的扩展问句组成一个扩展问句集合,从所有扩展问句集合中选择出与输入问句的集合关联程度最高的P个候选集合,在每个候选集合中选择与输入问句的问句关联程度最高的至少一个扩展问句作为候选扩展问句,并采用候选扩展问句生成召回结果,使得召回结果中包括对应于P个标准问句的扩展问句,能够避免因可供选择的标准问句过少导致得不到与用户问句匹配程度高的扩展问句,增加了召回结果的多样性,提高了答复的准确性。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在本说明书的一个应用示例中,某个互联网服务提供商采用客服机器人来对用户进行在线答疑。该互联网服务提供商的开发人员整理出用户经常问到的问题,将每个问题的规范问法作为一个标准问句,将每个问题的回复作为该标准问句的答案。对每个标准问句,开发人员生成若干个能够用同一个答案作为回复的扩展问句,并且以这些扩展问句和该标准问句为成员组成该标准问句的扩展问句集合。
当收到来自用户的输入问句后,运行在该互联网服务提供商服务端的客服机器人功能模块即可采用上述扩展问句集合、标准问句及答案来对用户进行回复,其过程如图2所示。
客服机器人功能模块将输入问句Q进行分词,去除预定的停用词后,得到T个词语wi,i∈[1,T]。
对每个关键词wi,客服机器人功能模块分别统计出有wi出现的扩展问句集合的个数mi。设扩展问句集合的总个数为M,对扩展问句集合groupj,j∈[1,M],客服机器人功能模块按照式1,计算输入语句Q与groupj的TF-IDF值F1(groupj)。客服机器人功能模块从M个扩展问句集合中,选出P个F1(groupj)的值最大的扩展问句集合作为候选集合。
在某个候选集合中,对每个关键词wi,客服机器人功能模块分别统计出有wi出现的扩展问句的个数ni。设该候选集合中扩展问句的总个数为N,对扩展问句qk,k∈[1,N],客服机器人功能模块按照式2,计算输入语句Q与qk的TF-IDF值F2(qk)。客服机器人功能模块从N个扩展问句中,选出T(T为自然数)个F2(qk)的值最大的扩展问句作为该候选集合的候选扩展问句。
客服机器人功能模块在P个候选集合中分别执行上述选择候选扩展问句的步骤,得到P×T个候选扩展问句。客服机器人功能模块将这P×T个候选扩展问句作为召回结果。
客服功能模块采用训练好的排序模型,按照与输入语句的匹配程度高低对召回结果中所有的候选扩展问句进行排序,并且将排名最高的候选扩展问句所属标准问句的答案作为对用户的回复。
与上述流程实现对应,本说明书的实施例还提供了一种扩展问句的召回装置。该装置可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为逻辑意义上的装置,是通过所在设备的CPU(Central Process Unit,中央处理器)将对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,除了图3所示的CPU、内存以及存储器之外,扩展问句的召回装置所在的设备通常还包括用于进行无线信号收发的芯片等其他硬件,和/或用于实现网络通信功能的板卡等其他硬件。
图4所示为本说明书实施例提供的一种扩展问句的召回装置,包括候选集合生成单元、候选扩展问句单元和召回结果组合单元,其中:候选集合生成单元用于根据输入问句与每个扩展问句集合的集合关联程度,选择P个扩展问句集合作为候选集合;每个扩展问句集合分别对应于不同的标准问句;P为大于1的自然数;候选扩展问句单元用于在每个候选集合中,根据所述输入问句与所述候选集合中每个扩展问句的问句关联程度,选择至少一个扩展问句作为所述候选集合的候选扩展问句;召回结果组合单元用于基于所有候选集合的候选扩展问句生成召回结果。
可选的,所述集合关联程度为输入问句与扩展问句集合的词频-逆文件频率TF-IDF值或最佳匹配BM25值;所述问句关联程度为输入问句与扩展问句的TF-IDF值或BM25值。
可选的,所述集合关联程度根据输入问句中每个关键词和某个扩展问句集合的相关值确定;关键词wi和扩展问句集合groupj的相关值在wi没有出现在groupj中时为0,在wi出现在groupj中时与mi正相关、与
Figure BDA0002339799400000091
的对数负相关;M为扩展问句集合的总个数,i为自然数,j从1到M的自然数;mi为有wi出现的扩展问句集合的个数。
可选的,所述问句关联程度根据输入问句中的每个关键词和某个扩展问句的相关值确定;关键词wi和扩展问句qk的相关值在wi没有出现在qk中时为0,在wi出现在qk中时与ni正相关、与
Figure BDA0002339799400000092
的对数负相关;N为所述扩展问句所在的扩展问句集合中扩展问句的总个数,i为自然数,k从1到N的自然数,ni为所述扩展问句所在的扩展问句集合中有wi出现的扩展问句的个数。
可选的,所述召回结果组合单元具体用于:将所有候选集合的所有候选扩展问句作为召回结果。
本说明书的实施例提供了一种计算机设备,该计算机设备包括存储器和处理器。其中,存储器上存储有能够由处理器运行的计算机程序;处理器在运行存储的计算机程序时,执行本说明书实施例中扩展问句的召回方法的各个步骤。对扩展问句的召回方法的各个步骤的详细描述请参见之前的内容,不再重复。
本说明书的实施例提供了一种计算机可读存储介质,该存储介质上存储有计算机程序,这些计算机程序在被处理器运行时,执行本说明书实施例中扩展问句的召回方法的各个步骤。对扩展问句的召回方法的各个步骤的详细描述请参见之前的内容,不再重复。
以上所述仅为本说明书的较佳实施例而已,并不用以限制请求保护的其他实施例,凡在本说明书的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在请求保护的范围之内。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书的实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书的实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

Claims (10)

1.一种扩展问句的召回方法,包括:
根据输入问句与每个扩展问句集合的集合关联程度,选择P个扩展问句集合作为候选集合;每个扩展问句集合分别对应于不同的标准问句;P为大于1的自然数;
在每个候选集合中,根据所述输入问句与所述候选集合中每个扩展问句的问句关联程度,选择至少一个扩展问句作为所述候选集合的候选扩展问句;
基于所有候选集合的候选扩展问句生成召回结果;
其中,所述集合关联程度根据输入问句中每个关键词和某个扩展问句集合的相关值确定;关键词wi和扩展问句集合groupj的相关值在wi没有出现在groupj中时为0,在wi出现在groupj中时与mi正相关、与
Figure FDA0004154669550000011
的对数负相关;M为扩展问句集合的总个数,i为自然数,j从1到M的自然数;mi为有wi出现的扩展问句集合的个数。
2.根据权利要求1所述的方法,所述集合关联程度为输入问句与扩展问句集合的词频-逆文件频率TF-IDF值或最佳匹配BM25值;所述问句关联程度为输入问句与扩展问句的TF-IDF值或BM25值。
3.根据权利要求1所述的方法,所述问句关联程度根据输入问句中的每个关键词和某个扩展问句的相关值确定;关键词wi和扩展问句qk的相关值在wi没有出现在qk中时为0,在wi出现在qk中时与ni正相关、与
Figure FDA0004154669550000012
的对数负相关;N为所述扩展问句所在的扩展问句集合中扩展问句的总个数,i为自然数,k从1到N的自然数,ni为所述扩展问句所在的扩展问句集合中有wi出现的扩展问句的个数。
4.根据权利要求1所述的方法,所述基于所有候选集合的候选扩展问句生成召回结果,包括:将所有候选集合的所有候选扩展问句作为召回结果。
5.一种扩展问句的召回装置,包括:
候选集合生成单元,用于根据输入问句与每个扩展问句集合的集合关联程度,选择P个扩展问句集合作为候选集合;每个扩展问句集合分别对应于不同的标准问句;P为大于1的自然数;
候选扩展问句单元,用于在每个候选集合中,根据所述输入问句与所述候选集合中每个扩展问句的问句关联程度,选择至少一个扩展问句作为所述候选集合的候选扩展问句;
召回结果组合单元,用于基于所有候选集合的候选扩展问句生成召回结果;
所述集合关联程度根据输入问句中每个关键词和某个扩展问句集合的相关值确定;关键词wi和扩展问句集合groupj的相关值在wi没有出现在groupj中时为0,在wi出现在groupj中时与mi正相关、与
Figure FDA0004154669550000021
的对数负相关;M为扩展问句集合的总个数,i为自然数,j从1到M的自然数;mi为有wi出现的扩展问句集合的个数。
6.根据权利要求5所述的装置,所述集合关联程度为输入问句与扩展问句集合的词频-逆文件频率TF-IDF值或最佳匹配BM25值;所述问句关联程度为输入问句与扩展问句的TF-IDF值或BM25值。
7.根据权利要求5所述的装置,所述问句关联程度根据输入问句中的每个关键词和某个扩展问句的相关值确定;关键词wi和扩展问句qk的相关值在wi没有出现在qk中时为0,在wi出现在qk中时与ni正相关、与
Figure FDA0004154669550000022
的对数负相关;N为所述扩展问句所在的扩展问句集合中扩展问句的总个数,i为自然数,k从1到N的自然数,ni为所述扩展问句所在的扩展问句集合中有wi出现的扩展问句的个数。
8.根据权利要求5所述的装置,所述召回结果组合单元具体用于:将所有候选集合的所有候选扩展问句作为召回结果。
9.一种计算机设备,包括:存储器和处理器;所述存储器上存储有可由处理器运行的计算机程序;所述处理器运行所述计算机程序时,执行如权利要求1到4任意一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时,执行如权利要求1到4任意一项所述的方法。
CN201911371686.4A 2019-12-26 2019-12-26 扩展问句的召回方法和装置 Active CN111144098B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911371686.4A CN111144098B (zh) 2019-12-26 2019-12-26 扩展问句的召回方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911371686.4A CN111144098B (zh) 2019-12-26 2019-12-26 扩展问句的召回方法和装置

Publications (2)

Publication Number Publication Date
CN111144098A CN111144098A (zh) 2020-05-12
CN111144098B true CN111144098B (zh) 2023-05-30

Family

ID=70520759

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911371686.4A Active CN111144098B (zh) 2019-12-26 2019-12-26 扩展问句的召回方法和装置

Country Status (1)

Country Link
CN (1) CN111144098B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113704623B (zh) * 2021-08-31 2024-04-16 平安银行股份有限公司 一种数据推荐方法、装置、设备及存储介质
CN114548069A (zh) * 2022-02-22 2022-05-27 北京京东尚科信息技术有限公司 扩展文本处理方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009113494A1 (ja) * 2008-03-10 2009-09-17 国立大学法人横浜国立大学 Wwwを情報源として記述的な回答が可能な質問応答システム
CN105608199A (zh) * 2015-12-25 2016-05-25 上海智臻智能网络科技股份有限公司 用于智能问答系统中的标准问的扩展方法和装置
CN106295807A (zh) * 2016-08-23 2017-01-04 上海智臻智能网络科技股份有限公司 一种信息处理的方法及装置
CN107688608A (zh) * 2017-07-28 2018-02-13 合肥美的智能科技有限公司 智能语音问答方法、装置、计算机设备和可读存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7171351B2 (en) * 2002-09-19 2007-01-30 Microsoft Corporation Method and system for retrieving hint sentences using expanded queries
US9607035B2 (en) * 2014-05-21 2017-03-28 International Business Machines Corporation Extensible validation framework for question and answer systems

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009113494A1 (ja) * 2008-03-10 2009-09-17 国立大学法人横浜国立大学 Wwwを情報源として記述的な回答が可能な質問応答システム
CN105608199A (zh) * 2015-12-25 2016-05-25 上海智臻智能网络科技股份有限公司 用于智能问答系统中的标准问的扩展方法和装置
CN106295807A (zh) * 2016-08-23 2017-01-04 上海智臻智能网络科技股份有限公司 一种信息处理的方法及装置
CN107688608A (zh) * 2017-07-28 2018-02-13 合肥美的智能科技有限公司 智能语音问答方法、装置、计算机设备和可读存储介质

Also Published As

Publication number Publication date
CN111144098A (zh) 2020-05-12

Similar Documents

Publication Publication Date Title
JP7343568B2 (ja) 機械学習のためのハイパーパラメータの識別および適用
CN108804641B (zh) 一种文本相似度的计算方法、装置、设备和存储介质
CN106610972A (zh) 查询改写方法及装置
CN111898643B (zh) 一种语义匹配方法及装置
CN110019669B (zh) 一种文本检索方法及装置
CN110737756B (zh) 确定针对用户输入数据的应答的方法、装置、设备和介质
JP2012533818A (ja) 単語の重みに基づいた検索結果の順位付け
KR102371437B1 (ko) 엔티티를 추천하는 방법과 장치, 전자기기 및 컴퓨터 판독가능 매체
CN110162778B (zh) 文本摘要的生成方法及装置
CN113255328B (zh) 语言模型的训练方法及应用方法
CN111144098B (zh) 扩展问句的召回方法和装置
CN112070550A (zh) 基于搜索平台的关键词确定方法、装置、设备及存储介质
US11782991B2 (en) Accelerated large-scale similarity calculation
US20130159317A1 (en) High precision set expansion for large concepts
CN106997340B (zh) 词库的生成以及利用词库的文档分类方法及装置
Uddin et al. App competition matters: How to identify your competitor apps?
CN112541069A (zh) 一种结合关键词的文本匹配方法、系统、终端及存储介质
CN116484829A (zh) 用于信息处理的方法和设备
CN115328945A (zh) 数据资产的检索方法、电子设备及计算机可读存储介质
CN111858899B (zh) 语句处理方法、装置、系统和介质
JP2018055224A (ja) データ生成装置、方法、及びプログラム
CN113704452A (zh) 基于Bert模型的数据推荐方法、装置、设备及介质
CN112417131A (zh) 信息推荐方法和装置
CN111897910A (zh) 信息推送方法和装置
CN110941714A (zh) 分类规则库构建方法、应用分类方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant