CN103761334A - 从题库中查找匹配问题的方法和设备 - Google Patents

从题库中查找匹配问题的方法和设备 Download PDF

Info

Publication number
CN103761334A
CN103761334A CN201410053961.9A CN201410053961A CN103761334A CN 103761334 A CN103761334 A CN 103761334A CN 201410053961 A CN201410053961 A CN 201410053961A CN 103761334 A CN103761334 A CN 103761334A
Authority
CN
China
Prior art keywords
exam pool
phrase
customer
word
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410053961.9A
Other languages
English (en)
Other versions
CN103761334B (zh
Inventor
刘臣
唐汉明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Netease Information Technology Beijing Co Ltd
Original Assignee
Netease Information Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Netease Information Technology Beijing Co Ltd filed Critical Netease Information Technology Beijing Co Ltd
Priority to CN201410053961.9A priority Critical patent/CN103761334B/zh
Publication of CN103761334A publication Critical patent/CN103761334A/zh
Application granted granted Critical
Publication of CN103761334B publication Critical patent/CN103761334B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的实施方式提供了一种从题库中查找匹配问题的方法。该方法包括:A)接收用户输入的用户问题;B)针对每个题库问题,通过比较所述题库问题与用户问题,确定所述题库问题与用户问题之间的相似度,其中,在确定所述题库问题与用户问题之间的相似度时,对于所有题库问题包含的所有词或词组,考虑同时出现在所述题库问题和用户问题中的词或词组、只出现在所述题库问题中的词或词组和只出现在用户问题中的词或词组的情况;C)从所有题库问题中,选择相似度最高的题库问题作为与所述用户问题最匹配的题库问题。本发明的方法可以解决现有技术中因查找匹配问题的准确度不高而导致的在线应答的准确性不高的问题。此外,本发明的另一方面提供了一种从题库中查找匹配问题的设备,例如,服务器上安装的软件。

Description

从题库中查找匹配问题的方法和设备
技术领域
本发明的实施方式涉及信息技术领域,更具体地,本发明的实施方式涉及从题库中查找匹配问题的方法和设备。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述可包括可以探究的概念,但不一定是之前已经想到或者已经探究的概念。因此,除非在此指出,否则在本部分中描述的内容对于本申请的说明书和权利要求书而言不是现有技术,并且并不因为包括在本部分中就承认是现有技术。
电子商务可以向海量用户,提供7×24小时的不间断服务。目前,存在多种解答用户问题的应答方式,例如,传统的“人工电话应答”,以及“在线应答”。
在实现“在线应答”的过程中,可以由客户服务人员进行在线应答,也可以由智能机器人进行在线应答,还可以是两者的结合。
发明内容
但是,本发明人在研究过程中发现,在实现“在线应答”的过程中,如果由智能机器人进行在线应答,需要预先构建一个题库,在该题库中保存有大量的题库问题以及对应的答案。智能机器人通过各种模糊匹配方式(如,正则匹配算法)确定题库问题与用户问题之间的相似度,然后在该题库中查找相似度最大的题库问题作为与用户问题最匹配的题库问题,然后将该题库问题的答案应答给用户。
依照现有技术,只考虑题库问题和用户问题中都出现的词或词组,也就是说,题库问题和用户问题中都出现的词或词组越多,题库问题与用户问题的相似度越高(或者说,题库问题与用户问题之间重叠的区域越大,题库问题与用户问题的相似度越高)。但是,通过这种方式查找匹配问题会存在查找准确度不高的问题。例如,用户问题是“彩票订单怎么支付”,在题库中,题库问题1是“订单怎么支付”,题库问题2是“保险订单怎么支付”。如果采用正则匹配算法,题库问题1和2都与用户问题具有三个相同的词,即“订单”、“怎么”和“支付”,显然,题库问题1和2与用户问题的相似度相同。但是,实际上,题库问题2的答案不能用来应答用户的提问。
为此,非常需要一种从题库中查找匹配问题的方法和设备,以解决现有技术中因查找匹配问题的准确度不高而导致的在线应答的准确性不高的问题。
在本上下文中,本发明的实施方式期望提供一种从题库中查找匹配问题的方法和设备。
在本发明实施方式的第一方面中,提供了一种从题库中查找匹配问题的方法,包括:
A)、接收用户输入的用户问题;
B)、针对每个题库问题,通过比较所述题库问题与用户问题,确定所述题库问题与用户问题之间的相似度,其中,在确定所述题库问题与用户问题之间的相似度时,对于所有题库问题包含的所有词或词组,考虑同时出现在所述题库问题和用户问题中的词或词组、只出现在所述题库问题中的词或词组和只出现在用户问题中的词或词组的情况;
C)、从所有题库问题中,选择相似度最高的题库问题作为与所述用户问题最匹配的题库问题。
在本发明实施方式的第二方面中,提供了一种从题库中查找匹配问题的设备,包括:
接收单元,用于接收用户输入的用户问题;
相似度确定单元,用于针对每个题库问题,通过比较所述题库问题与用户问题,确定所述题库问题与用户问题之间的相似度,其中,在确定所述题库问题与用户问题之间的相似度时,对于所有题库问题包含的所有词或词组,考虑同时出现在所述题库问题和用户问题中的词或词组、只出现在所述题库问题中的词或词组和只出现在用户问题中的词或词组的情况;
问题筛选单元,用于从所有题库问题中,选择相似度最高的题库问题作为与所述用户问题最匹配的题库问题。
在本发明实施方式中,由于在确定每个题库问题与用户问题的相似度时,除了考虑到该题库问题与用户问题都出现的词或词组的情况之外,还考虑只有用户问题中出现词或词组以及只有题库问题中出现的词或词组的情况,从而使最终确定的相似度的准确性提高,进而会使查找到的题库问题的准确性提高,从而也会提高在线应答的准确性。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
图1示意性地示出了本发明实施方式可以在其中实施的一个示例性场景;
图2示意性地示出了根据本发明的一个实施方式的从题库中查找匹配问题的方法的流程图;
图3示意性地示出了本发明的设计原理示意图;
图4示意性地示出了根据本发明的一个实施方式的确定题库问题与用户问题之间的相似度的方法的流程图;
图5示意性地示出了根据本发明的一个实施方式的从题库中查找匹配问题的设备的结构框架图;
图6示意性地示出了根据本发明的一个实施方式的相似度确定单元的结构框架图;
图7示意性地示出了根据本发明的另一个实施方式的从题库中查找匹配问题的设备的结构框架图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本发明的实施方式,提出了一种从题库中查找匹配问题的方法和设备。
在本文中,需要理解的是,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和精神。
发明概述
本发明人发现,对于从题库中查找与用户问题最匹配的题库问题而言,关键在于如何确定题库中每个题库问题与用户问题的相似度。而在确定每个题库问题与用户问题的相似度的时候,如果只考虑每个题库问题和用户问题都出现的词或词组这一情况,会导致最终确定的相似度的准确性不高,进而会导致查找到的题库问题的准确性不高,并由此影响在线应答的准确性。
如果除了考虑到该题库问题与用户问题都出现的词或词组的情况之外,还考虑只有用户问题中出现词或词组以及只有题库问题中出现的词或词组的情况,会使最终确定的相似度的准确性提高,进而会使查找到的题库问题的准确性提高,从而也会提高在线应答的准确性。
在介绍了本发明的基本原理之后,下面具体介绍本发明的各种非限制性实施方式。
应用场景总览
首先参考图1,图1示意性地示出了本发明的实施方式可以在其中实施的示例性应用场景。其中,用户在客户端10上输入一个用户问题11,其可以是音频的形式、文字的形式或者图片的形式。客户端10将用户问题11提交给服务器20,服务器20在接收到用户问题11后,作为响应,从题库30中查找与用户问题11最匹配的题库问题。例如,在用户问题是音频的形式或图片的形式的情况下,服务器20可以对用户问题进行格式转换,以转换成文字的形式,以有利于后面的最匹配题库问题的查找。当服务器20查找到题库问题31是与用户问题11最匹配的题库问题后,将与题库30中题库问题31对应的答案32返回给客户端10。服务器20可以是Web服务器,也可以是其他类型的服务器,例如APP服务器。本领域技术人员可以理解,图1所示的示意图仅是本发明的实施方式可以在其中得以实现的一个示例。本发明实施方式的应用范围不受到该框架任何方面的限制。
示例性方法
下面结合图1的应用场景,参考图2来描述根据本发明示例性实施方式的、用于从题库中查找匹配问题的方法。需要注意的是,上述应用场景仅是为了便于理解本发明的精神和原理而示出,本发明的实施方式在此方面不受任何限制。相反,本发明的实施方式可以应用于适用的任何场景。
请参阅图2,其示意性地示出了根据本发明的一个实施方式的从题库中查找匹配问题的方法的流程图,方法具体例如可以包括:
步骤201:接收用户输入的用户问题;
步骤202:针对每个题库问题,通过比较所述题库问题与用户问题,确定所述题库问题与用户问题之间的相似度,其中,在确定所述题库问题与用户问题之间的相似度时,对于所有题库问题包含的所有词或词组,考虑同时出现在所述题库问题和用户问题中的词或词组、只出现在所述题库问题中的词或词组和只出现在用户问题中的词或词组的情况;
步骤203:从所有题库问题中,选择相似度最高的题库问题作为与所述用户问题最匹配的题库问题。
对于题库问题与用户问题之间的相似度,请参阅图3所示,虽然用户问题1和用户问题2与同一个题库问题的重叠区域基本一样,但是,用户问题1与该题库问题的不重叠区域比用户问题2与该题库问题的不重叠区域要小,因此,该题库问题与用户问题1之间的相似度比该题库问题与用户问题2之间的相似度高。从这一点出发考虑,在比较用户问题与某一个题库问题的相似度时,当只出现在用户问题中的词或词组越多,该题库问题与用户问题之间的相似度应该越低。而作为相反的情况,当只出现在该题库问题中的词或词组越多,该题库问题与用户问题之间的相似度应该越高。而只出现在所述题库问题中的词或词组应该不影响所述题库问题与用户问题之间的相似度。
据此,根据本发明的一个实施方式,对于所有题库问题包含的所有词或词组,当同时出现在所述题库问题和所述用户问题中的词或词组越多,所述题库问题与用户问题之间的相似度越高;当只出现在用户问题中的词或词组越多,所述题库问题与用户问题之间的相似度越低。只出现在所述题库问题中的词或词组不影响所述题库问题与用户问题之间的相似度。
当从所有题库问题中,选择相似度最高的题库问题作为与用户问题最匹配的题库问题之后,还可以进一步从题库中提取出与该相似度最高的题库问题对应的答案,并将该答案应答给用户。
在本发明的一个实施方式,请参阅图4,上述步骤202具体包括:
步骤2021:针对每个题库问题,执行以下步骤:针对所有题库问题包含的所有词或词组中的每个词或词组,计算所述词或词组在所述题库问题中的TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆向文件频率)值占所有题库问题包含的所有词或词组在所述题库问题中的TF-IDF值的总和的比重值;将所有题库问题包含的所有词或词组的比重值作为分量聚合为所述题库问题的特征向量;其中,当所述词或词组只出现在用户问题中时,将比重值取反。
需要说明的是,在上述步骤2021中,可以根据朴素贝叶斯分类算法,计算所述词或词组在所述题库问题中的TF-IDF值占所有题库问题包含的所有词或词组在所述题库问题中的TF-IDF值的总和的比重值。当然,一个优选的实施方式是,根据互补贝叶斯分类算法,计算所述词或词组在所述题库问题中的TF-IDF值占所有题库问题包含的所有词或词组在所述题库问题中的IF-IDF值的总和的比重值。
在本发明的一个实施方式中,当所述词或词组同时出现在所述题库问题中,或者,所述词或词组只出现在所述题库问题中时,所述根据互补贝叶斯分类算法,计算所述词或词组在所述题库问题中的TF-IDF值占所有题库问题包含的所有词或词组在所述题库问题中的TF-IDF值的总和的比重值具体包括:
按照公式
Figure BDA0000466482620000071
计算第n个词或词组在第m个题库问题中的TF-IDF值占所有题库问题包含的所有词或词组在第m个题库问题中的TF-IDF值的总和的比重值。
其中,vmn为第n个词或词组在第m个题库问题中的TF-IDF值,M为题库问题的总数,N为所有题库问题包含的所有词或词组的总数,avg为所有TF-IDF值的平均值,
在本发明的一个实施方式中,当所述词或词组只出现在用户问题中时,所述根据互补贝叶斯分类算法,计算所述词或词组在所述题库问题中的TF-IDF值占所有题库问题包含的所有词或词组在所述题库问题中的TF-IDF值的总和的比重值具体包括:
按照公式
Figure BDA0000466482620000073
计算第n个词或词组在第m个题库问题中的TF-IDF值占所有题库问题包含的所有词或词组在第m个题库问题中的TF-IDF值的总和的比重值。
其中,vmn为第n个词或词组在第m个题库问题中的TF-IDF值,M为题库问题的总数,N为所有词或词组的总数,avg为所有TF-IDF值的平均值,
Figure BDA0000466482620000081
需要说明的是,在本发明中,可以采用现有技术中的任意一种方式计算得到一个词或词组在一个题库问题中的TF-IDF值,或者,一个词或词组在一个用户问题中的TF-IDF值。
在本发明的一个实施方式中,第n个词或词组在第m个题库问题中的TF-IDF值
Figure BDA0000466482620000082
其中,TFmn为第n个词或词组在第m个题库问题中的TF值,TDFn为第n个词或词组在题库中的TDF值,TDFn=log[(1+M)/Qn],Qn为第n个词或词组在其中出现的题库问题数,M为题库问题的总数。
步骤2022:计算所有题库问题包含的所有词或词组中的每个词或词组在所述用户问题中的TF-IDF值,并将计算得到的所有TF-IDF值作为分量聚合为用户问题的特征向量。
在本发明的一个实施方式中,按照公式
Figure BDA0000466482620000083
计算第n个词或词组在用户问题中的TF-IDF值;其中,TFn为第n个词或词组在用户问题中的TF值,TDFn=log[(1+M)/Qn],Qn为第n个词或词组在其中出现的题库问题数,M为题库问题的总数。
当然,除了通过该步骤的方式计算用户问题的特征向量之外,也可以采用计算题库问题的特征向量的方式计算用户问题的特征向量。即,针对所有题库问题包含的所有词或词组中的每个词或词组,计算所述词或词组在所述用户问题中的TF-IDF值占所有题库问题包含的所有词或词组在所述题库问题中的TF-IDF值的总和的比重值;将所有题库问题包含的所有词或词组的比重值作为分量聚合为所述用户问题的特征向量。
步骤2023:计算所述用户问题的特征向量与每个题库问题的特征向量的内积值,所述内积值为所述题库问题与所述用户问题之间的相似度。
而上述步骤203具体为:从所有题库问题中,选择与最大的内积值对应的题库问题作为与所述用户问题最匹配的题库问题。
即使从题库问题中选择出与最大的内积值对应的题库问题,但该题库问题的答案有可能也并不是让客户满意,也就是说,在题库中不存在一个题库问题的答案是让客户满意的。
为了解决这个问题,在本发明的一个实施方式中,上述步骤203具体还包括:判断最大的内积值是否大于或等于预设阈值,只有在最大的内积值大于或等于预设阈值的情况下,才选择与最大的内积值对应的题库问题作为与所述用户问题最匹配的题库问题。
需要说明的是,预设阈值可以根据实际应用中客户对答案的准确度要求而设定,客户对答案的准确度要求越高,预设阈值越大,反之,客户对答案的准确度要求越低,预设阈值越小。
此外,如果最大的内积值小于预设阈值,可以触发人工应答,并进一步将人工应答的答案与所述用户问题一同添加到题库中,以实现对题库的更新。
对于上述的各个实施方式,在接收到用户输入的用户问题之前,题库问题的答案已经预先确定,并且,也已经预先存储在题库中。除了这种情况之外,在另外的实施方式中,在接收到用户输入的用户问题之前,题库问题的答案也可以不预先确定,而是在接收到用户输入的用户问题之后,根据用户问题中的一些信息动态确定。
因此,在本发明的另一个实施方式中,至少一些题库问题分别与一个数据处理逻辑的地址进行绑定,所述方法还包括:根据与最匹配的题库问题绑定的数据处理逻辑的地址调用相应的数据处理逻辑,并将所述数据处理逻辑的处理结果作为答案应答给用户,所述数据处理逻辑用于根据用户问题中的信息进行数据处理。
例如,当用户问题为“订单***发货了吗”时,与最匹配的题库问题绑定的是实现数据查询逻辑的地址,通过该地址调用数据查询逻辑,数据查询逻辑根据用户问题中的订单号从本地或者远程数据库中检索出相关,并将相关信息作为答案以文字、图片或者声音的形式应答给用户。
根据本发明,在确定每个题库问题与用户问题的相似度时,除了考虑到该题库问题与用户问题都出现的词或词组的情况之外,还考虑只有用户问题中出现词或词组以及只有题库问题中出现的词或词组的情况,从而使最终确定的相似度的准确性提高,进而会使查找到的题库问题的准确性提高,从而也会提高在线应答的准确性。
另外,当利用人工应答模式对用户问题进行应答后,还可以通过将该应答的答案和用户问题添加到题库中的方式,对题库进行更新,不断增强题库解答用户问题的能力。
示例性设备
在介绍了本发明示例性实施方式的方法之后,接下来,参考图5来描述根据本发明示例性实施方式的、用于从题库中查找匹配问题的设备。
参考图5,其示意性地示出了根据本发明一个实施方式的从题库中查找匹配问题的设备的结构框架图,具体地,该设备例如可以包括:
接收单元501,用于接收用户输入的用户问题;
相似度确定单元502,用于针对每个题库问题,通过比较所述题库问题与用户问题,确定所述题库问题与用户问题之间的相似度,其中,在确定所述题库问题与用户问题之间的相似度时,对于所有题库问题包含的所有词或词组,考虑同时出现在所述题库问题和用户问题中的词或词组、只出现在所述题库问题中的词或词组和只出现在用户问题中的词或词组的情况;
问题筛选单元503,用于从所有题库问题中,选择相似度最高的题库问题作为与所述用户问题最匹配的题库问题。
根据本发明的一个实施方式,对于所有题库问题包含的所有词或词组,当同时出现在所述题库问题和用户问题中的词或词组越多时,所述题库问题与用户问题之间的相似度越高,当只出现在所述用户问题中的词或词组越多时,所述题库问题与用户问题之间的相似度越低。只出现在所述题库问题中的词或词组不影响所述题库问题与用户问题之间的相似度。
根据本发明的一个实施方式,参阅图6所示,相似度确定单元502包括:
第一聚合子单元5021,用于针对每个题库问题,执行以下操作:针对所有题库问题包含的所有词或词组中的每个词或词组,计算所述词或词组在所述题库问题中的TF-IDF词频-逆向文件频率值占所有题库问题包含的所有词或词组在所述题库问题中的TF-IDF值的总和的比重值;将所有题库问题包含的所有词或词组的比重值作为分量聚合为所述题库问题的特征向量;其中,当所述词或词组只出现在用户问题中时,将比重值取反;
第二聚合子单元5022,用于计算所有题库问题包含的所有词或词组中的每个词或词组在用户问题中的TF-IDF值,并将计算得到的所有TF-IDF值作为分量聚合为用户问题的特征向量;
内积计算子单元5023,用于计算所述用户问题的特征向量与每个题库问题的特征向量的内积值,所述内积值为所述题库问题与用户问题之间的相似度。
则问题筛选单元503具体用于,从所有题库问题中,选择与最大的内积值对应的题库问题作为与所述用户问题最匹配的题库问题。
根据本发明的一个实施方式,第一向量聚合子单元5021具体用于,根据互补贝叶斯分类算法,计算所述词或词组在所述题库问题中的TF-IDF值占所有题库问题包含的所有词或词组在所述题库问题中的TF-IDF值的总和的比重值。
更进一步地,当所述词或词组同时出现在所述题库问题中,或者,所述词或词组只出现在所述题库问题中时,所述根据互补贝叶斯分类算法,计算所述词或词组在所述题库问题中的TF-IDF值占所有题库问题包含的所有词或词组在所述题库问题中的TF-IDF值的总和的比重值具体为:
按照公式
Figure BDA0000466482620000111
计算第n个词或词组在第m个题库问题中的TF-IDF值占所有题库问题包含的所有词或词组在第m个题库问题中的TF-IDF值的总和的比重值;
vmn为第n个词或词组在第m个题库问题中的TF-IDF值,M为题库问题的总数,N为所有题库问题包含的所有词或词组的总数,avg为所有TF-IDF值的平均值,
Figure BDA0000466482620000121
更进一步地,当所述词或词组只出现在用户问题中时,所述根据互补贝叶斯分类算法,计算所述词或词组在所述题库问题中的TF-IDF值占所有题库问题包含的所有词或词组在所述题库问题中的TF-IDF值的总和的比重值具体为:
按照公式
Figure BDA0000466482620000122
计算第n个词或词组在第m个题库问题中的TF-IDF值占所有题库问题包含的所有词或词组在第m个题库问题中的TF-IDF值的总和的比重值;
vmn为第n个词或词组在第m个题库问题中的TF-IDF值,M为题库问题的总数,N为所有词或词组的总数,avg为所有TF-IDF值的平均值,
Figure BDA0000466482620000123
其中,
Figure BDA0000466482620000124
TFmn为第n个词或词组在第m个题库问题中的TF值,TDFn为第n个词或词组在题库中的TDF值,TDFn=log[(1+M)/Qn],Qn为第n个词或词组在其中出现的题库问题数,M为题库问题的总数。
更进一步地,计算所有题库问题包含的所有词或词组中的每个词或词组在用户问题中的TF-IDF值具体为:
按照公式
Figure BDA0000466482620000125
计算第n个词或词组在用户问题中的TF-IDF值;
其中,TFn为第n个词或词组在用户问题中的TF值,TDFn=log[(1+M)/Qn],Qn为第n个词或词组在其中出现的题库问题数,M为题库问题的总数。
根据本发明的一个实施方式,问题筛选单元503具体还用于,判断最大的内积值是否大于或等于预设阈值,只有在最大的内积值大于或等于预设阈值的情况下,才选择与最大的内积值对应的题库问题作为与所述用户问题最匹配的题库问题。
根据本发明的一个实施方式,如参阅图7所示,所述设备还包括:
应答单元504,用于根据与最匹配的题库问题绑定的数据处理逻辑的地址调用相应的数据处理逻辑,并将所述数据处理逻辑的处理结果作为答案应答给用户,所述数据处理逻辑用于根据用户问题中的信息进行数据处理。
根据本发明,在确定每个题库问题与用户问题的相似度时,除了考虑到该题库问题与用户问题都出现的词或词组的情况之外,还考虑只有用户问题中出现词或词组以及只有题库问题中出现的词或词组的情况,从而使最终确定的相似度的准确性提高,进而会使查找到的题库问题的准确性提高,从而也会提高在线应答的准确性。
另外,当利用人工应答模式对用户问题进行应答后,还可以通过将该应答的答案和用户问题添加到题库中的方式,对题库进行更新,不断增强题库解答用户问题的能力。
应当注意,尽管在上文详细描述中提及了从题库中查找匹配问题的设备的若干装置或子装置,但是这种划分仅仅并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多装置的特征和功能可以在一个装置中具体化。反之,上文描述的一个装置的特征和功能可以进一步划分为由多个装置来具体化。
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims (16)

1.一种方法,包括:
A)、接收用户输入的用户问题;
B)、针对每个题库问题,通过比较所述题库问题与用户问题,确定所述题库问题与用户问题之间的相似度,其中,在确定所述题库问题与用户问题之间的相似度时,对于所有题库问题包含的所有词或词组,考虑同时出现在所述题库问题和用户问题中的词或词组、只出现在所述题库问题中的词或词组和只出现在用户问题中的词或词组的情况;
C)、从所有题库问题中,选择相似度最高的题库问题作为与所述用户问题最匹配的题库问题。
2.根据权利要求1所述的方法,其中,
对于所有题库问题包含的所有词或词组,当同时出现在所述题库问题和所述用户问题中的词或词组越多时,所述题库问题与用户问题之间的相似度越高;当只出现在用户问题中的词或词组越多时,所述题库问题与用户问题之间的相似度越低;只出现在所述题库问题中的词或词组不影响所述题库问题与用户问题之间的相似度。
3.根据权利要求2所述的方法,其中,
所述步骤B)具体包括:
针对每个题库问题,执行以下步骤:针对所有题库问题包含的所有词或词组中的每个词或词组,计算所述词或词组在所述题库问题中的词频-逆向文件频率TF-IDF值占所有题库问题包含的所有词或词组在所述题库问题中的TF-IDF值的总和的比重值;将所有题库问题包含的所有词或词组的比重值作为分量聚合为所述题库问题的特征向量;其中,当所述词或词组只出现在用户问题中时,将比重值取反;
计算所有题库问题包含的所有词或词组中的每个词或词组在所述用户问题中的TF-IDF值,并将计算得到的所有TF-IDF值作为分量聚合为用户问题的特征向量;
计算所述用户问题的特征向量与每个题库问题的特征向量的内积值,所述内积值为所述题库问题与所述用户问题之间的相似度;
所述步骤C)具体为:
从所有题库问题中,选择与最大的内积值对应的题库问题作为与所述用户问题最匹配的题库问题。
4.根据权利要求3所述的方法,其中,根据互补贝叶斯分类算法,计算所述词或词组在所述题库问题中的TF-IDF值占所有题库问题包含的所有词或词组在所述题库问题中的TF-IDF值的总和的比重值。
5.根据权利要求4所述的方法,其中,当所述词或词组同时出现在所述题库问题中,或者,所述词或词组只出现在所述题库问题中时,所述根据互补贝叶斯分类算法,计算所述词或词组在所述题库问题中的TF-IDF值占所有题库问题包含的所有词或词组在所述题库问题中的TF-IDF值的总和的比重值,具体包括:
按照公式计算第n个词或词组在第m个题库问题中的TF-IDF值占所有题库问题包含的所有词或词组在第m个题库问题中的TF-IDF值的总和的比重值;
其中,vmn为第n个词或词组在第m个题库问题中的TF-IDF值,M为题库问题的总数,N为所有题库问题包含的所有词或词组的总数,avg为所有TF-IDF值的平均值,
Figure FDA0000466482610000022
6.根据权利要求4所述的方法,其中,当所述词或词组只出现在用户问题中时,所述根据互补贝叶斯分类算法,计算所述词或词组在所述题库问题中的TF-IDF值占所有题库问题包含的所有词或词组在所述题库问题中的TF-IDF值的总和的比重值,具体包括:
按照公式
Figure FDA0000466482610000023
计算第n个词或词组在第m个题库问题中的TF-IDF值占所有题库问题包含的所有词或词组在第m个题库问题中的TF-IDF值的总和的比重值;
其中,vmn为第n个词或词组在第m个题库问题中的TF-IDF值,M为题库问题的总数,N为所有词或词组的总数,avg为所有TF-IDF值的平均值,
7.根据权利要求5或6所述的方法,其中,
Figure FDA0000466482610000032
TFmn为第n个词或词组在第m个题库问题中的TF值,TDFn为第n个词或词组在题库中的TDF值,TDFn=log[(1+M)/Qn],Qn为第n个词或词组在其中出现的题库问题数。
8.根据权利要求3所述的方法,其中,计算所有题库问题包含的所有词或词组中的每个词或词组在用户问题中的TF-IDF值,具体为:
按照公式
Figure FDA0000466482610000033
计算第n个词或词组在用户问题中的TF-IDF值;
其中,TFn为第n个词或词组在用户问题中的TF值,TDFn=log[(1+M)/Qn],Qn为第n个词或词组在其中出现的题库问题数,M为题库问题的总数。
9.根据权利要求3所述的方法,其中,步骤C)具体还包括:
判断最大的内积值是否大于或等于预设阈值,只有在最大的内积值大于或等于预设阈值的情况下,才选择与最大的内积值对应的题库问题作为与所述用户问题最匹配的题库问题。
10.根据权利要求1所述的方法,其中,至少一些题库问题分别与一个数据处理逻辑的地址绑定,所述方法还包括:
根据与最匹配的题库问题绑定的数据处理逻辑的地址调用相应的数据处理逻辑,并将所述数据处理逻辑的处理结果作为答案应答给用户,所述数据处理逻辑用于根据用户问题中的信息进行数据处理。
11.一种设备,包括:
接收单元,用于接收用户输入的用户问题;
相似度确定单元,用于针对每个题库问题,通过比较所述题库问题与用户问题,确定所述题库问题与用户问题之间的相似度,其中,在确定所述题库问题与用户问题之间的相似度时,对于所有题库问题包含的所有词或词组,考虑同时出现在所述题库问题和用户问题中的词或词组、只出现在所述题库问题中的词或词组和只出现在用户问题中的词或词组的情况;
问题筛选单元,用于从所有题库问题中,选择相似度最高的题库问题作为与所述用户问题最匹配的题库问题。
12.根据权利要求11所述的设备,其中,对于所有题库问题包含的所有词或词组,当同时出现在所述题库问题和用户问题中的词或词组越多时,所述题库问题与用户问题之间的相似度越高;当只出现在所述用户问题中的词或词组越多时,所述题库问题与用户问题之间的相似度越低;只出现在所述题库问题中的词或词组不影响所述题库问题与用户问题之间的相似度。
13.根据权利要求12所述的设备,其中,所述相似度确定单元包括:
第一聚合子单元,用于针对每个题库问题,执行以下操作:针对所有题库问题包含的所有词或词组中的每个词或词组,计算所述词或词组在所述题库问题中的TF-IDF词频-逆向文件频率值占所有题库问题包含的所有词或词组在所述题库问题中的TF-IDF值的总和的比重值;将所有题库问题包含的所有词或词组的比重值作为分量聚合为所述题库问题的特征向量;其中,当所述词或词组只出现在用户问题中时,将比重值取反;
第二聚合子单元,用于计算所有题库问题包含的所有词或词组中的每个词或词组在用户问题中的TF-IDF值,并将计算得到的所有TF-IDF值作为分量聚合为用户问题的特征向量;
内积计算子单元,用于计算所述用户问题的特征向量与每个题库问题的特征向量的内积值,所述内积值为所述题库问题与用户问题之间的相似度;
则所述问题筛选单元具体用于,从所有题库问题中,选择与最大的内积值对应的题库问题作为与所述用户问题最匹配的题库问题。
14.根据权利要求13所述的设备,其中,第一向量聚合子单元具体用于,根据互补贝叶斯分类算法,计算所述词或词组在所述题库问题中的TF-IDF值占所有题库问题包含的所有词或词组在所述题库问题中的TF-IDF值的总和的比重值。
15.根据权利要求14所述的设备,其中,所述问题筛选单元具体还用于,判断最大的内积值是否大于或等于预设阈值,只有在最大的内积值大于或等于预设阈值的情况下,才选择与最大的内积值对应的题库问题作为与所述用户问题最匹配的题库问题。
16.根据权利要求11所述的设备,其中,至少一些题库问题分别与一个数据处理逻辑的地址绑定,所述设备还包括:
应答单元,用于根据与最匹配的题库问题绑定的数据处理逻辑的地址调用相应的数据处理逻辑,并将所述数据处理逻辑的处理结果作为答案应答给用户,所述数据处理逻辑用于根据用户问题中的信息进行数据处理。
CN201410053961.9A 2014-02-17 2014-02-17 从题库中查找匹配问题的方法和设备 Active CN103761334B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410053961.9A CN103761334B (zh) 2014-02-17 2014-02-17 从题库中查找匹配问题的方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410053961.9A CN103761334B (zh) 2014-02-17 2014-02-17 从题库中查找匹配问题的方法和设备

Publications (2)

Publication Number Publication Date
CN103761334A true CN103761334A (zh) 2014-04-30
CN103761334B CN103761334B (zh) 2017-10-27

Family

ID=50528570

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410053961.9A Active CN103761334B (zh) 2014-02-17 2014-02-17 从题库中查找匹配问题的方法和设备

Country Status (1)

Country Link
CN (1) CN103761334B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104503992A (zh) * 2014-12-04 2015-04-08 明博教育科技有限公司 一种题库构建方法
CN104657923A (zh) * 2015-01-15 2015-05-27 广东小天才科技有限公司 一种试题查重判重方法和装置
CN105893391A (zh) * 2015-01-26 2016-08-24 阿里巴巴集团控股有限公司 智能应答方法、装置、系统及电子设备
CN106571144A (zh) * 2016-11-08 2017-04-19 广东小天才科技有限公司 一种基于语音识别的搜索方法及装置
WO2017097061A1 (zh) * 2015-12-07 2017-06-15 中兴通讯股份有限公司 智能应答方法及装置
CN107239574A (zh) * 2017-06-29 2017-10-10 北京神州泰岳软件股份有限公司 一种智能问答系统知识‑问题匹配的方法及装置
CN108304451A (zh) * 2017-12-13 2018-07-20 中国科学院自动化研究所 多项选择题解答方法及装置
CN112559658A (zh) * 2020-12-08 2021-03-26 中国科学技术大学 一种地址匹配方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1928864A (zh) * 2006-09-22 2007-03-14 浙江大学 一种基于问答库的中文自然语言问答方法
WO2013170587A1 (zh) * 2012-05-14 2013-11-21 华为技术有限公司 一种多媒体问答系统及方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1928864A (zh) * 2006-09-22 2007-03-14 浙江大学 一种基于问答库的中文自然语言问答方法
WO2013170587A1 (zh) * 2012-05-14 2013-11-21 华为技术有限公司 一种多媒体问答系统及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨海天,王健,林鸿飞: "《基于特征融合的社区问答问句相似度计算》", 《江西师范大学学报( 自然科学版)》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104503992A (zh) * 2014-12-04 2015-04-08 明博教育科技有限公司 一种题库构建方法
CN104503992B (zh) * 2014-12-04 2018-09-25 明博教育科技有限公司 一种题库构建方法
CN104657923A (zh) * 2015-01-15 2015-05-27 广东小天才科技有限公司 一种试题查重判重方法和装置
CN104657923B (zh) * 2015-01-15 2018-02-13 广东小天才科技有限公司 一种试题查重判重方法和装置
CN105893391A (zh) * 2015-01-26 2016-08-24 阿里巴巴集团控股有限公司 智能应答方法、装置、系统及电子设备
WO2017097061A1 (zh) * 2015-12-07 2017-06-15 中兴通讯股份有限公司 智能应答方法及装置
CN106571144A (zh) * 2016-11-08 2017-04-19 广东小天才科技有限公司 一种基于语音识别的搜索方法及装置
CN107239574A (zh) * 2017-06-29 2017-10-10 北京神州泰岳软件股份有限公司 一种智能问答系统知识‑问题匹配的方法及装置
CN108304451A (zh) * 2017-12-13 2018-07-20 中国科学院自动化研究所 多项选择题解答方法及装置
CN112559658A (zh) * 2020-12-08 2021-03-26 中国科学技术大学 一种地址匹配方法及装置

Also Published As

Publication number Publication date
CN103761334B (zh) 2017-10-27

Similar Documents

Publication Publication Date Title
CN103761334A (zh) 从题库中查找匹配问题的方法和设备
CN108536852B (zh) 问答交互方法和装置、计算机设备及计算机可读存储介质
US10430255B2 (en) Application program interface mashup generation
CN108121800B (zh) 基于人工智能的信息生成方法和装置
CN103248658B (zh) 服务推荐装置、服务推荐方法和移动设备
US10678516B2 (en) Chatbot builder user interface
US10387473B2 (en) Real-time data input correction and facilitation of data entry at point of input
US11017002B2 (en) Description matching for application program interface mashup generation
CN106354856B (zh) 基于人工智能的深度神经网络强化搜索方法和装置
CN110362601B (zh) 元数据标准的映射方法、装置、设备及存储介质
CN110727761B (zh) 对象信息获取方法、装置及电子设备
CN110727782A (zh) 问答语料生成方法及系统
CN111241400B (zh) 一种信息搜索方法及装置
CN103377186B (zh) 基于命名实体识别的Web服务整合装置、方法以及设备
CN110162769B (zh) 文本主题输出方法和装置、存储介质及电子装置
CN112100491A (zh) 基于用户数据的信息推荐方法、装置、设备及存储介质
CN106446696B (zh) 一种信息处理方法及电子设备
CN106156149B (zh) 一种数据转移方法及装置
CN116561271A (zh) 问答处理方法及装置
CN111027065A (zh) 一种勒索病毒识别方法、装置、电子设备及存储介质
CN113609271B (zh) 基于知识图谱的业务处理方法、装置、设备及存储介质
CN115239442A (zh) 一种互联网金融产品推广的方法及系统和存储介质
CN111008373B (zh) 智能问答的处理方法、装置、计算机可读介质及电子设备
CN114817346A (zh) 一种业务处理方法、装置、电子设备及计算机可读介质
CN110162614B (zh) 问题信息提取方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant