CN112506963B - 一种面向多业务场景的服务机器人问题匹配方法 - Google Patents
一种面向多业务场景的服务机器人问题匹配方法 Download PDFInfo
- Publication number
- CN112506963B CN112506963B CN202011319407.2A CN202011319407A CN112506963B CN 112506963 B CN112506963 B CN 112506963B CN 202011319407 A CN202011319407 A CN 202011319407A CN 112506963 B CN112506963 B CN 112506963B
- Authority
- CN
- China
- Prior art keywords
- question
- qid
- word
- new
- service
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 238000012216 screening Methods 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims description 23
- 238000013507 mapping Methods 0.000 claims description 11
- 230000011218 segmentation Effects 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000001105 regulatory effect Effects 0.000 claims description 2
- 238000012423 maintenance Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24553—Query execution of query operations
- G06F16/24558—Binary matching operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种面向多业务场景的服务机器人问题匹配方法,包括以下步骤:S110:服务机器人获取用户查询,将其与业务场景编号一起输入问题匹配系统;S120:所述问题匹配系统根据业务场景编号找到对应的问题库及索引;S130:借助搜索引擎初筛上述业务场景对应的问题库,得到最相似的N个问题;S140:利用所有业务场景共享的重排序模型,对所述N个问题进行重排序,输出排名第一的问题的QID给服务机器人;S150:服务机器人根据所述QID从答案库中找出合适的答案返回给用户。本发明提出的初筛和重排序“两步走”策略,兼具高性能和高准确率的优势。
Description
技术领域
本发明属于自然语言处理领域,涉及一种相似度计算、问题匹配的方法。
背景技术
随着语音识别、机器视觉、语义理解等人工智能技术的不断发展,服务机器人取得了长足进步,智能化程度明显提升。此外,人们也逐渐体会到服务机器人给生活带来的便利,对其需求与日俱增。在技术和需求的双重驱动下,服务机器人已经应用在党建、政务、金融、医疗、教育等众多领域和业务场景,实现引导接待、自动问答、闲聊陪伴等多样化、复合型功能。
通常,为实现精准问答,服务机器人会为每个业务场景搭建一套问题匹配系统,通过匹配问题库中的相似问题,回答用户提问。但随着业务场景的不断扩张,问题匹配系统的数量也急剧增长,占用的运行资源越来越多,维护难度也不断提升。此外,由于单个业务场景的问题库规模都较小,缺乏充足的样本微调在语义理解方面当前最优的预训练模型,导致过拟合现象严重,缺乏良好的鲁棒性和泛化能力,极大限制了预训练模型在服务机器人问题匹配中的应用。
发明内容
为了解决现有技术存在的不足,本发明的目的是提供一种面向多业务场景的服务机器人问题匹配方法,建立一个统一的问题匹配系统,解决多个系统并存时资源消耗高、维护代价大等难题。并且通过初筛和重排序“两步走”的策略,使本发明兼具高性能和高准确率的优势。
为实现上述目的,本发明提供如下技术方案:
一种面向多业务场景的服务机器人问题匹配方法,包括以下步骤:
S110:服务机器人获取用户查询,将其与业务场景编号一起输入问题匹配系统;
S120:所述问题匹配系统根据业务场景编号找到对应的问题库及索引;
S130:借助搜索引擎初筛上述业务场景对应的问题库,得到最相似的N个问题;
S140:利用所有业务场景共享的重排序模型,对所述N个问题进行重排序,输出排名第一的问题的QID给服务机器人;
S150:服务机器人根据所述QID从答案库中找出合适的答案返回给用户。
步骤S120中,所述问题库采用倒排索引的方式建立词到问题列表的映射关系,用于步骤S130快速地筛选相似问题。
一个倒排索引由问题库中所有不重复的词构成,其中每个词都有一个包含该词的问题列表;每添加一个问题,倒排索引都会更新,以反应当前最新的词到问题列表的映射关系,过程如下:首先,使用分词器将问题按细粒度模式切分为各种可能的词;接着,遍历每个词,若倒排索引中已存在该词,则将当前问题追加到该词的问题列表,若倒排索引中不存在该词,则先在倒排索引中添加该词,再将当前问题添加到该词的问题列表;然后,更新搜索时所需的参数,包括问题库全部问题数N、词t的问题列表长度n(t)、词t的逆文档频率IDF(t)、新问题的长度dl和问题库所有问题的平均长度avgdl;其中,IDF(t)的计算方法如下:
步骤S130中,所述搜索引擎采用BM25算法计算用户查询和问题库中问题的相关性得分;以所述相关性得分为基础,选出得分最高的N个问题输入到步骤S140所述的重排序模型。
使用分词器将用户查询按智能模式进行切分,与倒排索引类似,也得到一组词;接着,依据用户查询分词结果,从倒排索引中取出相同的词及其问题列表;然后,采用BM25算法计算用户查询q和问题d的相关性得分Score(q,d),公式如下:
上式中,用户查询q被切分为{q1,...,qm}共m个词;对于用户查询中第i个词qi,从倒排索引相关参数中取出该词的逆文档频率IDF(qi),并统计该词在问题d中出现的次数,记为fi;将IDF(qi)和fi代入上式,并联合问题d的长度dl和问题库所有问题的平均长度avgdl,计算出词qi上的相关性得分;相加这些词上的相关性得分,最终得到用户查询q和问题d的相关性得分Score(q,d);上式中k1和b为调节因子;最后,按相关性得分由高到低排列上述过程中涉及的问题,选取前N个问题作为用户查询最相似的N个问题。
步骤S140中,所述重排序模型以BERT预训练模型为基础,在[CLS]的隐态向量之上添加一层全连接网络,输出用户查询和某个问题的相似度;重排序模型为各业务场景共享,通过从所有问题库中抽取出两两相似或不相似的二分类样本进行模型训练,使之具备多业务场景的适用性。
步骤S140中,所述重排序训练样本的类别根据QID确定;若两个问题QID相同,则为相似样本;若两个问题QID不同,则为不相似样本。再次利用步骤S130所述搜索引擎,检索每个问题与之最相似但QID不同的K个问题,以此构造不相似样本。
步骤S140中,所述问题和QID的映射关系在问题库添加新问题时指定,包括以下步骤:
S210:管理人员在问题库管理页面输入新问题,触发初筛和重排序流程,得到一组与新问题相似且QID各不相同的问题和QID列表,所述问题和QID列表按问题相似度由高到低排列;
S220:管理人员从返回的问题和QID列表中勾选出与新问题最相似的一个问题,将其QID与新问题关联在一起;
S230:若管理人员认为返回的问题和QID列表中没有与新问题相似的问题,则为新问题赋予一个新的QID,并将两者关联在一起;
S240:将新问题及其关联的QID一起添加到问题库中;
S250:问题库依据新问题更新索引,且当新问题累积到一定数量(可设置一般范围为(50-100))或则人为主动点击按钮操作等方式触发重排序模型的再次训练。
步骤S210的添加新问题时的初筛和重排序过程与步骤中,在初筛结果中各问题的QID互不相同,重排序输出各问题对的相似度。
本发明的有益效果是:提出一种面向多业务场景的服务机器人问题匹配方法,一方面通过初筛缩小相似问题搜索范围,提高系统响应速度;另一方面以预训练模型为基础构建的重排序模型,充分发挥预训练模型的优异性能,使问题匹配更准确。本发明提出的初筛和重排序“两步走”策略,兼具高性能和高准确率的优势。与只使用预训练模型的匹配方法相比,本发明规避了逐问题匹配耗时量大、效率低等不足,更具实用性。与只使用搜索引擎的匹配方法相比,本发明可以找出字词不同但语义相近的问题,适用范围更广,用户体验更优。此外,共享的重排序模型可以避免为每个业务场景部署一个模型,降低资源消耗和维护难度。而且,重排序训练样本取自各业务场景的问题库,能让模型有效学习各领域知识,进一步提高问题匹配的准确率。
附图说明
图1是本发明一实施例提供的服务机器人问题匹配方法的流程示意图;
图2是本发明一实施例提供的服务机器人重排序模型架构;
图3是本发明一实施例提供的服务机器人添加新问题的流程示意图。
具体实施方式
结合以下具体实施例和附图,对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等,除以下专门提及的内容之外,均为本领域的普遍知识和公知常识,本发明没有特别限制内容。
本发明提供了一种面向多业务场景的服务机器人问题匹配方法,包括以下步骤:S110:服务机器人获取用户查询,将其与业务场景编号一起输入问题匹配系统。
S220:问题匹配系统根据业务场景编号找到对应的问题库及索引。各业务场景的问题库采用倒排索引的方式建立词到问题列表的映射关系,方便后续快速地筛选相似问题。
S130:借助搜索引擎初筛问题库,得到最相似的N个问题。搜索引擎采用BM25算法计算用户查询和问题库中问题的相关性得分。以此为基础,选出得分最高的N个问题输入到后续的重排序模型。
S140:利用所有业务场景共享的重排序模型,对这N个问题进行重排序,输出排名第一的问题的QID给服务机器人。重排序模型以BERT预训练模型为基础,在[CLS]的隐态向量之上添加一层全连接网络,输出用户查询和某个问题的相似度。重排序模型为各业务场景共享,通过从所有问题库中抽取出两两相似或不相似的二分类样本进行模型训练,使之具备多业务场景的适用性。
S150:服务机器人根据QID从答案库中找出合适的答案返回给用户。
可选地,若初筛结果中排名第一的问题与用户查询完全一致,跳过后续重排序流程,直接返回该问题的QID给服务机器人。
可选地,若重排序模型输出的N个问题与用户查询的相似度都低于0.5,认为用户查询超出问题库范围,直接让服务机器人告知用户答案不存在。
可选地,重排序模型训练样本的类别根据QID确定。若两个问题QID相同,则为相似样本;若两个问题QID不同,则为不相似样本。鉴于不相似样本空间巨大,为使重排序模型得到有效训练,再次利用步骤S130所述搜索引擎,检索每个问题与之最相似但QID不同的K个问题,以此构造不相似样本。
可选地,问题和QID的映射关系在问题库添加新问题时指定,添加新问题的步骤包括:
S210:管理人员在问题库管理页面输入新问题,触发初筛和重排序流程,得到一组与新问题相似且QID各不相同的问题和QID列表,列表按问题相似度由高到低排列;
S220:管理人员从返回的列表中勾选出与新问题最相似的一个问题,将其QID与新问题关联在一起;
S230:若管理人员认为返回的列表中没有与新问题相似的问题,则为新问题赋予一个新的QID,并将两者关联在一起;
S240:将新问题及其关联的QID一起添加到问题库中;
S250:问题库依据新问题更新索引,且当新问题累积到一定数量,一般范围为50-100,触发重排序模型的再次训练。
可选地,添加新问题时的初筛和重排序过程与匹配时的过程有所区别,具体表现在初筛结果中各问题的QID互不相同,重排序输出各问题对的相似度,而不只是排名第一的问题。
实施例
本发明实施例提出一种面向多业务场景的服务机器人问题匹配方法,如图1所示,包括以下步骤:
S110:服务机器人获取用户查询,将其与业务场景编号一起输入问题匹配系统;
S120:问题匹配系统根据业务场景编号找到对应的问题库及索引;
S130:借助搜索引擎初筛上述业务场景对应的问题库,得到最相似的N个问题;
S140:利用所有业务场景共享的重排序模型,对这N个问题进行重排序,输出排名第一的问题的QID给服务机器人;
S150:服务机器人根据QID从答案库中找出合适的答案返回给用户。
在本实施例步骤S120中,各业务场景的问题库采用倒排索引的方式建立词到问题列表的映射关系。具体而言,一个倒排索引由问题库中所有不重复的词构成,其中每个词都有一个包含该词的问题列表。每添加一个问题,倒排索引都会更新,以反应当前最新的词到问题列表的映射关系,过程大致如下:首先,使用IK Analyzer中文分词器将问题按细粒度模式切分为各种可能的词,比如“我是中国人”在细粒度模式下切分为“我”、“是”、“中国人”、“中国”和“国人”等词;接着,遍历每个词,若倒排索引中已存在该词,则将当前问题追加到该词的问题列表,若倒排索引中不存在该词,则先在倒排索引中添加该词,再将当前问题添加到该词的问题列表。然后,更新搜索时所需的一些参数,包括问题库全部问题数N、词t的问题列表长度n(t)、词t的逆文档频率IDF(t)、新问题的长度dl和问题库所有问题的平均长度avgdl。其中,IDF(t)的计算方法如下:
在本实施例步骤S130中,搜索引擎采用BM25算法计算用户查询和问题库中问题的相关性得分。以此为基础,选出得分最高的N个问题输入到重排序模型。具体过程如下:首先,使用IK Analyzer中文分词器将用户查询按智能模式进行切分,与倒排索引类似,也得到一组词,比如“我是中国人”在智能模式下切分为“我”、“是”和“中国人”等词;接着,依据用户查询分词结果,从倒排索引中取出相同的词及其问题列表。然后,采用BM25算法计算用户查询q和问题d的相关性得分Score(q,d),公式如下:
上式中,用户查询q被切分为{q1,...,qm}共m个词。对于用户查询中第i个词qi,从倒排索引相关参数中取出该词的逆文档频率IDF(qi),并统计该词在问题d中出现的次数,记为fi。将IDF(qi)和fi代入上式,并联合问题d的长度dl和问题库所有问题的平均长度avgdl,计算出词qi上的相关性得分。相加这些词上的相关性得分,最终得到用户查询q和问题d的相关性得分Score(q,d)。特别地,上式中k1和b为调节因子,通常设置为1.2和0.75。最后,按相关性得分由高到低排列上述过程中涉及的问题,选取前N个问题作为用户查询最相似的N个问题。
在本实施例步骤S140中,重排序模型以BERT预训练模型为基础,在[CLS]的隐态向量之上添加一层全连接网络,输出用户查询和某个问题的相似度,再根据相似度对这N个问题进行降序排列,最终选择排名第一的问题作为模型输出,如图2所示。重排序被设计成二分类任务,将问题库中任意两个问题构造为相似或不相似样本进行模型训练。具体而言,用户查询q和问题d分别被切分为个N字和M个字,拼接这两个句子,并在前、中、后位置添加[CLS]和[SEP],得到BERT的输入序列:
{[CLS],Tok1,...,TokN,[SEP],Tok1,...,TokM,[SEP]}
BERT内部,首先将每个字w转换为向量表示Ew,包括词嵌入、段嵌入和位置嵌入三部分,这三部分相加即为字的向量表示。然后,经过12层双向编码网络,每个字被编码为dh=768维的隐态向量Tw。特别地,[CLS]的隐态向量记为C。在C的基础上,本实施例添加一层全连接网络,将C转换为一个2维向量o,即
o=WTC+b
特别地,p1+p2=1。本实施例将p2作为用户查询q和问题d的相似度,参与最终的排序操作。
在本实施例步骤S140中,重排序模型为各业务场景共享,通过从所有问题库中抽取出两两相似或不相似的二分类样本进行模型训练,使之具备多业务场景的适用性。具体而言,对于某一问题d,将与d具有相同QID的问题作为d的相似问题,而不相似问题的选取方法相对较多,常用的有随机选择K个不同QID的问题。但随机选择无法保证样本质量,对那些极易区分的两个问题,预训练模型本身已可很好地辨别,无需再行训练。为了增加任务难度,让预训练模型得到有效训练,本实施例使用步骤S130搜索引擎构造负样本。具体方法为利用搜索引擎检索问题库中与d字词高度相似的问题,从中选出QID与d不相同但排名靠前的K个问题作为d的不相似问题。
在本实施例中,若步骤S130初筛结果中排名第一的问题与用户查询完全一致,跳过后续重排序流程,直接返回该问题的QID给服务机器人。
在本实施例中,若步骤S140重排序模型输出的N个问题与用户查询的相似度都低于0.5,认为用户查询超出问题库范围,直接让服务机器人告知用户答案不存在。
在本实施例中,问题和QID的映射关系在问题库添加新问题时指定,如图3所示,包括以下步骤:
S210:管理人员在问题库管理页面输入新问题,触发初筛和重排序流程,得到一组与新问题相似且QID各不相同的问题和QID列表,列表按问题相似度由高到低排列;
S220:管理人员从返回的列表中勾选出与新问题最相似的一个问题,将其QID与新问题关联在一起;
S230:若管理人员认为返回的列表中没有与新问题相似的问题,则为新问题赋予一个新的QID,并将两者关联在一起;
S240:将新问题及其关联的QID一起添加到问题库中;
S250:问题库依据新问题更新索引,且当新问题累积到50-100个时,触发重排序模型的再次训练。
在本实施例步骤S210中,添加新问题时的初筛和重排序过程与步骤S130和S140有所区别,具体表现在初筛结果中各问题的QID互不相同,重排序输出各问题对的相似度,而不只是排名第一的问题。
本发明的保护内容不局限于以上实施例。在不背离本发明构思的精神和范围下,本领域技术人员能够想到的变化和优点都被包括在本发明中,并且以所附的权利要求书为保护范围。
Claims (6)
1.一种面向多业务场景的服务机器人问题匹配方法,其特征在于,包括以下步骤:
S110:服务机器人获取用户查询,将其与业务场景编号一起输入问题匹配系统;
S120:所述问题匹配系统根据业务场景编号找到对应的问题库及索引;
S130:借助搜索引擎初筛上述业务场景对应的问题库,得到最相似的N个问题;所述搜索引擎采用BM25算法计算用户查询和问题库中问题的相关性得分;以所述相关性得分为基础,选出得分最高的N个问题输入到步骤S140重排序模型;
使用分词器将用户查询按智能模式进行切分,与倒排索引类似,也得到一组词;接着,依据用户查询分词结果,从倒排索引中取出相同的词及其问题列表;然后,采用BM25算法计算用户查询q和问题d的相关性得分Score(q,d),公式如下:
上式中,用户查询q被切分为{q1,...,qm}共m个词;对于用户查询中第i个词qi,从倒排索引相关参数中取出该词的逆文档频率IDF(qi),并统计该词在问题d中出现的次数,记为fi;将IDF(qi)和fi代入上式,并联合问题d的长度dl和问题库所有问题的平均长度avgdl,计算出词qi上的相关性得分;相加这些词上的相关性得分,最终得到用户查询q和问题d的相关性得分Score(q,d);上式中k1和b为调节因子;最后,按相关性得分由高到低排列上述过程中涉及的问题,选取前N个问题作为用户查询最相似的N个问题;
S140:利用所有业务场景共享的重排序模型,对所述N个问题进行重排序,输出排名第一的问题的QID给服务机器人;步骤S140中,所述问题和QID的映射关系在问题库添加新问题时指定,包括以下步骤:
S210:管理人员在问题库管理页面输入新问题,触发初筛和重排序流程,得到一组与新问题相似且QID各不相同的问题和QID列表,所述问题和QID列表按问题相似度由高到低排列;添加新问题时的初筛和重排序过程与步骤中,在初筛结果中各问题的QID互不相同,重排序输出各问题对的相似度;
S220:管理人员从返回的问题和QID列表中勾选出与新问题最相似的一个问题,将其QID与新问题关联在一起;
S230:若管理人员认为返回的问题和QID列表中没有与新问题相似的问题,则为新问题赋予一个新的QID,并将两者关联在一起;
S240:将新问题及其关联的QID一起添加到问题库中;
S250:问题库依据新问题更新索引,当新问题积累到一定数量,设置范围为50-100或人为主动点击按钮操作方式触发重排序模型的再次训练;
S150:服务机器人根据所述QID从答案库中找出合适的答案返回给用户。
2.根据权利要求1所述的方法,其特征在于,步骤S120中,所述问题库采用倒排索引的方式建立词到问题列表的映射关系,用于步骤S130快速地筛选相似问题。
3.根据权利要求2所述的方法,其特征在于,所述倒排索引由问题库中所有不重复的词构成,其中每个词都有一个包含该词的问题列表;每添加一个问题,倒排索引都会更新,以反应当前最新的词到问题列表的映射关系,过程如下:首先,使用分词器将问题按细粒度模式切分为各种可能的词;接着,遍历每个词,若倒排索引中己存在该词,则将当前问题追加到该词的问题列表,若倒排索引中不存在该词,则先在倒排索引中添加该词,再将当前问题添加到该词的问题列表;然后,更新搜索时所需的参数,包括问题库全部问题数N、词t的问题列表长度n(t)、词t的逆文档频率IDF(t)、新问题的长度dl和问题库所有问题的平均长度avgdl;其中,IDF(t)的计算方法如下:
4.根据权利要求1所述的方法,其特征在于,步骤S140中,所述重排序模型以BERT预训练模型为基础,在[CLS]的隐态向量之上添加一层全连接网络,输出用户查询和某个问题的相似度;重排序模型为各业务场景共享,通过从所有问题库中抽取出两两相似或不相似的二分类样本进行模型训练,使之具备多业务场景的适用性。
5.根据权利要求1所述的方法,其特征在于,步骤S140中,所述重排序训练样本的类别根据QID确定;若两个问题QID相同,则为相似样本;若两个问题QID不同,则为不相似样本。
6.根据权利要求1所述的方法,其特征在于,再次利用步骤S130所述搜索引擎,检索每个问题与之最相似但QID不同的K个问题,以此构造不相似样本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011319407.2A CN112506963B (zh) | 2020-11-23 | 2020-11-23 | 一种面向多业务场景的服务机器人问题匹配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011319407.2A CN112506963B (zh) | 2020-11-23 | 2020-11-23 | 一种面向多业务场景的服务机器人问题匹配方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112506963A CN112506963A (zh) | 2021-03-16 |
CN112506963B true CN112506963B (zh) | 2022-09-09 |
Family
ID=74959395
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011319407.2A Active CN112506963B (zh) | 2020-11-23 | 2020-11-23 | 一种面向多业务场景的服务机器人问题匹配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112506963B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107247726A (zh) * | 2017-04-28 | 2017-10-13 | 北京神州泰岳软件股份有限公司 | 适用于多业务场景的智能机器人的实现方法及装置 |
CN107357855A (zh) * | 2017-06-29 | 2017-11-17 | 北京神州泰岳软件股份有限公司 | 支持场景关联的智能问答方法及装置 |
CN108121824A (zh) * | 2018-01-12 | 2018-06-05 | 北京融快线科技有限公司 | 一种面向金融服务的聊天机器人及系统 |
CN108776689A (zh) * | 2018-06-05 | 2018-11-09 | 北京玄科技有限公司 | 一种应用于智能机器人交互的知识推荐方法及装置 |
CN109918652A (zh) * | 2019-02-20 | 2019-06-21 | 上海方立数码科技有限公司 | 一种语句相似度判断方法及判断系统 |
CN109918489A (zh) * | 2019-02-28 | 2019-06-21 | 上海乐言信息科技有限公司 | 一种多策略融合的知识问答方法和系统 |
CN110516055A (zh) * | 2019-08-16 | 2019-11-29 | 西北工业大学 | 一种结合bert的用于教学任务的跨平台智能问答实现方法 |
CN110929526A (zh) * | 2019-10-28 | 2020-03-27 | 深圳绿米联创科技有限公司 | 样本生成方法、装置以及电子设备 |
CN111125334A (zh) * | 2019-12-20 | 2020-05-08 | 神思电子技术股份有限公司 | 一种基于预训练的搜索问答系统 |
CN111400470A (zh) * | 2020-03-13 | 2020-07-10 | 深圳市腾讯计算机系统有限公司 | 问题处理方法、装置、计算机设备和存储介质 |
CN111581354A (zh) * | 2020-05-12 | 2020-08-25 | 金蝶软件(中国)有限公司 | 一种faq问句相似度计算方法及其系统 |
-
2020
- 2020-11-23 CN CN202011319407.2A patent/CN112506963B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107247726A (zh) * | 2017-04-28 | 2017-10-13 | 北京神州泰岳软件股份有限公司 | 适用于多业务场景的智能机器人的实现方法及装置 |
CN107357855A (zh) * | 2017-06-29 | 2017-11-17 | 北京神州泰岳软件股份有限公司 | 支持场景关联的智能问答方法及装置 |
CN108121824A (zh) * | 2018-01-12 | 2018-06-05 | 北京融快线科技有限公司 | 一种面向金融服务的聊天机器人及系统 |
CN108776689A (zh) * | 2018-06-05 | 2018-11-09 | 北京玄科技有限公司 | 一种应用于智能机器人交互的知识推荐方法及装置 |
CN109918652A (zh) * | 2019-02-20 | 2019-06-21 | 上海方立数码科技有限公司 | 一种语句相似度判断方法及判断系统 |
CN109918489A (zh) * | 2019-02-28 | 2019-06-21 | 上海乐言信息科技有限公司 | 一种多策略融合的知识问答方法和系统 |
CN110516055A (zh) * | 2019-08-16 | 2019-11-29 | 西北工业大学 | 一种结合bert的用于教学任务的跨平台智能问答实现方法 |
CN110929526A (zh) * | 2019-10-28 | 2020-03-27 | 深圳绿米联创科技有限公司 | 样本生成方法、装置以及电子设备 |
CN111125334A (zh) * | 2019-12-20 | 2020-05-08 | 神思电子技术股份有限公司 | 一种基于预训练的搜索问答系统 |
CN111400470A (zh) * | 2020-03-13 | 2020-07-10 | 深圳市腾讯计算机系统有限公司 | 问题处理方法、装置、计算机设备和存储介质 |
CN111581354A (zh) * | 2020-05-12 | 2020-08-25 | 金蝶软件(中国)有限公司 | 一种faq问句相似度计算方法及其系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112506963A (zh) | 2021-03-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109299342B (zh) | 一种基于循环生成式对抗网络的跨模态检索方法 | |
WO2021169263A1 (zh) | 基于内部对抗机制的语义匹配方法、装置及存储介质 | |
CN110322446A (zh) | 一种基于相似性空间对齐的域自适应语义分割方法 | |
CN109271537B (zh) | 一种基于蒸馏学习的文本到图像生成方法和系统 | |
CN108038492A (zh) | 一种基于深度学习的感性词向量及情感分类方法 | |
CN111737426B (zh) | 问答模型的训练方法、计算机设备以及可读存储介质 | |
CN116756574B (zh) | 多模态预训练模型的训练方法、使用方法、装置和设备 | |
CN103778227A (zh) | 从检索图像中筛选有用图像的方法 | |
CN110222709A (zh) | 一种多标签智能打标方法及系统 | |
CN110795542A (zh) | 对话方法及相关装置、设备 | |
CN112287170A (zh) | 一种基于多模态联合学习的短视频分类方法及装置 | |
CN116401380B (zh) | 面向异构知识图谱的对比学习预测方法及系统 | |
CN113886615A (zh) | 一种基于多粒度联想学习的手绘图像实时检索方法 | |
CN114329181A (zh) | 一种题目推荐方法、装置及电子设备 | |
CN114444605B (zh) | 一种基于双重不平衡场景下的无监督域适应方法 | |
CN113934835B (zh) | 结合关键词和语义理解表征的检索式回复对话方法及系统 | |
CN116109960A (zh) | 基于预训练模型的视频文本检索方法 | |
CN112463894B (zh) | 一种基于条件互信息和交互信息的多标签特征选择方法 | |
CN112506963B (zh) | 一种面向多业务场景的服务机器人问题匹配方法 | |
Brummerloh et al. | Boromir at Touché 2022: Combining Natural Language Processing and Machine Learning Techniques for Image Retrieval for Arguments. | |
CN116976283A (zh) | 语言处理方法、训练方法、装置、设备、介质及程序产品 | |
CN116578729A (zh) | 内容搜索方法、装置、电子设备、存储介质和程序产品 | |
CN114637855A (zh) | 基于知识图谱的搜索方法、装置、计算机设备及存储介质 | |
Sun et al. | A hybrid approach to news recommendation based on knowledge graph and long short-term user preferences | |
CN117076598A (zh) | 基于自适应权重的语义检索模型融合方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |