CN110532348A - 问答对数据的生成方法、装置及电子设备 - Google Patents
问答对数据的生成方法、装置及电子设备 Download PDFInfo
- Publication number
- CN110532348A CN110532348A CN201910834465.XA CN201910834465A CN110532348A CN 110532348 A CN110532348 A CN 110532348A CN 201910834465 A CN201910834465 A CN 201910834465A CN 110532348 A CN110532348 A CN 110532348A
- Authority
- CN
- China
- Prior art keywords
- answer
- question
- text
- data
- described problem
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/319—Inverted lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种问答对数据的生成方法、装置及电子设备,涉及人工智能的技术领域,该方法包括:获取问答对语料库和指定的交互文本数据;构建问答对语料库对应的第一文本搜索引擎和交互文本数据对应的第二文本搜索引擎;从交互文本数据中抽取问题文本,利用第一文本搜索引擎和第二文本搜索引擎搜索问题文本的候选答案,生成问答对候选集;应用筛选模型对问答对候选集进行筛选,得到问答对数据组,并保存为问答对数据。本发明提供的问答对数据的生成方法、装置及电子设备,能够将交互文本数据进行合理利用,丰富现有的问答对数据,以提高交互文本数据的利用率,同时,通过筛选模型筛选的方式也可以得到较高质量的问答对数据。
Description
技术领域
本发明涉及数据处理领域,尤其是涉及一种问答对数据的生成方法、装置及电子设备。
背景技术
聊天机器人是应用自然语言处理(Natural Language Process,NLP)技术的一个重要领域,聊天机器人的交互过程多依赖相应的聊天语料来进行,其回复的语句均来自于语料库中的回答,且回复的质量也依赖于语料库的质量。
目前,聊天机器人的语料库的主要来源是网络的聊天数据,再经过数据清洗和过滤,进而获得相应的语料,但是这些聊天数据往往不是直接的对话形式,其问题和回复的逻辑相关性不够明确,因此,难以形成合适的语料,降低了聊天数据的利用率。
发明内容
有鉴于此,本发明的目的在于提供一种问答对数据的生成方法、装置及电子设备,以缓解聊天数据的逻辑相关性不够明确的问题,提高聊天数据的利用率。
第一方面,本发明实施例提供了一种问答对数据的生成方法,包括:获取问答对语料库和指定的交互文本数据;构建问答对语料库对应的第一文本搜索引擎和交互文本数据对应的第二文本搜索引擎;从交互文本数据中抽取问题文本;对于每个问题文本,均利用第一文本搜索引擎和第二文本搜索引擎,分别在问答对语料库和交互文本数据中搜索问题文本的候选答案,以生成问答对候选集;其中,问答对候选集包括多个问答对数据组,每个问答对数据组包括一个问题文本和该问题文本对应的至少一个候选答案;对于问答对候选集中的每个问答对数据组,均应用预先训练好的筛选模型筛选问答对数据组,将筛选后得到的问答对数据组保存为问答对数据。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,上述利用第一文本搜索引擎和第二文本搜索引擎基于问答对语料库和交互文本数据搜索问题文本的候选答案的步骤包括:利用第一文本搜索引擎在问答对语料库中搜索问题文本的相似问题;获取问答对语料库中相似问题对应的答案,生成第一答案集合;将第一答案集合中的每个答案输入至第二文本搜索引擎,以在交互文本数据中搜索答案的相似答案,生成第二答案集合;将第二答案集合中包括的相似答案确定为问题文本的候选答案。
结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方式,其中,上述筛选模型包括:问题-答案判别模型和/或问题-答案匹配模型;应用预先训练好的筛选模型筛选问答对数据组的步骤包括:应用预先训练好的问题-答案判别模型和/或问题-答案匹配模型对问答对数据组进行筛选;其中,问题-答案判别模型为基于概率预测的模型,问题-答案匹配模型为基于匹配机制的模型。
结合第一方面的第二种可能的实施方式,本发明实施例提供了第一方面的第三种可能的实施方式,其中,上述应用预先训练好的问题-答案判别模型对问答对数据组进行筛选的步骤包括:将问答对数据组输入至问题-答案判别模型,通过问题-答案判别模型对问答对数据组的问题文本和该问题文本对应的至少一个候选答案进行概率预测;如果问题文本的概率高于预先设置的第一概率阈值,且,问题文本对应的至少一个候选答案的概率低于预先设置的第二概率阈值,输出问题文本和问题文本对应的候选答案;其中,第一概率阈值高于第二概率阈值。
结合第一方面的第二种可能的实施方式,本发明实施例提供了第一方面的第四种可能的实施方式,其中,上述应用预先训练好的问题-答案匹配模型对问答对数据组中的候选答案进行筛选的步骤包括:将问答对数据组中的问题文本与每个候选答案逐一输入至问题-答案匹配模型,计算问题文本和候选答案的匹配度,并将匹配度高于预设的匹配度阈值的问题文本和候选答案,作为筛选后的问答对数据组输出。
结合第一方面的第二种可能的实施方式,本发明实施例提供了第一方面的第五种可能的实施方式,其中,上述应用预先训练好的问题-答案判别模型和问题-答案匹配模型对问答对数据组中的候选答案进行筛选的步骤包括:将问答对数据组输入至问题-答案判别模型,通过问题-答案判别模型对问答对数据组中的问题文本和问题文本对应的至少一个候选答案进行概率预测;如果问题文本的概率高于预先设置的第一概率阈值,且,问题文本对应的至少一个候选答案的概率低于预先设置的第二概率阈值,输出问题文本和问题文本对应的候选答案;其中,第一概率阈值高于第二概率阈值;将问题-答案判别模型输出的问题文本和问题文本对应的候选答案输入至问题-答案匹配模型,以对问题文本和问题文本对应的候选答案进行匹配;如果问题文本和问题文本对应的候选答案的匹配度高于预先设置的匹配度阈值,输出问题文本和问题文本对应的候选答案。
结合第一方面的第三或第五种可能的实施方式,本发明实施例提供了第一方面的第六种可能的实施方式,其中,上述方法还包括:如果问题文本的概率低于第一概率阈值,或者,问题文本对应的候选答案的概率高于第二概率阈值,则丢弃问题文本和候选答案。
结合第一方面的第四或第五种可能的实施方式,本发明实施例提供了第一方面的第七种可能的实施方式,其中,上述方法还包括:如果问题文本和问题文本对应的候选答案的匹配度低于匹配度阈值,则丢弃问题文本和候选答案。
结合第一方面的第二种可能的实施方式,本发明实施例提供了第一方面的第八种可能的实施方式,其中,上述问题-答案判别模型的训练过程包括:根据问答对语料库构建正样本集和负样本集,其中,正样本集包括问答对语料库中的多个问题文本,负样本集中包括问答对语料库中与多个问题文本对应的答案文本;且,正样本集和负样本集中的每个文本均携带有文本标签;将正样本集和负样本集输入至神经网络模型,对神经网络模型进行训练,以生成问题-答案判别模型;其中,问题-答案判别模型为判别文本为问题文本的概率和判别文本为答案文本的概率的神经网络模型。
结合第一方面的第二种可能的实施方式,本发明实施例提供了第一方面的第九种可能的实施方式,其中,上述问题-答案匹配模型的训练过程包括:根据问答对语料库构建问答对样本集和随机问答样本集,其中,问答对样本集包含问答对语料库中的多个问题文本和与多个问题文本对应的答案文本;随机问答样本集包含问答对语料库中的多个问题文本和对每个问题文本随机选取的答案文本;且,问答对样本集和随机问答样本集中的每个文本均携带有文本标签;将问答对样本集和随机问答样本集输入至神经网络模型,对神经网络模型进行训练,以生成问题-答案匹配模型;其中,问题-答案匹配模型为判别问题文本与对应的候选答案的匹配度的神经网络模型。
结合第一方面,本发明实施例提供了第一方面的第十种可能的实施方式,其中,上述构建问答对语料库对应的第一文本搜索引擎和交互文本数据对应的第二文本搜索引擎的步骤包括:分别对问答对语料库和交互文本数据建立倒排索引;根据问答对语料库的倒排索引构建问答对语料库对应的第一文本搜索引擎,以及,根据交互文本数据的倒排索引构建交互文本数据对应的第二文本搜索引擎。
结合第一方面,本发明实施例提供了第一方面的第十一种可能的实施方式,其中,上述从交互文本数据中抽取问题文本的步骤包括:遍历交互文本数据中的每个交互文本;对于每个被遍历的交互文本,如果第一文本搜索引擎和第二文本搜索引擎基于问答对语料库和交互文本数据搜索到该交互文本的候选答案,保留该交互文本为问题文本。
结合第一方面,本发明实施例提供了第一方面的第十二种可能的实施方式,其中,上述方法还包括:将生成的每个问答对数据添加至问答对语料库。
结合第一方面的第十二种可能的实施方式,本发明实施例提供了第一方面的第十三种可能的实施方式,其中,上述方法还包括:将添加问答对数据后的问答对语料库同步存储于机器人中,以使机器人应用问答对语料库进行人机交互。
第二方面,本发明实施例还提供一种问答对数据的生成装置,包括:获取模块,用于获取问答对语料库和指定的交互文本数据;构建模块,用于构建问答对语料库对应的第一文本搜索引擎和交互文本数据对应的第二文本搜索引擎;抽取模块,用于从交互文本数据中抽取问题文本;搜索模块,用于对于每个问题文本,利用第一文本搜索引擎和第二文本搜索引擎基于问答对语料库和交互文本数据搜索问题文本的候选答案,以生成问答对候选集;其中,问答对候选集包括多个问答对数据组,每个问答对数据组包括一个问题文本和该问题文本对应的至少一个候选答案;筛选模块,用于对于问答对候选集中的每个问答对数据组,均应用预先训练好的筛选模型筛选问答对数据组,将筛选后得到的问答对数据组保存为问答对数据。
第三方面,本发明实施例还提供一种电子设备,包括处理器和存储器,存储器存储有能够被处理器执行的计算机可执行指令,处理器执行计算机可执行指令以实现第一方面所述的方法。
第四方面,本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机可执行指令,计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现第一方面所述的方法。
本发明实施例带来了以下有益效果:
本发明实施例提供的一种问答对数据的生成方法、装置及电子设备,在获取到问答对语料库和指定的交互文本数据之后,能够构建问答对语料库对应的第一文本搜索引擎和交互文本数据对应的第二文本搜索引擎,并从交互文本数据中抽取问题文本,利用第一文本搜索引擎和第二文本搜索引擎基于问答对语料库和交互文本数据搜索该问题文本的候选答案,以生成包括多个问答对数据组的问答对候选集,对于问答对候选集中的每个问答对数据组,均可以应用预先训练好的筛选模型进行筛选,以筛除逻辑相关性不够明确的数据,并将筛选后得到的问答对数据组保存为问答对数据,不仅能够将交互文本数据进行合理利用,丰富现有的问答对数据,也有效地提高了交互文本数据的利用率,同时,通过筛选模型筛选的方式也可以得到较高质量的问答对数据。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种问答对数据的生成方法的流程图;
图2为本发明实施例提供的另一种问答对数据的生成方法的流程图;
图3为本发明实施例提供的另一种问答对数据的生成方法的流程图;
图4为本发明实施例提供的一种问答对数据生成过程的整体框架图;
图5为本发明实施例提供的一种问答对数据的生成装置的结构示意图;
图6为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
通常,聊天机器人,如,智能客服、闲聊型机器人等产生回复的方式主要有检索式和生成式两种。检索式聊天使用的是收集好的问答对作为检索语料库,机器人的回复均来自语料库中的回答;生成式聊天使用的是收集好的问答对作为训练数据,训练生成式模型,将用户聊天作为模型的输入,模型的输出即为聊天机器人的回复。这两种回复方式都需要使用一定数量的问答对数据,而且回复的质量也通常依赖于问答对数据的质量,如数据量多少,或者逻辑相关性是否明确等等。
而目前的问答对数据,多使用网络上的聊天数据的作为原始语料,例如社交或新闻数据等,再对聊天数据进行数据清洗和数据过滤等处理,以获得较高质量的对话数据,但是,网络上的聊天数据其问题和回复的逻辑相关性往往是不够明确的,导致问题和回复难以组成一个合适的问答对数据,因此,目前也有采用人工创作问答对数据的方式,但是,人工创作的过程成本较高,在实际应用中,很难创作出大规模的对话语料。
基于此,本发明实施例提供的一种问答对数据的生成方法、装置及电子设备,可以有效缓解上述技术问题。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种问答对数据的生成方法进行详细介绍。
图1示出的是一种问答对数据的生成方法的流程图,如图1所示,包括以下步骤:
步骤S102,获取问答对语料库和指定的交互文本数据;
其中,指定的交互文本数据,通常包含有大量非成对文本的数据,例如,社交或新闻网站上的数据、聊天回复、短句等等,因此,上述交互文本数据通常是大量的非成对文本数据。
进一步,上述问答对语料库,通常包括有大量的问答对语料,与交互文本数据不同的是,问答对语料通常是具有较好逻辑相关性的问题和答案。
步骤S104,构建问答对语料库对应的第一文本搜索引擎和交互文本数据对应的第二文本搜索引擎;
步骤S106,从交互文本数据中抽取问题文本;
步骤S108,对于每个问题文本,利用第一文本搜索引擎和第二文本搜索引擎基于问答对语料库和交互文本数据搜索问题文本的候选答案,以生成问答对候选集;
其中,问答对候选集包括多个问答对数据组,每个问答对数据组包括一个问题文本和该问题文本对应的至少一个候选答案;
在实际使用时,由于上述问答对语料库中的问答对语料,以及交互功能的网址内的交互文本数据的数据量均较大,因此,对于每一个问题文本,第一文本搜索引擎和第二文本搜索引擎所搜索到的文本往往并不是唯一的。因此,生成的问答对候选集中,一个问题文本通常会对应至少一个候选答案,即,相当于每一个问题文本都有一个候选答案集,一个问题文本和该问题文本对应的候选答案集则构成一个问答对数据组。
但是,由于交互文本数据是从网络上搜集的包含有大量非成对文本的数据,因此,对于所抽取的问题文本,以及第一文本搜索引擎和第二文本搜索引擎搜索得到的候选答案,往往会出现不符合问答对语句要求的情况,即,出现低质量的问答对,因此,还需对每个问答对数据组按照下述步骤S110进行筛选,以获取高质量的问答对数据。
步骤S110,对于问答对候选集中的每个问答对数据组,均应用预先训练好的筛选模型筛选问答对数据组,将筛选后得到的问答对数据组保存为问答对数据。
在实际使用时,上述第一文本搜索引擎和第二文本搜索引擎在进行搜索时,通常是基于相关度进行搜索的,即,搜索相关度最高的文本作为候选答案。具体地,第一文本搜索引擎和第二文本搜索引擎通常是基于开源搜索引擎框架Lucene基础上构建的,可以使用相应的匹配算法搜索与问题文本相近的句子,如BM25匹配算法,本质上是根据query(查询词,如,本实施例中的问题文本)的字和词在所有语料中出现的次数以及重要程度来进行检索,衡量的是query与语料库中句子在字、词等文本特征上的相关度,将相关度最高的语料或者文本作为相应的搜索结果,以构成候选问答对,从而将包含有大量非成对文本的交互文本数据利用起来。
本发明实施例提供的一种问答对数据的生成方法,在获取到问答对语料库和指定交互文本数据之后,能够构建问答对语料库对应的第一文本搜索引擎和交互文本数据对应的第二文本搜索引擎,并从交互文本数据中抽取问题文本,利用第一文本搜索引擎和第二文本搜索引擎基于问答对语料库和交互文本数据搜索该问题文本的候选答案,以生成包括多个问答对数据组的问答对候选集,对于问答对候选集中的每个问答对数据组,均可以应用预先训练好的筛选模型进行筛选,以筛除逻辑相关性不够明确的数据,并将筛选后得到的问答对数据组保存为问答对数据,不仅能够将交互文本数据进行合理利用,丰富现有的问答对数据,也有效地提高了交互文本数据的利用率,同时,通过筛选模型筛选的方式也可以得到较高质量的问答对数据。
在实际使用时,第一文本搜索引擎和第二文本搜索引擎基于问答对语料库和交互文本数据搜索问题文本的候选答案时,是依次使用的,具体地,搜索过程通常包括以下步骤:
(1)利用第一文本搜索引擎在问答对语料库中搜索问题文本的相似问题;
(2)获取上述问答对语料库中相似问题对应的答案,生成第一答案集合;
(3)将第一答案集合中的每个答案输入至第二文本搜索引擎,以在交互文本数据中搜索答案的相似答案,生成第二答案集合;
其中,上述过程,是依次使用第一文本搜索引擎和第二文本搜索引擎进行搜索的,具体地,先利用第一文本搜索引擎搜索问题文本的相似问题,从而通过(2)获取到这些相似问题对应的答案;对每个获取到的答案,输入到第二文本搜索引擎中,通过(3)获取到原答案的相似答案,然后在将问题文本与(3)获取到的相似答案作为问答对候选集。
(4)将第二答案集合中包括的相似答案确定为问题文本的候选答案。
具体地,上述第一答案集合包含的是问答对语料库中的多个答案文本,第二答案集合中包含的是交互文本数据中搜索到的与问答对语料库中的答案文本相似的文本,进而能够将交互文本数据中包括的大量非成对文本数据利用起来,提高了交互文本数据的利用率。
具体实现时,上述第一文本搜索引擎和第二文本搜索引擎的搜索过程,通常是基于相关度进行搜索的,具体的搜索算法可以参照相关技术手段,本发明实施例对此不进行限制。
在实际使用时,上述筛选模型通常包括:问题-答案判别模型和/或问题-答案匹配模型。
其中,问题-答案判别模型是判断一个文本属于“问题”还是“答案”的模型,将该问题-答案判别模型应用在问答对数据组上,可以筛选出“问题”或者“答案”分别高于一定置信度的问答对。
进一步,问题-答案匹配模型是对问答对数据组中包含的问题和答案进行匹配,以判断问题和答案间的匹配度,同样可以得到高置信度的问答对,同时,也可以使问答对具有较好的逻辑相关性。
因此,上述步骤S110中,应用预先训练好的筛选模型筛选问答对数据组的步骤包括:应用预先训练好的问题-答案判别模型和/或问题-答案匹配模型对问答对数据组进行筛选;其中,问题-答案判别模型为基于概率预测的模型,问题-答案匹配模型为基于匹配机制的模型。
具体地,可以单独使用问题-答案判别模型,或者,问题-答案匹配模型对问答对数据组进行筛选,也可以同时使用问题-答案判别模型和问题-答案匹配模型对问答对数据组进行筛选。具体可以根据实际使用情况进行设置,本发明实施例对此不进行限制。
其中,对于单独使用问题-答案判别模型的情形,对数据组进行筛选的步骤包括:
(1)将问答对数据组输入至问题-答案判别模型,通过问题-答案判别模型对问答对数据组的问题文本和该问题文本对应的至少一个候选答案进行概率预测;
(2)如果问题文本的概率高于预先设置的第一概率阈值,且,问题文本对应的至少一个候选答案的概率低于预先设置的第二概率阈值,输出问题文本和问题文本对应的候选答案;其中,第一概率阈值高于第二概率阈值。
在实际使用时,由于上述问题文本是从交互文本数据中抽取的,且,交互文本数据量较大,因此,往往会出现将不是“问题”的文本抽取为问题文本的情况,进一步,对于上述第一文本搜索引擎和所述第二文本搜索引擎的搜索过程,由于数据量较大,也会出现搜索到的文本不是“答案”的情形。而上述概率预测的过程,相当于是对问题文本和候选答案进行打分的过程,以判断问题文本属于“问题”的概率和候选答案属于“答案”的概率,以筛选出“问题”和“答案”分别高于一定置信度的问答对。
具体地,对于问题-答案判别模型,通常会将概率区间设置为[0,1],在进行概率预测时,概率越接近1,则认为该文本越属于“问题”,概率越接近0,则认为该文本越属于“答案”。在实际使用时,通常将第一概率阈值设置为0.9,第二概率阈值设置为0.1,对于一个问答对数据组的问题文本和候选答案,该问题-答案判别模型对问题文本的概率预测为大于0.9,且,对候选答案的概率预测为小于0.1,同时满足这两个条件时,该问答对数据组才会被筛选出来。
进一步,对于一个问答对数据组,如果问题文本的概率预测大于0.9,其对应的至少一个候选答案中,有概率预测小于0.1,也有概率预测大于0.1时,则会删除概率预测大于0.1的候选答案,输出问题文本和概率预测小于0.1的候选答案。如果问题文本的概率预测小于0.9,则可以直接删除该问答对数据组,以构建高质量的问答对数据。
对于单独使用问题-答案匹配模型的情形,对数据组进行筛选的步骤包括:
将问答对数据组中的问题文本与每个候选答案逐一输入至问题-答案匹配模型,计算问题文本和候选答案的匹配度,并将匹配度高于预设的匹配度阈值的问题文本和候选答案,作为筛选后的问答对数据组输出。
在实际使用时,上述匹配度的区间也可以设置为[0,1],为了筛选出高质量的问答对数据,上述匹配度阈值通常设置成0.9,匹配度高于该匹配度阈值的问题文本和候选答案则可以输出,匹配度低于该匹配度阈值的问题文本和候选答案则丢弃。
具体地,一个问答对数据组中,如果问题文本对应一个候选答案,则直接计算该问题文本与候选答案的匹配度,如果该问题文本对应多个候选答案,则,将该问题文本和每一个候选答案分别计算匹配度,以筛选出匹配度高于匹配度阈值的问答对数据。
在实际使用时,为了便于筛选出高质量的问答对数据,上述问题-答案判别模型和问题-答案匹配模型,通常都是同时使用的。对于同时使用问题-答案判别模型和问题-答案匹配模型的情形,通常是先使用问题-答案判别模型对问答对候选集中的每个问答对数据组继续筛选,过滤掉不合适的“问题”和“答案”,然后在将筛选出的问答对数据组输入至问题-答案匹配模型进行匹配度的筛选,得到更高质量的问答对数据。
具体地,在图1的基础上,图2示出了另一种问答对数据的生成方法的流程图,对同时使用预先训练好的问题-答案判别模型和问题-答案匹配模型对问答对数据组中的候选答案进行筛选的过程进行说明,其中,图2所示的流程图中,步骤S202~步骤S208的过程,可以参考图1中步骤S102~步骤S108的过程,在此不再赘述。
步骤S210,对于问答对候选集中的每个问答对数据组,将问答对数据组输入至问题-答案判别模型,通过问题-答案判别模型对问答对数据组中的问题文本和问题文本对应的至少一个候选答案进行概率预测;
具体地,该预测过程与单独使用问题-答案判别模型的方式类似,即,通过问题-答案判别模型来预测问题文本属于“问题”的概率和候选答案属于“答案”的概率,当预测出相应的概率后,在按照下述步骤S212和步骤S214的过程机选判断是否满足相应的概率阈值。
步骤S212,判断问题文本的概率是否高于预先设置的第一概率阈值;
如果是,执行步骤S214;如果否,执行步骤S224,丢弃问题文本和候选答案。
步骤S214,判断问题文本对应的至少一个候选答案的概率是否低于预先设置的第二概率阈值;
如果是,执行步骤S216;如果否,执行步骤S224,丢弃问题文本和候选答案。
具体地,由上述判断过程可知,如果问题文本的概率高于预先设置的第一概率阈值,且,问题文本对应的至少一个候选答案的概率低于预先设置的第二概率阈值,输出问题文本和问题文本对应的候选答案;其中,第一概率阈值高于第二概率阈值;也就是说,当问题文本和候选答案同时满足上述判断过程时,才会被筛选出来,进而执行步骤S216,输出相应的文本内容。
步骤S216,输出问题文本和问题文本对应的候选答案;
步骤S218,将输出的问题文本和问题文本对应的候选答案输入至问题-答案匹配模型;
步骤S220,判断问题文本和问题文本对应的候选答案的匹配度是否高于预先设置的匹配度阈值;
如果是,执行步骤S222;如果否,执行步骤S224。
具体地,上述步骤S218中,是将问题-答案判别模型输出的问题文本和问题文本对应的候选答案输入至问题-答案匹配模型的过程,以对问题文本和问题文本对应的候选答案进行匹配;
如果问题文本和问题文本对应的候选答案的匹配度高于预先设置的匹配度阈值,则执行下述步骤S222的过程,输出问题文本和问题文本对应的候选答案。
步骤S222,输出问题文本和问题文本对应的候选答案,并保存为问答对数据;
步骤S224,丢弃问题文本和候选答案。
此时,输出的问题文本和问题文本对应的候选答案,是经过问题-答案判别模型和问题-答案匹配模型二次筛选后得到的问答对数据,对于问题文本的概率低于第一概率阈值,或者,问题文本对应的候选答案的概率高于第二概率阈值,则丢弃问题文本和候选答案;并且,如果问题文本和问题文本对应的候选答案的匹配度低于匹配度阈值,也是丢弃问题文本和候选答案,通过这种筛选的方式得到的问答对数据,通常都是较高质量的问答对数据方式。由于上述问题文本是从包含有大量非成对文本的互文本数据中抽取的,因此,可以将大量的非成对文本利用起来,提高了数据的利用率,同时,也无需人工创作问答对数据,避免了人工创造成本较高的问题。
进一步,在实际使用过程中,为了能够充分利用上述包含有大量非成对文本的互文本数据,在对现有的问答对语料库和大量的包含非成对文本的交互文本数据进行整理时,通常采用倒排索引的方式构建搜索引擎,以便于搜索引擎进行搜索,同时在抽取问题文本时,采用遍历的方式,遍历交互文本数据中的每个文本,尝试将每个非成对文本作为问题,来搜索相应的候选答案,因此,在图1的基础上,图3示出了本发明实施例提供的另一种问答对数据的生成方法的流程图,包括以下步骤:
步骤S302,获取问答对语料库和指定的交互文本数据;
步骤S304,分别对问答对语料库和交互文本数据建立倒排索引;
步骤S306,根据问答对语料库的倒排索引构建问答对语料库对应的第一文本搜索引擎,以及,根据交互文本数据的倒排索引构建交互文本数据对应的第二文本搜索引擎;
其中,构建倒排索引的方式,能够便于优化搜索的速度,便于第一文本搜索引擎和第二文本搜索引擎搜索相应的候选答案。
步骤S308,遍历交互文本数据中的每个交互文本;
步骤S310,对于每个被遍历的交互文本,如果第一文本搜索引擎和第二文本搜索引擎基于问答对语料库和交互文本数据搜索到该交互文本的候选答案,保留该交互文本为问题文本;
具体地,对于每个被遍历的交互文本,如果利用第一文本搜索引擎在问答对语料库中搜索到相似问题,且,第二文本搜索引擎在交互文本数据中搜索到相似问题对应的答案的相似答案时,则可以确定搜索到该交互文本的候选答案;
如果第一文本搜索引擎在问答对语料库中未搜索到相似问题,或者,第一文本搜索引擎在问答对语料库中搜索到相似问题,但是第二文本搜索引擎在交互文本数据中未搜索到相似问题对应的答案的相似答案时,则说明未搜索到该交互文本的候选答案,此时,通常会丢弃该交互文本,继续对下一个交互文本进行遍历,以确定是否能够作为问题文本。
步骤S312,对于每个问题文本,利用第一文本搜索引擎和第二文本搜索引擎基于问答对语料库和交互文本数据搜索问题文本的候选答案,以生成问答对候选集;
具体地,可以依次使用两个搜索引擎进行搜索,由于第一文本搜索引擎是基于问答对语料库构建的,因此,对于抽取的问题,可以在问答对语料库中搜索相似问题,根据相似问题对应的回答生成第一答案集合;第二文本搜索引擎是基于非成对文本的交互文本数据构建的,因此,对于第一答案集合的每个回答,通常,都可以在交互文本数据中搜索到一些相似的文本,从而可以得到问题文本的若干个候选答案,一个问题文本和该问题文本对应的至少一个候选答案构成一个问答对数据组,多个问答对数据组则构成了问答对候选集。
步骤S314,对于问答对候选集中的每个问答对数据组,均应用预先训练好的筛选模型筛选问答对数据组,将筛选后得到的问答对数据组保存为问答对数据。
具体地,筛选模型对问答对数据组的筛选过程可以参照图2中记载的问题-答案判别模型和问题-答案匹配模型的筛选过程,在此不再赘述。
此外,对于上述预先训练好的问题-答案判别模型和问题-答案匹配模型,通常都是二分类模型,因此,本发明实施例中,还包括对上述问题-答案判别模型和问题-答案匹配模型的训练过程。
具体地,问题-答案判别模型的训练过程包括以下步骤:
(1)根据问答对语料库构建正样本集和负样本集;
其中,正样本集包括问答对语料库中的多个问题文本,负样本集中包括问答对语料库中与多个问题文本对应的答案文本;且,正样本集和负样本集中的每个文本均携带有文本标签;
(2)将正样本集和负样本集输入至神经网络模型,对神经网络模型进行训练,以生成问题-答案判别模型;
其中,问题-答案判别模型为判别文本为问题文本的概率和判别文本为答案文本的概率的神经网络模型。
进一步,问题-答案匹配模型的训练过程包括以下步骤:
(1)根据问答对语料库构建问答对样本集和随机问答样本集;
其中,问答对样本集包含问答对语料库中的多个问题文本和与多个问题文本对应的答案文本;随机问答样本集包含问答对语料库中的多个问题文本和对每个问题文本随机选取的答案文本;且,问答对样本集和随机问答样本集中的每个文本均携带有文本标签;
(2)将问答对样本集和随机问答样本集输入至神经网络模型,对神经网络模型进行训练,以生成问题-答案匹配模型;
其中,问题-答案匹配模型为判别问题文本与对应的候选答案的匹配度的神经网络模型。
具体地,上述问题-答案判别模型,是将问答对语料库中的问题和回答分别作为正、负样本集训练的二分类模型,判定输入的文本属于“问题”还是“答案”。在训练时,正样本集和负样本集中的每个文本均携带的文本标签,通常是指训练使用的“问题”标签和“答案”标签。
而上述问题-答案匹配模型是将问答对语料库中的问题和原始回答作为正样本,构成问答对样本集(也可以称为正样本集),以及,将问答对语料库中的问题和对每个问题随机采样得到的回答作为负样本,构建随机问答样本集(也可以称为负样本集),且,正负样本的比例通常为1:1,以训练二分类模型,来判定问题和答案是否匹配,每个文本均携带的文本标签,可以是通常是指问题与原始回答的标签,和问题与随机答案的标签,此时,在问答对样本集中,回答和问题是匹配的,在随机问答样本集中,由于是在问答对语料库中随机选取的答案文本,因此,回答和问题是不匹配的,利用随机采样的回答作为负样本的方式,较为简洁,也可以有效满足构建负样本的条件的要求,提高模型的匹配准确性。
进一步,通过上述筛选方式得到问答对数据之后,还可以将生成的每个问答对数据添加至问答对语料库,以丰富问答对语料库中的语料。
此外,还可以将添加问答对数据后的问答对语料库同步存储于机器人中,以使机器人应用问答对语料库进行人机交互。具体地,该机器人通常是聊天机器人,如,检索式聊天机器人,或者,生成式聊天机器人等,都可以使用上述问答对语料库来丰富语料数据,进而提高聊天机器人的聊天回复质量。
基于图1~图3所示的问答对数据的生成方法,图4示出了一种问答对数据生成过程的整体框架图,如图4所示,包括以下步骤:
S001:对现有问答对语料库整理;
即,整理现有的高质量的问答对数据资源。
S002:交互文本数据收集;
例如,搜集网络上的非成对文本数据,如微博、豆瓣、新闻短句等。
S003:构建第一文本搜索引擎;
对S001中,现有的问答对语料库建立问题和答案的倒排索引,建立上述第一文本搜索引擎。
S004:构建第二文本搜索引擎;
对S002中包含大量非成对文本的交互文本数据建立倒排索引,建立上述第二文本搜索引擎。
S005:使用S002中的交互文本数据对S003的第一文本搜索引擎搜索到的问题进行检索,选取N个最相似的问题和对应的答案,组成N个问答对。
S006:对S005中的每个答案,用第二文本搜索引擎在交互文本中检索,选取N个最相似的回答,于是得到N*N个候选答案的答案候选集。
S007:使用S005中的N个问题和S006中的N*N个回答构建得到N个问答对数据组,构建问答对候选集。
S008:问题-答案判别模型;
将S001中问答对语料库的问题和答案分别作为正、负样本训练二分类模型,判定输入的文本属于“问题”还是“答案”。使用的模型可以为基于transformer框架的模型。
S009:问题-答案匹配模型;
将S001中问答对语料库的问题和原始答案作为正样本,问题和随机采样的答案作为负样本,正负样本比例为1:1,训练二分类模型,判定问题和答案是否匹配,其中,此处使用的模型和S008中的二分类模型一致。
S010:将S007中的问答对候选集的每个问答对输入到S008的问题-答案判别模型,模型预测问答对中的问题文本属于“问题”类别的概率和候选答案中属于“答案”的概率均满足一定阈值时,保留该问答对,否则抛弃。
然后再将问题-答案判别模型输出的问答对输入到S009的问题-答案匹配模型,模型预测的匹配度高于一定阈值时,保留该问答对,否则抛弃。从而得到高质量的问答对数据。
在上述步骤中,S001和S002的数据都可以预先得到,S003和S004的两个搜索引擎可以预先构建好,S008和S009的两个分类模型可以根据S001的问答对数据预先训练得到。在使用指定的交互文本数据构建问答对数据时,每个文本经过图4所示流程都可以得到若干个问答对。
因此,图4所示的架构图,可以利用包含大量的非成对文本的交互文本数据,构建得到高质量的问答对数据,不仅能够将大量非成对文本利用起来,也可以通过筛选的方式得到高质量的问答对数据,同时,当问答对数据应用于聊天机器人时,也能丰富检索式聊天机器人和生成式聊天机器人的问答语料,提高聊天机器人回复的质量。
对应于上述问答对数据的生成方法,本发明实施例还提供了一种问答对数据的生成装置,如图5所示的一种问答对数据的生成装置的结构示意图,该问答对数据的生成装置包括以下结构:
获取模块50,用于获取问答对语料库和指定的交互文本数据;
构建模块52,用于构建问答对语料库对应的第一文本搜索引擎和交互文本数据对应的第二文本搜索引擎;
抽取模块54,用于从交互文本数据中抽取问题文本;
搜索模块56,用于对于每个问题文本,利用第一文本搜索引擎和第二文本搜索引擎基于问答对语料库和交互文本数据搜索问题文本的候选答案,以生成问答对候选集;其中,问答对候选集包括多个问答对数据组,每个问答对数据组包括一个问题文本和该问题文本对应的至少一个候选答案;
筛选模块58,用于对于问答对候选集中的每个问答对数据组,均应用预先训练好的筛选模型筛选问答对数据组,将筛选后得到的问答对数据组保存为问答对数据。
本发明实施例提供的问答对数据的生成装置,与上述实施例提供的问答对数据的生成方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
进一步,本发明实施例提供的问答对数据的生成装置,其实现原理及产生的技术效果和前述问答对数据的生成方法实施例相同,为简要描述,问答对数据的生成装置的实施例部分未提及之处,可参考前述问答对数据的生成方法实施例中相应内容。
本发明实施例还提供了一种电子设备,如图6所示,为该电子设备的结构示意图,其中,该电子设备包括处理器61和存储器60,该存储器60存储有能够被该处理器61执行的计算机可执行指令,该处理器61执行该计算机可执行指令以实现上述问答对数据的生成方法。
在图6示出的实施方式中,该电子设备还包括总线62和通信接口63,其中,处理器61、通信接口63和存储器60通过总线62连接。
其中,存储器60可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口63(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。总线62可以是ISA(IndustryStandard Architecture,工业标准体系结构)总线、PCI(Peripheral ComponentInterconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线62可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
处理器61可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器61中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器61可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessor,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器61读取存储器中的信息,结合其硬件完成前述实施例的问答对数据的生成方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令在被处理器调用和执行时,该计算机可执行指令促使处理器实现上述问答对数据的生成方法,具体实现可参见前述方法实施例,在此不再赘述。
本发明实施例所提供的问答对数据的生成方法、装置及电子设备的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (17)
1.一种问答对数据的生成方法,其特征在于,包括:
获取问答对语料库和指定的交互文本数据;
构建所述问答对语料库对应的第一文本搜索引擎和所述交互文本数据对应的第二文本搜索引擎;
从所述交互文本数据中抽取问题文本;
对于每个所述问题文本,利用所述第一文本搜索引擎和所述第二文本搜索引擎基于所述问答对语料库和所述交互文本数据搜索所述问题文本的候选答案,以生成问答对候选集;其中,所述问答对候选集包括多个问答对数据组,每个所述问答对数据组包括一个问题文本和该问题文本对应的至少一个候选答案;
对于所述问答对候选集中的每个所述问答对数据组,均应用预先训练好的筛选模型筛选所述问答对数据组,将筛选后得到的所述问答对数据组保存为问答对数据。
2.根据权利要求1所述的方法,其特征在于,利用所述第一文本搜索引擎和所述第二文本搜索引擎基于所述问答对语料库和所述交互文本数据搜索所述问题文本的候选答案的步骤包括:
利用所述第一文本搜索引擎在所述问答对语料库中搜索所述问题文本的相似问题;
获取所述问答对语料库中所述相似问题对应的答案,生成第一答案集合;
将所述第一答案集合中的每个所述答案输入至所述第二文本搜索引擎,以在所述交互文本数据中搜索所述答案的相似答案,生成第二答案集合;
将所述第二答案集合中包括的所述相似答案确定为所述问题文本的候选答案。
3.根据权利要求1所述的方法,其特征在于,所述筛选模型包括:问题-答案判别模型和/或问题-答案匹配模型;
应用预先训练好的筛选模型筛选所述问答对数据组的步骤包括:
应用预先训练好的所述问题-答案判别模型和/或所述问题-答案匹配模型对所述问答对数据组进行筛选;其中,所述问题-答案判别模型为基于概率预测的模型,所述问题-答案匹配模型为基于匹配机制的模型。
4.根据权利要求3所述的方法,其特征在于,应用预先训练好的所述问题-答案判别模型对所述问答对数据组进行筛选的步骤包括:
将所述问答对数据组输入至所述问题-答案判别模型,通过所述问题-答案判别模型对所述问答对数据组的问题文本和该问题文本对应的至少一个所述候选答案进行概率预测;
如果所述问题文本的概率高于预先设置的第一概率阈值,且,所述问题文本对应的至少一个所述候选答案的概率低于预先设置的第二概率阈值,输出所述问题文本和所述问题文本对应的候选答案;
其中,所述第一概率阈值高于所述第二概率阈值。
5.根据权利要求3所述的方法,其特征在于,应用预先训练好的问题-答案匹配模型对所述问答对数据组中的候选答案进行筛选的步骤包括:
将所述问答对数据组中的问题文本与每个候选答案逐一输入至所述问题-答案匹配模型,计算所述问题文本和所述候选答案的匹配度,并将匹配度高于预设的匹配度阈值的所述问题文本和所述候选答案,作为筛选后的所述问答对数据组输出。
6.根据权利要求3所述的方法,其特征在于,应用预先训练好的所述问题-答案判别模型和所述问题-答案匹配模型对所述问答对数据组中的候选答案进行筛选的步骤包括:
将所述问答对数据组输入至所述问题-答案判别模型,通过所述问题-答案判别模型对所述问答对数据组中的问题文本和所述问题文本对应的至少一个所述候选答案进行概率预测;
如果所述问题文本的概率高于预先设置的第一概率阈值,且,所述问题文本对应的至少一个所述候选答案的概率低于预先设置的第二概率阈值,输出所述问题文本和所述问题文本对应的候选答案;其中,所述第一概率阈值高于所述第二概率阈值;
将所述问题-答案判别模型输出的所述问题文本和所述问题文本对应的候选答案输入至所述问题-答案匹配模型,以对所述问题文本和所述问题文本对应的候选答案进行匹配;
如果所述问题文本和所述问题文本对应的候选答案的匹配度高于预先设置的匹配度阈值,输出所述问题文本和所述问题文本对应的候选答案。
7.根据权利要求4或6所述的方法,其特征在于,所述方法还包括:
如果所述问题文本的概率低于所述第一概率阈值,或者,所述问题文本对应的所述候选答案的概率高于所述第二概率阈值,则丢弃所述问题文本和所述候选答案。
8.根据权利要求5或6所述的方法,其特征在于,所述方法还包括:
如果所述问题文本和所述问题文本对应的候选答案的匹配度低于所述匹配度阈值,则丢弃所述问题文本和所述候选答案。
9.根据权利要求3所述的方法,其特征在于,所述问题-答案判别模型的训练过程包括:
根据所述问答对语料库构建正样本集和负样本集,其中,所述正样本集包括所述问答对语料库中的多个问题文本,所述负样本集中包括所述问答对语料库中与多个所述问题文本对应的答案文本;且,所述正样本集和所述负样本集中的每个文本均携带有文本标签;
将所述正样本集和所述负样本集输入至神经网络模型,对所述神经网络模型进行训练,以生成所述问题-答案判别模型;
其中,所述问题-答案判别模型为判别文本为所述问题文本的概率和判别文本为所述答案文本的概率的神经网络模型。
10.根据权利要求3所述的方法,其特征在于,所述问题-答案匹配模型的训练过程包括:
根据所述问答对语料库构建问答对样本集和随机问答样本集,其中,所述问答对样本集包含所述问答对语料库中的多个问题文本和与多个所述问题文本对应的答案文本;所述随机问答样本集包含所述问答对语料库中的多个问题文本和对每个所述问题文本随机选取的答案文本;且,所述问答对样本集和所述随机问答样本集中的每个文本均携带有文本标签;
将所述问答对样本集和所述随机问答样本集输入至神经网络模型,对所述神经网络模型进行训练,以生成所述问题-答案匹配模型;
其中,所述问题-答案匹配模型为判别所述问题文本与对应的候选答案的匹配度的神经网络模型。
11.根据权利要求1所述的方法,其特征在于,构建所述问答对语料库对应的第一文本搜索引擎和所述交互文本数据对应的第二文本搜索引擎的步骤包括:
分别对所述问答对语料库和所述交互文本数据建立倒排索引;
根据所述问答对语料库的倒排索引构建所述问答对语料库对应的第一文本搜索引擎,以及,根据所述交互文本数据的倒排索引构建所述交互文本数据对应的第二文本搜索引擎。
12.根据权利要求1所述的方法,其特征在于,从所述交互文本数据中抽取问题文本的步骤包括:
遍历所述交互文本数据中的每个交互文本;
对于每个被遍历的交互文本,如果所述第一文本搜索引擎和所述第二文本搜索引擎基于所述问答对语料库和所述交互文本数据搜索到该交互文本的候选答案,保留该交互文本为问题文本。
13.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将生成的每个所述问答对数据添加至所述问答对语料库。
14.根据权利要求13所述的方法,其特征在于,所述方法还包括:
将添加所述问答对数据后的问答对语料库同步存储于机器人中,以使所述机器人应用所述问答对语料库进行人机交互。
15.一种问答对数据的生成装置,其特征在于,包括:
获取模块,用于获取问答对语料库和指定的交互文本数据;
构建模块,用于构建所述问答对语料库对应的第一文本搜索引擎和所述交互文本数据对应的第二文本搜索引擎;
抽取模块,用于从所述交互文本数据中抽取问题文本;
搜索模块,用于对于每个所述问题文本,利用所述第一文本搜索引擎和所述第二文本搜索引擎基于所述问答对语料库和所述交互文本数据搜索所述问题文本的候选答案,以生成问答对候选集;其中,所述问答对候选集包括多个问答对数据组,每个所述问答对数据组包括一个问题文本和该问题文本对应的至少一个候选答案;
筛选模块,用于对于所述问答对候选集中的每个所述问答对数据组,均应用预先训练好的筛选模型筛选所述问答对数据组,将筛选后得到的所述问答对数据组保存为问答对数据。
16.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机可执行指令,所述处理器执行所述计算机可执行指令以实现权利要求1至14任一项所述的方法。
17.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现权利要求1至14任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910834465.XA CN110532348B (zh) | 2019-09-04 | 2019-09-04 | 问答对数据的生成方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910834465.XA CN110532348B (zh) | 2019-09-04 | 2019-09-04 | 问答对数据的生成方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110532348A true CN110532348A (zh) | 2019-12-03 |
CN110532348B CN110532348B (zh) | 2022-03-22 |
Family
ID=68667080
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910834465.XA Active CN110532348B (zh) | 2019-09-04 | 2019-09-04 | 问答对数据的生成方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110532348B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111143531A (zh) * | 2019-12-24 | 2020-05-12 | 深圳市优必选科技股份有限公司 | 一种问答对构建方法、系统、装置及计算机可读存储介质 |
US20200151542A1 (en) * | 2018-11-12 | 2020-05-14 | Alibaba Group Holding Limited | Question and answer matching method, system and storage medium |
CN111428005A (zh) * | 2020-04-12 | 2020-07-17 | 中信银行股份有限公司 | 标准问答对确定方法、装置及电子设备 |
CN112101035A (zh) * | 2020-09-21 | 2020-12-18 | 贝壳技术有限公司 | 命名实体识别方法、装置、可读存储介质及电子设备 |
CN112231458A (zh) * | 2020-10-23 | 2021-01-15 | 河北省讯飞人工智能研究院 | 一种对话语料库的扩容方法、装置、设备及存储介质 |
CN112966076A (zh) * | 2021-02-25 | 2021-06-15 | 中国平安人寿保险股份有限公司 | 智能问答问题的生成方法、装置、计算机设备及存储介质 |
CN113010664A (zh) * | 2021-04-27 | 2021-06-22 | 数网金融有限公司 | 一种数据处理方法、装置及计算机设备 |
CN113360626A (zh) * | 2021-07-02 | 2021-09-07 | 北京容联七陌科技有限公司 | 一种智能客服机器人的多场景混合问答推荐方法 |
CN115203356A (zh) * | 2022-06-15 | 2022-10-18 | 延边大学 | 专业领域问答库构建方法、问答方法及系统 |
CN115905500A (zh) * | 2023-02-07 | 2023-04-04 | 北京面壁智能科技有限责任公司 | 问答对数据的生成方法及装置 |
JP7440143B1 (ja) | 2023-04-18 | 2024-02-28 | チャットプラス株式会社 | 情報処理方法、プログラム、及び、情報処理装置 |
CN115203356B (zh) * | 2022-06-15 | 2024-06-04 | 延边大学 | 专业领域问答库构建方法、问答方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104679815A (zh) * | 2014-12-08 | 2015-06-03 | 北京云知声信息技术有限公司 | 一种筛选问答对并实时更新问答库的方法及系统 |
US20180060297A1 (en) * | 2016-08-25 | 2018-03-01 | Lakeside Software, Inc. | Method and apparatus for natural language query in a workspace analytics system |
CN108509463A (zh) * | 2017-02-28 | 2018-09-07 | 华为技术有限公司 | 一种问题的应答方法及装置 |
CN109033229A (zh) * | 2018-06-29 | 2018-12-18 | 北京百度网讯科技有限公司 | 问答处理方法和装置 |
-
2019
- 2019-09-04 CN CN201910834465.XA patent/CN110532348B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104679815A (zh) * | 2014-12-08 | 2015-06-03 | 北京云知声信息技术有限公司 | 一种筛选问答对并实时更新问答库的方法及系统 |
US20180060297A1 (en) * | 2016-08-25 | 2018-03-01 | Lakeside Software, Inc. | Method and apparatus for natural language query in a workspace analytics system |
CN108509463A (zh) * | 2017-02-28 | 2018-09-07 | 华为技术有限公司 | 一种问题的应答方法及装置 |
CN109033229A (zh) * | 2018-06-29 | 2018-12-18 | 北京百度网讯科技有限公司 | 问答处理方法和装置 |
Non-Patent Citations (1)
Title |
---|
齐翌辰 等: ""基于倒排索引的问答系统的设计与实现"", 《教育教学论坛》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11599769B2 (en) * | 2018-11-12 | 2023-03-07 | Alibaba Group Holding Limited | Question and answer matching method, system and storage medium |
US20200151542A1 (en) * | 2018-11-12 | 2020-05-14 | Alibaba Group Holding Limited | Question and answer matching method, system and storage medium |
CN111143531A (zh) * | 2019-12-24 | 2020-05-12 | 深圳市优必选科技股份有限公司 | 一种问答对构建方法、系统、装置及计算机可读存储介质 |
CN111428005A (zh) * | 2020-04-12 | 2020-07-17 | 中信银行股份有限公司 | 标准问答对确定方法、装置及电子设备 |
CN112101035A (zh) * | 2020-09-21 | 2020-12-18 | 贝壳技术有限公司 | 命名实体识别方法、装置、可读存储介质及电子设备 |
CN112101035B (zh) * | 2020-09-21 | 2022-08-09 | 贝壳技术有限公司 | 命名实体识别方法、装置、可读存储介质及电子设备 |
CN112231458A (zh) * | 2020-10-23 | 2021-01-15 | 河北省讯飞人工智能研究院 | 一种对话语料库的扩容方法、装置、设备及存储介质 |
CN112231458B (zh) * | 2020-10-23 | 2023-03-21 | 河北省讯飞人工智能研究院 | 一种对话语料库的扩容方法、装置、设备及存储介质 |
CN112966076A (zh) * | 2021-02-25 | 2021-06-15 | 中国平安人寿保险股份有限公司 | 智能问答问题的生成方法、装置、计算机设备及存储介质 |
CN113010664A (zh) * | 2021-04-27 | 2021-06-22 | 数网金融有限公司 | 一种数据处理方法、装置及计算机设备 |
CN113360626A (zh) * | 2021-07-02 | 2021-09-07 | 北京容联七陌科技有限公司 | 一种智能客服机器人的多场景混合问答推荐方法 |
CN115203356A (zh) * | 2022-06-15 | 2022-10-18 | 延边大学 | 专业领域问答库构建方法、问答方法及系统 |
CN115203356B (zh) * | 2022-06-15 | 2024-06-04 | 延边大学 | 专业领域问答库构建方法、问答方法及系统 |
CN115905500A (zh) * | 2023-02-07 | 2023-04-04 | 北京面壁智能科技有限责任公司 | 问答对数据的生成方法及装置 |
JP7440143B1 (ja) | 2023-04-18 | 2024-02-28 | チャットプラス株式会社 | 情報処理方法、プログラム、及び、情報処理装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110532348B (zh) | 2022-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110532348A (zh) | 问答对数据的生成方法、装置及电子设备 | |
CN107239529A (zh) | 一种基于深度学习的舆情热点类别划分方法 | |
CN105808590B (zh) | 搜索引擎实现方法、搜索方法以及装置 | |
CN111159395A (zh) | 基于图神经网络的谣言立场检测方法、装置和电子设备 | |
CN110569353A (zh) | 一种基于注意力机制的Bi-LSTM的标签推荐方法 | |
CN109299271A (zh) | 训练样本生成、文本数据、舆情事件分类方法及相关设备 | |
CN107205016A (zh) | 物联网设备的检索方法 | |
CN103577556A (zh) | 一种获取问答对的相关联程度的装置和方法 | |
CN111091006B (zh) | 一种实体意图体系的建立方法、装置、设备和介质 | |
CN103577558A (zh) | 一种优化问答对的搜索排名的装置和方法 | |
CN111831802A (zh) | 一种基于lda主题模型的城市领域知识检测系统及方法 | |
CN110223675A (zh) | 用于语音识别的训练文本数据的筛选方法及系统 | |
CN112463992B (zh) | 基于麻将领域知识图谱的决策辅助自动问答方法及系统 | |
CN112069327B (zh) | 一种在线教育课堂教学资源的知识图谱构建方法及系统 | |
CN107943792A (zh) | 一种语句分析方法、装置及终端设备、存储介质 | |
CN106096327B (zh) | 基于Torch监督式深度学习的基因性状识别方法 | |
CN109684374A (zh) | 一种时间序列数据的键值对的提取方法及装置 | |
CN112052317A (zh) | 一种基于深度学习的医学知识库智能检索系统及其方法 | |
CN115146162A (zh) | 一种在线课程推荐方法及系统 | |
CN112100464A (zh) | 结合动态兴趣与专业知识的问答社区专家推荐方法及系统 | |
CN111242131B (zh) | 一种智能阅卷中图像识别的方法、存储介质及装置 | |
CN117150309A (zh) | 相似物料的识别方法、装置及电子设备 | |
CN111859091A (zh) | 一种基于人工智能的搜索结果的聚合方法及装置 | |
CN116501873A (zh) | 一种基于ChatGpt及其他深度模型建立文本分析框架的方法 | |
CN113240443B (zh) | 面向电力客服问答的实体属性对抽取方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |