CN111460117B - 对话机器人意图语料生成方法、装置、介质及电子设备 - Google Patents

对话机器人意图语料生成方法、装置、介质及电子设备 Download PDF

Info

Publication number
CN111460117B
CN111460117B CN202010201001.8A CN202010201001A CN111460117B CN 111460117 B CN111460117 B CN 111460117B CN 202010201001 A CN202010201001 A CN 202010201001A CN 111460117 B CN111460117 B CN 111460117B
Authority
CN
China
Prior art keywords
similar sentence
sentence corpus
target
corpus
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010201001.8A
Other languages
English (en)
Other versions
CN111460117A (zh
Inventor
陈亮
李治根
杨坤
许开河
周琳
王少军
王嘉雯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202010201001.8A priority Critical patent/CN111460117B/zh
Priority to PCT/CN2020/093043 priority patent/WO2021184547A1/zh
Publication of CN111460117A publication Critical patent/CN111460117A/zh
Application granted granted Critical
Publication of CN111460117B publication Critical patent/CN111460117B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及数据处理领域,揭示了一种对话机器人意图语料生成方法、装置、介质及电子设备。该方法包括:获取包括多个意图的意图集合;获取目标意图的目标相似句语料,作为目标相似句语料集合;确定目标相似句语料与相似句语料的相似度;基于相似度在意图集合中选择出候选相似句语料,以构建候选相似句语料集合;基于候选相似句语料集合中各候选相似句语料与目标相似句语料集合中目标相似句语料的相似度,在候选相似句语料集合的候选相似句语料中确定出属于目标意图的目标相似句语料。此方法下,实现了意图语料的自动扩充,提高了意图语料的数量,可以使各意图的语料数量更为均衡,进而提高了意图识别的准确率,还降低了扩展意图语料所需的成本。

Description

对话机器人意图语料生成方法、装置、介质及电子设备
技术领域
本公开涉及数据处理技术领域,特别涉及一种对话机器人意图语料生成方法、装置、介质及电子设备。
背景技术
目前对话机器人,特别是任务型对话机器人普遍依赖意图识别算法进行意图识别,对话机器人一般根据识别后的意图执行相应的动作,如话术回复,信息查询等。然而,对话机器人在进行对话时,若要保证对话质量,需要对每个意图下的相似句数量和质量都有很高的要求。不同对话机器人能够执行不同任务的对话,经常存在有些对话机器人积累的低频问题的意图语料较少、各意图语料间数量不均衡等问题,从而降低了意图识别的准确率,此外,如果安排标注人员进行标注,还会浪费大量的人工成本。
发明内容
在数据处理技术领域,为了解决上述技术问题,本公开的目的在于提供一种对话机器人意图语料生成方法、装置、介质及电子设备。
根据本公开的一方面,提供了一种对话机器人意图语料生成方法,所述方法包括:
获取包括多个意图的意图集合,其中,每一意图包括多个相似句语料,每一意图对应一个对话机器人,每一对话机器人具有至少一个意图;
获取目标意图所包括的目标相似句语料,作为目标相似句语料集合;
确定所述目标相似句语料与所述相似句语料的相似度;
基于所述相似度在所述意图集合中选择出候选相似句语料,以构建候选相似句语料集合;
基于所述候选相似句语料集合中各候选相似句语料与所述目标相似句语料集合中所述目标相似句语料的相似度,在所述候选相似句语料集合的候选相似句语料中确定出属于所述目标意图的目标相似句语料。
根据本公开的另一方面,提供了一种对话机器人意图语料生成装置,所述装置包括:
第一获取模块,被配置为获取包括多个意图的意图集合,其中,每一意图包括多个相似句语料,每一意图对应一个对话机器人,每一对话机器人具有至少一个意图;
第二获取模块,被配置为获取目标意图所包括的目标相似句语料,作为目标相似句语料集合;
第一确定模块,被配置为确定所述目标相似句语料与所述相似句语料的相似度;
构建模块,被配置为基于所述相似度在所述意图集合中选择出候选相似句语料,以构建候选相似句语料集合;
第二确定模块,被配置为基于所述候选相似句语料集合中各候选相似句语料与所述目标相似句语料集合中所述目标相似句语料的相似度,在所述候选相似句语料集合的候选相似句语料中确定出属于所述目标意图的目标相似句语料。
根据本公开的另一方面,提供了一种计算机可读程序介质,其存储有计算机程序指令,当所述计算机程序指令被计算机执行时,使计算机执行如前所述的方法。
根据本公开的另一方面,提供了一种电子设备,所述电子设备包括:
处理器;
存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,实现如前所述的方法。
本公开的实施例提供的技术方案可以包括以下有益效果:
本公开所提供的对话机器人意图语料生成方法包括如下步骤:获取包括多个意图的意图集合,其中,每一意图包括多个相似句语料,每一意图对应一个对话机器人,每一对话机器人具有至少一个意图;获取目标意图所包括的目标相似句语料,作为目标相似句语料集合;确定所述目标相似句语料与所述相似句语料的相似度;基于所述相似度在所述意图集合中选择出候选相似句语料,以构建候选相似句语料集合;基于所述候选相似句语料集合中各候选相似句语料与所述目标相似句语料集合中所述目标相似句语料的相似度,在所述候选相似句语料集合的候选相似句语料中确定出属于所述目标意图的目标相似句语料。
此方法下,通过利用知识迁移的方式,将其他意图的语料迁移到需要扩展的意图中,从而实现意图语料的自动扩充,提高了意图语料的数量,可以使各意图的语料数量更为均衡,进而在一定程度上提高了意图识别的准确率,还降低了扩展意图语料所需的成本。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是根据一示例性实施例示出的一种对话机器人意图语料生成方法的系统架构示意图;
图2是根据一示例性实施例示出的一种对话机器人意图语料生成方法的流程图;
图3是根据图2对应实施例示出的一实施例的步骤210及步骤220的细节的流程图;
图4是根据图2对应实施例示出的一实施例的步骤240的细节流程图;
图5是根据一示例性实施例示出的一种对话机器人意图语料生成装置的框图;
图6是根据一示例性实施例示出的一种实现上述对话机器人意图语料生成方法的电子设备示例框图;
图7是根据一示例性实施例示出的一种实现上述对话机器人意图语料生成方法的计算机可读存储介质。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。
本公开首先提供了一种对话机器人意图语料生成方法。对话机器人可以是各种能够与人类进行人机对话的机器人,对话机器人可以包括多种模型或者算法,比如可以包括语言模型、声学模型等,对话机器人可以与人类进行文本、语音或者视频语音对话。对话机器人的意图和语料的关系就是一种含义的不同表达方式,含义就是意图,而一种具体的表达方式就是一种语料,因此,对话机器人的一个意图通常对应多个相似的语料,不同对话机器人也有不同的意图和语料。对话机器人在进行人机对话时采用意图识别的一般方式为基于统计学习或深度学习的分类算法来学习每个意图下对应了哪些相似的语料来进行意图分类。而意图语料生成就是为对话机器人的某一意图增加语料的过程,也就是说,本公开提供的对话机器人意图语料生成方法可以增加对话机器人的某一意图的语料。
本公开的实施终端可以是任何具有运算、处理以及存储功能的设备,该设备可以与外部设备相连,用于接收或者发送数据,具体可以是便携移动设备,例如智能手机、平板电脑、笔记本电脑、PDA(Personal Digital Assistant)等,也可以是固定式设备,例如,计算机设备、现场终端、台式电脑、服务器、工作站等,还可以是多个设备的集合,比如云计算的物理基础设施或者服务器集群。
可选地,本公开的实施终端可以为服务器或者云计算的物理基础设施。
图1是根据一示例性实施例示出的一种对话机器人意图语料生成方法的系统架构示意图。如图1所示,该系统架构包括服务器110、多个机器人终端120以及与每一机器人终端120对应的数据库130,各机器人终端120与服务器110之间、每一机器人终端120与对应的数据库130之间均通过通信链路相连,从而可以进行数据的接收和发送。每一机器人终端120上固设有对话机器人,而机器人终端120对应的数据库130则存储有对话机器人进行对话所使用的数据,比如,可以包括意图和对应的语料数据,语料数据比如可以是文本等类型的数据,每一机器人终端120对应的数据库130可以存储多个意图对应的多个语料数据。在图1所示实施例中,服务器110为本公开的实施终端,服务器110可以经由各机器人终端120对各机器人终端120对应的数据库130中的语料数据进行操作,比如可以从一个机器人终端120对应的数据库130获取语料数据并将获取的该语料数据迁移至其他机器人终端120对应的数据库130,这样就可以增加某一对话机器人对应意图的语料。
值得一提的是,图1仅为本公开的一个实施例。虽然在本实施例中的实施终端为服务器,但在其他实施例中,实施终端可以为如前所述的各种终端或设备;虽然在本实施例中,不同对话机器人固设在不同的终端上,不同对话机器人对应的意图的语料也分别存储于不同的数据库中,但在其他实施例或者具体应用中,各对话机器人和/或各对话机器人对应的意图的语料可以存储于同一终端或不同的终端上,各对话机器人以及对应的意图的语料还可以存储于本公开的实施终端本地,本公开对此不作任何限定,本公开的保护范围也不应因此而受到任何限制。
图2是根据一示例性实施例示出的一种对话机器人意图语料生成方法的流程图。本实施例提供的对话机器人意图语料生成方法可以由服务器执行,如图2所示,包括以下步骤:
步骤210,获取包括多个意图的意图集合。
其中,每一意图包括多个相似句语料,每一意图对应一个对话机器人,每一对话机器人具有至少一个意图。
每一意图对应一个对话机器人是指,意图是对话机器人的意图,对话机器人可以利用意图对人类进行对话。
在一个实施例中,每一意图包括对话机器人的标识,所述意图通过包括的对话机器人的标识与对话机器人相对应。
如前所述,意图和语料的关系就是一种含义和该含义对应的不同表达方式的关系,一种含义就相当于一种意图,该含义对应的一种具体表达方式就相当于一种语料。同一意图包括的语料之间通常是相似的,所以称为相似句语料。比如,在保险领域,“我不知道医疗险”和“医疗险是什么意思”这两个语料是相似句语料,都属于“我想知道关于医疗险的详细介绍”这一意图。
在一个实施例中,包括多个意图的意图集合W可以利用如下表达式来表示:
W=[(I1→S11),(I1→S12),…,(Ix→Sxi)],
其中属于同一括号对内的分别为一个意图Ix和该意图包括的一个相似句语料Sxi,比如,I1可以代表编号为1的意图,而S11可以代表该意图包括的第一个相似句语料,S12可以代表该意图包括的第二个相似句语料,以此类推。
在一个实施例中,所述意图集合预先存储在本地,所述获取包括多个意图的意图集合,包括:从本地读取包括多个意图的意图集合。
在一个实施例中,所述意图集合预先存储在数据库中,所述获取包括多个意图的意图集合,包括:通过查询数据库获取包括多个意图的意图集合。
在一个实施例中,所述意图集合预先存储在本端之外的目标终端中,所述获取包括多个意图的意图集合,包括:
向目标终端发送意图集合获取请求;
接收目标终端根据所述意图集合获取请求做出响应时返回的包括多个意图的意图集合。
步骤220,获取目标意图所包括的目标相似句语料,作为目标相似句语料集合。
在一个实施例中,所述获取目标意图所包括的目标相似句语料,作为目标相似句语料集合,包括:从在本地的预设路径读取目标意图所包括的目标相似句语料,作为目标相似句语料集合。
在一个实施例中,步骤210以及步骤220的具体步骤可以如图3所示。图3是根据图2对应实施例示出的一实施例的步骤210及步骤220的细节的流程图。如图3所示,包括以下步骤:
步骤211,基于第一预定规则从包括多个意图的意图总集合中选择出多个意图组成意图子集合。
其中,每一意图包括多个相似句语料,所述意图总集合中的每一意图对应一个对话机器人。
可以基于各种方式或规则从意图总集合中选择出组成意图子集合的多个意图,比如,第一预定规则可以是从意图总集合中随机选取多个意图组成意图子集合,还可以是按照各意图的生成顺序从包括多个意图的意图总集合中依次选取预定数目个意图组成意图子集合。
步骤221,基于第二预定规则在所述意图子集合中意图对应的对话机器人之外的其他所有对话机器人对应的意图中选择出目标意图。
在一个实施例中,所述基于第二预定规则在所述意图子集合中意图对应的对话机器人之外的其他所有对话机器人对应的意图中选择出目标意图,包括:
在所述意图子集合中意图对应的对话机器人之外的其他所有对话机器人对应的意图中选择出包括的相似句语料最少的意图,作为目标意图。
在本实施例中,通过将包括的相似句语料最少的意图作为目标意图,可以为包括的相似句语料最少的意图这类低频意图优先生成语料。
在一个实施例中,所述基于第二预定规则在所述意图子集合中意图对应的对话机器人之外的其他所有对话机器人对应的意图中选择出目标意图,包括:
在所述意图子集合中意图对应的对话机器人之外的其他所有对话机器人对应的意图中确定出包括的相似句语料的数量小于第一预定数目的意图,作为第一候选目标意图;
在所述第一候选目标意图中任取一个,作为目标意图。
在本实施例中,使包括的相似句语料的数量小于第一预定数目的意图均有相同的被选为目标意图的可能性,提高了公平性,并且由于选出的目标意图包括的相似句语料的数量小于第一预定数目,可以为低频意图优先生成语料。
在一个实施例中,所述基于第二预定规则在所述意图子集合中意图对应的对话机器人之外的其他所有对话机器人对应的意图中选择出目标意图,包括:
确定所述意图子集合内各意图所包括的相似句语料的数目的最小值;
在所述意图子集合中意图对应的对话机器人之外的其他所有对话机器人对应的意图中确定出包括的相似句语料的数量小于所述最小值的意图,作为第二候选目标意图;
在所述第二候选目标意图中任取一个,作为目标意图。
当一个意图包括的相似句语料的数量比意图子集合内各意图所包括的相似句语料的数目的最小值还要小时,说明该意图包括的相似句语料的数量是足够小的,在本实施例中通过在这类意图中任选一个作为目标意图,保证了选择的目标意图的合理性。
步骤222,获取目标意图包括的相似句语料作为目标相似句语料,得到目标相似句语料集合。
本实施例即为从意图集合之外的意图获取相似句语料的示例。
步骤230,确定所述目标相似句语料与所述相似句语料的相似度。
可以利用各种算法或公式来计算两个相似句语料之间的相似度。
在一个实施例中,所述目标相似句语料和所述相似句语料分别由多个词元素组成,所述确定所述目标相似句语料与所述相似句语料的相似度,包括:
利用如下公式确定所述目标相似句语料与所述相似句语料的相似度:
其中,s1代表所述目标相似句语料,s2代表所述相似句语料,Len用于求取集合内词元素的个数,fscore(s1,s2)为所述目标相似句语料与所述相似句语料的相似度。
比如,Len(s1∩s2)用于计算所述目标相似句语料与所述相似句语料共同包含的词元素的个数,而Len(s1∪s2)用于计算所述目标相似句语料与所述相似句语料所包含的所有词元素的个数。
在一个实施例中,所述确定所述目标相似句语料与所述相似句语料的相似度,包括:
针对每一所述目标相似句语料,确定该目标相似句语料与每一所述相似句语料的相似度。
在本实施例中,使得确定出的目标相似句语料与相似句语料的相似度的数量最大,从而可以使建立的候选相似句语料集合的规模最大。
在一个实施例中,所述确定所述目标相似句语料与所述相似句语料的相似度,包括:
在目标意图所包括的目标相似句语料中任取一个目标相似句语料;
确定任取的该目标相似句语料与每一所述相似句语料的相似度。
步骤240,基于所述相似度在所述意图集合中选择出候选相似句语料,以构建候选相似句语料集合。
在一个实施例中,步骤240的具体步骤可以如图4所示。图4是根据图2对应实施例示出的一实施例的步骤240的细节流程图。参照图4所示,步骤240可以包括以下步骤:
步骤241,针对所述意图集合中每一意图,若该意图包括的相似句语料中存在一个相似句语料与所述目标相似句语料的相似度大于预定相似度阈值,则获取该意图包括的所有相似句语料作为候选相似句语料。
预定相似度阈值可以是属于[0,1]范围内的浮点数。
步骤242,利用获取的所有候选相似句语料构建候选相似句语料集合。
在本实施例中,在只要一个意图中的相似句语料与目标相似句语料的相似度大于预定相似度阈值的情况下,就选取该意图包括的所有相似句语料作为候选相似句语料来构建候选相似句语料集合,不仅保证了构建的候选相似句语料集合中候选相似句语料的数量,而且对于一个意图来说,如果确定该意图包括的相似句语料中有一个相似句语料与目标相似句语料的相似度大于预定相似度阈值,就不需要对该意图的其他相似句语料进行判断,还可以减少计算量。
在一个实施例中,所述确定所述目标相似句语料与所述相似句语料的相似度,包括:
针对每一所述目标相似句语料,确定该目标相似句语料与每一所述相似句语料的相似度;
所述基于所述相似度在所述意图集合中选择出候选相似句语料,以构建候选相似句语料集合,包括:
针对每一所述相似句语料,确定各目标相似句语料与该相似句语料的相似度的平均值;
获取所述平均值大于预定相似度平均值阈值的相似句语料所属意图包括的所有相似句语料作为候选相似句语料,并利用获取的所有候选相似句语料构建候选相似句语料集合。
在一个实施例中,所述确定所述目标相似句语料与所述相似句语料的相似度,包括:
针对每一所述目标相似句语料,确定该目标相似句语料与每一所述相似句语料的相似度;
所述基于所述相似度在所述意图集合中选择出候选相似句语料,以构建候选相似句语料集合,包括:
针对每一所述相似句语料,确定各目标相似句语料与该相似句语料的相似度的最大值;
获取所述最大值大于预定相似度最大值阈值的相似句语料作为候选相似句语料,并利用获取的所有候选相似句语料构建候选相似句语料集合。
在一个实施例中,所述确定所述目标相似句语料与所述相似句语料的相似度,包括:
针对每一所述目标相似句语料,确定该目标相似句语料与每一所述相似句语料的相似度;
所述基于所述相似度在所述意图集合中选择出候选相似句语料,以构建候选相似句语料集合,包括:
针对每一所述相似句语料,确定各目标相似句语料与该相似句语料的相似度的最小值;
获取所述最小值大于预定相似度最小值阈值的相似句语料所属意图包括的所有相似句语料作为候选相似句语料,并利用获取的所有候选相似句语料构建候选相似句语料集合。
对于一个相似句语料来说,当各目标相似句语料与该相似句语料的相似度的最小值还比预定相似度最小值阈值大,说明该相似句语料与各目标相似句语料的整体相比是足够相似的,在本实施例中,提高了获取候选相似句语料的标准。
步骤250,基于所述候选相似句语料集合中各候选相似句语料与所述目标相似句语料集合中所述目标相似句语料的相似度,在所述候选相似句语料集合的候选相似句语料中确定出属于所述目标意图的目标相似句语料。
在一个实施例中,步骤250可以包括:
基于所述候选相似句语料集合中各候选相似句语料与所述目标相似句语料集合中所述目标相似句语料的相似度,利用如下公式计算所述候选相似句语料集合中各候选相似句语料的得分,并基于所述得分在所述候选相似句语料集合的候选相似句语料中确定出属于所述目标意图的目标相似句语料:
其中,si和sj代表所述目标相似句语料,sk代表所述候选相似句语料,Len用于求取集合内词元素的个数,fscore(s1,s2)为所述目标相似句语料与所述候选相似句语料的相似度,C为所述候选相似句语料集合,O为所述目标相似句语料集合,n为所述候选相似句语料集合中所述候选相似句语料的数目,m为所述目标相似句语料集合中所述目标相似句语料的数目,α为权重因子,selectSen为所述候选相似句语料集合中候选相似句语料的得分。
比如,α可以为0.7,那么1-α为0.3。
在上述公式中,这一部分计算了所述目标相似句语料集合中所述目标相似句语料与所述候选相似句语料集合中所述候选相似句语料的相似度的平均值,即衡量了所述目标相似句语料与所述候选相似句语料的平均相似程度;/>这一部分计算了所述目标相似句语料集合中所述目标相似句语料与所述候选相似句语料集合中所述候选相似句语料的相似度的最大值。
因此,上述公式一方面考虑了选择平均相似度高的候选相似句语料,可以保证目标相似句语料与原目标意图的目标相似句语料含义相似;同时也计算了相似性总分上减掉一定权重的候选相似句语料与已有目标相似句语料中某条目标相似句语料最相似的相似度,可以保证生成的目标相似句语料是对已有目标相似句语料的语义补充。
在一个实施例中,所述基于所述候选相似句语料集合中各候选相似句语料与所述目标相似句语料集合中所述目标相似句语料的相似度,利用如下公式计算所述候选相似句语料集合中各候选相似句语料的得分,并基于所述得分在所述候选相似句语料集合的候选相似句语料中确定出属于所述目标意图的目标相似句语料,包括:
迭代执行目标相似句语料选取步骤,所述目标相似句语料选取步骤包括:
执行确定候选相似句语料得分步骤,所述确定候选相似句语料得分步骤包括:基于所述候选相似句语料集合中各候选相似句语料与所述目标相似句语料集合中所述目标相似句语料的相似度,利用如下公式计算所述候选相似句语料集合中各候选相似句语料的得分:
其中,si和sj代表所述目标相似句语料,sk代表所述候选相似句语料,Len用于求取集合内词元素的个数,fscore(s1,s2)为所述目标相似句语料与所述候选相似句语料的相似度,C为所述候选相似句语料集合,O为所述目标相似句语料集合,n为所述候选相似句语料集合中所述候选相似句语料的数目,m为所述目标相似句语料集合中所述目标相似句语料的数目,α为权重因子,selectSen为所述候选相似句语料集合中候选相似句语料的得分;
在所述候选相似句语料集合的各候选相似句语料中获取所述得分最高的候选相似句语料,作为目标候选相似句语料;
若该目标候选相似句语料的得分达到预定得分阈值,则将该目标候选相似句语料作为目标相似句语料加入至所述目标相似句语料集合,并将该目标候选相似句语料从所述候选相似句语料集合删除;
转至所述确定候选相似句语料得分步骤,直至所述目标相似句语料集合中包括的目标相似句语料的数目达到第二预定数目或者对所述候选相似句语料集合的所有候选相似句语料均经过了判断。
在本实施例中,一方面,通过在将目标候选相似句语料作为目标相似句语料加入至目标相似句语料集合后,重新转至确定候选相似句语料得分步骤,利用扩增后的目标相似句语料集合重新计算候选相似句语料集合中各候选相似句语料的得分,使得确定出的候选相似句语料的得分越来越准确,从而保证了加入至目标相似句语料集合的目标相似句语料的质量;另一方面,通过每次选取得分最高并且得分达到预定得分阈值的候选相似句语料加入至目标相似句语料集合,使得加入至目标相似句语料集合的候选相似句语料总是候选相似句语料集合中得分最高的,从而进一步保证了所迁移的目标相似句语料的质量。
在一个实施例中,通过以下方式确定对所述候选相似句语料集合的所有候选相似句语料均经过了判断:
每当对所述候选相似句语料集合的一个候选相似句语料进行了判断,则为该候选相似句语料打上标签,当所述候选相似句语料集合的所有候选相似句语料均被打上标签时,则确定对所述候选相似句语料集合的所有候选相似句语料均经过了判断。
在一个实施例中,所述基于所述得分在所述候选相似句语料集合的候选相似句语料中确定出属于所述目标意图的目标相似句语料,包括:
获取所述得分达到预定得分阈值的候选相似句语料,作为属于所述目标意图的目标相似句语料。
在本实施例中,通过得分与预定得分阈值的比较来确定目标相似句语料,保证了选择出的目标相似句语料的合理性。
在一个实施例中,所述基于所述得分在所述候选相似句语料集合的候选相似句语料中确定出属于所述目标意图的目标相似句语料,包括:
若所述得分达到预定得分阈值的候选相似句语料的数目达到第三预定数目,则在所述得分达到预定得分阈值的候选相似句语料中任取第三预定数目个候选相似句语料,作为属于所述目标意图的目标相似句语料;
若所述得分达到预定得分阈值的候选相似句语料的数目未达到第三预定数目,则获取所述得分达到预定得分阈值的候选相似句语料,作为属于所述目标意图的目标相似句语料。
在本实施例中,当得分达到预定得分阈值的候选相似句语料的数目过多时,对最终选择的目标相似句语料的数量进行了限制。
在一个实施例中,所述基于所述得分在所述候选相似句语料集合的候选相似句语料中确定出属于所述目标意图的目标相似句语料,包括:
执行确定目标候选相似句语料步骤,所述确定目标候选相似句语料步骤包括:在所述候选相似句语料集合的各候选相似句语料中获取所述得分最高的候选相似句语料,作为目标候选相似句语料;
若该目标候选相似句语料的得分达到预定得分阈值,则将该目标候选相似句语料作为目标相似句语料加入至所述目标相似句语料集合,并将该目标候选相似句语料从所述候选相似句语料集合删除;
转至所述确定目标候选相似句语料步骤,直至所述目标相似句语料集合中包括的目标相似句语料的数目达到第二预定数目或者对所述候选相似句语料集合的所有候选相似句语料均经过了判断。
在本实施例中,通过每次所述选取得分最高的候选相似句语料,并在判断该候选相似句语料的得分达到预定得分阈值时就将该候选相似句语料加入至目标相似句语料集合,使得加入至目标相似句语料集合的候选相似句语料得分是最高的,从而保证了所迁移的目标相似句语料的质量。
在一个实施例中,所述基于所述得分在所述候选相似句语料集合的候选相似句语料中确定出属于所述目标意图的目标相似句语料,包括:
对所述候选相似句语料集合的各候选相似句语料按照所述得分从高到低的顺序进行排序;
按照所述排序的顺序,每次选取一个候选相似句语料,若该候选相似句语料的得分达到预定得分阈值,则将该候选相似句语料作为目标相似句语料加入至所述目标相似句语料集合,并将该候选相似句语料从所述候选相似句语料集合删除,直至所述目标相似句语料集合中包括的目标相似句语料的数目达到第二预定数目或者选取的候选相似句语料的得分未达到预定得分阈值。
综上所述,根据图2实施例提供的对话机器人意图语料生成方法,通过利用知识迁移的方式,将其他意图的语料迁移到需要扩展的意图中,从而实现意图语料的自动扩充,提高了意图语料的数量,可以使各意图的语料数量更为均衡,进而在一定程度上提高了意图识别的准确率,还降低了扩展意图语料所需的成本。
本公开还提供了一种对话机器人意图语料生成装置,以下是本公开的装置实施例。
图5是根据一示例性实施例示出的一种对话机器人意图语料生成装置的框图。如图5所示,装置500包括:
第一获取模块510,被配置为获取包括多个意图的意图集合,其中,每一意图包括多个相似句语料,每一意图对应一个对话机器人,每一对话机器人具有至少一个意图;
第二获取模块520,被配置为获取目标意图所包括的目标相似句语料,作为目标相似句语料集合;
第一确定模块530,被配置为确定所述目标相似句语料与所述相似句语料的相似度;
构建模块540,被配置为基于所述相似度在所述意图集合中选择出候选相似句语料,以构建候选相似句语料集合;
第二确定模块550,被配置为基于所述候选相似句语料集合中各候选相似句语料与所述目标相似句语料集合中所述目标相似句语料的相似度,在所述候选相似句语料集合的候选相似句语料中确定出属于所述目标意图的目标相似句语料。
根据本公开的第三方面,还提供了一种能够实现上述方法的电子设备。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
下面参照图6来描述根据本发明的这种实施方式的电子设备600。图6显示的电子设备600仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于:上述至少一个处理单元610、上述至少一个存储单元620、连接不同系统组件(包括存储单元620和处理单元610)的总线630。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元610执行,使得所述处理单元610执行本说明书上述“实施例方法”部分中描述的根据本发明各种示例性实施方式的步骤。
存储单元620可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)621和/或高速缓存存储单元622,还可以进一步包括只读存储单元(ROM)623。
存储单元620还可以包括具有一组(至少一个)程序模块625的程序/实用工具624,这样的程序模块625包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线630可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备600也可以与一个或多个外部设备800(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备600交互的设备通信,和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且,电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器660通过总线630与电子设备600的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。
根据本公开的第四方面,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。
参考图7所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品700,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
此外,上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围执行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (6)

1.一种对话机器人意图语料生成方法,其特征在于,所述方法包括:
获取包括多个意图的意图集合,其中,每一意图包括多个相似句语料,每一意图对应一个对话机器人,每一对话机器人具有至少一个意图;
获取目标意图所包括的目标相似句语料,作为目标相似句语料集合,所述目标相似句语料和所述相似句语料分别由多个词元素组成;
利用如下公式确定所述目标相似句语料与所述相似句语料的相似度:
其中,s1代表所述目标相似句语料,s2代表所述相似句语料,Len用于求取集合内词元素的个数,fscore(s1,s2)为所述目标相似句语料与所述相似句语料的相似度;
基于所述相似度在所述意图集合中选择出候选相似句语料,以构建候选相似句语料集合;
基于所述候选相似句语料集合中各候选相似句语料与所述目标相似句语料集合中所述目标相似句语料的相似度,利用如下公式计算所述候选相似句语料集合中各候选相似句语料的得分:
其中,si和sj代表所述目标相似句语料,sk代表所述候选相似句语料,Len用于求取集合内词元素的个数,fscore(s1,s2)为所述目标相似句语料与所述候选相似句语料的相似度,C为所述候选相似句语料集合,O为所述目标相似句语料集合,n为所述候选相似句语料集合中所述候选相似句语料的数目,m为所述目标相似句语料集合中所述目标相似句语料的数目,α为权重因子,selectSen为所述候选相似句语料集合中候选相似句语料的得分;
执行确定目标候选相似句语料步骤,所述确定目标候选相似句语料步骤包括:在所述候选相似句语料集合的各候选相似句语料中获取所述得分最高的候选相似句语料,作为目标候选相似句语料;
若该目标候选相似句语料的得分达到预定得分阈值,则将该目标候选相似句语料作为目标相似句语料加入至所述目标相似句语料集合,并将该目标候选相似句语料从所述候选相似句语料集合删除;
转至所述确定目标候选相似句语料步骤,直至所述目标相似句语料集合中包括的目标相似句语料的数目达到第二预定数目或者对所述候选相似句语料集合的所有候选相似句语料均经过了判断。
2.根据权利要求1所述的方法,其特征在于,所述意图集合为意图子集合,所述获取包括多个意图的意图集合,包括:
基于第一预定规则从包括多个意图的意图总集合中选择出多个意图组成意图子集合,其中,每一意图包括多个相似句语料,所述意图总集合中的每一意图对应一个对话机器人;
所述获取目标意图所包括的目标相似句语料,作为目标相似句语料集合,包括:
基于第二预定规则在所述意图子集合中意图对应的对话机器人之外的其他所有对话机器人对应的意图中选择出目标意图;
获取目标意图包括的相似句语料作为目标相似句语料,得到目标相似句语料集合。
3.根据权利要求1或2所述的方法,其特征在于,所述基于所述相似度在所述意图集合中选择出候选相似句语料,以构建候选相似句语料集合,包括:
针对所述意图集合中每一意图,若该意图包括的相似句语料中存在一个相似句语料与所述目标相似句语料的相似度大于预定相似度阈值,则获取该意图包括的所有相似句语料作为候选相似句语料;
利用获取的所有候选相似句语料构建候选相似句语料集合。
4.一种对话机器人意图语料生成装置,其特征在于,所述装置包括:
第一获取模块,被配置为获取包括多个意图的意图集合,其中,每一意图包括多个相似句语料,每一意图对应一个对话机器人,每一对话机器人具有至少一个意图;
第二获取模块,被配置为获取目标意图所包括的目标相似句语料,作为目标相似句语料集合,所述目标相似句语料和所述相似句语料分别由多个词元素组成;
第一确定模块,被配置为利用如下公式确定所述目标相似句语料与所述相似句语料的相似度:
其中,s1代表所述目标相似句语料,s2代表所述相似句语料,Len用于求取集合内词元素的个数,fscore(s1,s2)为所述目标相似句语料与所述相似句语料的相似度;
构建模块,被配置为基于所述相似度在所述意图集合中选择出候选相似句语料,以构建候选相似句语料集合;
第二确定模块,被配置为基于所述候选相似句语料集合中各候选相似句语料与所述目标相似句语料集合中所述目标相似句语料的相似度,利用如下公式计算所述候选相似句语料集合中各候选相似句语料的得分:
其中,si和sj代表所述目标相似句语料,sk代表所述候选相似句语料,Len用于求取集合内词元素的个数,fscore(s1,s2)为所述目标相似句语料与所述候选相似句语料的相似度,C为所述候选相似句语料集合,O为所述目标相似句语料集合,n为所述候选相似句语料集合中所述候选相似句语料的数目,m为所述目标相似句语料集合中所述目标相似句语料的数目,α为权重因子,selectSen为所述候选相似句语料集合中候选相似句语料的得分;
执行确定目标候选相似句语料步骤,所述确定目标候选相似句语料步骤包括:在所述候选相似句语料集合的各候选相似句语料中获取所述得分最高的候选相似句语料,作为目标候选相似句语料;
若该目标候选相似句语料的得分达到预定得分阈值,则将该目标候选相似句语料作为目标相似句语料加入至所述目标相似句语料集合,并将该目标候选相似句语料从所述候选相似句语料集合删除;
转至所述确定目标候选相似句语料步骤,直至所述目标相似句语料集合中包括的目标相似句语料的数目达到第二预定数目或者对所述候选相似句语料集合的所有候选相似句语料均经过了判断。
5.一种计算机可读程序介质,其特征在于,其存储有计算机程序指令,当所述计算机程序指令被计算机执行时,使计算机执行根据权利要求1至3中任一项所述的方法。
6.一种电子设备,其特征在于,所述电子设备包括:
处理器;
存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,实现如权利要求1至3任一项所述的方法。
CN202010201001.8A 2020-03-20 2020-03-20 对话机器人意图语料生成方法、装置、介质及电子设备 Active CN111460117B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010201001.8A CN111460117B (zh) 2020-03-20 2020-03-20 对话机器人意图语料生成方法、装置、介质及电子设备
PCT/CN2020/093043 WO2021184547A1 (zh) 2020-03-20 2020-05-28 对话机器人意图语料生成方法、装置、介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010201001.8A CN111460117B (zh) 2020-03-20 2020-03-20 对话机器人意图语料生成方法、装置、介质及电子设备

Publications (2)

Publication Number Publication Date
CN111460117A CN111460117A (zh) 2020-07-28
CN111460117B true CN111460117B (zh) 2024-03-08

Family

ID=71685675

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010201001.8A Active CN111460117B (zh) 2020-03-20 2020-03-20 对话机器人意图语料生成方法、装置、介质及电子设备

Country Status (2)

Country Link
CN (1) CN111460117B (zh)
WO (1) WO2021184547A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784024B (zh) * 2021-01-11 2023-10-31 软通动力信息技术(集团)股份有限公司 一种人机对话的方法、装置、设备以及存储介质
CN113539245B (zh) * 2021-07-05 2024-03-15 思必驰科技股份有限公司 语言模型自动训练方法及系统
CN114996506B (zh) * 2022-05-24 2024-07-23 腾讯科技(深圳)有限公司 语料生成方法、装置、电子设备和计算机可读存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103617280A (zh) * 2013-12-09 2014-03-05 苏州大学 一种中文事件信息挖掘方法和系统
CN104021796A (zh) * 2013-02-28 2014-09-03 华为技术有限公司 语音增强处理方法和装置
CN104216875A (zh) * 2014-09-26 2014-12-17 中国科学院自动化研究所 基于非监督关键二元词串提取的微博文本自动摘要方法
CN104834735A (zh) * 2015-05-18 2015-08-12 大连理工大学 一种基于词向量的文档摘要自动提取方法
CN106598949A (zh) * 2016-12-22 2017-04-26 北京金山办公软件股份有限公司 一种词语对文本贡献度的确定方法及装置
CN109933787A (zh) * 2019-02-14 2019-06-25 安徽省泰岳祥升软件有限公司 文本关键信息的提取方法、装置及介质
CN110222192A (zh) * 2019-05-20 2019-09-10 国网电子商务有限公司 语料库建立方法及装置
CN110765759A (zh) * 2019-10-21 2020-02-07 普信恒业科技发展(北京)有限公司 意图识别方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1940915B (zh) * 2005-09-29 2010-05-05 国际商业机器公司 训练语料扩充系统和方法
CN109597873B (zh) * 2018-11-21 2022-02-08 腾讯科技(深圳)有限公司 语料数据的处理方法、装置、计算机可读介质及电子设备
CN109710939B (zh) * 2018-12-28 2023-06-09 北京百度网讯科技有限公司 用于确定主题的方法和装置
CN110390006B (zh) * 2019-07-23 2023-11-10 腾讯科技(深圳)有限公司 问答语料生成方法、装置和计算机可读存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104021796A (zh) * 2013-02-28 2014-09-03 华为技术有限公司 语音增强处理方法和装置
CN103617280A (zh) * 2013-12-09 2014-03-05 苏州大学 一种中文事件信息挖掘方法和系统
CN104216875A (zh) * 2014-09-26 2014-12-17 中国科学院自动化研究所 基于非监督关键二元词串提取的微博文本自动摘要方法
CN104834735A (zh) * 2015-05-18 2015-08-12 大连理工大学 一种基于词向量的文档摘要自动提取方法
CN106598949A (zh) * 2016-12-22 2017-04-26 北京金山办公软件股份有限公司 一种词语对文本贡献度的确定方法及装置
CN109933787A (zh) * 2019-02-14 2019-06-25 安徽省泰岳祥升软件有限公司 文本关键信息的提取方法、装置及介质
CN110222192A (zh) * 2019-05-20 2019-09-10 国网电子商务有限公司 语料库建立方法及装置
CN110765759A (zh) * 2019-10-21 2020-02-07 普信恒业科技发展(北京)有限公司 意图识别方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于词向量的Jaccard相似度算法;田星等;《计算机科学》;第186-189页 *

Also Published As

Publication number Publication date
WO2021184547A1 (zh) 2021-09-23
CN111460117A (zh) 2020-07-28

Similar Documents

Publication Publication Date Title
CN110415679B (zh) 语音纠错方法、装置、设备和存储介质
CN110019732B (zh) 一种智能问答方法以及相关装置
CN110276023B (zh) Poi变迁事件发现方法、装置、计算设备和介质
CN111460117B (zh) 对话机器人意图语料生成方法、装置、介质及电子设备
AU2017425675B2 (en) Extracting domain-specific actions and entities in natural language commands
CN111428042B (zh) 对话服务中的实体级澄清
AU2017424116B2 (en) Extracting domain-specific actions and entities in natural language commands
CN109783490B (zh) 数据融合方法、装置、计算机设备及存储介质
CN110941951B (zh) 文本相似度计算方法、装置、介质及电子设备
CN114840671A (zh) 对话生成方法、模型的训练方法、装置、设备及介质
US20190042560A1 (en) Extracting domain-specific actions and entities in natural language commands
CN113220835B (zh) 文本信息处理方法、装置、电子设备以及存储介质
CN112926308B (zh) 匹配正文的方法、装置、设备、存储介质以及程序产品
CN111126084B (zh) 数据处理方法、装置、电子设备和存储介质
CN116049370A (zh) 信息查询方法和信息生成模型的训练方法、装置
CN114218356B (zh) 基于人工智能的语义识别方法、装置、设备及存储介质
CN113362809B (zh) 语音识别方法、装置和电子设备
CN111090769A (zh) 一种歌曲推荐的方法、装置、设备和计算机存储介质
CN112466278B (zh) 语音识别方法、装置和电子设备
CN116244432B (zh) 语言模型的预训练方法、装置及电子设备
CN116383491B (zh) 信息推荐方法、装置、设备、存储介质和程序产品
CN113223500B (zh) 语音识别方法、训练语音识别模型的方法及对应装置
CN114330345B (zh) 命名实体识别方法、训练方法、装置、电子设备及介质
CN113763952B (zh) 一种动态语音识别方法、装置、电子设备以及存储介质
EP4131022A1 (en) Method and apparatus of determining location information, electronic device, storage medium, and program product

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant