CN112016297B - 意图识别模型测试方法、装置、计算机设备和存储介质 - Google Patents

意图识别模型测试方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN112016297B
CN112016297B CN202010879682.3A CN202010879682A CN112016297B CN 112016297 B CN112016297 B CN 112016297B CN 202010879682 A CN202010879682 A CN 202010879682A CN 112016297 B CN112016297 B CN 112016297B
Authority
CN
China
Prior art keywords
corpus
intention
logic
dictionary
recognition model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010879682.3A
Other languages
English (en)
Other versions
CN112016297A (zh
Inventor
刘芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
OneConnect Financial Technology Co Ltd Shanghai
Original Assignee
OneConnect Financial Technology Co Ltd Shanghai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by OneConnect Financial Technology Co Ltd Shanghai filed Critical OneConnect Financial Technology Co Ltd Shanghai
Priority to CN202010879682.3A priority Critical patent/CN112016297B/zh
Publication of CN112016297A publication Critical patent/CN112016297A/zh
Application granted granted Critical
Publication of CN112016297B publication Critical patent/CN112016297B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及大数据技术领域,特别是涉及一种意图识别模型测试方法、装置、计算机设备和存储介质。所述方法包括:接收终端发送的意图识别模型生成请求,意图识别模型生成请求携带有请求内容;对请求内容进行解析得到解析结果,并获取解析结果对应的语料逻辑;根据语料逻辑,建立对应意图识别模型生成请求的意图识别模型;确定对应语料逻辑的语料片段,并根据语料片段生成对应的意图测试语料;通过意图测试语料对意图识别模型进行测试。采用本方法能够提升意图识别模型以及测试语料的编写智能化水平。此外,本发明还涉及区块链技术,意图识别模型生成请求、各语料逻辑以及意图测试语料均可存储于区块链中。

Description

意图识别模型测试方法、装置、计算机设备和存储介质
技术领域
本申请涉及大数据技术领域,特别是涉及一种意图识别模型测试方法、装置、计算机设备和存储介质。
背景技术
句式意图识别是一种意图识别的方式,是基于一种基于意图识别模型来实现意图识别,如正则表达式等。
在传统方式中,意图识别模型通常由人工进行编写,然后通过人工编写测试语料对编写的意图识别模型进行测试。
通过人工进行意图识别模型以及测试语料的编写,费时且费力,智能化水平较低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提升意图识别模型以及测试语料的编写智能化水平的意图识别模型测试方法、装置、计算机设备和存储介质。
一种意图识别模型测试方法,所述方法包括:
接收终端发送的意图识别模型生成请求,意图识别模型生成请求携带有请求内容;
对请求内容进行解析得到解析结果,并获取解析结果对应的语料逻辑;
根据语料逻辑,建立对应意图识别模型生成请求的意图识别模型;
确定对应语料逻辑的语料片段,并根据语料片段生成对应的意图测试语料;
通过意图测试语料对意图识别模型进行测试。
在其中一个实施例中,确定对应语料逻辑的语料片段,并生成对应的意图测试语料,包括:
确定对应语料逻辑的正向语料片段和反向语料片段,并基于正向语料片段和反向语料片段,生成正向意图测试语料以及反向意图测试语料;
通过意图测试语料对意图识别模型进行测试,包括:
分别通过正向意图测试语料以及反向意图测试语料对意图识别模型进行测试。
在其中一个实施例中,确定对应语料逻辑的语料片段,并生成对应的意图测试语料,包括:
从语料逻辑对应的数据库中获取对应的语料片段;
按照建立的意图识别模型中各语料逻辑的排列顺序,对获取的语料片段进行拼接,生成对应的意图测试语料。
在其中一个实施例中,从各语料逻辑对应的数据库中获取对应的语料片段,包括:
从语料词典数据库对应各语料逻辑的语料词典中获取对应的词典语料片段;
语料词典的建立方式包括:
建立字符库;
获取语料词典生成请求,并根据语料词典生成请求以及字符库生成词典语料片段;
基于生成的词典语料片段建立语料词典。
在其中一个实施例中,根据语料词典生成请求以及字符库生成词典语料片段,包括:
基于语料词典生成请求,确定待生成语料词典中待生成词典语料片段的语料数量以及语料长度;
从字符库中随机选取字符,并组成对应语料长度的词典语料片段;
基于生成的词典语料片段建立语料词典,包括:
根据语料数量,生成对应语料数量的多个词典语料片段,得到词典语料片段集;
将词典语料片段集存储至建立的空白语料词典中,得到对应语料词典生成请求的语料词典。
在其中一个实施例中,上述方法还包括:
将意图识别模型生成请求、各语料逻辑以及意图测试语料中的至少一个上传至区块链节点中进行存储。
一种意图识别模型测试装置,所述装置包括:
接收模块,用于接收终端发送的意图识别模型生成请求,意图识别模型生成请求携带有请求内容;
解析模块,用于对请求内容进行解析得到解析结果,并获取解析结果对应的语料逻辑;
模型建立模块,用于根据语料逻辑,建立对应意图识别模型生成请求的意图识别模型;
测试预料生成模块,用于确定对应语料逻辑的语料片段,并根据语料片段生成对应的意图测试语料;
测试模块,用于通过意图测试语料对意图识别模型进行测试。
在其中一个实施例中,测试预料生成模块用于确定对应语料逻辑的正向语料片段和反向语料片段,并基于正向语料片段和反向语料片段,生成正向意图测试语料以及反向意图测试语料;
测试模块用于分别通过正向意图测试语料以及反向意图测试语料对意图识别模型进行测试。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
上述意图识别模型测试方法、装置、计算机设备和存储介质,通过接收终端发送的意图识别模型生成请求,意图识别模型生成请求携带有请求内容,然后对请求内容进行解析得到解析结果,并获取解析结果对应的语料逻辑,根据语料逻辑,建立对应意图识别模型生成请求的意图识别模型,确定对应语料逻辑的语料片段,并根据语料片段生成对应的意图测试语料,进一步通过意图测试语料对意图识别模型进行测试。从而,可以基于终端的请求自动化的生成意图识别模型以及意图测试语料,提升了意图识别模型以及意图测试语料生成的智能化水平。并且,通过根据语料逻辑生成意图识别模型以及意图测试语料,可以生成大数据量的意图识别模型以及语料,可以使得生成的意图识别模型覆盖较大的应用范围,应用性较广。进一步,由于生成了大数据量的意图测试语料,可以对意图识别模型进行更加全面的测试,提升生成的意图识别模型的准确性,提升测试效果。
附图说明
图1为一个实施例中意图识别模型测试方法的应用场景图;
图2为一个实施例中意图识别模型测试方法的流程示意图;
图3为一个实施例中意图识别模型测试装置的结构框图;
图4为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的意图识别模型测试方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。用户通过终端102生成意图识别模型生成请求,并发送至服务器104,意图识别模型生成请求携带有请求内容。服务器104再接收到终端102发送的意图识别模型生成请求后,可以对意图识别模型生成请求中的请求内容进行解析得到解析结果,并获取解析结果对应的语料逻辑。然后服务器104可以根据语料逻辑,建立对应意图识别模型生成请求的意图识别模型,确定对应语料逻辑的语料片段,并根据语料片段生成对应的意图测试语料。进一步,服务器104通过意图测试语料对意图识别模型进行测试。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种意图识别模型测试方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤S202,接收终端发送的意图识别模型生成请求,意图识别模型生成请求携带有请求内容。
其中,意图识别模型生成请求是指请求生成意图识别模型的请求,意图识别模型生成请求中可以携带有具体的请求内容,例如,待生成的意图识别模型包括哪些语料逻辑,每一个语料逻辑的数量等。
意图识别模型是指用于识别用户句子意图的模型,在本实施例中,意图识别模型也可以是意图识别表达式等。
在本实施例中,用户可以通过终端创建意图识别模型生成请求,并发送至服务器,以使得服务器根据接收到的意图识别模型生成请求进行后续的处理。
步骤S204,对请求内容进行解析得到解析结果,并获取解析结果对应的语料逻辑。
其中,语料逻辑是指用于建立意图识别模型以及生成意图测试语料的逻辑,可以包括但不限于全匹配逻辑、可选逻辑、必选逻辑、逻辑或、词典参数逻辑以及通配符逻辑等。
其中,全匹配逻辑是指用户输入的语料需要和意图识别模型完全匹配。
可选逻辑表示为[],是指逻辑可匹配,也可以不匹配,即逻辑中的内容可以匹配也可以不匹配,例如,对于可选逻辑“[帮我/请帮我/麻烦帮我]打水”,其对应的内容可以为“打水”、“帮我打水”、“请帮我打水”、“麻烦帮我打水”。
必须逻辑表示为(),是指逻辑中的内容必须匹配上,例如,“附件的(餐馆/饭店)”,其对应的内容可以为“附近的餐馆”或者“附近的饭店”。
逻辑或表示为“/”,用于表示某个部分“逻辑或关系”,例如,“小明的(电话/联系方式)”,其对应的内容可以为“小明的电话”或者“小明的联系方式”。
词典参数逻辑表示为${city},是指从预设词典中选取内容,例如,${city}是指从预设词典“city”中选取内容。
通配符逻辑是指任意字符通配,可以表示为{A,B},表示在A~B数量范围内的任意数量的任意字符。例如,{0,3}代表0到3数量范围内的任意字符。
在本实施例中,服务器接收到终端发送的意图识别模型生成请求之后,可以对携带的请求内容进行解析,得到对应的解析结果。例如,请求内容为“要生成的正则表达式包括:1个通配符、1个词典参数、1个可选项”,则服务器通过对关键词以及数字字符串等进行解析,可以得到解析结果为“1通配符逻辑”“1词典参数逻辑”“1可选逻辑”。
进一步,服务器可以根据解析结果从数据库中获取对应的语料逻辑,例如,服务器可以从数据库中分别选取1个通配符逻辑、1个词典参数逻辑以及1个可选逻辑。
步骤S206,根据语料逻辑,建立对应意图识别模型生成请求的意图识别模型。
具体地,服务器在获取到各语料逻辑后,可以将各语料逻辑进行拼接组合,以生成对应意图识别表达请求的意图识别模型。
在本实施例中,根据服务器选取的语料逻辑的不同,如通配符逻辑或词典参数逻辑或可选逻辑的不同,生成的意图识别模型可以不同。例如,选取的通配符逻辑可以为{0,3}或{0,2}或者{5,8}等。
进一步,服务器在确定对应意图识别模型生成请求的语料逻辑后,根据多个语料逻辑的组合顺序的不同,服务器可以生成对应意图识别模型生成请求的多个意图识别模型。例如,延用前例,服务器在从数据库中分别选取1个通配符逻辑、1个词典参数逻辑以及1个可选逻辑后,生成的意图识别模型可以为“.{0,3}${dict1}[天气]”或者“.{0,2}${dict2}[天气|温度]”或者“${dict2}.{0,5}[天气/温度]”等。
步骤S208,确定对应语料逻辑的语料片段,并根据语料片段生成对应的意图测试语料。
其中,语料片段是指与语料逻辑对应的文本片段,可以是指单个文本字或者文本词语等。
在本实施例中,服务器在确定各语料逻辑后,可以基于得到的语料逻辑,从数据库中随机确定对应各语料逻辑的语料片段,并生成对应的意图测试语料。例如,获取对应通配符逻辑的通配字符、获取对应词典参数逻辑的语料词典中的词典语料片段等。
在本实施例中,由于语料逻辑对应语料片段的不可穷尽特征,服务器可以根据每一语料逻辑,确定对应语料逻辑的多个语料片段,例如,对于通配符逻辑{0,3},服务器可以从数据库中随机选取0~3个字符组成对应通配符逻辑{0,3}的语料片段,即服务器可以根据语料逻辑确定无穷尽数量的语料片段。
进一步,服务器可以基于语料逻辑对应的语料片段,生成对应意图识别模型的无穷尽的意图测试语料。
步骤S210,通过意图测试语料对意图识别模型进行测试。
具体地,服务器可以根据生成的意图测试语料,对所生成的意图识别模型进行测试,并输出测试结果,以根据测试结果确定生成的意图识别模型的识别结果是否准确。
在本实施例中,如前文所述,根据语料逻辑的不同、语料逻辑的组合顺序的不同,生成的意图识别模型可以不同,则服务器可以根据对应的语料逻辑得到的意图测试语料,并对对应的意图识别模型进行测试。
上述意图识别模型测试方法中,通过接收终端发送的意图识别模型生成请求,意图识别模型生成请求携带有请求内容,然后对请求内容进行解析得到解析结果,并获取解析结果对应的语料逻辑,根据语料逻辑,建立对应意图识别模型生成请求的意图识别模型,确定对应语料逻辑的语料片段,并根据语料片段生成对应的意图测试语料,进一步通过意图测试语料对意图识别模型进行测试。从而,可以基于终端的请求自动化的生成意图识别模型以及意图测试语料,提升了意图识别模型以及意图测试语料生成的智能化水平。并且,通过根据语料逻辑生成意图识别模型以及意图测试语料,可以生成大数据量的意图识别模型以及语料,可以使得生成的意图识别模型覆盖较大的应用范围,应用性较广。进一步,由于生成了大数据量的意图测试语料,可以对意图识别模型进行更加全面的测试,提升生成的意图识别模型的准确性,提升测试效果。
在其中一个实施例中,确定对应语料逻辑的语料片段,并生成对应的意图测试语料,可以包括:确定对应语料逻辑的正向语料片段和反向语料片段,并基于正向语料片段和反向语料片段,生成正向意图测试语料以及反向意图测试语料。
其中,正向语料片段是指与对应的语料逻辑匹配的语料片段,反向语料片段是指与对应的语料逻辑不匹配的语料片段。
正向意图测试语料是指基于正向语料片段生成的意图测试语料,反向意图测试语料是指基于至少一个反向语料片段生成的意图测试语料,即正向意图测试语料中所有的语料片段均可以与对应的语料逻辑匹配,而反向意图测试语料中有至少一个语料片段与语料逻辑不匹配。
在本实施例中,服务器基于各语料逻辑,生成对应语料逻辑的正向语料片段以及反向语料片段,例如,对于通配符逻辑{0,3},生成的正向语料片段为0~3个字符内的文本内容,反向语料片段为大于3个字符的文本内容,或者对于必选逻辑(天气/气温/温度),生成的正向语料片段为“天气”或者“气温”或者“温度”,而生成的反向语料片段为“天空”或者“天气气温”或者无对应的语料片段等。
进一步,服务器基于得到的正向语料片段和反向语料片段,生成对应的正向意图测试语料以及反向意图测试语料。
在本实施例中,通过意图测试语料对意图识别模型进行测试,可以包括:分别通过正向意图测试语料以及反向意图测试语料对意图识别模型进行测试。
在本实施例中,服务器可以通过生成的正向意图测试语料以及反向意图测试语料,分别对意图识别模型进行测试,并生成对应的测试结果。
在其中一个实施例中,在生成对应的测试结果,可以根据测试结果判断生成的意图识别模型是否准确性。例如,当意图测试语料为正向意图测试语料,而服务器生成的测试结果为不匹配,则确定意图识别模型识别错误.同理,若意图测试语料为反向意图测试语料,而服务器生成的测试结果为匹配,则确定意图识别模型识别错误。以此类推,当意图测试语料为正向意图测试语料,而服务器生成的测试结果为匹配,或者当意图测试语料为反向意图测试语料,而服务器生成的测试结果为不匹配,则可以确定意图识别模型识别正确。
在本实施例中,服务器可以通过对意图识别模型进行多次测试,以确定意图识别模型的准确性,例如,可以统计多次正向意图测试语料以及反向意图测试语料的测试结果,并基于统计的结果,确定准确率,进而确定该意图识别模型的准确性。
具体地,在经过多次测试后,服务器确定识别准确率高于预设阈值,则确定意图识别模型准确,若服务器确定识别准确率低于预设阈值,则确定意图识别模型不准确。
上述实施例中,通过生成正向意图测试语料以及反向意图测试语料,并对生成的意图识别模型进行测试,从而,可以通过正向案例以及反向案例对意图识别模型均进行测试,可以使得测试数据更加完善,可以对意图识别模型进行更加全面的测试,提升生成的意图识别标识的准确性,提升测试效果。
在其中一个实施例中,确定对应语料逻辑的语料片段,并生成对应的意图测试语料,可以包括:从语料逻辑对应的数据库中获取对应的语料片段;按照建立的意图识别模型中各语料逻辑的排列顺序,对获取的语料片段进行拼接,生成对应的意图测试语料。
在本实施例中,服务器可以分别从各语料逻辑对应的数据库中获取对应的语料片段,并按照意图识别模型中各语料逻辑的排列顺序,将获取的多个语料片段拼成对应意图识别模型的意图测试语料。
具体地,服务器可以从各语料逻辑对应的数据库获取对应的语料片段,例如,从通配符对应的数据库中获取通配字符,从语料词典中获取对应词典参数逻辑的词典语料片段等。
上述实施例中,通过获取语料逻辑对应的语料片段,并按照意图识别模型中各语料逻辑的顺序,拼接成对应的测试语料,从而使得生成的意图测试语料更具针对性,可以提升测试意图识别模型的准确性。
在其中一个实施例中,从各语料逻辑对应的数据库中获取对应的语料片段,可以包括:从语料词典数据库对应各语料逻辑的语料词典中获取对应的词典语料片段。
在本实施例中,语料词典的建立方式可以包括:建立字符库;获取语料词典生成请求,并根据语料词典生成请求以及字符库生成词典语料片段;基于生成的词典语料片段建立语料词典。
其中,字符库是指用于存储对应通配符逻辑的通配字符。
语料词典生成请求是指生成语料词典的请求,语料词典生成请求中可以包括待生成语料词典的具体要求,如词典中词典语料片段的数量,词典语料片段的长度等,以及词典的名称、属性等。
词典数据库是指用于存储语料词典的数据库,词典数据库中可以存储有生成的多个语料词典。
在本实施例中,服务器可以随机从汉字库中选取预设数量的字符作为通配字符,并存储至数据库中。
进一步,服务器可以从字符库中随机选取字符,并按照接收到的语料词典生成请求的规定,生成词典语料片段,以得到对应语料词典生成请求的语料词典。
在本实施例中,服务器在建立语料词典后,可以建立语料词典与对应语料逻辑之间的映射关系,例如,建立的语料词典为“city”,则可以建立词典参数逻辑“${city}”与语料词典之间的映射关系,然后存储至数据库中。
进一步,服务器从语料逻辑对应的数据库中获取对应的语料片段的时候,可以根据语料逻辑与语料词典之间的映射关系,从语料词典数据库的对应语料逻辑的语料词典中获取对应的词典语料片段。
上述实施例中,通过建立字符库,然后根据语料词典生成请求建立语料词典,从而,后续可以直接从语料词典中获取对应的词典语料片段,而不用在复杂的数据库中进行广泛的搜索并选取语料片段,可以节约数据查阅的时间,提升处理效率。
在其中一个实施例中,根据语料词典生成请求以及字符库生成词典语料片段,可以包括:基于语料词典生成请求,确定待生成语料词典中待生成词典语料片段的语料数量以及语料长度;从字符库中随机选取字符,并组成对应语料长度的词典语料片段。
在本实施例中,基于生成的词典语料片段建立语料词典,可以包括:根据语料数量,生成对应语料数量的多个词典语料片段,得到词典语料片段集;将词典语料片段集存储至建立的空白语料词典中,得到对应语料词典生成请求的语料词典。
具体地,服务器可以根据获取的语料词典生成请求,确定待生成的语料词典的待生成语料片段的语料数量以及语料长度,例如,语料词典生成请求为“词典A.构造【10,随机(1,5)】”,其中,“10”表示词典A有10个词,“随机(1,5)”表示每个词的长度从1到5不等随机生成。
在本实施例中,服务器在确定待生成词典语料片段的语料数量以及语料长度后,可以从数据库中随机选取语料长度内的字符,并组成词典语料片段,例如,继续延用前例,服务器随机选取1~5个字符,并组成一个词典语料片段。
进一步,服务器可以进行多次选取,以得到对应语料数量的多个词典语料片段,例如,选取10次,组成10个词典语料片段。
在本实施例中,生成的多个词典语料片段可以组成词典语料片段集,然后服务器再将生成的词典语料片段集存入新建的空白语料词典中,以生成对应预料词典生成请求的语料词典,例如,存储至空白语料词典A中,以得到语料词典A。
上述实施例中,通过获取词典生成请求,并生成对应的词典语料片段,并建立语料词典,在后续对意图识别模型进行测试的时候,可以直接从语料词典中获取对应的词典语料片段并生成意图测试语料,可以节约意图测试语料的时间,提升意图测试语料的生成效率,提升意图识别模型的测试效率。
在其中一个实施例中,上述方法还可以包括:将意图识别模型生成请求、各语料逻辑以及意图测试语料中的至少一个上传至区块链节点中进行存储。
其中,区块链是指分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Block chain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。
具体地,区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
在本实施例中,服务器可以将意图识别模型生成请求、各语料逻辑以及意图测试语料中的一个或者多个数据上传并存储于区块链的节点中,以保证数据的私密性和安全性。
上述实施例中,通过将意图识别模型生成请求、各语料逻辑以及意图测试语料中至少一个上传至区块链并存储于区块链的节点中,从而可以保障存储至区块链节点中数据的私密性,可以提升数据的安全性。
应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图3所示,提供了一种意图识别模型测试装置,包括:接收模块100、解析模块200、模型建立模块300、测试预料生成模块400和测试模块500,其中:
接收模块100,用于接收终端发送的意图识别模型生成请求,意图识别模型生成请求携带有请求内容。
解析模块200,用于对请求内容进行解析得到解析结果,并获取解析结果对应的语料逻辑。
模型建立模块300,用于根据语料逻辑,建立对应意图识别模型生成请求的意图识别模型。
测试预料生成模块400,用于确定对应语料逻辑的语料片段,并根据语料片段生成对应的意图测试语料。
测试模块500,用于通过意图测试语料对意图识别模型进行测试。
在其中一个实施例中,测试预料生成模块400用于确定对应语料逻辑的正向语料片段和反向语料片段,并基于正向语料片段和反向语料片段,生成正向意图测试语料以及反向意图测试语料。
在本实施例中,测试模块500用于分别通过正向意图测试语料以及反向意图测试语料对意图识别模型进行测试。
在其中一个实施例中,测试预料生成模块400可以包括:
语料片段获取子模块,用于从语料逻辑对应的数据库中获取对应的语料片段。
拼接子模块,用于按照建立的意图识别模型中各语料逻辑的排列顺序,对获取的语料片段进行拼接,生成对应的意图测试语料。
在其中一个实施例中,语料片段获取子模块用于从语料词典数据库对应各语料逻辑的语料词典中获取对应的词典语料片段。
在本实施例中,上述装置还可以包括:语料词典建立模块,用于建立语料词典。
在本实施例中,语料词典建立模块可以包括:
字符库建立子模块,用于建立字符库。
词典语料片段生成子模块,用于获取语料词典生成请求,并根据语料词典生成请求以及字符库生成词典语料片段。
语料词典建立子模块,用于基于生成的词典语料片段建立语料词典。
在其中一个实施例中,根据词典语料片段生成子模块可以包括:
语料数量以及语料长度确定单元,用于基于语料词典生成请求,确定待生成语料词典中待生成词典语料片段的语料数量以及语料长度。
词典语料片段生成单元,用于从字符库中随机选取字符,并组成对应语料长度的词典语料片段。
在本实施例中,语料词典建立子模块可以包括:
词典语料片段集生成单元,用于根据语料数量,生成对应语料数量的多个词典语料片段,得到词典语料片段集。
语料词典生成单元,用于将词典语料片段集存储至建立的空白语料词典中,得到对应语料词典生成请求的语料词典。
在其中一个实施例中,上述装置还可以包括:
存储模块,用于将意图识别模型生成请求、各语料逻辑以及意图测试语料中的至少一个上传至区块链节点中进行存储。
关于意图识别模型测试装置的具体限定可以参见上文中对于意图识别模型测试方法的限定,在此不再赘述。上述意图识别模型测试装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储意图识别模型生成请求、各语料逻辑以及意图测试语料等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种意图识别模型测试方法。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:接收终端发送的意图识别模型生成请求,意图识别模型生成请求携带有请求内容;对请求内容进行解析得到解析结果,并获取解析结果对应的语料逻辑;根据语料逻辑,建立对应意图识别模型生成请求的意图识别模型;确定对应语料逻辑的语料片段,并根据语料片段生成对应的意图测试语料;通过意图测试语料对意图识别模型进行测试。
在其中一个实施例中,处理器执行计算机程序时实现确定对应语料逻辑的语料片段,并生成对应的意图测试语料,可以包括:确定对应语料逻辑的正向语料片段和反向语料片段,并基于正向语料片段和反向语料片段,生成正向意图测试语料以及反向意图测试语料。
在本实施例中,处理器执行计算机程序时实现通过意图测试语料对意图识别模型进行测试,可以包括:分别通过正向意图测试语料以及反向意图测试语料对意图识别模型进行测试。
在其中一个实施例中,处理器执行计算机程序时实现确定对应语料逻辑的语料片段,并生成对应的意图测试语料,可以包括:从语料逻辑对应的数据库中获取对应的语料片段;按照建立的意图识别模型中各语料逻辑的排列顺序,对获取的语料片段进行拼接,生成对应的意图测试语料。
在其中一个实施例中,处理器执行计算机程序时实现从各语料逻辑对应的数据库中获取对应的语料片段,可以包括:从语料词典数据库对应各语料逻辑的语料词典中获取对应的词典语料片段。
在本实施例中,处理器执行计算机程序时实现语料词典的建立方式可以包括:建立字符库;获取语料词典生成请求,并根据语料词典生成请求以及字符库生成词典语料片段;基于生成的词典语料片段建立语料词典。
在其中一个实施例中,处理器执行计算机程序时实现根据语料词典生成请求以及字符库生成词典语料片段,可以包括:基于语料词典生成请求,确定待生成语料词典中待生成词典语料片段的语料数量以及语料长度;从字符库中随机选取字符,并组成对应语料长度的词典语料片段。
在本实施例中,处理器执行计算机程序时实现基于生成的词典语料片段建立语料词典,可以包括:根据语料数量,生成对应语料数量的多个词典语料片段,得到词典语料片段集;将词典语料片段集存储至建立的空白语料词典中,得到对应语料词典生成请求的语料词典。
在其中一个实施例中,处理器执行计算机程序时还可以实现以下步骤:将意图识别模型生成请求、各语料逻辑以及意图测试语料中的至少一个上传至区块链节点中进行存储。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:接收终端发送的意图识别模型生成请求,意图识别模型生成请求携带有请求内容;对请求内容进行解析得到解析结果,并获取解析结果对应的语料逻辑;根据语料逻辑,建立对应意图识别模型生成请求的意图识别模型;确定对应语料逻辑的语料片段,并根据语料片段生成对应的意图测试语料;通过意图测试语料对意图识别模型进行测试。
在其中一个实施例中,计算机程序被处理器执行时实现确定对应语料逻辑的语料片段,并生成对应的意图测试语料,可以包括:确定对应语料逻辑的正向语料片段和反向语料片段,并基于正向语料片段和反向语料片段,生成正向意图测试语料以及反向意图测试语料。
在本实施例中,计算机程序被处理器执行时实现通过意图测试语料对意图识别模型进行测试,可以包括:分别通过正向意图测试语料以及反向意图测试语料对意图识别模型进行测试。
在其中一个实施例中,计算机程序被处理器执行时实现确定对应语料逻辑的语料片段,并生成对应的意图测试语料,可以包括:从语料逻辑对应的数据库中获取对应的语料片段;按照建立的意图识别模型中各语料逻辑的排列顺序,对获取的语料片段进行拼接,生成对应的意图测试语料。
在其中一个实施例中,计算机程序被处理器执行时实现从各语料逻辑对应的数据库中获取对应的语料片段,可以包括:从语料词典数据库对应各语料逻辑的语料词典中获取对应的词典语料片段。
在本实施例中,计算机程序被处理器执行时实现语料词典的建立方式可以包括:建立字符库;获取语料词典生成请求,并根据语料词典生成请求以及字符库生成词典语料片段;基于生成的词典语料片段建立语料词典。
在其中一个实施例中,计算机程序被处理器执行时实现根据语料词典生成请求以及字符库生成词典语料片段,可以包括:基于语料词典生成请求,确定待生成语料词典中待生成词典语料片段的语料数量以及语料长度;从字符库中随机选取字符,并组成对应语料长度的词典语料片段。
在本实施例中,计算机程序被处理器执行时实现基于生成的词典语料片段建立语料词典,可以包括:根据语料数量,生成对应语料数量的多个词典语料片段,得到词典语料片段集;将词典语料片段集存储至建立的空白语料词典中,得到对应语料词典生成请求的语料词典。
在其中一个实施例中,计算机程序被处理器执行时还可以实现以下步骤:将意图识别模型生成请求、各语料逻辑以及意图测试语料中的至少一个上传至区块链节点中进行存储。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种意图识别模型测试方法,其特征在于,所述方法包括:
接收终端发送的意图识别模型生成请求,所述意图识别模型生成请求携带有请求内容,所述请求内容包括,待生成的意图识别模型包括哪些语料逻辑以及每一个语料逻辑的数量;
对所述请求内容进行解析得到解析结果,并获取所述解析结果对应的语料逻辑,所述语料逻辑包括全匹配逻辑、可选逻辑、必选逻辑、逻辑或、词典参数逻辑以及通配符逻辑;
根据所述语料逻辑,建立对应所述意图识别模型生成请求的意图识别模型;
确定对应所述语料逻辑的语料片段,并根据所述语料片段生成对应的意图测试语料;
通过所述意图测试语料对所述意图识别模型进行测试。
2.根据权利要求1所述的方法,其特征在于,所述确定对应所述语料逻辑的语料片段,并生成对应的意图测试语料,包括:
确定对应所述语料逻辑的正向语料片段和反向语料片段,并基于所述正向语料片段和反向语料片段,生成正向意图测试语料以及反向意图测试语料;
所述通过所述意图测试语料对所述意图识别模型进行测试,包括:
分别通过所述正向意图测试语料以及反向意图测试语料对所述意图识别模型进行测试。
3.根据权利要求1所述的方法,其特征在于,所述确定对应所述语料逻辑的语料片段,并生成对应的意图测试语料,包括:
从所述语料逻辑对应的数据库中获取对应的语料片段;
按照建立的意图识别模型中各语料逻辑的排列顺序,对获取的所述语料片段进行拼接,生成对应的意图测试语料。
4.根据权利要求3所述的方法,其特征在于,所述从所述语料逻辑对应的数据库中获取对应的语料片段,包括:
从语料词典数据库对应各所述语料逻辑的语料词典中获取对应的词典语料片段;
所述语料词典的建立方式包括:
建立字符库;
获取语料词典生成请求,并根据所述语料词典生成请求以及所述字符库生成词典语料片段;
基于生成的词典语料片段建立语料词典。
5.根据权利要求4所述的方法,其特征在于,所述根据所述语料词典生成请求以及所述字符库生成词典语料片段,包括:
基于所述语料词典生成请求,确定待生成语料词典中待生成词典语料片段的语料数量以及语料长度;
从字符库中随机选取字符,并组成对应所述语料长度的词典语料片段;
所述基于生成的词典语料片段建立语料词典,包括:
根据所述语料数量,生成对应所述语料数量的多个词典语料片段,得到词典语料片段集;
将所述词典语料片段集存储至建立的空白语料词典中,得到对应所述语料词典生成请求的语料词典。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述意图识别模型生成请求、各语料逻辑以及意图测试语料中的至少一个上传至区块链节点中进行存储。
7.一种意图识别模型测试装置,其特征在于,所述装置包括:
接收模块,用于接收终端发送的意图识别模型生成请求,所述意图识别模型生成请求携带有请求内容,所述请求内容包括,待生成的意图识别模型包括哪些语料逻辑以及每一个语料逻辑的数量;
解析模块,用于对所述请求内容进行解析得到解析结果,并获取所述解析结果对应的语料逻辑,所述语料逻辑包括全匹配逻辑、可选逻辑、必选逻辑、逻辑或、词典参数逻辑以及通配符逻辑;
模型建立模块,用于根据所述语料逻辑,建立对应所述意图识别模型生成请求的意图识别模型;
测试语料生成模块,用于确定对应所述语料逻辑的语料片段,并根据所述语料片段生成对应的意图测试语料;
测试模块,用于通过所述意图测试语料对所述意图识别模型进行测试。
8.根据权利要求7所述的装置,其特征在于,所述测试语料生成模块用于确定对应所述语料逻辑的正向语料片段和反向语料片段,并基于所述正向语料片段和反向语料片段,生成正向意图测试语料以及反向意图测试语料;
所述测试模块,用于分别通过所述正向意图测试语料以及反向意图测试语料对所述意图识别模型进行测试。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN202010879682.3A 2020-08-27 2020-08-27 意图识别模型测试方法、装置、计算机设备和存储介质 Active CN112016297B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010879682.3A CN112016297B (zh) 2020-08-27 2020-08-27 意图识别模型测试方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010879682.3A CN112016297B (zh) 2020-08-27 2020-08-27 意图识别模型测试方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN112016297A CN112016297A (zh) 2020-12-01
CN112016297B true CN112016297B (zh) 2023-03-28

Family

ID=73503772

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010879682.3A Active CN112016297B (zh) 2020-08-27 2020-08-27 意图识别模型测试方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN112016297B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784024B (zh) * 2021-01-11 2023-10-31 软通动力信息技术(集团)股份有限公司 一种人机对话的方法、装置、设备以及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299247A (zh) * 2018-06-05 2019-02-01 安徽省泰岳祥升软件有限公司 基于业务语料的意图分类方法、装置及智能问答方法
CN110866107A (zh) * 2019-10-12 2020-03-06 浙江大搜车软件技术有限公司 素材语料的生成方法、装置、计算机设备和存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10460720B2 (en) * 2015-01-03 2019-10-29 Microsoft Technology Licensing, Llc. Generation of language understanding systems and methods
CN105912521A (zh) * 2015-12-25 2016-08-31 乐视致新电子科技(天津)有限公司 一种解析语音内容的方法及装置
CN107563417A (zh) * 2017-08-18 2018-01-09 北京天元创新科技有限公司 一种深度学习人工智能模型建立方法及系统
CN109583688A (zh) * 2018-10-16 2019-04-05 深圳壹账通智能科技有限公司 性能测试方法、装置、计算机设备和存储介质
CN110119353B (zh) * 2019-04-18 2023-10-10 上海蔚来汽车有限公司 测试数据生成方法、装置以及控制器和介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299247A (zh) * 2018-06-05 2019-02-01 安徽省泰岳祥升软件有限公司 基于业务语料的意图分类方法、装置及智能问答方法
CN110866107A (zh) * 2019-10-12 2020-03-06 浙江大搜车软件技术有限公司 素材语料的生成方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN112016297A (zh) 2020-12-01

Similar Documents

Publication Publication Date Title
CN110162633B (zh) 语音数据意图确定方法、装置、计算机设备和存储介质
CN108595695B (zh) 数据处理方法、装置、计算机设备和存储介质
CN108628974B (zh) 舆情信息分类方法、装置、计算机设备和存储介质
CN111859986B (zh) 基于多任务孪生网络的语义匹配方法、装置、设备和介质
CN111859960A (zh) 基于知识蒸馏的语义匹配方法、装置、计算机设备和介质
KR20210024173A (ko) 연관추천방법, 장치, 컴퓨터 장비 및 저장매체
CN110334179B (zh) 问答处理方法、装置、计算机设备和存储介质
CN110689881B (zh) 语音识别方法、装置、计算机设备和存储介质
CN110910864B (zh) 训练样本的选取方法、装置、计算机设备和存储介质
CN112651238A (zh) 训练语料扩充方法及装置、意图识别模型训练方法及装置
CN111176996A (zh) 测试用例生成方法、装置、计算机设备及存储介质
CN109783785B (zh) 生成实验检测报告的方法、装置和计算机设备
CN109766072B (zh) 信息校验输入方法、装置、计算机设备和存储介质
CN110135888B (zh) 产品信息推送方法、装置、计算机设备和存储介质
CN112380837B (zh) 基于翻译模型的相似句子匹配方法、装置、设备及介质
CN110472136B (zh) 查询结果的推送方法、装置、存储介质和计算机设备
CN112231224A (zh) 基于人工智能的业务系统测试方法、装置、设备和介质
CN110888911A (zh) 样本数据处理方法、装置、计算机设备及存储介质
CN111709229B (zh) 基于人工智能的文本生成方法、装置、计算机设备和介质
CN112766319A (zh) 对话意图识别模型训练方法、装置、计算机设备及介质
CN109460541B (zh) 词汇关系标注方法、装置、计算机设备和存储介质
CN111382570A (zh) 文本实体识别方法、装置、计算机设备及存储介质
CN112035614A (zh) 测试集生成方法、装置、计算机设备和存储介质
CN111666393A (zh) 智能问答系统的验证方法、装置、计算机设备及存储介质
CN112016297B (zh) 意图识别模型测试方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant