CN111488735A - 测试语料生成方法、装置及电子设备 - Google Patents

测试语料生成方法、装置及电子设备 Download PDF

Info

Publication number
CN111488735A
CN111488735A CN202010274561.6A CN202010274561A CN111488735A CN 111488735 A CN111488735 A CN 111488735A CN 202010274561 A CN202010274561 A CN 202010274561A CN 111488735 A CN111488735 A CN 111488735A
Authority
CN
China
Prior art keywords
service function
vocabulary
function point
test
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010274561.6A
Other languages
English (en)
Other versions
CN111488735B (zh
Inventor
宋雨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bank of China Ltd
Original Assignee
Bank of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bank of China Ltd filed Critical Bank of China Ltd
Priority to CN202010274561.6A priority Critical patent/CN111488735B/zh
Publication of CN111488735A publication Critical patent/CN111488735A/zh
Application granted granted Critical
Publication of CN111488735B publication Critical patent/CN111488735B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种测试语料生成方法、装置及电子设备,其中方法包括:获取业务功能点线上的历史测试语料;确定所述历史测试语料中与所述业务功能点对应的语法结构和词汇集;判断所述业务功能点对应的语法结构白名单中是否包含所述语法结构;若包含,则从所述业务功能点的同义词库中分别查询所述词汇集中各个词汇一一对应的各个同义词汇集;基于所述各个同义词汇集和所述语法结构组建多个同义短语;利用所述各个同义短语分别替换所述历史测试语料中的所述词汇集,获得所述业务功能点的多条测试语料。本发明按照此方式由一条线上真实的历史测试语料,扩展出多条测试语料,大大丰富测试语料库。

Description

测试语料生成方法、装置及电子设备
技术领域
本申请涉及大数据技术领域,尤其涉及测试语料生成方法、装置及电子设备。
背景技术
问答机器人目前已经逐步入银行以及一些客服系统中。为了检验问答机器人的性能,通常采用命中率来衡量机器人性能。也即通过一些测试语料来测试问答机器人,从而获得问答机器人的命中率。
测试过程中测试时间和人力资源投入有限,无法在有限的资源条件下,制定出足够多的测试语料,无法对问答机器人的命中率进行准确全面的测试。
因此现在需要一种可以自动扩展测试语料库的方案,以便丰富测试测试语料库。
发明内容
鉴于此,本申请提供一种测试语料生成方法、装置及电子设备,可以自动化丰富测试语料库。
为了实现上述目的,本发明提供了下述技术特征:
一种测试语料生成方法,包括:
获取业务功能点线上的历史测试语料;
确定所述历史测试语料中与所述业务功能点对应的语法结构和词汇集;
判断所述业务功能点对应的语法结构白名单中是否包含所述语法结构;
若包含,则从所述业务功能点的同义词库中分别查询所述词汇集中各个词汇一一对应的各个同义词汇集;
基于所述各个同义词汇集和所述语法结构组建多个同义短语;
利用所述各个同义短语分别替换所述历史测试语料中的所述词汇集,获得所述业务功能点的多条测试语料。
可选的,所述确定所述历史测试语料中与所述业务功能点对应的语法结构和词汇集包括:
对所述历史测试语料进行句法分析获得依存句法树;
从所述依存句法树中确定与所述业务功能点对应的语法结构;
从所述历史测试语料中确定语法结构对应的词汇组成所述词汇集。
可选的,所述从所述依存句法树中确定与所述业务功能点对应的语法结构包括:
确定所述业务功能点的关键词汇;
遍历所述依存句法树中寻找所述关键词汇;
确定所述依存句法树中所述关键词汇对应的语法结构。
可选的,在所述获取业务功能点线上的历史测试语料之前还包括:
结合人工经验构建所述语法结构白名单;
将业务功能点中各个词汇对应的同义词汇集确定为所述业务功能点的同义词库。
可选的,所述语法结构白名单包括:动宾结构主谓结构。
可选的,还包括:
针对多个业务功能点分别采用如权利要求1所述的步骤获得多个业务功能点的多条测试语料;
将多个业务功能点的多条测试语料加入测试语料库,以用于对问答机器人进行测试。
一种测试语料生成装置,包括:
获取单元,用于获取业务功能点线上的历史测试语料;
确定单元,用于确定所述历史测试语料中与所述业务功能点对应的语法结构和词汇集;
判断单元,用于判断所述业务功能点对应的语法结构白名单中是否包含所述语法结构;
查询单元,用于若包含,则从所述业务功能点的同义词库中分别查询所述词汇集中各个词汇一一对应的各个同义词汇集;
组建单元,用于基于所述各个同义词汇集和所述语法结构组建多个同义短语;
替换单元,用于利用所述各个同义短语分别替换所述历史测试语料中的所述词汇集,获得所述业务功能点的多条测试语料。
一种电子设备,包括:
存储器,用于存储软件程序;
处理器用于执行所述软件程序并实现:
获取业务功能点线上的历史测试语料;
确定所述历史测试语料中与所述业务功能点对应的语法结构和词汇集;
判断所述业务功能点对应的语法结构白名单中是否包含所述语法结构;
若包含,则从所述业务功能点的同义词库中分别查询所述词汇集中各个词汇一一对应的各个同义词汇集;
基于所述各个同义词汇集和所述语法结构组建多个同义短语;
利用所述各个同义短语分别替换所述历史测试语料中的所述词汇集,获得所述业务功能点的多条测试语料。
一种测试语料生成系统,包括:
数据库,用于存储线上的历史测试数据;
服务器,用于获取业务功能点线上的历史测试语料;确定所述历史测试语料中与所述业务功能点对应的语法结构和词汇集;判断所述业务功能点对应的语法结构白名单中是否包含所述语法结构;若包含,则从所述业务功能点的同义词库中分别查询所述词汇集中各个词汇一一对应的各个同义词汇集;基于所述各个同义词汇集和所述语法结构组建多个同义短语;利用所述各个同义短语分别替换所述历史测试语料中的所述词汇集,获得所述业务功能点的多条测试语料。
可选的,还包括:
服务器,还用于针对多个业务功能点分别采用如权利要求1所述的步骤获得多个业务功能点的多条测试语料;并将多个业务功能点的多条测试语料加入测试语料库,以用于对问答机器人进行测试。
通过以上技术手段,可以实现以下有益效果:
本发明可以预先确定业务功能点的语法结构白名单,以及业务功能点中各个词汇的同义词并构建业务功能点的同义词库,然后从线上获取历史测试语料,从历史测试语料中确定与业务功能点对应的语法结构和词汇集。
先判断业务功能点对应的语法结构白名单中是否具有该语法结构,若具有则可以按照本方案来扩展测试案例。然后从业务功能点的同义词库中查询词汇集中多个词汇对应的同义词汇集,基于同义词汇集和语法结构来构建多个同义短语。多个同义短语具有与历史测试语料中词汇集的相同含义,其描述方式不同。
利用所述多个同义短语分别替换所述历史测试语料中的所述词汇集,获得所述业务功能点的多条测试语料。按照此方式由一条线上真实的历史测试语料,扩展出多条测试语料,大大丰富测试语料库。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例公开的一种测试语料生成方法的流程图;
图2为本申请实施例公开的一种测试语料生成方法中依存句法树的示意图;
图3为本申请实施例公开的一种测试语料生成装置的结构示意图;
图4为本申请实施例公开的一种电子设备的结构示意图;
图5为本申请实施例公开的一种测试语料生成系统的结构示意图。
具体实施方式
技术术语:
依存句法是由法国语言学家L.Tesniere最先提出,它将句子分析成一棵依存句法树,描述出各个词语之间的依存关系。也即指出了词语之间在句法上的搭配关系,这种搭配关系是和语义相关联的。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
可以理解的是,业务系统中具有多个业务功能点,每个业务功能点具有若干历史测试语料。因此不同业务功能点中不同的历史测试语料的过程均是相同的,下面以一个业务功能点中的一条历史测试语料为例,进行详细说明。
首先需要执行一些预先操作:
第一,预先确定业务功能点的语法结构白名单。
以业务功能点为“信用卡开户”为例,该功能点主要有两种语法结构动宾结构“办理信用卡”、“办信用卡”和“开信用卡”等;主谓结构“信用卡开户”和“信用卡开卡”等。当然还可以包括其它可用的语法结构。
将业务功能点所有语法可用的语法结构组成该业务功能点的语法结构白名单。
第二,确定业务功能点中各个词汇的同义词汇集并构建业务功能点的同义词库。
以动宾结构中的“办理信用卡”为例,该短语分为动词“办理”、宾语“信用卡”。为了准确起见,可以人工基于该业务功能点确定“办理”的同义词,如“办”、“开”等,将“办理”的同义词和“办理”组成一个同义词汇集。
同理,可以找到主谓结构“信用卡开户”中谓语“开户”的同义词汇集“开卡”、“开通”,将“开户”、“开卡”和“开通”组成一个同义词汇集。
上述以举例方式确定两个同义词汇集,实际情况下,可以确定该业务功能点中多个词汇的同义词汇集,然后将各个同义词汇集组成业务功能点的同义词库。
参见图1,本发明提供了一种测试语料生成方法,包括:
步骤S101:获取业务功能点线上的历史测试语料。
本实施例中从业务功能点的线上真实情况中获取一条历史测试语料,因为真实情况比人工编写的更能够贴合真实情况。为了便于理解,本实施例中以业务功能点为“信用卡开户”为例进行详细说明,获取一条历史测试语料“我要办理信用卡”。
步骤S102:确定所述历史测试语料中与所述业务功能点对应的语法结构和词汇集。
历史测试语料通常为一句话,例如“我要办理信用卡”。为了清楚了解历史测试语料的整体语法结构,可以对历史测试语料执行下述操作:
S1:对历史测试语料进行句法分析获得依存句法树。
依据句法分析的开源工具,可以对历史测试语料进行句法分析,得到各个词汇之间的搭配关系,从而得到依存句法树。参见图2为“我要办理信用卡”的依存句法树。
S2:从所述依存句法树中确定与所述业务功能点对应的语法结构。
可以理解的是,历史测试语料中一部分为与业务功能点相关的内容,一部分为与业务功能点无法的内容,因此从依存句法树中寻找与业务功能点相关的语法结构。
S11:确定所述业务功能点的关键词汇。
可以预先存储业务功能点的关键词汇,以“信用卡开户”为例,可以确定信用卡为关键词汇。
S12:遍历所述依存句法树寻找所述关键词汇。
S13:确定所述依存句法树中所述关键词汇对应的语法结构。
从依存句法树中得到和关键词汇相关的最小语法结构,作为关键词汇对应的语法结构。
S3:从所述历史测试语料中确定语法结构对应的词汇组成所述词汇集。
将语法结构对应的两个词汇组成词汇集,其中一个为关键词汇,另外一个为其它词汇。延续上述举例,“我要办理信用卡”中的业务相关的短语为“办理信用卡”,语法结构为动宾结构,词汇集包括“办理”和“信用卡”。
接步骤S102步骤S103:判断所述业务功能点对应的语法结构白名单中是否包含所述语法结构。
由于一些语法结构可能是不正确的,因此先在语法结构白名单中查询是否包含历史测试语料中的与业务功能点相关的语法结构,若包含则说明历史测试语料中的与业务功能点相关的语法结构是正确的,且,同义词库中具有该语法结构可以进行扩展。
反之则说明历史测试语料中的与业务功能点相关的语法结构是不正确的,且,同义词库中不具有该语法结构,不可以进行扩展。后续可以发送该历史测试语料供人工检测,在确定该语法结构正确的情况下,加入该语法结构至语法结构白名单,否则丢弃该历史测试语料。
步骤S104:若包含,则从所述业务功能点的同义词库中分别查询所述词汇集中各个词汇一一对应的各个同义词汇集。
延续上述举例,词汇集包含“办理”和“信用卡”。
在所述业务功能点的同义词库中查询“信用卡”后,暂未搜索到同义词汇集则仍旧采用“信用卡”的描述。
在所述业务功能点的同义词库中查询“办理”从而获得包含“办理”的同义词汇集。例如,“办理”的同义词汇集包括“办”、“开”等。
步骤S105:基于所述各个同义词汇集和所述语法结构组建多个同义短语。
延续上述举例,将“办”和“信用卡”组成动宾结构的“办信用卡”,将“开”和“信用卡”组成动宾结构的“开信用卡”,从而获得多个同义短语。
步骤S106:利用所述多个同义短语分别替换所述历史测试语料中的所述词汇集,获得所述业务功能点的多条测试语料。
延续上述举例,将“我要办理信用卡”中“办理信用卡”分别替换为办信用卡”和“开信用卡”,获得两条“我要办信用卡”和“我要开信用卡”两条测试语料。
针对多个业务功能点分别采用如图1的测试语料生成方法,从而获得多个业务功能点的多条测试语料;将多个业务功能点的多条测试语料均加入测试语料库,以用于对问答机器人进行测试。
通过以上技术手段,可以实现以下有益效果:
本发明可以预先确定业务功能点的语法结构白名单,以及业务功能点中各个词汇的同义词并构建业务功能点的同义词库,然后从线上获取历史测试语料,从历史测试语料中确定与业务功能点对应的语法结构和词汇集。
先判断业务功能点对应的语法结构白名单中是否具有该语法结构,若具有则可以按照本方案来扩展测试案例。然后从业务功能点的同义词库中查询词汇集中多个词汇对应的同义词汇集,基于同义词汇集和语法结构来构建多个同义短语。多个同义短语具有与历史测试语料中词汇集的相同含义,其描述方式不同。
利用所述多个同义短语分别替换所述历史测试语料中的所述词汇集,获得所述业务功能点的多条测试语料。按照此方式由一条线上真实的历史测试语料,扩展出多条测试语料,大大丰富测试语料库。
参见图3,本发明提供了一种测试语料生成装置,包括:
获取单元31,用于获取业务功能点线上的历史测试语料;
确定单元32,用于确定所述历史测试语料中与所述业务功能点对应的语法结构和词汇集;
判断单元33,用于判断所述业务功能点对应的语法结构白名单中是否包含所述语法结构;
查询单元34,用于若包含,则从所述业务功能点的同义词库中分别查询所述词汇集中各个词汇一一对应的各个同义词汇集;
组建单元35,用于基于所述各个同义词汇集和所述语法结构组建多个同义短语;
替换单元36,用于利用所述各个同义短语分别替换所述历史测试语料中的所述词汇集,获得所述业务功能点的多条测试语料。
其中,所述确定单元32包括:
对所述历史测试语料进行句法分析获得依存句法树;
从所述依存句法树中确定与所述业务功能点对应的语法结构;
从所述历史测试语料中确定语法结构对应的词汇组成所述词汇集。
可选的,所述从所述依存句法树中确定与所述业务功能点对应的语法结构包括:
确定所述业务功能点的关键词汇;
遍历所述依存句法树中寻找所述关键词汇;
确定所述依存句法树中所述关键词汇对应的语法结构。
可选的,在所述获取业务功能点线上的历史测试语料之前还包括:
结合人工经验构建所述语法结构白名单;
将业务功能点中各个词汇对应的同义词汇集确定为所述业务功能点的同义词库。
可选的,所述语法结构白名单包括:动宾结构主谓结构。
可选的还包括:针对多个业务功能点分别采用图1所示的实施例获得多个业务功能点的多条测试语料;将多个业务功能点的多条测试语料加入测试语料库,以用于对问答机器人进行测试。
通过以上技术手段,可以实现以下有益效果:
本发明可以预先确定业务功能点的语法结构白名单,以及业务功能点中各个词汇的同义词并构建业务功能点的同义词库,然后从线上获取历史测试语料,从历史测试语料中确定与业务功能点对应的语法结构和词汇集。
先判断业务功能点对应的语法结构白名单中是否具有该语法结构,若具有则可以按照本方案来扩展测试案例。然后从业务功能点的同义词库中查询词汇集中多个词汇对应的同义词汇集,基于同义词汇集和语法结构来构建多个同义短语。多个同义短语具有与历史测试语料中词汇集的相同含义,其描述方式不同。
利用所述多个同义短语分别替换所述历史测试语料中的所述词汇集,获得所述业务功能点的多条测试语料。按照此方式由一条线上真实的历史测试语料,扩展出多条测试语料,大大丰富测试语料库。
参见图4,本发明还提供了一种电子设备,包括:
存储器11,用于存储软件程序;
处理器12用于执行所述软件程序并实现:
获取业务功能点线上的历史测试语料;
确定所述历史测试语料中与所述业务功能点对应的语法结构和词汇集;
判断所述业务功能点对应的语法结构白名单中是否包含所述语法结构;
若包含,则从所述业务功能点的同义词库中分别查询所述词汇集中各个词汇一一对应的各个同义词汇集;
基于所述各个同义词汇集和所述语法结构组建多个同义短语;
利用所述各个同义短语分别替换所述历史测试语料中的所述词汇集,获得所述业务功能点的多条测试语料。
可选的,所述确定所述历史测试语料中与所述业务功能点对应的语法结构和词汇集包括:
对所述历史测试语料进行句法分析获得依存句法树;
从所述依存句法树中确定与所述业务功能点对应的语法结构;
从所述历史测试语料中确定语法结构对应的词汇组成所述词汇集。
可选的,所述从所述依存句法树中确定与所述业务功能点对应的语法结构包括:
确定所述业务功能点的关键词汇;
遍历所述依存句法树中寻找所述关键词汇;
确定所述依存句法树中所述关键词汇对应的语法结构。
可选的,在所述获取业务功能点线上的历史测试语料之前还包括:
结合人工经验构建所述语法结构白名单;
将业务功能点中各个词汇对应的同义词汇集确定为所述业务功能点的同义词库。
可选的,所述语法结构白名单包括:动宾结构主谓结构。
可选的,还包括:
针对多个业务功能点分别采用如权利要求1所述的步骤获得多个业务功能点的多条测试语料;
将多个业务功能点的多条测试语料加入测试语料库,以用于对问答机器人进行测试。
通过以上技术手段,可以实现以下有益效果:
本发明可以预先确定业务功能点的语法结构白名单,以及业务功能点中各个词汇的同义词并构建业务功能点的同义词库,然后从线上获取历史测试语料,从历史测试语料中确定与业务功能点对应的语法结构和词汇集。
先判断业务功能点对应的语法结构白名单中是否具有该语法结构,若具有则可以按照本方案来扩展测试案例。然后从业务功能点的同义词库中查询词汇集中多个词汇对应的同义词汇集,基于同义词汇集和语法结构来构建多个同义短语。多个同义短语具有与历史测试语料中词汇集的相同含义,其描述方式不同。
利用所述多个同义短语分别替换所述历史测试语料中的所述词汇集,获得所述业务功能点的多条测试语料。按照此方式由一条线上真实的历史测试语料,扩展出多条测试语料,大大丰富测试语料库。
参见图5,本发明提供了一种测试语料生成系统,包括:
数据库100,用于存储线上的历史测试数据;
服务器200,用于获取业务功能点线上的历史测试语料;确定所述历史测试语料中与所述业务功能点对应的语法结构和词汇集;判断所述业务功能点对应的语法结构白名单中是否包含所述语法结构;若包含,则从所述业务功能点的同义词库中分别查询所述词汇集中各个词汇一一对应的各个同义词汇集;基于所述各个同义词汇集和所述语法结构组建多个同义短语;利用所述各个同义短语分别替换所述历史测试语料中的所述词汇集,获得所述业务功能点的多条测试语料。
其中服务器,还用于针对多个业务功能点分别采用如权利要求1所述的步骤获得多个业务功能点的多条测试语料;并将多个业务功能点的多条测试语料加入测试语料库,以用于对问答机器人进行测试。
通过以上技术手段,可以实现以下有益效果:
本发明可以预先确定业务功能点的语法结构白名单,以及业务功能点中各个词汇的同义词并构建业务功能点的同义词库,然后从线上获取历史测试语料,从历史测试语料中确定与业务功能点对应的语法结构和词汇集。
先判断业务功能点对应的语法结构白名单中是否具有该语法结构,若具有则可以按照本方案来扩展测试案例。然后从业务功能点的同义词库中查询词汇集中多个词汇对应的同义词汇集,基于同义词汇集和语法结构来构建多个同义短语。多个同义短语具有与历史测试语料中词汇集的相同含义,其描述方式不同。
利用所述多个同义短语分别替换所述历史测试语料中的所述词汇集,获得所述业务功能点的多条测试语料。按照此方式由一条线上真实的历史测试语料,扩展出多条测试语料,大大丰富测试语料库。
本实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算设备可读取存储介质中。基于这样的理解,本申请实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台计算设备(可以是个人计算机,服务器,移动计算设备或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种测试语料生成方法,其特征在于,包括:
获取业务功能点线上的历史测试语料;
确定所述历史测试语料中与所述业务功能点对应的语法结构和词汇集;
判断所述业务功能点对应的语法结构白名单中是否包含所述语法结构;
若包含,则从所述业务功能点的同义词库中分别查询所述词汇集中各个词汇一一对应的各个同义词汇集;
基于所述各个同义词汇集和所述语法结构组建多个同义短语;
利用所述各个同义短语分别替换所述历史测试语料中的所述词汇集,获得所述业务功能点的多条测试语料。
2.如权利要求1所述的方法,其特征在于,所述确定所述历史测试语料中与所述业务功能点对应的语法结构和词汇集包括:
对所述历史测试语料进行句法分析获得依存句法树;
从所述依存句法树中确定与所述业务功能点对应的语法结构;
从所述历史测试语料中确定语法结构对应的词汇组成所述词汇集。
3.如权利要求2所述的方法,其特征在于,所述从所述依存句法树中确定与所述业务功能点对应的语法结构包括:
确定所述业务功能点的关键词汇;
遍历所述依存句法树中寻找所述关键词汇;
确定所述依存句法树中所述关键词汇对应的语法结构。
4.如权利要求1所述的方法,其特征在于,在所述获取业务功能点线上的历史测试语料之前还包括:
结合人工经验构建所述语法结构白名单;
将业务功能点中各个词汇对应的同义词汇集确定为所述业务功能点的同义词库。
5.如权利要求4所述的方法,其特征在于,所述语法结构白名单包括:动宾结构主谓结构。
6.如权利要求1所述的方法,其特征在于,还包括:
针对多个业务功能点分别采用如权利要求1所述的步骤获得多个业务功能点的多条测试语料;
将多个业务功能点的多条测试语料加入测试语料库,以用于对问答机器人进行测试。
7.一种测试语料生成装置,其特征在于,包括:
获取单元,用于获取业务功能点线上的历史测试语料;
确定单元,用于确定所述历史测试语料中与所述业务功能点对应的语法结构和词汇集;
判断单元,用于判断所述业务功能点对应的语法结构白名单中是否包含所述语法结构;
查询单元,用于若包含,则从所述业务功能点的同义词库中分别查询所述词汇集中各个词汇一一对应的各个同义词汇集;
组建单元,用于基于所述各个同义词汇集和所述语法结构组建多个同义短语;
替换单元,用于利用所述各个同义短语分别替换所述历史测试语料中的所述词汇集,获得所述业务功能点的多条测试语料。
8.一种电子设备,其特征在于,包括:
存储器,用于存储软件程序;
处理器用于执行所述软件程序并实现:
获取业务功能点线上的历史测试语料;
确定所述历史测试语料中与所述业务功能点对应的语法结构和词汇集;
判断所述业务功能点对应的语法结构白名单中是否包含所述语法结构;
若包含,则从所述业务功能点的同义词库中分别查询所述词汇集中各个词汇一一对应的各个同义词汇集;
基于所述各个同义词汇集和所述语法结构组建多个同义短语;
利用所述各个同义短语分别替换所述历史测试语料中的所述词汇集,获得所述业务功能点的多条测试语料。
9.一种测试语料生成系统,其特征在于,包括:
数据库,用于存储线上的历史测试数据;
服务器,用于获取业务功能点线上的历史测试语料;确定所述历史测试语料中与所述业务功能点对应的语法结构和词汇集;判断所述业务功能点对应的语法结构白名单中是否包含所述语法结构;若包含,则从所述业务功能点的同义词库中分别查询所述词汇集中各个词汇一一对应的各个同义词汇集;基于所述各个同义词汇集和所述语法结构组建多个同义短语;利用所述各个同义短语分别替换所述历史测试语料中的所述词汇集,获得所述业务功能点的多条测试语料。
10.如权利要求9所述的系统,其特征在于,还包括:
服务器,还用于针对多个业务功能点分别采用如权利要求1所述的步骤获得多个业务功能点的多条测试语料;并将多个业务功能点的多条测试语料加入测试语料库,以用于对问答机器人进行测试。
CN202010274561.6A 2020-04-09 2020-04-09 测试语料生成方法、装置及电子设备 Active CN111488735B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010274561.6A CN111488735B (zh) 2020-04-09 2020-04-09 测试语料生成方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010274561.6A CN111488735B (zh) 2020-04-09 2020-04-09 测试语料生成方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN111488735A true CN111488735A (zh) 2020-08-04
CN111488735B CN111488735B (zh) 2023-10-27

Family

ID=71798763

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010274561.6A Active CN111488735B (zh) 2020-04-09 2020-04-09 测试语料生成方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN111488735B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112420019A (zh) * 2020-11-18 2021-02-26 青岛海尔科技有限公司 设备的测试方法及装置
CN115470781A (zh) * 2022-11-01 2022-12-13 北京红棉小冰科技有限公司 语料生成方法、装置和电子设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1535428A (zh) * 2001-07-26 2004-10-06 �Ҵ���˾ 数据处理方法、数据处理系统和程序
JP2013016011A (ja) * 2011-07-04 2013-01-24 Nippon Telegr & Teleph Corp <Ntt> 同義語辞書生成装置、その方法、及びプログラム
CN105573977A (zh) * 2015-10-23 2016-05-11 苏州大学 一种中文事件时序关系识别方法及系统
CN106202038A (zh) * 2016-06-29 2016-12-07 北京智能管家科技有限公司 基于迭代的同义词挖掘方法及装置
CN109710732A (zh) * 2018-11-19 2019-05-03 东软集团股份有限公司 信息查询方法、装置、存储介质和电子设备
CN110309280A (zh) * 2019-05-27 2019-10-08 重庆小雨点小额贷款有限公司 一种语料扩容方法及相关设备
CN110334197A (zh) * 2019-06-28 2019-10-15 科大讯飞股份有限公司 语料处理方法及相关装置
CN110516232A (zh) * 2019-07-22 2019-11-29 北京师范大学 一种用于汉语评测的自动命题方法和系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1535428A (zh) * 2001-07-26 2004-10-06 �Ҵ���˾ 数据处理方法、数据处理系统和程序
JP2013016011A (ja) * 2011-07-04 2013-01-24 Nippon Telegr & Teleph Corp <Ntt> 同義語辞書生成装置、その方法、及びプログラム
CN105573977A (zh) * 2015-10-23 2016-05-11 苏州大学 一种中文事件时序关系识别方法及系统
CN106202038A (zh) * 2016-06-29 2016-12-07 北京智能管家科技有限公司 基于迭代的同义词挖掘方法及装置
CN109710732A (zh) * 2018-11-19 2019-05-03 东软集团股份有限公司 信息查询方法、装置、存储介质和电子设备
CN110309280A (zh) * 2019-05-27 2019-10-08 重庆小雨点小额贷款有限公司 一种语料扩容方法及相关设备
CN110334197A (zh) * 2019-06-28 2019-10-15 科大讯飞股份有限公司 语料处理方法及相关装置
CN110516232A (zh) * 2019-07-22 2019-11-29 北京师范大学 一种用于汉语评测的自动命题方法和系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112420019A (zh) * 2020-11-18 2021-02-26 青岛海尔科技有限公司 设备的测试方法及装置
CN115470781A (zh) * 2022-11-01 2022-12-13 北京红棉小冰科技有限公司 语料生成方法、装置和电子设备
CN115470781B (zh) * 2022-11-01 2023-03-14 北京红棉小冰科技有限公司 语料生成方法、装置和电子设备

Also Published As

Publication number Publication date
CN111488735B (zh) 2023-10-27

Similar Documents

Publication Publication Date Title
CN106919655B (zh) 一种答案提供方法和装置
CN108509477B (zh) 语义识别方法、电子装置及计算机可读存储介质
CN111666746B (zh) 会议纪要的生成方法及装置、电子设备及存储介质
US20170308607A1 (en) Method and System for a Semantic Search Engine
EP1901283A2 (en) Automatic generation of statistical laguage models for interactive voice response applacation
CN112417846B (zh) 文本自动化生成方法、装置、电子设备及存储介质
WO2017198031A1 (zh) 解析语义的方法和装置
KR20100006361A (ko) 유사 문장 검색 장치, 검색 방법, 저장 매체, 자동 대화서비스 시스템 및 서비스 방법
KR101541306B1 (ko) 컴퓨터 실행 가능한 중요 키워드 추출 방법, 이를 수행하는 중요 키워드 추출 서버 및 이를 저장하는 기록매체
CN111488735B (zh) 测试语料生成方法、装置及电子设备
CN110909126A (zh) 一种信息查询方法及装置
US20120078950A1 (en) Techniques for Extracting Unstructured Data
KR101396131B1 (ko) 패턴 기반 관계 유사도 측정 장치 및 방법
CN107480197B (zh) 实体词识别方法及装置
CN110727803A (zh) 文本事件抽取方法及装置
CN110825840B (zh) 词库扩充方法、装置、设备及存储介质
CN111966792A (zh) 一种文本处理方法、装置、电子设备及可读存储介质
Drazan et al. Improved processing of textual use cases: Deriving behavior specifications
CN113743090A (zh) 一种关键词提取方法及装置
CN111813916A (zh) 一种智能问答方法、装置、计算机设备和介质
CN114969001B (zh) 一种数据库元数据字段匹配方法、装置、设备及介质
CN113742445B (zh) 文本识别样本获取、文本识别方法及装置
ShafieiBavani et al. A semantically motivated approach to compute ROUGE scores
CN114239602A (zh) 会话方法、装置和计算机程序产品
CN111666770A (zh) 一种语义匹配方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant