CN111209363A - 语料数据处理方法、装置、服务器和存储介质 - Google Patents

语料数据处理方法、装置、服务器和存储介质 Download PDF

Info

Publication number
CN111209363A
CN111209363A CN201911355478.5A CN201911355478A CN111209363A CN 111209363 A CN111209363 A CN 111209363A CN 201911355478 A CN201911355478 A CN 201911355478A CN 111209363 A CN111209363 A CN 111209363A
Authority
CN
China
Prior art keywords
corpus data
user
diversity
diversity score
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911355478.5A
Other languages
English (en)
Other versions
CN111209363B (zh
Inventor
邓东
张晴
舒昌文
周元甲
曾春亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201911355478.5A priority Critical patent/CN111209363B/zh
Publication of CN111209363A publication Critical patent/CN111209363A/zh
Priority to PCT/CN2020/124481 priority patent/WO2021129123A1/zh
Application granted granted Critical
Publication of CN111209363B publication Critical patent/CN111209363B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例适用于人工智能技术领域,提供了一种语料处理方法、装置、服务器和存储介质,所述方法包括:获取待处理的语料数据;提取所述语料数据的特征信息;根据所述特征信息,计算所述语料数据的多样性分值;根据所述多样性分值,对所述语料数据进行处理。上述方法可以有效地评估开发者定义的用户说法的多样性,便于开发者在配置技能时提供更丰富的说法数据,有助于提高技能质量,减少技能审核周期,提升技能整体开发周期,可以应用于自然语言处理等领域,尤其是在对话系统的数据预处理阶段应用本方法,可以提高后续语言理解、分析的效率和准确率。

Description

语料数据处理方法、装置、服务器和存储介质
技术领域
本申请属于人工智能技术领域,尤其涉及一种语料数据处理方法、装置、服务器和存储介质。
背景技术
对话系统是交互式人工智能(Artificial Intelligence,AI)的一个重要研究方向,其在工业领域中也有重要的应用。智能虚拟助手(Intelligent Virtual Assistant,IVA)或语音助手(Voice Assistant,VA)可以针对用户的语音询问进行分析和识别,然后执行相应的操作以满足用户的要求。例如,在智能车载终端中,对司机的语音进行检测,识别司机播放音乐、查阅热点新闻等需求;在智能家居系统中,对用户的语音命令进行检测,识别用户播放电视剧、打扫室内卫生等需求。
在实际应用中,对话系统依然是一个具有挑战性的课题,主要问题包括外部噪音对用户语音的干扰、自然语言理解的准确性、对话上下文管理等。其中,自然语音理解(Natural Language Understanding,NLU)是影响对话系统智能程度非常重要的一部分。但是,由于用户在表达同一个意图时,往往会有各种各样的表达方式,这给对话系统正确理解用户意图带来了很大的阻碍。
目前,众多商业公司为开发者提供了技能平台(Bot平台),以方便开发者为用户提供“语音交互”能力,但由于用户缺乏对话系统的专业知识,用户在配置技能时往往会漏掉很多的用户说法或句式,导致用户定义的语音技能效果不佳。因此,提升Bot平台中的用户说法多样性或丰富度,是提升“语音交互”能力的关键。
发明内容
本申请实施例提供了一种语料数据处理方法、装置、服务器和存储介质,可以提升Bot平台中的用户说法多样性。
第一方面,本申请实施例提供了一种语料数据处理方法,包括:
获取待处理的语料数据;
提取所述语料数据的特征信息;
根据所述特征信息,计算所述语料数据的多样性分值;
根据所述多样性分值,对所述语料数据进行处理。
示例性的,所述获取待处理的语料数据,包括:获取用户输入的原始语料数据;对所述原始语料数据进行数据清洗,获得待处理的语料数据。通过数据清洗等预处理过程,可以减少无关词语或符号对于特征提取及后续多样性分值计算所造成的干扰。
示例性的,所述对所述原始语料数据进行数据清洗,获得待处理的语料数据,包括:识别所述原始语料数据中的多个槽-值对,确定每个槽-值对中词语的槽位名称;将具有相同槽位名称的词语替换为对应的槽位名称;识别并删除所述原始语料数据中的停用词,获得待处理的语料数据。
示例性的,所述特征信息包括所述语料数据中每个词语的生成概率;所述提取所述语料数据的特征信息,包括:识别所述语料数据包含的至少一个用户意图;确定每个用户意图包含的用户语句;根据所述用户语句中每个词语出现的次数,计算所述每个词语的生成概率。通过采用基于数据驱动的语言模型计算词语生成概率,可以有效地提取出用户说法中每个词语的概率分布情况,有助于后续多样性分值计算的准确性。
示例性的,所述根据所述用户语句中每个词语出现的次数,计算所述每个词语的生成概率,包括:对目标用户意图包含的每个用户语句进行分词,所述目标用户意图为所述语料数据包含的用户意图中的任意一个;分别统计分词后的每个词语出现的次数;以及,统计分词后的全部词语出现的总次数;根据所述每个词语出现的次数和所述全部词语出现的总次数,计算所述每个词语在所述目标用户意图下的生成概率。
示例性的,所述根据所述每个词语出现的次数和所述全部词语出现的总次数,计算所述每个词语在所述目标用户意图下的生成概率,包括:计算目标词语出现的次数与所述全部词语出现的总次数之间的比值,将所述比值作为所述目标词语在所述目标用户意图下的生成概率,所述目标词语为所述全部词语中的任意一个。
示例性的,所述根据所述特征信息,计算所述语料数据的多样性分值,包括:统计分词后的全部词语的词语个数;以所述全部词语的词语个数和所述每个词语的生成概率为参数,采用预设的信息熵公式计算所述目标用户意图的多样性分值;根据多个目标用户意图的多样性分值,确定所述语料数据的多样性分值。通过借助信息熵计算得到语料数据中包含的每个用户意图的多样性分值,进而确定出语料数据的多样性分值,用于评价语料数据的多样性,能够有效地对语料数据的多样性进行量化,便于开发者和Bot平台的审核人员直观地了解当前提供的语料数据是否丰富。
示例性的,所述根据多个目标用户意图的多样性分值,确定所述语料数据的多样性分值,包括:统计每个目标用户意图包含的用户语句的语句数量,以及统计全部目标用户意图包含的全部用户语句的语句总数量;计算所述每个目标用户意图包含的用户语句的语句数量与所述语句总数量之间的比值,将所述比值分别作为对应的目标用户意图的权重值;根据所述每个目标用户意图的权重值,对所述每个目标用户意图的多样性分值进行加权求和,得到所述语料数据的多样性分值。
示例性的,在根据所述特征信息,计算所述语料数据的多样性分值之后,还包括:接收用户针对多份样本语料数据分别进行标注的标注信息,所述标注信息包括第一信息或第二信息;将具有相同标注信息的样本语料数据汇集在同一个集合中,获得第一集合和第二集合;根据所述第一集合和所述第二集合中每份样本语料数据的多样性分值,确定多样性评分阈值。根据样本语料数据的多样性分值确定用于比较多样性是否丰富的阈值,可以有效地保证确定出的阈值的准确性。
示例性的,所述根据所述第一集合和所述第二集合中每份样本语料数据的多样性分值,确定多样性评分阈值,包括:计算所述第一集合中的样本语料数据的多样性分值的分值下界;以及,计算所述第二集合中的样本语料数据的多样性分值的分值上界;计算所述分值下界与所述分值上界的平均值,将所述平均值作为所述多样性评分阈值。
示例性的,所述根据所述多样性分值,对所述语料数据进行处理,包括:若所述语料数据的多样性分值大于或等于所述多样性评分阈值,则可以判定用户配置的语料数据多样性足够,可以对所述语料数据及其对应的交互技能进行其他处理;若所述语料数据的多样性分值小于所述多样性评分阈值,则提示所述用户对所述语料数据进行更改或补充,提升语料多样性。通过与多样性评分阈值进行比较,能够快速地判断出当前技能所提供的用户说法是否丰富。
第二方面,本申请实施例提供了一种语料数据处理装置,包括:
语料数据获取模块,用于获取待处理的语料数据;
特征信息提取模块,用于提取所述语料数据的特征信息;
多样性分值计算模块,用于根据所述特征信息,计算所述语料数据的多样性分值;
语料数据处理模块,用于根据所述多样性分值,对所述语料数据进行处理。
第三方面,本申请实施例提供了一种服务器,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面中任一项所述的语料数据处理方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被服务器的处理器执行时实现上述第一方面中任一项所述的语料数据处理方法。
第五方面,本申请实施例提供了一种计算机程序产品,当所述计算机程序产品在服务器上运行时,使得服务器执行上述第一方面中任一项所述的语料数据处理方法。
与现有技术相比,本申请实施例包括以下有益效果:
本申请实施例,通过获取待处理的语料数据,提取语料数据的特征信息,可以根据特征信息,计算出语料数据的多样性分值,从而能够根据多样性分值,针对性地对语料数据进行处理。上述方法可以有效地评估开发者定义的用户说法的多样性,便于开发者在配置技能时提供更丰富的说法数据,有助于提高技能质量,减少技能审核周期,提升技能整体开发周期,可以应用于自然语言处理等领域,尤其是在对话系统的数据预处理阶段应用本方法,可以提高后续语言理解、分析的效率和准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是现有技术中语料泛化的技术框架示意图;
图2是本申请一实施例提供的语料数据处理方法的示意性步骤流程图;
图3是本申请一实施例提供的Bot平台技能配置页面的示意图;
图4是本申请一实施例提供的N-gram语言模型的图结构;
图5是本申请另一实施例提供的语料数据处理方法的示意性步骤流程图;
图6是本申请另一实施例提供的语料数据处理方法的示意性步骤流程图;
图7是本申请另一实施例提供的语料数据处理方法的示意性步骤流程图;
图8是本申请一实施例提供的语料数据处理方法所适用于的系统的架构示意图;
图9是本申请一实施例提供的Bot平台技能开发流程示意图;
图10是本申请一实施例提供的“我的火车管家1”技能的多样性分值示意图;
图11是本申请一实施例提供的“我的火车管家2”技能的多样性分值示意图;
图12是本申请一实施例提供的“我的火车管家3”技能的多样性分值示意图;
图13是本申请一实施例提供的语料数据处理装置的结构框图;
图14是本申请一实施例提供的服务器的结构示意图。
具体实施方式
随着信息技术的发展,目前大部分的商业公司平台都倾向于利用语料泛化的方法来解决用户说法多样性的问题。在Bot平台上,语料泛化技术可以结合开发者提供的每个意图下的用户说法数据,基于模型学习的方式,泛化出更多不同表现形式的用户说法,增加技能的语料多样性。Bot平台通过将用户定义的用户说法与泛化出的用户说法一起加入到训练模块进行训练,可以增强技能能力。
如图1所示,是现有技术中语料泛化的技术框架示意图,该技术框架包括以下几个关键模块和过程:
(1)收集Bot平台上开发者定义的部分单元平行语料库作为语料泛化技术框架的输入。
(2)分词模块对输入数据进行分词。由于中文文本数据是以短语为基本的语义单元,因此分词模块需要把输入的文本序列数据转变为包含语义信息的短语。
(3)句式结构生成模块根据语料抽取出已有的句式结构,然后根据抽取出来的句式结构将用户说法分成一个一个的簇,并记录存储于同一语句簇中的不同句式结构类别对语句进行变换的映射方式。
(4)语料生成模块基于上一步的句式结构和映射方式生成新的语料数据,加入到最初的单元平行语料库中。
语料泛化的优点是可以自动化地生成大量不同句式的用户说法。但是,采用这种方法生成的用户说法难以量化泛化后的用户说法的多样性。同时,在生成的用户说法中也存在较多语法错误、语义模糊的句子。例如,无法判断经过泛化后的用户说法数据是否已经达到了Bot平台技能训练的多样性需要。由于语料泛化的过程没有与技能效果进行关联,应该泛化多少条语料,以及泛化多少条语料后多样性可以达到训练需求都没有保证。另一方面,由于语料泛化技术是基于开发者提供的用户说法,通过模型训练自动生成的,导致很多泛化出来的语料的语法逻辑与用户平常说出来的语句相差较大。虽然增加了语料,但无法保证这些语料的质量。
因此,对于目前人工智能领域中,针对对话系统用户说法多样性的评判或预处理方法缺失的问题,提出了本申请实施例的核心构思在于,通过收集Bot平台的用户说法数据,在进行初步的数据清洗后进行特征提取;同时,在特征提取过程中,通过构建一个基于数据驱动的语言模型,可以计算出当前语料中所有词语的概率分布;然后,利用信息熵计算出语料的多样性分值,通过对比阈值,可以很容易地判断出是否需要与用户交互,以便通知用户增加更多句式不同的用户说法,从而提升用户说法的多样性。本方法可以大幅度提升Bot平台上“语音交互”技能的生命周期,提高技能质量,加强用户与Bot平台之间的交互迭代。
下面结合具体的实施例,对本申请的语料数据处理方法进行介绍。
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域技术人员应当清楚,在没有这些具体细节的其他实施例中也可以实现本申请。在其他情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
以下实施例中所使用的术语只是为了描述特定实施例的目的,而并非旨在作为对本申请的限制。如在本申请的说明书和所附权利要求书中所使用的那样,单数表达形式“一个”、“一种”、“所述”、“上述”、“该”和“这一”旨在也包括例如“一个或多个”这种表达形式,除非其上下文中明确地有相反指示。还应当理解,在本申请实施例中,“一个或多个”是指一个、两个或两个以上;“和/或”,描述关联对象的关联关系,表示可以存在三种关系;例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中A、B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。
参照图2,示出了本申请一实施例提供的语料数据处理方法的示意性步骤流程图,该方法具体可以包括如下步骤:
S201、获取待处理的语料数据;
需要说明的是,本方法可以应用于服务器中,即本实施例的执行主体为服务器。上述服务器可以是指用于提供给用户或开发者进行语音交互技能配置的技能平台,即Bot平台。
Bot平台是各大公司向海量的三方开发者开放语音交互能力非常重要的入口之一。开发者通过在Bot平台上配置出某个语音交互技能,从而在该技能被审核发布后,用户可以在终端设备上与语音助手进行相应的语音交互,使得语音助手可以按照用户语音的指示,执行相应的操作以满足用户的需求。
如图3所示,是本实施例的一种Bot平台技能配置页面的示意图。开发者可以在图3所示的页面中填写相应的技能名称,并对该技能进行分类。例如,开发者可以配置一个名称为“我的火车票”的技能,该技能属于“工具助手”类。当然,开发者在配置技能时,还可以设定该技能的置信度,提交图片作为该技能的图标,等等。
在完成上述基础配置后,开发者可以向Bot平台提供与“我的火车票”相关的一些用户语句,这些用户语句可以是指用户在购买火车票时可能采用的一些说法或句式。例如:帮我买明天北京到深圳的火车票,我想买一张北京到深圳的高铁票,我要改签这张高铁票,等等。
通常,开发者提供的用户语句越丰富,能够包含更多类型的用户说法,那么技能发布后,用户在使用时的准确率也就越高。因此,开发者在配置某个技能时,Bot平台可以对开发者提供的这些用户语句进行审核或处理,上述用户语句即是Bot平台需要处理的语料数据。
S202、提取所述语料数据的特征信息;
通常,开发者在配置一个语音技能时,其提供的用户语句或说法可以看作是一份语料数据。一份语料数据中可以包含一个或多个用户意图。例如,在上述“我的火车票”的技能中,开发者提供的语料数据就包含有“订火车票”和“改签火车票”两个用户意图。每个用户意图下又具体包含多个用户语句或说法,每个用户语句或说法中存在多个词语。
如图4所示,是本实施例的一种N-gram语言模型的图结构。在图4中,I表示技能中的用户意图数量,M表示一个用户意图中有多少条用户说法或用户语句,N表示一条用户说法或语句中有多少个词语,正中圆圈内的w表示词语对应的变量。
因此,在本实施例中,提取语料数据的特征信息可以是指提取语料数据中每个词语的特征信息,确定每个词语在语料数据中的概率分布。
在具体实现中,可以采用N-gram语言模型提取特征信息。当然,根据实际需求的不同,也可以采用其他语言模型提取特征信息,能够获得相同的效果,本实施例对采用的语言模型的类型不作限定。
S203、根据所述特征信息,计算所述语料数据的多样性分值;
在本实施例中,针对前一步骤提取出的特征信息,可以借助信息熵来计算语料数据的多样性分值。
信息熵的概念,解决了对信息的量化度量问题。一般而言,当一种信息出现概率更高的时候,表明它被传播得更广泛,或者说,被引用的程度更高。因此,借助于信息熵计算语料数据的多样性分值,可以解决如何对语料数据的多样性进行量化的问题。
上述多样性分值可以用于表示某个技能或意图下,开发者所提供的用户语句或说法的丰富程度。一般地,多样性分值越高,表示开发者提供的该技能或意图下的用户语句或说法越丰富;反之,则表示开发者提供的语句或说法较少,多样性较差。
S204、根据所述多样性分值,对所述语料数据进行处理。
由于语料数据的多样性分值可以表示该语料是否丰富,因此,在计算得到多样性分值后,可以根据分值的高低,对语料作不同的处理。
例如,对于多样性分值较高的语料数据,表示开发者在配置某个技能或意图时,所提供的用户语句或说法数据较多,多样性丰富。对于这类技能的审核,Bot平台可以优先进行审核,加快该技能发布的进度。而对于多样性分值相对较低的语料数据,表示开发者在配置某个技能或意图时,所提供的用户语句或说法数据较少,多样性较差,需要开发者提供更多的用户语句或说法数据,增强语料的丰富性。对于这类技能,Bot平台可以及时地通知开发者多样性不足的问题,告知开发者需要填入更多句式不同的说法,以增加多样性分值。这样,在Bot平台的技能审核步骤之前,就可以解决掉多样性不足的问题,有效缩短因为技能审核不通过而带来的开发周期过长的问题。
在本申请实施例中,通过获取待处理的语料数据,提取语料数据的特征信息,可以根据特征信息,计算出语料数据的多样性分值,从而能够根据多样性分值,针对性地对语料数据进行处理。上述方法可以有效地评估开发者定义的用户说法的多样性,便于开发者在配置技能时提供更丰富的说法数据,有助于提高技能质量,减少技能审核周期,提升技能整体开发周期,可以应用于自然语言处理等领域,尤其是在对话系统的数据预处理阶段应用本方法,可以提高后续语言理解、分析的效率和准确率。
参照图5,示出了本申请另一实施例提供的语料数据处理方法的示意性步骤流程图,该方法具体可以包括如下步骤:
S501、获取用户输入的原始语料数据;
需要说明的是,本实施例的执行主体为服务器,该服务器可以是指用于提供给开发者配置语音交互技能的Bot平台。
在本实施例中,Bot平台可以通过终端设备向开发者提供一个配置页面,供开发者在该页面上填写所要配置的技能的相关信息,输入相应的原始语料数据。因此,本实施例中所要获取的原始语料数据可以是指开发者直接提交、未经处理的语料数据。例如:帮我买明天北京到深圳的火车票,我想买一张北京到深圳的高铁票,我要改签这张高铁票,等等。
S502、对所述原始语料数据进行数据清洗,获得待处理的语料数据;
通常,原始语料数据可能包括较多的无意义的词语或符号,这些无意义的词语或符号在后续的处理过程中作用不大;另外,开发者输入的用户说法中还可能包括一些数字串或字母串,这些连续出现的数字串和字母串通常有着某些特殊意义,需要整体考虑。因此,Bot平台在获取到开发者输入的原始语料数据后,需要对原始语料数据进行数据清洗,以清洗后获得的语料数据作为平台后续所要处理的语料数据。
在本实施例中,数据清洗主要是对从Bot平台上收集的用户说法数据进行基本的预处理。在这一过程中,可以进行如下的数据清洗工作:
(1)连续数字合并处理。由于技能的意图多种多样,这导致很多用户说法都包含连续数字串,如电话号码、计量数字、金额等,这些数字串需要整体考虑,而不能分开。
(2)连续英文字符合并处理。在中文中出现的连续英文字符通常代表着一个英文单词,或者是有着特殊意义的字串,同样需要将这类字符整体考虑。
(3)停用词过滤。由于很多词汇,如“的”、“在”等字符既无法用来区分用户的意图,但又在很多场景下被使用。因此,可以识别并删除原始语料数据中的这类停用词。
(4)槽位同义词过滤。在用户说法中,既有系统定义的槽位和相关的同义词(如国家、市、时间等),又有开发者自己定义的槽位及其同义词(如火车票、高铁票、硬座等),这些词在用户说法中可以随意的替换而不改变用户说法的多样性。因此,可以识别原始语料数据中的多个槽-值对,确定每个槽-值对中词语的槽位名称,然后将具有相同槽位名称的词语替换为对应的槽位名称。即,在数据清洗时,可以将表示同一个槽位的同义词都统一用此槽位来表示。例如,“火车票、硬座、高铁票”等表示“火车票”这一类型的槽位可以在用户说法中统一用“火车票”来表示。
在完成上述步骤的数据清洗后,便可以获得待处理的语料数据。
当然,以上所介绍的数据清洗过程仅仅是本实施例的一种示例,根据实际需要的不同,还可以采用其他清洗手段,本实施例对此不作限定。
S503、识别所述语料数据包含的至少一个用户意图;
在本实施例中,识别语料数据包含的用户意图可以是指开发者当前所要配置的技能所包含的用户意图。例如,在“我的火车票”这一技能中,可以包含“订火车票”、“改签火车票”和“取消火车票”等不同的意图。
S504、确定每个用户意图包含的用户语句;
针对不同的用户意图,其包含的用户语句可能是不同的,该用户语句也就是开发者输入至Bot平台中对应相应意图的用户说法。
例如,对于“订火车票”这一意图,其包含的用户语句可以是“帮我买明天北京到深圳的火车票”,“我想买一张北京到深圳的高铁票”等等;而对于“改签火车票”这一意图,其包含的用户语句可以是“我要改签这张高铁票”,“帮我改签明天北京到深圳的高铁票”等等。
S505、根据所述用户语句中每个词语出现的次数,计算所述每个词语的生成概率;
基于开发者在Bot平台上提供的语料数据,通过语言模型可以提取出所有词语的概率分布,这个分布可以有效地刻画开发者使用不同词语或句式的概率情况。
在本实施例中,基于Bot平台的特点,可以利用N-gram语言模型来提取特征。当然,其他不同于N-gram的语言模型在实际应用中也有着相同的效果,可替换使用。
在N-gram语言模型中,为了考虑局部的语言顺序,N-gram语言模型中的N一般取值为2或者3。
在N-gram语言模型中,可以假设所有的用户说法是基于概率统计生成的,即用户语句中第i个词wi的生成概率可以如下公式所示:
Figure BDA0002335792130000081
其中,P(wi|wi-1,…w1)=P(wi)表示词wi的生成与前后词无关,这是N-gram模型的基本假设,C(wi)表示词wi在当前意图下出现的频数,C(w)表示当前意图下出现的词的总次数。
即,在计算每个词语的生成概率时,可以首先对对目标用户意图包含的每个用户语句进行分词,上述目标用户意图可以是语料数据包含的用户意图中的任意一个。然后通过分别统计分词后的每个词语出现的次数及分词后的全部词语出现的总次数,可以根据每个词语出现的次数和全部词语出现的总次数,计算每个词语在目标用户意图下的生成概率。
如公式(1)所示,可以计算目标词语出现的次数与全部词语出现的总次数之间的比值,作为该目标词语在目标用户意图下的生成概率,上述目标词语可以是全部词语中的任意一个。
上述计算得到的每个词语的生成概率,便是后续用于计算语料数据的多样性分值的特征信息。
S506、根据所述特征信息,计算所述语料数据的多样性分值;
S507、根据所述多样性分值,对所述语料数据进行处理。
本实施例中步骤S506-S507与前述实施例中步骤S204-S205类似,可以相互参阅,本实施例对此不再赘述。
在本申请实施例中,在获取到开发者输入的用于配置语音交互技能的语料数据后,可以对语料数据进行数据清洗,通过数据清洗等预处理过程,可以减少无关词语或符号对于特征提取及后续多样性分值计算所造成的干扰。其次,本实施例通过采用基于数据驱动的语言模型计算词语生成概率,可以有效地提取出用户说法中每个词语的概率分布情况,有助于后续多样性分值计算的准确性。
参照图6,示出了本申请另一实施例提供的语料数据处理方法的示意性步骤流程图,该方法具体可以包括如下步骤:
S601、获取待处理的语料数据;
S602、识别所述语料数据包含的至少一个用户意图,确定每个用户意图包含的用户语句;
S603、对目标用户意图包含的每个用户语句进行分词,所述目标用户意图为所述语料数据包含的用户意图中的任意一个;
S604、分别统计分词后的每个词语出现的次数;以及,统计分词后的全部词语出现的总次数;
S605、计算目标词语出现的次数与所述全部词语出现的总次数之间的比值,将所述比值作为所述目标词语在所述目标用户意图下的生成概率,所述目标词语为所述全部词语中的任意一个;
需要说明的是,由于本实施例中步骤S601-S605与前述实施例中步骤S201-S202及S501-S505类似,可以相互参阅,本实施例对此不再赘述。
S606、统计分词后的全部词语的词语个数,以所述全部词语的词语个数和所述每个词语的生成概率为参数,采用预设的信息熵公式计算所述目标用户意图的多样性分值;
通过语言模型可以从语料数据中提取出每个词语的概率分布,基于这个概率分布,可以借助信息熵来计算某个用户意图下,用户说法的多样性分值,即该意图的多样性分值。
在具体实现中,可以采用如下公式计算某个用户意图的多样性分值:
Figure BDA0002335792130000091
其中,P(wi)表示词或短语wi在当前会话任务的某个意图下所有用户说法(去掉重复槽位)中的生成概率,V是词典中词的个数,也就是当前意图下所有用户说法分词后获得的全部词语的词语个数,S表示当前用户意图下所有用户说法的集合,一个用户说法对应语料数据中的一条用户语句。
通过上述信息熵公式,可以计算出开发者当前所要配置的技能中的每个用户意图的多样性分值。
S607、根据多个目标用户意图的多样性分值,确定所述语料数据的多样性分值;
对于某个技能,在计算出该技能包含的每个意图的多样性分值后,可以根据每个意图的多样性分值,确定出该技能对应的语料数据的多样性分值。
以某个技能Ai为例,当求出技能Ai下每个意图的多样性分值后,可以根据每个意图下含有的用户说法占会话任务所有意图下总的用户说法的比例,加权后得到该技能Ai的多样性分值。
在具体实现中,可以统计每个目标用户意图包含的用户语句的语句数量,以及全部目标用户意图包含的全部用户语句的语句总数量,然后计算每个目标用户意图包含的用户语句的语句数量与上述语句总数量之间的比值,并将该比值分别作为对应的目标用户意图的权重值,在此基础上,根据每个目标用户意图的权重值,通过对每个目标用户意图的多样性分值进行加权求和,可以得到该技能对应的语料数据的多样性分值。
S608、根据所述多样性分值,对所述语料数据进行处理。
在本申请实施例中,通过提取语料数据中每个词语的概率分布,可以借助信息熵计算得到语料数据中包含的每个用户意图的多样性分值,进而确定出语料数据的多样性分值,用于评价语料数据的多样性,能够有效地对语料数据的多样性进行量化,便于开发者和Bot平台的审核人员直观地了解当前提供的语料数据是否丰富。
参照图7,示出了本申请另一实施例提供的语料数据处理方法的示意性步骤流程图,该方法具体可以包括如下步骤:
S701、获取待处理的语料数据;
S702、提取所述语料数据的特征信息;
S703、根据所述特征信息,计算所述语料数据的多样性分值;
需要说明的是,由于本实施例中步骤S701-S703与前述实施例中步骤S201-S203、S501-S506及S601-S607类似,可以相互参阅,本实施例对此不再赘述。
S704、接收用户针对多份样本语料数据分别进行标注的标注信息,所述标注信息包括第一信息或第二信息;
在本实施例中,用户针对多份样本语料数据分别进行标注的标注信息可以是指人工对部分语料数据进行识别所得到的标注信息。上述第一信息可以是指标注为多样性丰富,而第二信息则可以是指标注为多样性较差的信息。
例如,对于一些样本语料数据,Bot平台的审核人员可以通过人工识别的方式分别将这些语料数据划分为多样性丰富的语料或多样性较差的语料。
S705、将具有相同标注信息的样本语料数据汇集在同一个集合中,获得第一集合和第二集合;
在本实施例中,可以将标注为多样性丰富的语料数据对应的技能汇集为第一集合A,将标注为多样性较差的语料数据对应的技能汇集为第二集合B。
S706、根据所述第一集合和所述第二集合中每份样本语料数据的多样性分值,确定多样性评分阈值;
在本实施例中,多样性评分阈值可以通过计算多样性丰富的技能集合A的多样性分值的上界以及多样性较差的技能集合B的多样性分值的下界,然后再取平均值得到。
在具体实现中,可以首先计算多样性丰富的第一集合中的样本语料数据的多样性分值的分值下界,计算多样性较差第二集合中的样本语料数据的多样性分值的分值上界,然后再计算上述分值下界与分值上界的平均值,将该平均值作为最终的多样性评分阈值。多样性评分阈值可以用于判断开发者提供的某个技能的语料数据是否丰富。
S707、若所述语料数据的多样性分值大于或等于所述多样性评分阈值,则对所述语料数据对应的交互技能进行处理;
在本实施例中,在计算得到语料数据的多样性分值和多样性评分阈值后,可以很容易对比它们之间的大小。如果多样性分值大于或等于上述阈值,则表示开发者配置的用户说法多样性足够,Bot平台可以优先进行审核这类技能,加快该技能发布的进度。
S708、若所述语料数据的多样性分值小于所述多样性评分阈值,则提示所述用户对所述语料数据进行更改或补充。
如果多样性分值小于上述阈值,则表示开发者配置的用户说法多样性不足,需要提示开发者对目前的语料数据进行更改或补充,填入更多句式不同的说法,以增加多样性分值。
在本实施例中,Bot平台可以通过配置页面向开发者提示多样性不足的问题,直观地将多样性不足的问题告知开发者,提醒开发者尽快补充更多句式不用的说法,加快技能发布进程。
在本申请实施例中,根据样本语料数据的多样性分值确定用于比较多样性是否丰富的阈值,可以有效地保证确定出的阈值的准确性。通过与多样性评分阈值进行比较,也能够快速地判断出当前技能所提供的用户说法是否丰富。对于多样性丰富的技能,Bot可以优先审核,快速发布;而对于多样性不足的技能,则可以通过交互界面及时地提醒开发者,帮助开发者趁早发现问题。如果在技能审核时才通知开发者语料多样性不足的问题,由于审核周期一般是以天为单位的,就会极大提升开发者发现问题付出的时间成本。另一方面,如果希望技能的设计、训练和上线满足用户的需求,需要Bot平台方和开发者一起协调工作,而本实施例通过设计Bot平台与开发者之间的交互迭代,极大地增强了Bot平台的交互能力,让开发者在配置技能的同时,实时的发现自身的问题,使开发者在Bot平台上配置技能时能够获得更好的操作体验。
应理解,上述各个实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
为了便于理解,下面结合一个具体的示例,对本申请实施例的语料数据处理方法作一介绍。
如图8所示,是本实施例的语料数据处理方法所适用于的系统的架构示意图。按照图8所示的架构,可以通过收集Bot平台的用户说法数据,在进行初步的数据清洗后进行特征提取;同时,在特征提取过程中,通过构建一个基于数据驱动的语言模型,可以计算出当前语料中所有词语的概率分布;然后,利用信息熵计算出语料的多样性分值,通过对比阈值,可以很容易地判断出是否需要与用户交互,以便通知用户增加更多句式不同的用户说法,从而提升用户说法的多样性。
如图9所示,是本实施例的一种Bot平台技能开发流程示意图。对于某项语音交互技能的开发,开发者需要在Bot平台上进行技能配置,然后提交模型训练,训练完成后需要通过Bot平台的审核,才能发布该技能。
开发者在Bot平台上配置技能时,由于很多开发者缺乏对话系统的专业知识,导致他们在配置意图的用户说法时,没有意识到要提供句式或词汇足够丰富的句子,这样的技能开发流程不仅大大延迟了开发者开发一个技能的周期,更严重影响了Bot平台对技能的交付进度。而按照本实施例提供的处理方法计算出开发者配置的每个技能的多样性分值,如果多样性分值足够,则此技能就可以直接通过线上初步审核;如果多样性分值不够,Bot平台可以即时地反馈开发者用户说法多样性的问题,让开发者配置更多句式或用词更丰富的用户说法。循环往复后,开发者配置的技能将越来越好。上述整个过程可以全部在Bot平台上完成,多样性评分同样是在线评分,这样就大大缩短了开发者发现问题的时间,极大地提升了开发者的体验和Bot平台交付技能的进度。
本实施例通过将技能包含的用户说法多样性评分嵌套在Bot平台的技能训练过程中,在技能审核步骤之前,可以有效的缩短因为技能审核不通过而带来的开发周期过长的问题。
下面,结合在Bot平台上创建“我的火车管家”技能,通过在“购买火车票”这个意图下定义多样性不同的说法,具体说明本实施例提供的处理方法在评估用户说法多样性的有效性。
图10列出了“我的火车管家1”这个技能的多样性分值,从图10中可以看出,“我的火车管家1”定义了三个意图,它们分别是“订火车票”、“改签火车票”和“取消火车票”。在图10中,“订火车票”、“改签火车票”和“取消火车票”都只含有同一句式(句式为:{出发时间}{出发城市}到{目的城市}的高铁票)的说法数据,“改签火车票”和“取消火车票”都只含有一条语句,而“订火车票”含有五条语句,但这五条语句都只是改动了目的城市,它们还是同一个句式下的用户说法,在图10中,按照本实施例提供的处理方法可以得出在这种语料配置下,该技能的多样性分值为8.333;
图11是在“我的火车管家1”技能的基础上,配置的“我的火车管家2”这个技能的多样性分值。“我的火车管家2”将“订火车票”这个意图的说法数据用句式更丰富的说法替换了之前定义的四条语句,从图11中可以看出,除了“{出发时间}{出发城市}到{目的城市}的高铁票”的句式外,还包含“帮我购买从{出发城市}到{目的城市}坐高铁的票”、“购买{出发城市}启程去{目的城市}的高铁票”、“{出发城市}为起始站{目的城市}为终点站的高铁票还有吗”、“{出发城市}出发去{目的城市}的高铁票还有吗”四种新句式,在这种数据配置下,此技能的多样性分值上升到了26.812,相比图10的第一个技能,此技能的用户说法多样性得到了更好的配置,而按照本实施例提供的方法计算的多样性分值也更高,说明了此本方法的有效性。
进一步地,如图12所示,在“我的火车管家2”的基础上,继续增加其他句式的说法,如“帮我买一张{出发城市}坐到{目的城市}的高铁票”、“坐高铁去{目的城市}的票能帮忙买一张吗”、“高铁{出发城市}到{目的城市}的票还有吗”、“订一张{出发城市}到{目的城市}的高铁票”;在这种语料配置下,此技能的多样性分值上升到了42.203,这是因为这个技能包含了更多句式的用户说法,而此技能相对于“我的火车管家1”也极大地增强了它对用户说法的识别准确率,提升了用户使用此技能的体验。
本申请实施例通过提供了一种新的融合语言模型和信息熵的用户说法多样性预处理方法,可以有效地评估开发者定义的用户说法的多样性评分分值和阈值。当用户定义的用户说法多样性不足时(多样性评分分值小于阈值),可以基于多样性评分分值与开发者交互迭代,通知开发者提供更多句式更丰富的说法,在提升技能性能的同时,极大的减少了技能审核上线周期,改善开发者对Bot平台的体验。
对应于上文实施例所述的语料数据处理方法,图13示出了本申请一实施例提供的语料数据处理装置的结构框图,为了便于说明,仅示出了与本申请实施例相关的部分。
参照图13,该装置可以应用于服务器中,具体可以包括如下模块:
语料数据获取模块1301,用于获取待处理的语料数据;
特征信息提取模块1302,用于提取所述语料数据的特征信息;
多样性分值计算模块1303,用于根据所述特征信息,计算所述语料数据的多样性分值;
语料数据处理模块1304,用于根据所述多样性分值,对所述语料数据进行处理。
在本申请实施例中,所述语料数据获取模块1301具体可以包括如下子模块:
原始语料数获取子模块,用于获取用户输入的原始语料数据;
数据清洗子模块,用于对所述原始语料数据进行数据清洗,获得待处理的语料数据。
在本申请实施例中,所述数据清洗子模块具体可以包括如下单元:
槽位识别单元,用于识别所述原始语料数据中的多个槽-值对,确定每个槽-值对中词语的槽位名称;
槽位词替换单元,用于将具有相同槽位名称的词语替换为对应的槽位名称;
停用词过滤单元,用于识别并删除所述原始语料数据中的停用词,获得待处理的语料数据。
在本申请实施例中,所述特征信息可以包括所述语料数据中每个词语的生成概率;所述特征信息提取模块1302具体可以包括如下子模块:
用户意图识别子模块,用于识别所述语料数据包含的至少一个用户意图;
用户语句确定子模块,用于确定每个用户意图包含的用户语句;
生成概率计算子模块,用于根据所述用户语句中每个词语出现的次数,计算所述每个词语的生成概率。
在本申请实施例中,所述生成概率计算子模块具体可以包括如下单元:
用户语句分词单元,用于对目标用户意图包含的每个用户语句进行分词,所述目标用户意图为所述语料数据包含的用户意图中的任意一个;
词语次数统计单元,用于分别统计分词后的每个词语出现的次数;以及,统计分词后的全部词语出现的总次数;
生成概率计算单元,用于根据所述每个词语出现的次数和所述全部词语出现的总次数,计算所述每个词语在所述目标用户意图下的生成概率。
在本申请实施例中,所述生成概率计算单元具体可以包括如下子单元:
生成概率计算子单元,用于计算目标词语出现的次数与所述全部词语出现的总次数之间的比值,将所述比值作为所述目标词语在所述目标用户意图下的生成概率,所述目标词语为所述全部词语中的任意一个。
在本申请实施例中,所述多样性分值计算模块1303具体可以包括如下子模块:
词语个数统计子模块,用于统计分词后的全部词语的词语个数;
用户意图多样性分值计算子模块,用于以所述全部词语的词语个数和所述每个词语的生成概率为参数,采用预设的信息熵公式计算所述目标用户意图的多样性分值;
语料数据多样性分值计算子模块,用于根据多个目标用户意图的多样性分值,确定所述语料数据的多样性分值。
在本申请实施例中,所述语料数据多样性分值计算子模块具体可以包括如下单元:
语句数量统计单元,用于统计每个目标用户意图包含的用户语句的语句数量,以及统计全部目标用户意图包含的全部用户语句的语句总数量;
权重值计算单元,用于计算所述每个目标用户意图包含的用户语句的语句数量与所述语句总数量之间的比值,将所述比值分别作为对应的目标用户意图的权重值;
语料数据多样性分值计算单元,用于根据所述每个目标用户意图的权重值,对所述每个目标用户意图的多样性分值进行加权求和,得到所述语料数据的多样性分值。
在本申请实施例中,所述装置还可以包括如下模块:
标注信息接收模块,用于接收用户针对多份样本语料数据分别进行标注的标注信息,所述标注信息包括第一信息或第二信息;
语料数据汇集模块,用于将具有相同标注信息的样本语料数据汇集在同一个集合中,获得第一集合和第二集合;
多样性评分阈值确定模块,用于根据所述第一集合和所述第二集合中每份样本语料数据的多样性分值,确定多样性评分阈值。
在本申请实施例中,所述多样性评分阈值确定模块具体可以包括如下子模块,用于:
多样性分值下界计算子模块,用于计算所述第一集合中的样本语料数据的多样性分值的分值下界;以及,
多样性分值上界计算子模块,用于计算所述第二集合中的样本语料数据的多样性分值的分值上界;
多样性评分阈值计算子模块,用于计算所述分值下界与所述分值上界的平均值,将所述平均值作为所述多样性评分阈值。
在本申请实施例中,所述语料数据处理模块1304具体可以包括如下子模块:
交互技能处理子模块,用于若所述语料数据的多样性分值大于或等于所述多样性评分阈值,则对所述语料数据对应的交互技能进行处理;
开发者提示子模块,用于若所述语料数据的多样性分值小于所述多样性评分阈值,则提示所述用户对所述语料数据进行更改或补充。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述得比较简单,相关之处参见方法实施例部分的说明即可。
参照图14,示出了本申请一实施例的一种服务器的示意图。如图14所示,本实施例的服务器1400包括:处理器1410、存储器1420以及存储在所述存储器1420中并可在所述处理器1410上运行的计算机程序1421。所述处理器1410执行所述计算机程序1421时实现上述语料数据处理方法各个实施例中的步骤,例如图2所示的步骤S201至S204。或者,所述处理器1410执行所述计算机程序1421时实现上述各装置实施例中各模块/单元的功能,例如图13所示模块1301至1304的功能。
示例性的,所述计算机程序1421可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器1420中,并由所述处理器1410执行,以完成本申请实施例提供的方法。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段可以用于描述所述计算机程序1421在所述服务器1400中的执行过程。例如,所述计算机程序1421可以被分割成语料数据获取模块、特征信息提取模块、多样性分值计算模块、语料数据处理模块,各模块具体功能如下:
语料数据获取模块,用于获取待处理的语料数据;
特征信息提取模块,用于提取所述语料数据的特征信息;
多样性分值计算模块,用于根据所述特征信息,计算所述语料数据的多样性分值;
语料数据处理模块,用于根据所述多样性分值,对所述语料数据进行处理。
所述服务器1400可以是桌上型计算机、笔记本、掌上电脑、云端服务器等计算设备。所述服务器1400可包括,但不仅限于,处理器1410、存储器1420。本领域技术人员可以理解,图14仅仅是服务器1400的一种示例,并不构成对服务器1400的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述服务器1400还可以包括输入输出设备、网络接入设备、总线等。
所述处理器1410可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器1420可以是所述服务器1400的内部存储单元,例如服务器1400的硬盘或内存。所述存储器1420也可以是所述服务器1400的外部存储设备,例如所述服务器1400上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等等。进一步地,所述存储器1420还可以既包括所述服务器1400的内部存储单元也包括外部存储设备。所述存储器1420用于存储所述计算机程序1421以及所述服务器1400所需的其他程序和数据。所述存储器1420还可以用于暂时地存储已经输出或者将要输出的数据。
本申请实施例还公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时可以实现前述语料数据处理方法。
本申请实施例还公开了一种计算机程序产品,当所述计算机程序产品在服务器上运行时,使得服务器执行前述语料数据处理方法。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其他实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的语料数据处理方法、装置、服务器和存储介质,可以通过其他的方式实现。例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其他的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到语料数据处理装置和服务器的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制。尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。

Claims (14)

1.一种语料数据处理方法,其特征在于,包括:
获取待处理的语料数据;
提取所述语料数据的特征信息;
根据所述特征信息,计算所述语料数据的多样性分值;
根据所述多样性分值,对所述语料数据进行处理。
2.根据权利要求1所述的方法,其特征在于,所述获取待处理的语料数据,包括:
获取用户输入的原始语料数据;
对所述原始语料数据进行数据清洗,获得待处理的语料数据。
3.根据权利要求2所述的方法,其特征在于,所述对所述原始语料数据进行数据清洗,获得待处理的语料数据,包括:
识别所述原始语料数据中的多个槽-值对,确定每个槽-值对中词语的槽位名称;
将具有相同槽位名称的词语替换为对应的槽位名称;
识别并删除所述原始语料数据中的停用词,获得待处理的语料数据。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述特征信息包括所述语料数据中每个词语的生成概率;
相应的,所述提取所述语料数据的特征信息,包括:
识别所述语料数据包含的至少一个用户意图;
确定每个用户意图包含的用户语句;
根据所述用户语句中每个词语出现的次数,计算所述每个词语的生成概率。
5.根据权利要求4所述的方法,其特征在于,所述根据所述用户语句中每个词语出现的次数,计算所述每个词语的生成概率,包括:
对目标用户意图包含的每个用户语句进行分词,所述目标用户意图为所述语料数据包含的用户意图中的任意一个;
分别统计分词后的每个词语出现的次数;以及,
统计分词后的全部词语出现的总次数;
根据所述每个词语出现的次数和所述全部词语出现的总次数,计算所述每个词语在所述目标用户意图下的生成概率。
6.根据权利要求5所述的方法,其特征在于,所述根据所述每个词语出现的次数和所述全部词语出现的总次数,计算所述每个词语在所述目标用户意图下的生成概率,包括:
计算目标词语出现的次数与所述全部词语出现的总次数之间的比值,将所述比值作为所述目标词语在所述目标用户意图下的生成概率,所述目标词语为所述全部词语中的任意一个。
7.根据权利要求5或所述的方法,其特征在于,所述根据所述特征信息,计算所述语料数据的多样性分值,包括:
统计分词后的全部词语的词语个数;
以所述全部词语的词语个数和所述每个词语的生成概率为参数,采用预设的信息熵公式计算所述目标用户意图的多样性分值;
根据多个目标用户意图的多样性分值,确定所述语料数据的多样性分值。
8.根据权利要求7所述的方法,其特征在于,所述根据多个目标用户意图的多样性分值,确定所述语料数据的多样性分值,包括:
统计每个目标用户意图包含的用户语句的语句数量,以及统计全部目标用户意图包含的全部用户语句的语句总数量;
计算所述每个目标用户意图包含的用户语句的语句数量与所述语句总数量之间的比值,将所述比值分别作为对应的目标用户意图的权重值;
根据所述每个目标用户意图的权重值,对所述每个目标用户意图的多样性分值进行加权求和,得到所述语料数据的多样性分值。
9.根据权利要求1或2或3或5或6或7或8所述的方法,其特征在于,在根据所述特征信息,计算所述语料数据的多样性分值之后,还包括:
接收用户针对多份样本语料数据分别进行标注的标注信息,所述标注信息包括第一信息或第二信息;
将具有相同标注信息的样本语料数据汇集在同一个集合中,获得第一集合和第二集合;
根据所述第一集合和所述第二集合中每份样本语料数据的多样性分值,确定多样性评分阈值。
10.根据权利要求9所述的方法,其特征在于,所述根据所述第一集合和所述第二集合中每份样本语料数据的多样性分值,确定多样性评分阈值,包括:
计算所述第一集合中的样本语料数据的多样性分值的分值下界;以及,
计算所述第二集合中的样本语料数据的多样性分值的分值上界;
计算所述分值下界与所述分值上界的平均值,将所述平均值作为所述多样性评分阈值。
11.根据权利要求10所述的方法,其特征在于,所述根据所述多样性分值,对所述语料数据进行处理,包括:
若所述语料数据的多样性分值大于或等于所述多样性评分阈值,则对所述语料数据对应的交互技能进行处理;
若所述语料数据的多样性分值小于所述多样性评分阈值,则提示所述用户对所述语料数据进行更改或补充。
12.一种语料数据处理装置,其特征在于,包括:
语料数据获取模块,用于获取待处理的语料数据;
特征信息提取模块,用于提取所述语料数据的特征信息;
多样性分值计算模块,用于根据所述特征信息,计算所述语料数据的多样性分值;
语料数据处理模块,用于根据所述多样性分值,对所述语料数据进行处理。
13.一种服务器,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至11任一项所述的语料数据处理方法。
14.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至11任一项所述的语料数据处理方法。
CN201911355478.5A 2019-12-25 2019-12-25 语料数据处理方法、装置、服务器和存储介质 Active CN111209363B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201911355478.5A CN111209363B (zh) 2019-12-25 2019-12-25 语料数据处理方法、装置、服务器和存储介质
PCT/CN2020/124481 WO2021129123A1 (zh) 2019-12-25 2020-10-28 语料数据处理方法、装置、服务器和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911355478.5A CN111209363B (zh) 2019-12-25 2019-12-25 语料数据处理方法、装置、服务器和存储介质

Publications (2)

Publication Number Publication Date
CN111209363A true CN111209363A (zh) 2020-05-29
CN111209363B CN111209363B (zh) 2024-02-09

Family

ID=70784297

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911355478.5A Active CN111209363B (zh) 2019-12-25 2019-12-25 语料数据处理方法、装置、服务器和存储介质

Country Status (2)

Country Link
CN (1) CN111209363B (zh)
WO (1) WO2021129123A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112035632A (zh) * 2020-08-21 2020-12-04 惠州市德赛西威汽车电子股份有限公司 一种适用于多对话机器人协作任务的择优分发方法和系统
CN112489628A (zh) * 2020-11-23 2021-03-12 平安科技(深圳)有限公司 语音数据选择方法、装置、电子设备及存储介质
WO2021129123A1 (zh) * 2019-12-25 2021-07-01 华为技术有限公司 语料数据处理方法、装置、服务器和存储介质
CN114330285A (zh) * 2021-11-30 2022-04-12 腾讯科技(深圳)有限公司 语料处理方法、装置、电子设备及计算机可读存储介质
CN114372446A (zh) * 2021-12-13 2022-04-19 北京五八信息技术有限公司 一种车属性标注方法、设备及存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120232885A1 (en) * 2011-03-08 2012-09-13 At&T Intellectual Property I, L.P. System and method for building diverse language models
US20160005421A1 (en) * 2013-02-26 2016-01-07 PSYWARE GmbH Language analysis based on word-selection, and language analysis apparatus
CN107003998A (zh) * 2014-12-08 2017-08-01 微软技术许可有限责任公司 任意语言资产和资源的本地化复杂度
CN108268668A (zh) * 2018-02-28 2018-07-10 福州大学 一种基于话题多样性的文本数据观点摘要挖掘方法
CN108334353A (zh) * 2017-08-31 2018-07-27 科大讯飞股份有限公司 技能开发系统及方法
CN108549656A (zh) * 2018-03-09 2018-09-18 北京百度网讯科技有限公司 语句解析方法、装置、计算机设备及可读介质
CN108664568A (zh) * 2018-04-24 2018-10-16 科大讯飞股份有限公司 语义技能创建方法及装置
CN108831442A (zh) * 2018-05-29 2018-11-16 平安科技(深圳)有限公司 兴趣点识别方法、装置、终端设备及存储介质
US20190080000A1 (en) * 2016-04-01 2019-03-14 Intel Corporation Entropic classification of objects
CN109858029A (zh) * 2019-01-31 2019-06-07 沈阳雅译网络技术有限公司 一种提高语料整体质量的数据预处理方法
CN110223674A (zh) * 2019-04-19 2019-09-10 平安科技(深圳)有限公司 语音语料训练方法、装置、计算机设备和存储介质
CN110297880A (zh) * 2019-05-21 2019-10-01 深圳壹账通智能科技有限公司 语料产品的推荐方法、装置、设备及存储介质
CN110377900A (zh) * 2019-06-17 2019-10-25 深圳壹账通智能科技有限公司 网络内容发布的审核方法、装置、计算机设备及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866496B (zh) * 2014-02-22 2019-12-10 腾讯科技(深圳)有限公司 确定词素重要性分析模型的方法及装置
US9928233B2 (en) * 2014-11-12 2018-03-27 Applause App Quality, Inc. Computer-implemented methods and systems for clustering user reviews and ranking clusters
CN109614608A (zh) * 2018-10-26 2019-04-12 平安科技(深圳)有限公司 电子装置、文本信息检测方法及存储介质
CN110457684A (zh) * 2019-07-15 2019-11-15 广州九四智能科技有限公司 智能电话客服的语义分析方法
CN111209363B (zh) * 2019-12-25 2024-02-09 华为技术有限公司 语料数据处理方法、装置、服务器和存储介质

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120232885A1 (en) * 2011-03-08 2012-09-13 At&T Intellectual Property I, L.P. System and method for building diverse language models
US20160005421A1 (en) * 2013-02-26 2016-01-07 PSYWARE GmbH Language analysis based on word-selection, and language analysis apparatus
CN107003998A (zh) * 2014-12-08 2017-08-01 微软技术许可有限责任公司 任意语言资产和资源的本地化复杂度
US20190080000A1 (en) * 2016-04-01 2019-03-14 Intel Corporation Entropic classification of objects
CN108334353A (zh) * 2017-08-31 2018-07-27 科大讯飞股份有限公司 技能开发系统及方法
CN108268668A (zh) * 2018-02-28 2018-07-10 福州大学 一种基于话题多样性的文本数据观点摘要挖掘方法
CN108549656A (zh) * 2018-03-09 2018-09-18 北京百度网讯科技有限公司 语句解析方法、装置、计算机设备及可读介质
CN108664568A (zh) * 2018-04-24 2018-10-16 科大讯飞股份有限公司 语义技能创建方法及装置
CN108831442A (zh) * 2018-05-29 2018-11-16 平安科技(深圳)有限公司 兴趣点识别方法、装置、终端设备及存储介质
CN109858029A (zh) * 2019-01-31 2019-06-07 沈阳雅译网络技术有限公司 一种提高语料整体质量的数据预处理方法
CN110223674A (zh) * 2019-04-19 2019-09-10 平安科技(深圳)有限公司 语音语料训练方法、装置、计算机设备和存储介质
CN110297880A (zh) * 2019-05-21 2019-10-01 深圳壹账通智能科技有限公司 语料产品的推荐方法、装置、设备及存储介质
CN110377900A (zh) * 2019-06-17 2019-10-25 深圳壹账通智能科技有限公司 网络内容发布的审核方法、装置、计算机设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
屈鹏;: "开放环境科技语料库质量评价研究", no. 05, pages 79 - 85 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021129123A1 (zh) * 2019-12-25 2021-07-01 华为技术有限公司 语料数据处理方法、装置、服务器和存储介质
CN112035632A (zh) * 2020-08-21 2020-12-04 惠州市德赛西威汽车电子股份有限公司 一种适用于多对话机器人协作任务的择优分发方法和系统
CN112489628A (zh) * 2020-11-23 2021-03-12 平安科技(深圳)有限公司 语音数据选择方法、装置、电子设备及存储介质
WO2021208700A1 (zh) * 2020-11-23 2021-10-21 平安科技(深圳)有限公司 语音数据选择方法、装置、电子设备及存储介质
CN112489628B (zh) * 2020-11-23 2024-02-06 平安科技(深圳)有限公司 语音数据选择方法、装置、电子设备及存储介质
CN114330285A (zh) * 2021-11-30 2022-04-12 腾讯科技(深圳)有限公司 语料处理方法、装置、电子设备及计算机可读存储介质
CN114330285B (zh) * 2021-11-30 2024-04-16 腾讯科技(深圳)有限公司 语料处理方法、装置、电子设备及计算机可读存储介质
CN114372446A (zh) * 2021-12-13 2022-04-19 北京五八信息技术有限公司 一种车属性标注方法、设备及存储介质
CN114372446B (zh) * 2021-12-13 2023-02-17 北京爱上车科技有限公司 一种车属性标注方法、设备及存储介质

Also Published As

Publication number Publication date
WO2021129123A1 (zh) 2021-07-01
CN111209363B (zh) 2024-02-09

Similar Documents

Publication Publication Date Title
CN109241524B (zh) 语义解析方法及装置、计算机可读存储介质、电子设备
CN111209363B (zh) 语料数据处理方法、装置、服务器和存储介质
US11693894B2 (en) Conversation oriented machine-user interaction
CN110427463B (zh) 搜索语句响应方法、装置及服务器和存储介质
CN110222045B (zh) 一种数据报表获取方法、装置及计算机设备、存储介质
CN111125334B (zh) 一种基于预训练的搜索问答系统
CN107391486B (zh) 一种基于统计信息和序列标注的领域新词识别方法
CN110222182B (zh) 一种语句分类方法及相关设备
CN106649825B (zh) 语音交互系统及其创建方法和装置
CN110134946B (zh) 一种针对复杂数据的机器阅读理解方法
CN108763510A (zh) 意图识别方法、装置、设备及存储介质
CN112069298A (zh) 基于语义网和意图识别的人机交互方法、设备及介质
CN103886034A (zh) 一种建立索引及匹配用户的查询输入信息的方法和设备
CN110532354A (zh) 内容的检索方法及装置
CN115470338B (zh) 一种基于多路召回的多场景智能问答方法和系统
CN114757176A (zh) 一种获取目标意图识别模型的方法以及意图识别方法
CN107145514A (zh) 基于决策树和svm混合模型的中文句型分类方法
CN111241397A (zh) 一种内容推荐方法、装置和计算设备
CN113326702A (zh) 语义识别方法、装置、电子设备及存储介质
CN112287656A (zh) 文本比对方法、装置、设备和存储介质
CN105931055A (zh) 一种面向众包平台的服务商特征建模方法
CN113486174B (zh) 模型训练、阅读理解方法、装置、电子设备及存储介质
WO2023207566A1 (zh) 语音房质量评估方法及其装置、设备、介质、产品
CN113705207A (zh) 语法错误识别方法及装置
CN110750967A (zh) 一种发音的标注方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant