CN110309280A - 一种语料扩容方法及相关设备 - Google Patents

一种语料扩容方法及相关设备 Download PDF

Info

Publication number
CN110309280A
CN110309280A CN201910445215.7A CN201910445215A CN110309280A CN 110309280 A CN110309280 A CN 110309280A CN 201910445215 A CN201910445215 A CN 201910445215A CN 110309280 A CN110309280 A CN 110309280A
Authority
CN
China
Prior art keywords
corpus
short text
word
sentence
dilatation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910445215.7A
Other languages
English (en)
Other versions
CN110309280B (zh
Inventor
张欢韵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Xiaoyu Small Loan Co Ltd
Original Assignee
Chongqing Xiaoyu Small Loan Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Xiaoyu Small Loan Co Ltd filed Critical Chongqing Xiaoyu Small Loan Co Ltd
Priority to CN201910445215.7A priority Critical patent/CN110309280B/zh
Publication of CN110309280A publication Critical patent/CN110309280A/zh
Application granted granted Critical
Publication of CN110309280B publication Critical patent/CN110309280B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种语料扩容方法及相关设备,所述方法应用于数据处理技术领域,包括:获取待扩容的短文本语料中每个词的动态词向量,以及所述短文本语料对应的实词信息、虚词信息和语法信息;基于所述动态词向量从语料集合中确定出与所述实词信息和所述虚词信息匹配的近义词候选集合;根据所述近义词候选集合和/或所述语法信息对所述短文本语料进行扩容处理,确定出所述短文本语料对应的目标扩容语料集合。采用本申请,可以实现短文本语料的自动扩容,提高短文本语料的扩容效率。

Description

一种语料扩容方法及相关设备
技术领域
本发明涉及数据处理技术领域,尤其涉及一种语料扩容方法及相关设备。
背景技术
在智能客服系统中,为了了解用户业务,需要通过机器学习的方式对每个用户的问答标签数据进行学习和识别,但机器学习往往需要一定的初始语料。针对各个不同领域的业务场景,往往很难提供大量规范的初始语料。因此,在初始语料不足的情况下,往往需要对初始语料进行扩容。
目前,对初始语料进行扩容的方式主要依赖于人工扩容的方式,例如,人工对某一初始语料发散思维,得到十几种或者更多与该初始语料的问法匹配的扩容语料,扩容效率低下。
发明内容
本发明实施例提供了一种语料扩容方法及相关设备,有利于提高语料扩容的效率。
第一方面,本发明实施例提供了一种语料扩容方法,该方法包括:
获取待扩容的短文本语料中每个词的动态词向量,以及所述短文本语料对应的实词信息、虚词信息和语法信息;
基于所述动态词向量从语料集合中确定出与所述实词信息和所述虚词信息匹配的近义词候选集合;
根据所述近义词候选集合和/或所述语法信息对所述短文本语料进行扩容处理,确定出所述短文本语料对应的目标扩容语料集合。
第二方面,本发明实施例提供了一种语料扩容装置,该语料扩容装置包括用于执行上述第一方面的方法的模块。
第三方面,本发明实施例提供了一种服务器,该服务器包括处理器、通信接口和存储器,所述处理器、通信接口和存储器相互连接,其中,所述通信接口受所述处理器的控制用于收发消息,所述存储器用于存储支持服务器执行上述方法的计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行上述第一方面的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述第一方面的方法。
本申请实施例中,可以获取待扩容的短文本语料中每个词的动态词向量、短文本语料对应的实词信息、虚词信息和语法信息,并基于动态词向量从语料集合中确定出与实词信息和虚词信息匹配的近义词候选集合,进一步还可以根据近义词候选集合和/或语法信息对短文本语料进行扩容处理,确定出短文本语料对应的目标扩容语料集合。采用本申请,一方面,可以实现短文本语料的自动扩容,提高短文本语料的扩容效率;另一方面,可以结合短文本语料对应的近义词候选集和/语法信息对短文本语料进行扩容处理,有利于提高该短文本语料对应扩容语料的丰富度。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种语料扩容方法的流程示意图;
图2是本发明实施例提供的一种初始扩容语料集合确定方法的流程示意图;
图3是本发明实施例提供的一种句子长度变换方法的流程示意图;
图4是本发明实施例提供的另一种语料扩容方法的流程示意图;
图5是本发明实施例提供的又一种语料扩容方法的流程示意图;
图6是本发明实施例提供的又一种语料扩容方法的流程示意图;
图7是本发明实施例提供的又一种语料扩容方法的流程示意图;
图8是本发明实施例提供的一种语料扩容装置的示意性框图;
图9是本发明实施例提供的一种服务器的示意性框图。
具体实施方式
在本发明实施例中,可以获取待扩容的短文本语料中每个词的动态词向量、短文本语料对应的实词信息、虚词信息和语法信息,并基于动态词向量从语料集合中确定出与实词信息和虚词信息匹配的近义词候选集合。由于动态词向量可以反映词语在不同上下文语境中表示的含义,可以提高确定出的近义词候选集合的准确性;进一步地,可以结合近义词候选集合和/或语法信息对短文本语料进行扩容处理,确定出短文本语料对应的目标扩容语料集合。采用这样的方式,一方面可以自动实现短文本语料的扩容,提高扩容效率;另一方面,结合近义词候选集合和/或语法信息对短文本语料进行扩容处理,使得目标扩容语料集合中目标扩容语料的语料特征更加丰富,有利于增加目标扩容语料的有效信息,提高目标扩容语料的泛化性。
在一个实施例中,上述语料扩容方法可以应用于服务器,该服务器可以为用于进行语料扩容的服务器或者服务器组。在其他实施例中,也可以通过功能强大、软硬件资源丰富的个人电脑来实现,本发明对此不作具体限定。
参见图1所述的语料扩容方法的示意流程图,服务器可以首先利用训练语料对语言表示模型进行训练,并调用训练后的语言表示模型对待扩容的短文本语料进行数据处理,得到待扩容语料中每个词的动态词向量。其中,该待扩容的短文本语料可以为一个或者多个短句(例如一个问题),该训练语料可以包括大量的开源网络语料。
其中,上述语言表示模型指的是相同词语在不同的句子中得到的词向量是不同的,即得到的是动态词向量。因此,相同词语在不同句子中经过语言表示模型后得到的词向量表示不同,得到的近义词候选集合也不同,即动态词向量不是一成不变的,而是根据上下文而随时变化。不同于常规的静态词向量模型,相同的词语的向量都是一样的,不能很好的反应词语在不同上下文语境中表示的含义,进而不能准确的找到该特点语境下的近义词。
例如:针对某一词多义的词汇“苹果”,静态词向量表示中,句子1:“我吃了一个苹果”和句子2:“苹果很好用”得到的“苹果”这个词语的词向量是一样的,但事实上,这两个词语的近义词候选集是完全不一样的,句子1中与“苹果”的这个词语词向量相近的词语是“橘子”,“香蕉”等水果,句子2中与“苹果”这个词语词向量相近的词语是“手机”,“华为”等词语。动态词向量就能解决这个问题,故本方案采用的语言表示模型得到短文本语料对应的动态词向量,并基于该动态词向量确定出短文本语料对应的近义词候选集合,可以提高确定出的近义词候选集合的准确性。
在一个实施例中,上述语言表示模型可以包括通过语言模型得到词向量表示(Embeddings from Language Model,ELMo)模型或者双向编码的预训练表示(Bidirectional Encoder Representations from Transformers,BERT)模型。其中,该ELMo模型是从深层的双向语言模型的内部状态学习而来,ELMo模型能够学习到词汇用法的复杂性,比如语法、语义,也能够学习不同上下文情况下的词汇多义性,进而得到的动态词向量能够灵活的适用于多种任务。该BERT模型为一种预训练语言表示的方法,可以理解为在一个大型文本语料库(比如维基百科)上训练的通用的“语言理解”模型,然后将这个模型用于下游自然语言处理(Natural Language Processing,NLP)任务(比如问题回答)。BERT优于以前的方法,因为它是第一个用于预训练NLP的无监督、深度双向的系统。
进一步地,服务器可以对待扩容的短文本语料进行句子解析,得到短文本语料对应的实词信息、虚词信息和语法信息。其中,该实词信息用于确定短文本语料中的实词,实词表示有实在意义的词语,能单独充当句子成分,包含以下词性的词语:名词、动词、形容词、数词、量词和代词。该虚词信息用于确定短文本语料中的虚词,虚词不表示实在意义而表示语法意义的词语,不能单独成句,不能单独作语法成分,必须依附于实词或语句,包含以下词性的词语:副词、介词、连词、助词、叹词、拟声词。
其中,语法信息包括句型信息、句式信息和句类信息。其中,句型信息是按照句子的结构模式划分出来的类型,句式信息是按照句子的局部特点划分出来的类型,句类信息是按照句子的语气功能划分出来的类型。该句类信息用于表征短文本语料的句子类型(句类),该句类例如可以包括陈述句、疑问句、祈使句、感叹句等。
进一步地,服务器可以根据近义词候选集合和/或语法信息对短文本语料进行扩容处理,确定出初始扩容语料集合。
在一个实施例中,服务器确定出初始扩容语料集合的方式可以参见图2所示,其中,“实、虚词替换”、“句子长度变换”、“更改句类+句子长度变换”这三种确定出初始扩容语料集合的方式可以完全并列。服务器可以采用其中的一种或者多种方式确定出短文本语料对应的初始扩容语料集合,本申请对此不作具体限定。
在一个实施例中,初始扩容语料集合包括至少一个初始扩容语料,服务器可以根据实词信息以及虚词信息确定短文本语料中的实词和虚词,并基于近义词候选集合对短文本语料中的实词和/或虚词进行替换,以确定出至少一个初始扩容语料。即图2中“实、虚词替换”确定出短文本语料对应的初始扩容语料集合的方式。
在一个实施例,服务器采用“句子长度变换”确定出短文本语料对应的初始扩容语料集合的实施方式可以参见图3所示。可以看出,“句子长度变换”可以包括三种长度变换方式:“生长句子”、“缩减句子+实、虚词替换”以及“生长句子+实、虚词替换”。
具体实现中,服务器可以根据预设句子长度变换规则对短文本语料进行句子变换,并基于近义词候选集合对句子变换后的短文本语料中的实词和/或虚词进行替换,以确定出至少一个初始扩容语料。
其中,该预设句子长度变换规则可以用于指示服务器缩减该短文本语料,也可以用于指示服务器生长该短文本语料。在一个实施例中,若预设句子长度变换规则用于缩减短文本语料,服务器可以缩减该短文本语料,并基于近义词候选集合对缩减后的短文本语料进行实词和/或虚词替换,以确定出至少一个初始扩容语料。即图3中的“缩减句子+实、虚词替换”。或者,在另一个实施例中,若预设句子长度变换规则用于缩减该短文本语料,服务器可以直接将缩减后得到的至少一个短文本语料,确定为该至少一个初始扩容语料,而无需结合“实、虚词替换”。
在另一个实施例中,若预设句子长度变换规则用于生长短文本语料,服务器可以生长该短文本语料,并基于近义词候选集合对生长后的短文本语料进行实词和/或虚词替换,以确定出至少一个初始扩容语料。即图3中的“生长句子+实、虚词替换”。
或者,在又一个实施例中,若预设句子长度变换规则用于生长短文本语料,服务器可以直接将生长后得到的至少一个短文本语料,确定为该至少一个初始扩容语料,而无需结合“实、虚词替换”。即图3中的“生长句子”。
可以理解的是,图3中的三种句子长度变换方式:“生长句子”、“缩减句子+实、虚词替换”、“生长句子+实、虚词替换”可以完全并列,服务器可以采用其中的一种或者多种长度变换方式确定出短文本语料对应的初始扩容语料集合,本申请对此不作具体限定。
在一个实施例中,上述语法信息包括句类信息,服务器可以根据句类信息确定短文本语料所属的第一句类,并根据预设句类变换规则将短文本语料所属的句类由第一句类变换为第二句类。进一步地,服务器可以根据预设句子长度变换规则对属于第二句类的短文本语料进行句子变换,并基于近义词候选集合对句子变换后的短文本语料中的实词和/或虚词进行替换,以确定出至少一个初始扩容语料。即图2中“更改句类+句子长度变换”确定出短文本语料对应的初始扩容语料集合的方式。
或者,在另一个实施例中,服务器根据预设句子长度变换规则对属于第二句类的短文本语料进行句子变换之后,可以直接将句子变换后的至少一个第二句类的短文本语料确定为上述至少一个初始扩容语料,而无需进行后续的“实、虚词替换”。
进一步地,服务器确定出初始扩容语料集合之后,可以基于短文本语料对初始扩容语料集合进行筛选处理,筛选得到短文本语料对应的目标扩容语料集合。
参见图4,图4是本发明实施例提供的一种语料扩容方法的流程示意图,本实施例可由服务器执行,如图所示,该语料扩容方法可包括:
S101:获取待扩容的短文本语料中每个词的动态词向量,以及短文本语料对应的实词信息、虚词信息和语法信息。
在一个实施例中,服务器可以调用语言表示模型对待扩容的短文本语料进行数据处理,得到短文本语料中每个词的动态词向量,该语言表示模型是利用开源网络语料训练得到的。
S102:基于动态词向量从语料集合中确定出与实词信息和虚词信息匹配的近义词候选集合。
其中,上述近义词候选集合可以包括实词候选集合和虚词候选集合,该实词候选集合包括至少一个实词候选词,该虚词候选集合包括至少一个虚词候选词。在一个实施例中,服务器可以基于该实词信息确定短文本语料中的实词,基于虚词信息确定出短文本训练语料中的虚词。进一步地,可以将该实词的动态词向量与预设语料库中的各个预设语料的词向量进行对比,确定出实词与各个预设语料的第一词向量距离,并将第一词向量距离满足第一词向量条件的至少一个预设语料确定为实词候选词,构成实词候选集合;相应地,可以将该虚词的动态词向量与预设语料库中的各个预设语料的词向量进行对比,确定出虚词与各个预设语料的第二词向量距离,并将第二词向量距离满足第二词向量条件的至少一个预设语料确定为虚词候选词,构成虚词候选集合。
其中,上述预设语料库中包括的预设语料的来源可以包括大规模开源网络语料和/或用户提供的语料。
在一个实施例中,上述第一词向量条件可以为第一词向量距离小于或者等于第一预设词向量阈值,第二词向量条件可以为第二词向量距离小于或者等于第二预设词向量阈值。针对这种情况,服务器可以将第一词向量距离小于或者等于第一预设词向量阈值的至少一个预设语料确定为实词候选词,构成实词候选集合;将第二词向量距离小于或者等于第二预设词向量阈值的至少一个预设语料确定为虚词候选词,构成虚词候选集合。
在一个实施例中,上述第一词向量条件可以为将第一词向量距离最小的N(大于0的整数)个预设语料确定为实词候选词;上述第二词向量条件可以为将第二词向量距离最小的M(大于0的整数)个预设语料确定为虚词候选词。针对这种情况,当服务器确定出实词与各个预设语料的第一词向量距离,可按照由小到大的顺序对各个第一词向量距离进行排序,并将排序前N的第一词向量距离对应的预设语料确定为实词候选词;相应地,当服务器确定出虚词与各个预设语料的第二词向量距离,可按照由小到大的顺序对各个第二词向量距离进行排序,并将排序前M的第二词向量距离对应的预设语料确定为虚词候选词。
S103:根据近义词候选集合和/或语法信息对短文本语料进行扩容处理,确定出短文本语料对应的目标扩容语料集合。
在一个实施例中,服务器可以根据近义词候选集合和/或语法信息对短文本语料进行扩容处理,确定出初始扩容语料集合,并基于短文本语料对初始扩容语料集合进行筛选处理,筛选得到短文本语料对应的目标扩容语料集合。
在一个实施例中,初始扩容语料集合包括至少一个初始扩容语料,服务器可以根据近义词候选集合对短文本语料进行扩容处理,确定出初始扩容语料集合,其具体实施方式可以包括:
a.根据实词信息以及虚词信息确定短文本语料中的实词和虚词,并基于近义词候选集合对短文本语料中的实词和/或虚词进行替换,以确定出至少一个初始扩容语料。即上述图2中提到的“实、虚词替换”确定出短文本语料对应的初始扩容语料集合的方式。
b.根据预设句子长度变换规则对短文本语料进行句子变换,并基于近义词候选集合对句子变换后的短文本语料中的实词和/或虚词进行替换,以确定出至少一个初始扩容语料。即上述图2中提到的“句子长度变换”确定出短文本语料对应的初始扩容语料集合的方式。
在一个实施例中,初始扩容语料集合包括至少一个初始扩容语料,上述语法信息包括句类信息,服务器可以根据语法信息对短文本语料进行扩容处理,确定出初始扩容语料集合,其具体实施方式可以为:服务器可以根据句类信息确定短文本语料所属的第一句类,并根据预设句类变换规则将短文本语料所属的句类由第一句类变换为第二句类。进一步地,服务器可以根据预设句子长度变换规则对属于第二句类的短文本语料进行句子变换,并将句子变换后的至少一个第二句类的短文本语料确定为上述至少一个初始扩容语料。
在一个实施例中,语法信息包括句类信息,服务器可以根据近义词候选集合和语法信息对短文本语料进行扩容处理,确定出初始扩容语料集合,其具体实施方式可以为:服务器根据句类信息确定短文本语料所属的第一句类,并根据预设句类变换规则将短文本语料所属的句类由第一句类变换为第二句类。进一步地,服务器可以根据预设句子长度变换规则对属于第二句类的短文本语料进行句子变换,进而基于近义词候选集合对句子变换后的短文本语料中的实词和/或虚词进行替换,以确定出至少一个初始扩容语料。即上述图2中提到的“更改句类+句子长度变换”确定出短文本语料对应的初始扩容语料集合的方式。
在一个实施例中,服务器可以计算初始扩容语料集合中各个初始扩容语料与所述短文本语料之间的文本相似度,并从初始扩容语料集合中删除文本相似度大于或者等于相似度阈值的初始扩容语料,得到短文本语料对应的目标扩容语料集合。采用这样的方式,可以删除初始扩容语料集合中与短文本语料比较相似的初始扩容语料,使得确定出的目标扩容语料集合对应的语料特征更加丰富。
具体实现中,服务器可以依次循环遍历初始扩容语料集合中的所有初始扩容语料,计算各个初始扩容语料与短文本语料两两之间的文本相似度,从初始扩容语料集合中删除相似度大于或者等于相似度阈值的初始扩容语料,得到短文本语料对应的目标扩容语料集合。在一个实施例中,该文本相似度的计算可以采用编辑距离、Jaccard相似度、Cosine相似度等方式计算。
本申请实施例中,可以获取待扩容的短文本语料中每个词的动态词向量、短文本语料对应的实词信息、虚词信息和语法信息,并基于动态词向量从语料集合中确定出与实词信息和虚词信息匹配的近义词候选集合,进一步还可以根据近义词候选集合和/或语法信息对短文本语料进行扩容处理,确定出短文本语料对应的目标扩容语料集合。采用本申请,一方面,可以实现短文本语料的自动扩容,提高短文本语料的扩容效率;另一方面,可以结合短文本语料对应的近义词候选集和/语法信息对短文本语料进行扩容处理,有利于提高该短文本语料对应扩容语料的丰富度。
参见图5,图5是本发明实施例提供的另一种语料扩容方法的流程示意图,本实施例可由服务器执行,如图所示,该语料扩容方法可包括:
S201:获取待扩容的短文本语料中每个词的动态词向量,以及短文本语料对应的实词信息、虚词信息和语法信息。
S202:基于动态词向量从语料集合中确定出与实词信息和虚词信息匹配的近义词候选集合。其中,步骤S201与步骤S202的具体实施方式可以参见上述实施例中步骤S101和步骤S102的相关描述,此处不再赘述。
S203:根据实词信息以及虚词信息确定短文本语料中的实词和虚词,并基于近义词候选集合对短文本语料中的实词和/或虚词进行替换,以确定出至少一个初始扩容语料组成初始扩容语料集合。
其中,该近义词候选集合可以包括实词候选集合和虚词候选集合,该实词候选集合包括至少一个实词候选词,该虚词候选集合包括至少一个虚词候选词。在一个实施中,短文本语料中的实词和虚词均可以包括多个,每一个实词可以对应一个实词候选集合,每一个虚词可以对应一个虚词候选集合。针对这种情况,服务器可以从各个实词候选集合和/或各个虚词候选集合中选取各个实词各自对应的实词候选词,以及各个虚词各自对应的虚词候选词,并对选取出的各个实词候选词以及虚词候选词进行随机组合,替换短文本语料中的实词和/或虚词,确定出至少一个初始扩容语料,并采用该至少一个初始扩容语料组成初始扩容语料集合。
示例性地,假设短文本语料为一个句子“邮寄顺丰可以吗?”,其中,实词包括:“邮寄”和“顺丰”;虚词包括:“可以”和“吗”;实词“邮寄”对应的第一实词候选集合包括:“寄送,寄,邮,运送,邮递”(5个);实词“顺丰”对应的第二实词候选集合包括“圆通、韵达、申通,中通,EMS”(5个),虚词“可以”对应的第一虚词候选集合包括“行,好”(2个),虚词“吗”对应的第二虚词候选集合包括“嘛,吧,呢,么,不”(5个)。针对这种情况,服务器可以从第一实词候选集合选取出任一个实词候选词作为第一实词候选词,从第二实词候选集合选取出任一个实词候选词作为第二实词候选词,由于实词候选词可以加上短文本语料中本来的那个实词,因此,可以将“邮寄”也作为该第一实词候选词,将“顺丰”也作为该第二实词候选词。进一步地,服务器可以从第一虚词候选集合选取出任一个虚词候选词作为第一虚词候选词,从第二虚词候选集合选取出任一个虚词候选词作为第二虚词候选词,进而对所有的第一实词候选词、第二实词候选词、第一虚词候选词以及第二虚词候选词对短文本语料中的实词和/或虚词进行替换组合,生成新的句子(即初始扩容语料)。其中,通过排列组合可以生成6*6*2*5=360个新的句子,新的句子例如可以为:“寄送顺丰可以吗?”,“寄送申通行不?”等。
S204:基于短文本语料对初始扩容语料集合进行筛选处理,筛选得到短文本语料对应的目标扩容语料集合。其中,步骤S204的具体实施方式可以参见上述实施例中步骤S103的相关描述,此处不再赘述。
本申请实施例,服务器可以基于动态词向量从语料集合中确定出与实词信息和虚词信息匹配的近义词候选集合,并根据近义词候选集合对短文本语料中的实词和/或虚词进行替换,以确定出至少一个初始扩容语料组成初始扩容语料集合。在实、虚词替换上采用了动态词向量来得到不同词语不同语境下的近义词候选集,替代了静态词向量的方式得到近义词候选集,进一步提升了实、虚词替换的准确性和可用性,进而提高短文本语料扩容的有效性。
参见图6,图6是本发明实施例提供的又一种语料扩容方法的流程示意图,本实施例可由服务器执行,如图所示,该语料扩容方法可包括:
S301:获取待扩容的短文本语料中每个词的动态词向量,以及短文本语料对应的实词信息、虚词信息和语法信息。
S302:基于动态词向量从语料集合中确定出与实词信息和虚词信息匹配的近义词候选集合。其中,步骤S301与步骤S302的具体实施方式可以参见上述实施例中步骤S101和步骤S102的相关描述,此处不再赘述。
S303:根据预设句子长度变换规则对短文本语料进行句子变换,并基于近义词候选集合对句子变换后的短文本语料中的实词和/或虚词进行替换,以确定出至少一个初始扩容语料组成初始扩容语料集合。其中,该实词是基于实词信息确定的,虚词是基于虚词信息确定的。
在一个实施例中,若预设句子长度变换规则用于缩减短文本语料,服务器可以基于实词信息确定短文本语料中各个实词的属性以及词性,并删除短文本语料中第一属性的实词,进而根据删除第一属性的实词后的短文本语料中各个实词的词性,对删除第一属性的实词后的短文本语料进行句子变换。
其中,该第一属性可以为表示时间、地点、数量、方向、环境、修饰的属性(的、地、得前面的词语表修饰)。在一个实施例中,服务器可以将短文本语料中表示时间、地点、数量、方向、环境、修饰的实词均删除,得到第一短文本语料,并确定第一短文本语料中各个实词的词性,并按照“名词+动词+名词”或“名词+动词”的形式对该第一短文本语料进行句子变换。
示例性地,短文本语料为句子“那天买的裤子麻烦帮我退货”,服务器基于实词信息确定出实词“那天”表示时间,“买的”表修饰,“麻烦”表修饰;“裤子”为名词、“退货”为动词,可根据“名词+动词”的形式以及不同的需求对该第一短文本语料进行句子变换,将短文本语料“那天买的裤子麻烦帮我退货”缩减为“裤子退货”,“裤子帮我退货”等。
在一个实施例中,若预设句子长度变换规则用于指示生长短文本语料,服务器可以基于实词信息确定短文本语料中各个实词的属性,并从短文本语料中确定出第二属性的目标实词。进一步地,服务器可以从预设的修饰文本集合中确定出与目标实词匹配的目标修饰文本,并在短文本语料中对目标实词添加目标修饰文本。其中,该第二属性例如可以为表征动作的属性,该目标修饰文本例如可以为表征时间、地点、人物等的修饰文本。
示例性地,假设预设的修饰文本集合包括“现在在这儿买的东西”、“可以”、“你们”、“重庆”等预设修饰文本,短文本语料为句子“包邮吗?”,服务器基于实词信息确定出实词“包邮”表征动作,则可以将该实词“包邮”确定为目标实词。在这种语境下,服务器可以从预设的修饰文本集合中将“现在在这儿买的东西”以及“可以”确定为与目标实词“包邮”匹配的目标修饰文本,并在短文本语料中对目标实词添加目标修饰文本,用于修饰该目标实词“包邮”,从而实现生长句子。生长后的短文本语料可以为“现在在这儿买的东西包邮吗?”,“可以包邮吗?”。
在另一个实施例中,若预设句子长度变换规则用于指示生长短文本语料,服务器还可以调用语言处理模型对短文本语料进行生长处理,得到生长处理后的短文本语料。
其中,该语言处理模型可以为(Sequence to Sequence,Seq2Seq)模型,该Seq2Seq模型是一个Encoder–Decoder结构的网络,它的输入是一个序列,输出也是一个序列,Encoder中将一个可变长度的信号序列变为固定长度的向量表达,Decoder将这个固定长度的向量变成可变长度的目标的信号序列。
在一个实施例中,服务器可以通过开源短文本语料训练该Seq2Seq模型来自动生成生长后的句子。在一个实施例中,通过开源短文本语料训练该Seq2Seq模型的过程中,可以将缩减后的开源短文本语料作为Seq2Seq模型的输入,未缩减的开源短文本语料作为Seq2Seq模型的输出,以实现对Seq2Seq模型的训练。进一步地,在Seq2Seq模型训练完成后,服务器可以调用训练完成的Seq2Seq模型对短文本语料进行生长处理,进而得到生长处理后的短文本语料。
其中,服务器在对短文本语料进行生成的过程中,可以依据不同的需求对句子进行生成,例如句子长度和生成的句子个数。
S304:基于短文本语料对初始扩容语料集合进行筛选处理,筛选得到短文本语料对应的目标扩容语料集合。其中,步骤S304的具体实施方式可以参见上述实施例中步骤S103的相关描述,此处不再赘述。
参见图7,图7是本发明实施例提供的又一种语料扩容方法的流程示意图,本实施例可由服务器执行,如图所示,该语料扩容方法可包括:
S401:获取待扩容的短文本语料中每个词的动态词向量,以及短文本语料对应的实词信息、虚词信息和语法信息。
S402:基于动态词向量从语料集合中确定出与实词信息和虚词信息匹配的近义词候选集合。其中,步骤S401与步骤S402的具体实施方式可以参见上述实施例中步骤S101和步骤S102的相关描述,此处不再赘述。
S403:根据语法信息中的句类信息确定短文本语料所属的第一句类,并根据预设句类变换规则将短文本语料所属的句类由第一句类变换为第二句类。
其中,可以预设多种句类(以下简称预设句类),该预设句类可以包括陈述句、疑问句、祈使句、感叹句,更换可以借鉴语法中的变换方式。该预设句类变换规则用于指示服务器将短文本语料由第一句类变换为第二句类,该第一句类可以包括陈述句、疑问句、祈使句和感叹句中的任一种,由于感叹句、祈使句这两种情况跟原句长的非常像,将短文本语料变换成这两种句类的意义不大,因此,该第二句类可以包括陈述句和疑问句中的任一种或者多种。在一个实施例中,服务器可以基于句类信息从至少一个预设句类中确定出短文本语料所属的第一句类,基于预设句类变换规则的指示将短文本语料所属的句类由第一句类变换为第二句类。例如,假设短文本语料所属的第一句类为陈述句,那么服务器可以基于预设句类变换规则的指示将短文本语料转换为祈使句(即第二句类);假设短文本语料所属的第一句类为感叹句,那么服务器可以基于预设句类变换规则的指示将短文本语料转换为陈述句和/或疑问句。
其中,服务器将短文本语料由感叹句变换为陈述句的实施方式可以为:删除短文本语料中“太”、“真”等副词,去掉结尾“啊,呀,啦”等词语,感叹号变为句号。将短文本语料由祈使句变换为陈述句的实施方式可以为:在短文本语料中加上虚拟的第二人称主语。
其中,上述疑问句可以包括一般疑问句和反问句。在一个实施例中,疑问句可以包括一般疑问句,服务器将短文本语料由陈述句变换为一般疑问句的实施方式可以为:调用训练后的多分类模型解析短文本语料,确定短文本语料对应的句子意图,若该句子意图属于预设意图,则按照预设的第一疑问变换规则将短文本语料由陈述句变换为一般疑问句。或者,当短文本语料对应的句子意图不属于预设意图时,可以不对该短文本语料执行变换处理。其中,该预设意图可以包括:问的是什么(什么是/的功能是什么、的作用是什么等)、时间(什么时候,多久,哪会/是多久,有多久等)、地点(什么地点,哪里,什么地方,什么地址/在哪里,是哪里等)、人物(什么人,谁,哪个/是谁,是哪个等)、方式(怎么,如何/是什么,怎么弄等)、原因(为什么,怎么/的原因)。
上述第一疑问变换规则可以包括以下一种或者多种:1、从短文本语料中删除代表预设意图的实词,并在句首加上对应的疑问词,例如“退货地址”改为“哪里退货”,“退货方式”改为“怎么退货?”,2、不删掉实词,在短文本语料中直接将疑问词加在句子后面例如“退货地址”改为“退货地址在哪里?”,“退货方式”改为“退货方式是什么?”。
在一个实施例中,疑问句可以包括反问句,反问句是用疑问句的形式来表示肯定或否定的意义,带有很强的强调意味。因此,同样的意思用反问句表达比一般的肯定句或否定句更有力量,语气更强。在一个实施例中,服务器将短文本语料由陈述句变换为反问句的实施方式可以为:通过语法转换的基本规则,在短文本语料中加上“怎么”、“难道”、“什么”等预设疑问词,句末尾加上“吗”、“呢”等预设疑问助词,句尾句号变为问号,如果有否定词就去掉,如果没有否定词就加上。例如“我要退货”是陈述句,可以转换为“难道不要我退货吗?”,“怎么不让我退货呢?”。
在一个实施例中,疑问句类型可以包括:一般疑问句、正反疑问句、带有疑问代词的疑问句和选择疑问句。服务器将短文本语料由疑问句变换为陈述句或其他疑问句的恰好相反,其具体实施方式可以为:基于短文本语料中的疑问词或者句子格式确定该短文本语料所属的疑问句类型,并从预设的第二疑问变换规则中确定该疑问句类型对应的目标疑问变换子规则,并基于该目标疑问变换子规则的指示将短文本语料由疑问句变换为陈述句或其他疑问句。
在一个实施例中,一般疑问句对应有标志性的疑问词,如“吗”,针对这种情况,当服务器检测到短文本语料中包括疑问词“吗”时,可以确定该短文本语料为一般疑问句。在一个实施例中,正反疑问句的句子格式特点是重复句子中的动词或形容词,包括“动词+不/没+动词(+呢/啊)”或者“形容词+不+形容词(+呢/啊)”等正反疑问句格式,针对这种情况,当服务器检测到短文本语料的句子格式为上述正反疑问句格式中的任一种,可以确定短文本语料为正反疑问句。在一个实施例中,带有疑问代词的疑问句,特点是句子中有“哪”、“几”、“谁”、“多少”等表示疑问的预设代词,例如:“什么时候退款?”,“什么是NFC?”,“我该联系谁?”,“你们公司有多少人?”,针对这种情况,当服务器检测到短文本语料的疑问词中包括上述预设代词中的任一种,可以确定短文本语料为正反疑问句。在一个实施例中,选择疑问句为用“A还是B?”的形式组成的疑问句,针对这种情况,当服务器检测到短文本语料的句子格式为“A还是B?”,可以确定短文本语料为选择疑问句。
其中,每一种疑问句类型可以对应一个疑问变换子规则,预设的第二疑问变换规则包括一个或者多个疑问变换子规则。在一个实施例中,一般疑问句对应的疑问变换子规则用于指示服务器删除短文本语料中的疑问词,例如短文本语料为“你们是正品吗”,服务器可以直接删除疑问词“吗”,实现一般疑问句至陈述句的转换。
在一个实施例中,由于正反疑问句的特点是重复句子中的动词或形容词,包括:动词+不/没+动词(+呢/啊)或形容词+不+形容词(+呢/啊),例如:这是不是你的书?你昨天吃没吃晚饭?今天冷不冷?这类疑问句不能变成陈述句,只能变成一般疑问句。针对这种情况,正反疑问句对应的疑问变换子规则用于指示服务器删除短文本语料中的“不/没+动词”或“不+形容词”,例如:将“这是不是你的书?”转换为“这是你的书吗?”,实现正反疑问句至一般疑问句的转换。
在一个实施例中,带有疑问代词的疑问句对应的疑问变换子规则用于指示服务器将句子意图属于上述预设意图的短文本语料,将短文本语料中表征该预设意图的目标词转换为相应的实词。例如,短文本语料为“什么时候退款?”,句子意图包括时间,表征该时间的实词为“什么时候”,那么服务器可以将“什么时候”转换为相应的实词“时间”,转换后的短文本语料为“退款时间”,实现了带有疑问代词的疑问句至陈述句的转换。又例如,服务器可以参照该带有疑问代词的疑问句对应的疑问变换子规则将“什么是NFC”改为“NFC的作用”。
在一个实施例中,假设短文本语料为带有疑问代词的疑问句,服务器检测到该短文本语料的句子意图不为预设意图,则可以不对该短文本语料做变换。例如,短文本语料为“你们公司有多少人?”,对应的句子意图不为预设意图,服务器可以不对该短文本语料做变换。
在一个实施例中,选择疑问句对应的疑问变换子规则可以用于指示服务器删除短文本语料中的一个选择项,形成带有疑问代词的疑问句或一般疑问句,例如,假设短文本语料为“这是你的还是他的?”,服务器可以基于该选择疑问句对应的疑问变换子规则删除短文本语料中的任一个选择项,将该短文本语料转换为“这是你的吗?”或者“这是他的吗?”,实现了选择疑问句至一般疑问句的转换。
在另一个实施例中,选择疑问句对应的疑问变换子规则还可以用于指示服务器删除短文本语料中的两个选择项,形成带有疑问代词的疑问句。例如,假设短文本语料为“这是你的还是他的?”,服务器可以基于该选择疑问句对应的疑问变换子规则,删除短文本语料中的两个选择项,将该短文本语料转换为“这是谁的?”,实现了选择疑问句至一般疑问句的转换。
在一个实施例中,服务器将短文本语料由反问句变换为陈述句的实施方式可以为:将短文本语料中的肯定词改为否定词,或否定词改为肯定词,例如:有“不”去掉“不”、没有“不”在动词前加上“不”。进一步地,服务器可以在删除短文本语料中的反问语气词,该反问语气词例如可以为“怎”、“怎么”、“怎么还”、“难道”、“什么”等。示例性地,假设短文本语料为反问句“怎么还不给我退款”,服务器可以将短文本语料中的“不”以及反问语气词“怎么还”删除,删除后的短文本语料为“给我退款”,实现了反问句至一般疑问句的转换。
S404:根据预设句子长度变换规则对属于第二句类的短文本语料进行句子变换,进而基于近义词候选集合对句子变换后的短文本语料中的实词和/或虚词进行替换,以确定出至少一个初始扩容语料。其中,该实词是基于实词信息确定的,虚词是基于虚词信息确定的。其中,根据预设句子长度变换规则对属于第二句类的短文本语料进行句子变换,以及基于近义词候选集合对句子变换后的短文本语料中的实词和/或虚词进行替换,以确定出至少一个初始扩容语料的具体实施方式可以参见上述实施例步骤S303的相关描述,此处不再赘述。
S405:基于短文本语料对初始扩容语料集合进行筛选处理,筛选得到短文本语料对应的目标扩容语料集合。其中,步骤S405的具体实施方式可以参见上述实施例中步骤S103的相关描述,此处不再赘述。
本发明实施例还提供了一种计算机存储介质,该计算机存储介质中存储有程序指令,该程序指令被执行时,用于实现上述实施例中描述的相应方法。
本发明实施例还提供了一种语料扩容装置,该装置包括用于执行前述图4、图5、图6或者图7所述的方法的模块,配置于服务器。具体地,参见图8,是本发明实施例提供的语料扩容装置的示意框图。本实施例的语料扩容装置包括:
获取模块50,用于获取待扩容的短文本语料中每个词的动态词向量,以及所述短文本语料对应的实词信息、虚词信息和语法信息;
处理模块51,用于基于所述动态词向量从语料集合中确定出与所述实词信息和所述虚词信息匹配的近义词候选集合;
所述处理模块51,还用于根据所述近义词候选集合和/或所述语法信息对所述短文本语料进行扩容处理,确定出所述短文本语料对应的目标扩容语料集合。
在一个实施例中,处理模块51,具体用于根据所述近义词候选集合和/或所述语法信息对所述短文本语料进行扩容处理,确定出初始扩容语料集合;基于所述短文本语料对所述初始扩容语料集合进行筛选处理,筛选得到所述短文本语料对应的目标扩容语料集合。
在一个实施例中,所述初始扩容语料集合包括至少一个初始扩容语料,处理模块51,还具体用于根据所述实词信息以及所述虚词信息确定所述短文本语料中的实词和虚词;基于所述近义词候选集合对所述短文本语料中的所述实词和/或所述虚词进行替换,以确定出至少一个初始扩容语料。
在一个实施例中,所述初始扩容语料集合包括至少一个初始扩容语料,处理模块51,还具体用于根据预设句子长度变换规则对所述短文本语料进行句子变换;基于所述近义词候选集合对句子变换后的短文本语料中的实词和/或虚词进行替换,以确定出至少一个初始扩容语料,所述实词是基于所述实词信息确定的,所述虚词是基于所述虚词信息确定的。
在一个实施例中,处理模块51,还具体用于若所述预设句子长度变换规则用于缩减所述短文本语料,则基于所述实词信息确定所述短文本语料中各个实词的属性以及词性;删除所述短文本语料中第一属性的实词;根据删除所述第一属性的实词后的短文本语料中各个实词的词性,对删除所述第一属性的实词后的短文本语料进行句子变换。
在一个实施例中,处理模块51,还具体用于若所述预设句子长度变换规则用于指示生长所述短文本语料,则基于所述实词信息确定所述短文本语料中各个实词的属性;从所述短文本语料中确定出第二属性的目标实词;从预设的修饰文本集合中确定出与所述目标实词匹配的目标修饰文本;在所述短文本语料中对所述目标实词添加所述目标修饰文本。
在一个实施例中,处理模块51,还具体用于若所述预设句子长度变换规则用于指示生长所述短文本语料,则调用语言处理模型对所述短文本语料进行生长处理,得到生长处理后的短文本语料。
在一个实施例中,所述语法信息包括句类信息,处理模块51,还具体用于根据所述句类信息确定所述短文本语料所属的第一句类;根据预设句类变换规则将所述短文本语料所属的句类由所述第一句类变换为所述第二句类;根据预设句子长度变换规则对属于所述第二句类的短文本语料进行句子变换;基于所述近义词候选集合对句子变换后的短文本语料中的实词和/或虚词进行替换,以确定出至少一个初始扩容语料,所述实词是基于所述实词信息确定的,所述虚词是基于所述虚词信息确定的。
在一个实施例中,获取模块50,具体用于调用语言表示模型对待扩容的短文本语料进行数据处理,得到所述短文本语料中每个词的动态词向量,所述语言表示模型是利用开源网络语料训练得到的。
在一个实施例中,所述处理模块51,还具体用于计算所述初始扩容语料集合中各个初始扩容语料与所述短文本语料之间的文本相似度;从所述初始扩容语料集合中删除所述文本相似度大于或者等于相似度阈值的初始扩容语料,得到所述短文本语料对应的目标扩容语料集合。
需要说明的是,本发明实施例所描述的语料扩容装置的各功能模块的功能可根据上述图4、图5、图6或者图7所述的所述的方法实施例中的方法具体实现,其具体实现过程可以参照图4、图5、图6或者图7的方法实施例的相关描述,此处不再赘述。
请参见图9,图9是本发明实施例提供的一种服务器的示意性框图,如图9所示,该服务器包括,处理器601、存储器602和通信接口603。上述处理器601、存储器602和通信接口603可通过总线或其他方式连接,在本发明实施例所示图9中以通过总线连接为例。其中,通信接口603受所述处理器的控制用于收发消息,存储器602用于存储计算机程序,所述计算机程序包括程序指令,处理器601用于执行存储器602存储的程序指令。其中,处理器601被配置用于调用所述程序指令执行:获取待扩容的短文本语料中每个词的动态词向量,以及所述短文本语料对应的实词信息、虚词信息和语法信息;所述动态词向量从语料集合中确定出与所述实词信息和所述虚词信息匹配的近义词候选集合;根据所述近义词候选集合和/或所述语法信息对所述短文本语料进行扩容处理,确定出所述短文本语料对应的目标扩容语料集合。
在一个实施例中,处理器601,具体用于根据所述近义词候选集合和/或所述语法信息对所述短文本语料进行扩容处理,确定出初始扩容语料集合;基于所述短文本语料对所述初始扩容语料集合进行筛选处理,筛选得到所述短文本语料对应的目标扩容语料集合。
在一个实施例中,所述初始扩容语料集合包括至少一个初始扩容语料,处理器601,还具体用于根据所述实词信息以及所述虚词信息确定所述短文本语料中的实词和虚词;基于所述近义词候选集合对所述短文本语料中的所述实词和/或所述虚词进行替换,以确定出至少一个初始扩容语料。
在一个实施例中,所述初始扩容语料集合包括至少一个初始扩容语料,处理器601,还具体用于根据预设句子长度变换规则对所述短文本语料进行句子变换;基于所述近义词候选集合对句子变换后的短文本语料中的实词和/或虚词进行替换,以确定出至少一个初始扩容语料,所述实词是基于所述实词信息确定的,所述虚词是基于所述虚词信息确定的。
在一个实施例中,处理器601,还具体用于若所述预设句子长度变换规则用于缩减所述短文本语料,则基于所述实词信息确定所述短文本语料中各个实词的属性以及词性;删除所述短文本语料中第一属性的实词;根据删除所述第一属性的实词后的短文本语料中各个实词的词性,对删除所述第一属性的实词后的短文本语料进行句子变换。
在一个实施例中,处理器601,还具体用于若所述预设句子长度变换规则用于指示生长所述短文本语料,则基于所述实词信息确定所述短文本语料中各个实词的属性;从所述短文本语料中确定出第二属性的目标实词;从预设的修饰文本集合中确定出与所述目标实词匹配的目标修饰文本;在所述短文本语料中对所述目标实词添加所述目标修饰文本。
在一个实施例中,处理器601,还具体用于若所述预设句子长度变换规则用于指示生长所述短文本语料,则调用语言处理模型对所述短文本语料进行生长处理,得到生长处理后的短文本语料。
在一个实施例中,所述语法信息包括句类信息,处理器601,还具体用于根据所述句类信息确定所述短文本语料所属的第一句类;根据预设句类变换规则将所述短文本语料所属的句类由所述第一句类变换为所述第二句类;根据预设句子长度变换规则对属于所述第二句类的短文本语料进行句子变换;基于所述近义词候选集合对句子变换后的短文本语料中的实词和/或虚词进行替换,以确定出至少一个初始扩容语料,所述实词是基于所述实词信息确定的,所述虚词是基于所述虚词信息确定的。
在一个实施例中,处理器601,还具体用于调用语言表示模型对待扩容的短文本语料进行数据处理,得到所述短文本语料中每个词的动态词向量,所述语言表示模型是利用开源网络语料训练得到的。
在一个实施例中,所述处理器601,还具体用于计算所述初始扩容语料集合中各个初始扩容语料与所述短文本语料之间的文本相似度;从所述初始扩容语料集合中删除所述文本相似度大于或者等于相似度阈值的初始扩容语料,得到所述短文本语料对应的目标扩容语料集合。
应当理解,在本发明实施例中,所称处理器601可以是中央处理单元(CentralProcessing Unit,CPU),该处理器601还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
该存储器602可以包括只读存储器和随机存取存储器,并向处理器601提供指令和数据。存储器602的一部分还可以包括非易失性随机存取存储器。例如,存储器602还可以存储设备类型的信息。
具体实现中,本发明实施例中所描述的处理器601、存储器602和通信接口603可执行本发明实施例提供的图4、图5、图6或者图7所述的方法实施例所描述的实现方式,也可执行本发明实施例所描述的语料扩容服务器的实现方式,在此不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明的部分实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。

Claims (13)

1.一种语料扩容方法,其特征在于,所述方法包括:
获取待扩容的短文本语料中每个词的动态词向量,以及所述短文本语料对应的实词信息、虚词信息和语法信息;
基于所述动态词向量从语料集合中确定出与所述实词信息和所述虚词信息匹配的近义词候选集合;
根据所述近义词候选集合和/或所述语法信息对所述短文本语料进行扩容处理,确定出所述短文本语料对应的目标扩容语料集合。
2.根据权利要求1所述的方法,其特征在于,所述根据所述近义词候选集合和/或所述语法信息对所述短文本语料进行扩容处理,确定出所述短文本语料对应的目标扩容语料集合,包括:
根据所述近义词候选集合和/或所述语法信息对所述短文本语料进行扩容处理,确定出初始扩容语料集合;
基于所述短文本语料对所述初始扩容语料集合进行筛选处理,筛选得到所述短文本语料对应的目标扩容语料集合。
3.根据权利要求2所述的方法,其特征在于,所述初始扩容语料集合包括至少一个初始扩容语料,所述根据所述近义词候选集合对所述短文本语料进行扩容处理,确定出初始扩容语料集合,包括:
根据所述实词信息以及所述虚词信息确定所述短文本语料中的实词和虚词;
基于所述近义词候选集合对所述短文本语料中的所述实词和/或所述虚词进行替换,以确定出至少一个初始扩容语料。
4.根据权利要求2所述的方法,其特征在于,所述初始扩容语料集合包括至少一个初始扩容语料,所述根据所述近义词候选集合对所述短文本语料进行扩容处理,确定出初始扩容语料集合,包括:
根据预设句子长度变换规则对所述短文本语料进行句子变换;
基于所述近义词候选集合对句子变换后的短文本语料中的实词和/或虚词进行替换,以确定出至少一个初始扩容语料,所述实词是基于所述实词信息确定的,所述虚词是基于所述虚词信息确定的。
5.根据权利要求4所述的方法,其特征在于,所述根据预设句子长度变换规则对所述短文本语料进行句子变换,包括:
若所述预设句子长度变换规则用于缩减所述短文本语料,则基于所述实词信息确定所述短文本语料中各个实词的属性以及词性;
删除所述短文本语料中第一属性的实词;
根据删除所述第一属性的实词后的短文本语料中各个实词的词性,对删除所述第一属性的实词后的短文本语料进行句子变换。
6.根据权利要求4所述的方法,其特征在于,所述根据预设句子长度变换规则对所述短文本语料进行句子变换,包括:
若所述预设句子长度变换规则用于指示生长所述短文本语料,则基于所述实词信息确定所述短文本语料中各个实词的属性;
从所述短文本语料中确定出第二属性的目标实词;
从预设的修饰文本集合中确定出与所述目标实词匹配的目标修饰文本;
在所述短文本语料中对所述目标实词添加所述目标修饰文本。
7.根据权利要求4所述的方法,其特征在于,所述根据预设句子长度变换规则对所述短文本语料进行句子变换,包括:
若所述预设句子长度变换规则用于指示生长所述短文本语料,则调用语言处理模型对所述短文本语料进行生长处理,得到生长处理后的短文本语料。
8.根据权利要求2所述的方法,其特征在于,所述语法信息包括句类信息,所述根据所述近义词候选集合和所述语法信息对所述短文本语料进行扩容处理,确定出初始扩容语料集合,包括:
根据所述句类信息确定所述短文本语料所属的第一句类;
根据预设句类变换规则将所述短文本语料所属的句类由所述第一句类变换为第二句类;
根据预设句子长度变换规则对属于所述第二句类的短文本语料进行句子变换;
基于所述近义词候选集合对句子变换后的短文本语料中的实词和/或虚词进行替换,以确定出至少一个初始扩容语料,所述实词是基于所述实词信息确定的,所述虚词是基于所述虚词信息确定的。
9.根据权利要求1所述的方法,其特征在于,所述获取待扩容的短文本语料中每个词的动态词向量,包括:
调用语言表示模型对待扩容的短文本语料进行数据处理,得到所述短文本语料中每个词的动态词向量,所述语言表示模型是利用开源网络语料训练得到的。
10.根据权利要求2所述的方法,其特征在于,所述基于所述短文本语料对所述初始扩容语料集合进行筛选处理,筛选得到所述短文本语料对应的目标扩容语料集合,包括:
计算所述初始扩容语料集合中各个初始扩容语料与所述短文本语料之间的文本相似度;
从所述初始扩容语料集合中删除所述文本相似度大于或者等于相似度阈值的初始扩容语料,得到所述短文本语料对应的目标扩容语料集合。
11.一种语料扩容装置,其特征在于,所述语料扩容装置包括:
获取模块,用于获取待扩容的短文本语料中每个词的动态词向量,以及所述短文本语料对应的实词信息、虚词信息和语法信息;
处理模块,用于基于所述动态词向量从语料集合中确定出与所述实词信息和所述虚词信息匹配的近义词候选集合;
所述处理模块,还用于根据所述近义词候选集合和/或所述语法信息对所述短文本语料进行扩容处理,确定出所述短文本语料对应的目标扩容语料集合。
12.一种服务器,其特征在于,包括处理器和存储器,所述处理器和所述存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-10任一项所述的方法。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现权利要求1-10任一项所述的方法。
CN201910445215.7A 2019-05-27 2019-05-27 一种语料扩容方法及相关设备 Active CN110309280B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910445215.7A CN110309280B (zh) 2019-05-27 2019-05-27 一种语料扩容方法及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910445215.7A CN110309280B (zh) 2019-05-27 2019-05-27 一种语料扩容方法及相关设备

Publications (2)

Publication Number Publication Date
CN110309280A true CN110309280A (zh) 2019-10-08
CN110309280B CN110309280B (zh) 2021-11-09

Family

ID=68075709

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910445215.7A Active CN110309280B (zh) 2019-05-27 2019-05-27 一种语料扩容方法及相关设备

Country Status (1)

Country Link
CN (1) CN110309280B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110738040A (zh) * 2019-10-17 2020-01-31 深圳市比量科技传媒有限公司 一种评论扩展方法及系统
CN110852331A (zh) * 2019-10-25 2020-02-28 中电科大数据研究院有限公司 一种结合bert模型的图像描述生成方法
CN111488735A (zh) * 2020-04-09 2020-08-04 中国银行股份有限公司 测试语料生成方法、装置及电子设备
CN111488463A (zh) * 2020-04-09 2020-08-04 中国银行股份有限公司 测试语料生成方法、装置及电子设备
CN111695356A (zh) * 2020-05-28 2020-09-22 平安科技(深圳)有限公司 同义语料生成方法、装置、计算机系统及可读存储介质
CN111831788A (zh) * 2020-06-16 2020-10-27 国网江苏省电力有限公司信息通信分公司 一种电力语料标记模型构建方法及系统
CN113554107A (zh) * 2021-07-28 2021-10-26 工银科技有限公司 语料集的生成方法、装置、设备、存储介质和程序产品

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1940915A (zh) * 2005-09-29 2007-04-04 国际商业机器公司 训练语料扩充系统和方法
CN102222068A (zh) * 2010-04-15 2011-10-19 英业达股份有限公司 由外部资料扩充例句之系统及其方法
CN105677634A (zh) * 2015-07-18 2016-06-15 孙维国 一种从学术文献中提取语义相似且语法规范句子的方法
CN106227762A (zh) * 2016-07-15 2016-12-14 苏群 一种基于用户协助的垂直搜索方法和系统
CN107004000A (zh) * 2016-06-29 2017-08-01 深圳狗尾草智能科技有限公司 一种语料生成装置和方法
CN107451126A (zh) * 2017-08-21 2017-12-08 广州多益网络股份有限公司 一种近义词筛选方法及系统
CN108090169A (zh) * 2017-12-14 2018-05-29 上海智臻智能网络科技股份有限公司 问句扩展方法及装置、存储介质、终端
CN108121697A (zh) * 2017-11-16 2018-06-05 北京百度网讯科技有限公司 一种文本改写的方法、装置、设备和计算机存储介质
CN108628906A (zh) * 2017-03-24 2018-10-09 北京京东尚科信息技术有限公司 短文本模板挖掘方法、装置、电子设备和可读存储介质
CN108763510A (zh) * 2018-05-30 2018-11-06 北京五八信息技术有限公司 意图识别方法、装置、设备及存储介质
CN108932218A (zh) * 2018-06-29 2018-12-04 北京百度网讯科技有限公司 一种实例扩展方法、装置、设备和介质
CN109325040A (zh) * 2018-07-13 2019-02-12 众安信息技术服务有限公司 一种faq问答库泛化方法、装置及设备
CN109492077A (zh) * 2018-09-29 2019-03-19 北明智通(北京)科技有限公司 基于知识图谱的石化领域问答方法及系统
US20190138597A1 (en) * 2017-07-28 2019-05-09 Nia Marcia Maria Dowell Computational linguistic analysis of learners' discourse in computer-mediated group learning environments

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1940915A (zh) * 2005-09-29 2007-04-04 国际商业机器公司 训练语料扩充系统和方法
US20080250015A1 (en) * 2005-09-29 2008-10-09 International Business Machines Corporation Corpus expansion system and method thereof
CN102222068A (zh) * 2010-04-15 2011-10-19 英业达股份有限公司 由外部资料扩充例句之系统及其方法
CN105677634A (zh) * 2015-07-18 2016-06-15 孙维国 一种从学术文献中提取语义相似且语法规范句子的方法
CN107004000A (zh) * 2016-06-29 2017-08-01 深圳狗尾草智能科技有限公司 一种语料生成装置和方法
CN106227762A (zh) * 2016-07-15 2016-12-14 苏群 一种基于用户协助的垂直搜索方法和系统
CN108628906A (zh) * 2017-03-24 2018-10-09 北京京东尚科信息技术有限公司 短文本模板挖掘方法、装置、电子设备和可读存储介质
US20190138597A1 (en) * 2017-07-28 2019-05-09 Nia Marcia Maria Dowell Computational linguistic analysis of learners' discourse in computer-mediated group learning environments
CN107451126A (zh) * 2017-08-21 2017-12-08 广州多益网络股份有限公司 一种近义词筛选方法及系统
CN108121697A (zh) * 2017-11-16 2018-06-05 北京百度网讯科技有限公司 一种文本改写的方法、装置、设备和计算机存储介质
CN108090169A (zh) * 2017-12-14 2018-05-29 上海智臻智能网络科技股份有限公司 问句扩展方法及装置、存储介质、终端
CN108763510A (zh) * 2018-05-30 2018-11-06 北京五八信息技术有限公司 意图识别方法、装置、设备及存储介质
CN108932218A (zh) * 2018-06-29 2018-12-04 北京百度网讯科技有限公司 一种实例扩展方法、装置、设备和介质
CN109325040A (zh) * 2018-07-13 2019-02-12 众安信息技术服务有限公司 一种faq问答库泛化方法、装置及设备
CN109492077A (zh) * 2018-09-29 2019-03-19 北明智通(北京)科技有限公司 基于知识图谱的石化领域问答方法及系统

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
JACOB DEVLIN 等: "BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding", 《HTTPS://ARXIV.ORG/PDF/1810.04805V1.PDF》 *
MATTHEW PETERS 等: "Deep Contextualized Word Representations", 《HTTPS://ARXIV.ORG/PDF/1802.05365.PDF》 *
TATHAGATA DASGUPTA 等: "Enhancing Software Traceability by Automatically Expanding Corpora with Relevant Documentation", 《2013 IEEE INTERNATIONAL CONFERENCE ON SOFTWARE MAINTENANCE》 *
李枫林 等: "基于深度学习的文本表示方法", 《情报科学》 *
李江华 等: "一种基于语料的本体评价方法", 《情报杂志》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110738040A (zh) * 2019-10-17 2020-01-31 深圳市比量科技传媒有限公司 一种评论扩展方法及系统
CN110738040B (zh) * 2019-10-17 2023-11-28 深圳市比量科技传媒有限公司 一种评论扩展方法及系统
CN110852331A (zh) * 2019-10-25 2020-02-28 中电科大数据研究院有限公司 一种结合bert模型的图像描述生成方法
CN110852331B (zh) * 2019-10-25 2023-09-08 中电科大数据研究院有限公司 一种结合bert模型的图像描述生成方法
CN111488735A (zh) * 2020-04-09 2020-08-04 中国银行股份有限公司 测试语料生成方法、装置及电子设备
CN111488463A (zh) * 2020-04-09 2020-08-04 中国银行股份有限公司 测试语料生成方法、装置及电子设备
CN111488463B (zh) * 2020-04-09 2023-08-29 中国银行股份有限公司 测试语料生成方法、装置及电子设备
CN111488735B (zh) * 2020-04-09 2023-10-27 中国银行股份有限公司 测试语料生成方法、装置及电子设备
CN111695356A (zh) * 2020-05-28 2020-09-22 平安科技(深圳)有限公司 同义语料生成方法、装置、计算机系统及可读存储介质
CN111831788A (zh) * 2020-06-16 2020-10-27 国网江苏省电力有限公司信息通信分公司 一种电力语料标记模型构建方法及系统
CN113554107A (zh) * 2021-07-28 2021-10-26 工银科技有限公司 语料集的生成方法、装置、设备、存储介质和程序产品

Also Published As

Publication number Publication date
CN110309280B (zh) 2021-11-09

Similar Documents

Publication Publication Date Title
CN110309280A (zh) 一种语料扩容方法及相关设备
US11816438B2 (en) Context saliency-based deictic parser for natural language processing
CN110462730B (zh) 促进以多种语言与自动化助理的端到端沟通
US10642939B2 (en) Systems and methods for generating jokes
JP5166661B2 (ja) 計画に基づくダイアログを実行する方法および装置
CN108536802A (zh) 基于儿童情绪的交互方法及装置
CN111223498A (zh) 情绪智能识别方法、装置及计算机可读存储介质
US8818795B1 (en) Method and system for using natural language techniques to process inputs
JP2001503175A (ja) 自動言語翻訳のための方法及び装置
CN113412515A (zh) 适配自动化助理以用多种语言使用
US20220156467A1 (en) Hybrid Natural Language Understanding
WO2021223618A1 (zh) 基于focalgan的短文本自动生成方法、装置、设备及存储介质
CN111400458A (zh) 一种自动泛化方法及其装置
Pichl et al. Alquist 3.0: Alexa prize bot using conversational knowledge graph
KR20110080096A (ko) 확장 도메인을 이용한 대화 시스템 및 그 자연어 인식 방법
CN111128175A (zh) 口语对话管理方法及系统
Amble BusTUC-a natural language bus route oracle
CN110287498A (zh) 层次化翻译方法、装置及存储介质
Galley et al. Hybrid natural language generation for spoken dialogue systems
Chor From'Direction'to'Positive Evaluation': On the Grammaticalization, Subjectification and Intersubjectification of faan1'return'in Cantonese
CN110795550B (zh) 一种提高闲聊对话系统回答丰富性的方法
CN109065016B (zh) 语音合成方法、装置、电子设备及非暂态计算机存储介质
Sicilia et al. ISABEL: An Inclusive and Collaborative Task-Oriented Dialogue System
CN111858949B (zh) 基于知识图谱扩充正则表达式的方法和装置、学习设备
CN112992128A (zh) 一种智能语音机器人的训练方法、装置和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant