CN111611374A - 语料扩充方法、装置、电子设备及存储介质 - Google Patents
语料扩充方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN111611374A CN111611374A CN201910141009.7A CN201910141009A CN111611374A CN 111611374 A CN111611374 A CN 111611374A CN 201910141009 A CN201910141009 A CN 201910141009A CN 111611374 A CN111611374 A CN 111611374A
- Authority
- CN
- China
- Prior art keywords
- corpus
- target
- general
- similarity
- field
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 239000000463 material Substances 0.000 claims description 23
- 238000013145 classification model Methods 0.000 claims description 22
- 238000012549 training Methods 0.000 claims description 13
- 230000003190 augmentative effect Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 5
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 239000013598 vector Substances 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例提供一种语料扩充方法、装置、电子设备及存储介质,属于自然语言处理领域。该方法中,可以通过从参考领域中的通用语料中获取与目标领域的目标语料的相似度达到预设阈值的语料作为扩充语料,然后将扩充语料添加至目标领域的语料库中,从而完成目标领域的语料的扩充,本方案相比于现有技术中通过词语的匹配来扩充目标领域的语料导致语料不准确的问题,本方案中通用语料可以为句子,所以从中获取的扩充语料可以与目标领域更为匹配,从而可以提高获得目标领域的扩充语料的准确性。
Description
技术领域
本申请涉及自然语言处理领域,具体而言,涉及一种语料扩充方法、装置、电子设备及存储介质。
背景技术
在建立语言模型时,通常需要大量的语料,而对于某些领域,其语料存在不足的情况,这时需要对这个领域的语料进行扩充,目前其扩充的方式是基于词组的扩充,也就是从其他领域中获取一些属于这个领域的词组,比如获取该领域中词组的一些同义词进行扩充。但是对于不同的领域,很多词组是通用的,但是对于同一个词来说,其作为上文,对于不同的领域,其下文出现的内容可能是不相同的。所以,通过这种方式对语料不足的领域进行语料扩充,获取的语料通常不是与该领域特别匹配,进而使得获得的语料对于该领域来说并不准确。
发明内容
有鉴于此,本申请实施例的目的在于提供一种语料扩充方法、装置、电子设备及存储介质,以对语料不足的领域获取更为准确的扩充语料。
第一方面,本申请实施例提供了一种语料扩充方法,所述方法包括:获取需扩充的目标领域对应的目标语料;从除所述目标领域外的至少一个参考领域获取通用语料,所述通用语料包括由多个词组成的句子;从所述通用语料中获取与所述目标语料的相似度达到预设阈值的语料作为扩充语料;将所述扩充语料添加至所述目标领域的语料库中。
在上述实现过程中,可以通过从参考领域中的通用语料中获取与目标领域的目标语料的相似度达到预设阈值的语料作为扩充语料,然后将扩充语料添加至目标领域的语料库中,从而完成目标领域的语料的扩充,本方案相比于现有技术中通过词语的匹配来扩充目标领域的语料导致语料不准确的问题,本方案中通用语料可以为句子,所以从中获取的扩充语料可以与目标领域更为匹配,从而可以提高获得目标领域的扩充语料的准确性。
可选地,从所述通用语料中获取与所述目标语料的相似度达到预设阈值的语料作为扩充语料,包括:判断所述通用语料中是否有与所述目标语料对应的类别相同的语料;若有,则从所述通用语料中获取与所述目标语料对应的类别相同的语料作为与所述目标语料的相似度达到预设阈值的扩充语料。
在上述实现过程中,可以从通用语料中直接获取与目标语料的类别相同的语料作为扩充语料,使得可以从通用语料中获取与目标领域更为匹配的语料作为扩充语料,提高了目标领域的扩充语料的获取的准确性。
可选地,判断所述通用语料中是否有与所述目标语料对应的类别相同的语料,包括:通过预先训练的语料分类模型对所述通用语料进行分类,获得多个类别的通用语料;判断所述多个类别的通用语料中是否有与所述目标语料对应的类别相同的语料。
在上述实现过程中,通过预先训练的语料分类模型对通用语料进行分类处理,由于语料分类模型预先经过训练,可以使得分类更为准确。
可选地,从所述通用语料中获取与所述目标语料的相似度达到预设阈值的语料作为扩充语料,包括:计算所述通用语料与所述目标语料之间的词频-逆向文件频率TF-IDF值,获得所述通用语料对应的TF-IDF值,所述相似度为所述TF-IDF值;从所述通用语料对应的TF-IDF值中获取达到所述预设阈值的语料作为扩充语料。
在上述实现过程中,通过将获得的通用语料与目标语料之间的IF-IDF值作为通用语料与目标语料之间的相似度,可以从通用语料中获得更加准确的扩充语料。
可选地,将所述扩充语料添加至所述目标领域的语料库中之后,还包括:将所述目标领域的语料库中的所有语料输入至语言模型中,对语言模型进行训练,获得所述目标领域对应的语言模型。
在上述实现过程中,通过将目标领域的所有语料输入语言模型中进行训练,可以为训练目标领域对应的语言模型提供了丰富的数据基础,从而使得训练获得的语言模型在后续使用时其预测准确率更高。
第二方面,本申请实施例提供了一种语料扩充装置,所述装置包括:
目标语料获取模块,用于获取需扩充的目标领域对应的目标语料;
通用语料获取模块,用于从除所述目标领域外的至少一个参考领域获取通用语料,所述通用语料包括由多个词组成的句子;
扩充语料获取模块,用于从所述通用语料中获取与所述目标语料的相似度达到预设阈值的语料作为扩充语料;
语料增加模块,用于将所述扩充语料添加至所述目标领域的语料库中。
可选地,所述扩充语料获取模块,具体用于判断所述通用语料中是否有与所述目标语料对应的类别相同的语料;若有,则从所述通用语料中获取与所述目标语料对应的类别相同的语料作为与所述目标语料的相似度达到预设阈值的扩充语料。
可选地,所述扩充语料获取模块,还用于通过预先训练的语料分类模型对所述通用语料进行分类,获得多个类别的通用语料;判断所述多个类别的通用语料中是否有与所述目标语料对应的类别相同的语料。
可选地,所述扩充语料获取模块,还用于计算所述通用语料与所述目标语料之间的词频-逆向文件频率TF-IDF值,获得所述通用语料对应的TF-IDF值,所述相似度为所述TF-IDF值;从所述通用语料对应的TF-IDF值中获取达到所述预设阈值的语料作为扩充语料。
可选地,所述装置还包括:
模型训练模块,用于将所述目标领域的语料库中的所有语料输入至语言模型中,对语言模型进行训练,获得所述目标领域对应的语言模型。
第三方面,本申请实施例提供一种电子设备,包括处理器以及存储器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如上述第一方面提供的所述方法中的步骤。
第四方面,本申请实施例提供一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时运行如上述第一方面提供的所述方法中的步骤。
本申请的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种电子设备的示例性硬件和软件组件的示意图;
图2为本申请实施例提供的一种语料扩充方法的流程图;
图3为本申请实施例提供的一种语料扩充装置的结构框图。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
请参照图1,图1为本申请实施例提供的一种电子设备100的示例性硬件和软件组件的示意图。例如,处理器可以用于电子设备100上,并且用于执行本申请中的功能。
电子设备100可以是通用计算机或特殊用途的计算机,两者都可以用于实现本申请的图像处理方法。本申请尽管仅示出了一个计算机,但是为了方便起见,可以在多个类似平台上以分布式方式实现本申请描述的功能,以均衡处理负载。
例如,电子设备100可以包括连接到网络的网络端口110、用于执行程序指令的一个或多个处理器120、通信总线130、和不同形式的存储介质140,例如,磁盘、ROM、或RAM,或其任意组合。示例性地,计算机平台还可以包括存储在ROM、RAM、或其他类型的非暂时性存储介质、或其任意组合中的程序指令。根据这些程序指令可以实现本申请的方法。电子设备100还包括计算机与其他输入输出设备(例如键盘、显示屏)之间的输入/输出(Input/Output,I/O)接口150。
为了便于说明,在电子设备100中仅描述了一个处理器。然而,应当注意,本申请中的电子设备100还可以包括多个处理器,因此本申请中描述的一个处理器执行的步骤也可以由多个处理器联合执行或单独执行。例如,若电子设备100的处理器执行步骤A和步骤B,则应该理解,步骤A和步骤B也可以由两个不同的处理器共同执行或者在一个处理器中单独执行。例如,第一处理器执行步骤A,第二处理器执行步骤B,或者第一处理器和第二处理器共同执行步骤A和B。
请参照图2,图2为本申请实施例提供的一种语料扩充方法的流程图,所述方法包括如下步骤:
步骤S110:获取需扩充的目标领域对应的目标语料。
目标领域是指语料需扩充的领域,目标领域可指语料不足的任何一个领域,对于每个领域来说,每个领域建立有自己领域的语料库,该语料库中存储了各种语料,其包括词组、句子或文档等语料。
目标语料可以是目标领域的语料库中所有的语料,也可以是语料库中的部分语料。当然,目标语料可以是词组、句子或文档等。
步骤S120:从除所述目标领域外的至少一个参考领域获取通用语料。
通用语料是相对目标语料而言的,即目标领域的语料称作目标语料,与目标领域不同的其他参考领域的语料称作通用语料。
通用语料可以是参考领域的语料库中的所有语料,也可以是其中的部分语料,为了使得目标领域的语料库得到有效扩充,在本实施例中,通用语料是指参考领域的语料库中的所有语料,且为了避免对于有的词是多个领域通用的,可能导致有的词并不是目标领域的语料,所以,为了精确获得目标领域的语料,通用语料包括由多个词组成的句子,当然,通用语料也可以是文档。
步骤S130:从所述通用语料中获取与所述目标语料的相似度达到预设阈值的语料作为扩充语料。
为了从通用语料中获取目标领域的语料作为目标领域的扩充语料,所以,可以从通用语料中获取与目标语料的相似度达到预设阈值的语料作为扩充语料。
具体地,其可以通过计算通用语料与目标语料的相似度,若通用语料包括多个句子,目标语料也是多个句子,则可计算通用语料中每个句子与目标语料中每个句子的相似度,所以,对于通用语料中的每个句子均对应有多个相似度,然后可将这多个相似度取平均值作为该句子的最终相似度,然后对于通用语料中每个句子的最终相似度,若该某个句子的最终相似度达到预设阈值时,则该句子可作为扩充语料添加至到目标领域中。
其中,计算相似度的方式为可以计算两个句子之间的夹角余弦值,其具体的做法是将两个句子转换为对应的向量,然后计算两个向量之间的夹角余弦值,该夹角余弦值可作为两个句子之间的相似度,夹角余弦值越接近于1,表示两个句子越相似,所以,若以夹角余弦值作为相似度时,预设阈值可以设置为0.8,在计算两个句子的夹角余弦值大于或等于0.8时,则可将通用语料中的该句子作为与目标语料的相似度达到预设阈值的扩充语料。
步骤S140:将所述扩充语料添加至所述目标领域的语料库中。
在根据上述方式从通用语料中获得扩充语料后,可将扩充语料添加至目标领域的语料库中,扩充语料和目标领域中原来的目标语料共同作为目标领域的语料库,从而完成对目标领域的语料的扩充。
所以,本实施例中,可以通过从参考领域中的通用语料中获取与目标领域的目标语料的相似度达到预设阈值的语料作为扩充语料,然后将扩充语料添加至目标领域的语料库中,从而完成目标领域的语料的扩充,本方案相比于现有技术中通过词语的匹配来扩充目标领域的语料导致语料不准确的问题,本方案中通用语料可以为句子,所以从中获取的扩充语料可以与目标领域更为匹配,从而可以提高获得扩充语料属于目标领域的准确性。
另外,作为一种实施方式,在上述从通用语料中获取与目标语料的相似度达到预设阈值的语料作为扩充语料的方式还可以为:判断所述通用语料中是否有与所述目标语料对应的类别相同的语料,若有,则从所述通用语料中获取与所述目标语料对应的类别相同的语料作为与目标语料的相似度达到预设阈值的扩充语料。
其中,可通过预先训练的语料分类模型对所述通用语料进行分类,获得多个类别的通用语料,然后判断该多个类别的通用语料中是否有与所述目标语料对应的类别相同的语料。
在采用语料分类模型对通用语料进行分类时,是预先对语料分类模型进行训练后获得的语料分类模型再进行使用的,在训练语料分类模型时,将从其他参考领域中获取的通用语料,将通用语料添加类别标签1,从目标领域获取目标语料,将目标语料添加类别标签2,将添加了类别标签1的通用语料与添加了类别标签2的目标语料作为语料分类模型的输入,训练语料分类模型,通过语料分类模型可以判断哪些语料是属于类别标签1的,哪些语料是属于类别标签2的,所以,在将未打标签的通用语料输入语料分类模型时,语料分类模型可以输出类别为1的语料和类别为2的语料,类别为2的语料即为与目标语料的类别相同的语料,即扩充语料。
当然,语料分类模型还可以输出其他类别的语料,比如获取与目标语料的类别相同的语料后,其他语料可在进行类别的划分,所以可以获得多个类别,当然,若通用语料中没有与目标语料的类别相同的语料,则语料分类模型输出其他类别的语料。
上述的语料分类模型可以采用fasttext模型,fasttext模型可以通过上下文预测文本的类别,该fasttext模型的输入是一个词的序列(一段文本或者一句话),输出是这个词序列属于不同类别的概率,在序列中的词和词组构成特征向量,特征向量通过线性变换映射到中间层,再由中间层映射到类别。该fasttext模型的具体原理在此不再做过多介绍。
当前,语料分类模型还可以采用其他的模型,如基于神经网络的分类模型,如长短期记忆网络模型(Long-Short Term Memory,LSTM),或者卷积神经网络模型等。
所以,在上述通过从通用语料中获取目标语料对应的类别相同的语料,该语料即可作为与目标语料的相似度达到预设阈值的扩充语料,以此方式,可以从通用语料中获取与目标领域更为匹配的语料作为扩充语料,提高了目标领域的扩充语料的获取的准确性。
另外,可选地,从通用语料中获取扩充语料的方式还可以为:计算所述通用语料与所述目标语料之间的词频-逆向文件频率TF-IDF值,获得所述通用语料对应的TF-IDF值,所述相似度为所述TF-IDF值,然后从所述通用语料对应的TF-IDF值中获取达到所述预设阈值的语料作为扩充语料。
其中,TF-IDF是一种统计方法,用以评估一字词对于一个文档集或一个语料库中的其中一份文档的重要程度,字词的重要性随着它在文档中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
TF-IDF的主要思想是:如果某个词或短语在一篇文档中出现的频率TF高,并且在其他文档中很少出现,则认为此词语具有很好的类别区分能力,适合用来分类。TF-IDF实际上是TF*IDF,TF词频(Term Frequency),IDF逆向文件频率(Inverse DocumentFrequency)。TF表示词在文档d中出现的频率,IDF的主要思想是:如果包含词条t的文档越少,IDF越大,则说明词条t具有很好的类别区分能力。如果某一类文档C中包含词条t的文档数为m,而其它类包含t的文档总数为k,显然所有包含t的文档数n=m+k,当m大的时候,按照IDF公式得到的IDF的值会小,就说明该词条t类别区分能力不强。所以在实际应用中,如果一个词条在一个类的文档中频繁出现,则说明该词条能够很好代表这个类的文本的特征,这样的词条应该给它们赋予较高的权重,并选来作为该类文本的特征词以区别与其它类文档。
具体地,计算所述通用语料与所述目标语料之间的IF-IDF值,其可以是指把目标语料看出是一篇文档,通用语料是多个句子,其可计算每个句子与目标语料的IF-IDF值,若通用语料还包括文档,则可将文档分为多个句子,然后也可计算这个文档中每个句子与目标语料的IF-IDF值,然后再基于每个句子与目标语料的IF-IDF值获得整个文档与目标语料的IF-IDF值。
当然,每个句子与目标语料的IF-IDF值可以看成是对该句子进行分词获得的多个关键词分别与目标语料的IF-IDF值,然后可以将这多个关键词分别与目标语料的IF-IDF值取平均或者求和作为该句子与目标语料的IF-IDF值。其中,获取每个关键词与目标语料的TF-IDF值可以首先计算并获得每个关键词在目标语料中的词频TF,词频TF=某个关键词在目标语料中的出现次数/该目标语料的总词数,其计算公式为其中ni,j是该关键词在目标语料中出现的次数,分母表示在该目标语料中所有字词的出现次数之和,如一句子“网约车订单怎么取消”中的关键词“网约车”在目标语料中的出现次数为400次,该目标语料的总词数为1600,则该关键词“网约车”的词频TF=400/1600=0.25。然后再获取该关键词的逆向文件频率IDF,逆向文件频率IDF=log(数据库中的文档总数/包含该关键词的文档数+1),其计算公式为其中|D|表示数据库中的文档总数,|{j:ti∈dj}|表示包含该关键词的文档数,如把每个领域对应的语料库中的所有语料看成一篇文档,如数据库中的所有文档数为800,包含该关键词的文档数为199,所以该关键词的IDF=log(800/200)=1.6,再基于该关键词的词频TF及逆文档频率IDF,获取该关键词的TF-IDF值,即关键词的TF-IDF值=词频TF*逆文档频率IDF,即该上述的关键词“网约车”与目标语料的TF-IDF值等于0.4。
按照上述方式,可以获得通用语料中每个句子与目标语料之间的IF-IDF值,该IF-IDF值可以作为通用语料与目标语料之间的相似度,即在通用语料与目标语料之间的IF-IDF值大于预设IF-IDF值时,表明通用语料与目标语料之间的相似度达到预设阈值,该预设阈值即为预设IF-IDF值,所以,可从通用语料对应的IF-IDF值中获取达到预设阈值的语料作为扩充语料,然后将该扩充语料添加至目标领域的语料库中。
上述实施例中,通过将获得的通用语料与目标语料之间的IF-IDF值作为通用语料与目标语料之间的相似度,可以从通用语料中获得更加准确的扩充语料。
可以理解地,获得通用语料与目标语料之间的相似度的方式并不限于上述列举的方式,其还可以通过其他方式获得,比如采用文档主题生成模型(Latent DirichletAllocation,LDA)计算两者之间的相似度,在此不再一一列举。
在一种可能的实施方式中,将扩充语料添加至目标领域的语料库之后,还可以将目标领域的语料库中的所有语料输入至语言模型中,对语言模型进行训练,获得该目标领域对应的语言模型。
该方式中,可以为训练目标领域对应的语言模型提供了丰富的数据基础,从而使得训练获得的语言模型在后续使用时其预测准确率更高。
请参照图3,图3为本申请实施例提供的一种语料扩充装置200的结构框图,所述装置包括:
目标语料获取模块210,用于获取需扩充的目标领域对应的目标语料;
通用语料获取模块220,用于从除所述目标领域外的至少一个参考领域获取通用语料,所述通用语料包括由多个词组成的句子;
扩充语料获取模块230,用于从所述通用语料中获取与所述目标语料的相似度达到预设阈值的语料作为扩充语料;
语料增加模块240,用于将所述扩充语料添加至所述目标领域的语料库中。
可选地,所述扩充语料获取模块230,具体用于判断所述通用语料中是否有与所述目标语料对应的类别相同的语料;若有,则从所述通用语料中获取与所述目标语料对应的类别相同的语料作为与所述目标语料的相似度达到预设阈值的扩充语料。
可选地,所述扩充语料获取模块230,还用于通过预先训练的语料分类模型对所述通用语料进行分类,获得多个类别的通用语料;判断所述多个类别的通用语料中是否有与所述目标语料对应的类别相同的语料。
可选地,所述扩充语料获取模块230,还用于计算所述通用语料与所述目标语料之间的词频-逆向文件频率TF-IDF值,获得所述通用语料对应的TF-IDF值,所述相似度为所述TF-IDF值;从所述通用语料对应的TF-IDF值中获取达到所述预设阈值的语料作为扩充语料。
可选地,所述装置还包括:
模型训练模块,用于将所述目标领域的语料库中的所有语料输入至语言模型中,对语言模型进行训练,获得所述目标领域对应的语言模型。
本申请实施例提供一种可读存储介质,所述计算机程序被处理器执行时,执行如图2所示方法实施例中电子设备所执行的方法过程。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法中的对应过程,在此不再过多赘述。
综上所述,本申请实施例提供一种语料扩充方法、装置、电子设备及存储介质,该方法中,可以通过从参考领域中的通用语料中获取与目标领域的目标语料的相似度达到预设阈值的语料作为扩充语料,然后将扩充语料添加至目标领域的语料库中,从而完成目标领域的语料的扩充,本方案相比于现有技术中通过词语的匹配来扩充目标领域的语料导致语料不准确的问题,本方案中通用语料可以为句子,所以从中获取的扩充语料可以与目标领域更为匹配,从而可以提高获得目标领域的扩充语料的准确性。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (12)
1.一种语料扩充方法,其特征在于,所述方法包括:
获取需扩充的目标领域对应的目标语料;
从除所述目标领域外的至少一个参考领域获取通用语料,所述通用语料包括由多个词组成的句子;
从所述通用语料中获取与所述目标语料的相似度达到预设阈值的语料作为扩充语料;
将所述扩充语料添加至所述目标领域的语料库中。
2.根据权利要求1所述的方法,其特征在于,从所述通用语料中获取与所述目标语料的相似度达到预设阈值的语料作为扩充语料,包括:
判断所述通用语料中是否有与所述目标语料对应的类别相同的语料;
若有,则从所述通用语料中获取与所述目标语料对应的类别相同的语料作为与所述目标语料的相似度达到预设阈值的扩充语料。
3.根据权利要求2所述的方法,其特征在于,判断所述通用语料中是否有与所述目标语料对应的类别相同的语料,包括:
通过预先训练的语料分类模型对所述通用语料进行分类,获得多个类别的通用语料;
判断所述多个类别的通用语料中是否有与所述目标语料对应的类别相同的语料。
4.根据权利要求1所述的方法,其特征在于,从所述通用语料中获取与所述目标语料的相似度达到预设阈值的语料作为扩充语料,包括:
计算所述通用语料与所述目标语料之间的词频-逆向文件频率TF-IDF值,获得所述通用语料对应的TF-IDF值,所述相似度为所述TF-IDF值;
从所述通用语料对应的TF-IDF值中获取达到所述预设阈值的语料作为扩充语料。
5.根据权利要求1-4任一所述的方法,其特征在于,将所述扩充语料添加至所述目标领域的语料库中之后,还包括:
将所述目标领域的语料库中的所有语料输入至语言模型中,对语言模型进行训练,获得所述目标领域对应的语言模型。
6.一种语料扩充装置,其特征在于,所述装置包括:
目标语料获取模块,用于获取需扩充的目标领域对应的目标语料;
通用语料获取模块,用于从除所述目标领域外的至少一个参考领域获取通用语料,所述通用语料包括由多个词组成的句子;
扩充语料获取模块,用于从所述通用语料中获取与所述目标语料的相似度达到预设阈值的语料作为扩充语料;
语料增加模块,用于将所述扩充语料添加至所述目标领域的语料库中。
7.根据权利要求6所述的装置,其特征在于,所述扩充语料获取模块,具体用于判断所述通用语料中是否有与所述目标语料对应的类别相同的语料;若有,则从所述通用语料中获取与所述目标语料对应的类别相同的语料作为与所述目标语料的相似度达到预设阈值的扩充语料。
8.根据权利要求7所述的装置,其特征在于,所述扩充语料获取模块,还用于通过预先训练的语料分类模型对所述通用语料进行分类,获得多个类别的通用语料;判断所述多个类别的通用语料中是否有与所述目标语料对应的类别相同的语料。
9.根据权利要求6所述的装置,其特征在于,所述扩充语料获取模块,还用于计算所述通用语料与所述目标语料之间的词频-逆向文件频率TF-IDF值,获得所述通用语料对应的TF-IDF值,所述相似度为所述TF-IDF值;从所述通用语料对应的TF-IDF值中获取达到所述预设阈值的语料作为扩充语料。
10.根据权利要求6-9任一所述的装置,其特征在于,所述装置还包括:
模型训练模块,用于将所述目标领域的语料库中的所有语料输入至语言模型中,对语言模型进行训练,获得所述目标领域对应的语言模型。
11.一种电子设备,其特征在于,包括处理器以及存储器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如权利要求1-5任一所述方法中的步骤。
12.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时运行如权利要求1-5任一所述方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910141009.7A CN111611374A (zh) | 2019-02-25 | 2019-02-25 | 语料扩充方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910141009.7A CN111611374A (zh) | 2019-02-25 | 2019-02-25 | 语料扩充方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111611374A true CN111611374A (zh) | 2020-09-01 |
Family
ID=72202110
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910141009.7A Pending CN111611374A (zh) | 2019-02-25 | 2019-02-25 | 语料扩充方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111611374A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112214586A (zh) * | 2020-10-13 | 2021-01-12 | 华东师范大学 | 一种用于辅助调查访谈的语料库积累方法 |
CN112527989A (zh) * | 2020-12-15 | 2021-03-19 | 深圳市优必选科技股份有限公司 | 一种训练方法、训练装置及智能设备 |
CN112541076A (zh) * | 2020-11-09 | 2021-03-23 | 北京百度网讯科技有限公司 | 目标领域的扩充语料生成方法、装置和电子设备 |
CN112668339A (zh) * | 2020-12-23 | 2021-04-16 | 北京有竹居网络技术有限公司 | 语料样本确定方法、装置、电子设备及存储介质 |
WO2022142613A1 (zh) * | 2020-12-28 | 2022-07-07 | 深圳壹账通智能科技有限公司 | 训练语料扩充方法及装置、意图识别模型训练方法及装置 |
WO2022160818A1 (zh) * | 2021-01-27 | 2022-08-04 | 语联网(武汉)信息技术有限公司 | 垂直领域语料数据筛选方法及系统 |
CN115879458A (zh) * | 2022-04-08 | 2023-03-31 | 北京中关村科金技术有限公司 | 一种语料扩充方法、装置及存储介质 |
CN116992830A (zh) * | 2022-06-17 | 2023-11-03 | 北京聆心智能科技有限公司 | 文本数据处理方法、相关装置及计算设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120296633A1 (en) * | 2011-05-20 | 2012-11-22 | Microsoft Corporation | Syntax-based augmentation of statistical machine translation phrase tables |
CN102831236A (zh) * | 2012-09-03 | 2012-12-19 | 苏州大学 | 中文事件触发词的扩展方法及系统 |
CN104850650A (zh) * | 2015-05-29 | 2015-08-19 | 清华大学 | 基于类标关系的短文本扩充方法 |
CN107729374A (zh) * | 2017-09-13 | 2018-02-23 | 厦门快商通科技股份有限公司 | 一种情感词典的扩充方法及文本情感识别方法 |
CN108376133A (zh) * | 2018-03-21 | 2018-08-07 | 北京理工大学 | 基于情感词扩充的短文本情感分类方法 |
CN109189926A (zh) * | 2018-08-28 | 2019-01-11 | 中山大学 | 一种科技论文语料库的构建方法 |
-
2019
- 2019-02-25 CN CN201910141009.7A patent/CN111611374A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120296633A1 (en) * | 2011-05-20 | 2012-11-22 | Microsoft Corporation | Syntax-based augmentation of statistical machine translation phrase tables |
CN102831236A (zh) * | 2012-09-03 | 2012-12-19 | 苏州大学 | 中文事件触发词的扩展方法及系统 |
CN104850650A (zh) * | 2015-05-29 | 2015-08-19 | 清华大学 | 基于类标关系的短文本扩充方法 |
CN107729374A (zh) * | 2017-09-13 | 2018-02-23 | 厦门快商通科技股份有限公司 | 一种情感词典的扩充方法及文本情感识别方法 |
CN108376133A (zh) * | 2018-03-21 | 2018-08-07 | 北京理工大学 | 基于情感词扩充的短文本情感分类方法 |
CN109189926A (zh) * | 2018-08-28 | 2019-01-11 | 中山大学 | 一种科技论文语料库的构建方法 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112214586A (zh) * | 2020-10-13 | 2021-01-12 | 华东师范大学 | 一种用于辅助调查访谈的语料库积累方法 |
CN112214586B (zh) * | 2020-10-13 | 2022-06-28 | 华东师范大学 | 一种用于辅助调查访谈的语料库积累方法 |
CN112541076A (zh) * | 2020-11-09 | 2021-03-23 | 北京百度网讯科技有限公司 | 目标领域的扩充语料生成方法、装置和电子设备 |
CN112541076B (zh) * | 2020-11-09 | 2024-03-29 | 北京百度网讯科技有限公司 | 目标领域的扩充语料生成方法、装置和电子设备 |
CN112527989A (zh) * | 2020-12-15 | 2021-03-19 | 深圳市优必选科技股份有限公司 | 一种训练方法、训练装置及智能设备 |
CN112668339A (zh) * | 2020-12-23 | 2021-04-16 | 北京有竹居网络技术有限公司 | 语料样本确定方法、装置、电子设备及存储介质 |
WO2022135080A1 (zh) * | 2020-12-23 | 2022-06-30 | 北京有竹居网络技术有限公司 | 语料样本确定方法、装置、电子设备及存储介质 |
WO2022142613A1 (zh) * | 2020-12-28 | 2022-07-07 | 深圳壹账通智能科技有限公司 | 训练语料扩充方法及装置、意图识别模型训练方法及装置 |
WO2022160818A1 (zh) * | 2021-01-27 | 2022-08-04 | 语联网(武汉)信息技术有限公司 | 垂直领域语料数据筛选方法及系统 |
CN115879458A (zh) * | 2022-04-08 | 2023-03-31 | 北京中关村科金技术有限公司 | 一种语料扩充方法、装置及存储介质 |
CN116992830A (zh) * | 2022-06-17 | 2023-11-03 | 北京聆心智能科技有限公司 | 文本数据处理方法、相关装置及计算设备 |
CN116992830B (zh) * | 2022-06-17 | 2024-03-26 | 北京聆心智能科技有限公司 | 文本数据处理方法、相关装置及计算设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111611374A (zh) | 语料扩充方法、装置、电子设备及存储介质 | |
CN111104794B (zh) | 一种基于主题词的文本相似度匹配方法 | |
CN108647205B (zh) | 细粒度情感分析模型构建方法、设备及可读存储介质 | |
CN106156204B (zh) | 文本标签的提取方法和装置 | |
US20170169008A1 (en) | Method and electronic device for sentiment classification | |
CN110287328B (zh) | 一种文本分类方法、装置、设备及计算机可读存储介质 | |
JP5744228B2 (ja) | インターネットにおける有害情報の遮断方法と装置 | |
CN110222178A (zh) | 文本情感分类方法、装置、电子设备及可读存储介质 | |
CN107180084B (zh) | 词库更新方法及装置 | |
JP2012118977A (ja) | 文書類似性計算の機械学習に基づく最適化およびカスタマイズのための方法およびシステム | |
JP2005158010A (ja) | 分類評価装置・方法及びプログラム | |
CN113704416B (zh) | 词义消歧方法、装置、电子设备及计算机可读存储介质 | |
CN110502742B (zh) | 一种复杂实体抽取方法、装置、介质及系统 | |
CN107885717B (zh) | 一种关键词提取方法及装置 | |
JP6291443B2 (ja) | 接続関係推定装置、方法、及びプログラム | |
CN111209372B (zh) | 一种关键词的确定方法、装置、电子设备和存储介质 | |
CN109299246B (zh) | 一种文本分类方法及装置 | |
CN111611807A (zh) | 一种基于神经网络的关键词提取方法、装置及电子设备 | |
CN112183994A (zh) | 一种设备状态的评估方法、装置、计算机设备和存储介质 | |
WO2023010427A1 (en) | Systems and methods generating internet-of-things-specific knowledge graphs, and search systems and methods using such graphs | |
CN111753082A (zh) | 基于评论数据的文本分类方法及装置、设备和介质 | |
CN113449084A (zh) | 基于图卷积的关系抽取方法 | |
CN112836039A (zh) | 基于深度学习的语音数据处理方法和装置 | |
CN104714977A (zh) | 一种实体与知识库项的关联方法及装置 | |
CN107291686B (zh) | 情感标识的辨识方法和情感标识的辨识系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200901 |
|
RJ01 | Rejection of invention patent application after publication |