CN112732875A - 一种语料数据标签的确定方法和装置 - Google Patents

一种语料数据标签的确定方法和装置 Download PDF

Info

Publication number
CN112732875A
CN112732875A CN202110076716.XA CN202110076716A CN112732875A CN 112732875 A CN112732875 A CN 112732875A CN 202110076716 A CN202110076716 A CN 202110076716A CN 112732875 A CN112732875 A CN 112732875A
Authority
CN
China
Prior art keywords
vector
corpus data
statement vector
statement
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110076716.XA
Other languages
English (en)
Inventor
詹培旋
贾巨涛
胡广绪
宋德超
王彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Gree Electric Appliances Inc of Zhuhai
Zhuhai Lianyun Technology Co Ltd
Original Assignee
Gree Electric Appliances Inc of Zhuhai
Zhuhai Lianyun Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Gree Electric Appliances Inc of Zhuhai, Zhuhai Lianyun Technology Co Ltd filed Critical Gree Electric Appliances Inc of Zhuhai
Priority to CN202110076716.XA priority Critical patent/CN112732875A/zh
Publication of CN112732875A publication Critical patent/CN112732875A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种语料数据标签的确定方法和装置,属于模型训练技术领域。所述方法包括:获取第一语句向量和第二语句向量,其中,所述第一语句向量是携带有标签的第一语料数据的语句向量,所述第二语句向量是未携带有标签的第二语料数据的语句向量;将所述第一语句向量和所述第二语句向量分别输入目标相似度模型,得到所述目标相似度模型输出的相似度值,其中,所述相似度值为所述第一语料数据和所述第二语料数据之间的相似度;在所述相似度值不小于预设阈值的情况下,将所述第一语料数据的标签作为所述第二语料数据的标签。本申请提高了打标效率和打标准确性。

Description

一种语料数据标签的确定方法和装置
技术领域
本申请涉及模型训练技术领域,尤其涉及一种语料数据标签的确定方法和装置。
背景技术
模型训练需要大量带有标注的数据集,目前数据集的获取方式一般为:采用人工(一般为5-20人)对同一份语料进行语料标注,然后以投票的形式得出该语料的标签,再交付给业务相关人员进行二轮标签确认,确认无异议后才得到带有标注的数据集,模型相关人员利用带有标注的数据集进行模型训练。目前语料标注工作量大,需要消耗大量的人力物力,采用人工方式进行标注效率低下。
发明内容
本申请实施例的目的在于提供一种语料数据标签的确定方法和装置,以解决人工标注效率低的问题。具体技术方案如下:
第一方面,提供了一种语料数据标签的确定方法,所述方法包括:
获取第一语句向量和第二语句向量,其中,所述第一语句向量是携带有标签的第一语料数据的语句向量,所述第二语句向量是未携带有标签的第二语料数据的语句向量;
将所述第一语句向量和所述第二语句向量分别输入目标相似度模型,得到所述目标相似度模型输出的相似度值,其中,所述相似度值为所述第一语料数据和所述第二语料数据之间的相似度;
在所述相似度值不小于预设阈值的情况下,将所述第一语料数据的标签作为所述第二语料数据的标签。
可选地,所述目标相似度模型包括两个相同的第一相似度模型和第二相似度模型,所述将所述第一语句向量和所述第二语句向量分别输入目标相似度模型,得到所述目标相似度模型输出的相似度值包括:
将所述第一语句向量输入所述第一相似度模型,得到所述第一相似度模型输出的第三语句向量,并将所述第二语句向量输入所述第二相似度模型,得到所述第一相似度模型输出的第四语句向量,其中,所述第三语句向量的维度高于所述第一语句向量的维度,所述第四语句向量的维度高于所述第二语句向量的维度;
确定所述第三语句向量和所述第四语句向量之间的相似度值。
可选地,所述获取第一语句向量和第二语句向量包括:
将所述第一语料数据输入向量转化工具,得到所述向量转化工具输出的所述第一语料数据对应的第一语句向量,其中,所述向量转化工具是通过所述第一语料数据生成的;
将所述第二语料数据输入所述向量转化工具,得到所述向量转化工具输出的所述第二语料数据对应的第二语句向量。
可选地,所述将所述第一语料数据输入向量转化工具,得到所述向量转化工具输出的所述第一语料数据对应的第一语句向量包括:
将第一语料数据进行分词处理,得到分词;
将所述分词输入所述向量转化工具,根据关联关系得到所述分词对应的词向量,其中,所述关联关系为所述向量转化工具中包含的分词和词向量之间的对应关系;
将多个词向量的加和作为所述第一语句向量;
通过所述向量转化工具输出所述第一语料数据对应的第一语句向量。
可选地,所述确定所述第三语句向量和所述第四语句向量之间的相似度值包括:
确定空间中的所述第三语句向量和所述第四语句向量之间的夹角余弦值;
根据所述夹角余弦值确定所述相似度值,其中,所述夹角余弦值与所述相似度值成反比关系。
可选地,所述将多个词向量的加和作为所述第一语句向量包括:
确定一个词向量的多个向量元素,其中,不同向量元素位于不同的位置;
将不同词向量中相同位置的向量元素进行加和处理,得到所述第一语句向量。
第二方面,提供了一种语料数据标签的确定装置,所述装置包括:
获取模块,用于获取第一语句向量和第二语句向量,其中,所述第一语句向量是携带有标签的第一语料数据的语句向量,所述第二语句向量是未携带有标签的第二语料数据的语句向量;
输入模块,用于将所述第一语句向量和所述第二语句向量分别输入目标相似度模型,得到所述目标相似度模型输出的相似度值,其中,所述相似度值为所述第一语料数据和所述第二语料数据之间的相似度;
作为模块,用于在所述相似度值不小于预设阈值的情况下,将所述第一语料数据的标签作为所述第二语料数据的标签。
可选地,所述目标相似度模型包括两个相同的第一相似度模型和第二相似度模型,所述输入模块包括:
输入单元,用于将所述第一语句向量输入所述第一相似度模型,得到所述第一相似度模型输出的第三语句向量,并将所述第二语句向量输入所述第二相似度模型,得到所述第一相似度模型输出的第四语句向量,其中,所述第三语句向量的维度高于所述第一语句向量的维度,所述第四语句向量的维度高于所述第二语句向量的维度;
确定单元,用于确定所述第三语句向量和所述第四语句向量之间的相似度值。
第三方面,提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现任一所述的方法步骤。
第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现任一所述的方法步骤。
本申请实施例有益效果:
本申请实施例提供了一种语料数据标签的确定方法,方法包括:服务器获取第一语句向量和第二语句向量,将第一语句向量和第二语句向量分别输入目标相似度模型,得到目标相似度模型输出的相似度值,在相似度值不小于预设阈值的情况下,将第一语料数据的标签作为第二语料数据的标签。在本申请中,第一语料数据和第二语料数据之间可能表达相同的含义,但表达方式有所不同,这样第一语料数据和第二语料数据之间的相似度就会高。服务器若判定第一语料数据和第二语料数据之间的相似度高,则将第一语料数据的标签作为第二语料数据的标签,这样无需对第二语料数据进行人工打标,提高了打标效率和打标准确性。
当然,实施本申请的任一产品或方法并不一定需要同时达到以上的所有优点。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种语料数据标签的确定方法硬件环境示意图;
图2为本申请实施例提供的一种语料数据标签的确定的方法流程图;
图3为本申请实施例提供的LSTM Siamese Network的网络框架示意图;
图4为本申请实施例提供的LSTM Siamese Network的内部结构示意图;
图5为本申请实施例提供的一种语料数据标签的确定装置的结构示意图;
图6为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本申请的说明,其本身并没有特定的意义。因此,“模块”与“部件”可以混合地使用。
为了解决背景技术中提及的问题,根据本申请实施例的一方面,提供了一种语料数据标签的确定方法的实施例。
可选地,在本申请实施例中,上述语料数据标签的确定方法可以应用于如图1所示的由终端101和服务器103所构成的硬件环境中。如图1所示,服务器103通过网络与终端101进行连接,可用于为终端或终端上安装的客户端提供服务,可在服务器上或独立于服务器设置数据库105,用于为服务器103提供数据存储服务,上述网络包括但不限于:广域网、城域网或局域网,终端101包括但不限于PC、手机、平板电脑等。
本申请实施例中的一种语料数据标签的确定方法可以由服务器103来执行,还可以是由服务器103和终端101共同执行。
本申请实施例提供了一种语料数据标签的确定方法,可以应用于服务器,用于根据两个语料数据之间的相似性确定语料数据的标签。
下面将结合具体实施方式,对本申请实施例提供的一种语料数据标签的确定方法进行详细的说明,如图2所示,具体步骤如下:
步骤201:获取第一语句向量和第二语句向量。
其中,第一语句向量是携带有标签的第一语料数据的语句向量,第二语句向量是未携带有标签的第二语料数据的语句向量。
在本申请实施例中,服务器获取携带有标签的第一语料数据和未携带有标签的第二语料数据,第一语料数据和第二语料数据都是应用于模型训练的数据集,由于第二语料数据没有标注好的标签,因此,需要通过第一语料数据对第二语料数据进行打标。
服务器将第一语料数据和第二语料数据均输入向量转化工具,得到向量转化工具输出的第一语料数据的第一语句向量和第二语料数据的第二语句向量。
步骤202:将第一语句向量和第二语句向量分别输入目标相似度模型,得到目标相似度模型输出的相似度值。
其中,相似度值为第一语料数据和第二语料数据之间的相似度。
在本申请实施例中,服务器将第一语句向量和第二语句向量分别输入目标相似度模型,得到目标相似度模型输出的第一语句向量和第二语句向量之间的相似度值,由于第一语句向量为第一语料数据的向量,第二语句向量为第二语料数据的向量,因此,目标相似度模型输出的相似度值实质为第一语料数据和第二语料数据之间的相似度。示例性地,目标相似度模型为LSTM Siamese Network神经网络。
步骤203:在相似度值不小于预设阈值的情况下,将第一语料数据的标签作为第二语料数据的标签。
在本申请实施例中,服务器判断相似度值是否不小于预设阈值,若服务器判定相似度值不小于预设阈值,表明第一语料数据和第二语料数据的相似度高,可以将第一语料数据的标签作为第二语料数据的标签,这样无需再通过人工对第二语料数据进行打标,提高打标效率,通过机器打标的方式还可以提高打标准确度。
示例性地,预设阈值为0.8,若服务器判定相似度值不小于0.8,则可以将第一语料数据的标签作为第二语料数据的标签。
若服务器判定相似度值小于预设阈值,表明第一语料数据和第二语料数据的相似度低,则发出警示信息,以提示人工对第二语料数据进行打标。
在本申请中,第一语料数据和第二语料数据之间可能表达相同的含义,但表达方式有所不同,这样第一语料数据和第二语料数据之间的相似度就会高。服务器若判定第一语料数据和第二语料数据之间的相似度高,则将第一语料数据的标签作为第二语料数据的标签,这样无需对第二语料数据进行人工打标,提高了打标效率和打标准确性。
作为一种可选的实施方式,目标相似度模型包括两个相同的第一相似度模型和第二相似度模型,将第一语句向量和第二语句向量分别输入目标相似度模型,得到目标相似度模型输出的相似度值包括:将第一语句向量输入第一相似度模型,得到第一相似度模型输出的第三语句向量,并将第二语句向量输入第二相似度模型,得到第一相似度模型输出的第四语句向量;确定第三语句向量和第四语句向量之间的相似度值,其中,所述第三语句向量的维度高于所述第一语句向量的维度,所述第四语句向量的维度高于所述第二语句向量的维度。
在本申请实施例中,目标相似度模型包括两个相同的第一相似度模型和第二相似度模型,第一相似度模型和第二相似度模型的结构相同,权值也相同。服务器先构建向量转化工具,将第一语料数据输入向量转化工具,得到向量转化工具输出的第一语料数据对应的第一语句向量,然后将第一语句向量输入第一相似度模型,得到第一相似度模型输出的第三语句向量。
服务器将第二语料数据输入向量转化工具,得到向量转化工具输出的第二语料数据对应的第二语句向量,然后将第二语句向量输入第二相似度模型,得到第一相似度模型输出的第四语句向量。服务器确定空间中的所述第三语句向量和所述第四语句向量之间的夹角余弦值,根据所述夹角余弦值确定所述相似度值,其中,所述夹角余弦值与所述相似度值成反比关系,夹角余弦值越小,则相似度值越大。
其中,向量转化工具中存储有分词和词向量之间的对应关系,该分词和词向量是根据携带有标签的第一语料数据得到的。由于第一语料数据携带有标签、且标签标注正确,则向量转化工具中的内容也与第一语料数据相关联。这样在采用向量转化工具得到第二语料数据的第二语句向量时,就可以使得第一语句向量和第二语句向量的生成过程是一致的,提高后续的第一语句向量和第二语句向量之间的相似度值的准确性。
作为一种可选地实施方式,将第一语料数据输入向量转化工具,得到向量转化工具输出的第一语料数据对应的第一语句向量包括:将第一语料数据进行分词处理,得到分词;将分词输入向量转化工具,根据关联关系得到分词对应的词向量,其中,关联关系为向量转化工具中包含的分词和词向量之间的对应关系;将多个词向量的加和作为第一语句向量;通过向量转化工具输出第一语料数据对应的第一语句向量。
在本申请实施例中,服务器将第一语料数据进行分词处理,得到分词,示例性地,分词处理工具可以采用jieba,本申请对分词处理方式不做具体限定。服务器将分词输入向量转化工具,向量转化工具中包含有分词和词向量之间的对应关系,服务器根据该对应关系得到分词对应的词向量。由于第一语料数据对应多个词向量,为了得到该第一语料数据对应的第一语句向量,需要将多个词向量的加和作为第一语句向量,最后通过向量转化工具输出第一语料数据对应的第一语句向量。
可选地,将多个词向量的加和作为第一语句向量的方式为:服务器确定一个词向量的多个向量元素,其中,不同向量元素位于不同的位置,然后将不同词向量中相同位置的向量元素进行加和处理,得到第一语句向量。
示例性地,第一语料数据为“我是小明”,“我”对应的词向量为[1,0.25,364,0.58],“是”对应的词向量为[1,0.46,356,0.35],小明对应的词向量为[2,0.56,324,0.65]。将相同位置的向量元素进行加和,得到的语句向量为[4,1.27,1044,1.58]。
通过向量转化工具得到第二语句向量的过程与得到第一语句向量的过程一致,本申请不再赘述。
可选地,图3为LSTM Siamese Network的网络框架示意图,LSTMSiamese Network有两个结构相同,且共享权值的子网络。分别接收第一语句向量X1X1与第二语句向量X2X2,将其转换为第三语句向量Gw(X1)Gw(X1)与第四语句向量Gw(X2)Gw(X2),再计算两个输出向量的夹角余弦值EwEw。
可选地,图4为LSTM Siamese Network的内部结构示意图,从图4可以看出,LSTMSiamese Network用了4层hidden unit size为64的BILSTM,再将每一时刻的输出取平均作为输入XX的表征向量,后面再接dim=128的全连接层,得到的两个向量f(X1)f(X1)与f(X2)f(X2)对应的就是Siamese Network基本框架中的Gw(X1)Gw(X1)与Gw(X2)Gw(X2)。
这里的相似度EE使用的是余弦相似度,即
Figure BDA0002907890180000101
其中,-1≤E(X1,X2)≤1-1≤E(X1,X2)≤1,X1为第三语句向量,X2为第四语句向量,E(X1,X2)为第三语句向量和第四语句向量之间的夹角余弦值,即第一语料数据和第二语料数据之间的夹角余弦值。
可选的,本申请实施例还提供了语料数据标签的确定的处理流程,具体步骤如下。
1.根据携带有标签的第一语料数据生成向量转化工具。
2.对携带有标签的第一语料数据和未携带有标签的第二语料数据分别进行分词处理,得到分词。
3.将分词输入向量转化工具,得到第一语料数据对应的第一语句向量和第二语料数据对应的第二语句向量。
4.根据第一语句向量和第二语句向量之间的夹角余弦值,确定第一语料数据和第二语料数据之间的相似度值。
5.若相似度值不小于预设阈值,将第一语料数据的标签作为第二语料数据的标签。
基于相同的技术构思,本申请实施例还提供了一种语料数据标签的确定装置,如图5所示,该装置包括:
获取模块501,用于获取第一语句向量和第二语句向量,其中,第一语句向量是携带有标签的第一语料数据的语句向量,第二语句向量是未携带有标签的第二语料数据的语句向量;
输入模块502,用于将第一语句向量和第二语句向量分别输入目标相似度模型,得到目标相似度模型输出的相似度值,其中,相似度值为第一语料数据和第二语料数据之间的相似度;
作为模块503,用于在相似度值不小于预设阈值的情况下,将第一语料数据的标签作为第二语料数据的标签。
可选地,目标相似度模型包括两个相同的第一相似度模型和第二相似度模型,输入模块502包括:
第一输入单元,用于将第一语句向量输入第一相似度模型,得到第一相似度模型输出的第三语句向量,并将第二语句向量输入第二相似度模型,得到第一相似度模型输出的第四语句向量,其中,所述第三语句向量的维度高于所述第一语句向量的维度,所述第四语句向量的维度高于所述第二语句向量的维度;
确定单元,用于确定第三语句向量和第四语句向量之间的相似度值。
可选地,获取模块501包括:
第二输入单元,用于将第一语料数据输入向量转化工具,得到向量转化工具输出的第一语料数据对应的第一语句向量;
第三输入单元,用于将第二语料数据输入向量转化工具,得到向量转化工具输出的第二语料数据对应的第二语句向量。
可选地,第二输入单元包括:
分词子单元,用于将第一语料数据进行分词处理,得到分词;
输入子单元,用于将分词输入向量转化工具,根据关联关系得到分词对应的词向量,其中,关联关系为向量转化工具中包含的分词和词向量之间的对应关系;
作为子单元,用于将多个词向量的加和作为第一语句向量;
输出子单元,用于通过向量转化工具输出第一语料数据对应的第一语句向量。
可选地,确定单元包括:
第一确定子单元,用于确定空间中的所述第三语句向量和所述第四语句向量之间的夹角余弦值;
第二确定子单元,用于根据所述夹角余弦值确定所述相似度值,其中,所述夹角余弦值与所述相似度值成反比关系。
可选地,作为子单元包括:
确定子模块,用于确定一个词向量的多个向量元素,其中,不同向量元素位于不同的位置;
加和子模块,用于将不同词向量中相同位置的向量元素进行加和处理,得到第一语句向量。
根据本申请实施例的另一方面,本申请提供了一种电子设备,如图6所示,包括存储器603、处理器601、通信接口602及通信总线604,存储器603中存储有可在处理器601上运行的计算机程序,存储器603、处理器601通过通信接口602和通信总线604进行通信,处理器601执行计算机程序时实现上述方法的步骤。
上述电子设备中的存储器、处理器通过通信总线和通信接口进行通信。所述通信总线可以是外设部件互连标准(Peripheral Component Interconnect,简称PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
根据本申请实施例的又一方面还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质。
可选地,在本申请实施例中,计算机可读介质被设置为存储用于所述处理器执行以下步骤的程序代码:
获取第一语句向量和第二语句向量,其中,所述第一语句向量是携带有标签的第一语料数据的语句向量,所述第二语句向量是未携带有标签的第二语料数据的语句向量;
将所述第一语句向量和所述第二语句向量分别输入目标相似度模型,得到所述目标相似度模型输出的相似度值,其中,所述相似度值为所述第一语料数据和所述第二语料数据之间的相似度;
在所述相似度值不小于预设阈值的情况下,将所述第一语料数据的标签作为所述第二语料数据的标签。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
本申请实施例在具体实现时,可以参阅上述各个实施例,具有相应的技术效果。
可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(ApplicationSpecific Integrated Circuits,ASIC)、数字信号处理器(Digital Signal Processing,DSP)、数字信号处理设备(DSP Device,DSPD)、可编程逻辑设备(Programmable LogicDevice,PLD)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。
对于软件实现,可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种语料数据标签的确定方法,其特征在于,所述方法包括:
获取第一语句向量和第二语句向量,其中,所述第一语句向量是携带有标签的第一语料数据的语句向量,所述第二语句向量是未携带有标签的第二语料数据的语句向量;
将所述第一语句向量和所述第二语句向量分别输入目标相似度模型,得到所述目标相似度模型输出的相似度值,其中,所述相似度值为所述第一语料数据和所述第二语料数据之间的相似度;
在所述相似度值不小于预设阈值的情况下,将所述第一语料数据的标签作为所述第二语料数据的标签。
2.根据权利要求1所述的方法,其特征在于,所述目标相似度模型包括两个相同的第一相似度模型和第二相似度模型,所述将所述第一语句向量和所述第二语句向量分别输入目标相似度模型,得到所述目标相似度模型输出的相似度值包括:
将所述第一语句向量输入所述第一相似度模型,得到所述第一相似度模型输出的第三语句向量,并将所述第二语句向量输入所述第二相似度模型,得到所述第一相似度模型输出的第四语句向量,其中,所述第三语句向量的维度高于所述第一语句向量的维度,所述第四语句向量的维度高于所述第二语句向量的维度;
确定所述第三语句向量和所述第四语句向量之间的相似度值。
3.根据权利要求1所述的方法,其特征在于,所述获取第一语句向量和第二语句向量包括:
将所述第一语料数据输入向量转化工具,得到所述向量转化工具输出的所述第一语料数据对应的第一语句向量;
将所述第二语料数据输入所述向量转化工具,得到所述向量转化工具输出的所述第二语料数据对应的第二语句向量。
4.根据权利要求3所述的方法,其特征在于,所述将所述第一语料数据输入向量转化工具,得到所述向量转化工具输出的所述第一语料数据对应的第一语句向量包括:
将第一语料数据进行分词处理,得到分词;
将所述分词输入所述向量转化工具,根据关联关系得到所述分词对应的词向量,其中,所述关联关系为所述向量转化工具中包含的分词和词向量之间的对应关系;
将多个词向量的加和作为所述第一语句向量;
通过所述向量转化工具输出所述第一语料数据对应的第一语句向量。
5.根据权利要求2所述的方法,其特征在于,所述确定所述第三语句向量和所述第四语句向量之间的相似度值包括:
确定空间中的所述第三语句向量和所述第四语句向量之间的夹角余弦值;
根据所述夹角余弦值确定所述相似度值,其中,所述夹角余弦值与所述相似度值成反比关系。
6.根据权利要求4所述的方法,其特征在于,所述将多个词向量的加和作为所述第一语句向量包括:
确定一个词向量的多个向量元素,其中,不同向量元素位于不同的位置;
将不同词向量中相同位置的向量元素进行加和处理,得到所述第一语句向量。
7.一种语料数据标签的确定装置,其特征在于,所述装置包括:
获取模块,用于获取第一语句向量和第二语句向量,其中,所述第一语句向量是携带有标签的第一语料数据的语句向量,所述第二语句向量是未携带有标签的第二语料数据的语句向量;
输入模块,用于将所述第一语句向量和所述第二语句向量分别输入目标相似度模型,得到所述目标相似度模型输出的相似度值,其中,所述相似度值为所述第一语料数据和所述第二语料数据之间的相似度;
作为模块,用于在所述相似度值不小于预设阈值的情况下,将所述第一语料数据的标签作为所述第二语料数据的标签。
8.根据权利要求7所述的装置,所述目标相似度模型包括两个相同的第一相似度模型和第二相似度模型,所述输入模块包括:
输入单元,用于将所述第一语句向量输入所述第一相似度模型,得到所述第一相似度模型输出的第三语句向量,并将所述第二语句向量输入所述第二相似度模型,得到所述第一相似度模型输出的第四语句向量,其中,所述第三语句向量的维度高于所述第一语句向量的维度,所述第四语句向量的维度高于所述第二语句向量的维度;
确定单元,用于确定所述第三语句向量和所述第四语句向量之间的相似度值。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-6任一所述的方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-6任一所述的方法步骤。
CN202110076716.XA 2021-01-20 2021-01-20 一种语料数据标签的确定方法和装置 Pending CN112732875A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110076716.XA CN112732875A (zh) 2021-01-20 2021-01-20 一种语料数据标签的确定方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110076716.XA CN112732875A (zh) 2021-01-20 2021-01-20 一种语料数据标签的确定方法和装置

Publications (1)

Publication Number Publication Date
CN112732875A true CN112732875A (zh) 2021-04-30

Family

ID=75593427

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110076716.XA Pending CN112732875A (zh) 2021-01-20 2021-01-20 一种语料数据标签的确定方法和装置

Country Status (1)

Country Link
CN (1) CN112732875A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106815192A (zh) * 2015-11-27 2017-06-09 北京国双科技有限公司 模型训练方法及装置和语句情感识别方法及装置
CN107832425A (zh) * 2017-11-13 2018-03-23 北京神州泰岳软件股份有限公司 一种多轮迭代的语料标注方法、装置及系统
CN109740126A (zh) * 2019-01-04 2019-05-10 平安科技(深圳)有限公司 文本匹配方法、装置及存储介质、计算机设备
CN109885832A (zh) * 2019-02-14 2019-06-14 平安科技(深圳)有限公司 模型训练、语句处理方法、装置、计算机设备及存储介质
CN110399499A (zh) * 2019-07-18 2019-11-01 珠海格力电器股份有限公司 一种语料生成方法、装置、电子设备及可读存储介质
CN111695358A (zh) * 2020-06-12 2020-09-22 腾讯科技(深圳)有限公司 生成词向量的方法、装置、计算机存储介质和电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106815192A (zh) * 2015-11-27 2017-06-09 北京国双科技有限公司 模型训练方法及装置和语句情感识别方法及装置
CN107832425A (zh) * 2017-11-13 2018-03-23 北京神州泰岳软件股份有限公司 一种多轮迭代的语料标注方法、装置及系统
CN109740126A (zh) * 2019-01-04 2019-05-10 平安科技(深圳)有限公司 文本匹配方法、装置及存储介质、计算机设备
CN109885832A (zh) * 2019-02-14 2019-06-14 平安科技(深圳)有限公司 模型训练、语句处理方法、装置、计算机设备及存储介质
CN110399499A (zh) * 2019-07-18 2019-11-01 珠海格力电器股份有限公司 一种语料生成方法、装置、电子设备及可读存储介质
CN111695358A (zh) * 2020-06-12 2020-09-22 腾讯科技(深圳)有限公司 生成词向量的方法、装置、计算机存储介质和电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
胡俊生: "《智能招聘人工智能浪潮下的招聘大变局》", 31 May 2020, 《企业管理出版社》, pages: 197 - 208 *

Similar Documents

Publication Publication Date Title
CN112069319B (zh) 文本抽取方法、装置、计算机设备和可读存储介质
CN110046981B (zh) 一种信用评估方法、装置及存储介质
CN110705585A (zh) 网络欺诈识别方法、装置、计算机装置及存储介质
CN111461164A (zh) 样本数据集的扩容方法及模型的训练方法
CN113032862B (zh) 一种建筑信息模型检查方法、检查装置及终端设备
CN110866115A (zh) 序列标注方法、系统、计算机设备及计算机可读存储介质
CN109241529B (zh) 观点标签的确定方法和装置
CN110866042A (zh) 表格智能查询方法、装置及计算机可读存储介质
CN114626380A (zh) 实体识别的方法和装置、电子设备和存储介质
CN110335070B (zh) 一种基于wifi的用户群扩展的方法、装置和电子设备
CN111274813A (zh) 语言序列标注方法、装置存储介质及计算机设备
CN113344067A (zh) 一种生成客户画像的方法、装置及设备
CN112884009A (zh) 一种分类模型训练方法及系统
CN112949320A (zh) 基于条件随机场的序列标注方法、装置、设备及介质
CN112732875A (zh) 一种语料数据标签的确定方法和装置
CN116842949A (zh) 事件提取方法、装置、电子设备和存储介质
CN113591881B (zh) 基于模型融合的意图识别方法、装置、电子设备及介质
CN113688232B (zh) 招标文本分类方法、装置、存储介质及终端
CN114492445A (zh) 对象匹配方法、装置、存储介质及电子设备
CN114913008A (zh) 基于决策树的债券价值分析方法、装置、设备及存储介质
CN114282121A (zh) 业务节点推荐方法、系统、设备及存储介质
CN113255355A (zh) 文本信息中的实体识别方法、装置、电子设备和存储介质
CN113177406A (zh) 文本处理方法、装置、电子设备和计算机可读介质
CN116502644B (zh) 一种基于无源领域自适应的商品实体匹配方法及装置
US20230367961A1 (en) Automated address data determinations using artificial intelligence techniques

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination