CN111985226A - 标注数据生成方法及装置 - Google Patents

标注数据生成方法及装置 Download PDF

Info

Publication number
CN111985226A
CN111985226A CN201910441895.5A CN201910441895A CN111985226A CN 111985226 A CN111985226 A CN 111985226A CN 201910441895 A CN201910441895 A CN 201910441895A CN 111985226 A CN111985226 A CN 111985226A
Authority
CN
China
Prior art keywords
word
data
current
determining
labeling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910441895.5A
Other languages
English (en)
Other versions
CN111985226B (zh
Inventor
袁斌
郭培伦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Wodong Tianjun Information Technology Co Ltd
Original Assignee
Beijing Wodong Tianjun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wodong Tianjun Information Technology Co Ltd filed Critical Beijing Wodong Tianjun Information Technology Co Ltd
Priority to CN201910441895.5A priority Critical patent/CN111985226B/zh
Publication of CN111985226A publication Critical patent/CN111985226A/zh
Application granted granted Critical
Publication of CN111985226B publication Critical patent/CN111985226B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例公开了一种标注数据生成方法及装置。该方法包括:获取当前标注数据,根据标注需求确定当前标注数据包含的各特征词中的参考词;根据当前标注数据包含的各参考词所关联的特征关系,确定各参考词中的待替换词;对于各待替换词,确定其他标注数据中与当前待替换词具备同种特征关系的各特征词的权重,根据权重确定具备同种特征关系的各特征词中的替换词;将当前标注数据中的待替换词替换为对应的替换词,生成目标标注数据。本发明实施例的技术方案基于当前标注数据生成与当前标注数据的标注结果相一致的目标标注数据,扩展了标注数据的数量,简化了对标注数据的生成过程及标注结果的准确率,进而间接提高了数据标注效率。

Description

标注数据生成方法及装置
技术领域
本发明实施例涉及数据处理技术领域,尤其涉及一种标注数据生成方法及装置。
背景技术
在执行自然语义处理任务时,通常需要大量的标注数据进行业务模型的训练。由于业务模型的功能不同,所使用的标注数据也各不相同,因此针对不同的业务对应的模型训练之前,均需要对训练数据加以标注。
现有技术中通常采用以下方式对未标注的训练数据进行数据标注:方式一、人工标注:不依赖于任何标注工具和标注手段,采用纯人工识别的方式进行数据标注;方式二、关键词半人工标注:通过匹配业务核心词典中的关键词来实现半人工标注,即文本中若包括某类词,则该文本就属于该类文本;方式三、模型标注:预先标注一个小数据集,然后根据标注的小数据集训练以文本类型为标签的标注模型,并通过标注模型对预测文本的文本类型进行标注,并通过人工方式进行二次确认。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:采用人工标注的方式时,需要投入大量的人力物力,标注效率低,又由于标注结果完全依赖于标注人员对业务需求的主观认识,因此标注质量难以把控;采用关键词半人工标注的方式时,由于匹配结果非黑即白,难以适应语言表达形式的多样性,容易出现训练数据的漏标错标的情况;采用模型标注的方式时,标注结果依赖于标注模型的模型精度,当标注模型的模型精度不高时,同样需要投入大量的人工成本。
发明内容
本发明提供一种标注数据生成方法及装置,以提高数据标注效率。
第一方面,本发明实施例提供了标注数据生成方法,包括:
获取当前标注数据,并根据标注需求确定所述当前标注数据包含的各特征词中的至少一个参考词;
根据所述当前标注数据包含的各参考词所关联的特征关系,确定各参考词中的至少一个待替换词;
对于各待替换词,确定其他标注数据中与当前待替换词具备同种特征关系的各特征词的权重,并根据权重确定所述具备同种特征关系的各特征词中的替换词;
将所述当前标注数据中的至少一个待替换词替换为对应的替换词,以生成目标标注数据。
第二方面,本发明实施例还提供了一种标注数据生成装置,包括:
参考词确定模块,用于获取当前标注数据,并根据标注需求确定所述当前标注数据包含的各特征词中的至少一个参考词;
待替换词确定模块,用于根据所述当前标注数据包含的各参考词所关联的特征关系,确定各参考词中的至少一个待替换词;
替换词确定模块,用于对于各待替换词,确定其他标注数据中与当前待替换词具备同种特征关系的各特征词的权重,并根据权重确定所述具备同种特征关系的各特征词中的替换词;
标注数据生成模块,用于将所述当前标注数据中的至少一个待替换词替换为对应的替换词,以生成目标标注数据。
第三方面,本发明实施例还提供了一种电子设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面实施例所提供的一种标注数据生成方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面实施例所提供的一种标注数据生成方法。
本发明实施例通过获取当前标注数据,并根据标注需求确定当前标注数据包含的各特征词中的至少一个参考词;根据当前标注数据包含的各参考词所关联的特征关系,确定各参考词中的至少一个待替换词;对于各待替换词,确定其他标注数据中与当前待替换词具备同种特征关系的各特征词的权重,并根据权重确定具备同种特征关系的各特征词中的待替换词;将当前标注数据中的至少一个待替换词替换为对应的替换词,以生成目标标注数据。采用上述技术方案解决了现有技术进行数据标注时需要投入大量人力物力,且标注效率低、标注准确度差的问题,基于当前标注数据生成与当前标注数据的标注结果相一致的目标标注数据,扩展了标注数据的数量,简化了对标注数据的生成过程及标注结果的准确率,进而间接提高了数据标注效率。
附图说明
图1是本发明实施例一中的一种标注数据生成方法的流程图;
图2是本发明实施例二中的一种标注数据生成方法的流程图;
图3是本发明实施例三中的一种标注数据生成方法的流程图;
图4是本发明实施例四中的一种标注数据生成装置的结构图;
图5是本发明实施例五中的一种电子设备的硬件结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1是本发明实施例一中的一种标注数据生成方法的流程图。本发明实施例适用于在进行模型训练之前,对训练数据进行标注的情况,该方法由标注数据生成装置执行,该装置采用软件和/或硬件实现,并具体配置于具备一定数据运算能力的电子设备中。示例性地,电子设备可以是终端或服务器。
如图1所示的一种标注数据生成方法,包括:
S110、获取当前标注数据,并根据标注需求确定所述当前标注数据包含的各特征词中的至少一个参考词。
其中,标注数据可以理解为已经具备标注类别的数据,用以作为输入数据对具备某种业务功能的模型进行训练。其中,标注需求与所训练的模型的业务功能相关联,用于表征标注数据的目标用途。示例性地,标注数据可以是已标注类别的评论数据。
其中,特征词可以理解为能够在一定维度上表征当前标注数据的关键信息的词语。例如“洗衣机是白色的”作为当前标注数据时,“洗衣机”能够表征当前标注数据中的硬件主体,“白色”能够表征当前标注数据中的颜色属性,所以“洗衣机”以及“白色”均可以作为特征词。
示例性地,当前标注数据可以预先存储在电子设备本地、电子设备所关联的其他存储设备或云端中,相应的,获取当前标注数据,可以是从电子设备本地、电子设备所关联的其他电子设备或云端中进行获取。示例性地,获取当前标注数据还可以是从关注的网页或客户端中爬取的数据,并通过人工标注的方式确定所爬取数据的标注类别,得到当前标注数据。
可选的,对当前标注数据中各特征词的确定,可以是由技术人员根据经验值人为确定。或者可选的,对当前标注数据中各特征词的确定,可以通过词语比对的方式自动确定。
示例性地,对当前标注数据中各特征词的确定,可以是:在预先构建的包含有不同特征词的基础特征库中匹配当前标注数据中所包含的各词语,并根据匹配结果确定当前标注数据中所包含的特征词。具体的,将当前标注数据进行词语划分,得到各候选词;针对每个候选词,在基础特征库中进行查找匹配;当基础特征库中匹配到该候选词时,将该候选词确定为特征词。
其中,基础特征库可以根据商品的关联信息进行确定;关联信息包括商品评论数据、商品搜索数据以及商品描述信息中的至少一种。可选的,从关注的网页或客户端中爬取商品的关联信息,并将所爬取的关联信息转化为结构化数据;对结构化后的关联信息通过信息抽取的方式,得到关联信息中的特征词,并存储至基础特征库中。通过对特征词的累积,逐渐丰富基础特征库的词汇量。其中,信息抽取可以采用无监督分词、信息增益、或者卡方检索等方式。
由于当前标注数据中可能包含有多个特征词,但针对不同的标注需求所关注的特征词也不同,为了提高后续基于当前标注数据所生成的目标标注数据与标注需求之间的匹配度,通常需要根据标注需求对当前标注数据所包含的特征词进行筛选。对当前标注数据所包含的特征词的筛选过程,可以采用以下方式进行:获取所述标注需求对应的参考词表;其中,所述参考词表是根据多个历史标注数据中的上下文信息生成的;获取所述当前标注数据中的当前特征词,并在所述标注需求对应的当前参考词表中进行查找;若在所述当前参考词表中查找到所述当前特征词,则将所述当前特征词确定为所述参考词。
可选的,根据不同标注需求生成对应的参考词表。例如,可以获取多个历史标注数据;对多个历史标注数据的上下文信息通过聚类分析得到至少两个不同类别的候选词表;根据候选词表中所包含的候选词与各标注需求进行匹配,根据匹配结果确定与各标注需求对应的候选词表作为参考词表。
S120、根据所述当前标注数据包含的各参考词所关联的特征关系,确定各参考词中的至少一个待替换词。
其中,特征关系用以表征不同特征词之间的关联关系。示例性地,特征关系包括等价关系、上下位关系、部件关系以及功能关系中的至少一种。
具备等价关系的各特征词之间,具有至少部分相同的属性。例如,“电扇”、“空调”均属于调温设备,因此两者具备等价关系。具备上下位关系的各特征词之间,主体内容相同,但附加属性不同。例如,“涡轮式”属于“洗衣机”附加属性,可用于对“洗衣机”的类别加以区分,因此两者具备上下位关系,其中“涡轮式”为下位词,“洗衣机”为上位词。具备部件关系的各特征词之间,具备整体与局部的关联关系。例如,“扇叶”属于“风扇”的一部分,因此“风扇”与“扇叶”具备部件关系,其中“扇叶”为下位词,“风扇”为上位词。具备功能关系的各特征词之间,某一特征词为另外一特征词的功能属性。例如“制冷”属于“空调”的功能属性,因此“制冷”与“空调”具备功能关系。
需要说明的是,各参考词所关联的特征关系,可以预先存储在电子设备本地、电子设备所关联的其他存储设备或云端中,并在需要时直接从电子设备本地、电子设备所关联的其他存储设备或云端中进行获取。可选的,各参考词所关联的特征关系,还可以根据已有的特征词之间的特征关系关联确定。
在本发明各一个可选实施例中,可以采用以下方式进行待替换词的确定:若所述当前标注数据包含的任一参考词所关联的特征关系为所述等价关系,则确定所述任一参考词为待替换词;若所述当前标注数据包含的多个参考词之间的特征关系为所述上下位关系,则确定所述多个参考词中的下位词作为待替换词;若所述当前标注数据包含的多个参考词之间的特征关系为部件关系,则确定所述多个参考词中的下位词或上位词作为待替换词;若所述当前标注数据包含的多个参考词之间的特征关系为功能关系,则确定所述多个参考词中的功能词作为待替换词。
S130、对于各待替换词,确定其他标注数据中与当前待替换词具备同种特征关系的各特征词的权重,并根据权重确定所述具备同种特征关系的各特征词中的替换词。
其中,其他标注数据可以预先存储在电子设备本地、电子设备所关联的其他存储设备或云端中,相应的,在需要时可以直接从电子设备本地、电子设备所关联的其他电子设备或云端中进行获取。或者可选地,还可以从关注的网页或客户端中爬取至少一个数据,并通过人工标注的方式确定所爬取数据的标注类别,得到其他标注数据。
可以理解的是,为了保证基于当前标注数据所生成的目标标注数据的数量,其他标注数据优选为大量的标注数据,进而可通过其他标注数据确定多个替换词。
需要说明的是,当其他标注数据的数据量较大时,必然存在与当前待替换词具备同种特征关系的特征词的数量过多的情况,因此需要对与当前待替换词具备同种特征关系的特征词进行筛选。
示例性地,对于各待替换词,确定其他标注数据中与当前待替换词具备同种特征关系的各特征词的权重,可以是确定其他标注数据中的各特征词;针对每个待替换词,选取所确定的其他标注数据中的特征词中与该待替换词具备同种特征关系的特征词作为候选替换词;确定各候选替换词在其他标注数据中的权重。
其中,确定其他标注数据中的各特征词,可以是在预先构建的包含有不同特征词的基础特征库中匹配其他标注数据中所包含的各词语,并根据匹配结果确定其他标注数据中所包含的特征词。具体的,将其他标注数据进行词语划分,得到各候选词;针对每个候选词,在基础特征库中进行查找匹配;当基础特征库中匹配到该候选词时,将该候选词确定为特征词。
可选的,确定各候选替换词在其他标注数据中的权重,可以是针对每个候选替换词,根据该候选替换词在其他标注数据中出现的频次,以及其他标注数据中的特征词的数量之间的比值,得到概率值;将各候选替换词的概率值作为各候选替换词在其他标注数据中的权重。
或者可选的,确定各个候选替换词在其他标注数据中的权重,可以是针对每个候选替换词,根据该候选替换词在每个其他标注数据中出现的频次,以及对应的其他标注数据中的特征词的数量之间的比值,得到单一概率值;根据各候选替换词在每个其他标注数据中的单一概率值,确定各候选替换词的信息熵值;将各候选替换词的信息熵值作为各候选替换词在其他标注数据中的权重。
或者可选的,确定各个候选替换词在其他标注数据中的权重,可以是针对每个候选替换词,根据该候选替换词在每个其他标注数据中出现的频次,以及对应的其他标注数据中的特征词的数量之间的比值,得到单一概率值;根据出现该候选替换词的其他标注数据的数量以及其他标注数据的总数量,确定该候选替换词在其他标注数据中的逆向文本频率;根据逆向文本频率与单一概率值的乘积,确定各候选替换词的词频逆文本频率指数值;将各候选替换词的词频逆文本频率指数值作为各候选替换词在其他标注数据中的权重。
在本发明实施例的一个可选实施方式中,根据权重确定所述具备同种特征关系的各特征词中的替换词,可以是选择权重满足设定要求的各候选替换词,并将满足设定要求的各候选替换词作为替换词。可选的,将权重按照数值大小进行排序,并选择权重数值最大的设定可选数量的候选替换词作为替换词,其中设定可选数量由技术人员根据标注需求确定,或根据经验值自行设定。或者可选地,将数值大于设定权重阈值的权重所对应的候选替换词作为替换词。其中,设定权重阈值可以由技术人员根据经验值自行设定。例如可以选择权重数值最大的10个候选词作为替换词。
S140、将所述当前标注数据中的至少一个待替换词替换为对应的替换词,以生成目标标注数据。
在本发明实施例的一个可选实施方式中,可以选择当前标注数据中的一个待替换词,并将该待替换词替换为对应的替换词,以生成至少一个目标标注数据。通过单一待替换词替换的方式,减少了数据替换过程中出现错误替换的情况。
例如,基于当前标注数据“风扇风口坏了”,可以基于“风扇”与“风口”的部件关系,以及“空调”与“风口”的部件关系,生成目标标注数据“空调风口坏了”;还可以基于“风扇”与“扇叶”的部件关系,生成目标标注数据“风扇扇叶坏了”。又例如,基于当前标注数据“风扇吹风太冷”,可以基于“风扇”与“吹风”的功能关系,以及“风扇”与“制冷”的功能关系,生成目标标注数据“风扇制冷太冷”;还可以基于“空调”与“吹风”的功能关系,生成目标标注数据“空调吹风太冷”。
在本发明实施例的另一个可选实施方式中,可以选择当前标注数据中的至少两个待替换词,并将各待替换词替换为对应的替换词,以生成至少一个目标标注数据。通过待替换词交叉替换的方式,增加了所生成的目标标注数据的数量和内容形式。可以理解的是,所生成的目标标注数据还可以作为新的当前标注数据或其他标注数据,继续生成目标标注数据。
本发明实施例通过获取当前标注数据,并根据标注需求确定当前标注数据包含的各特征词中的至少一个参考词;根据当前标注数据包含的各参考词所关联的特征关系,确定各参考词中的至少一个待替换词;对于各待替换词,确定其他标注数据中与当前待替换词具备同种特征关系的各特征词的权重,并根据权重确定具备同种特征关系的各特征词中的待替换词;将当前标注数据中的至少一个待替换词替换为对应的替换词,以生成目标标注数据。采用上述技术方案解决了现有技术进行数据标注时需要投入大量人力物力,且标注效率低、标注准确度差的问题,基于当前标注数据生成与当前标注数据的标注结果相一致的目标标注数据,扩展了标注数据的数量,简化了对标注数据的生成过程及标注结果的准确率,进而间接提高了数据标注效率。
实施例二
图2是本发明实施例二中的一种标注数据生成方法的流程图。本发明实施例在上述各实施例的技术方案的基础上进行了优化改进。
进一步地,将操作“生成目标标注数据”之后,追加“将所述目标标注数据作为训练样本,进行模型训练;和/或,将所述目标标注数据作为测试样本,进行模型评价”,以完善目标标注数据的使用机制。
进一步地,将操作“获取当前标注数据”,细化为“获取多个初始标注数据,并根据所述多个初始标注数据中各文本结构的结构类型的统计结果,确定各结构类型的初始标注数据对应的采样距离;根据所述采样距离,对所述多个初始标注数据进行数据采样,得到多个标注数据;获取所述多个标注数据中的一个标注数据作为当前标注数据”,以完善当前标注数据的获取机制。
如图2所示的一种标注数据生成方法,包括:
S210、获取多个初始标注数据,并根据所述多个初始标注数据中各文本结构的结构类型的统计结果,确定各结构类型的初始标注数据对应的采样距离。
其中,多个初始标注数据可以包括当前标注数据以及其他标注数据。其中,文本结构用以表征每个初始标注数据的句子成分以及各句子成分之间的位置关系。其中,结构类型可以是主谓宾结构、或者主谓宾定状补结构等。
示例性地,初始标注数据可以预先存储在电子设备本地、电子设备所关联的其他存储设备或云端中,相应的,获取多个初始标注数据,可以是从电子设备本地、电子设备所关联的其他电子设备或云端中进行获取。示例性地,获取多个初始标注数据还可以是从关注的网页或客户端中爬取的数据,并通过人工标注的方式确定所爬取数据的标注类别,得到初始标注数据。
在本发明实施例的一个可选实施方式中,根据所述多个初始标注数据中各文本结构的结构类型的统计结果,可以是根据预先训练的文本结构分类模型,对多个初始标注数据的文本结构进行分类;分别对不同结构类型的初始标注数据进行统计,得到相应的统计值。
示例性地,确定各结构类型的初始标注数据对应的采样距离,可以是根据不同结构类型的初始标注数据的统计值,得到各结构类型的比例关系;根据比例关系和预设目标值确定各结构类型所需获取的数据量;根据各结构类型所需获取的数据量与对应结构类型的初始标注数据的统计值,确定对各结构类型的初始标注数据进行数据采样时的采样距离。其中,预设目标值由技术人员根据标注需求进行确定,或根据经验值自行设定。
示例性地,确定各结构类型的初始标注数据对应的采样距离,还可以是根据每个结构类型的当前标注数据的目标数量,以及相应结构类型的初始标注数据的统计值,确定对每个结构类型的初始标注数据进行数据采样时的采样距离。其中,每个结构类型的当前标注数据的目标数量,可以由技术人员根据标注需求进行确定,或根据经验值自行设定。
S220、根据所述采样距离,对所述多个初始标注数据进行数据采样,得到多个标注数据。
可选的,根据各结构类型的初始标注数据对应的采样距离,分别对相应的结构类型的初始标注数据进行数据采样,得到多个标注数据。
S230、获取所述多个标注数据中的一个标注数据作为当前标注数据。
可选的,可以获取多个标注数据中的任意一个标注数据作为当前标注数据。可选的,还可以将多个标注数据中去除当前标注数据后的剩余标注数据作为其他标注数据。
由于标注数据数量有限,为了实现对所获取的有限的标注数据的充分利用,优选是依次获取多个标注数据中的每一个作为当前标注数据;将去除本次获取的当前标注数据之后所剩余的标注数据作为其他标注数据。
S240、根据标注需求确定所述当前标注数据包含的各特征词中的至少一个参考词。
S250、根据所述当前标注数据包含的各参考词所关联的特征关系,确定各参考词中的至少一个待替换词。
S260、对于各待替换词,确定其他标注数据中与当前待替换词具备同种特征关系的各特征词的权重,并根据权重确定所述具备同种特征关系的各特征词中的替换词。
S270、将所述当前标注数据中的至少一个待替换词替换为对应的替换词,以生成目标标注数据。
S280、将所述目标标注数据作为训练样本,进行模型训练;和/或,将所述目标标注数据作为测试样本,进行模型评价。
由于目标标注数据基于当前标注数据通过特征词替换的方式生成,因此所生成的目标标注数据与当前标注数据的文本结构以及所标注类型相一致。因此在采用目标标注数据进行模型有监督学习或半监督学习的训练过程中,可以将目标标注数据对应的当前标注数据的标注类型直接作为目标标注数据的标注类型,与目标标注数据一并作为训练样本进行模型训练。
示例性地,在采用目标标注数据作为测试样本进行模型评价时,还可以将目标标注数据对应的当前标注数据的标注类型直接作为目标标注数据的标注类型,将预测结果与目标标注数据的标注类型进行比较,得到模型的灵敏度、特异性、正确率以及召回率等评价参数,并根据上述各评价参数对所使用的模型进行评价。
本发明实施例通过将当前标注数据的获取步骤细化为获取多个初始标注数据,并根据多个初始标注数据中各文本结构的结构类型的统计结果,确定各结构类型的初始标注数据对应的采样距离;根据采样距离,对多个初始标注数据进行采样,得到多个标注数据;获取多个标注数据中的一个标注数据作为当前标注数据。通过多个标注数据的均匀获取,完善了标注数据的获取机制,同时避免了当前标注数据的任意获取,导致的生成的目标标注数据的标注类型比例失衡的情况。进一步地,通过比例均衡的目标标注数据的生成,使得在使用目标标注数据进行模型训练时,减少了由于输入的训练样本的文本结构单一而出现模型过拟合现象;在使用目标标注数据进行模型评价时,使得到的模型评价结果更加准确可靠。
实施例三
图3是本发明实施例三中的一种标注数据生成方法的流程图。本发明实施例在上述各实施例的技术方案的基础上进行了优化改进。
进一步地,在操作“根据所述当前标注数据包含的各参考词所关联的特征关系,确定各参考词中的至少一个待替换词”之前,追加“确定各所述参考词之间的特征关系,以及各参考词与所述其他标注数据所包含的特征词之间的特征关系”,以完善特征关系确定机制。
如图3所示的一种标注数据生成方法,包括:
S310、获取当前标注数据,并根据标注需求确定所述当前标注数据包含的各特征词中的至少一个参考词。
S320、确定各所述参考词之间的特征关系,以及各参考词与所述其他标注数据所包含的特征词之间的特征关系。
在本发明实施例的一个可选实施方式中,可以采用匹配查找的方式进行特征关系的确定。示例性地,根据各所述参考词以及所述其他标注数据所包含的各特征词,查找特征关系库;根据查找结果确定各所述参考词之间的特征关系,以及各参考词与所述其他标注数据所包含的特征词之间的特征关系。其中,特征关系库中预先存储了不同特征词所关联的特征关系,以及与不同特征词具备特征关系的其他特征词。
在本发明实施例的另一个可选实施方式中,还可以在特征关系库中查找不到特征关系时,还可以根据已有特征关系进行特征关系的扩展。示例性地,根据所述当前标注数据以及所述其他标注数据的上下文信息,确定文本结构相同的至少两个标注数据;确定所述至少两个标注数据中,相同的文本结构成分所对应的不同的特征词,作为目标词;根据至少一个目标词的历史特征关系,确定各目标词与其他特征词之间的特征关系。可以理解的是,为了进一步完善特征关系库中所包含的不同特征关系所包括的特征词,还可以在确定目标词与其他特征词之间的特征关系之后,将特征关系库中不包含的特征词及特征词之间的特征关系,对应添加到特征关系库中。
举例说明,若确定的标注数据为两个,分别是标注数据A:“涡轮式洗衣机洗不干净衣服”,以及标注数据B:“滚筒式洗衣机洗不干净衣服”。其中,标注数据A中“涡轮式”为主补成分,“洗衣机”为主语成分;标注数据B中“滚筒式”为主补成分,“洗衣机”为主语成分。那么,可以确定“涡轮式”和“滚筒式”作为目标词。当特征关系库中包含有“涡轮式”与“洗衣机”具备上下位关系时,可以进一步确定“滚筒式”与“洗衣机”同样具有上下位关系。又由于“涡轮式”是该上下位关系中的下位词,那么相应的,可以确定“滚筒式”也是所确定的上下位关系中的下位词。
在本发明实施例的再一个可选实施方式中,可以根据所述当前标注数据以及所述其他标注数据的上下文信息,确定文本结构相同的至少两个标注数据;通过聚类分析的方式,确定各相同文本结构中的相同文本结构成分对应的不同特征词之间的特征关系。
S330、根据所述当前标注数据包含的各参考词所关联的特征关系,确定各参考词中的至少一个待替换词。
S340、对于各待替换词,确定其他标注数据中与当前待替换词具备同种特征关系的各特征词的权重,并根据权重确定所述具备同种特征关系的各特征词中的替换词。
S350、将所述当前标注数据中的至少一个待替换词替换为对应的替换词,以生成目标标注数据。
本发明实施例通过在根据当前标注数据包含的各参考词所关联的特征关系,确定各参考词中的至少一个待替换词之前,追加确定各参考词之间的特征关系,以及各参考词与其他标注数据所包含的特征词之间的特征关系,完善了特征关系的确定机制,为后续特征关系的使用奠定基础。
实施例四
图4是本发明实施例四中的一种标注数据生成装置的结构图。本发明实施例适用于在进行模型训练之前,对训练数据进行标注的情况,该装置采用软件和/或硬件实现,并具体配置于具备一定数据运算能力的电子设备中。示例性地,电子设备可以是终端或服务器。
如图4所示的一种标注数据生成装置,包括:参考词确定模块410,待替换词确定模块420,替换词确定模块430以及标注数据生成模块440。
其中,参考词确定模块410,用于获取当前标注数据,并根据标注需求确定所述当前标注数据包含的各特征词中的至少一个参考词;
待替换词确定模块420,用于根据所述当前标注数据包含的各参考词所关联的特征关系,确定各参考词中的至少一个待替换词;
替换词确定模块430,用于对于各待替换词,确定其他标注数据中与当前待替换词具备同种特征关系的各特征词的权重,并根据权重确定所述具备同种特征关系的各特征词中的替换词;
标注数据生成模块440,用于将所述当前标注数据中的至少一个待替换词替换为对应的替换词,以生成目标标注数据。
本发明实施例通过参考词确定模块获取当前标注数据,并根据标注需求确定当前标注数据包含的各特征词中的至少一个参考词;通过待替换词确定模块根据当前标注数据包含的各参考词所关联的特征关系,确定各参考词中的至少一个待替换词;通过替换词确定模块对于各待替换词,确定其他标注数据中与当前待替换词具备同种特征关系的各特征词的权重,并根据权重确定具备同种特征关系的各特征词中的待替换词;通过标注数据生成模块将当前标注数据中的至少一个待替换词替换为对应的替换词,以生成目标标注数据。采用上述技术方案解决了现有技术进行数据标注时需要投入大量人力物力,且标注效率低、标注准确度差的问题,基于当前标注数据生成与当前标注数据的标注结果相一致的目标标注数据,扩展了标注数据的数量,简化了对标注数据的生成过程及标注结果的准确率,进而间接提高了数据标注效率。
获取当前标注数据,并根据标注需求确定所述当前标注数据包含的各特征词中的至少一个参考词;
根据所述当前标注数据包含的各参考词所关联的特征关系,确定各参考词中的至少一个待替换词;
对于各待替换词,确定其他标注数据中与当前待替换词具备同种特征关系的各特征词的权重,并根据权重确定所述具备同种特征关系的各特征词中的替换词;
将所述当前标注数据中的至少一个待替换词替换为对应的替换词,以生成目标标注数据。
进一步地,所述特征关系包括等价关系、上下位关系、部件关系以及功能关系中的至少一种。
进一步地,待替换词确定模块420,具体用于:
若所述特征关系为所述等价关系,则确定所述参考词为待替换词;
若所述特征关系为所述上下位关系,则确定各所述参考词中的下位词作为待替换词;
若所述特征关系为部件关系,则确定各所述参考词中的下位词或上位词作为待替换词;
若所述特征关系为功能关系,则确定各所述参考词中的功能词作为待替换词。
进一步地,该装置还包括,特征关系确定模块,用于:
在根据所述当前标注数据包含的各参考词所关联的特征关系,确定各参考词中的至少一个待替换词之前,确定各所述参考词之间的特征关系,以及各参考词与所述其他标注数据所包含的特征词之间的特征关系。
进一步地,特征关系确定模块,包括:
特征关系查找单元,用于根据各所述参考词以及所述其他标注数据所包含的各特征词,查找特征关系库;
第一特征关系确定单元,用于根据查找结果确定各所述参考词之间的特征关系,以及各参考词与所述其他标注数据所包含的特征词之间的特征关系。
进一步地,特征关系确定模块,包括:
标注数据确定单元,用于根据所述当前标注数据以及所述其他标注数据的上下文信息,确定文本结构相同的至少两个标注数据;
目标词确定单元,用于确定所述至少两个标注数据中,相同的文本结构成分所对应的不同的特征词,作为目标词;
第二特征关系确定单元,用于根据至少一个目标词的历史特征关系,确定各目标词与其他特征词之间的特征关系。
进一步地,参考词确定模块410,包括:
参考词表获取单元,用于获取所述标注需求对应的参考词表;其中,所述参考词表是根据多个历史标注数据中的上下文信息生成的;
参考词查找单元,用于获取所述当前标注数据中的当前特征词,并在所述标注需求对应的当前参考词表中进行查找;
参考词确定单元,用于在所述当前参考词表中查找到所述当前特征词时,将所述当前特征词确定为所述参考词。
进一步地,该装置还包括,特征词确定模块,用于:
在根据标注需求确定所述当前标注数据包含的各特征词中的至少一个参考词之前,根据商品的关联信息,构建基础特征库;所述关联信息包括商品评论数据、商品搜索数据以及商品描述信息中的至少一种;
在所述基础特征库中匹配所述当前标注数据中所包含的各词语,根据匹配结果确定所述当前标注数据中所包含的特征词。
进一步地,参考词确定模块410,包括:
采样距离确定单元,用于获取多个初始标注数据,并根据所述多个初始标注数据中各文本结构的结构类型的统计结果,确定各结构类型的初始标注数据对应的采样距离;
数据采样单元,用于根据所述采样距离,对所述多个初始标注数据进行数据采样,得到多个标注数据;
标注数据获取单元,用于获取所述多个标注数据中的一个标注数据作为当前标注数据。
进一步地,该装置还包括,标注数据使用模块,用于
在生成目标标注数据之后,将所述目标标注数据作为训练样本,进行模型训练;和/或,
在生成目标标注数据之后,将所述目标标注数据作为测试样本,进行模型评价。
上述标注数据生成装置可执行本发明任意实施例所提供的标注数据生成方法,具备执行标注数据生成方法相应的功能模块和有益效果。
实施例五
图5是本发明实施例五中的一种电子设备的硬件结构示意图,该电子设备包括:
处理器510以及存储装置520。
一个或多个处理器510;
存储装置520,用于存储一个或多个程序。
进一步地,该电子设备还包括:
输入装置530,用于获取当前标注数据;
进一步地,该电子设备还包括:
输出装置540,用于对当前生成的目标标注数据进行显示。
图5中以一个处理器510为例,该电子设备中处理器510与存储装置520可以通过总线或其他方式连接,输入装置530也可以通过总线或其他方式与输出装置540、处理器510以及存储装置520连接,输出装置540也可以通过总线或其他方式与处理器510以及存储装置520连接。图5中以通过总线连接为例。
在本实施例中,电子设备中的处理器510可以通过输入装置530获取当前标注数据,或从存储装置520中获取当前标注数据;还可以根据标注需求确定当前标注数据包含的各特征词中的至少一个参考词;还可以根据当前标注数据包含的各参考词所关联的特征关系,确定各参考词中的至少一个待替换词;还可以对于各待替换词,确定其他标注数据中与当前待替换词具备同种特征关系的各特征词的权重;还可以根据权重确定具备同种特征关系的各特征词中的待替换词;还可以将当前标注数据中的至少一个待替换词替换为对应的替换词,以生成目标标注数据;还可以控制将从输入装置530中获取的当前标注数据存储至存储装置520中;还可以控制将生成的目标标注数据存储至存储装置520中;还可以控制输出装置540对生成的目标标注数据,和/或获取的当前标注数据加以显示。
该电子设备中的存储装置520作为一种计算机可读存储介质,可用于存储一个或多个程序,所述程序可以是软件程序、计算机可执行程序以及模块,如本发明实施例中标注数据生成方法对应的程序指令/模块(例如,附图4所示的参考词确定模块410,待替换词确定模块420,替换词确定模块430以及标注数据生成模块440)。处理器510通过运行存储在存储装置520中的软件程序、指令以及模块,从而执行电子设备的各种功能应用以及数据处理,即实现上述方法实施例中的标注数据生成方法。
存储装置520可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储数据等(如上述实施例中的当前标注数据、参考词、其他标注数据、特征关系、待替换词、替换词以及目标标注数据等)。此外,存储装置520可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储装置520可进一步包括相对于处理器510远程设置的存储器,这些远程存储器可以通过网络连接至服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
此外,本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被标注数据生成装置执行时实现本发明实施提供的标注数据生成方法,该方法包括:获取当前标注数据,并根据标注需求确定所述当前标注数据包含的各特征词中的至少一个参考词;根据所述当前标注数据包含的各参考词所关联的特征关系,确定各参考词中的至少一个待替换词;对于各待替换词,确定其他标注数据中与当前待替换词具备同种特征关系的各特征词的权重,并根据权重确定所述具备同种特征关系的各特征词中的替换词;将所述当前标注数据中的至少一个待替换词替换为对应的替换词,以生成目标标注数据。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的标注数据生成方法。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种标注数据生成方法,其特征在于,包括:
获取当前标注数据,并根据标注需求确定所述当前标注数据包含的各特征词中的至少一个参考词;
根据所述当前标注数据包含的各参考词所关联的特征关系,确定各参考词中的至少一个待替换词;
对于各待替换词,确定其他标注数据中与当前待替换词具备同种特征关系的各特征词的权重,并根据权重确定所述具备同种特征关系的各特征词中的替换词;
将所述当前标注数据中的至少一个待替换词替换为对应的替换词,以生成目标标注数据。
2.根据权利要求1所述的方法,其特征在于,所述特征关系包括等价关系、上下位关系、部件关系以及功能关系中的至少一种。
3.根据权利要求2所述的方法,其特征在于,所述根据所述当前标注数据包含的各参考词所关联的特征关系,确定各参考词中的至少一个待替换词,包括:
若所述当前标注数据包含的任一参考词所关联的特征关系为所述等价关系,则确定所述任一参考词为待替换词;
若所述当前标注数据包含的多个参考词之间的特征关系为所述上下位关系,则确定所述多个参考词中的下位词作为待替换词;
若所述当前标注数据包含的多个参考词之间的特征关系为部件关系,则确定所述多个参考词中的下位词或上位词作为待替换词;
若所述当前标注数据包含的多个参考词之间的特征关系为功能关系,则确定所述多个参考词中的功能词作为待替换词。
4.根据权利要求1所述的方法,其特征在于,在根据所述当前标注数据包含的各参考词所关联的特征关系,确定各参考词中的至少一个待替换词之前,还包括:
确定各所述参考词之间的特征关系,以及各参考词与所述其他标注数据所包含的特征词之间的特征关系。
5.根据权利要求4所述的方法,其特征在于,所述确定各所述参考词之间的特征关系,以及各参考词与所述其他标注数据所包含的特征词之间的特征关系,包括:
根据各所述参考词以及所述其他标注数据所包含的各特征词,查找特征关系库;
根据查找结果确定各所述参考词之间的特征关系,以及各参考词与所述其他标注数据所包含的特征词之间的特征关系。
6.根据权利要求4所述的方法,其特征在于,所述确定各所述参考词之间的特征关系,以及各参考词与所述其他标注数据所包含的特征词之间的特征关系,包括:
根据所述当前标注数据以及所述其他标注数据的上下文信息,确定文本结构相同的至少两个标注数据;
确定所述至少两个标注数据中,相同的文本结构成分所对应的不同的特征词,作为目标词;
根据至少一个目标词的历史特征关系,确定各目标词与其他特征词之间的特征关系。
7.根据权利要求1所述的方法,其特征在于,所述根据标注需求确定所述当前标注数据包含的各特征词中的至少一个参考词,包括:
获取所述标注需求对应的参考词表;其中,所述参考词表是根据多个历史标注数据中的上下文信息生成的;
获取所述当前标注数据中的当前特征词,并在所述标注需求对应的当前参考词表中进行查找;
若在所述当前参考词表中查找到所述当前特征词,则将所述当前特征词确定为所述参考词。
8.根据权利要求1所述的方法,在根据标注需求确定所述当前标注数据包含的各特征词中的至少一个参考词之前,还包括:
根据商品的关联信息,构建基础特征库;所述关联信息包括商品评论数据、商品搜索数据以及商品描述信息中的至少一种;
在所述基础特征库中匹配所述当前标注数据中所包含的各词语,根据匹配结果确定所述当前标注数据中所包含的特征词。
9.根据权利要求1所述的方法,其特征在于,所述获取当前标注数据,包括:
获取多个初始标注数据,并根据所述多个初始标注数据中各文本结构的结构类型的统计结果,确定各结构类型的初始标注数据对应的采样距离;
根据所述采样距离,对所述多个初始标注数据进行数据采样,得到多个标注数据;
获取所述多个标注数据中的一个标注数据作为当前标注数据。
10.一种标注数据生成装置,其特征在于,包括:
参考词确定模块,用于获取当前标注数据,并根据标注需求确定所述当前标注数据包含的各特征词中的至少一个参考词;
待替换词确定模块,用于根据所述当前标注数据包含的各参考词所关联的特征关系,确定各参考词中的至少一个待替换词;
替换词确定模块,用于对于各待替换词,确定其他标注数据中与当前待替换词具备同种特征关系的各特征词的权重,并根据权重确定所述具备同种特征关系的各特征词中的替换词;
标注数据生成模块,用于将所述当前标注数据中的至少一个待替换词替换为对应的替换词,以生成目标标注数据。
CN201910441895.5A 2019-05-24 2019-05-24 标注数据生成方法及装置 Active CN111985226B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910441895.5A CN111985226B (zh) 2019-05-24 2019-05-24 标注数据生成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910441895.5A CN111985226B (zh) 2019-05-24 2019-05-24 标注数据生成方法及装置

Publications (2)

Publication Number Publication Date
CN111985226A true CN111985226A (zh) 2020-11-24
CN111985226B CN111985226B (zh) 2024-03-01

Family

ID=73436938

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910441895.5A Active CN111985226B (zh) 2019-05-24 2019-05-24 标注数据生成方法及装置

Country Status (1)

Country Link
CN (1) CN111985226B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113313196A (zh) * 2021-06-17 2021-08-27 北京百度网讯科技有限公司 标注数据处理方法、相关装置及计算机程序产品
CN117436441A (zh) * 2023-12-14 2024-01-23 浙江口碑网络技术有限公司 基于大语言模型的文本结构识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1916887A (zh) * 2006-09-06 2007-02-21 哈尔滨工程大学 基于替换词技术的无指导词义消歧方法
CN104933164A (zh) * 2015-06-26 2015-09-23 华南理工大学 互联网海量数据中命名实体间关系提取方法及其系统
CN105938495A (zh) * 2016-04-29 2016-09-14 乐视控股(北京)有限公司 实体关系识别方法及装置
US20160275148A1 (en) * 2015-03-20 2016-09-22 Huawei Technologies Co., Ltd. Database query method and device

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1916887A (zh) * 2006-09-06 2007-02-21 哈尔滨工程大学 基于替换词技术的无指导词义消歧方法
US20160275148A1 (en) * 2015-03-20 2016-09-22 Huawei Technologies Co., Ltd. Database query method and device
CN104933164A (zh) * 2015-06-26 2015-09-23 华南理工大学 互联网海量数据中命名实体间关系提取方法及其系统
CN105938495A (zh) * 2016-04-29 2016-09-14 乐视控股(北京)有限公司 实体关系识别方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
司红娜;姚力文;李向军;: "基于同义替换和相邻词合并的关键词特征权重计算新方法", 计算机与现代化, no. 04, pages 119 - 121 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113313196A (zh) * 2021-06-17 2021-08-27 北京百度网讯科技有限公司 标注数据处理方法、相关装置及计算机程序产品
CN113313196B (zh) * 2021-06-17 2023-10-27 北京百度网讯科技有限公司 标注数据处理方法、相关装置及计算机程序产品
CN117436441A (zh) * 2023-12-14 2024-01-23 浙江口碑网络技术有限公司 基于大语言模型的文本结构识别方法

Also Published As

Publication number Publication date
CN111985226B (zh) 2024-03-01

Similar Documents

Publication Publication Date Title
CN110163647B (zh) 一种数据处理方法及装置
CN112632385A (zh) 课程推荐方法、装置、计算机设备及介质
KR20200007969A (ko) 정보 처리 방법, 단말기, 및 컴퓨터 저장 매체
CN112163424A (zh) 数据的标注方法、装置、设备和介质
CN111460250A (zh) 用于画像的数据的清洗方法、装置、介质及电子设备
US11809505B2 (en) Method for pushing information, electronic device
CN112217207A (zh) 一种暂态电压稳定裕度预测方法及装置
CN111931809A (zh) 数据的处理方法、装置、存储介质及电子设备
CN113543117B (zh) 携号转网用户的预测方法、装置及计算设备
CN112052154A (zh) 一种测试用例的处理方法、装置
CN114494168A (zh) 模型确定、图像识别与工业质检方法、设备及存储介质
CN110968664A (zh) 一种文书检索方法、装置、设备及介质
CN110910175A (zh) 一种旅游门票产品画像生成方法
CN113282754A (zh) 针对新闻事件的舆情检测方法、装置、设备和存储介质
CN113312899A (zh) 文本分类方法、装置和电子设备
CN111985226B (zh) 标注数据生成方法及装置
CN115827956A (zh) 一种数据信息检索方法、装置、电子设备及存储介质
CN114722198A (zh) 产品分类编码确定方法、系统及相关装置
CN113704389A (zh) 一种数据评估方法、装置、计算机设备及存储介质
CN116467606A (zh) 一种决策建议信息的确定方法、装置、设备及介质
CN109446330B (zh) 网络服务平台情感倾向识别方法、装置、设备和存储介质
CN116842936A (zh) 关键词识别方法、装置、电子设备和计算机可读存储介质
CN113962216A (zh) 文本处理方法、装置、电子设备及可读存储介质
CN113095589A (zh) 一种人口属性确定方法、装置、设备及存储介质
CN112182218A (zh) 文本数据的分类方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant