CN110069595B - 语料标签确定方法、装置、电子设备及存储介质 - Google Patents

语料标签确定方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN110069595B
CN110069595B CN201910173147.3A CN201910173147A CN110069595B CN 110069595 B CN110069595 B CN 110069595B CN 201910173147 A CN201910173147 A CN 201910173147A CN 110069595 B CN110069595 B CN 110069595B
Authority
CN
China
Prior art keywords
determined
corpus
labels
keywords
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910173147.3A
Other languages
English (en)
Other versions
CN110069595A (zh
Inventor
鄢真
方俊波
刘玉强
杨昊燃
李雯
叶素兰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201910173147.3A priority Critical patent/CN110069595B/zh
Publication of CN110069595A publication Critical patent/CN110069595A/zh
Application granted granted Critical
Publication of CN110069595B publication Critical patent/CN110069595B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及大数据领域,本发明提供一种语料标签确定方法包括:选取语料库中一待确定标签的语料,所述语料为具有结构层次的语料;将选取的待确定标签的语料按照结构层次划分为多个组成部分;提取各个组成部分的第一预设数量的关键词和第二预设数量的关键词;确定各第一预设数量的关键词为选取的待确定标签的语料的对应组成部分的标签;确定所述语料库中其他待确定标签的语料的标签,其中,仅若确定所述语料库中当前待确定标签的语料的所有标签后,根据已确定的所有语料的所有标签和已确定的所有语料的所有第二预设数量的关键词确定所述语料库中下一个待确定标签的语料的标签。本发明还提供一种装置、电子设备及存储介质,可自动确定语料的标签。

Description

语料标签确定方法、装置、电子设备及存储介质
技术领域
本发明涉及数据处理技术领域,具体涉及一种语料标签确定方法、装置、电子设备及存储介质。
背景技术
标签是互联网内容组织方式,是与语料相关性很强的关键字,它能够对语料内容进行简单描述和分类,以便于检索和分享。目前,可通过人工给语料指定特定标签来确定语料标签。但是由于为人工指定标签,各用户标准不一致,导致标签混乱,同时人工指定标签需要投入大量的时间和人力,使得指定标签效率较低,且容易出错。虽然可通过分析语料内容,提取语料中的段落或者语句中的重要关键词作为标签来自动生成标签,但是如此存在对语料中的部分内容遗漏的情况。
发明内容
鉴于此,有必要提供一种语料标签确定方法、装置、电子设备及存储介质,可自动确定语料的标签且不会遗漏任何语料内容。
本申请的第一方面提供一种语料标签确定方法,所述方法包括:
选取语料库中一待确定标签的语料,所述语料为具有结构层次的语料;
将选取的待确定标签的语料按照结构层次划分为多个组成部分;
提取各个组成部分的第一预设数量的关键词和第二预设数量的关键词;
确定各第一预设数量的关键词为选取的待确定标签的语料的对应组成部分的标签;
确定所述语料库中其他待确定标签的语料的标签,其中,仅若确定所述语料库中当前待确定标签的语料的所有标签后,根据已确定的所有语料的所有标签和已确定的所有语料的所有第二预设数量的关键词确定所述语料库中下一个待确定标签的语料的标签。
另一种可能的实现方式中,所述第一预设数量小于所述第二预设数量。
另一种可能的实现方式中,确定各第一预设数量的关键词为选取的待确定标签的语料的对应组成部分的标签包括:
将各第一预设数量的关键词分别组合;
确定各组合后的第一预设数量的关键词为选取的待确定标签的语料的对应组成部分的标签。
另一种可能的实现方式中,若当前为确定选取的第一个待确定标签的语料的标签,当前待确定标签的语料为选取的第一个待确定标签的语料,所述已确定的所有语料为已确定的一语料;
若当前为确定选取的第N个待确定标签的语料的标签,当前语料为选取的第N个待确定标签的语料,所述已确定的所有语料为已确定的N个语料,其中N为大于1的整数。
另一种可能的实现方式中,所述方法还包括:
建立第二预设数量的关键词与标签的映射关系;
仅若确定所述语料库中当前待确定标签的语料的所有标签后,根据已确定的所有语料的所有标签和已确定的所有语料的所有第二预设数量的关键词确定所述语料库中下一个待确定标签的语料的标签包括:
选取所述语料库中另一待确定标签的语料;
将选取的另一待确定标签的语料按照结构层次分为多个组成部分;
以已确定的所有语料的所有第二预设数量的关键词为模板确定选取的另一待确定标签的语料的组成部分中是否存在与一模板匹配的词;
若确定选取的另一待确定标签的语料的组成部分中存在与一模板匹配的词,根据所述第二预设数量的关键词与标签的映射关系确定所述组成部分的标签为所述第二预设数量的关键词对应的标签。
另一种可能的实现方式中,所述方法还包括:
若确定选取的另一待确定标签的语料的组成部分中不存在与任一模板匹配的词,提取选取的另一待确定标签的语料的未确定标签的各个组成部分的所述第一预设数量的关键词和所述第二预设数量的关键词;
确定选取的另一待确定标签的语料的未确定标签的各个组成部分的各第一预设数量的关键词为选取的另一待确定标签的语料的未确定标签的对应组成部分的标签。
另一种可能的实现方式中,所述确定选取的另一待确定标签的语料的组成部分中是否存在与一模板匹配的词包括:
确定选取的另一待确定标签的语料的组成部分中是否同时存在与一第二预设数量的关键词相同的词。
本申请的第二方面提供一种语料标签确定装置,所述装置包括:
选取模块,用于选取语料库中一待确定标签的语料,所述语料为具有结构层次的语料;
划分模块,用于将选取的待确定标签的语料按照结构层次划分为多个组成部分;
提取模块,用于提取各个组成部分的第一预设数量的关键词和第二预设数量的关键词;
第一标签确定模块,用于确定各第一预设数量的关键词为选取的待确定标签的语料的对应组成部分的标签;
第二标签确定模块,用于确定所述语料库中其他待确定标签的语料的标签,其中,仅若确定所述语料库中当前待确定标签的语料的所有标签后,根据已确定的所有语料的所有标签和已确定的所有语料的所有第二预设数量的关键词确定语料库中下一个待确定标签的语料的标签。
本申请的第三方面提供一种电子设备,所述电子设备包括处理器及存储器,所述处理器用于执行所述存储器中存储的至少一个指令时实现如上任意一项所述的语料标签确定方法。
本申请的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质存储有至少一个指令,所述至少一个指令被处理器执行以实现如上任意一项所述的语料标签确定方法。
本方案通过对语料库中一待确定标签的语料进行分级来确定多个组成部分,并确定每个组成部分的标签,从而可覆盖整个待确定标签的语料,不会遗漏任何语料内容;并通过先确定一待确定标签的语料的标签,再根据已确定的语料的标签及第二预设数量的关键词确定下一个待确定标签的语料的标签,并通过同样的方法依次逐个地确定所述语料库中的其他待确定标签的语料的标签直至确定所述语料库中的所有待确定标签的语料。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的语料标签确定方法的流程图。
图2是本发明实施例二提供的语料标签确定装置的结构图。
图3是本发明实施例三提供的电子设备的示意图。
如下具体实施方式将结合上述附图进一步说明本发明。
主要元件符号说明
语料标签确定装置 20
选取模块 21
划分模块 22
提取模块 23
第一标签确定模块 24
第二标签确定模块 25
电子设备 3
存储器 31
处理器 32
计算机程序 33
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
实施例一
图1为本发明实施例一提供的语料标签确定方法的流程图。所述方法应用于电子设备中,所述电子设备可以为任何一种电子产品,例如,个人计算机、平板电脑、智能手机、个人数字助理(Personal Digital Assistant,PDA)等。如图1所示,所述语料标签确定方法可包括以下步骤:
S11:选取语料库中一待确定标签的语料,所述语料为具有结构层次的语料。
所述选取语料库中一待确定标签的语料可为根据给语料确定标签的请求自动随机选取语料库中一待确定标签的语料或者选取语料库中一特定的待确定标签的语料。所述语料库中一特定的待确定标签的语料可为语料库中位于第一位的待确定标签的语料、语料库中位于最后一位的待确定标签的语料、或者语料库中最新新增的待确定标签的语料等。所述选取语料库中一待确定标签的语料还可为根据选择语料库中一待确定标签的语料的操作选取一待确定标签的语料。所述具有结构层次的语料为具有结构层次的法律文书等,例如具有结构层次的合同,所述合同的结构层次为“章-节-小节-小小节”,其中,章“1”、“2”及“3”为一级标题、节“1.1”、“1.2”、“2.1”及“2.2”为二级标题、小节“1.1.1”、“1.1.2”、“1.2.1”及“1.2.2”为三级标题、小小节“1.1.1.1”、“1.1.1.2”及“1.1.1.3”为四级标题。
S12:将选取的待确定标签的语料按照结构层次划分为多个组成部分。
所述将选取的待确定标签的语料按照结构层次划分为多个组成部分可为例如:
当待确定标签的语料的结构层次为:章“1”、“2”及“3”为一级标题、节“1.1”、“1.2”、“2.1”及“2.2”为二级标题、小节“1.1.1”、“1.1.2”、“1.2.1”及“1.2.2”为三级标题、小小节“1.1.1.1”、“1.1.1.2”及“1.1.1.3”为四级标题时,所述待确定标签的语料划分为组成部分:
章“1”、章“2”、章“3”、节“1.1”、节“1.2”、节“2.1”、节“2.2”、小节“1.1.1”、小节“1.1.2”、小节“1.2.1”、小节“1.2.2”、小小节“1.1.1.1”、小小节“1.1.1.2”及小小节“1.1.1.3”;
其中,章“1”包括章“1”、节“1.1”、节“1.2”、小节“1.1.1”、小节“1.1.2”、小节“1.2.1”、小节“1.2.2”、小小节“1.1.1.1”、小小节“1.1.1.2”及小小节“1.1.1.3”的内容,章“2”包括章“2”、节“2.1”、及节“2.2”的内容,及章“3”包括章“3”的内容;
节“1.1”包括节“1.1”、小节“1.1.1”、小节“1.1.2”、小小节“1.1.1.1”、小小节“1.1.1.2”及小小节“1.1.1.3”的内容,节“1.2”包括节“1.2”、小节“1.2.1”及小节“1.2.2”的内容,节“2.1”包括节“2.1”的内容,节“2.2”包括节“2.2”的内容;
小节“1.1.1”包括小节“1.1.1”、小小节“1.1.1.1”、小小节“1.1.1.2”及小小节“1.1.1.3”的内容;
小小节“1.1.1.1”包括小小节“1.1.1.1”的内容、小小节“1.1.1.2”包括小小节“1.1.1.2”的内容及小小节“1.1.1.3”包括小小节“1.1.1.3”的内容。
S13:提取各个组成部分的第一预设数量的关键词和第二预设数量的关键词。
在本实施例中,所述第一预设数量小于所述第二预设数量。所述提取各个组成部分的第一预设数量的关键词和第二预设数量的关键词可为通过TFIDF技术、高维聚类技术等提取各个组成部分的第一预设数量的关键词和第二预设数量的关键词。其中,TFIDF技术及高维聚类技术为现有技术,在此不进行赘述。
S14:确定各第一预设数量的关键词为选取的待确定标签的语料的对应组成部分的标签。
所述确定各第一预设数量的关键词为选取的待确定标签的语料的对应组成部分的标签包括:将各第一预设数量的关键词分别组合;确定各组合后的第一预设数量的关键词为选取的待确定标签的语料的对应组成部分的标签。所述组合可为依序组合或者随机组合。确定各第一预设数量的关键词为选取的待确定标签的语料的对应组成部分的标签可为例如:当第一组成部分的第一预设数量的关键词为欠款、同意及付款,第二组成部分的第一预设数量的关键词为材料、设计及图纸,则所述第一组成部分的标签为欠款同意付款,所述第二组成部分的标签为材料设计图纸。在本实施例中,所述方法还包括:建立第二预设数量的关键词与标签的映射关系。例如,第一组成部分的标签为欠款同意付款,第一组成部分的第二预设数量的关键词为欠款、同意、付款及失效,则建立欠款、同意、付款及失效,与欠款同意付款的映射关系。
S15:确定所述语料库中其他待确定标签的语料的标签,其中,仅若确定所述语料库中当前待确定标签的语料的所有标签后,根据已确定的所有语料的所有标签和已确定的所有语料的所有第二预设数量的关键词确定所述语料库中下一个待确定标签的语料的标签。
在本实施例中,若待确定标签的语料确定标签后为已确定的语料。若当前为确定选取的第一个待确定标签的语料的标签,当前待确定标签的语料为选取的第一个待确定标签的语料,所述已确定的所有语料为已确定的一语料;若当前为确定选取的第N个待确定标签的语料的标签,当前待确定标签的语料为选取的第N个待确定标签的语料,所述已确定的所有语料为已确定的N个语料,其中N为大于1的整数。确定所述语料库中当前待确定标签的语料的所有标签为确定所述语料库中当前待确定标签的语料的所有组成部分的标签。
仅若确定所述语料库中当前待确定标签的语料的所有标签后,根据已确定的所有语料的所有标签和已确定的所有语料的所有第二预设数量的关键词确定所述语料库中下一个待确定标签的语料的标签包括:
a1:选取所述语料库中另一待确定标签的语料。
a2:将选取的另一待确定标签的语料按照结构层次划分为多个组成部分。
a3:以已确定的所有语料的所有第二预设数量的关键词为模板确定选取的另一待确定标签的语料的组成部分中是否存在与一模板匹配的词。
在本实施例中,若仅确定完一语料的标签,所述已确定的所有语料的所有第二预设数量的关键词为所述已确定的一语料的所有第二预设数量的关键词,若已确定N个语料的标签,所述已确定的所有语料的所有第二预设数量的关键词为所述已确定的N个语料的所有第二预设数量的关键词。
所述确定选取的另一待确定标签的语料的组成部分中是否存在与一模板匹配的词包括:确定选取的另一待确定标签的语料的组成部分中是否同时存在与一第二预设数量的关键词相同的词。其中,所述同时存在可为连续存在或者间隔存在。所述相同的词可包括实质相同和完全相同。例如:所述模板包括:欠款、同意、付款及失效,妈妈、明天、医院及胃病,则确定组成部分中是否同时存在与欠款、同意、付款及失效或者妈妈、明天、医院及胃病相同的词。
a4:若确定选取的另一待确定标签的语料的组成部分中存在与一模板匹配的词,根据第二预设数量的关键词与标签的映射关系确定所述组成部分的标签为所述第二预设数量的关键词对应的标签。
所述确定选取的另一待确定标签的语料的组成部分中存在与一模板匹配的词包括:确定选取的另一待确定标签的语料的组成部分中同时存在与一第二预设数量的关键词相同的词。其中,所述同时存在可为连续存在或者间隔存在。所述相同的词可包括实质相同和完全相同。例如:若某模板为妈妈、明天、医院及胃病,某组成部分中间隔存在词:妈妈、词:明天、词:医院及词:胃病,确定所述组成部分中存在与一模板匹配的词。
若确定选取的另一待确定标签的语料的组成部分中存在与一模板匹配的词,根据第二预设数量的关键词与标签的映射关系确定所述组成部分的标签为所述第二预设数量的关键词对应的标签可为例如:
若确定组成部分中存在与一模板匹配的词:妈妈、词:明天、词:医院及词:胃病,第二预设数量的关键词与标签的映射关系为:妈妈、明天、医院及胃病与妈妈明天医院的映射关系,则确定所述组成部分的标签为:妈妈明天医院。
在本实施例中,为了避免模板中不存在待确定标签的语料中的关键词所导致的对部分语料漏掉确定标签的问题,所述方法还包括:
b1:若确定选取的另一待确定标签的语料的组成部分中不存在与任一模板匹配的词,提取选取的另一待确定标签的语料的未确定标签的各个组成部分的所述第一预设数量的关键词和所述第二预设数量的关键词。
所述确定选取的另一待确定标签的语料的组成部分中不存在与任一模板匹配的词包括:确定选取的另一待确定标签的语料的组成部分中不同时存在与任一第二预设数量的关键词相同的词。其中,所述同时存在可为连续存在或者间隔存在。所述相同的词可包括实质相同和完全相同。所述提取未确定标签的各个组成部分的所述第一预设数量的关键词和所述第二预设数量的关键词可为通过TFIDF技术、高维聚类技术等提取未确定标签的各个组成部分的所述第一预设数量的关键词和所述第二预设数量的关键词。其中,TFIDF技术及高维聚类技术为现有技术,在此不进行赘述。
b2:确定选取的另一待确定标签的语料的未确定标签的各个组成部分的各第一预设数量的关键词为选取的另一待确定标签的语料的未确定标签的对应组成部分的标签。
所述确定选取的另一待确定标签的语料的未确定标签的各个组成部分的各第一预设数量的关键词为选取的另一待确定标签的语料的未确定标签的对应组成部分的标签包括:将选取的另一待确定标签的语料的未确定标签的各个组成部分的各第一预设数量的关键词分别组合;确定各组合后的第一预设数量的关键词为选取的另一待确定标签的语料的未确定标签的对应组成部分的标签。
从而,本方案通过先确定一待确定标签的语料的标签,再根据已确定的语料的标签及第二预设数量的关键词确定下一个待确定标签的语料的标签,当所述下一个待确定标签的语料中部分组成部分不存在与任一第二预设数量的关键词匹配的词时,通过确定部分组成部分的关键词来确定对应的标签,并通过同样的方法依次逐个地确定所述语料库中的其他待确定标签的语料的标签。
本发明实施例一通过选取语料库中一待确定标签的语料,所述语料为具有结构层次的语料;将选取的待确定标签的语料按照结构层次划分为多个组成部分;提取各个组成部分的第一预设数量的关键词和第二预设数量的关键词;确定各第一预设数量的关键词为选取的待确定标签的语料的对应组成部分的标签;确定所述语料库中其他待确定标签的语料的标签,其中,仅若确定所述语料库中当前待确定标签的语料的所有标签后,根据已确定的所有语料的所有标签和已确定的所有语料的所有第二预设数量的关键词确定所述语料库中下一个待确定标签的语料的标签。本发明实施例一对语料库中一待确定标签的语料进行分级来确定多个组成部分,并确定每个组成部分的标签,从而可覆盖整个待确定标签的语料,不会遗漏任何语料内容;并通过先确定一待确定标签的语料的标签,再根据已确定的语料的标签及第二预设数量的关键词确定下一个待确定标签的语料的标签,并通过同样的方法依次逐个地确定所述语料库中的其他待确定标签的语料的标签直至确定所述语料库中的所有待确定标签的语料。
以上是对本发明所提供的方法进行的详细描述。根据不同的需求,所示流程图中方块的执行顺序可以改变,某些方块可以省略,优化目标应用的方法也在上述优化方法中选择性的组合使用,或者与其他上述未提及的优化方法组合使用。下面对本发明所提供的装置进行描述。
实施例二
图2为本发明实施例三提供的语料标签确定装置的功能模块图。在一些实施例中,所述语料标签确定装置20运行于电子设备中。所述电子设备可以为任何一种电子产品,例如,个人计算机、平板电脑、智能手机、个人数字助理(Personal Digital Assistant,PDA)等。所述语料标签确定装置20可以包括多个由程序代码段所组成的功能模块。所述语料标签确定装置20中的各个程序段的程序代码可以存储于存储器中,并由至少一个处理器所执行,以执行自动确定语料的标签。
本实施例中,所述语料标签确定装置20根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:选取模块21、划分模块22、提取模块23、第一标签确定模块24及第二标签确定模块25。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。
所述选取模块21,用于选取语料库中一待确定标签的语料,所述语料为具有结构层次的语料。
所述选取语料库中一待确定标签的语料可为根据给语料确定标签的请求自动随机选取语料库中一待确定标签的语料或者选取语料库中一特定的待确定标签的语料。所述语料库中一特定的待确定标签的语料可为语料库中位于第一位的待确定标签的语料、语料库中位于最后一位的待确定标签的语料、或者语料库中最新新增的待确定标签的语料等。所述选取语料库中一待确定标签的语料还可为根据选择语料库中一待确定标签的语料的操作选取一待确定标签的语料。所述具有结构层次的语料为具有结构层次的法律文书等,例如具有结构层次的合同,所述合同的结构层次为“章-节-小节-小小节”,其中,章“1”、“2”及“3”为一级标题、节“1.1”、“1.2”、“2.1”及“2.2”为二级标题、小节“1.1.1”、“1.1.2”、“1.2.1”及“1.2.2”为三级标题、小小节“1.1.1.1”、“1.1.1.2”及“1.1.1.3”为四级标题。
所述划分模块22,用于将选取的待确定标签的语料按照结构层次划分为多个组成部分。
所述将选取的待确定标签的语料按照结构层次划分为多个组成部分可为例如:
当待确定标签的语料的结构层次为:章“1”、“2”及“3”为一级标题、节“1.1”、“1.2”、“2.1”及“2.2”为二级标题、小节“1.1.1”、“1.1.2”、“1.2.1”及“1.2.2”为三级标题、小小节“1.1.1.1”、“1.1.1.2”及“1.1.1.3”为四级标题时,所述待确定标签的语料划分为组成部分:
章“1”、章“2”、章“3”、节“1.1”、节“1.2”、节“2.1”、节“2.2”、小节“1.1.1”、小节“1.1.2”、小节“1.2.1”、小节“1.2.2”、小小节“1.1.1.1”、小小节“1.1.1.2”及小小节“1.1.1.3”;
其中,章“1”包括章“1”、节“1.1”、节“1.2”、小节“1.1.1”、小节“1.1.2”、小节“1.2.1”、小节“1.2.2”、小小节“1.1.1.1”、小小节“1.1.1.2”及小小节“1.1.1.3”的内容,章“2”包括章“2”、节“2.1”、及节“2.2”的内容,及章“3”包括章“3”的内容;
节“1.1”包括节“1.1”、小节“1.1.1”、小节“1.1.2”、小小节“1.1.1.1”、小小节“1.1.1.2”及小小节“1.1.1.3”的内容,节“1.2”包括节“1.2”、小节“1.2.1”及小节“1.2.2”的内容,节“2.1”包括节“2.1”的内容,节“2.2”包括节“2.2”的内容;
小节“1.1.1”包括小节“1.1.1”、小小节“1.1.1.1”、小小节“1.1.1.2”及小小节“1.1.1.3”的内容;
小小节“1.1.1.1”包括小小节“1.1.1.1”的内容、小小节“1.1.1.2”包括小小节“1.1.1.2”的内容及小小节“1.1.1.3”包括小小节“1.1.1.3”的内容。
所述提取模块23,用于提取各个组成部分的第一预设数量的关键词和第二预设数量的关键词。
在本实施例中,所述第一预设数量小于所述第二预设数量。所述提取各个组成部分的第一预设数量的关键词和第二预设数量的关键词可为通过TFIDF技术、高维聚类技术等提取各个组成部分的第一预设数量的关键词和第二预设数量的关键词。其中,TFIDF技术及高维聚类技术为现有技术,在此不进行赘述。
所述第一标签确定模块24,用于确定各第一预设数量的关键词为选取的待确定标签的语料的对应组成部分的标签。
所述确定各第一预设数量的关键词为选取的待确定标签的语料的对应组成部分的标签包括:将各第一预设数量的关键词分别组合;确定各组合后的第一预设数量的关键词为选取的待确定标签的语料的对应组成部分的标签。所述组合可为依序组合或者随机组合。确定各第一预设数量的关键词为选取的待确定标签的语料的对应组成部分的标签可为例如:当第一组成部分的第一预设数量的关键词为欠款、同意及付款,第二组成部分的第一预设数量的关键词为材料、设计及图纸,则所述第一组成部分的标签为欠款同意付款,所述第二组成部分的标签为材料设计图纸。在本实施例中,所述第一标签确定模块24还用于:建立第二预设数量的关键词与标签的映射关系。例如,第一组成部分的标签为欠款同意付款,第一组成部分的第二预设数量的关键词为欠款、同意、付款及失效,则建立欠款、同意、付款及失效,与欠款同意付款的映射关系。
所述第二标签确定模块25,用于确定所述语料库中其他待确定标签的语料的标签,其中,仅若确定所述语料库中当前待确定标签的语料的所有标签后,根据已确定的所有语料的所有标签和已确定的所有语料的所有第二预设数量的关键词确定所述语料库中下一个待确定标签的语料的标签。
在本实施例中,若待确定标签的语料确定标签后为已确定的语料。若当前为确定选取的第一个待确定标签的语料的标签,当前待确定标签的语料为选取的第一个待确定标签的语料,所述已确定的所有语料为已确定的一语料;若当前为确定选取的第N个待确定标签的语料的标签,当前待确定标签的语料为选取的第N个待确定标签的语料,所述已确定的所有语料为已确定的N个语料,其中N为大于1的整数。确定所述语料库中当前待确定标签的语料的所有标签为确定所述语料库中当前待确定标签的语料的所有组成部分的标签。
仅若确定所述语料库中当前待确定标签的语料的所有标签后,根据已确定的所有语料的所有标签和已确定的所有语料的所有第二预设数量的关键词确定所述语料库中下一个待确定标签的语料的标签包括:
a1:选取所述语料库中另一待确定标签的语料。
a2:将选取的另一待确定标签的语料按照结构层次划分为多个组成部分。
a3:以已确定的所有语料的所有第二预设数量的关键词为模板确定选取的另一待确定标签的语料的组成部分中是否存在与一模板匹配的词。
在本实施例中,若仅确定完一语料的标签,所述已确定的所有语料的所有第二预设数量的关键词为所述已确定的一语料的所有第二预设数量的关键词,若已确定N个语料的标签,所述已确定的所有语料的所有第二预设数量的关键词为所述已确定的N个语料的所有第二预设数量的关键词。
所述确定选取的另一待确定标签的语料的组成部分中是否存在与一模板匹配的词包括:确定选取的另一待确定标签的语料的组成部分中是否同时存在与一第二预设数量的关键词相同的词。其中,所述同时存在可为连续存在或者间隔存在。所述相同的词可包括实质相同和完全相同。例如:所述模板包括:欠款、同意、付款及失效,妈妈、明天、医院及胃病,则确定组成部分中是否同时存在与欠款、同意、付款及失效或者妈妈、明天、医院及胃病相同的词。
a4:若确定选取的另一待确定标签的语料的组成部分中存在与一模板匹配的词,根据第二预设数量的关键词与标签的映射关系确定所述组成部分的标签为所述第二预设数量的关键词对应的标签。
所述确定选取的另一待确定标签的语料的组成部分中存在与一模板匹配的词包括:确定选取的另一待确定标签的语料的组成部分中同时存在与一第二预设数量的关键词相同的词。其中,所述同时存在可为连续存在或者间隔存在。所述相同的词可包括实质相同和完全相同。例如:若某模板为妈妈、明天、医院及胃病,某组成部分中间隔存在词:妈妈、词:明天、词:医院及词:胃病,确定所述组成部分中存在与一模板匹配的词。
若确定选取的另一待确定标签的语料的组成部分中存在与一模板匹配的词,根据第二预设数量的关键词与标签的映射关系确定所述组成部分的标签为所述第二预设数量的关键词对应的标签可为例如:
若确定组成部分中存在与一模板匹配的词:妈妈、词:明天、词:医院及词:胃病,第二预设数量的关键词与标签的映射关系为:妈妈、明天、医院及胃病与妈妈明天医院的映射关系,则确定所述组成部分的标签为:妈妈明天医院。
在本实施例中,为了避免模板中不存在待确定标签的语料中的关键词所导致的对部分语料漏掉确定标签的问题,所述第二标签确定模块25还用于:
b1:若确定选取的另一待确定标签的语料的组成部分中不存在与任一模板匹配的词,提取选取的另一待确定标签的语料的未确定标签的各个组成部分的所述第一预设数量的关键词和所述第二预设数量的关键词。
所述确定选取的另一待确定标签的语料的组成部分中不存在与任一模板匹配的词包括:确定选取的另一待确定标签的语料的组成部分中不同时存在与任一第二预设数量的关键词相同的词。其中,所述同时存在可为连续存在或者间隔存在。所述相同的词可包括实质相同和完全相同。所述提取未确定标签的各个组成部分的所述第一预设数量的关键词和所述第二预设数量的关键词可为通过TFIDF技术、高维聚类技术等提取未确定标签的各个组成部分的所述第一预设数量的关键词和所述第二预设数量的关键词。其中,TFIDF技术及高维聚类技术为现有技术,在此不进行赘述。
b2:确定选取的另一待确定标签的语料的未确定标签的各个组成部分的各第一预设数量的关键词为选取的另一待确定标签的语料的未确定标签的对应组成部分的标签。
所述确定选取的另一待确定标签的语料的未确定标签的各个组成部分的各第一预设数量的关键词为选取的另一待确定标签的语料的未确定标签的对应组成部分的标签包括:将选取的另一待确定标签的语料的未确定标签的各个组成部分的各第一预设数量的关键词分别组合;确定各组合后的第一预设数量的关键词为选取的另一待确定标签的语料的未确定标签的对应组成部分的标签。
从而,本方案通过先确定一待确定标签的语料的标签,再根据已确定的语料的标签及第二预设数量的关键词确定下一个待确定标签的语料的标签,当所述下一个待确定标签的语料中部分组成部分不存在与任一第二预设数量的关键词匹配的词时,通过确定部分组成部分的关键词来确定对应的标签,并同样依次逐个地确定所述语料库中的其他待确定标签的语料的标签。
本发明实施例二通过选取模块选取语料库中一待确定标签的语料,所述语料为具有结构层次的语料;划分模块将选取的待确定标签的语料按照结构层次划分为多个组成部分;提取模块提取各个组成部分的第一预设数量的关键词和第二预设数量的关键词;第一标签确定模块确定各第一预设数量的关键词为选取的待确定标签的语料的对应组成部分的标签;第二标签确定模块确定所述语料库中其他待确定标签的语料的标签,其中,仅若确定所述语料库中当前待确定标签的语料的所有标签后,根据已确定的所有语料的所有标签和已确定的所有语料的所有第二预设数量的关键词确定所述语料库中下一个待确定标签的语料的标签。本发明实施例二对语料库中一待确定标签的语料进行分级来确定多个组成部分,并确定每个组成部分的标签,从而可覆盖整个待确定标签的语料,不会遗漏任何语料内容;并通过先确定一待确定标签的语料的标签,再根据已确定的语料的标签及第二预设数量的关键词确定下一个待确定标签的语料的标签,并同样依次逐个地确定所述语料库中的其他待确定标签的语料的标签直至确定所述语料库中的所有待确定标签的语料。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台电子设备或处理器(processor)执行本发明各个实施例所述方法的部分。
实施例三
图3为本发明实施例三提供的电子设备的示意图。
所述电子设备3包括:存储器31、至少一个处理器32、及存储在所述存储器31中并可在所述至少一个处理器32上运行的计算机程序33。所述至少一个处理器32执行所述计算机程序33时实现上述方法实施例中的步骤。或者,所述至少一个处理器32执行所述计算机程序33时实现上述装置实施例中的各模块的功能。
示例性的,所述计算机程序33可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器31中,并由所述至少一个处理器32执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序33在所述电子设备3中的执行过程。例如,所述计算机程序33可以被分割成图2所示的模块,各模块具体功能参见实施例二。
所述电子设备3可以为任何一种电子产品,例如,个人计算机、平板电脑、智能手机、个人数字助理(Personal Digital Assistant,PDA)等。本领域技术人员可以理解,所述示意图3仅是电子设备3的示例,并不构成对电子设备3的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述电子设备3还可以包括输入输出设备、网络接入设备、总线等。
所述至少一个处理器32可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。所述处理器32可以是微处理器或者该处理器32也可以是任何常规的处理器等,所述处理器32是所述电子设备3的控制中心,利用各种接口和线路连接整个电子设备3的各个部分。
所述存储器31可用于存储所述计算机程序33和/或模块/单元,所述处理器32通过运行或执行存储在所述存储器31内的计算机程序和/或模块/单元,以及调用存储在存储器31内的数据,实现所述电子设备3的各种功能。所述存储器31可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备3的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器31可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
所述电子设备3集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
在本发明所提供的几个实施例中,应该理解到,所揭露的电子设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅是示意性的,例如,所述单元的划分,仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
另外,在本发明各个实施例中的各功能单元可以集成在相同处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在相同单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神范围。

Claims (8)

1.一种语料标签确定方法,其特征在于,所述方法包括:
选取语料库中一待确定标签的语料,所述语料为具有结构层次的语料;
将选取的待确定标签的语料按照结构层次划分为多个组成部分;
提取各个组成部分的第一预设数量的关键词和第二预设数量的关键词;
确定各第一预设数量的关键词为选取的待确定标签的语料的对应组成部分的标签;
确定所述语料库中其他待确定标签的语料的标签,其中,仅若确定所述语料库中当前待确定标签的语料的所有标签后,根据已确定的所有语料的所有标签和已确定的所有语料的所有第二预设数量的关键词确定所述语料库中下一个待确定标签的语料的标签;
若当前为确定选取的第一个待确定标签的语料的标签,当前待确定标签的语料为选取的第一个待确定标签的语料,所述已确定的所有语料为已确定的一语料;
若当前为确定选取的第N个待确定标签的语料的标签,当前语料为选取的第N个待确定标签的语料,所述已确定的所有语料为已确定的N个语料,其中N为大于1的整数;
所述方法还包括:
建立第二预设数量的关键词与标签的映射关系;
仅若确定所述语料库中当前待确定标签的语料的所有标签后,根据已确定的所有语料的所有标签和已确定的所有语料的所有第二预设数量的关键词确定所述语料库中下一个待确定标签的语料的标签包括:
选取所述语料库中另一待确定标签的语料;
将选取的另一待确定标签的语料按照结构层次分为多个组成部分;
以已确定的所有语料的所有第二预设数量的关键词为模板确定选取的另一待确定标签的语料的组成部分中是否存在与一模板匹配的词;
若确定选取的另一待确定标签的语料的组成部分中不存在与任一模板匹配的词,提取选取的另一待确定标签的语料的未确定标签的各个组成部分的所述第一预设数量的关键词和所述第二预设数量的关键词;
确定选取的另一待确定标签的语料的未确定标签的各个组成部分的各第一预设数量的关键词为选取的另一待确定标签的语料的未确定标签的对应组成部分的标签。
2.如权利要求1所述的语料标签确定方法,其特征在于:
所述第一预设数量小于所述第二预设数量。
3.如权利要求1所述的语料标签确定方法,其特征在于,确定各第一预设数量的关键词为选取的待确定标签的语料的对应组成部分的标签包括:
将各第一预设数量的关键词分别组合;
确定各组合后的第一预设数量的关键词为选取的待确定标签的语料的对应组成部分的标签。
4.如权利要求1所述的语料标签确定方法,其特征在于,所述方法还包括:
若确定选取的另一待确定标签的语料的组成部分中存在与一模板匹配的词,根据所述第二预设数量的关键词与标签的映射关系确定所述组成部分的标签为所述第二预设数量的关键词对应的标签。
5.如权利要求1所述的语料标签确定方法,其特征在于,所述确定选取的另一待确定标签的语料的组成部分中是否存在与一模板匹配的词包括:
确定选取的另一待确定标签的语料的组成部分中是否同时存在与一第二预设数量的关键词相同的词。
6.一种语料标签确定装置,其特征在于,所述装置用于实现如权利要求1至5中任意一项所述的语料标签确定方法,所述装置包括:
选取模块,用于选取语料库中一待确定标签的语料,所述语料为具有结构层次的语料;
划分模块,用于将选取的待确定标签的语料按照结构层次划分为多个组成部分;
提取模块,用于提取各个组成部分的第一预设数量的关键词和第二预设数量的关键词;
第一标签确定模块,用于确定各第一预设数量的关键词为选取的待确定标签的语料的对应组成部分的标签;
第二标签确定模块,用于确定所述语料库中其他待确定标签的语料的标签,其中,仅若确定所述语料库中当前待确定标签的语料的所有标签后,根据已确定的所有语料的所有标签和已确定的所有语料的所有第二预设数量的关键词确定语料库中下一个待确定标签的语料的标签。
7.一种电子设备,其特征在于,所述电子设备包括处理器及存储器,所述处理器用于执行所述存储器中存储的至少一个指令时实现如权利要求1至5中任意一项所述的语料标签确定方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有至少一个指令,所述至少一个指令被处理器执行以实现如权利要求1至5中任意一项所述的语料标签确定方法。
CN201910173147.3A 2019-03-07 2019-03-07 语料标签确定方法、装置、电子设备及存储介质 Active CN110069595B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910173147.3A CN110069595B (zh) 2019-03-07 2019-03-07 语料标签确定方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910173147.3A CN110069595B (zh) 2019-03-07 2019-03-07 语料标签确定方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN110069595A CN110069595A (zh) 2019-07-30
CN110069595B true CN110069595B (zh) 2023-11-07

Family

ID=67366082

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910173147.3A Active CN110069595B (zh) 2019-03-07 2019-03-07 语料标签确定方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN110069595B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113312898B (zh) * 2020-02-26 2024-03-01 深信服科技股份有限公司 语料处理方法、设备、存储介质及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016057989A (ja) * 2014-09-11 2016-04-21 Kddi株式会社 情報提供装置、情報を提供する方法およびプログラム
CN106528531A (zh) * 2016-10-31 2017-03-22 北京百度网讯科技有限公司 基于人工智能的意图分析方法及装置
CN108062377A (zh) * 2017-12-12 2018-05-22 百度在线网络技术(北京)有限公司 标签图片集的建立、标签的确定方法、装置、设备及介质
CN108121700A (zh) * 2017-12-21 2018-06-05 北京奇艺世纪科技有限公司 一种关键词提取方法、装置及电子设备
JP2018097468A (ja) * 2016-12-09 2018-06-21 日本電信電話株式会社 文分類学習装置、文分類装置、文分類学習方法、及び文分類学習プログラム
CN108197101A (zh) * 2017-12-19 2018-06-22 浪潮软件股份有限公司 一种语料标注方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016057989A (ja) * 2014-09-11 2016-04-21 Kddi株式会社 情報提供装置、情報を提供する方法およびプログラム
CN106528531A (zh) * 2016-10-31 2017-03-22 北京百度网讯科技有限公司 基于人工智能的意图分析方法及装置
JP2018097468A (ja) * 2016-12-09 2018-06-21 日本電信電話株式会社 文分類学習装置、文分類装置、文分類学習方法、及び文分類学習プログラム
CN108062377A (zh) * 2017-12-12 2018-05-22 百度在线网络技术(北京)有限公司 标签图片集的建立、标签的确定方法、装置、设备及介质
CN108197101A (zh) * 2017-12-19 2018-06-22 浪潮软件股份有限公司 一种语料标注方法及装置
CN108121700A (zh) * 2017-12-21 2018-06-05 北京奇艺世纪科技有限公司 一种关键词提取方法、装置及电子设备

Also Published As

Publication number Publication date
CN110069595A (zh) 2019-07-30

Similar Documents

Publication Publication Date Title
CN111581976B (zh) 医学术语的标准化方法、装置、计算机设备及存储介质
CN104978310B (zh) 基于各种意思类别的翻译结果的提供方法及系统
US11977589B2 (en) Information search method, device, apparatus and computer-readable medium
CN109992752B (zh) 合同文件的标签标记方法、装置、计算机装置及存储介质
WO2021063089A1 (zh) 规则匹配方法、规则匹配装置、存储介质及电子设备
TWI745777B (zh) 資料歸檔方法、裝置、電腦裝置及存儲媒體
CN110069594B (zh) 合同确认方法、装置、电子设备及存储介质
CN110263345B (zh) 关键词提取方法、装置及存储介质
CN105260396A (zh) 字词检索方法和装置
CN110069595B (zh) 语料标签确定方法、装置、电子设备及存储介质
CN111813903A (zh) 一种问句匹配方法和计算设备
CN114297143A (zh) 一种搜索文件的方法、显示文件的方法、装置及移动终端
CN110413757B (zh) 一种词语释义确定方法、装置及系统
CN112422754A (zh) 智能语音的配置方法、装置、终端设备及存储介质
CN112183181A (zh) 一种信息展示方法
CN109101630B (zh) 一种应用程序搜索结果的生成方法、装置及设备
CN110888940A (zh) 文本信息提取方法、装置、计算机设备及存储介质
CN116860747A (zh) 训练样本的生成方法、装置、电子设备及存储介质
CN113051919A (zh) 一种识别命名实体的方法和装置
CN106951434B (zh) 一种用于搜索引擎的搜索方法、装置及可编程设备
CN112989011B (zh) 数据查询方法、数据查询装置和电子设备
CN113590792A (zh) 用户问题的处理方法、装置和服务器
CN114528824A (zh) 文本纠错方法、装置、电子设备及存储介质
US11106864B2 (en) Comment-based article augmentation
CN112488557A (zh) 一种基于评分标准客观分的自动计算方法、装置、终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant