CN105243052A - 一种语料标注方法、装置和系统 - Google Patents
一种语料标注方法、装置和系统 Download PDFInfo
- Publication number
- CN105243052A CN105243052A CN201510585489.8A CN201510585489A CN105243052A CN 105243052 A CN105243052 A CN 105243052A CN 201510585489 A CN201510585489 A CN 201510585489A CN 105243052 A CN105243052 A CN 105243052A
- Authority
- CN
- China
- Prior art keywords
- language material
- word
- dictionary
- application server
- sub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 36
- 239000000463 material Substances 0.000 claims description 237
- 239000012634 fragment Substances 0.000 claims description 113
- 230000008878 coupling Effects 0.000 claims description 50
- 238000010168 coupling process Methods 0.000 claims description 50
- 238000005859 coupling reaction Methods 0.000 claims description 50
- 238000000034 method Methods 0.000 claims description 43
- 230000002093 peripheral effect Effects 0.000 claims description 19
- 230000015572 biosynthetic process Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000005194 fractionation Methods 0.000 description 2
- 230000013011 mating Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Abstract
本发明提供一种语料标注方法、装置和系统,该语料标注方法,包括:确定并加载数据词典,按照语料类型,对所述数据词典进行拆分,形成各个子语料词典,并将每一个子语料词典分配给对应的应用服务器;确定目标语句;控制每一个应用服务器中当前应用服务器执行根据该当前服务器对应的子语料词典,对所述目标语句进行实体词的匹配;判断所述目标语句匹配后的各个实体词中第一实体词是否包含第二实体词,如果是,则只保留所述第一实体词,并对所述第一实体词进行标注;否则,分别对所述第一实体词和所述第二实体词进行标注,有效地提高了自动标注效率。
Description
技术领域
本发明涉及计算机领域,特别涉及一种语料标注方法、装置和系统。
背景技术
对于当前的互联网大数据时代来说,数据的重要性不言而喻,其中,自然语言处理是理解数据的重要技术,而在自然语言处理需要对语料进行标注。现有的语料标注方法主要分为两类,一类是由专职标注员对语料进行标注,由于需要标注的语料众多,人工进行语料标注效率较低。另一类是借助语料词典采用标注服务器对语料进行自动标注,虽然相较于人工标注,该自动标注一定程度上提高了标注效率,但是随着语料词典的扩充,该语料词典占用内存增加,导致自动标注效率降低。
发明内容
本发明提供一种语料标注方法、装置和系统,从而提高自动标注效率。
一种语料标注方法,确定并加载数据词典,按照语料类型,对所述数据词典进行拆分,形成各个子语料词典,并将每一个子语料词典分配给对应的应用服务器;还包括:
确定目标语句;
控制每一个应用服务器中当前应用服务器执行根据该当前服务器对应的子语料词典,对所述目标语句进行实体词的匹配;
判断所述目标语句匹配后的各个实体词中第一实体词是否包含第二实体词,如果是,则只保留所述第一实体词,并对所述第一实体词进行标注;否则,分别对所述第一实体词和所述第二实体词进行标注。
优选地,上述方法进一步包括:设置语料片段阈值;
在所述形成各个子语料词典之后,在所述确定目标语句之前,进一步包括:根据所述语料片段阈值,将每一个子语料词典分为各个语料片段;
所述将每一个子语料词典分配给对应的应用服务器包括:将所述各个语料片段中每一个语料片段分配给对应的应用服务器;
所述控制每一个应用服务器中当前应用服务器执行根据所述各个子语料词典,对所述目标语句进行实体词的匹配,包括:控制每一个应用服务器,执行根据分配的语料片段,对所述目标语句进行实体词的匹配。
优选地,在所述控制每一个应用服务器,执行根据分配的语料片段,对所述目标语句进行实体词的匹配之后,在所述判断目标语句匹配后的各个实体词中第一实体词是否包含第二实体词之前,进一步包括:
对于所述每一个应用服务器,控制当前应用服务器输出当前应用服务器中的语料片段对应的key-value对,其中,key表征目标语句,value表征当前应用服务器中的语料片段对应的实体词;
将每一个子语料词典中当前子语料词典对应的各个语料片段对应的key-value对合并,为所述当前子语料词典形成与目标语句对应的实体词集合;
所述判断目标语句中匹配后的各个实体词中第一实体词是否包含第二实体词,包括:判断所有实体词集合中的第一实体词是否包含第二实体词。
优选地,上述方法进一步包括:接收对标注后的实体词的修订,并根据修订后的实体词的类型,将所述修订后的实体词添加到相应类型的子语料词典中。
优选地,所述确定数据词典,包括:确定一行一词的文本文件,利用双数组Trie树加载所述文本文件,构建数据词典。
优选地,所述各个子语料词典,包括:
人名子语料词典、地名子语料词典和机构名子语料词典中的任意一个或多个。
一种语料标注的装置,包括:
生成单元,用于确定并加载数据词典,按照语料类型,对所述数据词典进行拆分,生成各个子语料词典;
分配单元,用于将所述生成单元生成的各个子语料词典中每一个子语料词典分配给对应的外设的应用服务器;
控制匹配单元,用于确定目标语句,控制外设的每一个应用服务器中当前应用服务器执行根据该当前服务器对应的子语料词典,对所述目标语句进行实体词的匹配;
标注单元,用于判断所述目标语句匹配后的各个实体词中第一实体词是否包含第二实体词,如果是,则只保留所述第一实体词,并对所述第一实体词进行标注;否则,分别对所述第一实体词和所述第二实体词进行标注。
优选地,上述装置进一步包括:设置单元,其中,
所述设置单元,用于设置语料片段阈值;
所述生成单元,进一步用于根据所述设置单元设置的所述语料片段阈值,将每一个子语料词典分为各个语料片段;
所述分配单元,用于将所述各个语料片段中每一个语料片段分配给对应的外设的应用服务器;
所述控制匹配单元,用于控制外设的每一个应用服务器执行根据分配的语料片段,对所述目标文本中的每一个语句进行实体词的匹配。
优选地,上述装置进一步包括:控制输出单元和合并单元,其中,
所述控制输出单元,用于对于所述外设的每一个应用服务器,控制外设的当前应用服务器输出该当前应用服务器中的语料片段对应的key-value对,其中,key表征目标语句,value表征当前应用服务器中的语料片段对应的实体词;
所述合并单元,用于将所述控制输出单元输出的每一个子语料词典中当前子语料词典对应的各个语料片段对应的key-value对合并,为所述当前子语料词典形成与目标语句对应的实体词集合;
所述标注单元,用于判断所述合并单元形成的所有实体词集合中的第一实体词是否包含第二实体词。
优选地,上述装置进一步包括:修订单元,用于接收对所述标注单元标注后的实体词的修订,并根据修订后的实体词的类型,将所述修订后的实体词添加到相应类型的子语料词典中。
优选地,所述生成单元,用于确定一行一词的文本文件,利用双数组Trie树加载所述文本文件,构建数据词典。
一种语料标注系统,包括:上述任一所述的语料标注装置和至少两个应用服务器;其中,
所述至少两个应用服务器,用于接收所述语料标注装置的控制,对所述目标语句进行实体词的匹配。
本发明实施例提供了一种语料标注方法、装置和系统,该语料标注方法,包括:确定并加载数据词典,按照语料类型,对所述数据词典进行拆分,形成各个子语料词典,并将每一个子语料词典分配给对应的应用服务器;确定目标语句;控制每一个应用服务器中当前应用服务器执行根据该当前服务器对应的子语料词典,对所述目标语句进行实体词的匹配;判断所述目标语句匹配后的各个实体词中第一实体词是否包含第二实体词,如果是,则只保留所述第一实体词,并对所述第一实体词进行标注;否则,分别对所述第一实体词和所述第二实体词进行标注。本发明的方法对数据词典进行了拆分,使拆分后的各个子语料词典可以运行在不同的应用服务器中,一方面减小了应用服务器的运行负担,另一方面各个应用服务器可同时为实体词进行匹配,从而有效的提高了自动标注效率。
附图说明
图1为本发明实施例提供的一种语料标注方法的流程图;
图2为本发明另一实施例提供的一种语料标注方法的流程图;
图3为本发明实施例对目标语句标注实体词过程的流程图;
图4为本发明实施例提供的一种语料标注装置的结构示意图;
图5为本发明实施例提供的一种语料标注系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供一种语料标注方法,该方法可以包括如下步骤:
步骤101:确定并加载数据词典,按照语料类型,对数据词典进行拆分,形成各个子语料词典,将每一个子语料词典分配给对应的应用服务器;
步骤102:确定目标语句;
步骤103:控制每一个应用服务器中当前应用服务器执行根据该当前服务器对应的子语料词典,对目标语句进行实体词的匹配;
步骤104:判断目标语句匹配后的各个实体词中第一实体词是否包含第二实体词,如果是,则执行步骤105;否则,执行步骤106;
步骤105:只保留第一实体词,并对第一实体词进行标注,结束当前流程。
步骤106:分别对第一实体词和第二实体词进行标注。
在本发明一个实施例中,为了进一步通过提高应用服务器的运行速率,本发明方法进一步包括:设置语料片段阈值;在步骤101中形成各个子语料词典之后,在步骤102之前,进一步包括:根据语料片段阈值,将每一个子语料词典分为各个语料片段;步骤101中所述将每一个子语料词典分配给对应的应用服务器的具体实施方式:将所述各个语料片段中每一个语料片段分配给对应的应用服务器;步骤103的具体实施方式:控制每一个应用服务器,执行根据分配的语料片段,对所述目标语句进行实体词的匹配,与单机匹配相比,多个应用服务器进行实体词匹配,可有效地提高目标语句中实体词的匹配效率。
在本发明一个实施例中,为了减少语料片断形成的实体词对所占用的内存,步骤103之后,在步骤104之前,进一步包括:对于所述每一个应用服务器,控制当前应用服务器输出当前应用服务器中的语料片段对应的key-value对,其中,key表征目标语句,value表征当前应用服务器中的语料片段对应的实体词;将每一个子语料词典中当前子语料词典对应的各个语料片段对应的key-value对合并,为所述当前子语料词典形成与目标语句对应的实体词集合;步骤104的具体实施方式:判断所有实体词集合中的第一实体词是否包含第二实体词。
在本发明一个实施例中,为了进一步提高实体词标注的准确率,本发明实施例所述方法,进一步包括:接收对标注后的实体词的修订,并根据修订后的实体词的类型,将所述修订后的实体词添加到相应类型的子语料词典中。
在本发明一个实施例中,为了能够使文本文件类的词典应用于本发明实施例中,并加速数据词典的构建速度,步骤101中确定数据词典的具体实施方式:确定一行一词的文本文件,利用双数组Trie树加载所述文本文件,构建数据词典。
在本发明一个实施例中,为了能够使本发明方法用于专用语料标注,本发明所述各个子语料词典,包括:人名子语料词典、地名子语料词典和机构名子语料词典中的任意一个或多个。
如图2所示,本发明另一实施例提供一种语料标注方法,该方法可以包括如下步骤:
步骤200:设置语料片段阈值,确定一行一词的文本文件,利用双数组Trie树加载所述文本文件,构建数据词典;
一般程序加载数据词典文件会消耗很大的内存,如果将一个数据词典分成多个语料片段,将该多个语料片段加载到多个服务器中,则可以很大程度的节省内存消耗,那么,控制语料片段的大小则通过设置的语料片段阈值来实现。例如:如果将该方法应用在hadoop平台时,则该hadoop平台中应用服务器的split值一般不大于5M,则对于hadoop平台中的服务器,可以设置语料片段阈值小于等于5M。
数据词典中的实体词来源可以通过多方收集关于实体词的文本文件,由于该文本文件没有索引等信息不能直接作为词典进行应用,由于该双数组Trie树是搜索树的一种,其中,Trie来自英文单词"Retrieval"的简写,可以建立有效的数据检索组织结构,是中文匹配分词算法中词典的一种常见实现。则,在该步骤中,通过双数组Trie树可以实现加载文本文件,构建数据词典。
步骤201:按照语料类型,对数据词典进行拆分,形成各个子语料词典;
在本发明实施例中,为了能够实现对专用语料的标注,例如:本发明实施例可以将数据词典拆分成三个子语料词典,该三个子语料词典分别为:人名子语料词典、地名子语料词典和机构名子语料词典。
步骤202:根据语料片段阈值,将每一个子语料词典分为各个语料片段;
例如:将人名子语料词典分为语料片段1、语料片段2、语料片段3;地名子语料词典分为语料片段4、语料片段5;机构名子语料词典分为语料片段6、语料片段7、语料片段8和语料片段9。
步骤203:将各个语料片段中每一个语料片段分配给对应的应用服务器;
例如:将子语料词典中,语料片段1分配给应用服务器1、语料片段2分配给应用服务器2和语料片段3分配给应用服务器3;将地名子语料词典中,语料片段4分配给应用服务器4、语料片段5分配给应用服务器5;机构名子语料词典中,语料片段6分配给应用服务器6、语料片段7分配给应用服务器7、语料片段8分配给应用服务器8和语料片段9分配给应用服务器9。
步骤204:确定目标语句;
在该步骤中所述的目标语句,可以是一个文本中的一个语句,那么,通过依次将文本中的各个语句作为目标语句,则可以实现对文本中所有语句进行实体词匹配和标注。该目标语句的数据可以是一百个字以内,且保证一个句子不要出现在两行中。例如:在一个文本中确定的目标语句为“李某某调研山东济南访问公司A”。
步骤205:控制每一个应用服务器,执行根据分配的语料片段,对目标语句进行实体词的匹配;
例如:控制应用服务器1,执行根据语料片段1,对目标语句“李某某调研山东济南访问公司A”进行实体词的匹配;控制应用服务器2,执行根据语料片段2,对目标语句“李某某调研山东济南访问公司A”进行实体词的匹配;控制应用服务器3,执行根据语料片段3,对目标语句“李某某调研山东济南访问公司A”进行实体词的匹配;……控制应用服务器9,执行根据语料片段9,对目标语句“李某某调研山东济南访问公司A”进行实体词的匹配,直至所有语料片段均对目标语句进行了匹配。
步骤206:对于每一个应用服务器,控制当前应用服务器输出当前应用服务器中的语料片段对应的key-value对;
在该步骤中,key表征目标语句,value表征当前应用服务器中的语料片段对应的实体词;
在匹配之后,语料片段1找到匹配的人名实体词“李某某”,则应用服务器1输出方式:李某某调研山东济南访问公司A-李某某,语料片段2和语料片段3并未找到匹配的人名实体词,则应用服务器2和应用服务器3的输出结果为空;语料片段4找到匹配的地名实体词“山东”,则应用服务器4输出方式:李某某调研山东济南访问公司A-山东,语料片段5找到匹配的地名实体词“济南”,则应用服务器5输出方式:李某某调研山东济南访问公司A-济南,语料片段6找到匹配的机构名实体词“公司A”,则应用服务器6输出方式:李某某调研山东济南访问公司A-公司A,语料片段7、语料片段8和语料片段9并未找到匹配的机构名实体词,则应用服务器7、应用服务器8和应用服务器9的输出结果为空;值得说明的一个语料片段匹配出的实体词可以不止一个。
步骤207:将每一个子语料词典中当前子语料词典对应的各个语料片段对应的key-value对合并,为当前子语料词典形成与目标语句对应的实体词集合;
通过该步骤,人名子语料词典对应的集合为:李某某调研山东济南访问公司A-李某某;地名子语料词典对应的集合为:李某某调研山东济南访问公司A-山东、济南;机构名子语料词典对应的集合为:李某某调研山东济南访问公司A-公司A。
步骤208:根据实体词在目标语句中的位置,判断所有实体词集合中的第一实体词是否包含第二实体词,如果是,则执行步骤209;否则,执行步骤210;
如图3所示,对于目标语句“李某某调研山东济南访问公司A”来说,通过上述步骤匹配出的人名实体词为李某某,该实体词在语句中的位置和类型记为P[0:2],其中,P表征为人名实体词;[0:2]表征从语句的第一个字开始,到第三个字结束;地名实体词为山东、济南,其中,山东在语句中的位置和类型记为L[5:6],济南在语句中的位置和类型记为L[7:8],其中,L表征为地名实体词;[5:6]表征从语句的第六个字开始,到第七个字结束;[7:8]表征从语句的第8个字开始,到第9个字结束;机构名实体词为公司A,该实体词在语句中的位置和类型记为O[11:12],其中,O表征为机构名实体词;[11:12]表征从语句的第十二个字开始,到第十三个字结束。在这个当中,P[0:2]、L[5:6]、L[7:8]以及O[11:12]互不包含,则说明各个实体词间互不包含,则执行步骤210。
又比如:对于语句“毛主席纪念堂建成”,通过上述步骤获得人名实体词为毛主席P[0:2],机构名实体词为毛主席纪念堂O[0:5],其中,[0:5]包含了[0:2],则说明O[0:5]对应的实体词包含了P[0:2]对应的实体词,则执行步骤209,只保留实体词:毛主席纪念堂O[0:5]。
步骤209:只保留第一实体词,并对第一实体词进行标注,并执行步骤211;
在进行自动标注的过程中,可以预先设定标注的方式,在本发明实施例中,事先约定的标注的方式,如下表所示:
那么,按照上表设置的标注方式,对于语句“毛主席纪念堂建成”的标注为毛B-ORG主I-ORG席I-ORG纪I-ORT念I-ORG堂I-ORG建N成N,即毛主席纪念堂作为机构名进行标注,此时,毛主席不再以人名实体词存在。
步骤210:分别对第一实体词和第二实体词进行标注;
对于语句“李某某调研山东济南访问公司A”的标注为:李B-PER某I-PER某I-PER调N研N山B-LOC东I-LOC访N问N公司A(B-ORGI-ORG)。
步骤211:接收对标注后的实体词的修订,并根据修订后的实体词的类型,将所述修订后的实体词添加到相应类型的子语料词典中。
在对语句进行步骤209和步骤210的标注过程后,这种标注可以以不同颜色的方式展现给用户,用户根据标注的颜色进行修改,例如:“毛主席纪念堂建成”中,误将毛主席作为人名进行标注,显示颜色为红色;纪念堂作为机构名进行标注,显示颜色为绿色,则,可以通过人工将毛主席的标注颜色的红色修改为绿色,并进行保存,可以实现对实体词的修改。
如图4所示,本发明实施例提供一种语料标注的装置,该装置包括:
生成单元401,用于确定并加载数据词典,按照语料类型,对所述数据词典进行拆分,生成各个子语料词典;
分配单元402,用于将生成单元401生成的各个子语料词典中每一个子语料词典分配给对应的外设的应用服务器;
控制匹配单元403,用于确定目标语句,控制外设的每一个应用服务器中当前应用服务器执行根据该当前服务器对应的子语料词典,对目标语句进行实体词的匹配;
标注单元404,用于判断目标语句匹配后的各个实体词中第一实体词是否包含第二实体词,如果是,则只保留所述第一实体词,并对所述第一实体词进行标注;否则,分别对所述第一实体词和所述第二实体词进行标注。
在本发明又一实施例中,为了提高外设的应用服务器的运行速率,上述装置进一步包括:设置单元(图中未示出),其中,
设置单元,用于设置语料片段阈值;
生成单元401,进一步用于根据设置单元设置的所述语料片段阈值,将每一个子语料词典分为各个语料片段;
分配单元402,用于将各个语料片段中每一个语料片段分配给对应的外设的应用服务器;
控制匹配单元403,用于控制外设的每一个应用服务器执行根据分配的语料片段,对目标文本中的每一个语句进行实体词的匹配。
在本发明另一实施例中,上述装置进一步包括:控制输出单元和合并单元(图中未示出),其中,
控制输出单元,用于对于所述外设的每一个应用服务器,控制外设的当前应用服务器输出该当前应用服务器中的语料片段对应的key-value对,其中,key表征目标语句,value表征当前应用服务器中的语料片段对应的实体词;
合并单元,用于将所述控制输出单元输出的每一个子语料词典中当前子语料词典对应的各个语料片段对应的key-value对合并,为所述当前子语料词典形成与目标语句对应的实体词集合;
标注单元404,用于判断所述合并单元形成的所有实体词集合中的第一实体词是否包含第二实体词。
在本发明另一实施例中,为了提高实体词匹配和标注的准确性,上述装置进一步包括:修订单元,用于接收对所述标注单元标注后的实体词的修订,并根据修订后的实体词的类型,将所述修订后的实体词添加到相应类型的子语料词典中。
在本发明又一实施例中,生成单元401,用于确定一行一词的文本文件,利用双数组Trie树加载所述文本文件,构建数据词典。
如图5所示,本发明实施例提供一种语料标注系统,该系统包括:上述任意一种语料标注装置501和至少两个应用服务器502,其中,
至少两个应用服务器502,用于接收所述语料标注装置的控制,对所述目标语句进行实体词的匹配。
本发明实施例提供的方案,至少能够达到如下有益效果:
1.确定并加载数据词典,按照语料类型,对所述数据词典进行拆分,形成各个子语料词典,并将每一个子语料词典分配给对应的应用服务器;确定目标语句;控制每一个应用服务器中当前应用服务器执行根据该当前服务器对应的子语料词典,对所述目标语句进行实体词的匹配;判断所述目标语句匹配后的各个实体词中第一实体词是否包含第二实体词,如果是,则只保留所述第一实体词,并对所述第一实体词进行标注;否则,分别对所述第一实体词和所述第二实体词进行标注。本发明的方法对数据词典进行了拆分,使拆分后的各个子语料词典可以运行在不同的应用服务器中,一方面减小了应用服务器的运行负担,另一方面各个应用服务器可同时为实体词进行匹配,从而有效的提高了自动标注效率。
2.根据语料片段阈值,将每一个子语料词典分为各个语料片段,并将各个语料片段中每一个语料片段分配给对应的应用服务器,这一过程每一个预料片段的大小将远远小于数据词典的大小,避免了由于词典过大导致的应用服务器运行减慢,在为语料片段分配了对应的应用服务器之后,可以控制每一个应用服务器,执行根据分配的语料片段,对目标语句进行实体词的匹配。与现有的单机匹配相比,这一过程进一步有效的提高了实体词的匹配效率。
3.对于每一个应用服务器,控制当前应用服务器输出当前应用服务器中的语料片段对应的key-value对,其中,key表征目标语句,value表征当前应用服务器中的语料片段对应的实体词;将每一个子语料词典中当前子语料词典对应的各个语料片段对应的key-value对合并,为所述当前子语料词典形成与目标语句对应的实体词集合;通过建立实体词集合,一方面可以按照子语料词典对value进行分类,使各种类型包含的实体词更加清晰;另一方面可以减小各个key-value对组合所占用的空间,例如:5个key-value对形成实体词集合为key-value1,value2,value3,value4,value5,该过程节省了4个key,可一定程度上节省服务器的开支。
4.接收对标注后的实体词的修订,并根据修订后的实体词的类型,将修订后的实体词添加到相应类型的子语料词典中,在后续标注过程中,该新添加的实体词可以应用于实体词的匹配和标注,通过不断修订实体词,更新语料词典,可以有效地提高实体词匹配和标注的准确率。
5.本发明实施例通过双数组Trie树加载一行一词的文本文件,构建数据词典,该过程所用的文本文件可以直接从网络中获取到,通过双数组Trie树来构建数据词典,可以使数据词典架构更加清晰,另外通过本发明实施例构建出专用语料词典,能够实现对专用语料标注。
需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个〃〃〃〃〃〃”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (10)
1.一种语料标注方法,其特征在于,确定并加载数据词典,按照语料类型,对所述数据词典进行拆分,形成各个子语料词典,并将每一个子语料词典分配给对应的应用服务器;还包括:
确定目标语句;
控制每一个应用服务器中当前应用服务器执行根据该当前服务器对应的子语料词典,对所述目标语句进行实体词的匹配;
判断所述目标语句匹配后的各个实体词中第一实体词是否包含第二实体词,如果是,则只保留所述第一实体词,并对所述第一实体词进行标注;否则,分别对所述第一实体词和所述第二实体词进行标注。
2.根据权利要求1所述的方法,其特征在于,
进一步包括:设置语料片段阈值;
在所述形成各个子语料词典之后,在所述确定目标语句之前,进一步包括:根据所述语料片段阈值,将每一个子语料词典分为各个语料片段;
所述将每一个子语料词典分配给对应的应用服务器包括:将所述各个语料片段中每一个语料片段分配给对应的应用服务器;
所述控制每一个应用服务器中当前应用服务器执行根据所述各个子语料词典,对所述目标语句进行实体词的匹配,包括:控制每一个应用服务器,执行根据分配的语料片段,对所述目标语句进行实体词的匹配。
3.根据权利要求2所述的方法,其特征在于,
在所述控制每一个应用服务器,执行根据分配的语料片段,对所述目标语句进行实体词的匹配之后,在所述判断目标语句匹配后的各个实体词中第一实体词是否包含第二实体词之前,进一步包括:
对于所述每一个应用服务器,控制当前应用服务器输出当前应用服务器中的语料片段对应的key-value对,其中,key表征目标语句,value表征当前应用服务器中的语料片段对应的实体词;
将每一个子语料词典中当前子语料词典对应的各个语料片段对应的key-value对合并,为所述当前子语料词典形成与目标语句对应的实体词集合;
所述判断目标语句中匹配后的各个实体词中第一实体词是否包含第二实体词,包括:判断所有实体词集合中的第一实体词是否包含第二实体词。
4.根据权利要求1所述的方法,其特征在于,
进一步包括:接收对标注后的实体词的修订,并根据修订后的实体词的类型,将所述修订后的实体词添加到相应类型的子语料词典中;
和/或,
所述确定数据词典,包括:确定一行一词的文本文件,利用双数组Trie树加载所述文本文件,构建数据词典。
5.根据权利要求1至4任一所述的方法,其特征在于,所述各个子语料词典,包括:
人名子语料词典、地名子语料词典和机构名子语料词典中的任意一个或多个。
6.一种语料标注装置,其特征在于,包括:
生成单元,用于确定并加载数据词典,按照语料类型,对所述数据词典进行拆分,生成各个子语料词典;
分配单元,用于将所述生成单元生成的各个子语料词典中每一个子语料词典分配给对应的外设的应用服务器;
控制匹配单元,用于确定目标语句,控制外设的每一个应用服务器中当前应用服务器执行根据该当前服务器对应的子语料词典,对所述目标语句进行实体词的匹配;
标注单元,用于判断所述目标语句匹配后的各个实体词中第一实体词是否包含第二实体词,如果是,则只保留所述第一实体词,并对所述第一实体词进行标注;否则,分别对所述第一实体词和所述第二实体词进行标注。
7.根据权利要求6所述的装置,其特征在于,
进一步包括:设置单元,其中,
所述设置单元,用于设置语料片段阈值;
所述生成单元,进一步用于根据所述设置单元设置的所述语料片段阈值,将每一个子语料词典分为各个语料片段;
所述分配单元,用于将所述各个语料片段中每一个语料片段分配给对应的外设的应用服务器;
所述控制匹配单元,用于控制外设的每一个应用服务器执行根据分配的语料片段,对所述目标文本中的每一个语句进行实体词的匹配。
8.根据权利要求7所述的装置,其特征在于,进一步包括:控制输出单元和合并单元,其中,
所述控制输出单元,用于对于所述外设的每一个应用服务器,控制外设的当前应用服务器输出该当前应用服务器中的语料片段对应的key-value对,其中,key表征目标语句,value表征当前应用服务器中的语料片段对应的实体词;
所述合并单元,用于将所述控制输出单元输出的每一个子语料词典中当前子语料词典对应的各个语料片段对应的key-value对合并,为所述当前子语料词典形成与目标语句对应的实体词集合;
所述标注单元,用于判断所述合并单元形成的所有实体词集合中的第一实体词是否包含第二实体词。
9.根据权利要求6所述的装置,其特征在于,
进一步包括:修订单元,用于接收对所述标注单元标注后的实体词的修订,并根据修订后的实体词的类型,将所述修订后的实体词添加到相应类型的子语料词典中;
和/或,
所述生成单元,用于确定一行一词的文本文件,利用双数组Trie树加载所述文本文件,构建数据词典。
10.一种语料标注系统,其特征在于,包括:权利要求6至9任一所述的语料标注装置和至少两个应用服务器;其中,
所述至少两个应用服务器,用于接收所述语料标注装置的控制,对所述目标语句进行实体词的匹配。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510585489.8A CN105243052A (zh) | 2015-09-15 | 2015-09-15 | 一种语料标注方法、装置和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510585489.8A CN105243052A (zh) | 2015-09-15 | 2015-09-15 | 一种语料标注方法、装置和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105243052A true CN105243052A (zh) | 2016-01-13 |
Family
ID=55040704
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510585489.8A Pending CN105243052A (zh) | 2015-09-15 | 2015-09-15 | 一种语料标注方法、装置和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105243052A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106095956A (zh) * | 2016-06-15 | 2016-11-09 | 北京智能管家科技有限公司 | 支持信息裂变查询方法及装置 |
CN106126546A (zh) * | 2016-06-15 | 2016-11-16 | 北京智能管家科技有限公司 | 级联裂变查询方法及装置 |
CN106126545A (zh) * | 2016-06-15 | 2016-11-16 | 北京智能管家科技有限公司 | 分布式的裂变查询方法及装置 |
CN107305568A (zh) * | 2016-04-21 | 2017-10-31 | 北京智能管家科技有限公司 | 分布式的级联裂变查询方法及装置 |
CN107424612A (zh) * | 2017-07-28 | 2017-12-01 | 北京搜狗科技发展有限公司 | 处理方法、装置和机器可读介质 |
CN108255857A (zh) * | 2016-12-29 | 2018-07-06 | 北京国双科技有限公司 | 一种语句检测方法及装置 |
CN108875181A (zh) * | 2018-06-07 | 2018-11-23 | 南京骐骏软件有限公司 | 一种三维模型的三维标注修订变更追踪方法 |
CN109683773A (zh) * | 2017-10-19 | 2019-04-26 | 北京国双科技有限公司 | 语料标注方法和装置 |
CN113282689A (zh) * | 2021-07-22 | 2021-08-20 | 药渡经纬信息科技(北京)有限公司 | 基于领域知识图谱的检索方法、装置和搜索引擎 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101369265A (zh) * | 2008-01-14 | 2009-02-18 | 北京百问百答网络技术有限公司 | 一种自动生成问题的语义模板的方法和系统 |
CN101510221A (zh) * | 2009-02-17 | 2009-08-19 | 北京大学 | 一种用于信息检索的查询语句分析方法与系统 |
CN101833582A (zh) * | 2010-05-04 | 2010-09-15 | 吴毓杰 | 基于模板的词汇实体关联性挖掘方法与系统 |
CN103020083A (zh) * | 2011-09-23 | 2013-04-03 | 北京百度网讯科技有限公司 | 需求识别模板的自动挖掘方法、需求识别方法及对应装置 |
CN103425714A (zh) * | 2012-05-25 | 2013-12-04 | 北京搜狗信息服务有限公司 | 一种搜索方法和系统 |
CN103577498A (zh) * | 2012-08-09 | 2014-02-12 | 北京百度网讯科技有限公司 | 一种跨语言自动构建分类规则的方法和装置 |
CN104133848A (zh) * | 2014-07-01 | 2014-11-05 | 中央民族大学 | 藏语实体知识信息抽取方法 |
CN104317846A (zh) * | 2014-10-13 | 2015-01-28 | 安徽华贞信息科技有限公司 | 一种语义分析与标注方法及系统 |
CN104391837A (zh) * | 2014-11-19 | 2015-03-04 | 熊玮 | 一种基于格语义的智能语法分析方法 |
-
2015
- 2015-09-15 CN CN201510585489.8A patent/CN105243052A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101369265A (zh) * | 2008-01-14 | 2009-02-18 | 北京百问百答网络技术有限公司 | 一种自动生成问题的语义模板的方法和系统 |
CN101510221A (zh) * | 2009-02-17 | 2009-08-19 | 北京大学 | 一种用于信息检索的查询语句分析方法与系统 |
CN101833582A (zh) * | 2010-05-04 | 2010-09-15 | 吴毓杰 | 基于模板的词汇实体关联性挖掘方法与系统 |
CN103020083A (zh) * | 2011-09-23 | 2013-04-03 | 北京百度网讯科技有限公司 | 需求识别模板的自动挖掘方法、需求识别方法及对应装置 |
CN103425714A (zh) * | 2012-05-25 | 2013-12-04 | 北京搜狗信息服务有限公司 | 一种搜索方法和系统 |
CN103577498A (zh) * | 2012-08-09 | 2014-02-12 | 北京百度网讯科技有限公司 | 一种跨语言自动构建分类规则的方法和装置 |
CN104133848A (zh) * | 2014-07-01 | 2014-11-05 | 中央民族大学 | 藏语实体知识信息抽取方法 |
CN104317846A (zh) * | 2014-10-13 | 2015-01-28 | 安徽华贞信息科技有限公司 | 一种语义分析与标注方法及系统 |
CN104391837A (zh) * | 2014-11-19 | 2015-03-04 | 熊玮 | 一种基于格语义的智能语法分析方法 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107305568A (zh) * | 2016-04-21 | 2017-10-31 | 北京智能管家科技有限公司 | 分布式的级联裂变查询方法及装置 |
CN106095956A (zh) * | 2016-06-15 | 2016-11-09 | 北京智能管家科技有限公司 | 支持信息裂变查询方法及装置 |
CN106126546A (zh) * | 2016-06-15 | 2016-11-16 | 北京智能管家科技有限公司 | 级联裂变查询方法及装置 |
CN106126545A (zh) * | 2016-06-15 | 2016-11-16 | 北京智能管家科技有限公司 | 分布式的裂变查询方法及装置 |
CN108255857A (zh) * | 2016-12-29 | 2018-07-06 | 北京国双科技有限公司 | 一种语句检测方法及装置 |
CN107424612A (zh) * | 2017-07-28 | 2017-12-01 | 北京搜狗科技发展有限公司 | 处理方法、装置和机器可读介质 |
CN109683773A (zh) * | 2017-10-19 | 2019-04-26 | 北京国双科技有限公司 | 语料标注方法和装置 |
CN108875181A (zh) * | 2018-06-07 | 2018-11-23 | 南京骐骏软件有限公司 | 一种三维模型的三维标注修订变更追踪方法 |
CN113282689A (zh) * | 2021-07-22 | 2021-08-20 | 药渡经纬信息科技(北京)有限公司 | 基于领域知识图谱的检索方法、装置和搜索引擎 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105243052A (zh) | 一种语料标注方法、装置和系统 | |
CN111274391B (zh) | 一种spo的抽取方法、装置、电子设备及存储介质 | |
Huang et al. | Rethinking chinese word segmentation: tokenization, character classification, or wordbreak identification | |
CN110597959A (zh) | 文本信息抽取方法、装置以及电子设备 | |
CN112446224A (zh) | 平行语料处理方法、装置、设备及计算机可读存储介质 | |
CN107291692A (zh) | 基于人工智能的分词模型的定制方法、装置、设备和介质 | |
US11321370B2 (en) | Method for generating question answering robot and computer device | |
CN112001366A (zh) | 模型训练方法、人脸识别方法、装置、设备和介质 | |
JP2017532704A (ja) | 知識ベースの構築方法及び装置 | |
CN106547743B (zh) | 一种进行翻译的方法及其系统 | |
CN114281968A (zh) | 一种模型训练及语料生成方法、装置、设备和存储介质 | |
CN112733551A (zh) | 文本分析方法、装置、电子设备及可读存储介质 | |
CN111061743A (zh) | 数据加工方法、装置和电子设备 | |
CN103810365A (zh) | 一种基于水电仿真培训系统自动评分的方法 | |
CN112466277B (zh) | 韵律模型训练方法、装置、电子设备及存储介质 | |
CN111339314B (zh) | 一种三元组数据的生成方法、装置和电子设备 | |
CN112328653B (zh) | 数据识别方法、装置、电子设备及存储介质 | |
CN112507098B (zh) | 问题处理方法、装置、电子设备、存储介质及程序产品 | |
CN115422628A (zh) | 一种基于提资图的机电图纸绘制方法和系统 | |
US10031930B2 (en) | Record schemas identification in non-relational database | |
Tang et al. | An optimization algorithm of Chinese word segmentation based on dictionary | |
CN112988962A (zh) | 文本纠错方法、装置、电子设备及存储介质 | |
CN103150376B (zh) | 一种行业应用软件词根表的构建方法 | |
CN113392220A (zh) | 一种知识图谱生成方法、装置、计算机设备及存储介质 | |
CN110532550A (zh) | 一种基于日志词频树的智能系统日志解析处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20160113 |