CN106155998A - 一种数据处理方法及装置 - Google Patents
一种数据处理方法及装置 Download PDFInfo
- Publication number
- CN106155998A CN106155998A CN201510165600.8A CN201510165600A CN106155998A CN 106155998 A CN106155998 A CN 106155998A CN 201510165600 A CN201510165600 A CN 201510165600A CN 106155998 A CN106155998 A CN 106155998A
- Authority
- CN
- China
- Prior art keywords
- participle
- role
- sequence
- character labeling
- vocabulary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Image Analysis (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供一种数据处理方法及装置,其中的方法可包括:获取地标文字序列,将所述地标文字序列划分为至少一个分词;将所述至少一个分词中每一个分词进行角色标注,并获得角色标注序列,所述角色标注用于指示所述分词所属的语义类别;对所述角色标注序列中的特定角色标注分词进行相应的数据处理。本发明仅对角色标注序列中的特定角色标注分词进行相应的数据处理,提高了数据处理效率,并且准确率也比较高。
Description
技术领域
本发明涉及电子技术领域,具体涉及数据处理技术领域,尤其一种数据处理方法及装置。
背景技术
在地理信息系统中,地标(Point of Interest,POI)用于标识出该地所代表的政府部门、商业机构(加油站、百货公司、超市、餐厅、酒店、便利商店、医院等)、旅游景点(公园、公共厕所等)、古迹名胜等处所。在实际的应用中,通常需要对POI文字序列进行相应的数据处理,例如对POI文字序列进行分类,或者识别POI文字序列中的主子点层次关系等等。现有技术中,实现这些数据处理时,通常首先将POI文字序列划分为多个分词,然后根据预先设定的数据处理规则进行相应的数据处理。例如在对POI文字序列进行分类时,POI文字序列为“北京协和医院南门”,将POI文字序列划分为四个分词,分别为“北京”“协和”“医院”“南门”,通常预先设定的分类数据处理规则是,根据最后一个分词进行分类,由于在“北京协和医院南门”中的最后一个分词为“南门”,因此在分类时会导致分类错误,因为实际上分词“医院”才能表明该POI文字序列的所属类别。又例如在识别POI文字序列中的主子点层次关系时,POI文字序列为“北京大学物理学院图书馆”,将POI文字序列划分为五个分词,分别为“北京”“大学”“物理”“学院”“图书馆”,则通常预先设定的层次关系识别数据处理规则是,将每一个分词进行分析,识别它们彼此之间是否存在层次关系,最后确定出“大学”“学院”“图书馆”之间存在主子点层次关系,这种识别方式效率很低,需要对每一个分词进行识别分析。因此现有技术中要么是平等对待POI文字序列中的各个分词,要么是对固定某一个位置的分词进行数据处理,由于中文博大精深,这种数据处理方式往往准确率不高,并且处理效率也比较低。
发明内容
本发明实施例提供一种数据处理方法及装置,仅对角色标注序列中的特定角色标注分词进行相应的数据处理,提高了数据处理效率,并且准确率也比较高。
本发明第一方面提供一种数据处理方法,可包括:
获取地标文字序列,将所述地标文字序列划分为至少一个分词;
将所述至少一个分词中每一个分词进行角色标注,并获得角色标注序列,所述角色标注用于指示所述分词所属的语义类别;
对所述角色标注序列中的特定角色标注分词进行相应的数据处理。
本发明第二方面提供一种数据处理装置,可包括:
划分模块,用于获取地标文字序列,将所述地标文字序列划分为至少一个分词;
标注模块,用于将所述至少一个分词中每一个分词进行角色标注,并获得角色标注序列,所述角色标注用于指示所述分词所属的语义类别;
数据处理模块,用于对所述角色标注序列中的特定角色标注分词进行相应的数据处理。
实施本发明实施例,具有如下有益效果:
本发明实施例,获取地标文字序列,将该地标文字序列划分为至少一个分词,将该至少一个分词中每一个分词进行角色标注,并获得角色标注序列,角色标注用于指示该分词所属的语义类别,对角色标注序列中的特定角色标注分词进行相应的数据处理。这种方式只对角色标注序列中的特定角色标注分词进行相应的数据处理,不需要将地标文字序列中每一个分词都进行分析处理,因此提高了数据处理效率,并且特定角色标注分词的特定角色也能够表明分词的所属语义类别,因此也提高了数据处理的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种数据处理方法的流程图;
图2为本发明实施例提供的另一种数据处理方法的流程图;
图3为本发明实施例提供的一种角色体系框图;
图4为本发明实施例提供的一种角色体系概览图;
图5为本发明实施例提供的一种相似语义度角色词的挖掘模型示意图;
图6为本发明实施例提供的一种角色标注算法整体框图;
图7为本发明实施例提供的一种数据处理装置的结构示意图;
图8为本发明实施例提供的一种标注模块的结构示意图;
图9为本发明实施例提供的另一种数据处理装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面将结合附图1-附图6,对本发明实施例提供的数据处理方法进行详细介绍。
请参照图1,为本发明实施例提供的一种数据处理方法的流程图;该方法可包括以下步骤S100-步骤S102。
S100,获取地标文字序列,将所述地标文字序列划分为至少一个分词;
具体实施例中,地标文字序列即是POI文字序列,是地理信息系统中表示某个处所的地标,景点,例如,用以标示出该地所代表的政府部门,商业机构(加油站、百货公司、超市、餐厅、酒店、便利商店、医院等)、旅游景点(公园、公共厕所等)、古迹名胜、交通设施(各式车站、停车场、超速照相机、速限标示)等处所。获取POI文字序列,并将POI文字序列划分为至少一个分词,具体的划分方法可以是根据POI文字序列中各个文字之间的组词或者预设分词数量进行划分,例如,若地标文字序列为“北京协和医院”,则可以划分为三个分词,分别为“北京”“协和”“医院”。
S101,将所述至少一个分词中每一个分词进行角色标注,并获得角色标注序列,所述角色标注用于指示所述分词所属的语义类别;
具体实施例中,角色即是POI文字序列中各个分词的语义类别,角色标注即是将POI文字序列中各个分词标注为不同的角色,用以指明此分词所指示的语义类别。POI文字序列中主要是由地名和机构名组成,同时还可能包含地标词、连锁店等特殊分词。并且同一个分词在日常对话与POI文字序列中常呈现不同的语义特征。例如:在日常对话中,“美好”一词主要起形容描述作用,如“美好的一天”;但在POI文字序列中,“美好”可能更倾向于是一个专有名称,起指代作用,如“美好饭店”。因此对于POI文字序列中各分词的角色的识别与标注,需要一套专门的体系框架,如图3所示,为本发明实施例提供的角色标注体系框图,该体系分为标注层和提取层,标注层用于对POI文字序列中各个分词实现角色标注,形成角色标注序列,如图所示,各个分词的角色可以包括基本角色和细分角色,基本角色可以包括但不限于类别词、泛类别词、地名、专名、业务词、修饰词、方位词、位置子点、介词与连词、标点符号、英文词以及数量词等等。细分角色即是对基本角色中某个角色的详细划分,如图所示,例如,可以对地名这个角色进一步划分为省、市、县、镇、村、道路、街道、门牌号。如图4所示,对各个角色名称的意义进行了解释说明,并举例进行进一步的阐述。
具体的,对至少一个分词中每一个分词进行角色标注的具体标注方法可以是通过查找角色词表中是否存在与该分词匹配的登录词,若存在,则将该登录词对应的角色确定为该分词的角色,也可以是通过预先建立的模型参数和该分词在POI文字序列中的位置参数进行计算,获得该分词的角色。
S102,对所述角色标注序列中的特定角色标注分词进行相应的数据处理。
具体实施例中,对POI文字序列中各个分词进行角色标注后获得角色标注序列,该角色标注序列中包括多个角色标注分词。当需要进行某种数据处理时,只需要从角色标注序列中的多个角色标注分词中提取出特定角色标注分词进行相应的数据处理。该特定角色标注分词需要根据具体的数据处理所确定,如图3所示,具体由提取层提取特定角色标注分词,并根据特定角色标注分词进行相应的数据处理,例如提取层可以根据标注层所标注的类别词角色标注分词识别POI文字序列中的主子点层级关系,也可以根据标注层所标注的专名角色标注分词提取POI文字序列中的主体词等等。
可选的,对角色标注序列中的特定角色标注分词进行数据处理可以有以下两种可选的实施方式:
在第一种可选的实施方式中,若所述角色标注序列中包括类别词角色标注分词;选取所述角色标注序列中的类别词角色标注分词,并根据所述类别词角色标注分词确定所述地标文字序列中的层次关系。
具体实施例中,根据基础层(图3,图4中的“标注层”)角色标注结果中的类别词角色标注分词的指示作用,识别POI文字序列中的层次关系。例如:POI文字序列为“北京大学物理学院图书馆”,从中可以找出“大学”,“学院”,“图书馆”三个类别词角色标注分词,因此POI文字序列中存在三层的主子点层次关系。
需要说明的是,有些类别词角色标注分词本身不具备主子点层次关系。例如:POI文字序列为“招商银行ATM(银科大厦)”,其中的类别词“银行”和“ATM”具有主子点层次关系,但“ATM”和“大厦”则不具备主子点层次关系。
因此,本发明实施例可以进一步根据类别词角色标注分词的属性确定是否有冲突进行进一步挖掘,识别出真正具有层次关系的类别词角色标注分词,从而提升层次关系的准确率。例如:“银行”和“ATM”属于大点套小点关系,符合逻辑;“ATM”和“大厦”属性关系则为小点套大点关系,不符合现实,故前者是真正的主子点层次关系,而后者不是。因此本发明实施例还可以根据其余的类别词角色分词的属性进行判断,在此不再赘述。
在第二种可选的实施方式中,从所述角色标注序列中查找与预设角色匹配的角色标注分词,并根据所述角色标注分词提取所述地标文字序列中的关键词。
具体实施例中,结合图3所述的基于POI文字序列中各个分词的语义类别所建立的角色体系,本发明可根据角色标注结果,给出POI文字序列中各个分词的大致语义重要度,即是提取出地标文字序列中的关键词。在本发明实施例中,POI文字序列中的关键词通常可以描述POI文字序列的唯一性、专有性和指代性。按照不同角色标注分词对POI文字序列的唯一性、专有性和指代性描述程度高低,通常可将各个角色进行排序,分别为:专名>类别词>业务词>修饰词。预设角色可以根据具体情况进行确定,例如,预设角色可以是专名,若该POI文字序列中无专名则预设角色可以是类别词。通过与预设角色匹配的角色标注分词,可以提取出POI文字序列中的关键词,用以唯一指代该POI文字序列。
需要说明的是,上述各个角色排序也会根据特定情况而变化,例如POI文字序列为“中国技术交易大厦”中的“中国”虽然是专名,但其专有性和语义重要度比作为业务词的“技术”“交易”低,因此在实际应用中会根据各个角色标注分词出现的位置等特征进行进一步处理,在此不再赘述。
本发明实施例,获取地标文字序列,将该地标文字序列划分为至少一个分词,将该至少一个分词中每一个分词进行角色标注,并获得角色标注序列,角色标注用于指示该分词所属的语义类别,对角色标注序列中的特定角色标注分词进行相应的数据处理。这种方式只对角色标注序列中的特定角色标注分词进行相应的数据处理,不需要将地标文字序列中每一个分词都进行分析处理,因此提高了数据处理效率,并且特定角色标注分词的特定角色也能够表明分词的所属语义类别,因此也提高了数据处理的准确率。
请参照图2,为本发明实施例提供的另一种数据处理方法的流程图;该方法可包括以下步骤S200-步骤S208。
S200,获取角色标准集,所述角色标准集中包括预设数量的标准角色标注序列;
具体实施例中,从自然语言处理的角度看,角色标注可看作经典的序列标注问题;学术界已经存在很多模型去解决这个问题,本技术方案中采用经典的隐马尔可夫模型(Hidden Markov Model,HMM)去解决这个问题。选用HMM的原因是易于实现、易于理解、易于和规则结合。
通常HMM的模型训练需要标注一定量级的标准集;因此在进行模型训练之前获取包括预设数量的标准角色标注序列的角色标准集,该角色标准集中的标准角色标注序列可以是人工进行标注的,以便于后续基于该角色标准集进行模型训练。此外,通过对大量的POI文字序列分析发现,POI文字序列中的各个分词使用带有明显的长尾特征;本发明通过训练角色标准集中角色之间的转移概率,而更多挖掘角色词表中的新增词汇。
S201,将所述角色标准集中的所述标准角色标注序列作为模型训练的输入,并获得所述模型参数。
具体实施例中,获取标注了预设数量标准角色标注序列的角色标准集,将角色标准集中的标准角色标注序列作为模型训练的输入,并进行模型训练。可选的,从角色标准集中统计发射概率和生成概率,利用词表和词缀对发射概率进行加权,获得用于后续进行角色计算以及词汇挖掘的模型参数。
S202,利用所述模型参数,挖掘新增词汇,并将所述新增词汇以及所述新增词汇对应的角色添加进所述角色标准集中;
具体实施例中,利用所获得的模型参数挖掘新增词汇,例如,在已有的角色标准集基础上,利用词语向量计算模型训练学习词语的向量表示,并利用所获得的模型参数可以得出不同词语之间的语义相似度。针对未登录词(即是该词未在角色词表中),基于语义相似的词应该具有同样角色的原理,将语义相似度作为一项重要特征加入到角色标注训练模型中。如图5所示,“披萨”为已知角色的业务词,则和它语义相似的词有很大概率是业务词。如图5所示利用模型训练后挖掘出与“披萨”语义相似的很多新增词汇,这些新增词汇的角色很大概率就是业务词,将新增词汇以及新增词汇对应的角色添加进角色标准集中。
进一步基于POI语义类别所建立的角色体系基础上,利用模型参数本发明可进一步根据一些常见的模式组合,挖掘新增词汇。比如类别词+某某+泛类别词,其中的“某某”通常是业务词,举例来说:“日坛公园攀岩场”,已知“公园”和“场”分别为类别词和泛类别词,那么“攀岩”就是业务词。
此外,由于角色词表中包含大量未登录的机构名,并且不同角色可能识别错误,尤其是专名、业务词和类别词三个角色之间,很容易识别错误。而从直观上讲,不同角色的分词用字各有特点,例如,“仁、德”这些字经常做专名,“血、菜”经常做业务词。因此,本发明基于已有的标准角色集训练的分类器很好的解决了这个问题;一方面,可以通过分类器验证已有角色词表的准确率,并发现新增词汇加入角色词表;另一方面可以作为在线分类的模块加入到角色标注模型中。
S203,将包含所述新增词汇的角色标准集确定为所述角色词表。
具体实施例中,将包含上述新增词汇的角色标准集确定为角色词表,便于后续进行角色标注。
进一步的,本发明还可以整理各角色常见的角色词表,并从中总结出角色词语的特点,主要是后缀字以及各角色用字特点,便于进行后续进行新增词汇的进一步挖掘。
S204,获取地标文字序列,将所述地标文字序列划分为至少一个分词;
本发明实施例步骤S204请参照图1实施例步骤S100,在此不再赘述。
S205,针对每一个所述分词,查找角色词表,判断所述角色词表中是否存在与所述分词匹配的登录词;
具体实施例中,将POI文字序列划分为至少一分词后,针对每一个分词,查找角色词表,判断角色词表中是否存在与该分词匹配的登录词,该角色词表即是前述包括新增词汇的标准角色集,角色词表中标注了登录词的角色。
S206,若所述角色词表中存在与所述分词匹配的登录词,则将与所述分词匹配的登录词对应的角色确定为所述分词的角色,并进行角色标注;
具体实施例中,若角色词表中存在与分词匹配的登录词,则直接从角色词表中提取该登录词对应的角色,并将所提取的角色确定为该分词的角色,进行角色标注。
可选的,若与所述分词匹配的登录词对应的角色包括至少两个;确定分词的角色可以包括以下步骤S20-S21:
S20,获取所述分词在所述地标文字序列中的前一个分词的角色和所述分词在所述地标文字序列中的后一个分词的角色;
具体的,当角色词表中与该分词匹配的登录词对应的角色包括至少两个,则需要进行消歧处理,根据上下文语境选择正确的角色。即是获取该分词在POI文字序列中的前一个分词的角色和后一个分词的角色,例如若POI文字序列为“日坛公园攀岩场”,其中的“攀岩”可能为业务词,也可能为专名,具体需要根据上下文语境进行确定,获取前一个分词“公园”的角色为类别词,后一个分词“场”的角色为泛类别词。
S21,根据所述前一个分词的角色和所述后一个分词的角色,从所述至少两个角色中选择一个角色确定为所述分词的角色。
具体的,根据前一个分词的角色和后一个分词的角色可以从至少两个角色中选择一个恰当的角色,继续以上述“日坛公园攀岩场”为例,根据一些常见角色组合,那么“攀岩”就是业务词。
S207,若所述角色词表中不存在与所述分词匹配的登录词,利用预先建立的模型参数以及所述分词在所述地标文字序列中的位置参数进行计算,获得所述分词的角色,并进行角色标注。
具体实施例中,若角色词表中不存在与分词匹配的登录词,则需要利用预先建立的模型参数以及分词在POI文字序列中的位置参数进行计算,获得分词的角色,并进行角色标注。需要说明的是,当通过模型参数计算出某个分词的词频小于一定值,则加大专名的识别权重。
S208,将每一个进行角色标注的所述分词组成角色标注序列。
具体实施例中,将POI文字序列中进行角色标注的分词组成角色标注序列,便于后续进行数据处理。数据处理可以是只关心角色标注序列中某一些角色标注分词。
S209,对所述角色标注序列中的特定角色标注分词进行相应的数据处理。
本发明实施例步骤S209请参照图1的实施例步骤S102,在此不再赘述。
本发明实施例,获取地标文字序列,将该地标文字序列划分为至少一个分词,将该至少一个分词中每一个分词进行角色标注,并获得角色标注序列,角色标注用于指示该分词所属的语义类别,对角色标注序列中的特定角色标注分词进行相应的数据处理。这种方式只对角色标注序列中的特定角色标注分词进行相应的数据处理,不需要将地标文字序列中每一个分词都进行分析处理,因此提高了数据处理效率,并且特定角色标注分词的特定角色也能够表明分词的所属语义类别,因此也提高了数据处理的准确率。
请参照图6,为本发明实施例提供的一种角色标注算法整体框图,如图所示,本发明实施例包括以下步骤:
S600,对输入序列进行分词;
S601,利用模型计算最优角色序列;
上述具体过程可以是通过所训练出的模型计算最优角色序列,所述模型是通过标准角色集中标准角色序列进行训练出的。
S602,利用词表和序列结果细化角色;
上述词表为角色词表,在最优角色序列中若可以进一步细化角色,则利用角色词表和序列结果进行进一步的细化,例如,地名可以进一步细化为省、市、县、镇、村等等。
S603,角色序列修正模块;
利用上述角色序列修正模块对进行角色标注的角色标注序列进行修正,以获得最佳角色标注序列。
S604,利用规则抽取出提取层角色;
利用预先设定的数据处理规则抽取出提取层角色,例如,预先设定数据处理规则可以为抽取提取层的类别词角色标注分词作为语义分隔边界,进而确定出POI文字序列中的层次关系。
下面将结合附图7-附图9,对本发明实施例提供的一种数据处理装置进行详细介绍。
请参阅图7,为本发明实施例提供的一种数据处理装置的结构示意图;该装置可包括:划分模块100、标注模块101以及数据处理模块102;
划分模块100,用于获取地标文字序列,将所述地标文字序列划分为至少一个分词;
具体实施例中,地标文字序列即是POI文字序列,是地理信息系统中表示某个处所的地标,景点,例如,用以标示出该地所代表的政府部门,商业机构(加油站、百货公司、超市、餐厅、酒店、便利商店、医院等)、旅游景点(公园、公共厕所等)、古迹名胜、交通设施(各式车站、停车场、超速照相机、速限标示)等处所。划分模块100获取POI文字序列,并将POI文字序列划分为至少一个分词,具体的划分方法可以是根据POI文字序列中各个文字之间的组词或者预设分词数量进行划分,例如,若地标文字序列为“北京协和医院”,则可以划分为三个分词,分别为“北京”“协和”“医院”。
标注模块101,用于将所述至少一个分词中每一个分词进行角色标注,并获得角色标注序列,所述角色标注用于指示所述分词所属的语义类别;
具体实施例中,角色即是POI文字序列中各个分词的语义类别,角色标注即是将POI文字序列中各个分词标注为不同的角色,用以指明此分词所指示的语义类别。POI文字序列中主要是由地名和机构名组成,同时还可能包含地标词、连锁店等特殊分词。并且同一个分词在日常对话与POI文字序列中常呈现不同的语义特征。例如:在日常对话中,“美好”一词主要起形容描述作用,如“美好的一天”;但在POI文字序列中,“美好”可能更倾向于是一个专有名称,起指代作用,如“美好饭店”。因此对于POI文字序列中各分词的角色的识别与标注,需要一套专门的体系框架,如图3所示,为本发明实施例提供的角色标注体系框图,该体系分为标注层和提取层,标注层用于对POI文字序列中各个分词实现角色标注,形成角色标注序列,如图所示,各个分词的角色可以包括基本角色和细分角色,基本角色可以包括但不限于类别词、泛类别词、地名、专名、业务词、修饰词、方位词、位置子点、介词与连词、标点符号、英文词以及数量词等等。细分角色即是对基本角色中某个角色的详细划分,如图所示,例如,可以对地名这个角色进一步划分为省、市、县、镇、村、道路、街道、门牌号。如图4所示,对各个角色名称的意义进行了解释说明,并举例进行进一步的阐述。
具体的,标注模块101对至少一个分词中每一个分词进行角色标注的具体标注方法可以是通过查找角色词表中是否存在与该分词匹配的登录词,若存在,则将该登录词对应的角色确定为该分词的角色,也可以是通过预先建立的模型参数和该分词在POI文字序列中的位置参数进行计算,获得该分词的角色。
数据处理模块102,用于对所述角色标注序列中的特定角色标注分词进行相应的数据处理。
具体实施例中,对POI文字序列中各个分词进行角色标注后获得角色标注序列,该角色标注序列中包括多个角色标注分词。当需要进行某种数据处理时,数据处理模块102只需要从角色标注序列中的多个角色标注分词中提取出特定角色标注分词进行相应的数据处理。该特定角色标注分词需要根据具体的数据处理所确定,如图3所示,具体由提取层提取特定角色标注分词,并根据特定角色标注分词进行相应的数据处理,例如提取层可以根据标注层所标注的类别词角色标注分词识别POI文字序列中的主子点层级关系,也可以根据标注层所标注的专名角色标注分词提取POI文字序列中的主体词等等。
可选的,若所述角色标注序列中包括类别词角色标注分词;
数据处理模块102具体用于选取所述角色标注序列中的类别词角色标注分词,并根据所述类别词角色标注分词确定所述地标文字序列中的层次关系。
具体实施例中,数据处理模块102根据基础层(图3,图4中的“标注层”)角色标注结果中的类别词角色标注分词的指示作用,识别POI文字序列中的层次关系。例如:POI文字序列为“北京大学物理学院图书馆”,从中可以找出“大学”,“学院”,“图书馆”三个类别词角色标注分词,因此POI文字序列中存在三层的主子点层次关系。
需要说明的是,有些类别词角色标注分词本身不具备主子点层次关系。例如:POI文字序列为“招商银行ATM(银科大厦)”,其中的类别词“银行”和“ATM”具有主子点层次关系,但“ATM”和“大厦”则不具备主子点层次关系。
因此,本发明实施例可以进一步根据类别词角色标注分词的属性确定是否有冲突进行进一步挖掘,识别出真正具有层次关系的类别词角色标注分词,从而提升层次关系的准确率。例如:“银行”和“ATM”属于大点套小点关系,符合逻辑;“ATM”和“大厦”属性关系则为小点套大点关系,不符合现实,故前者是真正的主子点层次关系,而后者不是。因此本发明实施例还可以根据其余的类别词角色分词的属性进行判断,在此不再赘述。
可选的,数据处理模块102具体用于从所述角色标注序列中查找与预设角色匹配的角色标注分词,并根据所述角色标注分词提取所述地标文字序列中的关键词。
具体实施例中,结合图3所述的基于POI文字序列中各个分词的语义类别所建立的角色体系,本发明可根据角色标注结果,给出POI文字序列中各个分词的大致语义重要度,即是提取出地标文字序列中的关键词。在本发明实施例中,POI文字序列中的关键词通常可以描述POI文字序列的唯一性、专有性和指代性。按照不同角色标注分词对POI文字序列的唯一性、专有性和指代性描述程度高低,通常可将各个角色进行排序,分别为:专名>类别词>业务词>修饰词。预设角色可以根据具体情况进行确定,例如,预设角色可以是专名,若该POI文字序列中无专名则预设角色可以是类别词。通过与预设角色匹配的角色标注分词,可以提取出POI文字序列中的关键词,用以唯一指代该POI文字序列。
需要说明的是,上述各个角色排序也会根据特定情况而变化,例如POI文字序列为“中国技术交易大厦”中的“中国”虽然是专名,但其专有性和语义重要度比作为业务词的“技术”“交易”低,因此在实际应用中会根据各个角色标注分词出现的位置等特征进行进一步处理,在此不再赘述。
本发明实施例,获取地标文字序列,将该地标文字序列划分为至少一个分词,将该至少一个分词中每一个分词进行角色标注,并获得角色标注序列,角色标注用于指示该分词所属的语义类别,对角色标注序列中的特定角色标注分词进行相应的数据处理。这种方式只对角色标注序列中的特定角色标注分词进行相应的数据处理,不需要将地标文字序列中每一个分词都进行分析处理,因此提高了数据处理效率,并且特定角色标注分词的特定角色也能够表明分词的所属语义类别,因此也提高了数据处理的准确率。
请参照图8,为本发明实施例提供的一种标注模块的结构示意图,如图所示,标注模块101包括:
查找单元1010,用于针对每一个所述分词,查找角色词表,判断所述角色词表中是否存在与所述分词匹配的登录词;
具体实施例中,将POI文字序列划分为至少一分词后,查找单元1010针对每一个分词,查找角色词表,判断角色词表中是否存在与该分词匹配的登录词,该角色词表即是前述包括新增词汇的标准角色集,角色词表中标注了登录词的角色。
标注单元1011,用于若所述角色词表中存在与所述分词匹配的登录词,则将与所述分词匹配的登录词对应的角色确定为所述分词的角色,并进行角色标注;
具体实施例中,若角色词表中存在与分词匹配的登录词,标注单元1011则直接从角色词表中提取该登录词对应的角色,并将所提取的角色确定为该分词的角色,进行角色标注。
可选的,若与所述分词匹配的登录词对应的角色包括至少两个;标注单元1011可以包括获取子单元和选择子单元;
获取子单元,用于获取所述分词在所述地标文字序列中的前一个分词的角色和所述分词在所述地标文字序列中的后一个分词的角色;
具体的,当角色词表中与该分词匹配的登录词对应的角色包括至少两个,则需要进行消歧处理,根据上下文语境选择正确的角色。即是获取子单元获取该分词在POI文字序列中的前一个分词的角色和后一个分词的角色,例如若POI文字序列为“日坛公园攀岩场”,其中的“攀岩”可能为业务词,也可能为专名,具体需要根据上下文语境进行确定,获取前一个分词“公园”的角色为类别词,后一个分词“场”的角色为泛类别词。
选择子单元,用于根据所述前一个分词的角色和所述后一个分词的角色,从所述至少两个角色中选择一个角色确定为所述分词的角色。
具体的,选择子单元根据前一个分词的角色和后一个分词的角色可以从至少两个角色中选择一个恰当的角色,继续以上述“日坛公园攀岩场”为例,根据一些常见角色组合,那么“攀岩”就是业务词。
组成单元1012,用于将每一个进行角色标注的所述分词组成角色标注序列。
具体实施例中,组成单元1012将POI文字序列中进行角色标注的分词组成角色标注序列,便于后续进行数据处理。数据处理可以是只关心角色标注序列中某一些角色标注分词。
可选的,标注模块101还可以包括计算单元1013;
计算单元1013,用于若所述角色词表中不存在与所述分词匹配的登录词,利用预先建立的模型参数以及所述分词在所述地标文字序列中的位置参数进行计算,获得所述分词的角色,并进行角色标注。
具体实施例中,若角色词表中不存在与分词匹配的登录词,计算单元1013则需要利用预先建立的模型参数以及分词在POI文字序列中的位置参数进行计算,获得分词的角色,并进行角色标注。需要说明的是,当通过模型参数计算出某个分词的词频小于一定值,则加大专名的识别权重。
本发明实施例,获取地标文字序列,将该地标文字序列划分为至少一个分词,将该至少一个分词中每一个分词进行角色标注,并获得角色标注序列,角色标注用于指示该分词所属的语义类别,对角色标注序列中的特定角色标注分词进行相应的数据处理。这种方式只对角色标注序列中的特定角色标注分词进行相应的数据处理,不需要将地标文字序列中每一个分词都进行分析处理,因此提高了数据处理效率,并且特定角色标注分词的特定角色也能够表明分词的所属语义类别,因此也提高了数据处理的准确率。
请参照图9,为本发明实施例提供的另一种数据处理装置的结构示意图;本实施例的数据处理装置是在图7所示的数据处理装置基础上优化得到的,如图9所示,该装置可包括划分模块200、标注模块201、数据处理模块202、获取模块203、模型训练模块204、挖掘模块205以及确定模块206;其中,划分模块200、标注模块201、数据处理模块202请参照图7的描述,在此不再赘述。
获取模块203,用于获取角色标准集,所述角色标准集中包括预设数量的标准角色标注序列;
具体实施例中,从自然语言处理的角度看,角色标注可看作经典的序列标注问题;学术界已经存在很多模型去解决这个问题,本技术方案中采用经典的隐马尔可夫模型(Hidden Markov Model,HMM)去解决这个问题。选用HMM的原因是易于实现、易于理解、易于和规则结合。
通常HMM的模型训练需要标注一定量级的标准集;因此在进行模型训练之前获取模块203获取包括预设数量的标准角色标注序列的角色标准集,该角色标准集中的标准角色标注序列可以是人工进行标注的,以便于后续基于该角色标准集进行模型训练。此外,通过对大量的POI文字序列分析发现,POI文字序列中的各个分词使用带有明显的长尾特征;本发明通过训练角色标准集中角色之间的转移概率,而更多挖掘角色词表中的新增词汇。
模型训练模块204,用于将所述角色标准集中的所述标准角色标注序列作为模型训练的输入,并获得所述模型参数。
具体实施例中,获取标注了预设数量标准角色标注序列的角色标准集,模型训练模块204将角色标准集中的标准角色标注序列作为模型训练的输入,并进行模型训练。可选的,从角色标准集中统计发射概率和生成概率,利用词表和词缀对发射概率进行加权,获得用于后续进行角色计算以及词汇挖掘的模型参数。
挖掘模块205,用于利用所述模型参数,挖掘新增词汇,并将所述新增词汇以及所述新增词汇对应的角色添加进所述角色标准集中;
具体实施例中,挖掘模块205利用所获得的模型参数挖掘新增词汇,例如,在已有的角色标准集基础上,利用词语向量计算模型训练学习词语的向量表示,并利用所获得的模型参数可以得出不同词语之间的语义相似度。针对未登录词(即是该词未在角色词表中),基于语义相似的词应该具有同样角色的原理,将语义相似度作为一项重要特征加入到角色标注训练模型中。如图5所示,“披萨”为已知角色的业务词,则和它语义相似的词有很大概率是业务词。如图5所示利用模型训练后挖掘出与“披萨”语义相似的很多新增词汇,这些新增词汇的角色很大概率就是业务词,将新增词汇以及新增词汇对应的角色添加进角色标准集中。
进一步基于POI语义类别所建立的角色体系基础上,利用模型参数本发明可进一步根据一些常见的模式组合,挖掘新增词汇。比如类别词+某某+泛类别词,其中的“某某”通常是业务词,举例来说:“日坛公园攀岩场”,已知“公园”和“场”分别为类别词和泛类别词,那么“攀岩”就是业务词。
此外,由于角色词表中包含大量未登录的机构名,并且不同角色可能识别错误,尤其是专名、业务词和类别词三个角色之间,很容易识别错误。而从直观上讲,不同角色的分词用字各有特点,例如,“仁、德”这些字经常做专名,“血、菜”经常做业务词。因此,本发明基于已有的标准角色集训练的分类器很好的解决了这个问题;一方面,可以通过分类器验证已有角色词表的准确率,并发现新增词汇加入角色词表;另一方面可以作为在线分类的模块加入到角色标注模型中。
确定模块206,用于将包含所述新增词汇的角色标准集确定为所述角色词表。
具体实施例中,确定模块206将包含上述新增词汇的角色标准集确定为角色词表,便于后续进行角色标注。
进一步的,本发明还可以整理各角色常见的角色词表,并从中总结出角色词语的特点,主要是后缀字以及各角色用字特点,便于进行后续进行新增词汇的进一步挖掘。
本发明实施例,获取地标文字序列,将该地标文字序列划分为至少一个分词,将该至少一个分词中每一个分词进行角色标注,并获得角色标注序列,角色标注用于指示该分词所属的语义类别,对角色标注序列中的特定角色标注分词进行相应的数据处理。这种方式只对角色标注序列中的特定角色标注分词进行相应的数据处理,不需要将地标文字序列中每一个分词都进行分析处理,因此提高了数据处理效率,并且特定角色标注分词的特定角色也能够表明分词的所属语义类别,因此也提高了数据处理的准确率。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,附图7-附图9所示数据处理装置的模块或单元对应的程序可存储在终端设备或服务器的可读存储介质内,并被该终端设备或服务器中的至少一个处理器执行,以实现上述流媒体处理方法,该方法包括图1至图6中各方法实施例所述的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (16)
1.一种数据处理方法,其特征在于,包括:
获取地标文字序列,将所述地标文字序列划分为至少一个分词;
将所述至少一个分词中每一个分词进行角色标注,并获得角色标注序列,所述角色标注用于指示所述分词所属的语义类别;
对所述角色标注序列中的特定角色标注分词进行相应的数据处理。
2.如权利要求1所述的方法,其特征在于,所述将所述至少一个分词中每一个分词进行角色标注,并获得角色标注序列,包括:
针对每一个所述分词,查找角色词表,判断所述角色词表中是否存在与所述分词匹配的登录词;
若所述角色词表中存在与所述分词匹配的登录词,则将与所述分词匹配的登录词对应的角色确定为所述分词的角色,并进行角色标注;
将每一个进行角色标注的所述分词组成角色标注序列。
3.如权利要求2所述的方法,其特征在于,若与所述分词匹配的登录词对应的角色包括至少两个;
所述将与所述分词匹配的登录词对应的角色确定为所述分词的角色,包括:
获取所述分词在所述地标文字序列中的前一个分词的角色和所述分词在所述地标文字序列中的后一个分词的角色;
根据所述前一个分词的角色和所述后一个分词的角色,从所述至少两个角色中选择一个角色确定为所述分词的角色。
4.如权利要求2所述的方法,其特征在于,所述方法还包括:
若所述角色词表中不存在与所述分词匹配的登录词,利用预先建立的模型参数以及所述分词在所述地标文字序列中的位置参数进行计算,获得所述分词的角色,并进行角色标注。
5.如权利要求4所述的方法,其特征在于,所述获取地标文字序列,将所述地标文字序列划分为至少一个分词之前,还包括:
获取角色标准集,所述角色标准集中包括预设数量的标准角色标注序列;
将所述角色标准集中的所述标准角色标注序列作为模型训练的输入,并获得所述模型参数。
6.如权利5所述的方法,其特征在于,所述方法还包括:
利用所述模型参数,挖掘新增词汇,并将所述新增词汇以及所述新增词汇对应的角色添加进所述角色标准集中;
将包含所述新增词汇的角色标准集确定为所述角色词表。
7.如权利要求1所述的方法,其特征在于,若所述角色标注序列中包括类别词角色标注分词;
所述对所述角色标注序列中的特定角色标注分词进行相应的数据处理,包括:
选取所述角色标注序列中的类别词角色标注分词,并根据所述类别词角色标注分词确定所述地标文字序列中的层次关系。
8.如权利要求1所述的方法,其特征在于,所述对所述角色标注序列中的特定角色标注分词进行相应的数据处理,包括:
从所述角色标注序列中查找与预设角色匹配的角色标注分词,并根据所述角色标注分词提取所述地标文字序列中的关键词。
9.一种数据处理装置,其特征在于,包括:
划分模块,用于获取地标文字序列,将所述地标文字序列划分为至少一个分词;
标注模块,用于将所述至少一个分词中每一个分词进行角色标注,并获得角色标注序列,所述角色标注用于指示所述分词所属的语义类别;
数据处理模块,用于对所述角色标注序列中的特定角色标注分词进行相应的数据处理。
10.如权利要求9所述的装置,其特征在于,所述标注模块包括:
查找单元,用于针对每一个所述分词,查找角色词表,判断所述角色词表中是否存在与所述分词匹配的登录词;
标注单元,用于若所述角色词表中存在与所述分词匹配的登录词,则将与所述分词匹配的登录词对应的角色确定为所述分词的角色,并进行角色标注;
组成单元,用于将每一个进行角色标注的所述分词组成角色标注序列。
11.如权利要求10所述的装置,其特征在于,若与所述分词匹配的登录词对应的角色包括至少两个;所述标注单元包括:
获取子单元,用于获取所述分词在所述地标文字序列中的前一个分词的角色和所述分词在所述地标文字序列中的后一个分词的角色;
选择子单元,用于根据所述前一个分词的角色和所述后一个分词的角色,从所述至少两个角色中选择一个角色确定为所述分词的角色。
12.如权利要求10所述的装置,其特征在于,所述标注模块还包括:
计算单元,用于若所述角色词表中不存在与所述分词匹配的登录词,利用预先建立的模型参数以及所述分词在所述地标文字序列中的位置参数进行计算,获得所述分词的角色,并进行角色标注。
13.如权利要求12所述的装置,其特征在于,所述装置还包括:
获取模块,用于获取角色标准集,所述角色标准集中包括预设数量的标准角色标注序列;
模型训练模块,用于将所述角色标准集中的所述标准角色标注序列作为模型训练的输入,并获得所述模型参数。
14.如权利要求13所述的装置,其特征在于,所述装置还包括:
挖掘模块,用于利用所述模型参数,挖掘新增词汇,并将所述新增词汇以及所述新增词汇对应的角色添加进所述角色标准集中;
确定模块,用于将包含所述新增词汇的角色标准集确定为所述角色词表。
15.如权利要求9所述的装置,其特征在于,若所述角色标注序列中包括类别词角色标注分词;
所述数据处理模块具体用于选取所述角色标注序列中的类别词角色标注分词,并根据所述类别词角色标注分词确定所述地标文字序列中的层次关系。
16.如权利要求9所述的装置,其特征在于,所述数据处理模块具体用于从所述角色标注序列中查找与预设角色匹配的角色标注分词,并根据所述角色标注分词提取所述地标文字序列中的关键词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510165600.8A CN106155998B (zh) | 2015-04-09 | 2015-04-09 | 一种数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510165600.8A CN106155998B (zh) | 2015-04-09 | 2015-04-09 | 一种数据处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106155998A true CN106155998A (zh) | 2016-11-23 |
CN106155998B CN106155998B (zh) | 2019-03-26 |
Family
ID=57337142
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510165600.8A Active CN106155998B (zh) | 2015-04-09 | 2015-04-09 | 一种数据处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106155998B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107644101A (zh) * | 2017-09-30 | 2018-01-30 | 百度在线网络技术(北京)有限公司 | 信息分类方法和装置、信息分类设备及计算机可读介质 |
CN108363698A (zh) * | 2018-03-13 | 2018-08-03 | 腾讯大地通途(北京)科技有限公司 | 兴趣点关系识别方法及装置 |
CN109472029A (zh) * | 2018-11-09 | 2019-03-15 | 天津开心生活科技有限公司 | 药品名称处理方法与装置 |
CN110019617A (zh) * | 2017-12-05 | 2019-07-16 | 腾讯科技(深圳)有限公司 | 地址标识的确定方法和装置、存储介质、电子装置 |
CN111401355A (zh) * | 2018-12-29 | 2020-07-10 | 北京奇虎科技有限公司 | 一种识别poi数据聚合关系的方法和装置 |
CN111898378A (zh) * | 2020-07-31 | 2020-11-06 | 中国联合网络通信集团有限公司 | 政企客户的行业分类方法和装置、电子设备、存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070168333A1 (en) * | 2006-01-05 | 2007-07-19 | Hung-Chih Yu | Data processing method |
CN103440311A (zh) * | 2013-08-27 | 2013-12-11 | 深圳市华傲数据技术有限公司 | 一种地名实体识别的方法及系统 |
CN104008169A (zh) * | 2014-05-30 | 2014-08-27 | 中国测绘科学研究院 | 一种基于语义的地理标注内容安全检查方法及装置 |
CN104252507A (zh) * | 2013-06-28 | 2014-12-31 | 北京华傲达数据技术有限公司 | 一种企业数据匹配方法和装置 |
-
2015
- 2015-04-09 CN CN201510165600.8A patent/CN106155998B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070168333A1 (en) * | 2006-01-05 | 2007-07-19 | Hung-Chih Yu | Data processing method |
CN104252507A (zh) * | 2013-06-28 | 2014-12-31 | 北京华傲达数据技术有限公司 | 一种企业数据匹配方法和装置 |
CN103440311A (zh) * | 2013-08-27 | 2013-12-11 | 深圳市华傲数据技术有限公司 | 一种地名实体识别的方法及系统 |
CN104008169A (zh) * | 2014-05-30 | 2014-08-27 | 中国测绘科学研究院 | 一种基于语义的地理标注内容安全检查方法及装置 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107644101A (zh) * | 2017-09-30 | 2018-01-30 | 百度在线网络技术(北京)有限公司 | 信息分类方法和装置、信息分类设备及计算机可读介质 |
CN110019617A (zh) * | 2017-12-05 | 2019-07-16 | 腾讯科技(深圳)有限公司 | 地址标识的确定方法和装置、存储介质、电子装置 |
CN110019617B (zh) * | 2017-12-05 | 2022-05-20 | 腾讯科技(深圳)有限公司 | 地址标识的确定方法和装置、存储介质、电子装置 |
CN108363698A (zh) * | 2018-03-13 | 2018-08-03 | 腾讯大地通途(北京)科技有限公司 | 兴趣点关系识别方法及装置 |
CN108363698B (zh) * | 2018-03-13 | 2021-05-14 | 腾讯大地通途(北京)科技有限公司 | 兴趣点关系识别方法及装置 |
CN109472029A (zh) * | 2018-11-09 | 2019-03-15 | 天津开心生活科技有限公司 | 药品名称处理方法与装置 |
CN109472029B (zh) * | 2018-11-09 | 2023-04-07 | 天津开心生活科技有限公司 | 药品名称处理方法与装置 |
CN111401355A (zh) * | 2018-12-29 | 2020-07-10 | 北京奇虎科技有限公司 | 一种识别poi数据聚合关系的方法和装置 |
CN111898378A (zh) * | 2020-07-31 | 2020-11-06 | 中国联合网络通信集团有限公司 | 政企客户的行业分类方法和装置、电子设备、存储介质 |
CN111898378B (zh) * | 2020-07-31 | 2023-09-19 | 中国联合网络通信集团有限公司 | 政企客户的行业分类方法和装置、电子设备、存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN106155998B (zh) | 2019-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109145169B (zh) | 一种基于统计分词的地址匹配方法 | |
CN106155998A (zh) | 一种数据处理方法及装置 | |
CN102395965B (zh) | 用于在数据库中搜索对象的方法 | |
CN102831121B (zh) | 一种网页信息抽取的方法和系统 | |
EP3407223B1 (en) | Location based full text search | |
CN103186524B (zh) | 一种地名识别方法和装置 | |
CN105022748B (zh) | 一种运单地址分级方法及装置 | |
CN108628811A (zh) | 地址文本的匹配方法和装置 | |
US20150356088A1 (en) | Tile-based geocoder | |
CN107656913A (zh) | 地图兴趣点地址提取方法、装置、服务器和存储介质 | |
CN103605752A (zh) | 一种基于语义识别的地址匹配方法 | |
CN103488724A (zh) | 一种面向图书的阅读领域知识图谱构建方法 | |
CN109933797A (zh) | 基于Jieba分词及地址词库的地理编码方法和系统 | |
US8700661B2 (en) | Full text search using R-trees | |
CN103699623B (zh) | 地理编码实现方法和装置 | |
CN110866125A (zh) | 基于bert算法模型的知识图谱构建系统 | |
CN107908627A (zh) | 一种多语言的地图poi 搜索系统 | |
CN113641707B (zh) | 知识图谱消歧方法、装置、设备及存储介质 | |
CN113360789A (zh) | 兴趣点数据处理方法、装置、电子设备及存储介质 | |
CN105159885A (zh) | 一种兴趣点名称的识别方法和装置 | |
CN111325235B (zh) | 面向多语种的通用地名语义相似度计算方法及其应用 | |
CN103700084A (zh) | 基于区域尺寸和弯曲度的化学分子结构图分割方法 | |
CN104462531A (zh) | 一种确定查询词是否调用地图接口的方法与系统 | |
Berman et al. | Historical gazetteer system integration: Chgis, regnum francorum, and geonames | |
CN115329221B (zh) | 一种针对多源地理实体的查询方法及查询系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |