CN110442714B - Poi名称规范性评估方法、装置、设备和存储介质 - Google Patents

Poi名称规范性评估方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN110442714B
CN110442714B CN201910678495.6A CN201910678495A CN110442714B CN 110442714 B CN110442714 B CN 110442714B CN 201910678495 A CN201910678495 A CN 201910678495A CN 110442714 B CN110442714 B CN 110442714B
Authority
CN
China
Prior art keywords
poi name
poi
name
word
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910678495.6A
Other languages
English (en)
Other versions
CN110442714A (zh
Inventor
刘复新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910678495.6A priority Critical patent/CN110442714B/zh
Publication of CN110442714A publication Critical patent/CN110442714A/zh
Application granted granted Critical
Publication of CN110442714B publication Critical patent/CN110442714B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种POI名称规范性评估方法、装置、设备和存储介质,其中,该方法包括:对待评估POI名称进行特征分析,得到待评估POI名称的描述特征,其中,描述特征包括POI名称的基础特征、POI名称中各词语的词语特征以及POI名称中各词语的词性特征;利用预先训练的POI名称评估模型,确定待评估POI名称的描述特征所属的特征类型,基于特征类型确定待评估POI名称的规范性,其中,特征类型包括规范特征类型和非规范特征类型。本发明实施例可以实现对地图情报信息中各种POI名称的规范性的自动评估,提高评估效率,降低POI名称规范性评估的维护成本。

Description

POI名称规范性评估方法、装置、设备和存储介质
技术领域
本发明实施例涉及地图数据处理技术领域,尤其涉及一种POI名称规范性评估方法、装置、设备和存储介质。
背景技术
针对不同的地图产品,对兴趣点(Point of Interest,POI)名称的规范性具有不同要求,只有符合规范性要求的POI名称在当前地图产品中具有适用性。
目前,确定POI名称是否符合特定地图产品的名称规范性要求,主要通过产品线和生产线的技术人员根据经验总结归纳一系列的POI命名规则和案例,再结合地图数据的制作规范,确定出人为的规范评估规则,以判断采集的POI名称是否符合当前地图的规范性要求。
现有方案的主要缺点在于:对POI名称特点的覆盖率不足,即人为的规范评估规则只能覆盖一部分的POI命名规范,而且基于该人为规则进行规范性评估时方案的迭代成本高,例如需要对已有规则进行变动时,需要投入大量人工成本和时间成本,不易维护。
发明内容
本发明实施例提供一种POI名称规范性评估方法、装置、设备和存储介质,以实现对地图情报信息中各种POI名称的规范性的自动评估,提高评估效率,降低POI名称规范性评估的维护成本。
第一方面,本发明实施例提供了一种POI名称规范性评估方法,该方法包括:
对待评估POI名称进行特征分析,得到所述待评估POI名称的描述特征,其中,所述描述特征包括POI名称的基础特征、POI名称中各词语的词语特征以及POI名称中各词语的词性特征;
利用预先训练的POI名称评估模型,确定所述待评估POI名称的描述特征所属的特征类型,基于所述特征类型确定所述待评估POI名称的规范性,其中,所述特征类型包括规范特征类型和非规范特征类型。
第二方面,本发明实施例还提供了一种POI名称规范性评估装置,该装置包括:
特征分析模块,用于对待评估POI名称进行特征分析,得到所述待评估POI名称的描述特征,其中,所述描述特征包括POI名称的基础特征、POI名称中各词语的词语特征以及POI名称中各词语的词性特征;
评估结果确定模块,用于利用预先训练的POI名称评估模型,确定所述待评估POI名称的描述特征所属的特征类型,基于所述特征类型确定所述待评估POI名称的规范性,其中,所述特征类型包括规范特征类型和非规范特征类型。
第三方面,本发明实施例还提供了一种设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明任一实施例所述的POI名称规范性评估方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任一实施例所述的POI名称规范性评估方法。
本发明实施例通过构建地图情报信息中待评估POI名称的描述特征,利用预先训练的POI名称评估模型,确定待评估POI名称的描述特征所属的特征类型,基于特征类型确定待评估POI名称的规范性,使得符合规范性要求的POI名称才可以用在地图产品中,确保了地图应用中的POI数据质量,实现了对地图情报信息中各种POI名称的规范性的自动评估,提高了评估效率;解决了依赖人为制定规则进行POI名称规范性评估时评估覆盖率较低以及评估维护成本较高的问题,基于POI名称评估模型提高了对各种类型的POI名称的评估覆盖率,降低了POI名称规范性评估的维护成本。
附图说明
图1是本发明实施例一提供的POI名称规范性评估方法的流程图;
图2是本发明实施例二提供的POI名称规范性评估方法的流程图;
图3是本发明实施例三提供的POI名称规范性评估装置的结构示意图;
图4是本发明实施例四提供的一种设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1是本发明实施例一提供的POI名称规范性评估方法的流程图,本实施例可适用于对采集的地图情报信息中的POI名称是否符合当前地图产品所要求的命名规范性,进行评估的情况,该方法可以由POI名称规范性评估装置来执行,该装置可以采用软件和/或硬件的方式实现,并可集成在任意的具有计算能力的设备上,包括但不限于服务器等。
如图1所示,本实施例提供的POI名称规范性评估方法可以包括:
S110、对待评估POI名称进行特征分析,得到待评估POI名称的描述特征,其中,描述特征包括POI名称的基础特征、POI名称中各词语的词语特征以及POI名称中各词语的词性特征。
本实施例中,待评估POI名称可以是采集的地图情报信息中任意的POI名称,包括利用数据抓取工具从互联网中抓取的POI名称和地图用户主动上传的POI名称。可选的,对待评估POI名称进行特征分析包括:利用分词算法和语法分析算法对待评估POI名称进行特征分析。其中,分词算法用于对待评估POI名称进行词语成分分析,语法分析算法用于确定待评估POI名称中的语法结构或名称语句中词语之间的依存关系等信息。关于分词算法和语法分析算法下的具体内容,本实施例不作具体限定,在确保可以准确得到待评估POI名称的描述特征的前提下,可以采用现有技术中任意可用的具体算法,例如,语法分析算法包括但不限于浅层语法分析算法。
待评估POI名称的描述特征可以对该POI名称进行全面表征。POI名称的基础特征是从POI名称的整体角度对其进行表征,POI名称中各词语的词语特征是从POI名称中包括的各个词语的角度对其进行表征,POI名称中各词语的词性特征是从POI名称中包括的各个词语的词性分类角度对其进行表征。该描述特征可以利用特征向量的形式进行量化表示,每一个维度的特征均可用特定的值表示,关于特征向量中的具体值本实施例不作限定,可根据实际进行设置。
具体的,POI名称的基础特征包括:POI名称中各种字符的占比、POI名称的字符总长度和POI名称的描述信息;其中,各种字符包括中文、字母、数字和特殊字符等,POI名称的描述信息用于对POI名称进行描述说明,可以包括与POI名称相关的任意补充信息;
POI名称中各词语的词语特征包括:POI名称经分词得到的词语总数量、POI名称经分词得到的每个词语在预设POI名称库中出现的词频和、POI名称经分词得到的相邻词语之间的关联性特征、POI名称经分词得到的各个词语之间的紧密度、POI名称中属于指定类型词的词语特征以及POI名称中结尾词特征;其中,预设POI名称库是指针对当前地图产品而言,名称规范性已知的多种POI名称的集合,包括可以用在当前地图产品中的规范POI名称和不能用在当前地图产品中的非规范POI名称;POI名称经分词得到的相邻词语之间的关联性特征具体可以是指该相邻词语之间的关联度在预设POI名称库对应的分词关联度库中的置信度(该置信度用于衡量相邻的词A和词B(词B出现在词A后面),在预设POI名称库中词B出现在词A后面的概率),分词关联度库是通过对预设POI名称库中各POI名称进行分词以及词语之间的关联度(例如分析统计一个词语近邻另一词语出现的情况)分析后创建的数据库;
POI名称中各词语的词性特征包括:各种词性的词语在POI名称中的占比以及POI名称是否以名词作为结尾词,其中,各种词性包括名词、动词、介词和助词等。
进一步的,在POI名称中各词语的词语特征中,POI名称中属于指定类型词的词语特征包括POI名称中属于高频词(指在预设POI名称库中出现次数较多的词语)的词语在该POI名称中的占比、POI名称中出现的独词(指不可分割的词语)在预设POI名称库中的置信度(该置信度可以用于衡量POI名称中独词出现的概率)以及POI名称中出现的优质词在该POI名称中的占比中的至少一种,其中,优质词可以包括用于表示组织、机构、学校、品牌和地名等类型的词语,可以根据实际需求进行设置;
POI名称中结尾词特征包括POI名称中结尾词是否为高频词以及POI名称中的结尾词在预设POI名称库中的置信度(该置信度可以用于衡量POI名称的结尾词在预设POI名称库作为结尾词角色出现的概率)中的至少一种。
在确定待评估POI名称的描述特征之前,可以对预设POI名称库中的各个POI名称进行分词与语法分析处理,从而建立高频词库、结尾词词库、优质词词库、通词词库与分词关联度库等不同类型的数据库,以用于确定待评估POI名称的描述特征。为便于理解,对上述部分特征进行示例性说明,例如POI名称中出现的独词在预设POI名称库中的置信度:POI名称中KTV属于独词,在预设POI名称库中对各个POI名称进行分词得到的多个词语中,KTV出现的总次数为m,而KTV作为独词单独出现的次数为n,则KTV在预设POI名称库中的置信度可以表示为n/m;POI名称中的结尾词在预设POI名称库中的置信度:POI名称中的结尾词-词C在预设POI名称库中出现的总次数x,词C作为结尾词出现的总次数为y,则该结尾词C在预设POI名称库中的置信度可以表示为y/x。
S120、利用预先训练的POI名称评估模型,确定待评估POI名称的描述特征所属的特征类型,基于特征类型确定待评估POI名称的规范性,其中,特征类型包括规范特征类型和非规范特征类型。
示例性的,将待评估POI名称的描述特征输入POI名称评估模型后,可以将待评估POI名称的描述特征同时与评估模型中规范POI名称的描述特征和非规范POI名称的描述特征进行相似度计算或者聚类处理,确定待评估POI名称的描述特征所属的特征类型(如果是相似度计算,可以根据相似度与预设阈值的关系确定特征类型),进而确定待评估POI名称的规范性。如果待评估POI名称的描述特征属于规范特征类型,则待评估POI名称的评估结果为规范POI名称;如果待评估POI名称的描述特征属于非规范特征类型,则待评估POI名称的评估结果为非规范POI名称。
对于POI名称评估模型而言,只要保证模型训练过程中可以学习到比较全面的POI名称的描述特征,在利用评估模型进行POI名称规范性评估过程中,便可实现对任意类型的待评估POI名称的规范性评估,从而达到较高的评估覆盖率,解决依赖人为制定的规范规则进行评估过程中评估覆盖率较低的局限性;在通过模型训练可以学习各种类型的POI名称的描述特征的基础上,也无需依赖人工频繁地进行规范规则的修改,因而可以降低POI名称规范性评估的维护成本,节省人力成本和时间成本。
可选的,该方法还包括:利用预设验证条件,对利用POI名称评估模型确定的评估结果进行验证,从而根据验证结果确定待评估POI名称的最终评估结果,其中,预设验证条件由用户基于特定的POI命名需求而设置,具体可以通过对大量POI名称的统计分析而得到,例如在特定情况下规范POI名称中可以包括错别字或者可以包括特定的符号等。通过进一步验证,可以排除名称规范性评估中的个别例外情况,确保关于待评估POI名称的规范性评估结果的可靠性。
例如,利用POI名称评估模型确定待评估POI名称A属于规范POI名称,当利用预设验证条件对其评估结果进行验证时,如果确认待评估POI名称A的描述特征不符合该预设验证条件,即评估模型确定的评估结果没有通过验证(即利用预设验证条件确定的评估结果与利用评估模型确定的评估结果不一致),则可以最终将该待评估POI名称A确定为非规范POI名称,否则评估模型确定的评估结果通过验证,仍确定待评估POI名称A为规范POI名称;或者,利用POI名称评估模型确定待评估POI名称A属于非规范POI名称,当利用预设验证条件对其评估结果进行验证时,如果确认待评估POI名称A的描述特征是符合该预设验证条件的,即评估模型确定的评估结果没有通过验证,则可以最终将该待评估POI名称A确定为规范POI名称,否则仍确定待评估POI名称A为非规范POI名称。
本实施例的技术方案通过构建地图情报信息中待评估POI名称的描述特征,利用预先训练的POI名称评估模型,确定待评估POI名称的描述特征所属的特征类型,基于特征类型确定待评估POI名称的规范性,使得符合规范性要求的POI名称才可以用在地图产品中,确保了地图应用中的POI数据质量,实现了对地图情报信息中各种POI名称的规范性的自动评估,提高了评估效率;解决了依赖人为制定规则进行POI名称规范性评估时评估覆盖率较低以及评估维护成本较高的问题,基于POI名称评估模型提高了对各种类型的POI名称的评估覆盖率,降低了POI名称规范性评估的维护成本。
实施例二
图2是本发明实施例二提供的POI名称规范性评估方法的流程图,本实施例是在上述实施例的基础上进一步进行优化。如图2所示,该方法可以包括:
S210、分别对多个样本POI名称进行特征分析,得到每个样本POI名称的描述特征,其中,描述特征包括POI名称的基础特征、POI名称中各词语的词语特征以及POI名称中各词语的词性特征。
本实施例中,关于样本POI名称的描述特征构建与待评估POI名称的描述特征构建过程相同,描述特征所包含的内容也相同,具体可以参考上述实施例中的描述。样本POI名称可以是指预设POI名称库中所包括的全部或者部分POI名称。
可选的,在分别对多个样本POI名称(多个指两个及以上)进行特征分析之前,POI名称评估模型的训练过程还包括:分别对多个样本POI名称进行归一化处理,其中,归一化处理包括字体简体与繁体之间的转化、字符大写与小写之间的转化、字符全角与半角之间的转化和字符之间空白的压缩中的至少一种。例如,将多个样本POI名称中的繁体字统一转化为简体字,将大写英文字母统一转化为小写英文字母,将字符全角转化为半角以及删除字符之间的空白等。通过POI名称归一化处理,可以确保后续特征分析的准确性。同样的,在对待评估POI名称进行特征分析之前,也可以对待评估POI名称进行上述归一化处理。
S220、将每个样本POI名称的规范性标注结果作为输出,并将每个样本POI名称的描述特征作为输入,利用机器学习训练POI名称评估模型。
其中,每个POI名称的规范性标注结果包括规范POI名称或者非规范POI名称。规范POI名称的描述特征属于规范特征类型,非规范POI名称的描述特征属于非规范特征类型。模型训练过程中所采用的机器学习方法可以是分类学习方法,包括但不限于k近邻法算法(k-nearest neighbor,kNN)、随机森林算法(Random Forest)、朴素贝叶斯分类算法(GaussianNB)、梯度提升算法(Gradient Boosting)和支持向量机分类算法(SupportVector Machine)等。POI名称评估模型可以是二分类模型。
S230、对待评估POI名称进行特征分析,得到待评估POI名称的描述特征。
S240、利用预先训练的POI名称评估模型,确定待评估POI名称的描述特征所属的特征类型,基于特征类型确定待评估POI名称的规范性,其中,特征类型包括规范特征类型和非规范特征类型。
在上述技术方案的基础上,可选的,如果预先训练的POI名称评估模型的数量为多个,则利用预先训练的POI名称评估模型,确定待评估POI名称的描述特征所属的特征类型,基于特征类型确定待评估POI名称的规范性,包括:
利用每个POI名称评估模型,确定待评估POI名称的描述特征所属的特征类型,基于特征类型确定待评估POI名称的规范性;
根据每个POI名称评估模型确定的评估结果以及每个POI名称评估模型的置信度,确定待评估POI名称的规范性的目标评估结果。
POI名称评估模型的置信度可以用于衡量其确定的评估结果的准确性。示例性的,可以利用上述每个分类方法训练一个对应的POI名称评估模型,根据多个POI名称评估模型的置信度,将置信度最高的评估模型确定的评估结果作为待评估POI名称的目标评估结果;或者,根据各个POI名称评估模型的置信度,为对应的评估结果设置相应权重值,将属于相同类型的评估结果的各权重进行求和,从而得到两类评估结果(规范POI名称和不规范POI名称)对应的权重总和,将权重总和较大的一类评估结果确定为待评估POI名称的目标评估结果。
进一步的,还可以利用预设验证条件,对利用待评估POI名称的规范性的目标评估结果进行验证,从而根据验证结果确定待评估POI名称的最终评估结果,其中,预设验证条件由用户基于特定的POI命名需求而设置。
本实施例的技术方案通过利用预先训练的POI名称评估模型,确定地图情报信息中待评估POI名称的描述特征所属的特征类型,基于特征类型确定待评估POI名称的规范性,使得符合规范性要求的POI名称才可以用在地图产品中,确保了地图应用中的POI数据质量,实现了对地图情报信息中各种POI名称的规范性的自动评估,提高了评估效率;解决了依赖人为制定规则进行POI名称规范性评估时评估覆盖率较低以及评估维护成本较高的问题,基于POI名称评估模型提高了对各种类型的POI名称的评估覆盖率,降低了POI名称规范性评估的维护成本。
实施例三
图3是本发明实施例三提供的POI名称规范性评估装置的结构示意图,本实施例可适用于对采集的地图情报信息中的POI名称是否符合当前地图产品所要求的命名规范性,进行评估的情况。该装置可以采用软件和/或硬件的方式实现,并可集成在任意的具有计算能力的设备上,包括但不限于服务器等。
如图3所示,本实施例提供的POI名称规范性评估装置包括特征分析模块310和评估结果确定模块320,其中:
特征分析模块310,用于对待评估POI名称进行特征分析,得到待评估POI名称的描述特征,其中,描述特征包括POI名称的基础特征、POI名称中各词语的词语特征以及POI名称中各词语的词性特征;
评估结果确定模块320,用于利用预先训练的POI名称评估模型,确定待评估POI名称的描述特征所属的特征类型,基于特征类型确定待评估POI名称的规范性,其中,特征类型包括规范特征类型和非规范特征类型。
可选的,特征分析模块310具体用于:
利用分词算法和语法分析算法对待评估POI名称进行特征分析,得到待评估POI名称的描述特征。
可选的,该装置还包括POI名称评估模型训练模块,包括:
样本POI名称特征分析单元,用于分别对多个样本POI名称进行特征分析,得到每个样本POI名称的描述特征;
模型训练单元,用于将每个样本POI名称的规范性标注结果作为输出,并将每个样本POI名称的描述特征作为输入,利用机器学习训练POI名称评估模型。
可选的,POI名称评估模型训练模块还包括归一化处理单元,用于:
在样本POI名称特征分析单元执行分别对多个样本POI名称进行特征分析的操作之前,分别对多个样本POI名称进行归一化处理,其中,归一化处理包括字体简体与繁体之间的转化、字符大写与小写之间的转化、字符全角与半角之间的转化和字符之间空白的压缩中的至少一种。
可选的,如果预先训练的POI名称评估模型的数量为多个,则评估结果确定模块320包括:
各评估模型评估结果确定单元,用于利用每个POI名称评估模型,确定待评估POI名称的描述特征所属的特征类型,基于特征类型确定待评估POI名称的规范性;
目标评估结果确定单元,用于根据每个POI名称评估模型确定的评估结果以及每个POI名称评估模型的置信度,确定待评估POI名称的规范性的目标评估结果。
可选的,该装置还包括:
评估结果验证模块,用于利用预设验证条件,对利用POI名称评估模型确定的评估结果进行验证,其中,预设验证条件由用户基于特定的POI命名需求而设置。
可选的,特征分析模块310或者样本POI名称特征分析单元确定的POI名称的描述特征包括:
POI名称的基础特征包括:POI名称中各种字符的占比、POI名称的字符总长度和POI名称的描述信息;
POI名称中各词语的词语特征包括:POI名称经分词得到的词语总数量、POI名称经分词得到的每个词语在预设POI名称库中出现的词频和、POI名称经分词得到的相邻词语之间的关联性特征、POI名称经分词得到的各个词语之间的紧密度、POI名称中属于指定类型词的词语特征以及POI名称中结尾词特征;
POI名称中各词语的词性特征包括:各种词性的词语在POI名称中的占比以及POI名称是否以名词作为结尾词。
进一步的,POI名称中属于指定类型词的词语特征包括POI名称中属于高频词的词语在该POI名称中的占比、POI名称中出现的独词在预设POI名称库中的置信度以及POI名称中出现的优质词在该POI名称中的占比中的至少一种;
POI名称中结尾词特征包括POI名称中结尾词是否为高频词以及POI名称中的结尾词在预设POI名称库中的置信度中的至少一种。
本发明实施例所提供的POI名称规范性评估装置可执行本发明任意实施例所提供的POI名称规范性评估方法,具备执行方法相应的功能模块和有益效果。本实施例中未详尽描述的内容可以参考本发明任意方法实施例中的描述。
实施例四
图4是本发明实施例四提供的一种设备的结构示意图。图4示出了适于用来实现本发明实施方式的示例性设备412的框图。图4显示的设备412仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。设备412可以是任意的具有计算能力的设备,包括但不限于服务器。
如图4所示,设备412以通用设备的形式表现。设备412的组件可以包括但不限于:一个或者多个处理器416,存储装置428,连接不同系统组件(包括存储装置428和处理器416)的总线418。
总线418表示几类总线结构中的一种或多种,包括存储装置总线或者存储装置控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry SubversiveAlliance,ISA)总线,微通道体系结构(Micro Channel Architecture,MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics Standards Association,VESA)局域总线以及外围组件互连(Peripheral Component Interconnect,PCI)总线。
设备412典型地包括多种计算机系统可读介质。这些介质可以是任何能够被设备412访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储装置428可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory,RAM)430和/或高速缓存存储器432。设备412可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统434可以用于读写不可移动的、非易失性磁介质(图4未显示,通常称为“硬盘驱动器”)。尽管图4中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘,例如只读光盘(Compact Disc Read-Only Memory,CD-ROM),数字视盘(Digital Video Disc-Read Only Memory,DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线418相连。存储装置428可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块442的程序/实用工具440,可以存储在例如存储装置428中,这样的程序模块442包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块442通常执行本发明所描述的实施例中的功能和/或方法。
设备412也可以与一个或多个外部设备414(例如键盘、指向终端、显示器424等)通信,还可与一个或者多个使得用户能与该设备412交互的终端通信,和/或与使得该设备412能与一个或多个其它计算终端进行通信的任何终端(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口422进行。并且,设备412还可以通过网络适配器420与一个或者多个网络(例如局域网(Local Area Network,LAN),广域网(Wide Area Network,WAN)和/或公共网络,例如因特网)通信。如图4所示,网络适配器420通过总线418与设备412的其它模块通信。应当明白,尽管图中未示出,可以结合设备412使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of Independent Disks,RAID)系统、磁带驱动器以及数据备份存储系统等。
处理器416通过运行存储在存储装置428中的程序,从而执行各种功能应用以及数据处理,例如实现本发明任意实施例所提供的POI名称规范性评估方法,该方法可以包括:
对待评估POI名称进行特征分析,得到所述待评估POI名称的描述特征,其中,所述描述特征包括POI名称的基础特征、POI名称中各词语的词语特征以及POI名称中各词语的词性特征;
利用预先训练的POI名称评估模型,确定所述待评估POI名称的描述特征所属的特征类型,基于所述特征类型确定所述待评估POI名称的规范性,其中,所述特征类型包括规范特征类型和非规范特征类型。
实施例五
本发明实施例五还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例所提供的POI名称规范性评估方法,该方法可以包括:
对待评估POI名称进行特征分析,得到所述待评估POI名称的描述特征,其中,所述描述特征包括POI名称的基础特征、POI名称中各词语的词语特征以及POI名称中各词语的词性特征;
利用预先训练的POI名称评估模型,确定所述待评估POI名称的描述特征所属的特征类型,基于所述特征类型确定所述待评估POI名称的规范性,其中,所述特征类型包括规范特征类型和非规范特征类型。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或终端上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种POI名称规范性评估方法,其特征在于,包括:
对待评估POI名称进行特征分析,得到所述待评估POI名称的描述特征,其中,所述描述特征包括POI名称的基础特征、POI名称中各词语的词语特征以及POI名称中各词语的词性特征;所述POI名称的基础特征包括:POI名称中各种字符的占比、POI名称的字符总长度和POI名称的描述信息;所述POI名称中各词语的词语特征包括:POI名称经分词得到的词语总数量、POI名称经分词得到的每个词语在预设POI名称库中出现的词频和、POI名称经分词得到的相邻词语之间的关联性特征、POI名称经分词得到的各个词语之间的紧密度、POI名称中属于指定类型词的词语特征以及POI名称中结尾词特征;所述POI名称中各词语的词性特征包括:各种词性的词语在POI名称中的占比以及POI名称是否以名词作为结尾词;
利用预先训练的POI名称评估模型,确定所述待评估POI名称的描述特征所属的特征类型,基于所述特征类型确定所述待评估POI名称的规范性,其中,所述特征类型包括规范特征类型和非规范特征类型。
2.根据权利要求1所述的方法,其特征在于,所述对待评估POI名称进行特征分析包括:
利用分词算法和语法分析算法对所述待评估POI名称进行特征分析。
3.根据权利要求1所述的方法,其特征在于,所述POI名称评估模型的训练过程包括:
分别对多个样本POI名称进行特征分析,得到每个样本POI名称的描述特征;
将所述每个样本POI名称的规范性标注结果作为输出,并将所述每个样本POI名称的描述特征作为输入,利用机器学习训练所述POI名称评估模型。
4.根据权利要求3所述的方法,其特征在于,在所述分别对多个样本POI名称进行特征分析之前,所述POI名称评估模型的训练过程还包括:
分别对所述多个样本POI名称进行归一化处理,其中,所述归一化处理包括字体简体与繁体之间的转化、字符大写与小写之间的转化、字符全角与半角之间的转化和字符之间空白的压缩中的至少一种。
5.根据权利要求1所述的方法,其特征在于,如果所述预先训练的POI名称评估模型的数量为多个,则所述利用预先训练的POI名称评估模型,确定所述待评估POI名称的描述特征所属的特征类型,基于所述特征类型确定所述待评估POI名称的规范性,包括:
利用每个POI名称评估模型,确定所述待评估POI名称的描述特征所属的特征类型,基于所述特征类型确定所述待评估POI名称的规范性;
根据所述每个POI名称评估模型确定的评估结果以及所述每个POI名称评估模型的置信度,确定所述待评估POI名称的规范性的目标评估结果。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
利用预设验证条件,对利用所述POI名称评估模型确定的评估结果进行验证,其中,所述预设验证条件由用户基于特定的POI命名需求而设置。
7.根据权利要求1所述的方法,其特征在于:
所述POI名称中属于指定类型词的词语特征包括POI名称中属于高频词的词语在该POI名称中的占比、POI名称中出现的独词在所述预设POI名称库中的置信度以及POI名称中出现的优质词在该POI名称中的占比中的至少一种;
所述POI名称中结尾词特征包括POI名称中结尾词是否为高频词以及POI名称中的结尾词在所述预设POI名称库中的置信度中的至少一种。
8.一种POI名称规范性评估装置,其特征在于,包括:
特征分析模块,用于对待评估POI名称进行特征分析,得到所述待评估POI名称的描述特征,其中,所述描述特征包括POI名称的基础特征、POI名称中各词语的词语特征以及POI名称中各词语的词性特征;所述POI名称的基础特征包括:POI名称中各种字符的占比、POI名称的字符总长度和POI名称的描述信息;所述POI名称中各词语的词语特征包括:POI名称经分词得到的词语总数量、POI名称经分词得到的每个词语在预设POI名称库中出现的词频和、POI名称经分词得到的相邻词语之间的关联性特征、POI名称经分词得到的各个词语之间的紧密度、POI名称中属于指定类型词的词语特征以及POI名称中结尾词特征;所述POI名称中各词语的词性特征包括:各种词性的词语在POI名称中的占比以及POI名称是否以名词作为结尾词;
评估结果确定模块,用于利用预先训练的POI名称评估模型,确定所述待评估POI名称的描述特征所属的特征类型,基于所述特征类型确定所述待评估POI名称的规范性,其中,所述特征类型包括规范特征类型和非规范特征类型。
9.一种设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的POI名称规范性评估方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的POI名称规范性评估方法。
CN201910678495.6A 2019-07-25 2019-07-25 Poi名称规范性评估方法、装置、设备和存储介质 Active CN110442714B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910678495.6A CN110442714B (zh) 2019-07-25 2019-07-25 Poi名称规范性评估方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910678495.6A CN110442714B (zh) 2019-07-25 2019-07-25 Poi名称规范性评估方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN110442714A CN110442714A (zh) 2019-11-12
CN110442714B true CN110442714B (zh) 2022-05-27

Family

ID=68431609

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910678495.6A Active CN110442714B (zh) 2019-07-25 2019-07-25 Poi名称规范性评估方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN110442714B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112559663B (zh) * 2020-12-15 2024-03-08 北京百度网讯科技有限公司 Poi数据处理方法、装置、设备、存储介质和程序产品

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103336766A (zh) * 2013-07-04 2013-10-02 微梦创科网络科技(中国)有限公司 短文本垃圾识别以及建模方法和装置
CN105893632A (zh) * 2016-06-02 2016-08-24 腾讯科技(深圳)有限公司 道路名称的数据编译方法、地图标注方法和装置
CN107220355A (zh) * 2017-06-02 2017-09-29 北京百度网讯科技有限公司 基于人工智能的新闻质量判断方法、设备及存储介质
CN107491432A (zh) * 2017-06-20 2017-12-19 北京百度网讯科技有限公司 基于人工智能的低质量文章识别方法及装置、设备及介质
CN109460455A (zh) * 2018-10-25 2019-03-12 第四范式(北京)技术有限公司 一种文本检测方法及装置
CN110008300A (zh) * 2019-04-11 2019-07-12 北京百度网讯科技有限公司 Poi别名的确定方法、装置、计算机设备和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103336766A (zh) * 2013-07-04 2013-10-02 微梦创科网络科技(中国)有限公司 短文本垃圾识别以及建模方法和装置
CN105893632A (zh) * 2016-06-02 2016-08-24 腾讯科技(深圳)有限公司 道路名称的数据编译方法、地图标注方法和装置
CN107220355A (zh) * 2017-06-02 2017-09-29 北京百度网讯科技有限公司 基于人工智能的新闻质量判断方法、设备及存储介质
CN107491432A (zh) * 2017-06-20 2017-12-19 北京百度网讯科技有限公司 基于人工智能的低质量文章识别方法及装置、设备及介质
CN109460455A (zh) * 2018-10-25 2019-03-12 第四范式(北京)技术有限公司 一种文本检测方法及装置
CN110008300A (zh) * 2019-04-11 2019-07-12 北京百度网讯科技有限公司 Poi别名的确定方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN110442714A (zh) 2019-11-12

Similar Documents

Publication Publication Date Title
CN107992596B (zh) 一种文本聚类方法、装置、服务器和存储介质
CN106683680B (zh) 说话人识别方法及装置、计算机设备及计算机可读介质
CN106897439B (zh) 文本的情感识别方法、装置、服务器以及存储介质
CN110334209B (zh) 文本分类方法、装置、介质及电子设备
CN110276023B (zh) Poi变迁事件发现方法、装置、计算设备和介质
CN109947924B (zh) 对话系统训练数据构建方法、装置、电子设备及存储介质
CN110083832B (zh) 文章转载关系的识别方法、装置、设备及可读存储介质
CN111368878B (zh) 一种基于ssd目标检测的优化方法、计算机设备和介质
CN111143556A (zh) 软件功能点自动计数方法、装置、介质及电子设备
CN115359799A (zh) 语音识别方法、训练方法、装置、电子设备及存储介质
CN111126084B (zh) 数据处理方法、装置、电子设备和存储介质
CN111354354B (zh) 一种基于语义识别的训练方法、训练装置及终端设备
CN112613293B (zh) 摘要生成方法、装置、电子设备及存储介质
CN110442714B (zh) Poi名称规范性评估方法、装置、设备和存储介质
CN116402166B (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
CN111062208B (zh) 一种文件审核的方法、装置、设备及存储介质
CN115858776B (zh) 一种变体文本分类识别方法、系统、存储介质和电子设备
CN111460224A (zh) 评论数据的质量标注方法、装置、设备及存储介质
CN114691907B (zh) 一种跨模态检索的方法、设备及介质
CN114118049B (zh) 信息获取方法、装置、电子设备及存储介质
CN113177479B (zh) 图像分类方法、装置、电子设备及存储介质
CN112989040B (zh) 一种对话文本标注方法、装置、电子设备及存储介质
CN115292008A (zh) 用于分布式系统的事务处理方法、装置、设备及介质
CN117573956B (zh) 元数据管理方法、装置、设备及存储介质
CN112634863B (zh) 一种语音合成模型的训练方法、装置、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant