CN111310444A

CN111310444A - 一种公园景观服务识别方法

Info

Publication number: CN111310444A
Application number: CN202010048814.8A
Authority: CN
Inventors: 王志芳; 缪应璐; 朱钟炜; 周瑶瑾; 王思睿
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2020-01-16
Filing date: 2020-01-16
Publication date: 2020-06-19

Abstract

本发明公开了一种公园景观服务识别方法，该方法包括：获取点评文本数据，对所述点评文本数据进行分词和词频统计；提取高频词，形成基础词库；建立词典。该方法还包括获取公园待识别点评文本数据，对待识别点评文本数据进行分词处理，得到待识别词汇，将待识别词汇与词典进行匹配，对待识别词汇所述景观服务类别进行标记。本发明所提供的公园景观服务识别方法简单，能够自动识别公众关注的景观服务类别，且采用现有点评软件获取数据，数据量大且获取方便快捷，通过该识别方法可使得公众加入到公园的建设中，同时方便公园行政者能够进一步加强对公园的管理和完善。

Description

一种公园景观服务识别方法

技术领域

本发明涉及景观服务领域，具体涉及一种公园景观服务识别方法。

背景技术

随着社会的进步、经济的发展和人们生态环境意识的提高，人们对于公园生态景观服务的要求也越来越高。公园建设是城市绿化的重要组成部分，一般通过使用者对公园生态服务的评价或感知，获得人们对于公园景观服务的关注点，从而有利于进一步为公园的景观服务建设提供决策支持，加强对公园的管理和完善。

目前从使用者感知的角度进行景观服务识别的方式主要包括：专家打分，通过建立专家打分指标，对生态系统服务进行打分，但专家打分这种方式专业性较强，结论需要专业人士的分析解读，不够直观的反应使用者感知状况，数据获取困难，不能普及；传统的问卷和访谈法，通过访谈将生态系统服务方面的科学语言转译成大众可接受的语言，来获取人们对生态服务的感知情况，采用传统人工调研数据进行分析，耗时耗力，难度较大，且使用者易受问卷调研者引导和误导导致信息有偏差；简单的社交媒体，通过人工阅读的方式将人们对公园的评价进行解译，该种方式耗费时间和大量人力，无法处理大量的数据。

因此，亟需开发一种公园景观服务识别方法。

发明内容

为了克服上述问题，本发明人进行了锐意研究，该方法包括：获取点评文本数据，对所述点评文本数据进行分词和词频统计；提取高频词，形成基础词库；建立词典。该方法还包括获取公园待识别点评文本数据，对待识别点评文本数据进行分词处理，得到待识别词汇，将待识别词汇与词典进行匹配，对待识别词汇所述景观服务类别进行标记。本发明所提供的公园景观服务识别方法简单，能够自动识别公众关注的景观服务类别，且采用现有点评软件获取数据，数据量大且获取方便快捷，通过该识别方法可使得公众加入到公园的建设中，同时方便公园行政者能够进一步加强对公园的管理和完善，从而完成本发明。

本发明的目的在于提供一种公园景观服务识别方法，所述方法包括：

获取点评文本数据，

对所述点评文本数据进行分词和词频统计；

提取高频词，形成基础词库；

建立词典。

所述点评文本数据为大众对公园的评论文本数据，优选采用Python工具获取点评文本数据，

对所述点评文本数据进行分词后，对分词结果进行词频统计，得到每个分词结果对应的词频。

所述分词采用分词工具进行，优选采用基于Python的jieba(结巴)分词工具，例如jieba分词工具，所述词频统计利用Python工具进行。

根据词频统计结果，提取高频词，根据公园景观服务，对高频词进行筛选，形成基础词库，优选地，所述高频词为与景观服务相关的词。

公园景观服务的功能服务包括供给服务、调节服务、支持服务和文化服务，

所述供给服务的景观服务类别包括水源供给、原材料供给和能源供给，

所述调节服务的景观服务类别包括空气质量调节、气候调节、水资源调节和灾害调节，

所述支持服务的景观服务类别包括生物多样性，

所述文化服务的景观服务类别包括美学欣赏、教育价值、娱乐休闲、精神体验、历史文化价值、宗教价值和社会关系。

根据景观服务类别，将高频词筛选进各类功能服务及对应的景观服务类别下形成基础词库，基础词库中的词记为原始词汇，优选采用人工聚类的方式进行筛选。

所述建立词典包括：形成基础词库后，对原始词汇进行扩充，优选采用Word2vec进行词汇扩充，形成扩充词库，再对扩充词库进行筛选，筛选后的扩充词库形成词典。

以基础词库中的词汇为原始词汇，每个原始词汇扩充后得到扩充词汇，所述扩充词汇形成扩充词库，采用人工聚类的方式对所述扩充词库中不符合要求的扩充词汇进行删除，经过筛选后的扩充词汇形成词典，

所述扩充词汇与原始词汇的相似系数不低于0.9。

所述方法还包括：获取公园待识别点评文本数据，对待识别点评文本数据分词，得到待识别词汇，

优选地，所述公园待识别点评文本通过Python工具从点评软件中爬取，

采用jieba分词工具对待识别点评文本进行分词。

将待识别点评文本得到的待识别词汇与词典中的词汇进行匹配，若待识别词汇与词典中的词汇一致，则对该待识别词汇对应的景观服务类别进行标记。

本发明所具有的有益效果为：

(1)本发明通过建立词典的方法，对待识别点评文本进行分析，能够处理大量数据，省时省力；

(2)本发明针对大众对公园的点评评论，能够有效的对相应公园的景观服务评论进行分析，经过与建立的公园景观服务的词典进行比对，能够较准确且直观的得到大众对公园景观服务水平的整体感知状况；

(3)本发明所提供的景观服务识别方法能够自动识别公众关注的景观服务类别，使公众参与到公园的建设中来，同时对公园的管理和完善提供指导性建议；

(4)本发明的识别方法简单，数据获取方便快捷，结果直观准确，适用于大规模推广普及。

附图说明

图1示出本发明一种优选实施方式形成的高频词云；

图2示出本发明一种优选实施方式的公园景观服务识别方法流程示意图；

图3示出本发明一种优选实施方式建立词典的过程示意图。

具体实施方式

下面通过附图和优选实施方式对本发明进一步详细说明。通过这些说明，本发明的特点和优点将变得更为清楚明确。

本发明提供一种公园景观服务识别方法，该方法主要适用于了解公众对于公园生态系统服务供给水平的整体感知，通过获取使用者发表的点评文本，对点评文本中涉及的具体服务类型进行识别分析，从而得到使用者对服务类型的关注。

根据本发明，该公园景观服务识别方法，包括：

获取点评文本数据，

对点评文本数据进行分词和词频统计；

提取高频词，形成基础词库；

建立词典。

根据本发明，点评文本数据为大众对公园的评论文本数据，获取点评文本数据的方式可从各种点评软件中获取，点评软件如大众点评、美团网等，点评软件的点评文本数据量大且数据获取方便快捷，数据较全面，可获取得到公众对公园的点评内容。

根据本发明，采用Python工具爬取点评文本数据。

根据本发明，获取点评文本数据后，对点评文本数据进行分词处理，并对分词结果进行词频统计，得到每个分词结果对应的词频。

根据本发明优选的实施方式，采用分词工具对点评文本数据进行分词处理，优选采用基于Python的jieba(结巴)分词工具对爬取的点评文本数据进行分词处理，并对分词结果进行词频统计，得到每个分词结果对应的词频。

根据本发明优选的实施方式，在分词处理前对点评文本数据进行清洗处理，例如去除表情符号、网页链接等，去除数据噪声。

本发明中，点评文本数据经过分词处理后，得到分词后的词汇。

根据本发明优选的实施方式，采用Python对分词后的词汇进行词频统计，得到词汇的词频。

根据本发明，根据点评文本分词处理后的词汇的词频统计结果，提取高频词。

根据本发明，根据词频统计结果，优选地，提取频次大于100次的词汇，然后根据人工筛选的方式，筛选出与公园景观服务相关的词，即为所提取的高频词。

根据本发明一种优选的实施方式，利用Python在大众点评获取北京50个公园的点评文本数据，对点评文本数据进行分词和词频统计后，提取高频词，例如提取的表1为100个高频词及频次。

表1

根据本发明，根据表1，采用Word Art文本在线可视化工具制作高频电子云，如图1所示，以初步了解使用者对北京城市公园的粗略感知形象。

根据本发明，公园景观服务的整体功能服务包括供给服务、调节服务、支持服务和文化服务。

根据本发明，供给服务的景观服务类别包括食物供给、水源供给、原材料供给和能源供给，

调节服务的景观服务类别包括空气质量调节、气候调节、水资源调节和灾害调节，

支持服务的景观服务类别包括生物多样性，

文化服务的景观服务类别包括美学欣赏、教育价值、娱乐休闲、精神体验、历史文化价值、宗教价值和社会关系。

根据本发明优选的实施方式，供给服务的原分类包括食物、淡水、生物化学品、燃料、遗传资源和纤维。其中，食物的归类结果为食物供给，淡水归类为水源供给，生物化学品归类为原材料供给，燃料归类为能源供给。遗传资源和纤维难以直接通过大众语言表述传递，在点评文本中不易出现，可不予考虑。

根据本发明，食物供给的评价指标层包括农作物、家畜、捕鱼、水产养殖、野生生物等；水源供给的评价指标层为淡水资源；原材料供给的评价指标层包括原木、棉花、大麻、蚕丝、薪柴等；能源供给的评价指标层包括木材、风能等。

根据本发明，根据供给服务中各个服务类别中的各个评价指标层，确定关键词所属的类别。

根据本发明，调节服务的原分类包括调节大气质量、调节气候、净化水、调节自然灾害、调节疾病、调节病虫害、授粉作用、减轻侵蚀。其中，调节疾病、调节病虫害、授粉作用和减轻侵蚀在点评文本中不易出现，且难以通过大众语言表述传递，参考价值不大。

根据本发明，调节大气质量归类为空气质量调节，调节气候归类为气候调节，净化水归类为水资源调节；调节自然灾害归类为灾害调节。

根据本发明，空气质量调节的评价指标层包括空气清新、空气污染、改善空气质量等；气候调节的评价指标层包括温度调节、热舒适性等；气候调节的评价指标层包括水峰值平衡、雨水吸收、洪水控制和净化水质等；灾害调节的评价指标层包括缓冲地质灾害、阻隔灾害蔓延、给地震等灾害提供避难场所。

根据本发明，支持服务原分类包括生物多样性、营养物质循环和初级生产，其中，营养物质循环和初级生产难以直接通过大众语言表述传递，在点评文本中不易出现。

根据本发明，生物多样性归类为生物多样性，生物多样性的评价指标层包括提供栖息地、生产生物量。

根据本发明，文化服务原分类包括灵感、审美价值、知识系统、教育价值、休闲和生态旅游、精神、宗教价值、地方感，社会联系等。

根据本发明，灵感和审美价值归类为美学欣赏，知识系统和教育价值归类为教育价值，休闲和生态旅游归类为娱乐休闲，精神归类为精神体验，宗教价值归类为宗教价值，地方感归类为历史文化价值，社会联系归类为社会关系。

根据本发明，美学欣赏的评价指标层包括灵感和审美欣赏；教育价值的评价指标层包括科普；娱乐休闲的评价指标层包括锻炼、体育；精神体验的指标层包括放松、压力减少，地方感和认同感，亲生命性，对于自然的爱；历史文化价值的评价指标层包括文化遗产；宗教价值的评价指标层包括烧香和庙会；社会关系的评价指标层包括社交/社会融合。

本发明中，评价指标层可用于评价词语属性，也就是对于某一种指标层的释义。

根据本发明，根据公园景观服务类别对提取的高频词进行筛选，得到与公园景观服务相关的高频词，优选地，根据评价指标层，将高频词筛选进公园景观服务的各类功能服务及对应的景观服务类别中，形成基础词库，基础词库中的词记为原始词汇。

本发明中，基础词库中，如果存在描述不完整或明显描述方式不恰当的，可通过人工进行修改完善。还可根据经验和专业知识，对基础词库中的词汇进行补充。

根据本发明，对高频词进行筛选，优选通过人工聚类的方式进行，根据公园景观服务，将高频词筛选进各类功能服务及其对应的景观服务类别下形成基础词库，基础词库中的词汇按照景观服务类别分类，每个词汇均对应有一个景观服务类别。

本发明中，人工聚类的方式即通过人工阅读所有高频词汇，根据词语意思人工判断词语属于哪一指标层及所述的景观服务类别。

根据本发明优选的实施方式，针对各个景观服务类别的基础词库及基础词库词量如表2所示。

表2

根据本发明，建立词典包括：形成基础词库后，对原始词汇进行扩充，优选采用Word2vec模型进行扩充，形成扩充词库，再对扩充词库进行筛选，完成词典的建立。

根据本发明，采用Word2vec模型对基础词库进行扩充，针对基础词库中的每个词汇，以每个词汇为原始词汇，扩充成多个意思相近似的词汇，扩充的词汇形成扩充词库，由原始词汇所得到的扩充词汇与原始词汇的相似系数不低于0.9，优选不低于0.95。

本发明中，Word2vec模型是通过将词汇转换为词向量，根据不同词汇的词向量的比对，得到词汇的相似系数(相似度)，以实现对词汇的扩充，即对基础词库的扩充。

根据本发明，得到扩充词库后，通过人工聚类筛选的方式对扩充词库中的扩充词汇进行筛选，对与公园景观服务无关的扩充词汇进行删除，筛选出与公园景观服务相关的词汇，并将该扩充词汇归类为与原始词汇同一服务类别，由此形成最终的词典。例如，以基础词库中的消夏为原始词汇，通过扩充，得到的扩充词汇包括：“消夏、调养、保养、颐养、将养、养生、将息、调理、摄生、保健、安享、清心、消暑、纳凉、度假、避暑、消遣、休闲、休憩、休闲活动、老少皆宜、绝好”，采用人工聚类筛选方式对扩充词汇进行人工筛选，得到最终的原始词汇和扩充词汇包括：“消夏、消暑、纳凉、避暑、消遣”。

本发明中，如图3所示为由基础词库得到词典的过程，首先根据基础词库中的词汇，扩充得到阶段1的词汇，以大于等于0.95的相似度为标准，得到满足条件的词汇，如A1、A2、A3，…..，然后根据阶段1中满足条件的词汇，继续扩充得到阶段2的词汇，以大于等于0.95的相似度为标准，得到满足条件的词汇，如A11、A12，……，以此类推，得到阶段5的词汇，即得到扩充词库，然后通过人工筛选即人工根据语义进行判断，删除不符合项和重复项，并将筛选后的词汇归属到不同的景观服务类别中，即不同的指标栏(包括指标1，指标2，指标3……)中，完成词典的建立。

根据本发明一种优选的实施方式，如图2所示，以Python提取的北京某一公园的一个点评文本为例：“风景很美，很适合小孩子和老人家，看风景的话还是很合适了，玫瑰花也很多，湖里养着很多小鱼，就是没有照到太多照片，还有很多风景没有照到，就是去到玫瑰园，小蚊子有很多，要去的话，一定要穿长一点的裤子，裙子，因为我穿长裙还是咬到了，二天还没好”；

采用基于Python的jieba(结巴)分词工具对上述点评文本进行分词，类似的爬取多条点评文本数据，然后采用Python对所得高频词进行提取并进行词频统计，并对高频词进行人工筛选和分类，将高频词归属为不同的景观服务类别，形成基础词库，例如，高频词“风景”和“美”归为美学欣赏，“照太多”“照片”为娱乐休闲服务类别，“小孩子”、“老人家”为社会关系服务类别，“玫瑰花”、“小鱼”、“蚊子”为生物多样性服务类别；

针对所得基础词库，采用Word2vec模型对基础词库进行扩充，如图2中，以“美”为例，扩充出一系列的词汇，然后采用人工聚类筛选的方式将与公园景观服务相关的词汇筛选出来，将不符合要求的词汇删除，即删除与景观服务无关的词汇，形成最终词典，并将扩充筛选出的词汇归类为原始词汇所属的服务类别中，由此，建立最终的词典。

根据本发明优选的方式，对于出现的新词，可通过人工填充的方式添加到词典中，实现对词典的词汇进行人工扩充，从而不断扩大词典的词库量，使得结果更加准确。

根据本发明，该公园景观服务方法还包括：获取待识别点评文本数据，对待识别点评文本数据进行分词处理，得到待识别词汇。

根据本发明，该点评文本数据可为各种点评软件中大众对公园的简单评论，点评软件如大众点评、美团等。

根据本发明，采用Python工具爬取公园待识别点评文本数据，利用基于Python的jieba(结巴)分词工具对爬取的点评文本数据进行分词处理，优选地在分词之前进行数据噪声清洗，分词之后进行去停用词处理。

根据本发明，待点评文本数据经过分词处理后得到待识别词汇。

本发明中，分词的目的在于将点评文本依据语义分隔标准进行切分，如：我/非常/喜欢/这个/公园。结巴分词工具具有较高的分词准确率，且分词速度极快，在处理大规模文本数据时极具优势，除分词之外，还具备如词性标注等常见的自然语言处理功能，且代码调用便捷；支持自定义加载内容(如自定义分词词典)，方便基于任务实现更好的分词效果。

本发明中，基于公园待识别点评文本数据，通过词典对待识别点评文本数据进行识别分析，以识别使用者对公园景观服务的关注点，以使公园建设者对公园景观服务进行管理及完善。

根据本发明，将待识别点评文本得到的待识别词汇与词典中的词汇进行匹配或比对，优选采用Python工具进行匹配，若待识别词汇与词典中的词汇一致，则将该待识别词汇所从属的景观服务类别进行标记，并记录频次，即记录景观服务类别+频次，从而获得待识别点评文本数据所关注的景观服务类别及其频次。

根据本发明，若待识别点评文本中出现与词典中词汇一致的待识别词汇，则将词典中词汇所从属的景观服务类别进行记频，标记为“1”，即景观服务类别+频次，若未出现，则标记为“0”，则不进行记频，由此，得到每个待识别点评文本数据所包括的景观服务的类别及频次，从而获得公众对景观服务类别的关注程度，便于对公园的景观服务进一步管理和完善。

本发明通过获取大众对公园的简单的点评文本，对待识别点评文本进行提取分析，并与词典比对，得到点评文本所关注的景观服务类别，本发明通过建立景观服务评价词典，能够处理大量的待识别公园点评文本数据，且该识别方法简单，数据获取方便快捷，准确性高，能够自动识别公众关注的公园的景观服务类别，使得公众加入到公园的建设中，同时方便公园行政者能够进一步加强对公园的管理和完善，适用于大规模推广普及。

实施例

利用Python工具在大众点评软件上爬取11.4万条公众对北京50个公园的点评文本数据；

利用结巴分词工具对爬取的点评文本数据进行分词，并利用Python工具进行词频统计；

提取频次在100次以上且与公园景观服务相关的高频词541个；

将提取的高频词通过人工筛选的方式筛选进公园景观服务的不同景观服务类别中，形成基础词库；

采用Word2vec模型对基础词库中的词汇进行扩充，得到扩充词库，并根据所属景观服务类别对扩充词库进行人工筛选，删除与景观服务无关的词汇，建立词典。

利用Python工具在大众点评上获取了3条关于奥林匹克森林公园的点评文本数据，利用结巴分词工具对点评文本数据进行分词处理，得到待识别词汇，利用Python工具将待识别词汇与词典中的词汇进行比对。

若待识别点评文本中出现了与词典中的词汇一致的待识别词汇，则将词典中词汇所从属的景观服务类别进行记频，记频规则为景观服务类别和频次，结果如下表3所示，

表3

如表3中，文本中出现相应的景观服务类别中的词汇，则对该景观服务类别进行标记，标记(记频)为1，若不出现，则标记为0，省略不写，通过对待识别点评文本中所涉及的景观服务类别的记频，得到使用者对奥林匹克森林公园景观服务的关注点，包括美学欣赏、娱乐休闲、精神体验、社会关系和空气质量调节方面，公园建设者可根据该结果对奥林匹克森林公园进行管理和完善。

以上结合优选实施方式和范例性实例对本发明进行了详细说明。不过需要声明的是，这些具体实施方式仅是对本发明的阐述性解释，并不对本发明的保护范围构成任何限制。在不超出本发明精神和保护范围的情况下，可以对本发明技术内容及其实施方式进行各种改进、等价替换或修饰，这些均落入本发明的保护范围内。本发明的保护范围以所附权利要求为准。

Claims

1.一种公园景观服务识别方法，其特征在于，所述方法包括：

获取点评文本数据，

对所述点评文本数据进行分词和词频统计；

提取高频词，形成基础词库；

建立词典。

2.根据权利要求1所述的方法，其特征在于，所述点评文本数据为大众对公园的评论文本数据，优选采用Python工具获取点评文本数据，

3.根据权利要求1或2所述的方法，其特征在于，所述分词采用分词工具进行，优选采用基于Python的jieba(结巴)分词工具，例如jieba分词工具，所述词频统计利用Python工具进行。

4.根据权利要求1所述的方法，其特征在于，根据词频统计结果，提取高频词，根据公园景观服务，对高频词进行筛选，形成基础词库，优选地，所述高频词为与景观服务相关的词。

5.根据权利要求4所述的方法，其特征在于，公园景观服务的整体功能服务包括供给服务、调节服务、支持服务和文化服务，

所述支持服务的景观服务类别包括生物多样性，

6.根据权利要求1所述的方法，其特征在于，根据公园景观服务，将高频词筛选进各类功能服务及对应的景观服务类别下形成基础词库，基础词库中的词记为原始词汇，优选采用人工聚类的方式进行筛选。

7.根据权利要求2所述的方法，其特征在于，建立词典包括：形成基础词库后，对原始词汇进行扩充，优选采用Word2vec进行词汇扩充，形成扩充词库，再对扩充词库进行筛选，筛选后的扩充词库形成词典。

8.根据权利要求6所述的方法，其特征在于，以基础词库中的词汇为原始词汇，每个原始词汇扩充后得到扩充词汇，所述扩充词汇形成扩充词库，采用人工聚类的方式对所述扩充词库中不符合要求的扩充词汇进行删除，经过筛选后的扩充词汇形成词典，

所述扩充词汇与原始词汇的相似系数不低于0.9。

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：获取公园待识别点评文本数据，对待识别点评文本数据进行分词处理，得到待识别词汇，

采用jieba分词工具对待识别点评文本进行分词。

10.根据权利要求8所述的方法，其特征在于，将待识别点评文本得到的待识别词汇与词典中的词汇进行匹配，若待识别词汇与词典中的词汇一致，则对待识别词汇或词典中的词汇对应的景观服务类别进行标记。