CN116307792B - 一种面向城市体检主题场景的评估方法及装置 - Google Patents
一种面向城市体检主题场景的评估方法及装置 Download PDFInfo
- Publication number
- CN116307792B CN116307792B CN202211248965.3A CN202211248965A CN116307792B CN 116307792 B CN116307792 B CN 116307792B CN 202211248965 A CN202211248965 A CN 202211248965A CN 116307792 B CN116307792 B CN 116307792B
- Authority
- CN
- China
- Prior art keywords
- physical examination
- topic
- evaluation
- subject
- urban
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 180
- 239000000463 material Substances 0.000 claims abstract description 113
- 238000013210 evaluation model Methods 0.000 claims abstract description 29
- 238000010276 construction Methods 0.000 claims abstract description 13
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 238000003913 materials processing Methods 0.000 claims abstract description 7
- 238000003672 processing method Methods 0.000 claims abstract description 7
- 238000004458 analytical method Methods 0.000 claims description 90
- 230000000007 visual effect Effects 0.000 claims description 89
- 238000009826 distribution Methods 0.000 claims description 44
- 238000004364 calculation method Methods 0.000 claims description 38
- 238000000034 method Methods 0.000 claims description 33
- 230000007246 mechanism Effects 0.000 claims description 23
- 238000013507 mapping Methods 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 12
- 238000001914 filtration Methods 0.000 claims description 11
- SLXKOJJOQWFEFD-UHFFFAOYSA-N 6-aminohexanoic acid Chemical compound NCCCCCC(O)=O SLXKOJJOQWFEFD-UHFFFAOYSA-N 0.000 claims description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 230000000295 complement effect Effects 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 5
- 238000005457 optimization Methods 0.000 claims description 5
- 238000011835 investigation Methods 0.000 claims description 4
- 239000013589 supplement Substances 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 9
- 238000004590 computer program Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 6
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 238000012800 visualization Methods 0.000 description 4
- 230000001276 controlling effect Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- CURLTUGMZLYLDI-UHFFFAOYSA-N Carbon dioxide Chemical compound O=C=O CURLTUGMZLYLDI-UHFFFAOYSA-N 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 238000004445 quantitative analysis Methods 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 229910002092 carbon dioxide Inorganic materials 0.000 description 1
- 239000001569 carbon dioxide Substances 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 238000004451 qualitative analysis Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 239000010865 sewage Substances 0.000 description 1
- 239000002352 surface water Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/067—Enterprise or organisation modelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A30/00—Adapting or protecting infrastructure or their operation
- Y02A30/60—Planning or developing urban green infrastructure
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Theoretical Computer Science (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Tourism & Hospitality (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Health & Medical Sciences (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Game Theory and Decision Science (AREA)
- General Engineering & Computer Science (AREA)
- Primary Health Care (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种面向城市体检主题场景的评估方法,包括以下:步骤110、获取城市体验文本材料,根据预设置的处理方法对所述城市体验文本进行预处理,得到具备城市体检指标体系特色的城市体检语义材料;步骤120、根据具备城市体检指标体系特色的城市体检语义材料,构建城市体检主题评估方案;步骤130、基于城市体检主题评估方案,构建城市体检主题评估模型;步骤140、基于所述城市体检主题评估模型对城市体检主题场景进行评估,得到评估结果。本发明融合了不同类型的城市体检指标和指标体系,并通过城市体检语义材料、主题评估方案和主题评估模型构建,实现了具有城市体检指标体系特色的语义聚类与全流程自动化综合评估。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种面向城市体检主题场景的评估方法及装置。
背景技术
目前,城市体检主要有两个部门在主导,一个是住房与城乡建设部,另一个是自然资源部。具体的体检工作又因城市而异,在体检指标、指标体系和评估方法上面有所差异。一方面,这些差异主要停留在话语体系上,即“语义”差异。尽管不同部门的人员在用差异化的职业语言描述城体检工作成果,但本质上确是在描述同一种实物或事件。这种语义差异会混淆视听,对试图了解城市体检的人造成认知困惑。例如,住建部指标“全社会R&D支出占GDP比重”与自资部指标“研究与试验发展经费投入强度”是完全一样的含义,但“看起来”却不一样。另一方面,因业务领域优势不同,不同类型的城市体检对同一事物的评估角度各异。例如,评估绿道建设情况,有的用“城市绿道密度”从整体空间分布是否均匀的角度进行评估,有的用“人均绿道程度”从人均数量是否足够的角度进行评估。如此,“各自为战”的现象十分明显。针对以上问题,需要提出一种能够充分利用多类型城市体检评估成果的方法,将多种评估角度、手段等融合,实现城市体检的综合快速评估。
发明内容
本发明的目的是为了至少解决现有技术的不足之一,提供一种面向城市体检主题场景的评估方法及装置。
为了实现上述目的,本发明采用以下的技术方案:
具体的,提出一种面向城市体检主题场景的评估方法,包括以下:
步骤110、获取城市体验文本材料,根据预设置的处理方法对所述城市体验文本进行预处理,得到具备城市体检指标体系特色的城市体检语义材料;
步骤120、根据具备城市体检指标体系特色的城市体检语义材料,构建城市体检主题评估方案;
步骤130、基于城市体检主题评估方案,构建城市体检主题评估模型;
步骤140、基于所述城市体检主题评估模型对城市体检主题场景进行评估,得到评估结果。
进一步,具体的,步骤110中的内容包括,
步骤111、抽取城市体检成果文本库内容,获得城市体检文本材料,
城市体检成果文本库包括城市体检工作评估报告、城市体检工作技术指南、第三方体检报告、居民满意度调查结果,抽取的文本包括指标名称、指标类型、指标体系、指标解释、指标计算公式、评估标准、体检结果;
步骤112、基于城市体检文本材料提取城市体检评估要素,获得城市体检评估要素集合,
通过对指标名称的拆分得到结果集合Io,通过对集合Io的提取获得城市体检评估要素以及集合Ie,同时得到集合Ie的补集,即集合其数学关系为/>集合/>将作为停用词集合的一部分内容,集合Ie将作为词典的一部分内容;
步骤113、利用城市体检评估要素集合补充停用词集合与词典,获得城市体检领域内的初始停用词集合与初始词典,
预先对停用词集合和词典进行设计,获得初始停用词集合So和初始词典Do,初始停用词集合So包括常见中文停用词集合Sc与集合数学关系为/>初始词典Do的内容为集合Ie;
步骤114、基于初始停用词集合与初始词典,根据预设的停用词集合与词典扩充内循环机制,获得城市体检领域内停用词集合与词典,
城市体检文本材料数量记为Ndocs,分n次调用随机数量的城市体检文本材料,第i次调用的数量记为ai且ai是处在0.05Ndocs至0.1Ndocs之间的整数,调用次数处在10到20次之间,数学表达为循环开始后,第一次调用数量为a1的城市体检文本,先基于初始词典Do干预拆分结果并进行拆分,以集合So配合词性的方式过滤拆分结果,得到首批次的城市体检文本拆分结果A1,将结果A1分为有效结果集合E1,表征城市体检评估的实质性内容;无效结果集合U1,定义为算法遗漏的词汇,表征无法提供城市体检特色的语义信息;错误集合M1,表征具有明显错误或极为不符合语义环境的拆分结果,
扩充机制为,综合利用第i次的拆分结果,使用有效结果集合Ei扩充初始词典Do,使用错误集合Mi扩充初始停用词集合So,并利用第i次扩充后的停用词集合Si与词典Di对第i+1次的拆分结果进行影响,当循环进行到第n次,城市体检评估领域内停用词集合为S,数学表达式为城市体检评估领域内词典为D,数学表达式为/>
步骤115、结合停用词集合、词典以及城市体检评估要素集合,构建城市体检语义材料和版本参数特征,
定义体系P和体系Q,体系P基于概念以及目标对指标进行了分类,其类别集合记作Ps={aim1,aim2,…,aimp},其元素数量为p,体系Q基于概念以及要素对指标进行了分类其类别集合记作Qs={elm1,elm2,…,elmq},其元素数量为q,以集合Ie的元素为基准,分别与Ps和Qs的元素建立映射关系,对城市体检评估文本材料进行拆分,并通过字典D影响拆分结果,通过集合S进行停用词过滤,获取初始城市体检语义材料Co,其数量与文本材料一致,即Ndocs,
以Ps和Qs的元素为变量构建概率分布且通过Ie与Ps和Qs的映射关系,生成符合F(aim,elm)分布规律的城市体检指标体系特色语义材料Cs,其内容为集合Ie的元素,数量为/>利用Co以及Cs得到语义材料C,三者关系为C=Co+Cs,以上,通过参数αi、βj和φ调控城市体检特色语义材料的概率分布,形成不同版本的城市体检语义材料C,并记录版本参数特征。
进一步,具体的,所述步骤120的内容包括,
步骤121、根据预设的城市体检评估语义材料主题数量优选机制,获得每个主题的主题词概率分布,
使用doc2bow方法对城市体检评估语义材料C进行向量化操作,使用LDA主题模型对C进行训练,通过控住主题数量参数K,得到编号为K的模型,模型K将城市体检评估语义材料C分成了K个主题以及每个主题的主题词概率分布,利用主题模型评分机制,对主题模型的分类结果进行打分,并获得高分模型的分类结果作为城市体检语义材料的主题分类初选方案FK,表示该方案中含有K个主题,每个主题下面提供一个主题词概率分布;
步骤122、利用主题词概率分布,构建城市体检主题评估方案,
建立“主题词-主题评估要素-主题指标”链式映射关系,并构成了主题内容,通过以上内容,命名主题,题源自主题分类初选方案FK,可得到城市体检评估方案FT={Topic 1,Topic 2,…,Topic K},且K∈Stopic,
对前j名主题词概率值μi进行归一化处理,公式为将主题词进行分类处理,若主题词概率值占比超过第一阈值则设定为一级主题词,为必选,其他则为二级主题词,为可选,且选取时以城市体检为视角,选择与一级主题词有较强的语义关联,通过以上方式确定当下主题的主题词,在获得主题词后,利用主题词与集合Ie进行匹配,得到若干主题评估要素,再利用这些要素与指标之间的映射关系,得到该主题下所映射的指标。
进一步,具体的,其中j能够人为设定,默认取值为5,第一阈值为0.1999。
进一步,具体的,步骤130的内容包括,
步骤131、通过方案模型与计算模型,获得城市体检主题评估方案与指标计算结果,
方案模型用于对用户期望判别以及城市体检主题评估,用户期望判别是指对用户期望的主题数量Kuser进行判别,是否满足Kuser∈Stopic的条件,若用户期望的主题数量符合以上的条件,则提供城市体检评估方案FT={Topic 1,Topic 2,…,Topic Kuser};若用户期望的主题数量不符合以上的条件,则采用最邻近原则,即在Stopic中匹配最邻近Kuser的数值,并推荐对应的城市体检评估方案,
计算模型用于根据选用的城市体检评估方案,对Kuser个主题下的指标进行数值计算;
步骤132、通过分析模型,获得多角色视角的指标分析结果,
分析模型用于对指标计算结果进行分析,并给出分析结果,具体先通过学者视角转化公式Tfscholar,用于实现由指标计算结果到学者视角分析结果的转化;接着通过业者视角转化公式Tfbussiness,用于实现由学者视角分析结果到业者视角分析结果的转化;最后通过大众视角转化公式Tfpublic,用于实现由学者视角分析结果到大众视角分析结果的转化;
步骤133、通过评估模型,调用多角色视角分析结果,获得主题评估结论,
评估模型会调用指标分析结果并借助文本模板和可视化方案工具形成城市体检主题评估结论并提供输出文件,文本模板包括通用型Model(G)、业者型Model(B)、学者型Model(S)以及大众型Model(P),其中Model(G)包括主题、主题词、主题评估要素、主题指标,可视化方案有图谱系列、桑基图系列,用于提供城市体检主题评估的指标体系并进行总览,Model(B)利用业者视角指标分析结果,并配以可视化方案,同时在数据库中抽取指标的文本成分,形成全部指标的评估结论,Model(S)利用学者视角指标分析结果,采用AHP层次分析法对指标和主题的权重分配进行计算,并配以表格,Model(P)利用大众视角指标分析结果,形成每个主题下分数排行榜以及利用主题指标平局分形成主题排行榜,并配以可视化手段进行展示。
进一步,所述主题模型评分机制包括,
基于困惑度确定主题数量集合Spplt,基于一致性确定主题数量集合Scohn,基于相似度确定主题数量集合Ssmlt,根据先验经验获取实际体系中存在的主题数量集合Sprep,对客观因素得到的Spplt、Scohn和Ssmlt做交集运算,即Stopic=Spplt∩Scohn∩Ssmlt,在利用Sprep与Stopic进行对比,剔除Stopic中偏离预设条件的主题数量进行剔除,并得到参数K∈Stopic。
本发明还提出一种面向城市体检主题场景的评估装置,包括以下:
语义材料模块,用于获取城市体验文本材料,根据预设置的处理方法对所述城市体验文本进行预处理,得到具备城市体检指标体系特色的城市体检语义材料;
主题方案模块,用于根据具备城市体检指标体系特色的城市体检语义材料,构建城市体检主题评估方案;
主题评估模块,用于基于城市体检主题评估方案,构建城市体检主题评估模型,基于所述城市体检主题评估模型对城市体检主题场景进行评估,得到评估结果。
本发明的有益效果为:
本发明提供的一种面向城市体检主题场景的评估方法,融合了不同类型的城市体检指标和指标体系,并通过城市体检语义材料、主题评估方案和主题评估模型构建,实现了具有城市体检指标体系特色的语义聚类与全流程自动化综合评估;
在获得具有城市体检指标体系特色的语义材料过程中,提供了城市体检评估要素集合、城市体检评估领域内停用词集合和城市体检评估领域内词典的内循环构建方法,并利用以上内容获得了具有参数特征的城市体检评估语义材料,可以利用参数特征调控特色语料比例;
在构建城市体检主题方案的过程中,设计了主题模型评分机制,提供了主题分类优选策略、主题词选择策略和指标选择原则,以此形成了城市体检主题方案;
在构建城市体检主题评估模型的过程中,构建了方案模型、计算模型、分析模型和评估模型,设计了具有多角色视角特色的分析方法、视角转化公式、评估模型与可视化方案。
附图说明
通过对结合附图所示出的实施方式进行详细说明,本公开的上述以及其他特征将更加明显,本公开附图中相同的参考标号表示相同或相似的输出电压,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,在附图中:
图1所示为本发明一种面向城市体检主题场景的评估方法的流程图;
图2所示为本发明一种面向城市体检主题场景的评估方法的原理图;
图3所示为本发明一种面向城市体检主题场景的评估装置的结构原理框图。
具体实施方式
以下将结合实施例和附图对本发明的构思、具体结构及产生的技术效果进行清楚、完整的描述,以充分地理解本发明的目的、方案和效果。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。附图中各处使用的相同的附图标记指示相同或相似的部分。
参照图1以及图2,实施例1,本发明提出一种面向城市体检主题场景的评估方法,包括以下:
步骤110、获取城市体验文本材料,根据预设置的处理方法对所述城市体验文本进行预处理,得到具备城市体检指标体系特色的城市体检语义材料;
步骤120、根据具备城市体检指标体系特色的城市体检语义材料,构建城市体检主题评估方案;
步骤130、基于城市体检主题评估方案,构建城市体检主题评估模型;
步骤140、基于所述城市体检主题评估模型对城市体检主题场景进行评估,得到评估结果。
作为本发明的优选实施方式,具体的,步骤110中的内容包括,
步骤111、抽取城市体检成果文本库内容,获得城市体检文本材料,
城市体检成果文本库包括城市体检工作评估报告、城市体检工作技术指南、第三方体检报告、居民满意度调查结果,抽取的文本包括指标名称、指标类型、指标体系、指标解释、指标计算公式、评估标准、体检结果;
步骤112、基于城市体检文本材料提取城市体检评估要素,获得城市体检评估要素集合,
通过对指标名称的拆分得到结果集合Io,通过对集合Io的提取获得城市体检评估要素以及集合Ie,同时得到集合Ie的补集,即集合其数学关系为/>集合/>将作为停用词集合的一部分内容,集合Ie将作为词典的一部分内容;
城市体检评估要素反映了城市体检工作中被评估的对象,是某一具体事物,如“地表水”、“污水”、“空气”等,且在词性上通常为名词,主要存在于指标名称。通过对指标名称的拆分得到结果集合Io,通过对集合Io的提取获得城市体检评估要素以及集合Ie,同时得到集合Ie的补集,即集合三者的数学关系为/>另外,集合/>将作为停用词集合的一部分内容,集合Ie将作为词典的一部分内容。
具体操作为:利用中文分词工具,对指标名称进行分词,得到分词结果。指标名称多含有城市体检领域词汇,领域词汇多为复合词汇,为最大限度地保存领域词汇,此处分词时采用精确模式。观测指标名称分词结果的语义规律,语义规律多为“空间名词+城市体检评估要素+运算性质+单位名称”,利用正则表达式,提取出城市体检评估要素。另外,其中也穿插了词性过滤的方式来优化提取结果。
步骤113、利用城市体检评估要素集合补充停用词集合与词典,获得城市体检领域内的初始停用词集合与初始词典,
预先对停用词集合和词典进行设计,获得初始停用词集合So和初始词典Do,初始停用词集合So包括常见中文停用词集合Sc与集合数学关系为/>初始词典Do的内容为集合Ie;
步骤114、基于初始停用词集合与初始词典,根据预设的停用词集合与词典扩充内循环机制,获得城市体检领域内停用词集合与词典,
城市体检文本材料数量记为Ndocs,分n次调用随机数量的城市体检文本材料,第i次调用的数量记为ai且ai是处在0.05Ndocs至0.1Ndocs之间的整数,调用次数处在10到20次之间。数学表达为循环开始后,第一次调用数量为a1的城市体检文本,先基于初始词典Do干预拆分结果并进行拆分,以集合So配合词性的方式过滤拆分结果,得到首批次的城市体检文本拆分结果A1,将结果A1分为有效结果集合E1,表征城市体检评估的实质性内容;无效结果集合U1,定义为算法遗漏的词汇,表征无法提供城市体检特色的语义信息;错误集合M1,表征具有明显错误或极为不符合语义环境的拆分结果,
扩充机制为,综合利用第i次的拆分结果,使用有效结果集合Ei扩充初始词典Do,使用错误集合Mi扩充初始停用词集合So,并利用第i次扩充后的停用词集合Si与词典Di对第i+1次的拆分结果进行影响,当循环进行到第n次,城市体检评估领域内停用词集合为S,数学表达式为城市体检评估领域内词典为D,数学表达式为/>
设计城市体检文本调用方式。城市体检文本材料数量记为Ndocs,分n次调用随机数量的城市体检文本材料,第i次调用的数量记为ai且ai是处在0.05Ndocs至0.1Ndocs之间的整数,调用次数处在10到20次之间。数学表达为循环开始,第一次调用数量为a1的城市体检文本,先基于初始词典Do干预拆分结果并进行拆分,以集合So配合词性的方式过滤拆分结果,得到首批次的城市体检文本拆分结果A1。将结果A1分为有效结果集合E1,代表了城市体检评估的实质性内容;无效结果集合U1,通常为算法遗漏的词汇,无法提供富含城市体检特色的语义信息;错误集合M1,是拆分结果中具有明显错误或极为不符合语义环境的拆分结果。扩充机制为,综合利用第i次的拆分结果,使用有效结果集合Ei扩充初始词典Do,使用错误集合Mi扩充初始停用词集合So,并利用第i次扩充后的停用词集合Si与词典Di对第i+1次的拆分结果进行影响。随着扩充内循环的逐步进行,后面的拆分效果会越变越好,工程效率会逐步提升。例如,“新建建筑中绿色建筑占比”在经过词典影响拆分结果后,成功提取到了“绿色建筑”这类十分贴切领域特色的词汇,而未经过词典影响的提取结果则是“建筑”,无法突出领域特色,在随后的拆解中,都会避免将“绿色建筑”提取为“建筑”。当循环进行到第n次,城市体检评估领域内停用词集合为S,数学表达式为/>城市体检评估领域内词典为D,数学表达式为/>
步骤115、结合停用词集合、词典以及城市体检评估要素集合,构建城市体检语义材料和版本参数特征,
定义体系P和体系Q,体系P基于概念以及目标对指标进行了分类,其类别集合记作Ps={aim1,aim2,…,aimp},其元素数量为p,体系Q基于概念以及要素对指标进行了分类其类别集合记作Qs={elm1,elm2,…,elmq},其元素数量为q,以集合Ie的元素为基准,分别与Ps和Qs的元素建立映射关系,对城市体检评估文本材料进行拆分,并通过字典D影响拆分结果,通过集合S进行停用词过滤,获取初始城市体检语义材料Co,其数量与文本材料一致,即Ndocs,
以Ps和Qs的元素为变量构建概率分布且通过Ie与Ps和Qs的映射关系,生成符合F(aim,elm)分布规律的城市体检指标体系特色语义材料Cs,其内容为集合Ie的元素,数量为/>利用Co以及Cs得到语义材料C,三者关系为C=Co+Cs,以上,通过参数αi、βj和φ调控城市体检特色语义材料的概率分布,形成不同版本的城市体检语义材料C,并记录版本参数特征。
城市体检指标来自2套不同的指标体系,分别记作体系P和体系Q。体系P依据“概念+目标”的语义特点对指标进行了分类,其类别集合记作Ps={aim1,aim2,…,aimp},其元素数量为p。体系Q依据“概念+要素”的语义特点对指标进行了分类其类别集合记作Qs={elm1,elm2,…,elmq},其元素数量为q。Ps和Qs中的元素带有鲜明的城市体检语义特征和分类特征。集合Ie的元素源自指标名称,因此与Ps和Qs中的元素存在天然的关联关系。以集合Ie的元素为基准,分别与Ps和Qs的元素建立映射关系,赋予集合Ie城市体检指标体系分类语义特征。对完整的城市体检评估文本材料进行拆分,并通过字典D影响拆分结果,通过集合S进行停用词过滤,获取初始城市体检语义材料Co,其数量与文本材料一致,即Ndocs。以Ps和Qs的元素为变量构建概率分布且/>通过Ie与Ps和Qs的映射关系,生成符合F(aim,elm)分布规律的城市体检指标体系特色语义材料Cs,其内容为集合Ie的元素,数量为/>利用初始城市体检语义材料Co和城市体检指标体系特色语义材料Cs得到了具备城市体检指标体系特色的语义材料C,三者关系为C=Co+Cs。以上,通过参数αi、βj和φ调控城市体检特色语义材料的概率分布,形成不同版本的城市体检语义材料C,并记录版本参数特征,利用后续模型训练的效果,对语义材料版本打分,对低分的参数特征进行专项记录。随着训练次数的增多,利用可视化手段辨别低分区域,指导后续参数特征合理化生成。
作为本发明的优选实施方式,具体的,所述步骤120的内容包括,
步骤121、根据预设的城市体检评估语义材料主题数量优选机制,获得每个主题的主题词概率分布,
使用doc2bow方法对城市体检评估语义材料C进行向量化操作,使用LDA主题模型对C进行训练,通过控住主题数量参数K,得到编号为K的模型,模型K将城市体检评估语义材料C分成了K个主题以及每个主题的主题词概率分布,利用主题模型评分机制,对主题模型的分类结果进行打分,并获得高分模型的分类结果作为城市体检语义材料的主题分类初选方案FK,表示该方案中含有K个主题,每个主题下面提供一个主题词概率分布;
作为本发明的优选实施方式,所述主题模型评分机制包括,
基于困惑度确定主题数量集合Spplt,基于一致性确定主题数量集合Scohn,基于相似度确定主题数量集合Ssmlt,根据先验经验获取实际体系中存在的主题数量集合Sprep,对客观因素得到的Spplt、Scohn和Ssmlt做交集运算,即Stopic=Spplt∩Scohn∩Ssmlt,在利用Sprep与Stopic进行对比,剔除Stopic中偏离预设条件的主题数量进行剔除,并得到参数K∈Stopic。
分别从困惑度(Perplexity)、一致性(Coherence)、相似度(Similarity)和先验经验(Prior-experience)的角度选取参数K的合理区间范围。以困惑度进行选取,借助困惑的曲线进行观察,一般情况下,困惑度越低,模型训练效果越好,同时避免过拟合区域,并选取基于困惑度设定的主题数量集合Spplt,所以此处可以通过设定困惑度阈值,使困惑度低于某设定阈值来确保结果准确。以一致性进行选取,借助一致性得分曲线进行观察,一般情况下,一致性得分越高,模型训练效果越好,此处可以设定另一个阈值,一致性得分高于该阈值以确保结果准确,并选取基于一致性设定的主题数量集合Scohn。以相似度进行选取,采用多维尺度法进行分析,并通过可视化工具pyLDAvis对不同主题数量的模型相似度进行观察,一般情况下,离散在视图边缘的模型与其他模型相似度低,是训练效果较好的模型,所以此处可以计算离散程度,当离散程度大于某一阈值使认为结果准确,并选取基于相似度设定的主题数量集合Ssmlt。以先验经验进行选取,参考多种类型的、多个城市的城市体检现有指标体系和知识体系,收集实际体系中存在的主题数量集合Sprep,此处可以考虑通过AHP或是FAHP算法来计算得到。对客观因素得到的Spplt、Scohn和Ssmlt做交集运算,即Stopic=Spplt∩Scohn∩Ssmlt,在利用Sprep与Stopic进行对比,对Stopic中明显偏离实际情况的主题数量进行剔除,并得到参数K∈Stopic。
获取不同主题数量的城市体检评估语义材料主题分类方案。具体为,使用doc2bow方法对城市体检评估语义材料C进行向量化操作,使用LDA主题模型对C进行训练,通过控住主题数量参数K,得到编号为K的模型,模型K将城市体检评估语义材料C分成了K个主题以及每个主题的主题词概率分布。例如,K=10,获得了模型10,模型10将城市体检评估语义材料C分成了10个主题,其中,第3个主题的主题词概率分布为(‘0.037*"绿色"+0.016*"生态"+0.011*"建设"+0.009*"建成区"+0.009*"建筑"’),概率分布默认展示最高概率值的前5名。随后,综合考虑客观因素和主观因素,利用主题模型评分机制,对主题模型的分类结果进行打分,并获得高分模型的分类结果作为城市体检语义材料的主题分类初选方案FK,表示该方案中含有K个主题,每个主题下面提供一个主题词概率分布,因此,该方案中包含K个主题词概率分布。
步骤122、利用主题词概率分布,构建城市体检主题评估方案,
建立“主题词-主题评估要素-主题指标”链式映射关系,并构成了主题内容,通过以上内容,命名主题,题源自主题分类初选方案FK,可得到城市体检评估方案FT={Topic 1,Topic 2,…,Topic K},且K∈Stopic,
对前j名主题词概率值μi进行归一化处理,公式为将主题词进行分类处理,若主题词概率值占比超过第一阈值则设定为一级主题词,为必选,其他则为二级主题词,为可选,且选取时以城市体检为视角,选择与一级主题词有较强的语义关联,通过以上方式确定当下主题的主题词,在获得主题词后,利用主题词与集合Ie进行匹配,得到若干主题评估要素,再利用这些要素与指标之间的映射关系,得到该主题下所映射的指标。
作为本发明的优选实施方式,具体的,其中j能够人为设定,默认取值为5,第一阈值为0.1999。
城市体检主题评估方案包括了K个主题(Topic)和每个主题下的主题词、主题评估要素、主题指标。主题词源自主题词概率分布,主题评估要素源自城市体检评估要素集合Ie,主题指标源自与Ie中元素的映射关系,通过词向量相似度计算、关键词、字符串匹配等方法,建立“主题词-主题评估要素-主题指标”链式映射关系,并构成了主题内容,通过以上内容,命名主题,并且,主题源自主题分类初选方案FK,可得到城市体检评估方案FT={Topic1,Topic 2,…,Topic K},且K∈Stopic。
主题词初选自主题词概率分布概率值最高值的前j名。对前j名主题词概率值μi进行归一化处理,公式为(j默认取值5)。将主题词进行分类处理,若主题词概率值占比超过0.1999则设定为一级主题词,为必选,其他则为二级主题词,为可选,且选取时以城市体检为视角,选择与一级主题词有较强的语义关联,通过以上方式确定当下主题的主题词。在获得主题词后,利用主题词与集合Ie进行匹配,得到若干主题评估要素,再利用这些要素与指标之间的映射关系,得到该主题下所映射的指标,随后对主题进行设计。例如,设计了“绿色发展”主题,主题词有“绿色”、“生态”、“建设”,部分主题指标为“绿色出行比例”、“城市生态廊道达标率”、“人口密度超过每平方公里万人的城市建设用地规模”、“新建建筑中绿色建筑占比”、“单位GDP二氧化碳排放降低”等。
作为本发明的优选实施方式,城市体检主题评估模型由多个子模型构成,并先后衔接,实现自动评估,按流程顺序依次包含了方案模型、计算模型、分析模型和评估模型四个子模型,分别实现了基于城市体检主题评估方案的方案推荐、推荐方案中指标的指标计算、指标计算结果的程度分析和基于分析结果的主题评估。其中,在对指标结果进行分析时,采用了“业务—学者—大众”角色视角分析法,提高了分析结果在多种角色中的可读性。具体的,步骤130的内容包括,
步骤131、通过方案模型与计算模型,获得城市体检主题评估方案与指标计算结果,
方案模型用于对用户期望判别以及城市体检主题评估,用户期望判别是指对用户期望的主题数量Kuser进行判别,是否满足Kuser∈Stopic的条件,若用户期望的主题数量符合以上的条件,则提供城市体检评估方案FT={Topic 1,Topic 2,…,Topic Kuser};若用户期望的主题数量不符合以上的条件,则采用最邻近原则,即在Stopic中匹配最邻近Kuser的数值,并推荐对应的城市体检评估方案,
计算模型用于根据选用的城市体检评估方案,对Kuser个主题下的指标进行数值计算,计算模型包含了指标计算所需的方法、基础数据项、时间维度、空间维度等,并依据以上有效信息触发模板化的SQL语句,在数据库中抽取数据,基于以上,实现数据抽取、指标计算与结果记录;
步骤132、通过分析模型,获得多角色视角的指标分析结果,
分析模型用于对指标计算结果进行分析,并给出分析结果,具体先通过学者视角转化公式Tfscholar,用于实现由指标计算结果到学者视角分析结果的转化;接着通过业者视角转化公式Tfbussiness,用于实现由学者视角分析结果到业者视角分析结果的转化;最后通过大众视角转化公式Tfpublic,用于实现由学者视角分析结果到大众视角分析结果的转化;
分析模型会对指标计算结果进行分析,并给出分析结果。考虑到实际应用中不同的角色对指标结果敏感度的不同,设计了“业者—学者—大众”视角分析法和视角转化公式,并采用了以上三种视角对指标结果进行分析,为多种角色提供认知舒适区,提高分析结果可读性与应用广度。例如,对“区域开发强度”的分析结果为“1.1428”、“不适宜”和“55.83分”,分别对应学者、业者和大众。学者最关注一系列指标的量化分析结果并以此为基础采用科学手段进行专项分析,是学术需求;业者最关注指标的定性分析结果,是职业需求;大众更关注分析结果的整体情况,且认知上熟悉以分数为呈现方式的分析结果。
视角转化公式包括:学者视角转化公式Tfscholar,可实现由指标计算结果到学者视角分析结果的转化;业者视角转化公式Tfbussiness,可实现由学者视角分析结果到业者视角分析结果的转化;大众视角转化公式Tfpublic,可实现由学者视角分析结果到大众视角分析结果的转化。以上应用顺序为,首先使用Tfscholar,然后分别采用Tfbussiness和Tfpublic。
城市体检指标类型包括正向基期型、逆向基期型、适宜区间型、正向达标型、逆向达标型,在进行分析时,会基于指标类型,给出贴合指标类型的分析结果。正向基期型和逆向基期型的指标会设定一个长远目标。因此,其指标值通常是连续多年的数据,存在多个历史值,结合以上实际情况,设计得到Tfsch olar(基期型)、Tfbussiness(基期型)和Tfpublic。另外,Tfpublic不受指标类型制约,在不同类型指标之间是通用的。适宜区间型的指标会设定一个区间范围,如广州市区域开发强度的适宜区间为17.86%-18.15%。因此,结合适宜区间的阈值与其中间值,设计得到Tfsch olar(适宜型)、Tfbussiness(适宜型)。正向达标型和逆向达标型的指标会设定一个稳定的达标标准,达标标准通常来自于法律法规、政策性文件,如“普惠性幼儿园覆盖率达标值为80%”。因此,结合指标达标值,设计得到Tfsch olar(达标型)、Tfbussiness(达标型)。
具体地,Tfscholar(正向/逆向基期型)分别为:
其中,Xi为当年指标值;Xi-1为上一年指标值;Xmax为观测年中指标值的最大值(含当年);Xmin为观测年中指标值的最小值(含当年)。具体解读为,当年与上一年相比,当Tfscholar(Xi)<1时,表示进展更快,为“积极”;当Tfscholar(Xi)=1时,表示进展一致,为分界点;当Tfscholar(Xi)>1时,表示进展更慢,为“滞后”。
因此,Tfbussiness(正向/逆向基期型)均为:
具体地,Tfpublic为:
其中,τ为常数,是调试后的系数,默认τ=0.510825;分数则采用了百分制。因为视角转化公式的使用,使得以上三种视角的分析结果存在数值上的转化关系。在基期型中,若Tfscholar(Xi)>1则表示“滞后”,同时,Tfpublic(Xi)的分数会低于60分,即“不及格”。
具体地,Tfscholar(适宜型)为:
其中,Xi为当年指标值;Tmax为适宜区间阈值上限值;Tmed为适宜区间上下阈值均值。具体解读为,当Tfscholar(Xi)<1时,表示处在适宜区间,为“适宜”;当Tfscholar(Xi)=1时,表示处在阈值点,为分界点;当Tfscholar(Xi)>1时,表示处在不适宜区间,为“不适宜”。
因此,Tfbussiness(适宜型)为:
Tfpublic同上。在适宜型中,若Tfscholar(Xi)>1则表示“不适宜”,同时,Tfpublic(Xi)的分数会低于60分,即“不及格”。
具体地,Tfscholar(正向/逆向达标型)分别为:
其中,Xi为当年指标值;Vstdd为达标值;为目标值,通常为100%,目标值大于达标值;/>为目标值,通常为0%,目标值小于达标值。具体解读为,当Tfscholar(Xi)<1时,表示达标,为“达标”;当Tfscholar(Xi)=1时,表示处在达标值,为分界点;当Tfscholar(Xi)>1时,表示不达标,为“不达标”。
因此,Tfbussiness(达标型)为:
Tfpublic同上。在达标型中,若Tfscholar(Xi)>1则表示“不达标”,同时,Tfpublic(Xi)的分数会低于60分,即“不及格”。
步骤133、通过评估模型,调用多角色视角分析结果,获得主题评估结论,
评估模型会调用指标分析结果并借助文本模板和可视化方案工具形成城市体检主题评估结论并提供输出文件,文本模板包括通用型Model(G)、业者型Model(B)、学者型Model(S)以及大众型Model(P),其中Model(G)包括主题、主题词、主题评估要素、主题指标,可视化方案有图谱系列、桑基图系列,用于提供城市体检主题评估的指标体系并进行总览,Model(B)利用业者视角指标分析结果,并配以可视化方案,同时在数据库中抽取指标的文本成分,形成全部指标的评估结论,Model(S)利用学者视角指标分析结果,采用AHP层次分析法对指标和主题的权重分配进行计算,并配以表格,Model(P)利用大众视角指标分析结果,形成每个主题下分数排行榜以及利用主题指标平局分形成主题排行榜,并配以可视化手段进行展示。
评估模型会调用指标分析结果并借助文本模板和可视化方案工具形成城市体检主题评估结论并提供输出文件。主题评估结论同样提供了业者、学者和大众三种视角,使用时会以不同视角的模板为区分。文本模板分为了通用型Model(G)、业者型Model(B)、学者型Model(S)和大众型Model(P),且可以根据实际需求,针对以上四种主要类型的模板可进行细化设计,形成多种子类型。Model(G)包含的内容有主题、主题词、主题评估要素、主题指标,可视化方案有图谱系列、桑基图系列等,其作用是提供城市体检主题评估的指标体系并进行总览,使读者形成对城市体检主题评估的宏观认知。Model(B)使用“指标全解”策略,利用业者视角指标分析结果,并配以可视化方案,如雷达图、直方图、折线图等,同时在数据库中抽取指标的解释、背景、意义、作用、评估标准等文本成分,形成全部指标的评估结论,为业者提供参考。Model(S)使用“层次分析”策略,利用学者视角指标分析结果,同时采用AHP层次分析法对指标和主题的权重分配进行计算,并配以表格。Model(P)使用“排序”策略,利用大众视角指标分析结果,形成每个主题下分数排行榜以及利用主题指标平局分形成“主题排行榜”,并配以合适的可视化手段,如横向直方图等。
参照图3,本发明还提出一种面向城市体检主题场景的评估装置,包括以下:
语义材料模块,用于获取城市体验文本材料,根据预设置的处理方法对所述城市体验文本进行预处理,得到具备城市体检指标体系特色的城市体检语义材料;
主题方案模块,用于根据具备城市体检指标体系特色的城市体检语义材料,构建城市体检主题评估方案;
主题评估模块,用于基于城市体检主题评估方案,构建城市体检主题评估模型,基于所述城市体检主题评估模型对城市体检主题场景进行评估,得到评估结果。
基于以上提到的三个主要过程,构建整个城市体检主题评估的装置,该装置包括了三个模块,即语义材料模块、主题方案模块、主题评估模块。语义材料模块可实现城市体检文本预处理,可得到城市体检评估要素集合Ie,城市体检评估领域内停用词集合S,城市体检评估领域内词典D。主题方案模块可实现对语义材料主题分类与指标选取方案。主题评估模块可实现多角色视角的主题评估并提供可视化方案与文本输出。另外,为提高主题评估方案的可读性,构建了与现有时空知识服务基础平台的融合方案,实现了城市体检主题评估装置的封装,其效果是引入了更丰富的可视化手段,包括图片、视频等多媒体手段,交互式图表、交互式地图等,并提供了在线浏览功能。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例中的方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储的介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。
尽管本发明的描述已经相当详尽且特别对几个所述实施例进行了描述,但其并非旨在局限于任何这些细节或实施例或任何特殊实施例,而是应当将其视作是通过参考所附权利要求考虑到现有技术为这些权利要求提供广义的可能性解释,从而有效地涵盖本发明的预定范围。此外,上文以发明人可预见的实施例对本发明进行描述,其目的是为了提供有用的描述,而那些目前尚未预见的对本发明的非实质性改动仍可代表本发明的等效改动。
以上所述,只是本发明的较佳实施例而已,本发明并不局限于上述实施方式,只要其以相同的手段达到本发明的技术效果,都应属于本发明的保护范围。在本发明的保护范围内其技术方案和/或实施方式可以有各种不同的修改和变化。
Claims (3)
1.一种面向城市体检主题场景的评估方法,其特征在于,包括以下:
步骤110、获取城市体验文本材料,根据预设置的处理方法对所述城市体验文本进行预处理,得到具备城市体检指标体系特色的城市体检语义材料;
步骤120、根据具备城市体检指标体系特色的城市体检语义材料,构建城市体检主题评估方案;
步骤130、基于城市体检主题评估方案,构建城市体检主题评估模型;
步骤140、基于所述城市体检主题评估模型对城市体检主题场景进行评估,得到评估结果;
具体的,步骤110中的内容包括,
步骤111、抽取城市体检成果文本库内容,获得城市体检文本材料,
城市体检成果文本库包括城市体检工作评估报告、城市体检工作技术指南、第三方体检报告、居民满意度调查结果,抽取的文本包括指标名称、指标类型、指标体系、指标解释、指标计算公式、评估标准、体检结果;
步骤112、基于城市体检文本材料提取城市体检评估要素,获得城市体检评估要素集合,
通过对指标名称的拆分得到结果集合Io,通过对集合Io的提取获得城市体检评估要素以及集合Ie,同时得到集合Ie的补集,即集合其数学关系为/>集合/>将作为停用词集合的一部分内容,集合Ie将作为词典的一部分内容;
步骤113、利用城市体检评估要素集合补充停用词集合与词典,获得城市体检领域内的初始停用词集合与初始词典,
预先对停用词集合和词典进行设计,获得初始停用词集合So和初始词典Do,初始停用词集合So包括常见中文停用词集合Sc与集合数学关系为/>初始词典Do的内容为集合Ie;
步骤114、基于初始停用词集合与初始词典,根据预设的停用词集合与词典扩充内循环机制,获得城市体检领域内停用词集合与词典,
城市体检文本材料数量记为Ndocs,分n次调用随机数量的城市体检文本材料,第i次调用的数量记为ai且ai是处在0.05Ndocs至0.1Ndocs之间的整数,调用次数处在10到20次之间,数学表达为循环开始后,第一次调用数量为a1的城市体检文本,先基于初始词典Do干预拆分结果并进行拆分,以集合So配合词性的方式过滤拆分结果,得到首批次的城市体检文本拆分结果A1,将结果A1分为有效结果集合E1,表征城市体检评估的实质性内容;无效结果集合U1,定义为算法遗漏的词汇,表征无法提供城市体检特色的语义信息;错误集合M1,表征具有明显错误或极为不符合语义环境的拆分结果,
扩充机制为,综合利用第i次的拆分结果,使用有效结果集合Ei扩充初始词典Do,使用错误集合Mi扩充初始停用词集合So,并利用第i次扩充后的停用词集合Si与词典Di对第i+1次的拆分结果进行影响,当循环进行到第n次,城市体检评估领域内停用词集合为S,数学表达式为城市体检评估领域内词典为D,数学表达式为/>
步骤115、结合停用词集合、词典以及城市体检评估要素集合,构建城市体检语义材料和版本参数特征,
定义体系P和体系Q,体系P基于概念以及目标对指标进行了分类,其类别集合记作Ps={aim1,aim2,…,aimp},其元素数量为p,体系Q基于概念以及要素对指标进行了分类其类别集合记作Qs={elm1,elm2,…,elmq},其元素数量为q,以集合Ie的元素为基准,分别与Ps和Qs的元素建立映射关系,对城市体检评估文本材料进行拆分,并通过字典D影响拆分结果,通过集合S进行停用词过滤,获取初始城市体检语义材料Co,其数量与文本材料一致,即Ndocs,
以Ps和Qs的元素为变量构建概率分布且通过Ie与Ps和Qs的映射关系,生成符合F(aim,elm)分布规律的城市体检指标体系特色语义材料Cs,其内容为集合Ie的元素,数量为/> 利用Co以及Cs得到语义材料C,三者关系为C=Co+Cs,以上,通过参数αi、βj和φ调控城市体检特色语义材料的概率分布,形成不同版本的城市体检语义材料C,并记录版本参数特征;
具体的,所述步骤120的内容包括,
步骤121、根据预设的城市体检评估语义材料主题数量优选机制,获得每个主题的主题词概率分布,
使用doc2bow方法对城市体检评估语义材料C进行向量化操作,使用LDA主题模型对C进行训练,通过控住主题数量参数K,得到编号为K的模型,模型K将城市体检评估语义材料C分成了K个主题以及每个主题的主题词概率分布,利用主题模型评分机制,对主题模型的分类结果进行打分,并获得高分模型的分类结果作为城市体检语义材料的主题分类初选方案FK,表示该方案中含有K个主题,每个主题下面提供一个主题词概率分布;
步骤122、利用主题词概率分布,构建城市体检主题评估方案,
建立“主题词-主题评估要素-主题指标”链式映射关系,以此构成了主题内容,通过以上主题内容与主题分类初选方案FK,可得到城市体检评估方案FT={Topic 1,Topic 2,…,Topic K},且K∈Stopic,
主题词确定过程包括,对前j名主题词概率值μi进行归一化处理,公式为将主题词进行分类处理,若主题词概率值占比超过第一阈值则设定为一级主题词,为必选,其他则为二级主题词,为可选,选取时以城市体检为视角,且与一级主题词存在语义关联;
通过主题词确定过程确定当下主题的主题词,在获得主题词后,利用主题词与集合Ie进行匹配,得到若干主题评估要素,再利用这些要素与指标之间的映射关系,得到该主题下所映射的指标;
具体的,步骤130的内容包括,
步骤131、通过方案模型与计算模型,获得城市体检主题评估方案与指标计算结果,
方案模型用于对用户期望判别以及城市体检主题评估,用户期望判别是指对用户期望的主题数量Kuser进行判别,是否满足Kuser∈Stopic的条件,若用户期望的主题数量符合以上的条件,则提供城市体检评估方案FT={Topic 1,Topic 2,…,Topic Kuser};若用户期望的主题数量不符合以上的条件,则采用最邻近原则,即在Stopic中匹配最邻近Kuser的数值,并推荐对应的城市体检评估方案,
计算模型用于根据选用的城市体检评估方案,对Kuser个主题下的指标进行数值计算;
步骤132、通过分析模型,获得多角色视角的指标分析结果,
分析模型用于对指标计算结果进行分析,并给出分析结果,具体先通过学者视角转化公式Tfscholar,用于实现由指标计算结果到学者视角分析结果的转化;接着通过业者视角转化公式Tfbussiness,用于实现由学者视角分析结果到业者视角分析结果的转化;最后通过大众视角转化公式Tfpublic,用于实现由学者视角分析结果到大众视角分析结果的转化;
步骤133、通过评估模型,调用多角色视角分析结果,获得主题评估结论,
评估模型会调用指标分析结果并借助文本模板和可视化方案工具形成城市体检主题评估结论并提供输出文件,文本模板包括通用型Model(G)、业者型Model(B)、学者型Model(S)以及大众型Model(P),其中Model(G)包括主题、主题词、主题评估要素、主题指标,可视化方案有图谱系列、桑基图系列,用于提供城市体检主题评估的指标体系并进行总览,Model(B)利用业者视角指标分析结果,并配以可视化方案,同时在数据库中抽取指标的文本成分,形成全部指标的评估结论,Model(S)利用学者视角指标分析结果,采用AHP层次分析法对指标和主题的权重分配进行计算,并配以表格,Model(P)利用大众视角指标分析结果,形成每个主题下分数排行榜以及利用主题指标平局分形成主题排行榜,并配以可视化手段进行展示;
具体的,所述主题模型评分机制包括,
基于困惑度确定主题数量集合Spplt,基于一致性确定主题数量集合Scohn,基于相似度确定主题数量集合Ssmlt,根据先验经验获取实际体系中存在的主题数量集合Sprep,对客观因素得到的Spplt、Scohn和Ssmlt做交集运算,即Stopic=Spplt∩Scohn∩Ssmlt,在利用Sprep与Stopic进行对比,剔除Stopic中偏离预设条件的主题数量进行剔除,并得到参数K∈Stopic。
2.根据权利要求1所述的一种面向城市体检主题场景的评估方法,其特征在于,具体的,其中j能够人为设定,默认取值为5,第一阈值为0.1999。
3.一种面向城市体检主题场景的评估装置,其特征在于,包括以下:
语义材料模块,用于获取城市体验文本材料,根据预设置的处理方法对所述城市体验文本进行预处理,得到具备城市体检指标体系特色的城市体检语义材料;
主题方案模块,用于根据具备城市体检指标体系特色的城市体检语义材料,构建城市体检主题评估方案;
主题评估模块,用于基于城市体检主题评估方案,构建城市体检主题评估模型,基于所述城市体检主题评估模型对城市体检主题场景进行评估,得到评估结果;
具体的,语义材料模块的运行过程包括,
步骤111、抽取城市体检成果文本库内容,获得城市体检文本材料,
城市体检成果文本库包括城市体检工作评估报告、城市体检工作技术指南、第三方体检报告、居民满意度调查结果,抽取的文本包括指标名称、指标类型、指标体系、指标解释、指标计算公式、评估标准、体检结果;
步骤112、基于城市体检文本材料提取城市体检评估要素,获得城市体检评估要素集合,
通过对指标名称的拆分得到结果集合Io,通过对集合Io的提取获得城市体检评估要素以及集合Ie,同时得到集合Ie的补集,即集合其数学关系为/>集合/>将作为停用词集合的一部分内容,集合Ie将作为词典的一部分内容;
步骤113、利用城市体检评估要素集合补充停用词集合与词典,获得城市体检领域内的初始停用词集合与初始词典,
预先对停用词集合和词典进行设计,获得初始停用词集合So和初始词典Do,初始停用词集合So包括常见中文停用词集合Sc与集合数学关系为/>初始词典Do的内容为集合Ie;
步骤114、基于初始停用词集合与初始词典,根据预设的停用词集合与词典扩充内循环机制,获得城市体检领域内停用词集合与词典,
城市体检文本材料数量记为Ndocs,分n次调用随机数量的城市体检文本材料,第i次调用的数量记为ai且ai是处在0.05Ndocs至0.1Ndocs之间的整数,调用次数处在10到20次之间,数学表达为循环开始后,第一次调用数量为a1的城市体检文本,先基于初始词典Do干预拆分结果并进行拆分,以集合So配合词性的方式过滤拆分结果,得到首批次的城市体检文本拆分结果A1,将结果A1分为有效结果集合E1,表征城市体检评估的实质性内容;无效结果集合U1,定义为算法遗漏的词汇,表征无法提供城市体检特色的语义信息;错误集合M1,表征具有明显错误或极为不符合语义环境的拆分结果,
扩充机制为,综合利用第i次的拆分结果,使用有效结果集合Ei扩充初始词典Do,使用错误集合Mi扩充初始停用词集合So,并利用第i次扩充后的停用词集合Si与词典Di对第i+1次的拆分结果进行影响,当循环进行到第n次,城市体检评估领域内停用词集合为S,数学表达式为城市体检评估领域内词典为D,数学表达式为/>
步骤115、结合停用词集合、词典以及城市体检评估要素集合,构建城市体检语义材料和版本参数特征,
定义体系P和体系Q,体系P基于概念以及目标对指标进行了分类,其类别集合记作Ps={aim1,aim2,…,aimp},其元素数量为p,体系Q基于概念以及要素对指标进行了分类其类别集合记作Qs={elm1,elm2,…,elmq},其元素数量为q,以集合Ie的元素为基准,分别与Ps和Qs的元素建立映射关系,对城市体检评估文本材料进行拆分,并通过字典D影响拆分结果,通过集合S进行停用词过滤,获取初始城市体检语义材料Co,其数量与文本材料一致,即Ndocs,
以Ps和Qs的元素为变量构建概率分布且通过Ie与Ps和Qs的映射关系,生成符合F(aim,elm)分布规律的城市体检指标体系特色语义材料Cs,其内容为集合Ie的元素,数量为/> 利用Co以及Cs得到语义材料C,三者关系为C=Co+Cs,以上,通过参数αi、βj和φ调控城市体检特色语义材料的概率分布,形成不同版本的城市体检语义材料C,并记录版本参数特征;
具体的,主题方案模块的运行过程包括,
步骤121、根据预设的城市体检评估语义材料主题数量优选机制,获得每个主题的主题词概率分布,
使用doc2bow方法对城市体检评估语义材料C进行向量化操作,使用LDA主题模型对C进行训练,通过控住主题数量参数K,得到编号为K的模型,模型K将城市体检评估语义材料C分成了K个主题以及每个主题的主题词概率分布,利用主题模型评分机制,对主题模型的分类结果进行打分,并获得高分模型的分类结果作为城市体检语义材料的主题分类初选方案FK,表示该方案中含有K个主题,每个主题下面提供一个主题词概率分布;
步骤122、利用主题词概率分布,构建城市体检主题评估方案,
建立“主题词-主题评估要素-主题指标”链式映射关系,以此构成了主题内容,通过以上主题内容与主题分类初选方案FK,可得到城市体检评估方案FT={Topic 1,Topic 2,…,Topic K},且K∈Stopic,
主题词确定过程包括,对前j名主题词概率值μi进行归一化处理,公式为将主题词进行分类处理,若主题词概率值占比超过第一阈值则设定为一级主题词,为必选,其他则为二级主题词,为可选,选取时以城市体检为视角,且与一级主题词存在语义关联;
通过主题词确定过程确定当下主题的主题词,在获得主题词后,利用主题词与集合Ie进行匹配,得到若干主题评估要素,再利用这些要素与指标之间的映射关系,得到该主题下所映射的指标;
具体的,主题评估模块的运行过程包括,
步骤131、通过方案模型与计算模型,获得城市体检主题评估方案与指标计算结果,
方案模型用于对用户期望判别以及城市体检主题评估,用户期望判别是指对用户期望的主题数量Kuser进行判别,是否满足Kuser∈Stopic的条件,若用户期望的主题数量符合以上的条件,则提供城市体检评估方案FT={Topic 1,Topic 2,…,Topic Kuser};若用户期望的主题数量不符合以上的条件,则采用最邻近原则,即在Stopic中匹配最邻近Kuser的数值,并推荐对应的城市体检评估方案,
计算模型用于根据选用的城市体检评估方案,对Kuser个主题下的指标进行数值计算;
步骤132、通过分析模型,获得多角色视角的指标分析结果,
分析模型用于对指标计算结果进行分析,并给出分析结果,具体先通过学者视角转化公式Tfscholar,用于实现由指标计算结果到学者视角分析结果的转化;接着通过业者视角转化公式Tfbussiness,用于实现由学者视角分析结果到业者视角分析结果的转化;最后通过大众视角转化公式Tfpublic,用于实现由学者视角分析结果到大众视角分析结果的转化;
步骤133、通过评估模型,调用多角色视角分析结果,获得主题评估结论,
评估模型会调用指标分析结果并借助文本模板和可视化方案工具形成城市体检主题评估结论并提供输出文件,文本模板包括通用型Model(G)、业者型Model(B)、学者型Model(S)以及大众型Model(P),其中Model(G)包括主题、主题词、主题评估要素、主题指标,可视化方案有图谱系列、桑基图系列,用于提供城市体检主题评估的指标体系并进行总览,Model(B)利用业者视角指标分析结果,并配以可视化方案,同时在数据库中抽取指标的文本成分,形成全部指标的评估结论,Model(S)利用学者视角指标分析结果,采用AHP层次分析法对指标和主题的权重分配进行计算,并配以表格,Model(P)利用大众视角指标分析结果,形成每个主题下分数排行榜以及利用主题指标平局分形成主题排行榜,并配以可视化手段进行展示;
具体的,所述主题模型评分机制包括,
基于困惑度确定主题数量集合Spplt,基于一致性确定主题数量集合Scohn,基于相似度确定主题数量集合Ssmlt,根据先验经验获取实际体系中存在的主题数量集合Sprep,对客观因素得到的Spplt、Scohn和Ssmlt做交集运算,即Stopic=Spplt∩Scohn∩Ssmlt,在利用Sprep与Stopic进行对比,剔除Stopic中偏离预设条件的主题数量进行剔除,并得到参数K∈Stopic。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211248965.3A CN116307792B (zh) | 2022-10-12 | 2022-10-12 | 一种面向城市体检主题场景的评估方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211248965.3A CN116307792B (zh) | 2022-10-12 | 2022-10-12 | 一种面向城市体检主题场景的评估方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116307792A CN116307792A (zh) | 2023-06-23 |
CN116307792B true CN116307792B (zh) | 2024-03-12 |
Family
ID=86813760
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211248965.3A Active CN116307792B (zh) | 2022-10-12 | 2022-10-12 | 一种面向城市体检主题场景的评估方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116307792B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117995338B (zh) * | 2024-04-03 | 2024-06-18 | 中国科学院合肥物质科学研究院 | 一种基于语义分析的体检数据处理方法及系统 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107247751A (zh) * | 2017-05-26 | 2017-10-13 | 武汉大学 | 基于lda主题模型的内容推荐方法 |
WO2019200806A1 (zh) * | 2018-04-20 | 2019-10-24 | 平安科技(深圳)有限公司 | 文本分类模型的生成装置、方法及计算机可读存储介质 |
CN111242493A (zh) * | 2020-01-17 | 2020-06-05 | 广州市城市规划勘测设计研究院 | 一种街道品质评价方法、装置、系统及存储介质 |
CN112508376A (zh) * | 2020-11-30 | 2021-03-16 | 中国科学院深圳先进技术研究院 | 一种指标体系构建方法 |
CN112667806A (zh) * | 2020-10-20 | 2021-04-16 | 上海金桥信息股份有限公司 | 一种使用lda的文本分类筛选方法 |
CN112925901A (zh) * | 2021-03-23 | 2021-06-08 | 华中师范大学 | 一种辅助在线问卷评估的评估资源推荐方法及其应用 |
CN113627864A (zh) * | 2020-05-06 | 2021-11-09 | 武汉市中城事大数据有限责任公司 | 一种基于时空语义挖掘的城市功能区识别流程 |
CN114021968A (zh) * | 2021-11-04 | 2022-02-08 | 安徽尚原规划咨询有限公司 | 一种基于gis城市体检评估系统 |
WO2022028249A1 (zh) * | 2020-08-05 | 2022-02-10 | 华中师范大学 | 一种面向在线学习社区的学习兴趣发现方法 |
CN114331021A (zh) * | 2021-12-01 | 2022-04-12 | 哈尔滨工业大学建筑设计研究院 | 一种基于网络点评语义分析的寒地城市景区季节综合评价方法和装置 |
CN115048531A (zh) * | 2022-06-09 | 2022-09-13 | 广州市城市规划勘测设计研究院 | 一种城市体检知识的知识管理方法、装置以及系统 |
CN115098696A (zh) * | 2022-06-20 | 2022-09-23 | 广州市阿尔法软件信息技术有限公司 | 一种城市体检知识图谱的构建方法、装置及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7620539B2 (en) * | 2004-07-12 | 2009-11-17 | Xerox Corporation | Methods and apparatuses for identifying bilingual lexicons in comparable corpora using geometric processing |
-
2022
- 2022-10-12 CN CN202211248965.3A patent/CN116307792B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107247751A (zh) * | 2017-05-26 | 2017-10-13 | 武汉大学 | 基于lda主题模型的内容推荐方法 |
WO2019200806A1 (zh) * | 2018-04-20 | 2019-10-24 | 平安科技(深圳)有限公司 | 文本分类模型的生成装置、方法及计算机可读存储介质 |
CN111242493A (zh) * | 2020-01-17 | 2020-06-05 | 广州市城市规划勘测设计研究院 | 一种街道品质评价方法、装置、系统及存储介质 |
CN113627864A (zh) * | 2020-05-06 | 2021-11-09 | 武汉市中城事大数据有限责任公司 | 一种基于时空语义挖掘的城市功能区识别流程 |
WO2022028249A1 (zh) * | 2020-08-05 | 2022-02-10 | 华中师范大学 | 一种面向在线学习社区的学习兴趣发现方法 |
CN112667806A (zh) * | 2020-10-20 | 2021-04-16 | 上海金桥信息股份有限公司 | 一种使用lda的文本分类筛选方法 |
CN112508376A (zh) * | 2020-11-30 | 2021-03-16 | 中国科学院深圳先进技术研究院 | 一种指标体系构建方法 |
CN112925901A (zh) * | 2021-03-23 | 2021-06-08 | 华中师范大学 | 一种辅助在线问卷评估的评估资源推荐方法及其应用 |
CN114021968A (zh) * | 2021-11-04 | 2022-02-08 | 安徽尚原规划咨询有限公司 | 一种基于gis城市体检评估系统 |
CN114331021A (zh) * | 2021-12-01 | 2022-04-12 | 哈尔滨工业大学建筑设计研究院 | 一种基于网络点评语义分析的寒地城市景区季节综合评价方法和装置 |
CN115048531A (zh) * | 2022-06-09 | 2022-09-13 | 广州市城市规划勘测设计研究院 | 一种城市体检知识的知识管理方法、装置以及系统 |
CN115098696A (zh) * | 2022-06-20 | 2022-09-23 | 广州市阿尔法软件信息技术有限公司 | 一种城市体检知识图谱的构建方法、装置及存储介质 |
Non-Patent Citations (4)
Title |
---|
Description of Turkish Paraphrase Corpus Structure and Generation Method;Karaoglan, B;17th International Conference on Intelligent Text Processing and Computational Linguistics (CICLing);全文 * |
基于情感新词识别的微博文本情感倾向分析研究;柳文婷;万方学位论文数据库;全文 * |
基于词性与LDA主题模型的文本分类技术研究;张勇;软件工程;全文 * |
面向网络大数据的知识融合方法综述;林海伦;王元卓;贾岩涛;张鹏;王伟平;;计算机学报(01);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116307792A (zh) | 2023-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106503055B (zh) | 一种从结构化文本到图像描述的生成方法 | |
JP5885875B1 (ja) | データ分析システム、データ分析方法、プログラム、および、記録媒体 | |
CN109933668B (zh) | 简体汉语文本可读性的分级评估建模方法 | |
JP2004110161A (ja) | テキスト文比較装置 | |
JP2004110200A (ja) | テキスト文比較装置 | |
CN111914532A (zh) | 一种中文作文评分方法 | |
CN111914162B (zh) | 一种基于知识图谱的个性化学习方案引导方法 | |
CN110659357B (zh) | 一种基于本体语义相似度的地理知识问答系统 | |
CN116307792B (zh) | 一种面向城市体检主题场景的评估方法及装置 | |
CN109408619B (zh) | 一种面向问答领域动态计算问句与答案相似性的方法 | |
Ruette et al. | A lectometric analysis of aggregated lexical variation in written Standard English with Semantic Vector Space models | |
Ünal et al. | A hierarchical approach to makam classification of Turkish makam music, using symbolic data | |
CN116362699A (zh) | 一种岗位匹配报告生成方法 | |
Wadud et al. | Text coherence analysis based on misspelling oblivious word embeddings and deep neural network | |
CN113420946B (zh) | 一种新闻媒体的评价方法 | |
CN116629258B (zh) | 基于复杂信息项数据的司法文书的结构化分析方法及系统 | |
CN107578785A (zh) | 基于Gamma分布分析的音乐连续情感特征分析评价方法 | |
CN116304080A (zh) | 视频数据分析方法、装置、电子设备及存储介质 | |
CN114580556A (zh) | 专利文献的预评估方法及装置 | |
CN113869038A (zh) | 一种针对百度贴吧、基于特征词分析的关注点相似性分析方法 | |
Dikananda et al. | Comparison of Decision Tree Classification Methods and Gradient Boosted Trees | |
Hu et al. | Prediction of the positive psychology of college students using LightGBM algorithm based on SMOTE and Bayesian optimization | |
CN106203504B (zh) | 一种基于最优间隔分布脊回归的网络情感分类方法 | |
CN110852062A (zh) | 利用言论信息自动化测量群体外显态度和内隐态度的方法 | |
Bairamova | predicting course grades of students’ academic performance using the LightGBM regressor |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |