CN111898928B - 面向时空界的多方服务价值-质量-能力指标对齐方法 - Google Patents
面向时空界的多方服务价值-质量-能力指标对齐方法 Download PDFInfo
- Publication number
- CN111898928B CN111898928B CN202010833133.2A CN202010833133A CN111898928B CN 111898928 B CN111898928 B CN 111898928B CN 202010833133 A CN202010833133 A CN 202010833133A CN 111898928 B CN111898928 B CN 111898928B
- Authority
- CN
- China
- Prior art keywords
- index
- indexes
- service
- semantic
- alignment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06395—Quality analysis or management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/169—Annotation, e.g. comment data or footnotes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/758—Involving statistics of pixels or of feature values, e.g. histogram matching
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Resources & Organizations (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Probability & Statistics with Applications (AREA)
- Educational Administration (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Game Theory and Decision Science (AREA)
- Software Systems (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种面向时空界的多方服务价值‑质量‑能力指标对齐方法,该方法分为两部分:面向领域特征的多参与者服务价值‑质量‑能力评价指标语义对齐和面向时空界特征的多参与者服务价值‑质量‑能力评价指标量化方式对齐。本发明并不依赖于本体的建设,而是利用自然语言处理常用的手段抽取指标定义和解释的语句中包含的关键词汇,借助公共词典和领域词典中包含的词汇信息和语素关系挖掘不同指标间的相关关系。在量化方式对齐方面,本发明总结了多参与者在协作过程中导致量化方式不一致的因素,并从时空界的角度考虑多维服务实现环境下指标具体取值与实际要表达的服务等级之间的映射关系,实现指标量化方式对齐。
Description
技术领域
本发明属于软件工程中企业互操作技术领域,尤其是针对多参与者服务非功能属性对齐领域,涉及一种面向时空界的多方服务价值-质量-能力指标对齐方法。
背景技术
企业互操作是各服务参与者间交互数据共享信息、达成服务需求与服务目标共识、建立稳定的协作关系和可靠的协作模式的前提条件。“泛欧电子政务服务的欧洲互操作性框架”(ElF)确定了组织互操作、技术互操作和语义互操作三种类型。其中组织互操作与企业组织结构和业务实施流程相关,借助建模规范和模型转换方法可以解决;技术互操作包括交互接口、数据集成、表示和交换有关,通常借助于规范的元数据格式和涵义作为参考实现数据的一致化;语义互操作性则是消除不同企业之间交换信息的不一致性。服务评价指标是度量和评价服务价值-质量-能力的统计指标,是服务决策和优化的有效参考信息,也是各类服务提供商确立合作关系的重要协商内容。评价指标既包含丰富的语义信息,又包含详细的定性和定量描述信息,不同参与者对指标的定义、解释、量化、赋权等方面均有其特定领域的规范和习惯,因此多领域多参与者协作的前提条件是实现多方服务评价指标的语义和量化方式对齐,以确保多方协作与合作过程中可以准确理解彼此指标所表达的内容和取值的含义。
传统的异构企业模型语义互操作研究主要关注以本体为语义模型,通过本体构建或重构技术(本体杂交、合成、变异等)建立领域本体,为模型互操作提供语义参考,在此基础上基于本体的模型语义映射规则和策略实现异构企业模型之间的语义对齐,包括术语对齐、概念粒度对齐、角度对齐、覆盖范围对齐等,但这些对齐方案并不能解决指标计量方式的对齐;解决各个异构模型之间的语义冲突,包括同名不同义、同义不同名、概念所指范围不一致等冲突;最终实现联盟间信息共享和业务协作。这一方案存在三个重要不足:(1)模型语义互操作的基础是领域本体的构建,本体的层次结构、关联度、权威性、完整性和一致性将直接影响到语义对齐的效果,现有的本体构建方案和工具为本体建设带来很大挑战,尤其是垂直领域本体的构建,本体的准确性与完整性很难保证;(2)现有的开放本体资源对概念和实例的定义一般局限于名词,但服务的评价离不开业务活动和评价侧面,这些在本体中并不会以概念的方式存在。而且现有的概念属性及概念关系挖掘不够充分,虽然整体来看信息量很大,但是聚焦到某一小的概念,其相关概念和实例缺存在较大缺失。(3)除此之外,仅仅实现语义层面的对齐并不能确保共享信息的一致性,现有工作对指标的量化方式的对齐关注甚少。
发明内容
本发明针对现有技术存在的上述不足,提供了一种面向时空界的多方服务评价指标对齐方法。
本发明的目的是通过以下技术方案实现的:
一种面向时空界的多方服务价值-质量-能力指标对齐方法,包括如下步骤:
步骤一、从指标定义中提取包含服务内容、业务活动、指标评价侧面和指标评价规则的关键词组,其中:
所述指标定义包括指标名称、缩略语/习语、英文简写、指标解释、优越方向、量纲(单位+数量级)、取值范围、计算公式;
所述四类关键词组具体指:①服务内容,包括服务提供者(人员角色、系统工具、软件应用等)、服务载体(商品、订单、知识、数据等)以及服务执行环境和上下文,一般为名词词组;②业务活动,包括服务提供者的具体实施行为和服务载体的详细处置方式,一般为动词词组;③评价侧面,包括服务内容和业务活动的修饰词,一般以XX率|比例|占比、XX效果|程度、XX大小|速度|载重等;④评价规则,包括指标评价准则、权重、频率和其他统计单位,比如日均、月均、人均、季度、年度等量词;
步骤二、根据公共词典、领域词典和自建词典,分别计算两两指标四类关键词组之间的语素关系,得到指标之间的语义相似度矩阵,其中:
所述公共词典包括同义词词林(扩展版)、HowNet词典、百度汉语词典;
所述领域词典包括搜狗行业词库、百度行业词库,包括概念标识、概念名、同义词、英文名、语义描述、应用领域六个表项,是领域专家根据对领域的理解和经验而建立的特定领域概念列表;
所述自建词典中词组的定义内容包括ID、词组、词性、所述类别(服务内容、业务活动、指标评价侧面、指标评价规则四者之一)、近义词、反义词、同类词、上位词、下位词、因果相关词组、所属/来源相关词组、使用/工具相关词组、组成/总分相关词组、执行依赖相关词组中的几种;
所述语素关系包括相似(高度相似)、相近(比相似的近似程度弱)、相关、同类四种;
所述语义相似度矩阵是一个二维矩阵,分别是两个指标的四类关键词组集;
步骤三、借助语义相似度矩阵判定指标之间的语义关系,并计算关系置信度,其中:
所述语义关系包括相似关系(①同一指标;②共轭指标;③上下级指标;)、相关关系(④服务内容相关;⑤业务相关;⑥指标相关)、同类指标(⑦同类服务评价侧面;⑧同类业务;⑨同类服务内容);
步骤四、按照步骤三判定所有指标的语义关系得到语义关系网,根据指标之间语义关系的方向和数量删除冗余的边,简化语义网,其中:
所述语义关系网指以指标为节点、以指标间语义关系为边的网,边属性为语义关系类型和置信度,边方向包括有向和无向两种,语义关系中③上下级指标和⑤业务相关是有方向的;
步骤五、根据指标在不同时空界下的样本数据拟合指标在单域和富域上的分布特征,其中:
所述时是指不同时间域,空是指不同的地理域,界是指不同的服务实施环境(线上或线下)、不同的服务实施平台或者不同的服务参与者;
所述单域分布特征是指指标在一个服务域上的概率分布特征,富域分布特征是指指标在两个及以上服务域上的概率分布特征;
步骤六、以概率分位数为参考建立指标量化方式上的对齐关系,其中:
所述指标量化方式上的对齐关系是指求解某一类服务等级在不同时空界特征下对应的指标取值范围,或判定指标取值在特定时空界下的对应的服务等级。
相比于现有技术,本发明具有如下优点:
与传统基于本体的企业模型语义互操作方法不同,本发明并不依赖于本体的建设,而是利用自然语言处理常用的手段抽取指标定义和解释的语句中包含的关键词汇,借助公共词典和领域词典中包含的词汇信息和语素关系挖掘不同指标间的相关关系。在量化方式对齐方面,本发明总结了多参与者在协作过程中导致量化方式不一致的因素,并从时空界的角度考虑多维服务实现环境下指标具体取值与实际要表达的服务等级之间的映射关系,实现指标量化方式对齐。
附图说明
图1为本发明的面向时空界的多方服务价值-质量-能力指标对齐方法框架;
图2为本发明的面向领域特征的多参与者服务价值-质量-能力指标语义对齐的方法框架;
图3为本发明的面向时空特征的多参与者服务价值-质量-能力指标量化方式对齐的方法框架;
图4为本发明语义对齐阶段指标关系判定的原则;
图5为本发明的面向领域特征的服务评价指标关键词解析示例图;
图6为本发明的面向领域特征的多参与者服务评价指标语义对齐示意图;
图7为本发明的面向时空特征的指标单域分布特征示例图;
图8为本发明的面向时空特征的指标富域分布特征示例图;
图9为本发明的面向时空特征的多参与者服务评价指标量化方式对齐理论图。
具体实施方式
下面结合附图对本发明的技术方案作进一步的说明,但并不局限于此,凡是对本发明技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,均应涵盖在本发明的保护范围中。
本发明提供了一种面向时空界的多方服务价值-质量-能力指标对齐方法,该方法分为两部分:面向领域特征的多参与者服务评价指标语义对齐和面向时空界特征的多参与者服务评价指标量化方式对齐,其框架如图1-3所示。
本发明语义对齐的目的是在已知多领域多参与者服务价值-质量-能力评价指标体系的前提下,通过自然语言处理相关技术抽取指标关键要素,而后借助公共词典、领域词典和自建词典计算四类词组之间的语义关系,最后在词汇关系矩阵的基础上判定指标语义关系并计算关系置信度,最终得到多领域多参与者指标语义关系网。每个参与者可以从语义关系网中获知己方服务指标与他方指标间的关联关系,这种关系并不局限于同名不同义或同义不同名的情况,还可以挖掘到更丰富的语义关系。
原始的指标定义包括指标名称、缩略语/习语、英文简写、指标解释、优越方向、量纲(单位+数量级)、取值范围、计算公式等内容,其中缩略语/习语和英文简写有很强的领域专业性,必须借助领域词典中包含的相关解释辅助理解;而指标名称与解释缺乏规范性,不同参与者的命名方式、解释详略度等均不一致;计算内容中也暗含指标相关关系。为了消除指标定义的不规范性,本发明第一步完成指标预处理工作,通过分词、词性标注、依存句法分析、词频统计等自然语言处理技术提取指标关键要素,剔除难于理解或服务评价无关的字词,得到[服务内容、业务活动、指标评价侧面、指标评价规则]四类词组。
服务内容:包括参与服务实施的人员角色、服务执行依赖的资源、服务交付过程中伴随的有形产品或有价值的知识信息等,一般由专有名词表示。
业务活动:与业务执行相关的动词,指人员角色或自动化机械系统实施的动作,一般由动词表示。
指标评价侧面:形容修饰服务内容或业务活动的名词,一般有特定的后缀,比如XX率、XX程度、XX效果、XX性。
指标评价规则:评价指标有特定的评估频率和对象,比如日均、月均、年均;或者每人次、每单、每宗。
本发明指标关系的主要判定依据是公共词典、领域词典和自建词典三类词典,词典中词汇丰富度、词汇关系详细度、词汇解释详细度、词汇组织结构的有无等都会影响到计算结果的可靠性。因此,本发明选定同义词词林(扩展版)、HowNet词典、百度汉语词典为可参考的公共词典;搜狗行业词库、百度行业词库为可参考的领域词典;自建词典包含ID、词组、词性、所述类别(服务内容、业务活动、评价侧面、评价规则四者之一)、近义词、反义词、同类词、上位词、下位词、因果相关词组、所属/来源相关词组、使用/工具相关词组、组成/总分相关词组、执行依赖相关词组等属性。然后综合利用上述词典信息,计算四类词组之间的关系。
本发明针对指标间语义层面上的相关关系,定义了三大类九小类关系,其中:九类关系解释如下:
一、相似关系
1、同一指标:指服务内容、业务活动、指标评价侧面和修饰词都能对应上,且均语义高度相似。eg.菜品打包速率、菜品打包效率。
2、共轭指标:指服务内容、业务活动高度相似,但指标评价侧面互为反义词。eg.餐厅卫生干净程度,就餐环境脏乱程度。
3、上下级指标:
指业务活动和指标评价侧面高度相似,但服务内容之间存在上下级关系(词A是词B的组成成分,或词A是词B的一种子类)。eg.商品次品率,生鲜次品率。
二、相关关系
4、服务内容相关:指业务活动相似(都存在的话)、指标评价侧面相近(比相似的近似程度弱),服务内容间存在某种相关关系,比如厨师健康状况和菜品卫生,菜品由厨师制作,健康和卫生相近。
5、业务相关:指服务内容相似、指标评价侧面相近,业务活动间存在某种相关关系,比如菜品打包牢固度和菜品运输无损度,因为打包是运输的前序活动,牢固度和无损度相近。
6、指标相关:指服务内容和业务活动均不存在明显的相关关系,但是指标描述中包含“随着XXX”、“越XX越XX”等伴随词时,表明二者指标间存在相关关系,如果变化趋势一直则为正相关;否则为负相关。比如菜品配送时长与菜品质保程度,很明显送餐时间越长,菜品的质保程度越差,二者存在负相关。
三、同类指标
7、同类指标/服务评价侧面:指服务评价侧面相似,但是服务内容和业务活动既不相似也不相关,或没有提取出服务内容和业务活动,这种情况可以粗糙地定义同类关系。eg.菜品打包准确率,订单核算准确率。
8、同类业务:是指业务活动相似,但服务内容和评价侧面既不相似也不相关。eg.菜品打包准确率,菜品打包牢固度。
9、同类服务内容:是指服务内容相似,但业务活动和评价侧面既不相似也不相关。eg.商品存储时长,精加工商品占比。
上述九类关系的紧密性依次降低。可能导致关系误判的原因体现在:①指标定义包含的有效信息缺失;②或训练语料有限覆盖率不高,导致错误的词义理解或词与词关系确定。对于在语义对其阶段未能自动建立相关关系的指标或本身无关的指标被建立起相关关系,后三类指标关系是考察的重点,一方面可以调低相关性判定的置信度或丰富指标解释内容,提高指标关系判定的准确度;另一方面可以关注这方面指标关系做人为增删。优化后得到一个语义关系网,其中节点信息表示一个指标,边信息表示语义关系和关系置信度。
本发明的面向领域特征的多参与者服务价值-质量-能力评价指标语义对齐的方法的具体实施步骤如下:
步骤一、评价指标预处理
通过对指标内容的统计性分析,发现通过服务内容、业务活动、指标评价侧面以及指标评价规则即可确定指标评价对象、关注点以及评价范围等丰富的信息,因此预处理阶段主要工作是提取指标中包含的这四类信息的关键词组。为什么不是四个单词,而是词组的原因是,有些指标解释内容中可能含有“比如XX”、“包含XX”、“XX等等”这样的词汇。
预处理阶段输入的是某一指标定义和解释的语句Si,分词的目的是从语句中提取属于上述四类关键词的所有词并去掉不必要的停用词得到WG(WG表示关键词汇的集合),词性标注阶段可以从WG中识别出名词、动词、量词、副词、形容词、连词等包含实际语义的重要单词,分别对应得到服务内容词组WGservices、业务活动词组WGbusiness、指标评价侧面词组WGindicators、修饰词词组WGadjunctword。依存句法分析阶段可以得不同词性单词之间的依存/修饰关系,综合所有评价指标的分析结果,可以总结出如下四类词汇间的关联关系:①某一服务内容有哪些相关的业务动作;②某一业务活动可以由哪些实施者,又有哪些受体;③某一服务内容或业务活动有哪些特定的评价侧面;④哪些评价侧面是公共的(多数服务内容或业务活动都会考虑到的)。除此之外,依存句法分析也可以明确连词相关的并列词汇,可以进一步删减不重要的词汇。
以上预处理工作都可以依靠类似StanfordNLPCore等自然语言处理工具包和公共大语料训练的语言模型完成。以翻台率为例,指标原始定义如下:[翻台率;一个饭店一天内每张桌子平均使用次数,翻台率是衡量餐厅盈利的重要指标,与餐厅日均客流量密切相关;(餐桌使用次数-总台位数)÷总台位数]。经预处理后得到的四类词组如下:
WGservices={饭店,桌子,餐厅,餐桌};
WGbusiness={使用|2,盈利};
WGindicators={次数,总台位数,客流量};
WGadjunctword={一天,每张,日均}。
单凭上述工作,实验中发现部分指标解析到的词汇数量依旧很多,这会给后续指标关系判定带来很大计算量,因此可以通过一些规则进一步约简词组,本发明采用ID-IDF方法定量分析每个单词的重要性,对不重要的词汇做删减,同时这一重要性也会参与到后续指标关系判定中。计算公式如下所示:
tf-idfi,j=tfi,j×idfi;
其中,ni,j为某一指标j中特定单词i出现的总次数,nk,j为该指标j中其他单词k出现的总次数,|D|表示所有指标数,|j:ti∈dj|表示包含单词ti的指标数,tfi,j表示该词在这一指标解释中的重要度,idfi表示该词在该指标解释中的专有程度。
步骤二、自定义其他输入
指标相关性的判定直接受词汇语义关联影响,现有的开放词典部分满足了这方面的需求,但大多数只包含了上下位关系、近义关系、反义关系、同类关系等,其他复杂的相关关系尚未包含,本发明总结了服务评价指标常见的词汇语义关联,但是没有很优秀的方法从公共领域准确提取这些语义关系,因此暂时通过粗糙的词汇语义关联词典和用户自建词典取代。
服务内容之间存在的语义关联如下:
①上下位关系(a-kind-of):A是B的一种,A是B的下位词,B是A的上位词。比如“食材”和“肉制品”。
②包含关系(a-part-of):A是B的一部分,B包含A,A是部分B是整体。比如“菜品”和“酒水”。
③同类关系:A与B在树状上下位关系中有公共的抽象父类。比如“菜品”和“肉制品”。
④相似关系(同一不同名):A与B表达的意思高度相似或等同。比如“超市”和“商场”。
⑤相关关系
来源相关:A是B的原材料,B由A加工而成。比如“菜品”和“食材”。
使用/工具相关:A是B相关业务的工具,比如“菜品”和“冷藏箱”。
组成/总分相关:A是B必须包含的配件,比如“配送车”和“保温箱”。
业务活动之间存在的语义关联如下:
①时序依赖:A活动是B活动的前序活动,B活动是A活动的后继活动,比如“打包”和“配送”;
②同步依赖:A活动和B活动必须在同一时刻或地点实现同步,才能开始后续活动,否则必定有一方需要等待,比如“菜品打包完成”和“骑手抵达餐厅”;
③补偿依赖:A活动的失误触发B活动的执行,若A活动无误则B活动不被执行,比如“确认收货”和“售后服务”。
指标评价侧面之间存在的语义关联如下:
①近义关系:A与B表达同样或相似的概念,比如”正确率“和”准确率“;
②共轭关系:A与B表达相反的概念,比如“失误率”和“准确率”。
指标评价规则之间存在的语义关联如下:
①转化关系:A与B属于同一类量词,则二者可以借助换算公式进行转化,比如“日均”和“月均”。
除此之外,因为不同服务参与者定义指标体系的准则不同,自建词典的质量也不同,因此为了确保指标自动对齐的置信度,允许开放若干可配置参数,确保已存在的指标关系不被丢失,不正确的指标关系不被挖掘。这里给到两种方案,一方面,指标体系构建者可以配置“相似判定阈值THhs”、“相近判定阈值THs”、“同类判定阈值THls”、“相关判定阈值THr”(阈值取值范围均在0~1之间,相关判定阈值没有取值限制,其他三个阈值需要满足THhs>THs>THls),如果阈值较大,则可挖掘的指标关系数量较少、置信度较高;另一方面,可以配置“关系数下限”和“关系数上限”,在尽量确保关系数量的前提下,自动调整上述四个阈值大小。
综合上述语素关系,本发明将其表示为如下六类:
1、高度相似(HS):指单词间相似度计算值大于相似判定阈值THhs;
2、互为反义(AN):指形容词词性的单词在词典中互为反义,或所表达的情感值加和近似于1;
3、互为近义(SY):指单词间相似度计算值小于相似判定阈值THhs,但大于相近判定阈值THs;
4、上下位关系(LS):指名词词性的单词在词典中具有上下位关系;
5、相关关系(RE):指单词在词典中具有相关关系(服务内容之间、业务活动之间均有语义相关性);
6、NULL:指既不存在高度相似关系,也不存在相关关系;或者该类别单词在一方指标定义中不存在。
以上语义关系的判定,可以借助单词在词典中的位置、编号、标识符以及词典结构计算可得。
步骤三、指标关系判定
首先借助开放公共词典判定四类词汇之间的关系,本发明实验中采纳的是同义词林、HowNet和百度汉语词典,其中包含了词频、词性、近义词、上位词、词编码、相关词等信息,此外用户还可以自建词典予以补充。假设所有的指标集为I,其中某一条评价指标为In,经预处理后得到四个词组要判定两个指标In,Im之间是否存在某种语义关系,首先计算同类词组k∈{services,business,indicators,adjunctword}之间存在的语义关联。如下所示,同类词组间关系计算可以用一个矩阵表示:
其中,指标In包含p个单词,指标Im包含q个单词,每个单词都有对应的IF-IDF值,矩阵大小为p×q。矩阵中每个元素ai,j是一个二元组<RelarionType,Confidence>包括单词之间关系类型和置信度,其中RelationType∈{HS,AN,SY,LS,RE,NULL}并且Confidence∈[0,1]。
下面需要计算每一类单词语义关联Rr的支持度,如下式所示,对所有ai, j.RelationType=Rr的ai,j对应的wi,wj的IF-IDF值乘积加和,即为类型Rr的支持度。
在得到四类词组的关系后,需要在此基础上判定指标间的语义关系,判定依据如图4所示。特别的,如果是相关关系的判定,需要比较指标语义置信度计算值和同类判定阈值THls,如果大于这一阈值才能判定为存在同类关系,否则二者无关。这样做的目的是,同类关系计算中只有一类词组的置信度值较高,其他两类词组的置信度可高可低不确定,为了确保充分发现同类关系,同时避免关系判定失误,因此需要这一比较。而对于其他六类指标语义关系,三类词组的置信度都不会过低,不会存在这一问题。
步骤四、指标关系优化
为了定量分析该技术框架得到的语义对齐结果的效果,本发明定义了如下评估指标:
1、最大结点入度
结点的入度,表示该结点在综合指标评价体系中的依赖度,意味着很多相关变量或指标将决定或影响该指标的取值,如果最大结点入度越大,意味着指标体系结构层次较浅、容错率较低、错误传播概率也较低。
2、最大结点出度
结点的出度,表示该结点在综合指标评价指标体系中的重要度,意味着该指标可以决定或影响多个指标的取值,如果最大结点出度越大,意味着指标体系结构越复杂、不稳定、更容易发生牵一发而动全身的问题。
3、覆盖度
指通过语义对齐,与其他指标建立起关联的指标占全部指标数的比例。覆盖度越高,意味着指标关联越密切,指标语义关系挖掘越丰富;反之,意味着孤立指标数较多,模型未知性较高,因为一个成体系的服务评价指标,理论上不存在不受其他指标影响的孤立指标。vi表示指标语义关系网中第i个节点,以O(vi)表示该指标的出度,以I(vi)表示该指标的入度,以Λk("Condition")表示某一元素符合某种条件的指标数量。则覆盖度计算公式如下所示:
4、命中率
因为在服务价值-质量-能力建模阶段,我们同样允许用户人为定义指标关系及关系类型,以此为确定集Setcertain,那么命中率是指通过以上方法挖掘的指标语义关系中包含确定集中指标的数量占比,其中,ej表示指标语义关系网中第j条边,以Λe("Condition")表示某一元素符合某种条件的指标数量。
5、错误率
指通过以上方法挖掘的指标语义关系指标的类型判定失误或者将人为判定完全无关的指标建立对齐关系的指标占比。
6、新颖性
指通过以上方法挖掘的指标语义关系指标不属于建模阶段人为定义指标关系且指标判定关系正确的数量占比。
7、每类语义关系类型发现的次数和平均置信度
这一步只是为了详细分析上述方法的对齐效果,如果相似类指标关系占比较高,说明指标评价体系冗余度高;如果相关类指标关系占比较高,说明指标评价体系关联度比较密切;如果同类指标关系占比较高,意味着指标体系较为详细。
本方法对词典和单词语义关联判定阈值依赖较高,因此人为拟定的初始输入,得到的指标语义对齐的结果可能会存在关系挖掘不充分或关系挖掘错误的情况。上述对齐结果评估中提到的命中率、错误率、创新度都与覆盖度成正比。指标关系挖掘越丰富,命中率越高、创新度越高,同时错误率也会越高。因此控制指标关系挖掘的数量是优化的一个入手点。因此可以通过重置语义关系判定置信度的方式优化。
另一方面,指标内容的丰富度也会影响指标关系的判定,如果指标内容过于简练(服务内容、业务活动、评价侧面描述不全),常常容易被分类到同类指标关系中。因此如果同类指标关系占比较高且错误率较高,可以通过补充指标解释内容优化。
最后,如果总是存在不可降的错误率,只能依靠人工资源,通过人为增删指标关系,优化对齐结果。
以盒马鲜生服务为例,指标预处理和语义对齐的结果如图5和6所示。
本发明量化方式对齐的目的是在已知指标在不同时空界条件下的样本数据,定义时空界并划分服务域,然后利用核密度估计拟合指标在单域和富域上的时空界特征分布,根据拟合的概率密度函数求解概率分布函数,而后以分位数为基准求解指标在不同时空界特征下对应的取值。指标的具体取值与实际服务水平之间的映射关系并不是唯一恒定的,在不同时空界条件下相同的指标取值也可能对应不同的服务水平,而不同的服务水平在不同时空界条件下指标有可能取到相同的值。例如,物价水平和商品均价在不同的地域有明显差异,同样的商品均价在哈尔滨属于高物价而在上海却对应低物价;或者是配送效率和配送时长在时间、空间和领域上也存在明显差异,以时间域为例,就餐低峰期高效的配送仅需20分钟,就餐高峰期高效配送的时间一般在30~40分钟左右,而在午夜高效的配送时间却在50~60分钟。如果不考虑指标在不同时空界上特征分布的差异性,将导致服务决策和优化的失效或失衡,例如企业在全国范围内制定统一的商品提价调整策略,对低收入地区会体会到物价明显上涨而高收入地区并未感受到明显差异。借助本发明提到的量化方式对齐方法,决策者可以感知到指标取值在不同时空界的分布差异,并按照对齐映射函数制定合理的企业决策方案。
本发明的面向时空特征的多参与者服务价值-质量-能力评价指标量化方式对齐的方法具体实施步骤如下:
步骤一、时空界定义与服务域划分
步骤1.1、时间域
时间域具有自然的连续性,可以用区间数描述。具体定义方式如下:
1、时钟触发
[Tstart,Tend],以过去某一时刻或当前时刻为Tstart,定义某个具体的截至时间为Tend;
[Tstart,Tend]period,定义固定的Tstart和Tend,定义一个时钟周期period;
[Ni,Nj]slice,定义一个固定的时间切片slice,以第Ni个切片开始,以第Nj个切片结束。
2、事件触发
[TE-start,TE-end]Event,以事件发生为TE-start,以事件影响结束为TE-end,Event为时间域的触发事件。
[TE-start,TE-start+Δt]Event,以事件发生为TE-start,定义事件影响持续时长Δt,特别的当Δt=0时,表示Event的影响为突变的。
3、活动触发
[∞,TA-start]Activity,表示活动开始TA-start之前的时间段。
[TA-start,TA-end]Activity,表示活动执行之间的时间段。
[TA-start,∞]Activity,表示活动开始TA-start之后的时间段。
[TA-end,∞]Activity,表示活动结束TA-end之后的时间段。
步骤1.2、空间域
简单理解,空间域就是地理位置域,可以用集合代数的方式描述。
具体定义方式如下:
1、位置:①具有经纬度属性的某一地理位置;②具专有名称的街道、商圈、社区等;③根据国家行政区域划分确定的省市区名称。
2、邻域:由位置s0和邻域半径ρ确定的某一地理范围。
3、地域属性,可以通过地域优势排名(比如地域经济发展、人口密度、教育水平、消费指数等),每个地域会对应一个Rank值,由此确定偏序关系。
步骤1.3、广义域
广义域是依据某一边界规则,将服务域划分为若干子域,突出不同子域的特性及子域间随着业务优化、服务协作等发生的融合与变迁。边界规则可以根据行业领域、服务内容及性质、服务执行依赖的技术平台等制定。传统的服务边界的定义仅仅局限于自治组织间存在管理边界,而将其他边界都等价为由组织边界导致的技术平台独立与服务内容分割,但随着SaaS云平台的推广与普及,组织边界已经不足以充分刻画服务边界的存在,需要定义更丰富的服务边界,在服务协作与融合时提供判定依据。
步骤二、拟合指标单域/富域分布特征
我们一般不能提前预估样本数据的分布类型,也不能肯定分布曲线有几个峰值,所以一般的参数估计方案并不使用,本发明采用核密度估计实现非参数估计,借助Statsmodels库实现概率分布拟合,选定“gau”为核函数,“scott”为带宽计算函数,输入某一服务域下的样本数据DateSetd‘,借助KDEUnivariate函数拟合指标在d‘服务域上的概率密度函数pdfd‘和概率分布函数cdfd‘。以国内三大航司退改手续费标准为例,如图7所示为指标在舱位等级、起飞时间和航司三个维度上的单域分布特征,图8所示为指标在舱位等级和起飞时间上的富域分布特征,从中可以看出在不同域上指标分布存在明显差异。
步骤三、计算指标在量化方式上的对齐关系
在步骤二的基础上我们得到了指标在不同时空界服务域上的特征分布,接下来需要利用这些分布函数建立不同时空界上指标取值之间的对应关系。本发明以分位数α为对齐基准,假设指标I在a,b两个服务域上呈现两种分布cdf(Ia),cdf(Ib),对概率分布函数求逆得到以α,α∈[0,1]为自变量的函数,每个分位数α‘都对应两个指标取值i‘a,i‘b,如此便可建立起两个服务域上指标取值间的对应关系,如图9所示。同理,对于多个时空界指标对齐也是以分位数为基准确立的,可以将服务等级转化为[0,1]之间的某个数,便可知某个服务等级在不同时空界条件下对应的具体指标取值。
本发明未尽事宜为公知技术。
Claims (3)
1.一种面向时空界的多方服务价值-质量-能力指标对齐方法,其特征在于所述方法包括如下步骤:
步骤一、从价值-质量-能力的评价指标定义中提取包含服务内容、业务活动、指标评价侧面和指标评价规则的关键词组;
步骤二、根据公共词典、领域词典和自建词典,分别计算两两指标四类关键词组之间的语素关系,得到指标之间的语义相似度矩阵;
步骤三、借助语义相似度矩阵判定指标之间的语义关系,并计算关系置信度,其中:
语义关系包括:
相似关系:①同一指标;②共轭指标;③上下级指标;
相关关系:④服务内容相关;⑤业务相关;⑥指标相关;
同类指标:⑦同类服务评价侧面;⑧同类业务;⑨同类服务内容;
步骤四、按照步骤三判定所有指标的语义关系得到语义关系网,根据指标之间语义关系的方向和数量删除冗余的边,简化语义关系网,其中:语义关系网指以指标为节点、以指标间语义关系为边的网,边属性为语义关系类型和置信度,边方向包括有向和无向两种;
步骤五、根据指标在不同时空界下的样本数据拟合指标在单域和富域上的分布特征,其中:时是指不同时间域,空是指不同的地理域,界是指不同的服务实施环境、不同的服务实施平台或者不同的服务参与者;单域分布特征是指指标在一个服务域上的概率分布特征,富域分布特征是指指标在两个及以上服务域上的概率分布特征;
步骤六、以概率分位数为参考建立指标量化方式上的对齐关系,其中:指标量化方式上的对齐关系是指求解指标在不同时空界特征下对应某一类服务等级的取值范围,或判定指标在特定时空界下的取值映射到相应的服务等级上。
2.根据权利要求1所述的面向时空界的多方服务价值-质量-能力指标对齐方法,其特征在于所述步骤一中,指标定义包括指标名称、缩略语/习语、英文简写、指标解释、优越方向、量纲、取值范围、计算公式。
3.根据权利要求1所述的面向时空界的多方服务价值-质量-能力指标对齐方法,其特征在于所述步骤二中,语素关系包括相似、相近、相关、同类四种。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010833133.2A CN111898928B (zh) | 2020-08-18 | 2020-08-18 | 面向时空界的多方服务价值-质量-能力指标对齐方法 |
PCT/CN2021/089373 WO2022037103A1 (zh) | 2020-08-18 | 2021-04-23 | 面向时空界的多方服务价值-质量-能力指标对齐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010833133.2A CN111898928B (zh) | 2020-08-18 | 2020-08-18 | 面向时空界的多方服务价值-质量-能力指标对齐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111898928A CN111898928A (zh) | 2020-11-06 |
CN111898928B true CN111898928B (zh) | 2021-08-31 |
Family
ID=73229209
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010833133.2A Active CN111898928B (zh) | 2020-08-18 | 2020-08-18 | 面向时空界的多方服务价值-质量-能力指标对齐方法 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111898928B (zh) |
WO (1) | WO2022037103A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111898928B (zh) * | 2020-08-18 | 2021-08-31 | 哈尔滨工业大学 | 面向时空界的多方服务价值-质量-能力指标对齐方法 |
CN112732251B (zh) * | 2020-12-25 | 2024-08-16 | 哈尔滨工业大学 | 一种面向服务互联网的服务价值网的半自动化生成方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101645934A (zh) * | 2009-08-31 | 2010-02-10 | 东软集团股份有限公司 | 基于加权的Web服务评价方法、Web服务查找方法及其装置 |
CN102622675A (zh) * | 2012-03-14 | 2012-08-01 | 浙江大学 | 一种实现集群式供应链环境下企业互操作的方法及系统 |
CN105740237A (zh) * | 2016-02-03 | 2016-07-06 | 湘潭大学 | 一种基于词汇语义相似度的学生能力达成度评价度量方法 |
CN107315768A (zh) * | 2017-05-17 | 2017-11-03 | 上海交通大学 | 基于异构信息模型映射的配网信息交互方法及系统 |
CN110175325A (zh) * | 2019-04-26 | 2019-08-27 | 南京邮电大学 | 基于词向量和句法特征的评论分析方法及可视化交互界面 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106156082B (zh) * | 2015-03-31 | 2019-09-20 | 华为技术有限公司 | 一种本体对齐方法及装置 |
RU2619193C1 (ru) * | 2016-06-17 | 2017-05-12 | Общество с ограниченной ответственностью "Аби ИнфоПоиск" | Многоэтапное распознавание именованных сущностей в текстах на естественном языке на основе морфологических и семантических признаков |
CN111898928B (zh) * | 2020-08-18 | 2021-08-31 | 哈尔滨工业大学 | 面向时空界的多方服务价值-质量-能力指标对齐方法 |
-
2020
- 2020-08-18 CN CN202010833133.2A patent/CN111898928B/zh active Active
-
2021
- 2021-04-23 WO PCT/CN2021/089373 patent/WO2022037103A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101645934A (zh) * | 2009-08-31 | 2010-02-10 | 东软集团股份有限公司 | 基于加权的Web服务评价方法、Web服务查找方法及其装置 |
CN102622675A (zh) * | 2012-03-14 | 2012-08-01 | 浙江大学 | 一种实现集群式供应链环境下企业互操作的方法及系统 |
CN105740237A (zh) * | 2016-02-03 | 2016-07-06 | 湘潭大学 | 一种基于词汇语义相似度的学生能力达成度评价度量方法 |
CN107315768A (zh) * | 2017-05-17 | 2017-11-03 | 上海交通大学 | 基于异构信息模型映射的配网信息交互方法及系统 |
CN110175325A (zh) * | 2019-04-26 | 2019-08-27 | 南京邮电大学 | 基于词向量和句法特征的评论分析方法及可视化交互界面 |
Non-Patent Citations (1)
Title |
---|
中文本体映射研究与实现;李佳 等;《中文信息学报》;20070731;第21卷(第4期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111898928A (zh) | 2020-11-06 |
WO2022037103A1 (zh) | 2022-02-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021196520A1 (zh) | 一种面向税务领域知识图谱的构建方法及系统 | |
CN110825882B (zh) | 一种基于知识图谱的信息系统管理方法 | |
CN110457447A (zh) | 一种电网任务型对话系统 | |
US8001064B1 (en) | Learning based on feedback for contextual personalized information retrieval | |
US20060253418A1 (en) | Method and apparatus for sociological data mining | |
CN108710663A (zh) | 一种基于本体模型的数据匹配方法及系统 | |
CN113704451A (zh) | 一种电力用户诉求筛选方法、系统、电子设备和存储介质 | |
CN111339421A (zh) | 基于云技术的信息搜索的方法、装置、设备及存储介质 | |
CN111898928B (zh) | 面向时空界的多方服务价值-质量-能力指标对齐方法 | |
CN103559207A (zh) | 一种基于社交媒体计算的金融行为分析系统 | |
CN112035506A (zh) | 一种语义识别方法及其设备 | |
Popping | Online tools for content analysis | |
Ayodele et al. | Email classification using back propagation technique | |
Zhu et al. | A method for the dynamic collaboration of the public and experts in large-scale group emergency decision-making: Using social media data to evaluate the decision-making quality | |
Lawrence et al. | Using complex argumentative interactions to reconstruct the argumentative structure of large-scale debates | |
Wueest et al. | Electoral campaigns and relation mining: Extracting semantic network data from newspaper articles | |
Hunter et al. | A knowledge-based approach to merging information | |
Purwandari et al. | Automatic Smart Crawling on Twitter for Weather Information in Indonesia | |
Kishore et al. | Document Summarization in Malayalam with sentence framing | |
GB2497194A (en) | Method for managing email | |
Park et al. | Dynamic Automated Labeling System for Real-Time User Intention Analysis | |
CN118133946B (zh) | 一种多模态知识分层识别和受控对齐方法 | |
Zhang et al. | Aspect Level Sentiment Classification Based on Viewpoint Information Unit | |
Sakahira et al. | Creating a Disaster Chain Diagram from Japanese Newspaper Articles Using Mechanical Methods | |
Wu et al. | An enterprise public opinion emergency response system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |