CN107704446B - 一种度量文档健康度的方法及装置 - Google Patents

一种度量文档健康度的方法及装置 Download PDF

Info

Publication number
CN107704446B
CN107704446B CN201610645491.4A CN201610645491A CN107704446B CN 107704446 B CN107704446 B CN 107704446B CN 201610645491 A CN201610645491 A CN 201610645491A CN 107704446 B CN107704446 B CN 107704446B
Authority
CN
China
Prior art keywords
document
index
measurement
type
metric
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610645491.4A
Other languages
English (en)
Other versions
CN107704446A (zh
Inventor
王凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201610645491.4A priority Critical patent/CN107704446B/zh
Publication of CN107704446A publication Critical patent/CN107704446A/zh
Application granted granted Critical
Publication of CN107704446B publication Critical patent/CN107704446B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种度量文档健康度的方法及装置,能够不依赖文档编辑器实现文档健康度的度量,通过差异化的度量模型提高了度量结果的准确性。本发明实施例方法包括:获取文档的属性信息;根据所述文档的属性信息进行建模,得到度量模型;按照所述度量模型中设置的度量指标解析所述文档,得到所述文档的文档数据;根据所述文档数据生成度量报告。

Description

一种度量文档健康度的方法及装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种度量文档健康度的方法及装置。
背景技术
产品文档,指与产品配套交付给客户的各种形式的产品信息集合,通过按照特定的使用场景和用户群,形成不同的文档类型,如:操作指南、安装指南、维护指南、故障处理、版本说明书、产品概述或用户指南等。一篇产品文档的健康状况,可以通过参考一些维度和指标来进行度量。
目前,现有的行业内对产品文档健康度的度量,一般使用文档编辑器的自带功能度量当前编辑的文档,选择文档编辑器中的菜单选项“拼音和语法”,按照系统提示,逐项手工确定文档中疑似拼写或语法错误,显示“可读性统计信息”对话框,显示部分指标数据,完成度量。
然而,上述度量方案存在以下缺陷,首先依赖文档编辑器;其次,在度量的过程中未考虑文档类型、用户群或业务用户等属性的不同,缺少了差异化的度量模型,度量结果不准确。
发明内容
本发明实施例提供了一种度量文档健康度的方法及装置,能够不依赖文档编辑器实现文档健康度的度量,通过差异化的度量模型提高了度量结果的准确性。
本发明提供了一种度量文档健康度的方法,可包括:用户在客户端上传文档,同时输入相应的属性信息,此时,获取文档的属性信息;根据文档的格式、类型、读者群等不同的属性信息进行建模,显然该建模为差异化建模,经过差异化建模后,得到不同的度量模型;度量模型中设置有度量指标,参照度量指标解析文档,在对文档解析成功后,得到文档数据,也即是指标数据或量化数据,显然,文档数据与度量指标相关联;在得到文档数据后,生成度量报告,比如体验式的度量报告,向用户展示度量报告,在展示的度量报告中配置诊断结论和/或数据视图,比如文档的评分,文档的评分可以作为文档健康度的参考依据。显然,本发明能够不依赖文档编辑器实现文档健康度的度量,通过差异化的度量模型提高了度量结果的准确性。
在一些可能的实现方式中,针对于现有方案中解析文档时一般采用单本解析文档的方式,本发明可以按照度量模型中设置的度量指标单本或批量解析文档,显然提升了工作效率。
在另一些可能的实现方式中,上述按照度量模型中设置的度量指标单本或批量解析文档具体为:按照度量模型中设置的度量指标单本或批量解析文档的词、句、段落、篇章、页面、图形、表格、字体、色彩以及版式。上面所说的词、句、段落、篇章、页面、图形、表格、字体、色彩以及版式表示不同层级对象或者信息对象,在实际应用中,可以进行删除、增加、修改等操作,以更好的匹配不同的文档,显然,本发明在解析的过程中,考虑了更多的层级对象或者信息对象,解析过程更为全面具体。
在另一些可能的实现方式中,还包括:通过预置算法对文档数据进行处理,得到文档的指标对象,预置算法为现有的预设指标的计算公式;判断指标对象对应的指标值是否在度量模型中设置的度量指标基线的范围内,若是,则指标对象为正常指标对象,若否,则指标对象为异常指标对象,异常指标对象分为偏高型指标对象和偏低型指标对象。在度量报告中可以采用多种方式区分正常指标对象和异常指标对象,比如颜色等,从而使得度量报告更为充实。
在另一些可能的实现方式中,上述通过预置算法对文档数据进行处理,得到文档的指标对象具体为:通过预置算法对文档数据进行处理,得到度量指标的指标值,即文档指标信息;将文档指标信息进行封装,得到文档的指标对象。
在另一些可能的实现方式中,还包括:通过在线监控和大数据分析,快速设别、固化、标准化高质量文档的指标特征,持续细分、优化和调整度量模型中设置的度量指标和度量指标基线,以确保度量保持精准状态。
在另一些可能的实现方式中,上述文档的属性信息包括但不限于文档的格式、类型、项目、用户、读者群和领域,建模的参数包括但不限于度量指标、维度、度量指标基线和计分权重,以匹配特定文档类型和读者群需求。
本发明还提供了一种度量文档健康度的装置,包括:获取模块,用于当用户在客户端上传文档,同时输入相应的属性信息时,获取文档的属性信息;建模模块,用于根据文档的格式、类型、读者群等不同的属性信息进行建模,显然该建模为差异化建模,经过差异化建模后,得到不同的度量模型;解析模块,用于参照度量模型中设置的度量指标解析文档,在对文档解析成功后,得到文档数据,也即是指标数据或量化数据,显然,文档数据与度量指标相关联;生成模块,用于在得到文档数据后,生成度量报告,比如体验式的度量报告,向用户展示度量报告,在展示的度量报告中配置诊断结论和/或数据视图,比如文档的评分,文档的评分可以作为文档健康度的参考依据。显然,本发明能够不依赖文档编辑器实现文档健康度的度量,通过差异化的度量模型提高了度量结果的准确性。
在一些可能的实现方式中,针对于现有方案中解析文档时一般采用单本解析文档的方式,本发明中的解析模块可以按照度量模型中设置的度量指标单本或批量解析文档,显然提升了工作效率。
在另一些可能的实现方式中,解析模块可以按照度量模型中设置的度量指标单本或批量解析文档的词、句、段落、篇章、页面、图形、表格、字体、色彩以及版式。上面所说的词、句、段落、篇章、页面、图形、表格、字体、色彩以及版式表示不同层级对象或者信息对象,在实际应用中,可以进行删除、增加、修改等操作,以更好的匹配不同的文档,显然,本发明在解析的过程中,考虑了更多的层级对象或者信息对象,解析过程更为全面具体。
在另一些可能的实现方式中,还包括:第一处理模块,用于通过预置算法对文档数据进行处理,得到文档的指标对象,预置算法为现有的预设指标的计算公式;判断模块,用于判断指标对象对应的指标值是否在度量模型中设置的度量指标基线的范围内;第二处理模块,用于若指标对象对应的指标值在度量模型中设置的度量指标基线的范围内,则指标对象为正常指标对象,若指标对象对应的指标值不在度量模型中设置的度量指标基线的范围内,则指标对象为异常指标对象。在度量报告中可以采用多种方式区分正常指标对象和异常指标对象,比如颜色等,从而使得度量报告更为充实。
在另一些可能的实现方式中,第一处理模块,具体用于通过预置算法对文档数据进行处理,得到度量指标的指标值,即文档指标信息;将文档指标信息进行封装,得到文档的指标对象。
在另一些可能的实现方式中,还包括:第三处理模块,用于通过在线监控和大数据分析,快速设别、固化、标准化高质量文档的指标特征,持续细分、优化和调整度量模型中设置的度量指标和度量指标基线,以确保度量保持精准状态。
在另一些可能的实现方式中,上述文档的属性信息包括但不限于文档的格式、类型、项目、用户、读者群和领域,建模的参数包括但不限于度量指标、维度、度量指标基线和计分权重,以匹配特定文档类型和读者群需求。
附图说明
图1为本发明实施例中度量文档健康度的方法的工作原理示意图;
图2为本发明实施例中度量文档健康度的方法一个实施例示意图;
图3为本发明实施例中度量文档健康度的装置一个实施例示意图;
图4为本发明实施例中度量文档健康度的装置另一实施例示意图;
图5为本发明实施例中度量文档健康度的装置另一实施例示意图;
图6为本发明实施例中度量文档健康度的装置另一实施例示意图。
具体实施方式
本发明实施例提供了一种度量文档健康度的方法及装置,能够不依赖文档编辑器实现文档健康度的度量,通过差异化的度量模型提高了度量结果的准确性。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明中,为描述方便,产品文档简称为文档。用户通过阅读文档的词语、句子、段落、页面、篇章、图像、表格、字体、色彩和版式等不同内容层级或信息单元,体会、思考和理解文档传播的信息,对信息形成记忆和印象,本发明将这一过程定义为文档阅读体验。通过研究和实践,发明人发现用户对文档的阅读体验与文档内容的易读性、简洁些、清晰性、舒适性、生动性、多样性、情感、平衡等8个维度紧密相关,本发明可以采用函数的形式给出文档阅读体验的定义:E=f(r1,r2,r3,…,rm),其中E代表文档阅读体验得分,r代表影响阅读体验的各维度,f表示E与r之间的关系。另外,通过参考行业标准和大数据方法,本发明可以从词语、句子、段落、页面、篇章、图形、表格、字体、色彩、版式等不同内容层级、信息单元和对象中分解、提炼出61项可量化指标,包括26个核心指标,19个参考指标、3个告警指标以及6个扣分指标,基于上述度量温度和指标,得出文档阅读体验得分的计算公式:E=w1(a1+a2+a3+…+an)+w2(b1+b2+b3+…+bn)+w3(c1+c2+c3+…+cn)+w4(d1+d2+d3+…+dn)+w5(e1+e2+e3+…+en)+w6(f1+f2+f3+…+fn)+w7(g1+g2+g3+…+gn)+w8(h1+h2+h3+…+hn)–(m1p1+m2p2+m3p3+…+mnpn),其中E代表文档阅读体验得分,w代表各维度的积分权重,a-h标识各维度的指标得分,m标识各扣分指标权重,p代表扣分指标得分。本发明可以依据文档阅读体验得分的计算公式计算文档得分,将文档得分添加到本发明的度量报告中。
本发明主要基于文档的文档格式、类型、用途、读者群等不同的属性信息,定义不同的度量指标、维度、指标基线和计分权重等进行一系列差异化建模和统计计算,自动化实现文档健康度量和诊断,提供客观、量化的评估结果,提升文档开发效率,缩短企业产品上市周期。
下面介绍本发明度量文档健康度的方法的工作原理,请参阅图1,分为如下几个步骤,1、用户通过客户端上传待度量文件;2、度量文档健康度的装置根据文档所属领域、类型、格式等属性,调用不同度量模型,计算统计文档的各项指标数据;3、度量文档健康度的装置对照度量指标基线正常或异常状态,并将指标数据存储于数据库;4、度量文档健康度的装置输出度量报告,用户可以通过PC端或移动终端查阅;5、度量报告提供“体检、诊断和专家”服务;6、度量文档健康度的装置在线监控样本数据,持续自我学习,优化度量规则和度量指标基线库。
下面结合具体实施例对本发明度量文档健康度的方法进行描述,请参阅图2,本发明实施例中度量文档健康度的方法一个实施例包括:
101、获取文档的属性信息;
本实施例中,用户通过客户端向度量文档健康度的装置上传待度量的文档,度量文档健康度的装置读取文档的属性信息。
其中,用户在上传待度量的文档时,用户可以输入文档的属性信息以及用户信息。待度量的文档的篇数可以为一篇、也可以为多篇,此处不作限定。
可选的,在本发明的一些实施例中,对文档的属性信息进行了相关的描述;具体的,文档的属性信息包括文档的格式、类型、项目、用户、读者群和领域。需要说明的是,文档的属性信息还可以包括其他内容,此处不作限定。
其中,文档的类型包括但不限于维护类、安装类、一般操作类、一般描述类、硬件描述类、参考类、营销类、年报类、讲话文献类、新闻期刊类、研发设计类等。
102、根据文档的属性信息进行建模,得到度量模型;
本实施例中,考虑到每个文档具有不同的属性信息,为了避免采用单一的度量模型而导致的度量不准确的情况,度量文档健康度的装置可以根据文档的格式、类型、项目、用户、读者群和领域等属性信息,进行差异化建模,得到度量模型,差异化建模的参数包括但不限于度量指标、维度、度量指标基线和计分权重,以匹配特定文档类型和读者群需求。其中指标基线的数值范围为根据行业数据分析验证得出。
显然,通过差异化建模,能够提高度量的准确度,并且,充分考虑了文档的属性信息,比如:文档的格式、类型、项目、用户、读者群和领域等,从而进一步提高了度量的准确度。可见,基于文档的特定属性进行差异化建模,自动化实现文档健康度的诊断和度量,提供了客观、量化的评估结果。
由于度量文档健康度的装置可能对文档的格式有要求,如果文档的格式不符合度量文档健康度的装置所支持的格式,是无法进行度量的,所以可选的,在本发明的一些实施例中,在步骤102之前,可以包括:判断文档的格式是否为预置格式,若是,则执行步骤102。
其中,预置格式包括但不限于PPT格式、Word格式或PDF格式。
103、按照度量模型中设置的度量指标解析文档,得到文档的文档数据;
本实施例中,在检测到文档的路径后,度量文档健康度的装置可以通过参照度量模型中设置的度量指标单本或批量解析文档得到文档的文档数据,文档数据也即是量化数据或指标数据。具体的,在本发明的一些实施例中,还可以通过参照度量模型中设置的度量指标单本或批量解析文档的词、句、段落、篇章、页面、图形、表格、字体、色彩以及版式得到文档的文档数据。
显然,度量模型中设置的度量指标与文档的词、句、段落、篇章、页面、图形、表格、字体、色彩以及版式等度量内容相关,度量内容更为全面,并且文档解析时可以采用多线程方式,通过多线程可以提升解析速度、提升性能。
并且,在解析文档的过程中,不依赖于文档编辑器,无需打开文档,即可单本或批量的解析文档。
对于批量解析的文档,可以按照条目显示文档的文档数据。
在得到文档数据后,可以将文档数据存储在数据库中。此时,可以将属性信息也存储在数据库中。需要说明的是,在获取文档的属性信息后,首先判断文档是否解析成功,若是,则进一步判断是否得到文档数据,若是,则再判断文档数据是否存储在数据库中,若是,则将文档的属性信息存储到数据库中,此时,用户可以在Web端输入搜索条件,查询或更新文档的属性信息,即在Web端对文档的属性信息进行查询和更新操作。
104、根据文档数据生成度量报告。
本实施例中,度量报告可以为体检式的度量结果、诊断和优化意见,辅以可视化的图表。
具体的,可以对文档数据进行处理,得到文档的指标对象,对比指标对象和度量模型中设置的度量指标基线,得到分析结果,将分析结果转换为量化度量数据和结论,也即是度量报告。
本实施例能够不依赖文档编辑器实现文档健康度的度量,通过差异化的度量模型提高了度量结果的准确性。
可选的,在本发明的一些实施例中,还包括:
通过预置算法对文档数据进行处理,得到文档的指标对象;
判断指标对象对应的指标值是否在度量模型中设置的度量指标基线的范围内,若是,则指标对象为正常指标对象,若否,则指标对象为异常指标对象。
本实施例中,通过预置算法对文档数据进行二次加工,生成文档的各指标对象。
可选的,在本发明的一些实施例中,上述通过预置算法对文档数据进行处理,得到文档的指标对象具体为:通过预置算法对文档数据进行处理,得到度量指标的指标值,将度量指标的指标值进行封装,得到文档的指标对象。
其中,预置算法为现有的预设度量指标的计算公式,按照预设度量指标的计算公式对文档数据进行二次加工,计算获取指标1和/或指标2等指标的值。
度量文档健康度的装置可以将指标对象对应的指标值和指标基线进行对比,判断指标值属于正常指标值还是异常指标值,又或者判断指标值对应的状态属于正常状态还是异常状态,若在指标基线范围内,则视为正常指标值或正常状态,若在指标基线范围外,则视为异常指标值或异常状态,其中,异常指标值或异常状态分为两种情况,情况1:偏高;情况2:偏低。比如,若度量某篇文档的指标包括图形密度,图形密度为4.3‰,图形密度的基线范围为1‰-17.98‰,则该篇文档的图像密度判定为正常。
另外,在生成度量报告的过程中,可以根据各度量指标的权重,计算度量总分,考虑到度量指标中存在扣分度量指标,度量文档健康度的装置可以根据扣分度量指标和相应的扣分算法,进行扣分计算,将度量总分减去扣除的分数,得到实际分数,将实际分数添加到度量报告中。更进一步的,度量报告中可以添加进针对文档的诊断和优化意见,并配以相关的可视化图表。
可选的,在本发明的一些实施例中,还包括:
通过在线监控和大数据分析的方式识别、固化以及标准化文档的度量指标特征;
根据文档的度量指标特征调整度量模型中设置的度量指标和度量指标基线。
可见,本实施例可以通过网络在线实时监控和大数据量化分析等手段,不断归集和分析各类文档度量指标数据,及时识别、固化、标准化高质量文档的指标特征,持续优化和调制指标基线,适应不断发展和变化的文档使用场景和需求,确保度量保持精准状态。
上面介绍了本发明实施例中的度量文档健康度的方法,下面介绍本发明实施例中的度量文档健康度的装置,请参阅图3,本发明实施例中度量文档健康度的装置一个实施例包括:
获取模块201,用于获取文档的属性信息;
建模模块202,用于根据获取模块201获取的文档的属性信息进行建模,得到度量模型;
解析模块203,用于按照建模模块202得到的度量模型中设置的度量指标解析文档,得到文档的文档数据;
生成模块204,用于根据解析模块生成度量报告。
其中,用户在上传待度量的文档时,用户可以输入文档的属性信息以及用户信息。待度量的文档的篇数可以为一篇、也可以为多篇,此处不作限定。
其中,文档的类型包括但不限于维护类、安装类、一般操作类、一般描述类、硬件描述类、参考类、营销类、年报类、讲话文献类、新闻期刊类、研发设计类等。
本实施例中,能够不依赖文档编辑器实现文档健康度的度量,通过差异化的度量模型提高了度量结果的准确性。
同参阅图3,在本发明的一些实施例中,解析模块203,具体用于按照度量模型中设置的度量指标单本或批量解析文档,得到文档的文档数据。
进一步的,在本发明的一些实施例中,解析模块203,具体用于按照度量模型中设置的度量指标单本或批量解析文档的词、句、段落、篇章、页面、图形、表格、字体、色彩以及版式,得到文档的文档数据。
显然,度量模型中设置的度量指标与文档的词、句、段落、篇章、页面、图形、表格、字体、色彩以及版式等度量内容相关,度量内容更为全面,并且文档解析时可以采用多线程方式,通过多线程可以提升解析速度、提升性能。
并且,在解析文档的过程中,不依赖于文档编辑器,无需打开文档,即可单本或批量的解析文档。
对于批量解析的文档,可以按照条目显示文档的文档数据。
在得到文档数据后,可以将文档数据存储在数据库中。此时,可以将属性信息也存储在数据库中。用户可以在Web端输入搜索条件,查询或更新文档的属性信息,即在Web端对文档的属性信息进行查询和更新操作。
在图3所示实施例的基础上,请参阅图4,在本发明的一些实施例中,还包括:
第一处理模块301,用于通过预置算法对文档数据进行处理,得到文档的指标对象;
判断模块302,用于判断指标对象对应的指标值是否在度量模型中设置的度量指标基线的范围内;
第二处理模块303,用于若指标对象对应的指标值在度量模型中设置的度量指标基线的范围内,则指标对象为正常指标对象,
在图4所示实施例的基础上,在本发明的一些实施例中,第一处理模块301,具体用于通过预置算法对文档数据进行处理,得到度量指标的指标值;将度量指标的指标值进行封装,得到文档的指标对象。
其中,预置算法为现有的预设度量指标的计算公式,按照预设度量指标的计算公式对文档数据进行二次加工,计算获取指标1和/或指标2等指标的值。
度量文档健康度的装置可以将指标对象对应的指标值和指标基线进行对比,判断指标值属于正常指标值还是异常指标值,又或者判断指标值对应的状态属于正常状态还是异常状态,若在指标基线范围内,则视为正常指标值或正常状态,若在指标基线范围外,则视为异常指标值或异常状态,其中,异常指标值或异常状态分为两种情况,情况1:偏高;情况2:偏低。比如,若度量某篇文档的指标包括图形密度,图形密度为4.3‰,图形密度的基线范围为1‰-17.98‰,则该篇文档的图像密度判定为正常。
另外,在生成度量报告的过程中,可以根据各度量指标的权重,计算度量总分,考虑到度量指标中存在扣分度量指标,度量文档健康度的装置可以根据扣分度量指标和相应的扣分算法,进行扣分计算,将度量总分减去扣除的分数,得到实际分数,将实际分数添加到度量报告中。更进一步的,度量报告中可以添加进针对文档的诊断和优化意见,并配以相关的可视化图表。
在图4所示实施例的基础上,请参阅图5,在本发明的一些实施例中,还包括:
第三处理模块401,用于通过在线监控和大数据分析的方式识别、固化以及标准化文档的度量指标特征;
调整模块402,用于根据文档的度量指标特征调整度量模型中设置的度量指标和度量指标基线。
可见,本实施例可以通过网络在线实时监控和大数据量化分析等手段,不断归集和分析各类文档度量指标数据,及时识别、固化、标准化高质量文档的指标特征,持续优化和调制指标基线,适应不断发展和变化的文档使用场景和需求,确保度量保持精准状态。
进一步的,在图5所示实施例的基础上,文档的属性信息包括文档的格式、类型、项目、用户、读者群和领域,差异化建模的参数包括度量指标、维度、度量指标基线和计分权重。
上面从模块化功能实体的角度对本发明实施例中的度量文档健康度的装置进行了描述,下面从硬件处理的角度对本发明实施例中的度量文档健康度的装置进行描述,请参阅图6,本发明实施例中的度量文档健康度的装置包括:接收器501以及处理器502。
本发明实施例涉及的度量文档健康度的装置可以具有比图6所示出的更多或更少的部件,可以组合两个或更多个部件,或者可以具有不同的部件配置或设置,各个部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件或硬件和软件的组合实现。
所述接收器501用于执行如下操作:
接收文档的属性信息。
所述处理器502用于执行如下操作:
根据文档的属性信息进行建模,得到度量模型;
按照度量模型中设置的度量指标解析文档,得到文档的文档数据;
根据文档数据生成度量报告。
可选的,所述处理器502具体用于执行如下操作:按照度量模型中设置的度量指标单本或批量解析文档,得到文档的文档数据。
可选的,所述处理器502具体用于执行如下操作:按照度量模型中设置的度量指标单本或批量解析文档的词、句、段落、篇章、页面、图形、表格、字体、色彩、以及版式,得到文档的文档数据。
可选的,所述处理器502还用于执行如下操作:通过预置算法对文档数据进行处理,得到文档的指标对象;判断指标对象对应的指标值是否在度量模型中设置的度量指标基线的范围内;若指标对象对应的指标值在度量模型中设置的度量指标基线的范围内,则指标对象为正常指标对象,若指标对象对应的指标值不在度量模型中设置的度量指标基线的范围内,则指标对象为异常指标对象。
可选的,所述处理器502具体用于执行如下操作:通过预置算法对文档数据进行处理,得到度量指标的指标值;将度量指标的指标值进行封装,得到文档的指标对象。
可选的,所述处理器502还用于执行如下操作:通过在线监控和大数据分析的方式识别、固化以及标准化文档的度量指标特征;根据所述文档的度量指标特征调整所述度量模型中设置的度量指标和度量指标基线。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种度量文档健康度的方法,其特征在于,包括:
获取文档的属性信息,所述属性信息包括所述文档的格式、类型、项目、用户、读者群和领域,所述文档的格式为PPT格式、Word格式或PDF格式,所述文档的类型为维护类、安装类、一般操作类、一般描述类、硬件描述类、参考类、营销类、年报类、讲话文献类、新闻期刊类或研发设计类;
根据所述文档的属性信息进行建模,得到度量模型,所述建模的参数包括度量指标、维度、度量指标基线和计分权重,所述建模的参数的维度包括易读性、简洁性、清晰性、舒适性、生动性、多样性、情感和平衡;
按照所述度量模型中设置的度量指标解析所述文档,得到所述文档的文档数据,所述文档数据为指标数据或量化数据,所述度量指标包括扣分指标和所述维度的多个可量化指标;
根据所述文档数据生成度量报告,所述度量报告包括所述文档的文档阅读体验得分,其中,所述文档阅读体验得分为根据各个所述维度的得分和所述维度对应的计分权重,以及所述扣分指标的得分和所述扣分指标的计分权重获得,所述维度的得分为根据所述维度的所述度量指标中各个可量化指标的得分之和以及所述维度对应的计分权重获得;
所述方法还包括:
通过在线监控和大数据分析的方式识别、固化以及标准化所述文档的度量指标特征;
根据所述文档的度量指标特征调整所述度量模型中设置的度量指标和度量指标基线。
2.根据权利要求1所述的方法,其特征在于,所述按照所述度量模型中设置的度量指标解析所述文档包括:
按照所述度量模型中设置的度量指标单本或批量解析所述文档。
3.根据权利要求2所述的方法,其特征在于,所述按照所述度量模型中设置的度量指标单本或批量解析所述文档包括:
按照所述度量模型中设置的度量指标单本或批量解析所述文档的词、句、段落、篇章、页面、图形、表格、字体、色彩以及版式。
4.根据权利要求1至3任意一项所述的方法,其特征在于,所述方法还包括:
通过预置算法对所述文档数据进行处理,得到所述文档的指标对象;
判断所述指标对象对应的指标值是否在所述度量模型中设置的度量指标基线的范围内,若是,则所述指标对象为正常指标对象,若否,则所述指标对象为异常指标对象。
5.根据权利要求4所述的方法,其特征在于,所述通过预置算法对所述文档数据进行处理,得到所述文档的指标对象包括:
通过预置算法对所述文档数据进行处理,得到所述度量指标的指标值;
将所述度量指标的指标值进行封装,得到所述文档的指标对象。
6.一种度量文档健康度的装置,其特征在于,包括:
获取模块,用于获取文档的属性信息,所述属性信息包括所述文档的格式、类型、项目、用户、读者群和领域,所述文档的格式为PPT格式、Word格式或PDF格式,所述文档的类型为维护类、安装类、一般操作类、一般描述类、硬件描述类、参考类、营销类、年报类、讲话文献类、新闻期刊类或研发设计类;
建模模块,用于根据所述文档的属性信息进行建模,得到度量模型,所述建模的参数包括度量指标、维度、度量指标基线和计分权重,所述建模的参数的维度包括易读性、简洁性、清晰性、舒适性、生动性、多样性、情感和平衡;
解析模块,用于按照所述度量模型中设置的度量指标解析所述文档,得到所述文档的文档数据,所述文档数据为指标数据或量化数据,所述度量指标包括扣分指标和所述维度的多个可量化指标;
生成模块,用于根据所述文档数据生成度量报告,所述度量报告包括所述文档的文档阅读体验得分,其中,所述文档阅读体验得分为根据各个所述维度的得分和所述维度对应的计分权重,以及所述扣分指标的得分和所述扣分指标的计分权重获得,所述维度的得分为根据所述维度的所述度量指标中各个可量化指标的得分之和以及所述维度对应的计分权重获得;
所述装置还包括:
第三处理模块,用于通过在线监控和大数据分析的方式识别、固化以及标准化所述文档的度量指标特征;
调整模块,用于根据所述文档的度量指标特征调整所述度量模型中设置的度量指标和度量指标基线。
7.根据权利要求6所述的装置,其特征在于,所述解析模块,具体用于按照所述度量模型中设置的度量指标单本或批量解析所述文档,得到所述文档的文档数据。
8.根据权利要求7所述的装置,其特征在于,所述解析模块,具体用于按照所述度量模型中设置的度量指标单本或批量解析所述文档的词、句、段落、篇章、页面、图形、表格、字体、色彩以及版式,得到所述文档的文档数据。
9.根据权利要求6至8任意一项所述的装置,其特征在于,所述装置还包括:第一处理模块,用于通过预置算法对所述文档数据进行处理,得到所述文档的指标对象;判断模块,用于判断所述指标对象对应的指标值是否在所述度量模型中设置的度量指标基线的范围内;第二处理模块,用于若所述指标对象对应的指标值在所述度量模型中设置的度量指标基线的范围内,则所述指标对象为正常指标对象,若所述指标对象对应的指标值不在所述度量模型中设置的度量指标基线的范围内,则所述指标对象为异常指标对象。
10.根据权利要求9所述的装置,其特征在于,所述第一处理模块,具体用于通过预置算法对所述文档数据进行处理,得到所述度量指标的指标值;将所述度量指标的指标值进行封装,得到所述文档的指标对象。
CN201610645491.4A 2016-08-08 2016-08-08 一种度量文档健康度的方法及装置 Active CN107704446B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610645491.4A CN107704446B (zh) 2016-08-08 2016-08-08 一种度量文档健康度的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610645491.4A CN107704446B (zh) 2016-08-08 2016-08-08 一种度量文档健康度的方法及装置

Publications (2)

Publication Number Publication Date
CN107704446A CN107704446A (zh) 2018-02-16
CN107704446B true CN107704446B (zh) 2022-05-13

Family

ID=61168682

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610645491.4A Active CN107704446B (zh) 2016-08-08 2016-08-08 一种度量文档健康度的方法及装置

Country Status (1)

Country Link
CN (1) CN107704446B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110334331A (zh) * 2019-05-30 2019-10-15 重庆金融资产交易所有限责任公司 基于排序模型筛选表格的方法、装置和计算机设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101477548A (zh) * 2009-01-20 2009-07-08 中国测绘科学研究院 一种基于规则的通用空间数据质量检查的技术方法
CN103886098A (zh) * 2014-04-04 2014-06-25 浙江大学城市学院 一种Word文档格式检查方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007148913A (ja) * 2005-11-29 2007-06-14 Toshiba Corp データ作成支援システム、データ作成支援装置およびデータ作成支援プログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101477548A (zh) * 2009-01-20 2009-07-08 中国测绘科学研究院 一种基于规则的通用空间数据质量检查的技术方法
CN103886098A (zh) * 2014-04-04 2014-06-25 浙江大学城市学院 一种Word文档格式检查方法

Also Published As

Publication number Publication date
CN107704446A (zh) 2018-02-16

Similar Documents

Publication Publication Date Title
Mateo A deeper look into metrics for translation quality assessment (TQA):: a case study
Zhang et al. Mining millions of reviews: a technique to rank products based on importance of reviews
CN108446813A (zh) 一种电商服务质量综合评价的方法
KR20140078312A (ko) 텍스트 기반 감성 분석 결과를 제공하기 위한 장치, 시스템 및 그 방법
CN110334356A (zh) 文章质量的确定方法、文章筛选方法、以及相应的装置
CN102402717A (zh) 数据分析设备和方法
KR20190017597A (ko) 사용자 반응 데이터 분석 방법 및 장치
CN107704446B (zh) 一种度量文档健康度的方法及装置
CN113723747A (zh) 分析报告生成方法、电子设备及可读存储介质
CN103294741A (zh) 类似文件检索辅助装置以及类似文件检索辅助方法
CN111209394A (zh) 文本分类处理方法和装置
Hider et al. Constructing record quality measures based on catalog use
CN107093103B (zh) 基于大数据统计分析的品牌价值评价方法及系统
KR102405503B1 (ko) 소비 데이터와 소셜 데이터를 이용한 소비동향 예측 지수 생성 방법과 이를 적용한 소비동향 예측 지수 생성 시스템 및 이를 위한 컴퓨터 프로그램
JP6718535B2 (ja) 評価装置、評価方法、および評価プログラム
CN110688273B (zh) 分类模型的监控方法、装置、终端以及计算机存储介质
CN114023407A (zh) 一种健康档案缺失值补全方法、系统以及存储介质
JP2014032636A (ja) ブランド診断方法及びそのシステム
CN113950692A (zh) 信息处理设备、信息处理方法和程序
JP5159919B2 (ja) ハードウェア使用状況に応じたユーザー評価装置
Gaillat Investigating the scopes of textual metrics for learner level discrimination and learner analytics
US20230342693A1 (en) Methods and apparatus for natural language processing and governance
EP4116898A1 (en) Document evaluation program, document evaluation method, and document evaluation device
CN111415176B (zh) 一种满意度评价方法、装置及电子设备
JP2020071523A (ja) 見積方法、課金方法、コンピュータ、及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant