CN116629241A - 一种文档质量评价方法及计算设备 - Google Patents
一种文档质量评价方法及计算设备 Download PDFInfo
- Publication number
- CN116629241A CN116629241A CN202310450781.3A CN202310450781A CN116629241A CN 116629241 A CN116629241 A CN 116629241A CN 202310450781 A CN202310450781 A CN 202310450781A CN 116629241 A CN116629241 A CN 116629241A
- Authority
- CN
- China
- Prior art keywords
- evaluation
- document
- text segment
- text
- quality
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013441 quality evaluation Methods 0.000 title claims abstract description 170
- 238000000034 method Methods 0.000 title claims abstract description 80
- 238000011156 evaluation Methods 0.000 claims abstract description 537
- 239000012634 fragment Substances 0.000 claims description 63
- 238000004458 analytical method Methods 0.000 claims description 61
- 238000000605 extraction Methods 0.000 claims description 50
- 238000003058 natural language processing Methods 0.000 claims description 48
- 230000006872 improvement Effects 0.000 claims description 33
- 238000012549 training Methods 0.000 claims description 29
- 230000002787 reinforcement Effects 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 11
- 238000001303 quality assessment method Methods 0.000 claims description 7
- 238000007726 management method Methods 0.000 description 84
- 238000012545 processing Methods 0.000 description 42
- 230000008451 emotion Effects 0.000 description 20
- 239000000047 product Substances 0.000 description 19
- 238000010586 diagram Methods 0.000 description 17
- 230000008569 process Effects 0.000 description 15
- 230000006870 function Effects 0.000 description 12
- 238000004891 communication Methods 0.000 description 10
- 238000002372 labelling Methods 0.000 description 8
- 101100481876 Danio rerio pbk gene Proteins 0.000 description 6
- 101100481878 Mus musculus Pbk gene Proteins 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 238000013210 evaluation model Methods 0.000 description 3
- 230000001788 irregular Effects 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000005728 strengthening Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010304 firing Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本申请实施例提供了一种文档质量评价方法及计算设备,方法包括:获取待检测文档的评价数据;基于评价数据得到至少一个目标文本片段;从多个评价维度将至少一个目标文本片段和评价词典进行匹配,得到匹配结果,匹配结果包括多个评价维度对应的匹配信息;其中,每个评价维度对应的匹配信息包括匹配文本片段和匹配文本片段对应的评价参数,评价词典包括至少一个参考文本片段;评价参数用于指示每个匹配文本片段所描述的文档内容的优势特征或者劣势特征的得分;根据匹配结果确定待检测文档的质量评价数据;其中,质量评价数据包括多个评价维度对应的质量分数。通过上述方法,可以提高对文档进行质量评价的准确性。
Description
技术领域
本申请涉及服务器技术领域,尤其涉及一种文档质量评价方法及计算设备。
背景技术
产品文档是一种介绍诸如产品功能特性、如何使用、如何处理故障等信息的文档。互联网上发布的产品文档数量众多,文档作者或使用者需要了解文档质量怎么样,例如文档哪些部分用户认可度高,哪些部分用户认可度低,因此需要对文档进行质量评价。
目前,通过评价模型对文档的质量进行评分,但该评分是文档整体质量对应的评分,粒度较为粗糙,导致文档质量评价的准确性较低。并且,不同用户对文档质量的理解不一致,使得训练出的评分模型的客观度不足。因此,如何提高对文档进行质量评价的准确性是一个亟待解决的问题。
发明内容
本申请实施例提供一种文档质量评价方法及计算设备,可以提高对文档进行质量评价的准确性。
第一方面,本申请实施例提供了一种文档质量评价方法,方法包括:
获取待检测文档的评价数据;
基于评价数据得到至少一个目标文本片段;
从多个评价维度将至少一个目标文本片段和评价词典进行匹配,得到匹配结果;匹配结果包括多个评价维度对应的匹配信息,其中,每个评价维度对应的匹配信息包括匹配文本片段和匹配文本片段对应的评价参数,评价词典包括至少一个参考文本片段;评价参数用于指示每个匹配文本片段所描述的文档内容的优势特征或者劣势特征的得分;
根据匹配结果确定待检测文档的质量评价数据;其中,质量评价数据包括多个评价维度对应的质量分数。
在一种可实现方式中,评价词典包括每个评价维度对应的子词典;
从多个评价维度将至少一个目标文本片段和评价词典进行匹配,得到匹配结果,包括:
将至少一个目标文本片段和目标评价维度对应的目标子词典中的参考文本片段进行匹配,得到与至少一个目标文本片段匹配的匹配文本片段;匹配文本片段包括正向文本片段和负向文本片段;其中,目标评价维度为多个评价维度中的任意一个,正向文本片段用于描述待检测文档的内容的优势特征,负向文本片段用于描述待检测文档的内容的劣势特征;
从评价参数对照数据中确定匹配文本片段对应的评价参数;
基于匹配文本片段和匹配文本片段对应的评价参数确定目标评价维度对应的匹配信息;
基于多个评价维度对应的匹配信息确定匹配结果。
通过该实现方式,使得管理服务器可以针对每一个评价维度从待检测文档的内容的优势特征和劣势特征两方面进行文档质量评分,从而提高待检测文档的质量分数的准确性。
在一种可实现方式中,根据匹配结果确定待检测文档的质量评价数据,包括:
从目标评价维度对应的匹配信息中确定每个正向文本片段对应的评价参数,以及每个负向文本片段对应的评价参数;
基于每个正向文本片段和每个正向文本片段对应的评价参数确定正向评价参数;
基于每个负向文本片段和每个负向文本片段对应的评价参数确定负向评价参数;
基于正向评价参数和负向评价参数确定目标评价维度对应的质量分数;
基于多个评价维度对应的质量分数确定待检测文档的质量评价数据。
在一种可实现方式中,基于评价数据得到至少一个目标文本片段,包括:
基于信息提取模型对评价数据进行词法分析、句法分析和语义分析,得到至少一个目标文本片段;
其中,信息提取模型是基于样本文档的评价数据和标注数据对自然语言处理模型进行句法分析的强化训练得到的,标注数据包括样本文档的评价数据的至少一个标注文本片段。
通过该实现方式,使得管理服务器可以利用样本文档的评价数据和标注数据对自然语言处理模型进行针对性的强化训练,保证模型输出结果的准确性,基于模型输出结果确定文档的质量评价数据,可以提升文档质量评价的准确度。
在一种可实现方式中,基于信息提取模型对评价数据进行词法分析、句法分析和语义分析,得到至少一个目标文本片段之前,方法还包括:
获取样本文档的评价数据和标注数据,标注数据包括样本文档的评价数据的至少一个标注文本片段;
利用自然语言处理模型对样本文档的评价数据进行信息提取,得到预测文本片段;
确定标注文本片段的句子成分和预测文本片段的句子成分,标注文本片段的句子成分包括标注文本片段中每个文本元素的词性之间的组合关系,预测文本片段的句子成分包括预测文本片段中每个文本元素的词性之间的组合关系;
基于标注文本片段的句子成分和预测文本片段的句子成分之间的差异数据对自然语言处理模型的参数进行调整,得到信息提取模型。
通过该实现方式,使得管理服务器可以基于标注文本片段的句子成分和预测文本片段的句子成分之间的差异数据,对自然语言处理模型进行训练,得到信息提取模型,从而提高信息提取模型的预测准确性。
在一种可实现方式中,方法还包括:
基于每个正向文本片段和每个正向文本片段对应的评价参数确定文档正向得分项;
基于每个负向文本片段和每个负向文本片段对应的评价参数确定文档负向得分项;
根据文档正向得分项和文档负向得分项确定待检测文档的改进指示信息,改进指示信息用于指示第一目标用户对待检测文档进行编辑处理。
通过该实现方式,使得管理服务器可以将改进指示信息输出给第一目标用户(如文档作者),用于反馈给第一目标用户文档得分和加减分清单,以便于第一目标用户对文档进行改进。
在一种可实现方式中,方法还包括:
基于文本片段的内容确定匹配文本片段中每个正向文本片段的出现频次和每个负向文本片段的出现频次;
根据匹配文本片段中每个正向文本片段的出现频次和评价参数确定每个正向文本片段的权重参数,根据匹配文本片段中每个负向文本片段的出现频次和评价参数确定每个负向文本片段的权重参数;
根据每个正向文本片段的权重参数和每个负向文本片段的权重参数确定待检测文档的质量评价标签,质量评价标签用于指示第二目标用户基于质量评价标签使用待检测文档。
通过该实现方式,使得管理服务器可以将质量评价标签输出给第二目标用户(如文档使用者),用于反馈给第二目标用户待检测文档的优势特征和劣势特征,以便于第二目标用户有针对性的进行文档使用,保证文档使用体验。
在一种可实现方式中,根据每个正向文本片段的权重参数和每个负向文本片段的权重参数确定待检测文档的质量评价标签,包括:
对每个正向文本片段的权重参数进行降序排序,得到排在前K位的权重参数所对应的K个正向文本片段,K为正整数;
对每个负向文本片段的权重参数进行降序排序,得到排在前L位的权重参数所对应的L个负向文本片段,L为正整数;
根据K个正向文本片段和L个负向文本片段,确定待检测文档的质量评价标签。
通过该实现方式,使得管理服务器可以自定义质量评价标签对应的正向文本片段和负向文本片段的数量的,从而提高质量评价标签的形式的多样性。
在一种可实现方式中,多个评价维度包括内容易获取度、内容完整度、内容正确度、内容易理解度;内容易获取度用于指示待检测文档中内容的获取难易程度,内容完整度用于指示待检测文档中内容的完整程度,内容正确度用于指示待检测文档中内容的准确程度,内容易理解度用于指示待检测文档中内容的理解难易程度。
通过该实现方式,使得管理服务器可以通过多维度的评价维度进行文档质量评价,提高了文档质量评价的准确性,使得文档质量评价更具有依据性和可信度。
第二方面,本申请实施例提供了一种文档质量评价装置,装置包括:
获取模块,用于获取待检测文档的评价数据;
处理模块,用于基于评价数据得到至少一个目标文本片段;
处理模块,还用于从多个评价维度将至少一个目标文本片段和评价词典进行匹配,得到匹配结果,匹配结果包括多个评价维度对应的匹配信息;其中,每个评价维度对应的匹配信息包括匹配文本片段和匹配文本片段对应的评价参数,评价词典包括至少一个参考文本片段;所述评价参数用于指示每个匹配文本片段所描述的文档内容的优势特征或者劣势特征的得分;
评价模块,用于根据匹配结果确定待检测文档的质量评价数据;其中,质量评价数据包括多个评价维度对应的质量分数。
第三方面,本申请实施例提供了一种计算设备,计算设备包括处理器、通信接口和存储器,处理器、通信接口和存储器电连接,其中,通信接口受处理器的控制用于收发数据,存储器用于存储计算机程序,计算机程序包括程序指令,处理器被配置用于调用程序指令,用于执行第一方面的文档质量评价方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序包括程序指令,程序指令被处理器执行,用以执行第一方面的文档质量评价方法。
第五方面,本申请实施例提供了一种计算机程序产品,包括计算机程序,计算机程序被计算机处理器执行时实现第一方面的文档质量评价方法。
本申请实施例中,通过对待检测文档的评价数据进行信息提取处理,得到具有关键语义信息的目标文本片段;然后对目标文本片段和评价词典进行匹配处理,得到多个评价维度对应的匹配信息,进而得到包括了待检测文档的多个评价维度对应的质量分数的质量评价数据。其中,每个评价维度对应的匹配信息包括匹配文本片段和匹配文本片段对应的评价参数,通过多个评价维度的匹配文本片段和各自对应的评价参数计算多个评价维度的质量得分,可以进行多维度的质量分析,从而提高对文档进行质量评价的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种文档质量评价系统的架构示意图;
图2是本申请实施例提供的一种文档质量评价方法的流程示意图;
图3是本申请实施例提供的一种评价维度划分的示意图;
图4是本申请实施例提供的另一种文档质量评价方法的流程示意图;
图5a是本申请实施例提供的一种对NLP模型强化训练的示意图;
图5b是本申请实施例提供的一种生成文档的改进指示信息和质量评价标签的流程示意图;
图5c是本申请实施例提供的一种质量评价标签的示意图;
图5d是本申请实施例提供的一种文档质量评价流程的示意图;
图6是本申请实施例提供的另一种文档质量评价方法的流程示意图;
图7是本申请实施例提供的另一种文档质量评价流程的示意图;
图8是本申请实施例提供的一种文档质量评价装置的结构示意图;
图9是本申请实施例提供的一种计算设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例中所涉及到的“第一”、“第二”等描述仅用于描述目的,而不能理解为指示或者暗示其相对重要性或者隐含指明所指示的技术特征的数量。因此,限定有“第一”、“第二”的技术特征可以明示或者隐含的包括至少一个该特征。
为了更好地理解本申请实施例的方案,下面先对本申请实施例可能涉及的相关术语和概念进行介绍。
产品文档:介绍产品功能特性、如何安装调试、如何使用、如何处理故障的文档。
自然语言处理(Natural Language Processing,NLP):自然语言处理是指利用人类交流所使用的自然语言与机器进行交互通讯的技术。通过人为的对自然语言的处理,使得计算机对其能够可读并理解。
深度学习:深度学习通过学习样本数据的内在规律和表示层次,获得诸如文字、图像和声音等信息,这些信息可以解释数据规律。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。
文档质量:从不同维度衡量文档好坏的一系列指标。
语义:语言所蕴含的意义。
文档作者:一般为文档编辑、写作人员,对文档的质量和内容负责。
文档管理者:通常包括技术支持网站的运营人员、产品管理人员。技术支持网站运营人员需要知道每个产品文档的质量好坏,产品管理人员认为文档是产品的一部分,也希望能了解产品文档的质量好坏。
互联网上发布的产品文档数量众多,而在云化相关的产品中,文档包括的页面、内容会更加复杂。文档作者或使用者需要了解文档质量,例如文档的哪些页面、内容用户认可度高,文档的哪些页面、内容用户抱怨较多,因此需要对文档进行质量评价。但是用户的评价是散乱的,缺少自动分析的维度和方法,当前的用户评分只能一个分数,缺少分类维度和详细信息。通过评价模型可以对文档进行评分,但评分也只有一个分数,缺少评分维度和详细的评分信息,极大地影响了文档质量评价的准确性。同时评价模型完全是黑盒,维度划分不可控,很难从产品文档提升的角度提出文档的改进方向和策略。并且,不同用户对文档质量的理解不一致,使得训练出的评分模型的客观度不足。
基于此,本申请提出一种文档质量评价方法,从文档的内容易获取度、内容完整度、内容正确度、内容易理解度这四个维度的质量分数评价文档质量,提高了对文档进行质量评价的准确性。并且,通过给出文档的改进指示信息,方便文档作者优化文档,通过针对文档评价特点给出文档的质量评价标签(一种特征标签),方便文档用户使用文档。除此之外,本申请实施例中通过信息提取模型提取评价数据中的关键文本片段,其中,信息提取模型是通过在自然语言处理模型的基础上,针对用户评价特点和技术文档评价常用词库对模型进行针对性的改进得到的,通过信息提取模型提取评价数据中的关键文本片段,可以保证关键文本片段的准确性,进而提升文档质量评价的准确度。
为了更好地理解本申请实施例提供的技术方案,下面对本申请的相关实施例进行描述。
请参见图1,图1是本申请实施例提供的一种文档质量评价系统的架构示意图,该文档质量评价系统包括管理服务器101、第一终端设备102和第二终端设备103,其中:
管理服务器101,用于提供待检测文档的评价数据的信息提取、词典匹配、以及文档质量评价等服务。例如,每个待检测文档的使用者可以在使用文档后将评价数据(例如评价文本)存储到数据库。管理服务器101可以从数据库中获取待检测文档的评价数据,并对评价数据进行信息提取,得到至少一个目标文本片段,然后对至少一个目标文本片段和评价词典进行匹配处理,得到匹配结果。在匹配结果中包括了多个评价维度对应的匹配信息,每个评价维度对应的匹配信息包括匹配文本片段和匹配文本片段对应的评价参数。其中,评价参数用于指示每个匹配文本片段所描述的文档内容的优势特征或者劣势特征的得分。管理服务器101最后根据匹配结果确定待检测文档的质量评价数据,质量评价数据包括多个评价维度对应的质量分数,从而通过质量评价数据表征待检测文档的文档质量。
除此之外,管理服务器101还可以基于匹配文本片段中包括的正向文本片段和负向文本片段,根据每个正向文本片段和每个正向文本片段对应的评价参数确定文档正向得分项;根据每个负向文本片段和每个负向文本片段对应的评价参数确定文档负向得分项。最后根据文档正向得分项和文档负向得分项确定待检测文档的改进指示信息。管理服务器101还可以基于文本片段的内容确定匹配文本片段中每个正向文本片段的出现频次和每个负向文本片段的出现频次。然后根据匹配文本片段中每个正向文本片段和每个正向文本片段的出现频次确定每个正向文本片段的权重参数,根据匹配文本片段中每个负向文本片段和每个负向文本片段的出现频次确定每个负向文本片段的权重参数。最后,根据每个正向文本片段的权重参数和每个负向文本片段的权重参数确定待检测文档的质量评价标签。通过上述方法,可以在获取到待检测文档的质量评价数据的同时,获取改进指示信息和质量评价标签,为文档使用者或文档作者提供与文档质量相关的参考信息,以便于文档使用者对文档进行编辑、使用,以便于文档作者进行后续文档改进。
第一终端设备102,具体可以是第一目标对象(例如待检测文档的作者)对应的终端设备。第一目标对象可以通过第一终端设备102提供的用户界面(如web界面)从管理服务器101获取待检测文档的质量评价数据以及待检测文档的改进指示信息,然后基于改进指示信息对待检测文档进行编辑处理。例如,通过表单形式的改进指示信息,可以反馈待检测文档的每个加减分项,以便于让第一目标对象了解如何修改文档,为文档修改、优化策略提供参考。
第二终端设备103,具体可以是第二目标对象(例如待检测文档的使用者)对应的终端设备。第二目标对象可以通过第二终端设备103提供的用户界面(如web界面)从管理服务器101获取待检测文档的质量评价数据以及待检测文档的质量评价标签,然后基于质量评价标签使用待检测文档。
在一种可实现方式中,管理服务器101可以基于正向得分和负向得分两类,按照分数*频数的规则(匹配文本片段对应的评价参数*匹配文本片段的出现次数,得到权重参数),在文档末尾打上正向得分对应的权重参数最大的TopK质量评价标签,以及负向得分对应的权重参数最大的TopK质量评价标签,以正向得分为例,管理服务器可以将每个正向文本片段的出现频次和评价参数相乘,作为每个正向文本片段对应的权重参数,管理服务器然后从所有的正向文本片段中选择对应权重参数最大的前K个正向文本片段,作为正向得分对应的权重参数最大的TopK质量评价标签。在管理服务器101通过上述实施例中的方法在文档末尾打上质量评价标签(质量评价标签额可以包括:正向得分对应的权重参数最大的TopK质量评价标签,和/或负向得分对应的权重参数最大的TopK质量评价标签)后,使得第二目标对象可以基于质量评价标签,快速、直观的了解文档特点,以便于有针对性的进行文档使用,保证文档使用体验。
其中,第一终端设备102、第二终端设备103具体可以是智能手机、平板电脑、笔记本电脑、台式电脑、车载终端、可穿戴设备等,本申请实施例不做限定。需要说明的是,第一终端设备102和第二终端设备103可以是指同一终端设备,也可以是指不同的终端设备。在第一终端设备102和第二终端设备103指同一终端设备的情况下,第一目标对象和第二目标对象可以为同一对象(如待检测文档的作者也作为待检测文档的使用者)。
需要说明的是,图1中所示的管理服务器101、第一终端设备102和第二终端设备103的数目仅仅是示意性的,根据实际需要,可以部署任意数目的管理服务器101、第一终端设备102和第二终端设备103。管理服务器101可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network,CDN)、以及大数据等基础云计算服务的云服务器。在后续实施例中,将以管理服务器指代上述管理服务器101,以第一终端设备指代上述第一终端设备102,以第二终端设备指代上述第二终端设备103,后续实施例中将不再赘述。
以下对本申请实施例的技术方案的实现细节进行详细阐述:
请参见图2,是本申请实施例基于图1所示的文档质量评价系统提供的一种文档质量评价方法的流程示意图,该文档质量评价方法可以应用于图1中的管理服务器101,具体可以包括如下步骤:
201、获取待检测文档的评价数据。
其中,待检测文档可以是指针对一个产品的使用文档,用于告知用户如何使用、如何处理故障等。待检测文档的评价数据可以是指待检测文档用户在阅读、浏览该文档后,对文档中的内容进行评价所产生的文本数据,如文档中哪些内容写得好,哪些内容写得差。本申请实施例中的评价数据可以看作是一个评价数据集合,评价数据集合中的评价数据的数量可以是一个,也可以是多个。并且,评价数据集合可以包括一个用户在使用待检测文档后生成的一个或多个评价数据,也可以包括多个用户在使用待检测文档后各自生成的一个或多个评价数据。
需要说明的是,待检测文档的评价数据除了可以是文本类型的评价数据,还可以是视频、音频、图像等各种数据类型的评价数据,本申请实施例不对评价数据的数据类型进行限定。管理服务器在处理评价数据时,可以先将原始数据类型(如音频类型)的评价数据转换为目标数据类型(如文本类型)的评价数据,再进行后续信息提取、评价字典匹配等处理,以此保证处理结果的准确性。
示例性的,待检测文档可以是某一个应用程序产品的使用文档,评价数据可以是“在第一章节中的路径和最新版本的路径不匹配”、“模块B是否还指向主板,文档内无介绍”、“A功能对应的界面与实际界面完全不同”、“很多参数写得不清不楚不明白什么含义”等文本数据。
202、基于评价数据得到至少一个目标文本片段。
其中,基于评价数据得到至少一个目标文本片段可以是指:管理服务器对评价数据进行信息提取处理,得到至少一个目标文本片段。目标文本片段可以看作是评价数据中的具有关键语义信息的关键文本片段。管理服务器可以对评价数据集合中的每个评价数据分别进行信息提取处理,得到各自对应的目标文本片段。每个评价数据都可以通过信息提取得到一个或多个目标文本片段。并且,对于一些内容不合理的评价数据(如“额额额”),可能提取不到目标文本片段,本申请实施例不对此进行限定。通过获取评价数据中的目标文本片段用于后续与评价词典进行匹配处理,使得管理服务器可以基于待检测文档中的关键文本片段进行相应的评分处理,进而得到待检测文档的质量评价数据,提高对文档进行质量评价的准确度。
示例性的,评价数据“在第一章节中的路径和最新版本的路径不匹配”提取出的目标文本片段可以是“路径不匹配”。评价数据“模块B是否还指向主板,文档内无介绍”提取出的目标文本片段可以是“文档无介绍”。“A功能对应的界面与实际界面完全不同”提取出的目标文本片段可以是“与实际界面不同”。“很多参数写得不清不楚不明白什么含义”提取出的目标文本片段可以是“不明白含义”。
203、从多个评价维度将至少一个目标文本片段和评价词典进行匹配处理,得到匹配结果,匹配结果包括多个评价维度对应的匹配信息,每个评价维度对应的匹配信息包括匹配文本片段和匹配文本片段对应的评价参数。
其中,评价词典中包括至少一个参考文本片段,当评价词典中的某一个参考文本片段与至少一个目标文本片段中的某一个目标文本片段的文本内容一致时,说明该参考文本片段和该目标文本片段互相匹配。管理服务器可以基于文档评价的多个评价维度,对通过信息提取得到的至少一个目标文本片段和评价词典进行匹配处理,得到每个评价维度对应的匹配信息。每一个评价维度对应的匹配信息中可以包括匹配文本片段和匹配文本片段对应的评价参数。其中,匹配文本片段是评价词典中包括的至少一个参考文本片段中的一个参考文本片段,匹配文本片段对应的文本内容与目标文本片段的文本内容一致(如内容完全相同)。由于不同目标文本片段具有不同的语义信息,因此,通过获取每一个匹配文本片段各自对应的评价参数,用以后续进行文档质量得分的计算,可以基于不同的评价内容进行针对性的打分,从而提高文档质量评价的准确性和可信度。
其中,评价参数用于指示每个匹配文本片段所描述的文档内容的优势特征或者劣势特征的得分,匹配文本片段所描述的文档内容的优势特征是指匹配文本片段所描述的待检测文档中的内容所具有的优点,匹配文本片段所描述的文档内容的劣势特征是指匹配文本片段所描述的待检测文档中的内容所具有的缺点。以匹配文本片段所描述的文档内容的劣势特征为例,如匹配文本片段“描述错误”所描述的文档内容的劣势特征可以是:待检测文档中的内容描述错误;匹配文本片段“描述不清晰”所描述的文档内容的劣势特征可以是:待检测文档中的内容描述不清晰。那么,匹配文本片段“描述错误”对应的评价参数可以是1.0,匹配文本片段“描述不清晰”对应的评价参数可以是0.6。
示例性的,评价词典中包括至少一个参考文本片段,每一个参考文本片段对应的一个评价参数,评价参数可以是参考文本片段对应的得分。如,至少一个参考文本片段包括“路径不匹配”、“文档无介绍”、“与实际界面不同”和“不明白含义”,其对应的评价参数(得分)分别为0.8、0.8、0.6和1。
在一种可实现方式中,至少一个目标文本片段可以包含在评价词典的参考文本片段中,此时说明从评价数据中提取的关键词文本片段能够与评价词典相匹配,用于后续进行文档分数计算。然而,至少一个目标文本片段中也可以存在一个或多个目标文本片段不包含在评价词典的参考文本片段中,此时说明这一个或多个目标文本片段所提取的关键词文本片段与评价词典不相匹配,因此,可以将该一个或多个目标文本片段进行忽略。
在一种可实现方式中,多个评价维度包括内容易获取度、内容完整度、内容正确度、内容易理解度,内容易获取度用于指示待检测文档中内容的获取难易程度,如用户需要的内容从待检测文档中是否容易获取。内容完整度用于指示待检测文档中内容的完整程度,如待检测文档中的内容描述是否完整、没有遗漏。内容正确度用于指示待检测文档中内容的准确程度,如待检测文档中的内容描述是否正确。内容易理解度用于指示待检测文档中内容的理解难易程度,如待检测文档中的内容描述是否易于理解、简练清晰。通过多维度的评价维度进行文档质量评价,提高了文档质量评价的准确性,使得文档质量评价更具有依据性和可信度。通过该方法可以让文档的用户和作者从多维度了解文档的优劣和特点,提高文档的使用体验。
在一种可实现方式中,多个评价维度也可以是指内容易获取度、内容完整度、内容正确度、内容易理解度中的至少两个。那么,从内容易获取度、内容完整度、内容正确度、内容易理解度中的至少两个评价维度将至少一个目标文本片段和评价词典进行匹配,得到匹配结果,并根据匹配结果确定待检测文档的质量评价数据的方法,可参见本申请其他实施例中的相关描述,本申请实施例将不再进行赘述。
请参见图3,图3是本申请实施例提供的一种评价维度划分的示意图。评价数据中包括四条文本数据,分别为“在第一章节中的路径和最新版本的路径不匹配”、“模块B是否还指向主板,文档内无介绍”、“A功能对应的界面与实际界面完全不同”、“很多参数写得不清不楚不明白什么含义”,其对应的参考文本片段分别为“路径不匹配”、“文档无介绍”、“与实际界面不同”和“不明白含义”。其中,“路径不匹配”是基于内容易获取度评价维度进行匹配处理得到的,“文档无介绍”是基于内容完整度评价维度进行匹配处理得到的,“与实际界面不同”是基于内容正确度评价维度进行匹配处理得到的,“不明白含义”是基于内容易理解度评价维度进行匹配处理得到的。一般来说,在内容易获取度对应的参考文本片段中通常可以包括:找到、查询、发给我等关键词;在内容完整度对应的参考文本片段中通常可以包括:完善补充、添加等关键词;在内容正确度对应的参考文本片段中通常可以包括:错误、不对等关键词;在内容易理解度对应的参考文本片段中通常可以包括:模糊、无法放大、不够清晰等关键词。
204、根据匹配结果确定待检测文档的质量评价数据,质量评价数据包括多个评价维度对应的质量分数。
其中,管理服务器可以根据每个评价维度对应的匹配信息,确定每个评价维度对应的质量分数(匹配结果),再根据每个评价维度对应的质量分数确定待检测文档的质量评价数据。通过待检测文档的质量评价数据可以从内容易获取度、内容完整度、内容正确度、内容易理解度四个维度直观清晰的了解文档质量,让文档的用户和作者更了解文档的优劣和特点,提高文档的使用体验。
在一种可实现方式中,管理服务器可以根据每个评价维度对应的匹配文本片段、匹配文本片段对应的评价参数和出现频次确定每个评价维度对应的质量分数,然后将多个评价维度对应的质量分数作为待检测文档的质量评价数据。除此之外,管理服务器也可以对多个评价维度对应的质量分数进行均值计算,将得到的平均值以及多个评价维度各自对应的质量分数一起作为待检测文档的质量评价数据。通过上述方法,提高了质量评价数据的形式和内容的灵活性。
示例性的,多个评价维度包括:内容易获取度、内容完整度、内容正确度、内容易理解度。匹配文本片段包括“路径不匹配”、“文档无介绍”、“与实际界面不同”和“不明白含义”,其对应的评价参数分别为0.8、0.8、0.6和1,其对应的出现频次分别为30、20、10和50。那么,通过评价参数*出现频次的计算方法可以得到内容易获取度、内容完整度、内容正确度、内容易理解度四个评价维度对应的质量分数分别为24、16、6和50。需要说明的是,为了便于描述,上述每个评价维度对应的匹配文本片段的数量,以及每个匹配文本片段对应的评价参数只是示例性的,在本申请实施例的应用阶段,应该根据实际业务情况对上述每个评价维度对应的匹配文本片段的数量,以及每个匹配文本片段对应的评价参数进行调整,本申请实施例不再赘述。
本申请实施例中,通过对待检测文档的评价数据进行信息提取处理,得到具有关键语义信息的目标文本片段;然后对目标文本片段和评价词典进行匹配处理,得到多个评价维度对应的匹配信息,进而得到包括了待检测文档的多个评价维度对应的质量分数的质量评价数据。其中,每个评价维度对应的匹配信息包括匹配文本片段和匹配文本片段对应的评价参数,通过多个评价维度的匹配文本片段和各自对应的评价参数计算多个评价维度的质量得分,可以进行多维度的质量分析,提高对文档进行质量评价的准确性。本申请实施例还提出评价维度可以包括内容易获取度、内容完整度、内容正确度、内容易理解度,通过多维度的评价维度进行文档质量评价,提高了文档质量评价的准确性,使得文档质量评价更具有依据性和可信度。通过该方法可以让文档的用户和作者从多维度了解文档的优劣和特点,提高文档的使用体验。
请参见图4,是本申请实施例基于图1所示的文档质量评价系统提供的另一种文档质量评价方法的流程示意图,该文档质量评价方法可以应用于图1中的管理服务器101,具体可以包括如下步骤:
401、获取待检测文档的评价数据。
其中,步骤401的具体实现过程请参见步骤201的相关描述,本实施例不再赘述。
402、基于信息提取模型对评价数据进行信息提取,得到至少一个目标文本片段。
其中,管理服务器可以通过信息提取模型对评价数据进行信息提取,得到至少一个目标文本片段,如关键文本片段。其中,信息提取模型可以是通过样本文档的评价数据和标注数据(样本文档的评价数据中的关键文本片段)对诸如自然语言处理模型(NLP模型)进行模型训练得到的。上述利用信息提取模型对评价数据进行信息提取处理,可以看作是一个自然语言处理单元所提供的功能。
在一种可实现方式中,上述基于信息提取模型对评价数据进行信息提取,可以是指利用信息提取模型对评价数据进行词法分析、句法分析和语义分析,得到至少一个目标文本片段。通过进行包括词法分析、句法分析和语义分析的多维度分析,可以提高预测得到的目标文本片段的准确性。
其中,信息提取主要可以包括词法分析、句法分析和语义分析三个部分。词法分析主要是从句子中切分出单词,找出词汇中的每个词素,从中获得单词的语言学信息并确定单词的词义。句法分析主要是对句子短语结构进行分析,以确定构成句子的每个词、短语之间的关系,以及各自在句子中的作用等,将这些关系用层次结构加以表达,并对句法结构进行规范化。语义分析主要是把分析得到的句法成分与应用领域中的目标相关联,如解释自然语言句子或篇章各部分(词、词组、句子、段落、篇章等)的意义。
由于相关技术中自然语言处理模型(NLP模型)从情感维度给出二维线性分类(正面情绪和负面情绪两个类型),情感类词占据很多比重,而待检测文档一般为用户类的售后文档。在待检测文档的评价数据中,我们需要不是情感词,而是不规则的行为描述性质的句子和短语。因此,本申请实施例通过样本文档的评价数据和标注数据(评价样本)对上述句法分析阶段进行强化训练,如对其中的名词、动词、形容词、副词、助词等句子成分进行强化训练,得到信息提取模型,以此提高模型输出的目标文本片段的准确性,并将评价维度扩展到四个维度。其中,信息提取模型的具体训练过程将在后续实施例中详细叙述,本实施例不再赘述。
在本申请实施例中,评价词典可以包括每个评价维度对应的子词典,如每一个评价维度对应一个子词典。基于此,下面将通过步骤403-405进行从多个评价维度将至少一个目标文本片段和评价词典进行匹配,得到匹配结果的步骤的说明:
403、将至少一个目标文本片段和目标评价维度对应的目标子词典中的参考文本片段进行匹配,得到与至少一个目标文本片段匹配的匹配文本片段。
其中,目标评价维度为多个评价维度中的任意一个,以目标评价维度的处理过程为例进行说明,管理服务器将至少一个目标文本片段和目标评价维度对应的目标子词典中的参考文本片段进行匹配,得到至少一个目标文本片段中与上述参考文本片段匹配(匹配可以是指内容一致)的匹配文本片段。匹配文本片段是目标子词典中包括的多个参考文本片段中的一个参考文本片段。匹配文本片段包括正向文本片段和负向文本片段;其中,正向文本片段用于描述待检测文档的内容的优势特征,优势特征是指待检测文档中的内容的优点,优势特征可以包括:结构清晰、内容全面、内容完整、介绍详细、描述准确、内容直白、内容描述生动具体等。负向文本片段用于描述待检测文档的内容的劣势特征,劣势特征是指待检测文档中的内容的缺点,劣势特征可以包括:结构混乱、内容错误、内容缺失、介绍不清晰、描述不准确、内容生涩难懂等。正向文本片段可以用于计算正向得分(如待检测文档的加分项),负向文本片段可以用于计算负向得分(如待检测文档的减分项)。
请参见表1-表4,表1-表4通过示例性的方式列举了内容易获取度、内容完整度、内容正确度、内容易理解度四个评价维度分别对应的子词典(以负向得分举例进行说明,在计算正向得分对应的参考文本片段的文档分数时作为加分项进行统计,在计算负向得分对应的参考文本片段的文档分数时作为减分项进行统计),每个评价维度对应的子词典中包括至少一个参考文本片段以及对应的评价参数:
表1
表2
表3
表4
以内容易获取度为例,内容易获取度对应的子词典包括多个参考文本片段,如“没有链接”、“如何获取”、“发我邮箱”、“如何下载”和“没有找到”,其对应的评价参数分别为0.8、0.6、0.8、0.7和1。需要说明的是,上述四个评价维度对应的参考文本片段的数量和内容,以及对应的评价参数的数值只是示例性的,本申请实施例对此不进行限制。
404、从评价参数对照数据中确定匹配文本片段对应的评价参数。
其中,管理服务器从评价参数对照数据中确定每个匹配文本片段对应的评价参数,用于计算每个匹配文本片段对应的得分项。评价参数对照数据可以独立于评价词典单独存在的,也可以是评价词典中的一部分(该情况下,评价词典中包括多个参考文本片段,以及每个参考文本片段各自对应的评价参数)。
在一种可实现方式中,匹配文本片段的评价参数可以是通过人工的方法确定的,也可以是基于人工智能等方式自动生成的,本申请实施例对此不进行限制。
在一种可实现方式中,管理服务器可以通过情感分析的方法预先设置评价参数对照数据,如对每个参考文本片段进行诸如情感词、程度词、标点符号等维度的情感分析,从而设置评价词典中的每个参考文本片段对应的评价参数。
下面对情感分析的方法进行说明:以参考文本片段“与实际界面不同”为例,通过情感分析的方法,可以设置参考文本片段“与实际界面不同”对应的评价参数,如设置为0.6。以参考文本片段“与实际界面完全不同”为例,通过情感分析的方法,可以设置参考文本片段“与实际界面完全不同”对应的评价参数,如设置为0.7。以参考文本片段“与实际界面完全不同!”,通过情感分析的方法,可以设置参考文本片段“与实际界面完全不同!”对应的评价参数,如设置为0.8。
管理服务器可以基于上述情感分析的方法确定评价参数对照数据中的四个评价维度包括的参考文本片段(包括正向文本片段和负向文本片段),以及每个参考文本片段的评价参数(可以通过归一化处理将情感分值映射到0-1之间的数值,从而实现参考文本片段的评价参数的归一化)。通过上述方法,使得管理服务器可以紧密结合实际业务情况设置参考文本片段对应的评价参数,提高评价参数设置的灵活性。
405、基于匹配文本片段和匹配文本片段对应的评价参数确定目标评价维度对应的匹配信息。
406、基于多个评价维度对应的匹配信息确定匹配结果。
在上述步骤405-406中,以目标评价维度为例,管理服务器将匹配文本片段和匹配文本片段对应的评价参数结合,作为目标评价维度对应的匹配信息。管理服务器通过对多个评价维度中的每一个评价维度分别进行上述处理,得到每一个评价维度对应的匹配信息,管理服务器再将多个评价维度中的每个多个评价维度对应的匹配信息进行组合,将组合的结果作为评价数据的整体的匹配结果。
下面将通过步骤407-410进行根据匹配结果确定待检测文档的质量评价数据的步骤的说明:
407、从目标评价维度对应的匹配信息中确定每个正向文本片段对应的评价参数,以及每个负向文本片段对应的评价参数。
408、基于每个正向文本片段和每个正向文本片段对应的评价参数确定正向评价参数,基于每个负向文本片段和每个负向文本片段对应的评价参数确定负向评价参数。
在上述步骤407-408中,以目标评价维度为例,管理服务器通过每个正向文本片段和每个正向文本片段对应的评价参数计算得到正向评价参数,通过每个负向文本片段和每个负向文本片段对应的评价参数计算得到负向评价参数。目标评价维度的正向评价参数用于评价针对目标评价维度而言,待检测文档的评价数据的整体加分情况,负向评价参数用于评价针对目标评价维度而言,待检测文档的评价数据的整体减分情况。正向评价参数越高,说明待检测文档在目标评价维度而言表现越佳,正向评价参数越低,说明待检测文档在目标评价维度而言表现较差,负向评价参数亦然。如,当目标评价维度为内容易理解度,那么正向评价参数越高(或者负向评价参数越低),说明待检测文档的越容易被读者理解;正向评价参数越低(或者负向评价参数越高),说明待检测文档的描述生涩难懂,用户体验较差。
在一种可实现方式中,以正向文本片段为例,管理服务器可以基于文本片段的内容,根据不同文本片段的内容对应的正向文本片段、正向文本片段对应的评价参数和出现频次确定正向评价参数。如,正向文本片段中包括“结构清晰”、“查找方便”和“通俗易懂”,上述正向文本片段的出现频次分别为10、8、4,上述正向文本片段对应的评价参数分别为0.8、0.6、0.9。那么,基于文本内容对上述正向文本片段进行计算,得到正向文本片段的正向评价参数为16.4(计算过程为:10*0.8+8*0.6+4*0.9=16.4)。
409、基于正向评价参数和负向评价参数确定目标评价维度对应的质量分数。
410、基于多个评价维度对应的质量分数确定待检测文档的质量评价数据。
在上述步骤409-410中,以目标评价维度为例,管理服务器可以将目标评价维度的正向评价参数和负向评价参数相加,作为目标评价维度对应的质量分数。该质量分数用于表征针对目标评价维度而言文档的整体质量状况,质量分数越高,则文档的整体质量状况越好,质量分数越低,则文档的整体质量状况越差。如,当目标评价维度为内容正确度,那么质量分数越高,说明待检测文档的正确性越高;质量分数越低,说明待检测文档的正确性越低。管理服务器最后可以将多个评价维度各自对应的质量分数一起作为待检测文档的质量评价数据,从而从多个评价维度判断待检测文档的文档质量,提高了文档评价的细粒度,从而提高文档评价的准确性。
在一种可实现方式中,信息提取模型是基于样本文档的评价数据和标注数据对自然语言处理模型进行句法分析的强化训练得到的,标注数据包括样本文档的评价数据的至少一个标注文本片段。由于当前的自然语言处理模型(NLP模型)从情感维度给出二维线性分类(正面情绪和负面情绪两个类型),情感类词占据了很多比重,而待检测文档一般为用户类的售后文档。在待检测文档的评价数据中,我们需要不是情感词,而是不规则的行为描述性质的句子和短语。因此,本申请实施例通过样本文档的评价数据和标注数据(评价样本)对上述句法分析阶段进行强化训练,如对其中的名词、动词、形容词、副词、助词等句子成分进行强化训练,得到信息提取模型,以此提高输出的目标文本片段的准确性。
在基于信息提取模型对评价数据进行词法分析、句法分析和语义分析,得到至少一个目标文本片段之前,管理服务器还可以对信息提取模型进行模型训练。下面将对信息提取模型的训练过程进行说明:
(1)、获取样本文档的评价数据和标注数据,标注数据包括样本文档的评价数据的至少一个标注文本片段。
其中,管理服务器可以获取样本文档的评价数据和包括至少一个标注文本片段的标注数据。样本文档的评价数据可以看作是一个评价数据集合,评价数据集合中的评价数据的数量可以是多个。
示例性的,样本文档可以是某一个应用程序产品的使用文档,样本文档的评价数据可以是“在第一章节中的路径和最新版本的路径不匹配”、“模块B是否还指向主板,文档内无介绍”、“A功能对应的界面与实际界面完全不同”、“很多参数写得不清不楚不明白什么含义”等文本数据。上述每个标注数据分别对应的标注文本片段可以是“路径不匹配”、“文档无介绍”、“与实际界面不同”和“不明白含义”。
(2)、利用自然语言处理模型对样本文档的评价数据进行信息提取,得到预测文本片段。
其中,自然语言处理模型是强化训练之前的模型,自然语言处理模型可以是通过其他训练方式进行一阶段训练后得到的模型,然后通过样本文档的评价数据和标注数据对该模型进行二阶段训练,最后得到信息提取模型。通过上述方法,可以进一步提高模型预测的准确度。管理服务器利用自然语言处理模型对样本文档的评价数据进行信息提取,得到预测文本片段。预测文本片段可以看作是样本文档的评价数据中的具有关键语义信息的关键文本片段。管理服务器可以对样本文档的评价数据集合中的每个评价数据分别进行信息提取处理,得到各自对应的预测文本片段。
示例性的,评价数据“在第一章节中的路径和最新版本的路径不匹配”提取出的预测文本片段可以是“路径不匹配”。评价数据“模块B是否还指向主板,文档内无介绍”提取出的预测文本片段可以是“文档无介绍”。“A功能对应的界面与实际界面完全不同”提取出的预测文本片段可以是“与实际界面不同”。“很多参数写得不清不楚不明白什么含义”提取出的预测文本片段可以是“不明白含义”。
(3)、确定标注文本片段的句子成分和预测文本片段的句子成分,标注文本片段的句子成分包括标注文本片段中每个文本元素的词性之间的组合关系,预测文本片段的句子成分包括预测文本片段中每个文本元素的词性之间的组合关系。
其中,管理服务器可以首先确定标注文本片段的句子成分和预测文本片段的句子成分,句子成分包括文本片段中每个文本元素(如单个的词语)的词性(如名词、动词、形容词、副词、助词)之间的组合关系,如文本片段的词性构成,如标注文本片段“不明版什么含义”的句子成分为“副词+动词+名词”,且副词、动词、名词之间具有时序关系。
(4)、基于标注文本片段的句子成分和预测文本片段的句子成分之间的差异数据对自然语言处理模型的参数进行调整,得到信息提取模型。
其中,管理服务器将标注文本片段的句子成分作为预测文本片段的句子成分的监督信息,通过计算标注文本片段的句子成分和预测文本片段的句子成分之间的差异数据,利用差异数据对自然语言处理模型的模型参数进行调整,通过多次迭代训练,当训练后的自然语言处理模型的输出达到预设精度要求时,得到信息提取模型。通过上述方法,本申请可以在NLP模型基础上,针对待检测文档的用户评价特点对文档评价词库特点、对NLP模型进行针对性的强化训练,保证模型输出结果的准确性,基于模型输出结果确定文档的质量评价数据,可以提升文档质量评价的准确度。
在一种可实现方式中,管理服务器可以计算标注文本片段的句子成分和预测文本片段的句子成分之间的损失LOSS,然后通过损失对自然语言处理模型进行模型调参。损失可以采用均方差损失(Mean Squared Error Loss)、平均绝对误差损失(Mean AbsoluteError Loss)、Huber Loss、分位数损失(Quantile Loss)、交叉熵损失(Cross EntropyLoss)、合页损失等损失函数中的一种或多种,本申请实施例对此不进行限制。
请参见图5a,图5a是本申请实施例提供的一种对NLP模型强化训练的示意图。中间为用于进行强化训练的样本数据,如样本文本的评价数据,左侧为样本文本的评价数据对应的标注文本片段,右侧为标注文本片段对应的句子成分。训练过程如下:首先将样本文本的评价数据(如“很多参数写的不清不楚不明白什么含义”)输入到自然语言处理模型进行处理,得到预测文本片段(如“不明白含义”)。然后对预测文本片段和标注文本片段(如“不明白含义”)分别进行句子成分提取,得到预测文本片段的句子成分(如“副词+动词+名词”)和标注文本片段的句子成分(如“副词+动词+名词”)。再计算预测文本片段的句子成分和标注文本片段的句子成分之间的差异数据(如交叉熵损失)对自然语言处理模型进行调参。通过多个样本文本的评价数据和对应的标注文本片段对自然语言处理模型进行迭代训练,最终得到信息提取模型。需要说明的是,上述强化训练所列举出的每个样本文本的评价数据、对应的标注文本片段和句子成分只是示例性的,本申请实施例对此不进行限制。
在一种可实现方式中,管理服务器还可以输出待检测文档的改进指示信息,改进指示信息用于反馈待检测文档的每个加减分项,以便于让第一目标对象了解如何修改文档,为文档修改、优化策略提供参考。因此,在获取到待检测文档的质量评价数据之后,管理服务器还可以执行以下步骤:
(1)、基于每个正向文本片段和每个正向文本片段对应的评价参数确定文档正向得分项。
(2)、基于每个负向文本片段和每个负向文本片段对应的评价参数确定文档负向得分项。
(3)、根据文档正向得分项和文档负向得分项确定待检测文档的改进指示信息,改进指示信息用于指示第一目标用户对待检测文档进行编辑处理。
在上述步骤(1)-(3)中,管理服务器将一个正向文本片段和对应的评价参数作为一个文档正向得分项,可以得到多个文档正向得分项,同理,管理服务器将一个负向文本片段和对应的评价参数作为一个文档负向得分项,可以得到多个文档负向得分项。管理服务器最后将产生的多个文档正向得分项和多个文档负向得分项一起作为待检测文档的改进指示信息。第一目标用户可以是文档作者,通过改进指示信息可以反馈给文档作者文档得分和加减分清单,以方便对文档进行改进。
在一种可实现方式中,管理服务器也可以只将文档负向得分项作为待检测文档的改进指示信息,以便于让第一目标对象(文档作者)更加清晰明了、有针对性地进行文档修改,由于向第一目标对象展示的数据量更少,可以提高第一目标对象基于更小数据量的改进指示信息进行文档修改的效率。
请参见图5b,该图是本申请实施例提供的一种生成文档的改进指示信息和质量评价标签的流程示意图。管理服务器首先获取待检测文档的评价数据集合,然后完成多个评价维度的打分和加减分项清单(其中包括通过信息提取处理得到目标文本片段,以及对目标文本片段和评价词典进行匹配处理得到匹配结果)。管理服务器再将匹配结果中的加减分项清单生成改进指示信息,并进行输出。当文档作者获取到改进指示信息后,可以根据改进指示信息考虑如何改进文档。
在一种可实现方式中,管理服务器可以输出待检测文档的质量评价标签,使得文档使用者可以快速、直观的了解文档特点,文档好在哪里,不好在哪里,做到心中有数,以便于有针对性的进行文档使用,保证文档使用体验。因此,在获取到待检测文档的质量评价数据之后,管理服务器还可以执行以下步骤:
(1)、基于文本片段的内容确定匹配文本片段中每个正向文本片段的出现频次和每个负向文本片段的出现频次。
(2)、根据匹配文本片段中每个正向文本片段的出现频次和评价参数确定每个正向文本片段的权重参数,根据匹配文本片段中每个负向文本片段的出现频次和评价参数确定每个负向文本片段的权重参数。
在上述步骤(1)-(2)中,管理服务器基于文本片段的内容对多个匹配文本片段进行划分,将同一内容的划分为同一组,从而确定不同内容对应的正向文本片段的出现频次和不同内容对应的负向文本片段的出现频次。管理服务器再根据不同内容对应的正向文本片段的出现频次和评价参数计算各组正向文本片段的权重参数和各组负向文本片段的权重参数。权重参数可以看作是对应同一内容的一个或多个正向文本片段(或负向文本片段)的整体分数。
示例性的,以正向文本片段为例,正向文本片段中包括“结构清晰”、“查找方便”、“通俗易懂”、“介绍详细”、“描述准确”,上述正向文本片段的出现频次分别为10、8、4、7、8,上述正向文本片段对应的评价参数分别为0.8、0.6、0.9、0.8、0.8。那么,基于文本内容对上述正向文本片段进行计算,得到“结构清晰”的权重参数为8,“查找方便”的权重参数为4.8,“通俗易懂”的权重参数为3.6,“介绍详细”的权重参数为5.6,“描述准确”的权重参数为6.4。
(3)、根据每个正向文本片段的权重参数和每个负向文本片段的权重参数确定待检测文档的质量评价标签,质量评价标签用于指示第二目标用户基于质量评价标签使用待检测文档。
其中,管理服务器基于每个正向文本片段的权重参数和每个负向文本片段的权重参数,从中选取出能够表征文档特征的一部分正向文本片段和一部分负向文本片段作为待检测文档的质量评价标签。如,从多个正向文本片段中选取出权重参数较高的至少一个正向文本片段,从多个负向文本片段中选取出权重参数较低的至少一个负向文本片段,将其作为待检测文档的质量评价标签。第二目标用户可以是文档使用者,如售后文档使用者。
在一种可实现方式中,上述步骤(3)中根据每个正向文本片段的权重参数和每个负向文本片段的权重参数确定待检测文档的质量评价标签的步骤,可以通过以下步骤实现:
(1)、对每个正向文本片段的权重参数进行降序排序,得到排在前K位的权重参数所对应的K个正向文本片段,K为正整数。
其中,管理服务器可以先对每个正向文本片段的权重参数进行降序排序,确定排在前K位的权重参数,再分别确定排在前K位的权重参数中的每个权重参数所对应的正向文本片段,最终得到排在前K位的权重参数所对应的K个正向文本片段。
排在前K位的K个权重参数所对应的K个正向文本片段。
(2)、对每个负向文本片段的权重参数进行降序排序,得到排在前L位的权重参数所对应的L个负向文本片段,L为正整数。
其中,管理服务器可以先对每个负向文本片段的权重参数进行降序排序,确定排在前L位的权重参数,再分别确定排在前L位的权重参数中的每个权重参数所对应的负向文本片段,最终得到排在前L位的权重参数所对应的L个负向文本片段。
(3)、根据K个正向文本片段和L个负向文本片段,确定待检测文档的质量评价标签。
其中,管理服务器通过对K个正向文本片段和L个负向文本片段进行组合,得到对应的文本片段组合,并将该文本片段组合作为待检测文档的质量评价标签。如,K个正向文本片段中的每一个正向文本片段作为待检测文档的一个质量评价标签,L个负向文本片段中的每一个负向文本片段作为待检测文档的一个质量评价标签,最终得到待检测文档的K+L个质量评价标签。
需要说明的,正向文本片段的数量与负向文本片段的数量可以相同,如正向文本片段的数量与负向文本片段的数量均为3个;正向文本片段的数量与负向文本片段的数量也可以不同,如正向文本片段的数量为3个,负向文本片段的数量为10个。通过对正向文本片段的数量和负向文本片段的数量进行调整,可以更有针对性的向第二目标用户展示需要的信息。例如,更多的向第二目标用户展示负向文本片段,从而引导用户在使用文档时着重注意负向文本片段所指示文档存在的内容质量问题。
需要说明的,上述正向文本片段的数量也可以为0,此时,管理服务器只向第二目标用户展示L个负向文本片段对应的待检测文档的质量评价标签。上述负向文本片段的数量也可以为0,此时,管理服务器只向第二目标用户展示K个正向文本片段对应的待检测文档的质量评价标签,本申请实施例不对正向文本片段的数量和负向文本片段的数量进行限定。
示例性的,以正向文本片段为例,管理服务器对五个正向文本片段“结构清晰”、“查找方便”、“通俗易懂”、“介绍详细”、“描述准确”的权重参数进行降序排序,得到排序结果(8>6.4>5.6>4.8>3.6)然后选取权重参数中最大的前K个权重参数(如K为3,包括权重参数8、6.4、5.6)所对应的正向文本片段,如“结构清晰”、“描述准确”、“介绍详细”作为待检测文档的质量评价标签。
请参见图5c,该图是本申请实施例提供的一种质量评价标签的示意图。质量评价标签包括正面标签和负面标签,如,正面标签包括了正向文本片段中的权重参数最大的前三个正向文本片段,分别为“结构清晰”、“描述准确”、“介绍详细”。负面标签包括负向文本片段中的权重参数最大的前三个负向文本片段,分别为“图片模糊”、“规格错误”、“如何配置”。需要说明的是,上述列举出的每个质量评价标签只是示例性的,本申请实施例对此不进行限制。
下面将对本申请实施例提供的文档质量检测的整体流程进行说明。请参见图5d,该图是本申请实施例提供的一种文档质量评价流程的示意图,主要包括以下几个部分:
文档质量评价指标(评价维度):对文档质量进行维度划分,分为内容易获取度、内容完整度、内容正确度、内容易理解度四个维度的评价指标。
评价词典:针对产品文档的常见评价维度,归纳文档的评价词典。
分词:对待检测文档的评价数据进行分词。
自然语言处理:通过自研语言处理,对诸如自然语言处理模型(NLP模型)做强化训练,可以更好的识别技术文档中的动词、名词、副词、助词、形容词等词汇。
评价打分模型:对自然语言处理后的文本(如目标文本片段),按照文档质量评价指标的维度,进行评价。
打分:给出文档在每个评价维度的评分。
改进指示信息:通过表单,反馈文档的加减分项,让文作者了解如何修改文档。
质量评价标签:按照正面、负面分类,按照分数*频数的规则,在文档末尾打上TopK的评价标签。
具体来说,文档质量检测可以包括以下几个步骤:
1、管理服务器获取待检测文档的评价数据(如用户评价文本)。
2、管理服务器对评价数据进行分词处理。
3、管理服务器对分词后的结果进行自然语言处理。
4、管理服务器使用评价打分模型对自然语言处理后的结果进行打分。
5、管理服务器给出待检测文档的整体的打分(包括四个评价维度:内容易获取度、内容完整度、内容正确度、内容易理解度各自对应的质量分数)。
6、管理服务器给出待检测文档的改进指示信息,方便作者改进。
7、管理服务器给出待检测文档的质量评价标签,方便用户使用文档。
其中,在步骤2-5中,主要通过评价词典从四个评价维度对自然语言处理后的结果进行匹配处理,得到相匹配的匹配文本片段,再通过匹配文本片段和匹配文本片段的评价参数计算得到四个评价维度对应的质量分数。
本申请实施例中,通过每个正向文本片段以及对应的评价参数确定正向评价参数,通过每个负向文本片段以及对应的评价参数确定负向评价参数,再通过正向评价参数和负向评价参数计算每个评价维度对应的质量分数,最后将每个评价维度对应的质量分数一起作为待检测文档的质量评价数据,从而从多维度判断待检测文档的文档质量,提高文档评价的准确性。并且,可以通过输出待检测文档的改进指示信息,反馈待检测文档的每个加减分项,以便于让第一目标对象了解如何修改文档,为文档修改、优化策略提供参考;也可以输出待检测文档的质量评价标签,使得文档使用者可以快速、直观的了解文档特点,以便于有针对性的进行文档使用,保证文档使用体验。
同时,由于相关技术中的自然语言处理模型情感类词占据了很多比重,导致在如售后文档、产品使用文档等业务环境中效果较差(在待检测文档的评价数据中需要不是情感词,而是不规则的行为描述性质的句子和短语)。因此,本申请实施例通过样本文档的评价数据和标注数据对自然语言处理模型进行训练,如对其中的名词、动词、形容词、副词、助词等句子成分进行强化训练,得到信息提取模型,以此提高模型输出的目标文本片段的准确性。基于准确的目标文本片段确定文档的质量评价数据,提高了对文档进行质量评价的准确性。
此外,本申请提出基于情感分析的方法确定评价参数对照数据中的四个评价维度包括的参考文本片段(包括正向文本片段和负向文本片段),以及每个参考文本片段的评价参数,并可以通过归一化处理将情感分值映射到0-1之间的数值。通过上述方法,可以紧密结合实际业务情况设置参考文本片段对应的评价参数,提高评价参数设置的灵活性。
请参见图6,是本申请实施例基于图1所示的文档质量评价系统提供的另一种文档质量评价方法的流程示意图,该文档质量评价方法可以应用于图1中的管理服务器101,具体可以包括如下步骤:
601、获取待检测文档的评价数据。
602、对评价数据进行自然语言处理,得到目标文本片段。
603、对目标文本片段和评价词典进行匹配和打分。
604、确定四个评价维度对应的质量分数和加减分内容项。
其中,加减分内容项中包括文档正向得分项和文档负向得分项。
605、反馈四个评价维度对应的质量分数和加减分内容项。
606、根据待检测文档的不同评价维度生成对应的质量评价标签。
其中,质量评价标签用于方便文档使用者获取和使用文档。
在一可实现方式中,管理服务器可以针对每一个评价维度生成对应的质量评价标签。如,管理服务器可以针对内容易获取度,生成一个正向的质量评价标签(如“结构清晰”)和一个负向的质量评价标签(如“没有链接”);针对内容完整度,生成一个正向的质量评价标签(如“挺全面的”)和一个负向的质量评价标签(如“规格是多少”);针对内容正确度,生成一个正向的质量评价标签(如“描述准确”)和一个负向的质量评价标签(如“与实际界面不同”);针对内容易理解度,生成一个正向的质量评价标签(如“通俗易懂”)和一个负向的质量评价标签(如“什么意思”)。
需要说明的是,步骤601-606的具体实现可以参见前述实施例中相关步骤的具体描述,此处不再赘述。
请参见图7,该图是本申请实施例提供的一种文档质量评价流程的示意图。从用户视角来说,整体的使用流程如下:用户可以是指网站运营人员、文档作者、文档用户等。网站运营人员可以了解每个产品的文档得分,文档作者可以了解自己文档在每个评价维度对应的质量分数和文档的改进指示信息,文档用户可以通过文档的质量评价标签,了解文档的优劣和特点,在使用文档的时候更有依据性。具体来说,用户可以通过管理服务器获取文档的评价数据集合(通过整理或者由系统自动读取得到),然后通过工具或者界面(用户界面)将评价数据集合录入到本申请实施例中的文档质量评价系统(其中包括每个实施例所提到的文档质量评价方法对应的功能模块)进行文档质量评价处理,最终由文档质量评价系统反馈文档评分(如质量评价数据)。
在文档评分中,包括四个评价维度对应的质量分数,对于内容易获取度对应的得分来说,通过对应的加分项清单(如“结构清晰”、“查询方便”)和减分项清单(如“没有链接”、“如何下载”、“如何获取”)进行评价词典匹配。对于内容完整度对应的得分来说,通过对应的加分项清单(如“挺全面的”、“内容完整”、“介绍详细”)和减分项清单(如“规格是多少”、“如何配置”、“没有指导”)进行评价词典匹配。对于内容正确对应的得分来说,通过对应的加分项清单(如“描述准确”、“内容挺好”)和减分项清单(如“与实际界面不同”、“内容错误”、“规格错误”)进行评价词典匹配。对于内容易理解度对应的得分来说,通过对应的加分项清单(如“通俗易懂”、“内容直白”、“生动”)和减分项清单(如“什么意思”、“不明白含义”、“图片模糊”、“描述不清晰”)进行评价词典匹配。通过上述方法得到了文档的质量分数和加减分清单,最后向文档作者输出改进指示信息,向文档用户输出质量评价标签。需要说明的是,上述列举出的每个评价维度在进行评价词典匹配过程中所使用到的加、减分项清单只是示例性的,本申请实施例对此不进行限制。
值得注意的是,本申请所提供的文档质量评价方法可以应用于产品文档、售后文档、调查问卷等多种文档类型的文档质量评价处理中,本申请不对应用的具体文档类型进行限定。以调查问卷为例,因为文档评价和调查问卷非常类似,后续该方法还可以应用于自动提取调查问卷的用户意见,通过对用户意见进行相关分析,从而提升了问卷分析的效率。
可以理解的是,在本申请的具体实施方式中,涉及到待检测文档以及对应的评价数据、样本文档以及对应的评价数据、评价词典包括的每个参考文本片段、标注数据等数据,当本申请以上实施例运用到具体产品或技术中时,需要获得相关个人、单位或者组织的许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
请参见图8,是本申请实施例的一种文档质量评价装置的结构示意图,所述装置包括:
获取模块801,用于获取待检测文档的评价数据;
处理模块802,用于基于所述评价数据得到至少一个目标文本片段;
所述处理模块802,还用于从多个评价维度将所述至少一个目标文本片段和评价词典进行匹配,得到匹配结果,所述匹配结果包括所述多个评价维度对应的匹配信息;其中,每个所述评价维度对应的匹配信息包括匹配文本片段和所述匹配文本片段对应的评价参数,所述评价词典包括至少一个参考文本片段;所述评价参数用于指示每个匹配文本片段所描述的文档内容的优势特征或者劣势特征的得分;
评价模块803,用于根据所述匹配结果确定所述待检测文档的质量评价数据;其中,所述质量评价数据包括所述多个评价维度对应的质量分数。
可选的,所述评价词典包括每个所述评价维度对应的子词典;
所述处理模块802在用于从多个评价维度将所述至少一个目标文本片段和评价词典进行匹配,得到匹配结果时,具体用于:
将所述至少一个目标文本片段和目标评价维度对应的目标子词典中的参考文本片段进行匹配,得到与所述至少一个目标文本片段匹配的匹配文本片段;所述匹配文本片段包括正向文本片段和负向文本片段;其中,所述目标评价维度为所述多个评价维度中的任意一个,所述正向文本片段用于描述所述待检测文档的内容的优势特征,所述负向文本片段用于描述所述待检测文档的内容的劣势特征;
从评价参数对照数据中确定所述匹配文本片段对应的评价参数;
基于所述匹配文本片段和所述匹配文本片段对应的评价参数确定所述目标评价维度对应的匹配信息;
基于所述多个评价维度对应的匹配信息确定匹配结果。
可选的,所述评价模块803在用于根据所述匹配结果确定所述待检测文档的质量评价数据时,具体用于:
从所述目标评价维度对应的匹配信息中确定每个所述正向文本片段对应的评价参数,以及每个所述负向文本片段对应的评价参数;
基于每个所述正向文本片段和每个所述正向文本片段对应的评价参数确定正向评价参数;
基于每个所述负向文本片段和每个所述负向文本片段对应的评价参数确定负向评价参数;
基于所述正向评价参数和所述负向评价参数确定所述目标评价维度对应的质量分数;
基于所述多个评价维度对应的质量分数确定所述待检测文档的质量评价数据。
可选的,所述处理模块802在用于基于所述评价数据得到至少一个目标文本片段时,具体用于:
基于信息提取模型对所述评价数据进行词法分析、句法分析和语义分析,得到至少一个目标文本片段;
其中,所述信息提取模型是基于样本文档的评价数据和标注数据对自然语言处理模型进行所述句法分析的强化训练得到的,所述标注数据包括所述样本文档的评价数据的至少一个标注文本片段。
可选的,所述基于信息提取模型对所述评价数据进行词法分析、句法分析和语义分析,得到至少一个目标文本片段之前,所述处理模块802还用于:
获取样本文档的评价数据和标注数据,所述标注数据包括所述样本文档的评价数据的至少一个标注文本片段;
利用自然语言处理模型对所述样本文档的评价数据进行信息提取,得到预测文本片段;
确定所述标注文本片段的句子成分和所述预测文本片段的句子成分,所述标注文本片段的句子成分包括标注文本片段中每个文本元素的词性之间的组合关系,所述预测文本片段的句子成分包括预测文本片段中每个文本元素的词性之间的组合关系;
基于所述标注文本片段的句子成分和所述预测文本片段的句子成分之间的差异数据对所述自然语言处理模型的参数进行调整,得到信息提取模型。
可选的,所述处理模块802还用于:
基于每个所述正向文本片段和每个所述正向文本片段对应的评价参数确定文档正向得分项;
基于每个所述负向文本片段和每个所述负向文本片段对应的评价参数确定文档负向得分项;
根据所述文档正向得分项和所述文档负向得分项确定所述待检测文档的改进指示信息,所述改进指示信息用于指示第一目标用户对所述待检测文档进行编辑处理。
可选的,所述处理模块802还用于:
基于文本片段的内容确定所述匹配文本片段中每个正向文本片段的出现频次和每个负向文本片段的出现频次;
根据所述匹配文本片段中每个正向文本片段的出现频次和评价参数确定所述每个正向文本片段的权重参数,根据所述匹配文本片段中每个负向文本片段的出现频次和评价参数确定所述每个负向文本片段的权重参数;
根据所述每个正向文本片段的权重参数和所述每个负向文本片段的权重参数确定所述待检测文档的质量评价标签,所述质量评价标签用于指示第二目标用户基于所述质量评价标签使用所述待检测文档。
可选的,所述处理模块802在用于根据所述每个正向文本片段的权重参数和所述每个负向文本片段的权重参数确定所述待检测文档的质量评价标签时,具体用于:
对所述每个正向文本片段的权重参数进行降序排序,得到排在前K位的权重参数所对应的K个正向文本片段,K为正整数;
对所述每个负向文本片段的权重参数进行降序排序,得到排在前L位的权重参数所对应的L个负向文本片段,L为正整数;
根据所述K个正向文本片段和所述L个负向文本片段,确定所述待检测文档的质量评价标签。
可选的,所述多个评价维度包括内容易获取度、内容完整度、内容正确度、内容易理解度;所述内容易获取度用于指示所述待检测文档中内容的获取难易程度,所述内容完整度用于指示所述待检测文档中内容的完整程度,所述内容正确度用于指示所述待检测文档中内容的准确程度,所述内容易理解度用于指示所述待检测文档中内容的理解难易程度。
需要说明的是,本申请实施例的文档质量评价装置的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
请参见图9,是本申请实施例的一种计算设备的结构示意图,本申请实施例的所述计算设备可以对应于前文所述的管理服务器,该计算设备包括处理器901、存储器902以及通信接口903。所述处理器901、存储器902以及通信接口903之间可以交互数据。
所述存储器902可以包括易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器902也可以包括非易失性存储器(non-volatilememory),例如快闪存储器(flash memory),固态硬盘(solid-state drive,SSD)等;所述存储器902还可以包括上述种类的存储器的组合。
所述处理器901可以是中央处理器(central processing unit,CPU)。在一个实施例中,所述处理器901还可以是图形处理器(Graphics Processing Unit,GPU)。所述处理器901也可以是由CPU和GPU的组合。
在一个实施例中,所述存储器902用于存储程序指令,所述处理器901可以调用所述程序指令,执行如下操作:
获取待检测文档的评价数据;
处理基于评价数据得到至少一个目标文本片段;
从多个评价维度将所述至少一个目标文本片段和评价词典进行匹配,得到匹配结果,所述匹配结果包括所述多个评价维度对应的匹配信息;其中,每个所述评价维度对应的匹配信息包括匹配文本片段和所述匹配文本片段对应的评价参数,所述评价词典包括至少一个参考文本片段;所述评价参数用于指示每个匹配文本片段所描述的文档内容的优势特征或者劣势特征的得分;
根据所述匹配结果确定所述待检测文档的质量评价数据;其中,所述质量评价数据包括所述多个评价维度对应的质量分数。
可选的,所述评价词典包括每个所述评价维度对应的子词典;
所述处理器901在用于从多个评价维度将所述至少一个目标文本片段和评价词典进行匹配,得到匹配结果时,具体用于:
将所述至少一个目标文本片段和目标评价维度对应的目标子词典中的参考文本片段进行匹配,得到与所述至少一个目标文本片段匹配的匹配文本片段;所述匹配文本片段包括正向文本片段和负向文本片段;其中,所述目标评价维度为所述多个评价维度中的任意一个,所述正向文本片段用于描述所述待检测文档的内容的优势特征,所述负向文本片段用于描述所述待检测文档的内容的劣势特征;
从评价参数对照数据中确定所述匹配文本片段对应的评价参数;
基于所述匹配文本片段和所述匹配文本片段对应的评价参数确定所述目标评价维度对应的匹配信息;
基于所述多个评价维度对应的匹配信息确定匹配结果。
可选的,所述处理器901在用于根据所述匹配结果确定所述待检测文档的质量评价数据时,具体用于:
从所述目标评价维度对应的匹配信息中确定每个所述正向文本片段对应的评价参数,以及每个所述负向文本片段对应的评价参数;
基于每个所述正向文本片段和每个所述正向文本片段对应的评价参数确定正向评价参数;
基于每个所述负向文本片段和每个所述负向文本片段对应的评价参数确定负向评价参数;
基于所述正向评价参数和所述负向评价参数确定所述目标评价维度对应的质量分数;
基于所述多个评价维度对应的质量分数确定所述待检测文档的质量评价数据。
可选的,所述处理器901在用于基于所述评价数据得到至少一个目标文本片段时,具体用于:
基于信息提取模型对所述评价数据进行词法分析、句法分析和语义分析,得到至少一个目标文本片段;
其中,所述信息提取模型是基于样本文档的评价数据和标注数据对自然语言处理模型进行所述句法分析的强化训练得到的,所述标注数据包括所述样本文档的评价数据的至少一个标注文本片段。
可选的,所述基于信息提取模型对所述评价数据进行词法分析、句法分析和语义分析,得到至少一个目标文本片段之前,所述处理器901还用于:
获取样本文档的评价数据和标注数据,所述标注数据包括所述样本文档的评价数据的至少一个标注文本片段;
利用自然语言处理模型对所述样本文档的评价数据进行信息提取,得到预测文本片段;
确定所述标注文本片段的句子成分和所述预测文本片段的句子成分,所述标注文本片段的句子成分包括标注文本片段中每个文本元素的词性之间的组合关系,所述预测文本片段的句子成分包括预测文本片段中每个文本元素的词性之间的组合关系;
基于所述标注文本片段的句子成分和所述预测文本片段的句子成分之间的差异数据对所述自然语言处理模型的参数进行调整,得到信息提取模型。
可选的,所述处理器901还用于:
基于每个所述正向文本片段和每个所述正向文本片段对应的评价参数确定文档正向得分项;
基于每个所述负向文本片段和每个所述负向文本片段对应的评价参数确定文档负向得分项;
根据所述文档正向得分项和所述文档负向得分项确定所述待检测文档的改进指示信息,所述改进指示信息用于指示第一目标用户对所述待检测文档进行编辑处理。
可选的,所述处理器901还用于:
基于文本片段的内容确定所述匹配文本片段中每个正向文本片段的出现频次和每个负向文本片段的出现频次;
根据所述匹配文本片段中每个正向文本片段的出现频次和评价参数确定所述每个正向文本片段的权重参数,根据所述匹配文本片段中每个负向文本片段的出现频次和评价参数确定所述每个负向文本片段的权重参数;
根据所述每个正向文本片段的权重参数和所述每个负向文本片段的权重参数确定所述待检测文档的质量评价标签,所述质量评价标签用于指示第二目标用户基于所述质量评价标签使用所述待检测文档。
可选的,所述处理器901在用于根据所述每个正向文本片段的权重参数和所述每个负向文本片段的权重参数确定所述待检测文档的质量评价标签时,具体用于:
对所述每个正向文本片段的权重参数进行降序排序,得到排在前K位的权重参数所对应的K个正向文本片段,K为正整数;
对所述每个负向文本片段的权重参数进行降序排序,得到排在前L位的权重参数所对应的L个负向文本片段,L为正整数;
根据所述K个正向文本片段和所述L个负向文本片段,确定所述待检测文档的质量评价标签。
可选的,所述多个评价维度包括内容易获取度、内容完整度、内容正确度、内容易理解度;所述内容易获取度用于指示所述待检测文档中内容的获取难易程度,所述内容完整度用于指示所述待检测文档中内容的完整程度,所述内容正确度用于指示所述待检测文档中内容的准确程度,所述内容易理解度用于指示所述待检测文档中内容的理解难易程度。
具体实现中,本申请实施例中所描述的处理器901、存储器902以及通信接口903可执行本申请实施例图2、图4和图6提供的方法的相关实施例中所描述的实现方式,也可执行本申请实施例图8提供的装置的相关实施例中所描述的实现方式,在此不再赘述。
本领域技术人员还可以了解到本申请实施例列出的各种说明性逻辑块(illustrative logical block)和步骤(step)可以通过电子硬件、电脑软件,或两者的结合进行实现。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用,可以使用各种方法实现所述的功能,但这种实现不应被理解为超出本申请实施例保护的范围。
本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序包括程序指令,该程序指令被计算机执行时实现上述任一方法实施例的功能。
上述计算机可读存储介质包括但不限于快闪存储器、硬盘、固态硬盘。
本申请还提供了一种计算机程序产品,该计算机程序产品被计算机执行时实现上述任一方法实施例的功能。
本领域技术人员还可以理解到本申请实施例列出的各种说明性逻辑块(illustrative logical block)和步骤(step)可以通过电子硬件、电脑软件,或两者的结合进行实现。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员对于相应的应用,可以使用各种方法实现所述的功能,但这种实现不应被理解为超出本申请实施例保护的范围。
本申请所描述的方案可通过各种方式来实现。例如,这些技术可以用硬件、软件或者硬件结合的方式来实现。对于硬件实现,用于在通信装置(例如,接入网设备,能力降低终端设备、核心网设备或芯片)处执行这些技术的处理单元,可以实现在一个或多个通用处理器、数字信号处理器(digital signal processor,DSP)、数字信号处理器件、专用集成电路(application specific integrated circuit,ASIC)、可编程逻辑器件、现场可编程门阵列(field programmable gate array,FPGA)、或其它可编程逻辑装置,离散门或晶体管逻辑,离散硬件部件,或上述任何组合中。通用处理器可以为微处理器,可选地,该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现,例如数字信号处理器和微处理器,多个微处理器,一个或多个微处理器联合一个数字信号处理器核,或任何其它类似的配置来实现。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是实现上述任一实施例中的能力降低终端设备、第二小区对应的接入网设备、第一小区对应的接入网设备、服务于能力降低终端设备的核心网设备的功能的装置。示例性的,该装置可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输。
本申请中对于使用单数表示的元素旨在用于表示“一个或多个”,而并非表示“一个且仅一个”,除非有特别说明。本申请中,在没有特别说明的情况下,“至少一个”旨在用于表示“一个或者多个”,“多个”旨在用于表示“两个或两个以上”。
另外,本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况,其中A可以是单数或者复数,B可以是单数或者复数。
本申请中的预设(如预设序列)可以理解为定义、预先定义、存储、预存储、预协商、预配置、固化、或预烧制。
本领域普通技术人员可以理解,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请中各个实施例之间相同或相似的部分可以互相参考。在本申请中各个实施例、以及各实施例中的各个实施方式/实施方法/实现方法中,如果没有特殊说明以及逻辑冲突,不同的实施例之间、以及各实施例中的各个实施方式/实施方法/实现方法之间的术语和/或描述具有一致性、且可以相互引用,不同的实施例、以及各实施例中的各个实施方式/实施方法/实现方法中的技术特征根据其内在的逻辑关系可以组合形成新的实施例、实施方式、实施方法、或实现方法。以上所述的本申请实施方式并不构成对本申请保护范围的限定。
Claims (10)
1.一种文档质量评价方法,其特征在于,所述方法包括:
获取待检测文档的评价数据;
基于所述评价数据得到至少一个目标文本片段;
从多个评价维度将所述至少一个目标文本片段和评价词典进行匹配,得到匹配结果,所述匹配结果包括所述多个评价维度对应的匹配信息;其中,每个所述评价维度对应的匹配信息包括匹配文本片段和所述匹配文本片段对应的评价参数,所述评价词典包括至少一个参考文本片段;所述评价参数用于指示每个匹配文本片段所描述的文档内容的优势特征或者劣势特征的得分;
根据所述匹配结果确定所述待检测文档的质量评价数据;其中,所述质量评价数据包括所述多个评价维度对应的质量分数。
2.根据权利要求1所述的方法,其特征在于,所述评价词典包括每个所述评价维度对应的子词典;
所述从多个评价维度将所述至少一个目标文本片段和评价词典进行匹配,得到匹配结果,包括:
将所述至少一个目标文本片段和目标评价维度对应的目标子词典中的参考文本片段进行匹配,得到与所述至少一个目标文本片段匹配的匹配文本片段;所述匹配文本片段包括正向文本片段和负向文本片段;其中,所述目标评价维度为所述多个评价维度中的任意一个,所述正向文本片段用于描述所述待检测文档的内容的优势特征,所述负向文本片段用于描述所述待检测文档的内容的劣势特征;
从评价参数对照数据中确定所述匹配文本片段对应的评价参数;
基于所述匹配文本片段和所述匹配文本片段对应的评价参数确定所述目标评价维度对应的匹配信息;
基于所述多个评价维度对应的匹配信息确定匹配结果。
3.根据权利要求2所述的方法,其特征在于,所述根据所述匹配结果确定所述待检测文档的质量评价数据,包括:
从所述目标评价维度对应的匹配信息中确定每个所述正向文本片段对应的评价参数,以及每个所述负向文本片段对应的评价参数;
基于每个所述正向文本片段和每个所述正向文本片段对应的评价参数确定正向评价参数;
基于每个所述负向文本片段和每个所述负向文本片段对应的评价参数确定负向评价参数;
基于所述正向评价参数和所述负向评价参数确定所述目标评价维度对应的质量分数;
基于所述多个评价维度对应的质量分数确定所述待检测文档的质量评价数据。
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述基于所述评价数据得到至少一个目标文本片段,包括:
基于信息提取模型对所述评价数据进行词法分析、句法分析和语义分析,得到至少一个目标文本片段;
其中,所述信息提取模型是基于样本文档的评价数据和标注数据对自然语言处理模型进行所述句法分析的强化训练得到的,所述标注数据包括所述样本文档的评价数据的至少一个标注文本片段。
5.根据权利要求4所述的方法,其特征在于,所述基于信息提取模型对所述评价数据进行词法分析、句法分析和语义分析,得到至少一个目标文本片段之前,所述方法还包括:
获取样本文档的评价数据和标注数据,所述标注数据包括所述样本文档的评价数据的至少一个标注文本片段;
利用自然语言处理模型对所述样本文档的评价数据进行信息提取,得到预测文本片段;
确定所述标注文本片段的句子成分和所述预测文本片段的句子成分,所述标注文本片段的句子成分包括标注文本片段中每个文本元素的词性之间的组合关系,所述预测文本片段的句子成分包括预测文本片段中每个文本元素的词性之间的组合关系;
基于所述标注文本片段的句子成分和所述预测文本片段的句子成分之间的差异数据对所述自然语言处理模型的参数进行调整,得到信息提取模型。
6.根据权利要求2-5任一项所述的方法,其特征在于,所述方法还包括:
基于每个所述正向文本片段和每个所述正向文本片段对应的评价参数确定文档正向得分项;
基于每个所述负向文本片段和每个所述负向文本片段对应的评价参数确定文档负向得分项;
根据所述文档正向得分项和所述文档负向得分项确定所述待检测文档的改进指示信息,所述改进指示信息用于指示第一目标用户对所述待检测文档进行编辑处理。
7.根据权利要求2-6任一项所述的方法,其特征在于,所述方法还包括:
基于文本片段的内容确定所述匹配文本片段中每个正向文本片段的出现频次和每个负向文本片段的出现频次;
根据所述匹配文本片段中每个正向文本片段的出现频次和评价参数确定所述每个正向文本片段的权重参数,根据所述匹配文本片段中每个负向文本片段的出现频次和评价参数确定所述每个负向文本片段的权重参数;
根据所述每个正向文本片段的权重参数和所述每个负向文本片段的权重参数确定所述待检测文档的质量评价标签,所述质量评价标签用于指示第二目标用户基于所述质量评价标签使用所述待检测文档。
8.根据权利要求7所述的方法,其特征在于,所述根据所述每个正向文本片段的权重参数和所述每个负向文本片段的权重参数确定所述待检测文档的质量评价标签,包括:
对所述每个正向文本片段的权重参数进行降序排序,得到排在前K位的权重参数所对应的K个正向文本片段,K为正整数;
对所述每个负向文本片段的权重参数进行降序排序,得到排在前L位的权重参数所对应的L个负向文本片段,L为正整数;
根据所述K个正向文本片段和所述L个负向文本片段,确定所述待检测文档的质量评价标签。
9.根据权利要求1-8中任一项所述的方法,其特征在于,所述多个评价维度包括内容易获取度、内容完整度、内容正确度、内容易理解度;所述内容易获取度用于指示所述待检测文档中内容的获取难易程度,所述内容完整度用于指示所述待检测文档中内容的完整程度,所述内容正确度用于指示所述待检测文档中内容的准确程度,所述内容易理解度用于指示所述待检测文档中内容的理解难易程度。
10.一种计算设备,其特征在于,所述计算设备包括处理器和存储器;所述处理器和所述存储器电连接,其中,所述存储器用于存储计算机程序指令;所述处理器用于执行所述程序指令,以使得所述计算设备执行如权利要求1-9中任一项所述的文档质量评价方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310450781.3A CN116629241A (zh) | 2023-04-24 | 2023-04-24 | 一种文档质量评价方法及计算设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310450781.3A CN116629241A (zh) | 2023-04-24 | 2023-04-24 | 一种文档质量评价方法及计算设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116629241A true CN116629241A (zh) | 2023-08-22 |
Family
ID=87612469
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310450781.3A Pending CN116629241A (zh) | 2023-04-24 | 2023-04-24 | 一种文档质量评价方法及计算设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116629241A (zh) |
-
2023
- 2023-04-24 CN CN202310450781.3A patent/CN116629241A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108829893B (zh) | 确定视频标签的方法、装置、存储介质和终端设备 | |
CN106874441B (zh) | 智能问答方法和装置 | |
WO2019091026A1 (zh) | 知识库文档快速检索方法、应用服务器及计算机可读存储介质 | |
CN111241237B (zh) | 一种基于运维业务的智能问答数据处理方法及装置 | |
US11449559B2 (en) | Identifying similar sentences for machine learning | |
CN109299280B (zh) | 短文本聚类分析方法、装置和终端设备 | |
CN112069298A (zh) | 基于语义网和意图识别的人机交互方法、设备及介质 | |
US20150227505A1 (en) | Word meaning relationship extraction device | |
CN111563384B (zh) | 面向电商产品的评价对象识别方法、装置及存储介质 | |
US11526804B2 (en) | Machine learning model training for reviewing documents | |
US11556711B2 (en) | Analyzing documents using machine learning | |
US11893537B2 (en) | Linguistic analysis of seed documents and peer groups | |
US11699034B2 (en) | Hybrid artificial intelligence system for semi-automatic patent infringement analysis | |
US11966444B2 (en) | Document analysis method and apparatus | |
CN108228612B (zh) | 一种提取网络事件关键词以及情绪倾向的方法及装置 | |
US20210064700A1 (en) | Removing outliers from training data for machine learning | |
CN111428027A (zh) | 查询意图确定方法及相关装置 | |
CN113569011A (zh) | 文本匹配模型的训练方法、装置、设备及存储介质 | |
CN110795942B (zh) | 基于语义识别的关键词确定方法、装置和存储介质 | |
CN115526171A (zh) | 一种意图识别方法、装置、设备及计算机可读存储介质 | |
JP6867963B2 (ja) | 要約評価装置、方法、プログラム、及び記憶媒体 | |
CN116629241A (zh) | 一种文档质量评价方法及计算设备 | |
CN113177402A (zh) | 词语替换方法、装置、电子设备和存储介质 | |
CN108573025B (zh) | 基于混合模板抽取句子分类特征的方法及装置 | |
CN114707489B (zh) | 标注数据集获取方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |