CN112784597A - 文章质量的评价方法及设备 - Google Patents
文章质量的评价方法及设备 Download PDFInfo
- Publication number
- CN112784597A CN112784597A CN201911077131.9A CN201911077131A CN112784597A CN 112784597 A CN112784597 A CN 112784597A CN 201911077131 A CN201911077131 A CN 201911077131A CN 112784597 A CN112784597 A CN 112784597A
- Authority
- CN
- China
- Prior art keywords
- article
- information
- determining
- similarity
- sentences
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 178
- 238000011156 evaluation Methods 0.000 claims abstract description 170
- 238000013441 quality evaluation Methods 0.000 claims abstract description 120
- 238000012512 characterization method Methods 0.000 claims description 134
- 239000013598 vector Substances 0.000 claims description 131
- 230000011218 segmentation Effects 0.000 claims description 90
- 238000013528 artificial neural network Methods 0.000 claims description 76
- 230000015654 memory Effects 0.000 claims description 64
- 238000012549 training Methods 0.000 claims description 59
- 238000004422 calculation algorithm Methods 0.000 claims description 37
- 238000012545 processing Methods 0.000 claims description 37
- 230000002457 bidirectional effect Effects 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 18
- 238000001303 quality assessment method Methods 0.000 claims description 8
- 230000002452 interceptive effect Effects 0.000 claims description 7
- 238000010586 diagram Methods 0.000 description 24
- 230000008569 process Effects 0.000 description 20
- 238000004590 computer program Methods 0.000 description 14
- 230000000694 effects Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 210000002569 neuron Anatomy 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 230000004044 response Effects 0.000 description 5
- 238000013461 design Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供一种文章质量的评价方法及设备,方法包括:获取待处理文章以及待处理文章包括的至少两个文章部分;确定文章部分的文章表征信息、以及至少两个文章部分中任意两个文章部分之间的相似度表征信息;根据文章表征信息和相似度表征信息确定与待处理文章相对应的质量评价结果。通过获取待处理文章包括的至少两个文章部分,确定文章部分的文章表征信息和任意两个文章部分之间的相似度表征信息,根据文章表征信息和相似度表征信息确定待处理文章的质量评价结果,有效地实现了将待处理文章中各个文章部分之间的逻辑关系结合各文章部分的文章表征信息作为评价因素,来获得待处理文章的质量评价结果,从而可以提高文章质量评价的准确性。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种文章质量的评价方法及设备。
背景技术
随着科学技术的飞速发展,文章的数字化处理已经成为一种流行趋势,例如,对文章进行数字化的质量评估,以获得文章的质量和价值。现有技术中,对文章进行质量评估的步骤包括:将文章划分为多个文章部分,对各个文章部分的文字内容进行质量评估,基于各个文章部分的质量评估结果获得整个文章的质量评估结果。然而,这种质量评估方式只是简单地对文章的各个文章部分进行识别处理,无法实现对文章的准确评估。
发明内容
本发明实施例提供了一种文章质量的评价方法及设备,可以将文章中包括的各个文章部分之间的逻辑关系结合各文章部分的文章表征信息作为评价因素,来获得文章的质量评价结果,从而可以提高文章质量评价的准确性。
第一方面,本发明实施例提供一种文章质量的评价方法,包括:
获取待处理文章以及所述待处理文章包括的至少两个文章部分;
确定所述文章部分的文章表征信息、以及至少两个所述文章部分中任意两个文章部分之间的相似度表征信息;
根据所述文章表征信息和相似度表征信息确定与所述待处理文章相对应的质量评价结果。
第二方面,本发明实施例提供一种文章质量的评价设备,包括:
第一获取模块,用于获取待处理文章以及所述待处理文章包括的至少两个文章部分;
第一确定模块,用于确定所述文章部分的文章表征信息、以及至少两个所述文章部分中任意两个文章部分之间的相似度表征信息;
第一评价模块,用于根据所述文章表征信息和相似度表征信息确定与所述待处理文章相对应的质量评价结果。
第三方面,本发明实施例提供一种电子设备,包括:存储器、处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现上述第一方面所述的文章质量的评价方法。
第四方面,本发明实施例提供了一种计算机存储介质,用于储存计算机程序,所述计算机程序使计算机执行时实现上述第一方面所述的文章质量的评价方法。
第五方面,本发明实施例提供一种用于评价文章质量的模型训练方法,包括:
获取待训练文章以及所述待训练文章所对应的标准质量信息,所述待训练文章包括至少两个文章部分;
确定所述文章部分的文章表征信息、以及至少两个所述文章部分中任意两个文章部分之间的相似度表征信息;
基于所述文章表征信息、相似度标识信息和标准质量信息对全连接神经网络进行模型训练,获得用于评价文章质量的目标模型。
第六方面,本发明实施例提供一种用于评价文章质量的模型训练设备,包括:
第二获取模块,用于获取待训练文章以及所述待训练文章所对应的标准质量信息,所述待训练文章包括至少两个文章部分;
第二确定模块,用于确定所述文章部分的文章表征信息、以及至少两个所述文章部分中任意两个文章部分之间的相似度表征信息;
训练模块,用于基于所述文章表征信息、相似度标识信息和标准质量信息对全连接神经网络进行模型训练,获得用于评价文章质量的目标模型。
第七方面,本发明实施例提供一种电子设备,包括:存储器、处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现上述第五方面所述的文章质量的评价方法。
第八方面,本发明实施例提供了一种计算机存储介质,用于储存计算机程序,所述计算机程序使计算机执行时实现上述第五方面所述的文章质量的评价方法。
第九方面,本发明实施例提供一种专利文件质量的评价方法,包括:
获取待评价的专利文件以及所述专利文件包括的至少两个专利部分;
确定所述专利部分的专利表征信息、以及至少两个所述专利部分中任意两个专利部分之间的相似度表征信息;
根据所述专利表征信息和相似度表征信息确定与所述专利文件相对应的质量评价结果。
第十方面,本发明实施例提供一种专利文件质量的评价设备,包括:
第三获取模块,用于获取待评价的专利文件以及所述专利文件包括的至少两个专利部分;
第三确定模块,用于确定所述专利部分的专利表征信息、以及至少两个所述专利部分中任意两个专利部分之间的相似度表征信息;
第三评价模块,用于根据所述专利表征信息和相似度表征信息确定与所述专利文件相对应的质量评价结果。
第十一方面,本发明实施例提供一种电子设备,包括:存储器、处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现上述第九方面所述的专利文件质量的评价方法。
第十二方面,本发明实施例提供了一种计算机存储介质,用于储存计算机程序,所述计算机程序使计算机执行时实现上述第九方面所述的专利文件质量的评价方法。
第十三方面,本发明实施例提供一种文章质量的评价方法,包括:
获取待处理文章;
获取用户针对所述待处理文章输入的执行操作,根据所述执行操作确定所述待处理文章中包括的至少两个文章部分;
确定所述文章部分的文章表征信息、以及至少两个所述文章部分中任意两个文章部分之间的相似度表征信息;
根据所述文章表征信息和相似度表征信息确定与所述待处理文章相对应的质量评价结果。
第十四方面,本发明实施例提供一种文章质量的评价设备,包括:
第四获取模块,用于获取待处理文章;
所述第四获取模块,还用于获取用户针对所述待处理文章输入的执行操作,根据所述执行操作确定所述待处理文章中包括的至少两个文章部分;
第四确定模块,用于确定所述文章部分的文章表征信息、以及至少两个所述文章部分中任意两个文章部分之间的相似度表征信息;
第四评价模块,用于根据所述文章表征信息和相似度表征信息确定与所述待处理文章相对应的质量评价结果。
第十五方面,本发明实施例提供一种电子设备,包括:存储器、处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现上述第十三方面所述的文章质量的评价方法。
第十六方面,本发明实施例提供了一种计算机存储介质,用于储存计算机程序,所述计算机程序使计算机执行时实现上述第十三方面所述的文章质量的评价方法。
通过获取待处理文章以及所述待处理文章包括的至少两个文章部分,确定所述文章部分的文章表征信息、以及至少两个所述文章部分中任意两个文章部分之间的相似度表征信息,而后根据所述文章表征信息和相似度表征信息确定与所述待处理文章相对应的质量评价结果,有效地实现了将待处理文章中包括的各个文章部分之间的逻辑关系结合各文章部分的文章表征信息作为评价因素,来获得待处理文章的质量评价结果,从而可以提高文章质量评价的准确性,有效地保证了该方法的实用性,有利于市场的推广与应用。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a为本发明实施例提供的一种文章质量的评价方法的场景示意图;
图1b为本发明实施例提供的一种文章质量的评价方法的流程图;
图2为本发明实施例提供的确定所述文章部分的文章表征信息的流程图;
图3为本发明实施例提供的获取所述文章部分包括的所有分词信息的流程图;
图4为本发明实施例提供的确定与所述分词信息相对应的词嵌入向量信息的流程图;
图5为本发明实施例提供的另一种文章质量的评价方法的流程图;
图6为本发明实施例提供的确定所述文章部分的文章表征信息的流程图一;
图7为本发明实施例提供的确定每个所述语句的语句表征信息的流程图;
图8为本发明实施例提供的确定所述文章部分的文章表征信息的流程图二;
图9为本发明实施例提供的确定任意两个文章部分之间的相似度表征信息的流程图;
图10为本发明实施例提供的确定所有第一语句与所有第二语句之间的相似度信息的流程图一;
图11为本发明实施例提供的确定所有第一语句与所有第二语句之间的相似度信息的流程图二;
图12为本发明实施例提供的确定与所述待处理文章相对应的质量评价结果的流程图;
图13为本发明实施例提供的利用全连接神经网络对所述目标表征信息进行处理的流程图;
图14为本发明实施例提供的确定所述待处理文章的目标评价等级的流程图;
图15为本发明实施例提供的又一种文章质量的评价方法的流程图;
图16为本发明应用实施例提供的分级注意网络的结构图;
图17为本发明应用实施例提供的一种文章质量的评价方法的示意图一;
图18为本发明应用实施例提供的一种文章质量的评价方法的示意图二;
图19为本发明实施例提供的一种用于评价文章质量的模型训练方法的流程图;
图20为本发明实施例提供的一种专利文件质量的评价方法的流程图;
图21为本发明实施例提供的另一种文章质量的评价方法的流程图;
图22为本发明实施例提供的一种文章质量的评价设备的结构示意图;
图23为与图22所示实施例提供的文章质量的评价设备对应的电子设备的结构示意图;
图24为本发明实施例提供的一种用于评价文章质量的模型训练设备的结构示意图;
图25为与图24所示实施例提供的用于评价文章质量的模型训练设备对应的电子设备的结构示意图;
图26为本发明实施例提供的一种专利文件质量的评价设备的结构示意图;
图27为与图26所示实施例提供的专利文件质量的评价设备对应的电子设备的结构示意图;
图28为本发明实施例提供的一种文章质量的评价设备的结构示意图;
图29为与图28所示实施例提供的文章质量的评价设备对应的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种,但是不排除包含至少一种的情况。
应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。
另外,下述各方法实施例中的步骤时序仅为一种举例,而非严格限定。
为了便于理解本申请的技术方案,对现有技术进行简要说明:现有技术中,可以利用神经网络以及其他机器学习算法对文章进行评估。具体的,上述方法是把文章当做一个整体进行特征抽取和表征,而后基于所抽取的特征来对文章进行质量评估。然而,这种方式只是简单地对文章的各个文章部分进行识别处理,并没有考虑到各个文章部分之间的逻辑关系,从而降低了质量评估的准确性。
以专利文章作为待处理文章为例进行说明:在利用现有技术中的方法对专利文章进行质量评价时,可以利用神经网络或者其他机器学习算法对专利文章的整体进行特征抽取,将抽取的特征进行合并,在合并之后来表征专利文章的整体质量。然而,这样只是简单地将专利文章所包括的特征进行拼接,而并没有考虑专利文章所包括的各个文章部分(包括:“标题”、“摘要”、“发明内容”、“权利要求”“附图”)之间的联系,而对于科技论述性文章(专利文章、论文文章)而言,文章中包括的各个部分之间的联系对于判断其文章质量具有辅助作用,可以提高对文章进行质量评价的准确性,不应该被忽略。
图1a为本发明实施例提供的一种文章质量的评价方法的场景示意图;图1b为本发明实施例提供的一种文章质量的评价方法的流程图;为了克服现有技术中存在的上述缺陷,参考附图1a-图1b所示,本实施例提供了一种文章质量的评价方法,该评价方法的执行主体可以是文章质量的评价装置,可以理解的是,该评价装置可以实现为软件、或者软件和硬件的组合。具体应用时,评价装置可以是手机、平板电脑、服务器、客户端等各种设备。具体的,该方法可以包括:
S1:获取待处理文章以及待处理文章包括的至少两个文章部分。
其中,待处理文章是需要进行质量评估的文章,本实施例对于待处理文章的具体类型不做限定,本领域技术人员可以根据具体的应用需求进行任意设置,具体的,待处理文章可以为以下任意一种类型:专利文章、论文文章、科技型论述文章等等。此外,本实施例对于获取待处理文章的具体实现方式不做限定,本领域技术人员可以根据具体的应用场景进行设置,例如:待处理文章可以是其他设备(如图1a中的客户端)发送至评价装置的,从而使得评价装置可以获得待处理文章;或者,评价装置可以包括有文章扫描设备,通过文章扫描设备可以获得待处理文章等等。
在获取到待处理文章之后,可以确定待处理文章中所包括的至少两个文章部分,需要注意的是,待处理文章中所包括的至少两个文章部分可以是指待处理文章中包括的至少两个不同的段落,例如:待处理文章中包括段落一和段落二,段落一和段落二即可以作为待处理文章包括的两个文章部分,此时,待处理文章的至少两个文章部分可以通过标点符号(分行符号)加以确定。或者,待处理文章中所包括的至少两个文章部分也可以是指待处理文章中包括的至少两个不同的文章章节,例如:待处理文章包括章节一、章节二,章节一中包括段落一、段落二和段落三,章节二中包括段落一、段落二、段落三和段落四,此时,待处理文章的至少两个文章部分可以是指待处理文章中包括的章节一和章节二,此时,待处理文章的至少两个文章部分可以通过章节之间的标题、主体名称或者标点符号(例如:分页符)来加以确定。以专利文章为例,专利文章可以包括至少四个文章部分:摘要、权利要求书、说明书、附图,其中,说明书中可以至少包括背景技术、发明内容以及具体实施方式等三个文章部分,总的来说,专利文章可以包括以下文章部分:摘要、权利要求、背景技术、发明内容、具体实施方式以及附图。
S2:确定文章部分的文章表征信息、以及至少两个文章部分中任意两个文章部分之间的相似度表征信息。
如图1a-图1b所示,在获得至少两个文章部分之后,为了能够提高对待处理文章进行质量评价的准确度,可以获得待处理文章中文章部分所对应的文章表征信息以及两两文章部分之间所形成的相似度表征信息。具体应用时,可以确定待处理文章中所有文章部分的文章表征信息,即待处理文章中每个文章部分均可以确定一相对应的文章表征信息。或者,也可以确定待处理文章中一部分的文章部分的文章表征信息,即在获得待处理文章所包括的至少两个文章部分之后,可以先识别至少两个文章部分中具有质量评价意义的文章部分,针对具有质量评价意义的文章部分确定相对应的文章表征信息。
举例来说,当待处理文章为专利文章时,专利文章可以包括以下文章部分:摘要、摘要附图、权利要求书、说明书(技术领域、背景技术、发明内容、附图说明、具体实施方式)以及说明书附图,对于上述文章部分而言,一种可实现的方式为:可以确定每个文章部分所对应的文章表征信息,而后将每个文章部分所对应的文章表征信息作为质量评价的一个因素。或者,另一种可实现的方式为:可以先识别所有文章部分中具有质量评价意义的文章部分,其中,可以按照预设的分析算法对所有文章部分进行分析处理,通过分析可知,摘要附图、技术领域、附图说明对于专利文章的质量评价意义不大,因此,可以不用获得上述文章部分所对应的文章表征信息,也即,可以针对其他的文章部分获取相对应的文章表征信息,而后将这些文章部分所对应的文章表征信息作为质量评价的一个因素,这样不仅可以保证对待处理文章进行质量评价的准确性,并且还可以提高数据处理的效率。
其中,本实施例对于确定文章部分的文章表征信息的具体实现方式不做限定,本领域技术人员可以根据具体的应用需求进行设置,例如:可以利用神经网络或者其他机器学习算法对文章部分进行特征抽取,从而可以获得文章部分的文章表征信息,一般的,文章表征信息可以是一个向量信息。
另外,本实施例对于确定至少两个文章部分中任意两个文章部分之间的相似度表征信息的具体实现方式不做限定,本领域技术人员可以根据具体的应用需求进行设置,例如:当至少两个文章部分包括第一部分和第二部分时,可以基于第一部分相对应的第一表征信息和第二部分所对应的第二表征信息来确定相似度表征信息,此时,相似度表征信息可以是一个向量信息。当然的,本领域技术人员也可以采用其他的方式来获得至少两个文章部分中任意两个文章部分之间的相似度表征信息,只要能够保证相似度保证信息获取的准确可靠性即可,在此不再赘述。
S3:根据文章表征信息和相似度表征信息确定与待处理文章相对应的质量评价结果。
在获得文字表征信息和相似度表征信息之后,可以对文字表征信息和相似度表征信息进行分析处理,从而可以确定与待处理文章相对应的质量评价结果。具体的,参考附图12所示,确定与待处理文章相对应的质量评价结果可以包括:
S31:根据文章表征信息和相似度表征信息确定目标表征信息。
在获得文章表征信息和相似度表征信息之后,可以对文章表征信息和相似度表征信息进行处理,从而可以获得目标表征信息,可以理解的是,此时的目标表征信息是一个综合了文章表征信息和相似度表征信息的表征参数。具体的,本实施例对于目标表征信息的具体确定方式不做限定,本领域技术人员可以根据具体的应用需求进行设置,一种可实现的方式为:文章表征信息和相似度表征信息均是一个向量信息,因此,可以直接将文章表征信息和相似度表征信息进行拼接,从而可以获得目标表征信息。或者,另一种可实现的方式为:可以分别获取文章表征信息和相似度表征信息的预设权重,基于文章表征信息和相似度表征信息各自的预设权重对文字表征信息和相似度表征信息进行加权求和处理,从而可以获得目标表征信息。
S32:利用全连接神经网络对目标表征信息进行处理,获得与待处理文章相对应的质量评价结果。
其中,神经网络可以包括有多个神经元,神经元可以按照层进行布局,从而形成网络。对于全连接神经网络而言,具有以下规则:同一层的神经元之间没有连接;第N层的每个神经元和第N-1层的所有神经元相连,第N-1层神经元的输出就是第N层神经元的输入;并且,每个连接都有一个权值,即第n层的每个节点在进行计算的时候,激活函数的输入是n-1层所有节点的加权。
需要注意的是,本实施例中的全连接神经网络是经过训练得到的,该全连接神经网络用于基于表征信息获得文章的质量评价结果。因此,在获得目标表征信息之后,可以利用全连接神经网络对目标表征信息进行处理,以获得与待处理文章相对应的质量评价结果。具体的,参考附图13所示,本实施例中的利用全连接神经网络对目标表征信息进行处理可以包括:
S321:获取用于对待处理文章进行评价的评价等级。
其中,用于对待处理文章进行评价的评价等级可以是预先设置的,该评价等级可以因不同的待处理文章而有所不同,例如:对于专利文章而言,该评价等级可以包括:非常高等级、高等级、良好等级、低等级以及非常低等级;对于论文文章而言,该评价等级可以包括:高等级、良好等级以及低等级等等。在获得待处理文章之后,可以基于待处理文章的文章类型来获得相对应的评价等级,以准确地判断待处理文章的实际评价等级。
S322:利用全连接神经网络在每个评价等级上对目标表征信息进行处理,获得待处理文章在每个评价等级上相对应的评价信息。
在获得评价等级之后,可以利用全连接神经网络在评价等级上对目标表征信息进行处理,从而可以获得该待处理文章在评价等级上相对应的评价信息,举例来说:在待处理文章为论文文章时,利用全连接神经网络在每个评价等级上对目标表征信息进行处理时,可以获得论文文章在每个评价等级上相对应的评价信息:高等级--匹配、中等级--80分、低等级--不匹配。当然的,评价信息并不限于上述举例说明的评价信息,也可以存在其他类型的表达形式,在此不再赘述。
S323:根据评价信息确定待处理文章的目标评价等级。
在获得评价信息之后,可以基于评价信息来确定待处理文章的目标评价等级,该目标评价等级即为对待处理文章进行分析处理后所获得的质量评价结果。具体的,参考附图14所示,确定待处理文章的目标评价等级可以包括:
S3231:将待处理文章在每个评价等级上相对应的评价信息转化为概率信息。
S3232:将概率信息最大的评价等级确定为待处理文章的目标评价等级。
具体的,在获取到评价等级之后,为了避免因评价等级不在同一个等级体系内,而降低目标评价等级确定的准确性,可以对待处理文章在每个评价等级上相对应的评价信息进行归一化处理,从而可以获得与评价信息相对应的概率信息,而后将概率信息最大的评价等级确定为待处理文章的目标评价等级,例如:评价信息为高等级--匹配、中等级--80分、低等级--不匹配,将上述评价信息转换为相对应的概率信息,从而可以获得概率信息为:高等级--0.36、中等级--0.53、低等级--0.11,从而可以确定论文文章的目标评价等级为中等级。
本实施例提供的文章质量的评价方法,通过获取待处理文章以及待处理文章包括的至少两个文章部分,确定文章部分的文章表征信息、以及至少两个文章部分中任意两个文章部分之间的相似度表征信息,而后根据文章表征信息和相似度表征信息确定与待处理文章相对应的质量评价结果,有效地实现了将待处理文章中包括的各个文章部分之间的逻辑关系结合各个文章部分的文章表征信息作为评价因素,来获得待处理文章的质量评价结果,从而可以提高文章质量评价的准确性,有效地保证了该方法的实用性,有利于市场的推广与应用。
图2为本发明实施例提供的确定文章部分的文章表征信息的流程图;在上述实施例的基础上,继续参考附图2所示,本实施例中对于确定文章部分的文章表征信息的具体实现方式不做限定,本实施例中的确定文章部分的文章表征信息可以包括:
S21:获取文章部分包括的所有分词信息。
其中,分词信息可以是指以下任意一种信息:词语信息、汉字信息、单词信息、英文字母信息以及其他类型的字符信息等等。具体的,参考附图3所示,获取文章部分包括的所有分词信息可以包括:
S211:将文章部分划分为至少一个语句。
S212:利用分词工具对语句进行分词处理,获得与语句相对应的至少一个分词信息。
具体的,可以将文章部分按照标点符号(逗号、句号、感叹号、疑问号等等)划分为至少一个语句,而后利用分词工具对语句进行分析处理,从而可以获得与每个语句相对应的至少一个分词信息。当然的,本领域技术人员也可以采用其他的方式来获取文章部分包括的所有分词信息,只要能够保证分词信息获取的准确可靠性即可,在此不再赘述。
S22:确定与分词信息相对应的词嵌入向量信息。
在获取到分词信息之后,可以对分词信息进行分析处理,以确定与分词信息相对应的词嵌入向量信息。具体的,参考附图4所示,确定与分词信息相对应的词嵌入向量信息可以包括:
S221:利用词典对分词信息进行识别,获得与分词信息相对应的数字标识信息。
S222:根据数字标识信息确定与分词信息相对应的词嵌入向量信息。
具体的,词典用于实现文本的数字化处理,该词典用于对分词信息进行识别,以获得与分词信息相对应的数字标识信息,该数字标识信息可以通用的理解为与分词信息相对应的一个编码信息,同样的分词信息具有同样的编码信息。在获取到数字标识信息之后,可以对数字标识信息进行分析处理,从而可以获得与分词信息相对应的词嵌入向量信息。
S23:根据词嵌入向量信息确定文章部分的文章表征信息。
在获取到分词信息相对应的词嵌入向量信息之后,可以基于所有的分词信息相对应的词嵌入向量信息确定文章部分的文章表征信息。具体的,参考附图6所示,本实施例中的确定文章部分的文章表征信息可以包括:
S231:根据文章部分中每个语句中分词信息所对应的词嵌入向量信息,确定每个语句的语句表征信息。
在获取到分词信息所对应的词嵌入向量信息之后,可以基于分词信息的词嵌入向量信息确定每个语句所对应的语句表征信息,具体的,参考附图7所示,确定每个语句的语句表征信息可以包括:
S2311:将文章部分中每个语句中分词信息的词嵌入向量信息输入至第一分层注意力神经网络。
S2312:利用双向长短记忆网络算法和词嵌入向量信息获取每个语句的语句表征信息。
其中,第一分层注意力神经网络用于获得文章部分中各个语句的语句表征信息,具体的,在第一注意力神经网络算法获取到分词信息的词嵌入向量信息之后,可以利用长短期记忆网络(Bi-Directional Long Short-Term Memory,简称Bi-LSTM)和词嵌入向量信息对语句的特征进行提取操作,从而可以获得每个语句所对应的语句表征信息。
通过上述方式获得每个语句所对应的语句表征信息,有效地保证了语句表征信息获取的准确可靠性,进而提高了该方法应用的稳定可靠性。
S232:基于文章部分中所有语句的语句表征信息,确定文章部分的文章表征信息。
在获取到文章部分中所有语句的语句表征信息之后,可以基于所有语句的语句表征信息确定文章部分的文章表征信息,具体的,文章表征信息可以为所有语句的语句表征信息直接拼接而成的,或者,文章表征信息也可以是所有语句的语句表征信息按照预设的算法进行处理后而获得的。为了提高文章部分的文章表征信息确定的准确可靠性,参考附图8所示,本实施例中的确定文章部分的文章表征信息可以包括:
S2321:基于文章部分中所有语句的语句表征信息输入至第二分层注意力神经网络;
S2322:利用双向长短记忆网络算法和语句表征信息获取文章部分的文章表征信息。
其中,第二分层注意力神经网络算法用于获得各个文章部分的文章表征信息,具体的,在第二注意力神经网络算法获取到所有语句的语句表征信息之后,可以利用长短期记忆网络和语句表征信息对待处理文章中各个文章部分的特征进行提取操作,从而可以获得文章部分的文章表征信息。
通过上述方式获得文章部分的文章表征信息,有效地保证了文章表征信息获取的准确可靠性,进而提高了该方法应用的稳定可靠性。
可以理解的是,为了便于实现利用词典对分词信息进行识别,获得与分词信息相对应的数字标识信息,在利用词典对分词信息进行识别之前,还包括构建词典的过程,具体的,参考附图5所示,在利用词典对分词信息进行识别之前,本实施例中的方法还可以包括:
S001:获取训练文本以及与训练文本相对应的训练标识符。
S002:基于训练文本和训练标识符构建词典。
其中,训练文本与训练标识符之间存在映射关系,通过对训练文本和训练标识符的学习训练,可以构建词典,该词典可以实现文本的数字化处理。
通过获取文章部分包括的所有分词信息,而后确定与分词信息相对应的词嵌入向量信息,最后基于词嵌入向量信息确定文章部分的文章表征信息,有效地保证了文章表征信息获取的准确可靠性,进而提高了对待处理文章进行质量评估的精确度。
图9为本发明实施例提供的确定任意两个文章部分之间的相似度表征信息的流程图;在上述实施例的基础上,继续参考附图9所示,为了便于理解相似度表征信息获取的过程,以任意两个文章部分包括第一部分和第二部分为例进行说明,本实施例中的确定任意两个文章部分之间的相似度表征信息可以包括:
S24:获取第一部分包括的所有第一语句以及第二部分包括的所有第二语句。
其中,第一部分和第二部分均可以包括至少一个语句,具体的,可以按照标点符号获取第一部分所包括的所有第一语句和第二部分所包括的所有第二语句。
S25:确定所有第一语句与所有第二语句之间的相似度信息。
在获取到第一语句和第二语句之后,可以对第一语句和第二语句进行分析处理,从而可以确定所有第一语句与所有第二语句之间的相似度信息。具体的,本实施例对于相似度信息确定的具体实现方式不做限定,本领域技术人员可以根据具体的应用需求进行设置,其中,一种可实现的方式为:确定所有第一语句与所有第二语句之间的相似度信息可以包括:
S251:利用相似度函数对所有第一语句和所有第二语句进行处理,获得所有第一语句与所有第二语句之间的相似度信息。
具体的,可以所有第一语句和所有第二语句输入到相似度函数similarityfunction,Sim(x,y)中,其中,x是指第一语句,y是指第二语句,从而可以获得所有第一语句所有第二语句之间的相似度信息。
或者,针对相似度信息的确定方式,参考附图10所示,另一种可实现的方式为,确定所有第一语句与所有第二语句之间的相似度信息可以包括:
S252:确定与第一语句相对应的第一向量信息和与第二语句相对应的第二向量信息。
在获取到所有第一语句和第二语句之后,可以将第一语句和第二语句进行向量化处理。具体的,可以确定与第一语句相对应的第一向量信息,可以理解的是,不同的第一语句对应有不同的第一向量信息。相类似的,可以确定与第二语句相对应的第二向量信息,不同的第二语句对应有不同的第二向量信息。
S253:计算第一向量信息与第二向量信息之间的余弦相似度,并根据余弦相似度确定第一语句与第二语句之间的相似度信息。
在获取到第一向量信息和第二向量信息之后,可以计算所有的第一向量信息与所有的第二向量信息之间所形成的余弦相似度,而后可以根据余弦相似度确定第一语句与第二语句之间的相似度信息,具体的,可以直接将余弦相似度确定为第一语句与第二语句之间的相似度信息;或者,也可以按照预设算法对余弦相似度进行处理,从而获取第一语句与第二语句之间的相似度信息。
可以理解的是,本领域技术人员还可以采用其他的方式来获取第一语句与第二语句之间的相似度信息,只要能够保证第一语句与第二语句之间的相似度信息获取的准确可靠性即可。例如:对于第一语句和第二语句而言,先获取第一语句所包括的所有第一单词信息,第二语句所包括的所有第二单词信息,计算第一单词信息与第二单词信息之间的单词相似度,而后在多个单词相似度中,确定最大的单词相似度,而后将该最大单词相似度确定为第一语句与第二语句之间的相似度信息。
S26:基于相似度信息确定第一部分与第二部分之间的相似度表征信息。
在获取到相似度信息之后,可以对相似度信息进行分析处理,从而可以确定第一部分与第二部分之间的相似度表征信息。具体的,参考附图11所示,确定第一部分与第二部分之间的相似度表征信息可以包括:
S261:基于相似度信息确定第一部分中每个第一语句与第二部分中所有第二语句之间的第一最大相似度信息。
其中,第一最大相似度信息为第一部分中每个第一语句与第二部分中所有第二语句最大相似度的向量,表示了第一部分中每句话在第二部分中被反应的程度,也即第一部分中每句话的内容与第二部分的相似度。
S262:基于相似度信息确定第二部分中每个第二语句与第一部分中所有第一语句之间的第二最大相似度信息。
其中,第二最大相似度信息为第二部分中每个第二语句与第一部分中所有第一语句最大相似度的向量,表示了第二部分中每句话在第一部分中被反应的程度,也即第二部分中每句话的内容与第一部分的相似度。
S263:将第一最大相似度信息和第二最大相似度信息确定为相似度表征信息。
在获取到第一最大相似度信息和第二最大相似度信息之后,可以将第一最大相似度信息和第二最大相似度信息确定为相似度表征信息,从而保证了相似度表征信息获取的准确可靠性。
本实施例中,通过获取第一部分包括的所有第一语句以及第二部分包括的所有第二语句,而后确定所有第一语句与所有第二语句之间的相似度信息,最后基于相似度信息确定第一部分与第二部分之间的相似度表征信息,有效地保证了相似度表征信息获取的准确可靠性。
图15为本发明实施例提供的又一种文章质量的评价方法的流程图;在上述实施例的基础上,继续参考附图15所示,为了提高该方法的实用性,在确定与待处理文章相对应的质量评价结果之后,本实施例中的方法还可以包括:
S101:获取待处理文章的实际评价等级。
S102:确定实际评价等级与目标评价等级之间的交叉熵信息。
S104:利用反向传播算法和交叉熵信息对全连接神经网络的网络参数进行更新调整。
其中,反向传播算法是深度学习中一种更新神经网络的方法,其主要由两个环节(激励传播、权重更新)反复循环迭代,直到网络对输入的响应达到预定的目标范围为止。具体的,为了提高全连接神经网络对文章进行质量评价的准确性,可以对全连接神经网络的网络参数进行调整更新,在利用全连接神经网络对待处理文章进行质量预测之后,可以获得与待处理文章相对应的目标评价等级,基于该待处理文章,可以获得与该待处理文章相对应的实际评价等级,基于目标评价等级和实际评价等级可以获得两者之间的交叉熵信息,该交叉熵信息用于度量目标评价等级与实际评价等级之间的差异性信息;在获得交叉熵信息之后,可以利用反向传播算法和交叉熵信息对全连接神经网络的网络参数进行更新调整,从而可以提高全连接神经网络对文章进行质量评价的准确可靠性。
在上述实施例的基础上,在确定与所述待处理文章相对应的质量评价结果之后,本实施例中的方法还可以包括:
S201:获取文章查询请求。
S202:确定与所述文章查询请求相对应的至少一个待推送文章。
S203:获取所述待推送文章的质量评价结果。
S204:基于所述质量评价结果,在至少一个待推送文章中确定与所述文章查询请求相对应的至少一个目标文章。
其中,文章查询请求为用于在预设的数据库中查询目标文章的请求信息,例如:文章查询请求可以是指用于在预设的数据库中查询某一方面的专利文章的请求信息;或者,文章查询请求可以是指用于在预设的数据库中查询某一方面的论文文章的请求信息,本领域技术人员可以根据具体的应用场景来确定文章查询请求的具体内容;在获取到文章查询请求之后,可以在预设的数据库中查询与文章查询请求相对应的至少一个待推送文章,具体的,可以先确定与文章查询请求相对应的请求关键字,而后在预设的数据库中查询与请求关键字相匹配的至少一个待推送文章。此时,待推送文章的个数可以为一个或多个,在待推送文章的个数为多个时,为了能够使得用户可以快速查看到高质量的推送文章,可以获取所述待推送文章的质量评价结果,而后基于所述质量评价结果,在至少一个待推送文章中确定与所述文章查询请求相对应的至少一个目标文章,具体的,基于所述质量评价结果,在至少一个待推送文章中确定与所述文章查询请求相对应的至少一个目标文章可以包括:
S2041:根据所述质量评价结果确定至少一个待推送文章的质量优先级,所述质量优先级与所述质量评价结果呈正比。
S2042:根据所述质量优先级,在至少一个待推送文章中确定与所述文章查询请求相对应的至少一个目标文章。
举例来说,在至少一个待推送文章包括待推送文章一、待推送文章二和待推送文章三时,待推送文章一所对应的质量优先级为高级别、待推送文章二所对应的质量优先级为良好级别、待推送文章三所对应的质量优先级为中等级别,通过对上述三个质量评价结果的分析识别可以得知,高级别的优先级大于良好级别的优先级,良好级别的优先级大于中等级别的优先级,因此,可以根据上述三个待推送文章的质量优先级,优先将待推送文章一确定为第一个目标文章,而后将待推送文章二确定为第二个目标文章,最后将待推送文章三确定为第三个目标文章,也即,在对上述三个待推送文章进行显示时,可以优先推送待推送文章一、而后推送待提送文章二,最后推送待推送文章三。
通过根据所述质量评价结果确定至少一个待推送文章的质量优先级,根据所述质量优先级,在至少一个待推送文章中确定与所述文章查询请求相对应的至少一个目标文章,有效地实现了用户可以优先查看到高质量的目标文章,不仅满足用户的文章查询请求,并且还提高了目标文章查询的质量和效率。
具体应用时,参考附图1a、16-18所示,本应用实施例提供了一种文章质量的评价方法,为了便于理解该评价方法的实现过程,以专利文章作为待处理文章为例进行说明,具体的,该评价方法包括:
step0:构建词典。
其中,构建词典的目的是将文本数字化,也即对文章中的每个词语进行编号,一个词语对应一个编号信息,同样的词语对应有同样的编号信息。具体的,通过扫描获得全部训练文章,训练文章对应有数字标识信息,对全部训练文章和数字标识信息进行学习训练,构建词典。
step1:获取待处理文章以及待处理文章包括的至少两个文章部分,并获取文章部分包括的所有分词信息。
其中,分词信息可以包括汉字词语,汉字词语可以通过分词工具分析获得。分词信息还可以包括英文单词,英文单词可以通过标点符号(空格键)分割即可。
step2:利用所构建的词典对分词信息进行索引编号,获得与分词信息相对应的数字标识符;而后利用数字标识符确定与分词信息相对应的词嵌入向量信息wordembeddings。
其中,词嵌入向量信息是每个分词信息在高维空间上的语义表征。在获得每个分词信息所对应的数字标识符之后,可以利用词嵌入Embedding的过程获得与数字标识符相对应的一个向量表示信息。具体的,词嵌入的过程需要通过大量文章进行训练而获得。训练词嵌入过程的数据可以是大批量的任何文档,并且针对不同类型的文档中学习出来的词嵌入过程可以有差异,此处,为了提高对专利文章进行识别的准确性,可以选用专利自身训练数据,从而可以让词嵌入过程更好的表示每个分词信息在专利中的语义。
举例来说,对专利文章的每一个部分按照标点符号分成语句。每个语句利用分词工具进行分词信息。以“发明内容”部分为例进行说明,发明内容部分包括:步骤1、20个字符,2个语句;步骤2、30个字符、3个语句;步骤3、40个字符、3个语句;步骤4、35个字符、2个语句。其中,对于发明内容部分而言,可以包括上述步骤1到步骤4,此时,发明内容中的步骤可以表示为[s1,s2,...s4],si(i=1,2...4)表示语句。而对于步骤1而言,步骤1所对应的两个语句中包括的字符向量表述:s11=[w1,w2,...w8]、s12=[w1,w2,...w12],其中,wt(t=1,2...t)表示一个分词信息的词嵌入向量信息,t为语句长度。
step3:基于文章部分中每个语句中分词信息所对应的词嵌入向量信息,确定文章部分的文章表征信息(representation)。
具体的,参考附图16所示,在确定文章部分的文章表征信息时,可以通过2层分层注意力神经网络(hierarchical attention networks,简称HAN)对文章部分中每个语句中分词信息所对应的词嵌入向量信息进行分析处理来获得。具体的,可以先将每个分词信息所对应的词嵌入向量信息作为输入,输入到分层注意力神经网络中,也即:将分词信息所对应的词嵌入向量信息w0、w1以及wL输入至第一层分层注意力神经网络中,之后,双向长短记忆网络Bi-LSTM可以基于词嵌入向量信息来提取语句的特征,从而获得语句的语句表征信息Hsi,并且,还可以获得每个分词信息所对应的分词信息表征信息Hwt。在获得语句的语句表征信息Hsi之后,可以将所有语句的语句表征信息输入至第二层分层注意力神经网络中,也即:将语句表征信息s0、s1以及sn输入至第二层分层注意力神经网络中,之后,双向长短记忆网络Bi-LSTM可以基于语句表征信息s0、s1以及sn来提取语句的特征,从而获得专利文章中各个文章部分的文章表征信息Hpm;其中,as0、as1、asn是预设的权重信息,用于区别具有不同权重的语句表征信息,可以利用预设的权重信息对语句表征信息进行加权求和,从而可以获得文章部分的文章表征信息。同理的,语句表征信息计算过程也是如此。在获取到专利文章中文章部分的文章表征信息之后,可以将专利文章中文章部分的文章表征信息Hpm拼接处理为专利文章的整体表征Hd。
step4:确定至少两个文章部分中任意两个文章部分之间的相似度表征信息。
具体的,在获得文章部分中每个语句的语句表征信息之后,可以利用这些语句的语句表征信息计算各个文章部分之间的相似度表征信息,即确定专利文章中各个文章部分之间的相关性。以“发明内容”和“权利要求”为例进行说明:
在获取发明内容与权利要求之间的相似度表征信息时,一种可实现的方式为:如图17所示,利用相似度函数Sim(x,y)计算发明内容与权利要求两部分中的任意两个语句之间的相似度,即Sim(Hsai,Hsbj),其中i=1,2,...na,j=1,2,...nb,其中,a,b分别表示“发明内容”和“权利要求”,na、nb分别表示发明内容和权利要求两个文章部分中语句的数量;从而可以得到一个na*nb的向量矩阵,向量矩阵中的每一行表示发明内容中某一个语句i与“权利要求”中每个语句的相似度。类似的,向量矩阵中的每一列即表示“权利要求”中某个语句j与“发明内容”中每个语句的相似度。然后,分别对行和列取最大值max,得到两个向量:sab和sba。sab是“发明内容”中每个语句与“权利要求”中所有语句最大相似度的向量,表示了“发明内容”中每句话在“权利要求”中被反应的程度,即“发明内容”的每句话的内容与“权利要求”的相似度;sba同理则表示“权利要求”的每句话的内容在“发明内容”中的体现的程度,即相似度。类似的,还可以分别计算“摘要”与“发明内容”和“权利要求”之间的相似度向量。
可以理解的是,本实施例中并不限于利用上述相似度函数来计算发明内容与权利要求两部分中的任意两个语句之间的相似度,本领域技术人员可以根据具体的应用场景进行任意设置,例如:余弦相似度算法cosine similarity,点积算法dot product,点积绝对值算法absolute value of dot product等等,只要能够准确地计算发明内容与权利要求两个部分中的任意两个语句之间的相似度,在此不再赘述。
在获取发明内容与权利要求之间的相似度表征信息时,另一种可实现的方式为:利用词袋模型(Bag of word)确定与发明内容中的第一语句相对应的第一向量信息和与权利要求中的第二语句相对应的第二向量信息;计算第一向量信息与第二向量信息之间的余弦相似度,并根据余弦相似度确定第一语句与第二语句之间的相似度信息。
在获取发明内容与权利要求之间的相似度表征信息时,又一种可实现的方式为:识别发明内容中包括的第一语句和权利要求中包括的第二语句,计算第一语句与第二语句中两两分词信息之间的相似度信息,确定第一语句中分词信息与第二语句中分词信息最相似的一对分词信息,将该最相似的分词信息的相似度确定为第一语句与第二语句之间的相似度。
step5:根据文章表征信息和相似度表征信息确定与待处理文章相对应的质量评价结果。
具体的,如图18所示,将相似度表征信息sab和sba衔接到专利文章的整体表征Hd,从而得到专利的目标表征信息。而后将目标表征信息作为输入,输入至全连接神经网络层(Fully Connected Layer)。具体的,目标表征信息是一个高维向量,通过全连接神经网络计算目标表征信息在每个评价等级(非常低,低,中,高,非常高)上的评价信息,而后利用归一化指数softmax函数将评价信息转化为概率信息,而后将概率信息最大的等级确定为专利文章的预测质量等级。
进一步的,获取专利文章的实际质量等级,将实际质量等级和预测质量等级进行比较,具体的,获取实际质量等级与预测质量等级之间的交叉熵。利用交叉熵并通过反向传播法backpropagation算法更新网络参数,从而可以得到更新调整后的训练模型。
本应用实施例提供的评价方法,通过抽取出专利文章各部分的表征信息,从而获得专利文章的整体表征信息,之后,利用各文章部分语句的表征信息计算每个专利部分之间的关联度信息(相似度表征信息),并将相似度表征信息与专利整体表征结合起来,辅助专利质量的判断,从而克服了现有技术中忽略文章各个部分之间关联的缺点,这个相似度可以把专利各个部分关联的程度(逻辑相关性)考虑进去,从而辅助提高了专利评价的准确度。
图19为本发明实施例提供的一种用于评价文章质量的模型训练方法的流程图;参考附图19所示,本实施例提供了一种用于评价文章质量的模型训练方法,该模型训练方法的执行主体可以是模型训练装置,可以理解的是,该模型训练装置可以实现为软件、或者软件和硬件的组合。具体的,该方法可以包括:
S301:获取待训练文章以及所述待训练文章所对应的标准质量信息,所述待训练文章包括至少两个文章部分。
其中,对应有标准质量信息的待训练文章用于对模型进行学习训练,需要说明的是,本实施例中的获取待训练文章的标准质量信息可以是通过相关领域的评价标准而获取到的一个质量评估结果,具体的,待训练文章所对应的标准质量信息可以是通过相关领域中的专家人员对待训练文章进行质量评价操作之后而获得的标准质量信息;或者,待训练文章所对应的标准质量信息也可以是通过相关领域中认可的预设质量评价程序进行质量评价操作之后而获得的标准质量信息。
另外,本实施例对于待训练文章的具体类型不做限定,本领域技术人员可以根据具体的应用需求进行任意设置,具体的,待训练文章可以为以下任意一种类型:专利文章、论文文章、科技型论述文章等等。此外,本实施例对于获取待训练文章的具体实现方式不做限定,本领域技术人员可以根据具体的应用场景进行设置,例如:待训练文章可以是其他设备发送至模型训练装置的,从而使得模型训练装置可以获得待训练文章;或者,模型训练装置可以包括有文章扫描设备,通过文章扫描设备可以获得待训练文章等等。
此外,本实施例中的待训练文章中包括至少两个文章部分,需要注意的是,待训练文章中所包括的至少两个文章部分可以是指待训练文章中包括的至少两个不同的段落,例如:待训练文章中包括段落一和段落二,段落一和段落二即可以作为待训练文章包括的两个文章部分,此时,待训练文章的至少两个文章部分可以通过标点符号(分行符号)加以确定。或者,待训练文章中所包括的至少两个文章部分也可以是指待训练文章中包括的至少两个不同的文章章节,例如:待训练文章包括章节一、章节二,章节一中包括段落一、段落二和段落三,章节二中包括段落一、段落二、段落三和段落四,此时,待训练文章的至少两个文章部分可以是指待训练文章中包括的章节一和章节二,此时,待训练文章的至少两个文章部分可以通过章节之间的标题、主体名称或者标点符号(例如:分页符)来加以确定。以专利文章为例,专利文章可以包括至少四个文章部分:摘要、权利要求书、说明书、附图,其中,说明书中可以至少包括背景技术、发明内容以及具体实施方式等三个文章部分,总的来说,专利文章可以包括以下文章部分:摘要、权利要求、背景技术、发明内容、具体实施方式以及附图。
S302:确定所述文章部分的文章表征信息、以及至少两个所述文章部分中任意两个文章部分之间的相似度表征信息。
在获取到待训练文章中包括的至少两个文章部分之后,可以对文字部分进行分析识别,以确定所述文章部分的文章表征信息、以及至少两个所述文章部分中任意两个文章部分之间的相似度表征信息,具体的,本实施例中确定所述文章部分的文章表征信息、以及至少两个所述文章部分中任意两个文章部分之间的相似度表征信息的具体实现方式、实现效果与上述实施例中步骤S2的具体实现方式和实现效果相类似,具体可参考上述陈述内容,在此不再赘述。
S303:基于所述文章表征信息、相似度标识信息和标准质量信息对全连接神经网络进行模型训练,获得用于评价文章质量的目标模型。
在获取到文章表征信息、相似度标识信息和标准质量信息之后,可以基于基于所述文章表征信息、相似度标识信息和标准质量信息对全连接神经网络进行模型训练,从而可以获得用于评价文章质量的目标模型。
本实施例提供的用于评价文章质量的模型训练方法,通过获取待训练文章以及所述待训练文章所对应的标准质量信息,而后确定所述文章部分的文章表征信息、以及至少两个所述文章部分中任意两个文章部分之间的相似度表征信息,并基于所述文章表征信息、相似度标识信息和标准质量信息对全连接神经网络进行模型训练,获得用于评价文章质量的目标模型,从而可以使得用户可以基于目标模型对文章进行质量评价操作,进一步提高了该方法的实用性。
在上述实施例的基础上,继续参考附图19所示,本实施例中的确定所述文章部分的文章表征信息可以包括:
S3021:获取所述文章部分包括的所有分词信息;
S3022:确定与所述分词信息相对应的词嵌入向量信息;
S3023:根据所述词嵌入向量信息确定所述文章部分的文章表征信息。
在上述实施例的基础上,继续参考附图19所示,本实施例中的确定所述文章部分的文章表征信息可以包括:
S30231:根据所述文章部分中每个语句中分词信息所对应的词嵌入向量信息,确定每个所述语句的语句表征信息;
S30232:基于所述文章部分中所有语句的语句表征信息,确定所述文章部分的文章表征信息。
在上述实施例的基础上,继续参考附图19所示,本实施例中的确定每个所述语句的语句表征信息,包括:
S302311:将所述文章部分中每个语句中分词信息的词嵌入向量信息输入至第一分层注意力神经网络;
S302312:利用双向长短记忆网络算法和词嵌入向量信息获取每个所述语句的语句表征信息。
在上述实施例的基础上,继续参考附图19所示,本实施例中的确定所述文章部分的文章表征信息,包括:
S302321:基于所述文章部分中所有语句的语句表征信息输入至第二分层注意力神经网络;
S302322:利用双向长短记忆网络算法和语句表征信息获取所述文章部分的文章表征信息。
在上述实施例的基础上,继续参考附图19所示,任意两个文章部分包括第一部分和第二部分;本实施例中的确定任意两个文章部分之间的相似度表征信息,包括:
S3024:获取所述第一部分包括的所有第一语句以及所述第二部分包括的所有第二语句。
S3025:确定所有第一语句与所有第二语句之间的相似度信息。
其中,一种可实现的方式为,本实施例中的确定所有第一语句与所有第二语句之间的相似度信息可以包括:
S30251:利用相似度函数对所有第一语句和所有第二语句进行处理,获得所有第一语句与所有第二语句之间的相似度信息。
另一种可实现的方式为,本实施例中的确定所有第一语句与所有第二语句之间的相似度信息可以包括:
S30252:确定与所述第一语句相对应的第一向量信息和与所述第二语句相对应的第二向量信息。
S30253:计算所述第一向量信息与所述第二向量信息之间的余弦相似度,并根据所述余弦相似度确定所述第一语句与所述第二语句之间的相似度信息。
S3026:基于所述相似度信息确定所述第一部分与所述第二部分之间的相似度表征信息。
其中,本实施例中的确定所述第一部分与所述第二部分之间的相似度表征信息可以包括:
S30261:基于所述相似度信息确定所述第一部分中每个第一语句与所述第二部分中所有第二语句之间的第一最大相似度信息;
S30262:基于所述相似度信息确定所述第二部分中每个第二语句与所述第一部分中所有第一语句之间的第二最大相似度信息;
S30263:将所述第一最大相似度信息和所述第二最大相似度信息确定为所述相似度表征信息。
本实施例中的上述方法步骤与图1-图11所示实施例的全部或者部分方法,本实施例未详细描述的部分,可参考对图1-图11所示实施例的相关说明。该技术方案的执行过程和技术效果参见图1-图11所示实施例中的描述,在此不再赘述。
图20为本发明实施例提供的一种专利文件质量的评价方法的流程图;参考附图20所示,本实施例提供了一种专利文件质量的评价方法,该评价方法的执行主体可以是评价装置,可以理解的是,该评价装置可以实现为软件、或者软件和硬件的组合。具体的,该方法可以包括:
S401:获取待评价的专利文件以及所述专利文件包括的至少两个专利部分。
其中,至少两个专利部分可以包括如下中的至少两个:说明书摘要、权利要求书、说明书。
S402:确定所述专利部分的专利表征信息、以及至少两个所述专利部分中任意两个专利部分之间的相似度表征信息。
S403:根据所述专利表征信息和相似度表征信息确定与所述专利文件相对应的质量评价结果。
进一步的,确定所述专利部分的专利表征信息,包括:
S4021:获取所述专利部分包括的所有分词信息。
S4022:确定与所述分词信息相对应的词嵌入向量信息。
S4023:根据所述词嵌入向量信息确定所述专利部分的专利表征信息。
进一步的,确定所述专利部分的专利表征信息,包括:
S40231:根据所述专利部分中每个语句中分词信息所对应的词嵌入向量信息,确定每个所述语句的语句表征信息;
S40232:基于所述专利部分中所有语句的语句表征信息,确定所述专利部分的专利表征信息。
其中,确定每个所述语句的语句表征信息,包括:
S402311:将所述专利部分中每个语句中分词信息的词嵌入向量信息输入至第一分层注意力神经网络;
S402312:利用双向长短记忆网络算法和词嵌入向量信息获取每个所述语句的语句表征信息。
另外,确定所述专利部分的专利表征信息,包括:
S402321:基于所述专利部分中所有语句的语句表征信息输入至第二分层注意力神经网络;
S402322:利用双向长短记忆网络算法和语句表征信息获取所述专利部分的专利表征信息。
进一步的,任意两个专利部分包括第一部分和第二部分;本实施例中的确定任意两个专利部分之间的相似度表征信息可以包括:
S4024:获取所述第一部分包括的所有第一语句以及所述第二部分包括的所有第二语句;
S4025:确定所有第一语句与所有第二语句之间的相似度信息;
S4026:基于所述相似度信息确定所述第一部分与所述第二部分之间的相似度表征信息。
其中,一种可实现的方式为,确定所有第一语句与所有第二语句之间的相似度信息可以包括:
S40251:利用相似度函数对所有第一语句和所有第二语句进行处理,获得所有第一语句与所有第二语句之间的相似度信息。
另一种可实现的方式为,确定所有第一语句与所有第二语句之间的相似度信息,包括:
S40252:确定与所述第一语句相对应的第一向量信息和与所述第二语句相对应的第二向量信息;
S40253:计算所述第一向量信息与所述第二向量信息之间的余弦相似度,并根据所述余弦相似度确定所述第一语句与所述第二语句之间的相似度信息。
另外,确定所述第一部分与所述第二部分之间的相似度表征信息,包括:
S40261:基于所述相似度信息确定所述第一部分中每个第一语句与所述第二部分中所有第二语句之间的第一最大相似度信息;
S40262:基于所述相似度信息确定所述第二部分中每个第二语句与所述第一部分中所有第一语句之间的第二最大相似度信息;
S40263:将所述第一最大相似度信息和所述第二最大相似度信息确定为所述相似度表征信息。
进一步的,本实施例中的确定与所述专利文件相对应的质量评价结果可以包括:
S4031:根据所述专利表征信息和相似度表征信息确定目标表征信息;
S4032:利用全连接神经网络对所述目标表征信息进行处理,获得与所述专利文件相对应的质量评价结果。
具体的,利用全连接神经网络对所述目标表征信息进行处理,包括:
S40321:获取用于对所述专利文件进行评价的评价等级;
S40322:利用所述全连接神经网络在每个评价等级上对所述目标表征信息进行处理,获得所述专利文件在每个评价等级上相对应的评价信息;
S40323:根据所述评价信息确定所述专利文件的目标评价等级。
具体的,确定所述专利文件的目标评价等级可以包括:
S403231:将专利文件在每个评价等级上相对应的评价信息转化为概率信息;
S403232:将所述概率信息最大的评价等级确定为所述专利文件的目标评价等级。
进一步的,在确定与所述专利文件相对应的质量评价结果之后,本实施例中的方法还可以包括:
S501:获取专利文件的实际评价等级;
S502:确定所述实际评价等级与所述目标评价等级之间的交叉熵信息;
S503:利用反向传播算法和所述交叉熵信息对全连接神经网络的网络参数进行更新调整。
本实施例中的上述方法步骤与图1-图11所示实施例的全部或者部分方法,本实施例未详细描述的部分,可参考对图1-图11所示实施例的相关说明。该技术方案的执行过程和技术效果参见图1-图11所示实施例中的描述,在此不再赘述。
图21为本发明实施例提供的另一种文章质量的评价方法的流程图;参考附图21所示,本实施例提供了另一种文章质量的评价方法,该评价方法的执行主体可以是评价装置,可以理解的是,该评价装置可以实现为软件、或者软件和硬件的组合。具体的,该方法可以包括:
S601:获取待处理文章;
S602:获取用户针对所述待处理文章输入的执行操作,根据所述执行操作确定所述待处理文章中包括的至少两个文章部分;
其中,所述执行操作可以包括以下至少之一:点选操作、选中操作、滑动操作。具体的,在获取到待处理文章之后,可以根据与用户的交互操作来确定与待处理文章相对应的至少两个文章部分。举例来说,在上传的待处理文章为专利文件时,获取到专利文件之后,用户可以对专利文件进行全文浏览,并对专利文件中包括的每个文章部分执行点选操作、滑动操作等等,在用户对某一文章部分执行点选操作时,则可以确定用户已经选中该文章部分,在用户对某一文章部分执行滑动操作时,则可以确定用户未选中该文章部分;通过获取用户针对整个专利文章执行的输入操作,即可以确定该用户所选中的该专利文章所包括的至少两个文章部分,所选中的至少两个文章部分可以用于进行质量评价操作。
S603:确定所述文章部分的文章表征信息、以及至少两个所述文章部分中任意两个文章部分之间的相似度表征信息;
S604:根据所述文章表征信息和相似度表征信息确定与所述待处理文章相对应的质量评价结果。
本实施例中的上述方法步骤与图1所示实施例的全部或者部分方法,本实施例未详细描述的部分,可参考对图1所示实施例的相关说明。该技术方案的执行过程和技术效果参见图所示实施例中的描述,在此不再赘述。
本实施例提供的文章质量的评价方法,在获取待处理文章之后,通过获取用户针对所述待处理文章输入的执行操作,根据所述执行操作确定所述待处理文章中包括的至少两个文章部分,有效地实现了通过与用户进行交互来确定用于进行质量评价操作的至少两个文章部分,有效地满足用户的质量评价需求,进一步提高了对文章质量进行评价的准确可靠性,进一步提高了该方法的实用性。
进一步的,在根据所述执行操作确定所述待处理文章中包括的至少两个文章部分之后,本实施例中的方法还可以包括:
S605:在交互界面上,显示至少两个所述文章部分。
在确定所述待处理文章中包括的至少两个文章部分之后,为了方便用户可以查看到所选中的文章部分,可以在与用户进行交互操作的交互界面上,显示至少两个文章部分,从而有效地方便用户随时查看对文章部分执行的任何操作,便于用户对所选中的文章部分执行相应的操作,保证了与用户进行交互操作的质量和效率,进一步提高了该方法使用的方便可靠性。
图22为本发明实施例提供的一种文章质量的评价设备的结构示意图;参考附图22所示,本实施例提供了一种文章质量的评价设备,该评价设备可以执行上述的文章质量的评价方法,具体的,该评价设备可以包括:
获取模块11,用于获取待处理文章以及待处理文章包括的至少两个文章部分。
确定模块12,用于确定文章部分的文章表征信息、以及至少两个文章部分中任意两个文章部分之间的相似度表征信息。
评价模块13,用于根据文章表征信息和相似度表征信息确定与待处理文章相对应的质量评价结果。
可选地,在确定模块12确定文章部分的文章表征信息时,该确定模块12可以用于:获取文章部分包括的所有分词信息;确定与分词信息相对应的词嵌入向量信息;根据词嵌入向量信息确定文章部分的文章表征信息。
可选地,在确定模块12获取文章部分包括的所有分词信息时,该确定模块12可以用于:将文章部分划分为至少一个语句;利用分词工具对语句进行分词处理,获得与语句相对应的至少一个分词信息。
可选地,在确定模块12确定与分词信息相对应的词嵌入向量信息时,该确定模块12可以用于:利用词典对分词信息进行识别,获得与分词信息相对应的数字标识信息;根据数字标识信息确定与分词信息相对应的词嵌入向量信息。
可选地,获取模块11还用于在利用词典对分词信息进行识别之前,获取训练文本以及与训练文本相对应的训练标识符;基于训练文本和训练标识符构建词典。
可选地,在确定模块12确定文章部分的文章表征信息时,该确定模块12可以用于:根据文章部分中每个语句中分词信息所对应的词嵌入向量信息,确定每个语句的语句表征信息;基于文章部分中所有语句的语句表征信息,确定文章部分的文章表征信息。
可选地,在确定模块12确定每个语句的语句表征信息时,该确定模块12可以用于:将文章部分中每个语句中分词信息的词嵌入向量信息输入至第一分层注意力神经网络;利用双向长短记忆网络算法和词嵌入向量信息获取每个语句的语句表征信息。
可选地,在确定模块12确定文章部分的文章表征信息时,该确定模块12可以用于:基于文章部分中所有语句的语句表征信息输入至第二分层注意力神经网络;利用双向长短记忆网络算法和语句表征信息获取文章部分的文章表征信息。
可选地,任意两个文章部分包括第一部分和第二部分;在确定模块12确定任意两个文章部分之间的相似度表征信息时,该确定模块12可以用于:获取第一部分包括的所有第一语句以及第二部分包括的所有第二语句;确定所有第一语句与所有第二语句之间的相似度信息;基于相似度信息确定第一部分与第二部分之间的相似度表征信息。
可选地,在确定模块12确定所有第一语句与所有第二语句之间的相似度信息时,该确定模块12可以用于:利用相似度函数对所有第一语句和所有第二语句进行处理,获得所有第一语句与所有第二语句之间的相似度信息。
可选地,在确定模块12确定所有第一语句与所有第二语句之间的相似度信息时,该确定模块12可以用于:确定与第一语句相对应的第一向量信息和与第二语句相对应的第二向量信息;计算第一向量信息与第二向量信息之间的余弦相似度,并根据余弦相似度确定第一语句与第二语句之间的相似度信息。
可选地,在确定模块12确定第一部分与第二部分之间的相似度表征信息时,该确定模块12可以用于:基于相似度信息确定第一部分中每个第一语句与第二部分中所有第二语句之间的第一最大相似度信息;基于相似度信息确定第二部分中每个第二语句与第一部分中所有第一语句之间的第二最大相似度信息;将第一最大相似度信息和第二最大相似度信息确定为相似度表征信息。
可选地,在评价模块13确定与待处理文章相对应的质量评价结果时,该评价模块13可以用于:根据文章表征信息和相似度表征信息确定目标表征信息;利用全连接神经网络对目标表征信息进行处理,获得与待处理文章相对应的质量评价结果。
可选地,在评价模块13利用全连接神经网络对目标表征信息进行处理时,该评价模块13可以用于:获取用于对待处理文章进行评价的评价等级;利用全连接神经网络在每个评价等级上对目标表征信息进行处理,获得待处理文章在每个评价等级上相对应的评价信息;根据评价信息确定待处理文章的目标评价等级。
可选地,在评价模块13确定待处理文章的目标评价等级时,该评价模块13可以用于:将待处理文章在每个评价等级上相对应的评价信息转化为概率信息;将概率信息最大的评价等级确定为待处理文章的目标评价等级。
可选地,在确定与待处理文章相对应的质量评价结果之后,本实施例中的获取模块11、确定模块12和评价模块13还可以用于执行以下步骤:
获取模块11,用于获取待处理文章的实际评价等级;
确定模块12,用于确定实际评价等级与目标评价等级之间的交叉熵信息;
评价模块13,用于利用反向传播算法和交叉熵信息对全连接神经网络的网络参数进行更新调整。
可选地,在确定与所述待处理文章相对应的质量评价结果之后,本实施例中的获取模块11、确定模块12和评价模块13还可以用于执行:
获取模块11,用于获取文章查询请求;
确定模块12,用于确定与所述文章查询请求相对应的至少一个待推送文章;
获取模块11,用于获取所述待推送文章的质量评价结果;
评价模块13,用于基于所述质量评价结果,在至少一个待推送文章中确定与所述文章查询请求相对应的至少一个目标文章。
可选地,在评价模块13基于所述质量评价结果,在至少一个待推送文章中确定与所述文章查询请求相对应的至少一个目标文章时,该评价模块13可以用于执行:根据所述质量评价结果确定至少一个待推送文章的质量优先级,所述质量优先级与所述质量评价结果呈正比;根据所述质量优先级,在至少一个待推送文章中确定与所述文章查询请求相对应的至少一个目标文章。
图22所示装置可以执行图1a、图1b-图18所示实施例的全部或者部分方法,本实施例未详细描述的部分,可参考对图1a、图1b-图18所示实施例的相关说明。该技术方案的执行过程和技术效果参见图1a、图1b-图18所示实施例中的描述,在此不再赘述。
在一个可能的设计中,图22所示文章质量的评价设备的结构可实现为一电子设备,该电子设备可以是手机、平板电脑、服务器、客户端等各种设备。如图23所示,该电子设备可以包括:第一处理器21和第一存储器22。其中,第一存储器22用于存储支持电子设备执行上述图1a、图1b-图18所示实施例中提供的文章质量的评价方法的程序,第一处理器21被配置为用于执行第一存储器22中存储的程序。
程序包括一条或多条计算机指令,其中,一条或多条计算机指令被第一处理器21执行时能够实现如下步骤:
获取待处理文章以及待处理文章包括的至少两个文章部分;
确定文章部分的文章表征信息、以及至少两个文章部分中任意两个文章部分之间的相似度表征信息;
根据文章表征信息和相似度表征信息确定与待处理文章相对应的质量评价结果。
可选地,第一处理器21还用于执行前述图1a、图1b-图18所示实施例中的全部或部分步骤。
其中,电子设备的结构中还可以包括第一通信接口23,用于电子设备与其他设备或通信网络通信。
另外,本发明实施例提供了一种计算机存储介质,用于储存电子设备所用的计算机软件指令,其包含用于执行上述图1a、图1b-图18所示方法实施例中文章质量的评价方法所涉及的程序。
图24为本发明实施例提供的一种用于评价文章质量的模型训练设备的结构示意图;参考附图24所示,本实施例提供了一种用于评价文章质量的模型训练设备,该用于评价文章质量的模型训练设备可以执行上述的用于评价文章质量的模型训练方法,具体的,该用于评价文章质量的模型训练设备可以包括:
第二获取模块31,用于获取待训练文章以及所述待训练文章所对应的标准质量信息,所述待训练文章包括至少两个文章部分;
第二确定模块32,用于确定所述文章部分的文章表征信息、以及至少两个所述文章部分中任意两个文章部分之间的相似度表征信息;
训练模块33,用于基于所述文章表征信息、相似度标识信息和标准质量信息对全连接神经网络进行模型训练,获得用于评价文章质量的目标模型。
可选地,在第二确定模块32确定所述文章部分的文章表征信息时,该第二确定模块32可以用于执行:获取所述文章部分包括的所有分词信息;确定与所述分词信息相对应的词嵌入向量信息;根据所述词嵌入向量信息确定所述文章部分的文章表征信息。
可选地,在第二确定模块32确定所述文章部分的文章表征信息时,该第二确定模块32可以用于执行:根据所述文章部分中每个语句中分词信息所对应的词嵌入向量信息,确定每个所述语句的语句表征信息;基于所述文章部分中所有语句的语句表征信息,确定所述文章部分的文章表征信息。
可选地,在第二确定模块32确定每个所述语句的语句表征信息时,该第二确定模块32可以用于执行:将所述文章部分中每个语句中分词信息的词嵌入向量信息输入至第一分层注意力神经网络;利用双向长短记忆网络算法和词嵌入向量信息获取每个所述语句的语句表征信息。
可选地,在第二确定模块32确定所述文章部分的文章表征信息时,该第二确定模块32可以用于执行:基于所述文章部分中所有语句的语句表征信息输入至第二分层注意力神经网络;利用双向长短记忆网络算法和语句表征信息获取所述文章部分的文章表征信息。
可选地,任意两个文章部分包括第一部分和第二部分;在第二确定模块32确定任意两个文章部分之间的相似度表征信息时,该第二确定模块32可以用于执行:获取所述第一部分包括的所有第一语句以及所述第二部分包括的所有第二语句;确定所有第一语句与所有第二语句之间的相似度信息;基于所述相似度信息确定所述第一部分与所述第二部分之间的相似度表征信息。
可选地,在第二确定模块32确定所有第一语句与所有第二语句之间的相似度信息时,该第二确定模块32可以用于执行:利用相似度函数对所有第一语句和所有第二语句进行处理,获得所有第一语句与所有第二语句之间的相似度信息。
可选地,在第二确定模块32确定所有第一语句与所有第二语句之间的相似度信息时,该第二确定模块32可以用于执行:确定与所述第一语句相对应的第一向量信息和与所述第二语句相对应的第二向量信息;计算所述第一向量信息与所述第二向量信息之间的余弦相似度,并根据所述余弦相似度确定所述第一语句与所述第二语句之间的相似度信息。
可选地,在第二确定模块32确定所述第一部分与所述第二部分之间的相似度表征信息,包括:基于所述相似度信息确定所述第一部分中每个第一语句与所述第二部分中所有第二语句之间的第一最大相似度信息;基于所述相似度信息确定所述第二部分中每个第二语句与所述第一部分中所有第一语句之间的第二最大相似度信息;将所述第一最大相似度信息和所述第二最大相似度信息确定为所述相似度表征信息。
图24所示装置可以执行图19所示实施例的全部或者部分方法,本实施例未详细描述的部分,可参考对图19所示实施例的相关说明。该技术方案的执行过程和技术效果参见图19所示实施例中的描述,在此不再赘述。
在一个可能的设计中,图24所示用于评价文章质量的模型训练设备的结构可实现为一电子设备,该电子设备可以是手机、平板电脑、服务器、客户端等各种设备。如图25所示,该电子设备可以包括:第二处理器41和第二存储器42。其中,第二存储器42用于存储支持电子设备执行上述图19所示实施例中提供的用于评价文章质量的模型训练方法的程序,第二处理器41被配置为用于执行第二存储器42中存储的程序。
程序包括一条或多条计算机指令,其中,一条或多条计算机指令被第二处理器41执行时能够实现如下步骤:
获取待训练文章以及所述待训练文章所对应的标准质量信息,所述待训练文章包括至少两个文章部分;
确定所述文章部分的文章表征信息、以及至少两个所述文章部分中任意两个文章部分之间的相似度表征信息;
基于所述文章表征信息、相似度标识信息和标准质量信息对全连接神经网络进行模型训练,获得用于评价文章质量的目标模型。
可选地,第二处理器41还用于执行前述图19所示实施例中的全部或部分步骤。
其中,电子设备的结构中还可以包括第二通信接口43,用于电子设备与其他设备或通信网络通信。
另外,本发明实施例提供了一种计算机存储介质,用于储存电子设备所用的计算机软件指令,其包含用于执行上述图19所示方法实施例中用于评价文章质量的模型训练方法所涉及的程序。
图26为本发明实施例提供的一种专利文件质量的评价设备的结构示意图;参考附图26所示,本实施例提供了一种专利文件质量的评价设备,该专利文件质量的评价设备可以执行上述的专利文件质量的评价方法,具体的,该专利文件质量的评价设备可以包括:
第三获取模块51,用于获取待评价的专利文件以及所述专利文件包括的至少两个专利部分;
第三确定模块52,用于确定所述专利部分的专利表征信息、以及至少两个所述专利部分中任意两个专利部分之间的相似度表征信息;
第三评价模块53,用于根据所述专利表征信息和相似度表征信息确定与所述专利文件相对应的质量评价结果。
可选地,至少两个专利部分可以包括如下中的至少两个:说明书摘要、权利要求书、说明书。
可选地,在第三确定模块52确定所述专利部分的专利表征信息时,该第三确定模块52可以用于执行:获取所述专利部分包括的所有分词信息;确定与所述分词信息相对应的词嵌入向量信息;根据所述词嵌入向量信息确定所述专利部分的专利表征信息。
可选地,在第三确定模块52确定所述专利部分的专利表征信息时,该第三确定模块52可以用于执行:根据所述专利部分中每个语句中分词信息所对应的词嵌入向量信息,确定每个所述语句的语句表征信息;基于所述专利部分中所有语句的语句表征信息,确定所述专利部分的专利表征信息。
可选地,在第三确定模块52确定每个所述语句的语句表征信息时,该第三确定模块52可以用于执行:将所述专利部分中每个语句中分词信息的词嵌入向量信息输入至第一分层注意力神经网络;利用双向长短记忆网络算法和词嵌入向量信息获取每个所述语句的语句表征信息。
可选地,在第三确定模块52确定所述专利部分的专利表征信息时,该第三确定模块52可以用于执行:基于所述专利部分中所有语句的语句表征信息输入至第二分层注意力神经网络;利用双向长短记忆网络算法和语句表征信息获取所述专利部分的专利表征信息。
可选地,任意两个专利部分包括第一部分和第二部分;在第三确定模块52确定任意两个专利部分之间的相似度表征信息时,该第三确定模块52可以用于执行:获取所述第一部分包括的所有第一语句以及所述第二部分包括的所有第二语句;确定所有第一语句与所有第二语句之间的相似度信息;基于所述相似度信息确定所述第一部分与所述第二部分之间的相似度表征信息。
可选地,在第三确定模块52确定所有第一语句与所有第二语句之间的相似度信息时,该第三确定模块52可以用于执行:利用相似度函数对所有第一语句和所有第二语句进行处理,获得所有第一语句与所有第二语句之间的相似度信息。
可选地,在第三确定模块52确定所有第一语句与所有第二语句之间的相似度信息时,该第三确定模块52可以用于执行:确定与所述第一语句相对应的第一向量信息和与所述第二语句相对应的第二向量信息;计算所述第一向量信息与所述第二向量信息之间的余弦相似度,并根据所述余弦相似度确定所述第一语句与所述第二语句之间的相似度信息。
可选地,在第三确定模块52确定所述第一部分与所述第二部分之间的相似度表征信息时,该第三确定模块52可以用于执行:基于所述相似度信息确定所述第一部分中每个第一语句与所述第二部分中所有第二语句之间的第一最大相似度信息;基于所述相似度信息确定所述第二部分中每个第二语句与所述第一部分中所有第一语句之间的第二最大相似度信息;将所述第一最大相似度信息和所述第二最大相似度信息确定为所述相似度表征信息。
可选地,在第三确定模块52确定与所述专利文件相对应的质量评价结果时,该第三确定模块52可以用于执行:根据所述专利表征信息和相似度表征信息确定目标表征信息;利用全连接神经网络对所述目标表征信息进行处理,获得与所述专利文件相对应的质量评价结果。
可选地,在第三确定模块52利用全连接神经网络对所述目标表征信息进行处理时,该第三确定模块52可以用于执行:获取用于对所述专利文件进行评价的评价等级;利用所述全连接神经网络在每个评价等级上对所述目标表征信息进行处理,获得所述专利文件在每个评价等级上相对应的评价信息;根据所述评价信息确定所述专利文件的目标评价等级。
可选地,在第三确定模块52确定所述专利文件的目标评价等级时,该第三确定模块52可以用于执行:将专利文件在每个评价等级上相对应的评价信息转化为概率信息;将所述概率信息最大的评价等级确定为所述专利文件的目标评价等级。
可选地,在确定与所述专利文件相对应的质量评价结果之后,本实施例中的第三获取模块51和第三确定模块52可以用于执行以下步骤:
第三获取模块51,用于获取专利文件的实际评价等级;
第三确定模块52,用于确定所述实际评价等级与所述目标评价等级之间的交叉熵信息;
第三确定模块52,还用于利用反向传播算法和所述交叉熵信息对全连接神经网络的网络参数进行更新调整。
图26所示装置可以执行图20所示实施例的全部或者部分方法,本实施例未详细描述的部分,可参考对图20所示实施例的相关说明。该技术方案的执行过程和技术效果参见图20所示实施例中的描述,在此不再赘述。
在一个可能的设计中,图26所示专利文件质量的评价设备的结构可实现为一电子设备,该电子设备可以是手机、平板电脑、服务器、客户端等各种设备。如图27所示,该电子设备可以包括:第三处理器61和第三存储器62。其中,第三存储器62用于存储支持电子设备执行上述图20所示实施例中提供的专利文件质量的评价方法的程序,第三处理器61被配置为用于执行第三存储器62中存储的程序。
程序包括一条或多条计算机指令,其中,一条或多条计算机指令被第三处理器61执行时能够实现如下步骤:
获取待处理文章;
获取用户针对所述待处理文章输入的执行操作,根据所述执行操作确定所述待处理文章中包括的至少两个文章部分;
确定所述文章部分的文章表征信息、以及至少两个所述文章部分中任意两个文章部分之间的相似度表征信息;
根据所述文章表征信息和相似度表征信息确定与所述待处理文章相对应的质量评价结果。
可选地,第三处理器61还用于执行前述图20所示实施例中的全部或部分步骤。
其中,电子设备的结构中还可以包括第三通信接口63,用于电子设备与其他设备或通信网络通信。
另外,本发明实施例提供了一种计算机存储介质,用于储存电子设备所用的计算机软件指令,其包含用于执行上述图19所示方法实施例中专利文件质量的评价方法所涉及的程序。
图28为本发明实施例提供的一种文章质量的评价设备的结构示意图;参考附图28所示,本实施例提供了一种文章质量的评价设备,该文章质量的评价设备可以执行上述的文章质量的评价方法,具体的,该文章质量的评价设备可以包括:
第四获取模块71,用于获取待处理文章;
所述第四获取模块71,还用于获取用户针对所述待处理文章输入的执行操作,根据所述执行操作确定所述待处理文章中包括的至少两个文章部分;
第四确定模块72,用于确定所述文章部分的文章表征信息、以及至少两个所述文章部分中任意两个文章部分之间的相似度表征信息;
第四评价模块73,用于根据所述文章表征信息和相似度表征信息确定与所述待处理文章相对应的质量评价结果。
可选地,所述执行操作包括以下至少之一:点选操作、选中操作、滑动操作。
可选地,在根据所述执行操作确定所述待处理文章中包括的至少两个文章部分之后,本实施例中的第四确定模块72还可以用于执行:在交互界面上,显示至少两个所述文章部分。
图28所示装置可以执行图21所示实施例的全部或者部分方法,本实施例未详细描述的部分,可参考对图21所示实施例的相关说明。该技术方案的执行过程和技术效果参见图21所示实施例中的描述,在此不再赘述。
在一个可能的设计中,图28所示文章质量的评价设备的结构可实现为一电子设备,该电子设备可以是手机、平板电脑、服务器、客户端等各种设备。如
图29所示,该电子设备可以包括:第四处理器81和第四存储器82。其中,第四存储器82用于存储支持电子设备执行上述图21所示实施例中提供的文章质量的评价方法的程序,第四处理器81被配置为用于执行第四存储器82中存储的程序。
程序包括一条或多条计算机指令,其中,一条或多条计算机指令被第四处理器81执行时能够实现如下步骤:
获取待处理文章;
获取用户针对所述待处理文章输入的执行操作,根据所述执行操作确定所述待处理文章中包括的至少两个文章部分;
确定所述文章部分的文章表征信息、以及至少两个所述文章部分中任意两个文章部分之间的相似度表征信息;
根据所述文章表征信息和相似度表征信息确定与所述待处理文章相对应的质量评价结果。
可选地,第四处理器81还用于执行前述图21所示实施例中的全部或部分步骤。
其中,电子设备的结构中还可以包括第四通信接口83,用于电子设备与其他设备或通信网络通信。
另外,本发明实施例提供了一种计算机存储介质,用于储存电子设备所用的计算机软件指令,其包含用于执行上述图21所示方法实施例中文章质量的评价方法所涉及的程序。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现,当然也可以通过硬件和软件结合的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程设备的处理器以产生一个机器,使得通过计算机或其他可编程设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (49)
1.一种文章质量的评价方法,包括:
获取待处理文章以及所述待处理文章包括的至少两个文章部分;
确定所述文章部分的文章表征信息、以及至少两个所述文章部分中任意两个文章部分之间的相似度表征信息;
根据所述文章表征信息和相似度表征信息确定与所述待处理文章相对应的质量评价结果。
2.根据权利要求1所述的方法,确定所述文章部分的文章表征信息,包括:
获取所述文章部分包括的所有分词信息;
确定与所述分词信息相对应的词嵌入向量信息;
根据所述词嵌入向量信息确定所述文章部分的文章表征信息。
3.根据权利要求2所述的方法,确定所述文章部分的文章表征信息,包括:
根据所述文章部分中每个语句中分词信息所对应的词嵌入向量信息,确定每个所述语句的语句表征信息;
基于所述文章部分中所有语句的语句表征信息,确定所述文章部分的文章表征信息。
4.根据权利要求3所述的方法,确定每个所述语句的语句表征信息,包括:
将所述文章部分中每个语句中分词信息的词嵌入向量信息输入至第一分层注意力神经网络;
利用双向长短记忆网络算法和词嵌入向量信息获取每个所述语句的语句表征信息。
5.根据权利要求3所述的方法,确定所述文章部分的文章表征信息,包括:
基于所述文章部分中所有语句的语句表征信息输入至第二分层注意力神经网络;
利用双向长短记忆网络算法和语句表征信息获取所述文章部分的文章表征信息。
6.根据权利要求1-5中任意一项所述的方法,任意两个文章部分包括第一部分和第二部分;确定任意两个文章部分之间的相似度表征信息,包括:
获取所述第一部分包括的所有第一语句以及所述第二部分包括的所有第二语句;
确定所有第一语句与所有第二语句之间的相似度信息;
基于所述相似度信息确定所述第一部分与所述第二部分之间的相似度表征信息。
7.根据权利要求6所述的方法,确定所有第一语句与所有第二语句之间的相似度信息,包括:
利用相似度函数对所有第一语句和所有第二语句进行处理,获得所有第一语句与所有第二语句之间的相似度信息。
8.根据权利要求6所述的方法,确定所有第一语句与所有第二语句之间的相似度信息,包括:
确定与所述第一语句相对应的第一向量信息和与所述第二语句相对应的第二向量信息;
计算所述第一向量信息与所述第二向量信息之间的余弦相似度,并根据所述余弦相似度确定所述第一语句与所述第二语句之间的相似度信息。
9.根据权利要求6所述的方法,确定所述第一部分与所述第二部分之间的相似度表征信息,包括:
基于所述相似度信息确定所述第一部分中每个第一语句与所述第二部分中所有第二语句之间的第一最大相似度信息;
基于所述相似度信息确定所述第二部分中每个第二语句与所述第一部分中所有第一语句之间的第二最大相似度信息;
将所述第一最大相似度信息和所述第二最大相似度信息确定为所述相似度表征信息。
10.根据权利要求1-5中任意一项所述的方法,确定与所述待处理文章相对应的质量评价结果,包括:
根据所述文章表征信息和相似度表征信息确定目标表征信息;
利用全连接神经网络对所述目标表征信息进行处理,获得与所述待处理文章相对应的质量评价结果。
11.根据权利要求10所述的方法,利用全连接神经网络对所述目标表征信息进行处理,包括:
获取用于对所述待处理文章进行评价的评价等级;
利用所述全连接神经网络在每个评价等级上对所述目标表征信息进行处理,获得所述待处理文章在每个评价等级上相对应的评价信息;
根据所述评价信息确定所述待处理文章的目标评价等级。
12.根据权利要求11所述的方法,确定所述待处理文章的目标评价等级,包括:
将待处理文章在每个评价等级上相对应的评价信息转化为概率信息;
将所述概率信息最大的评价等级确定为所述待处理文章的目标评价等级。
13.根据权利要求11所述的方法,在确定与所述待处理文章相对应的质量评价结果之后,所述方法还包括:
获取待处理文章的实际评价等级;
确定所述实际评价等级与所述目标评价等级之间的交叉熵信息;
利用反向传播算法和所述交叉熵信息对全连接神经网络的网络参数进行更新调整。
14.根据权利要求11所述的方法,在确定与所述待处理文章相对应的质量评价结果之后,所述方法还包括:
获取文章查询请求;
确定与所述文章查询请求相对应的至少一个待推送文章;
获取所述待推送文章的质量评价结果;
基于所述质量评价结果,在至少一个待推送文章中确定与所述文章查询请求相对应的至少一个目标文章。
15.根据权利要求14所述的方法,基于所述质量评价结果,在至少一个待推送文章中确定与所述文章查询请求相对应的至少一个目标文章,包括:
根据所述质量评价结果确定至少一个待推送文章的质量优先级,所述质量优先级与所述质量评价结果呈正比;
根据所述质量优先级,在至少一个待推送文章中确定与所述文章查询请求相对应的至少一个目标文章。
16.一种用于评价文章质量的模型训练方法,包括:
获取待训练文章以及所述待训练文章所对应的标准质量信息,所述待训练文章包括至少两个文章部分;
确定所述文章部分的文章表征信息、以及至少两个所述文章部分中任意两个文章部分之间的相似度表征信息;
基于所述文章表征信息、相似度标识信息和标准质量信息对全连接神经网络进行模型训练,获得用于评价文章质量的目标模型。
17.根据权利要求16所述的方法,确定所述文章部分的文章表征信息,包括:
获取所述文章部分包括的所有分词信息;
确定与所述分词信息相对应的词嵌入向量信息;
根据所述词嵌入向量信息确定所述文章部分的文章表征信息。
18.根据权利要求17所述的方法,确定所述文章部分的文章表征信息,包括:
根据所述文章部分中每个语句中分词信息所对应的词嵌入向量信息,确定每个所述语句的语句表征信息;
基于所述文章部分中所有语句的语句表征信息,确定所述文章部分的文章表征信息。
19.根据权利要求18所述的方法,确定每个所述语句的语句表征信息,包括:
将所述文章部分中每个语句中分词信息的词嵌入向量信息输入至第一分层注意力神经网络;
利用双向长短记忆网络算法和词嵌入向量信息获取每个所述语句的语句表征信息。
20.根据权利要求18所述的方法,确定所述文章部分的文章表征信息,包括:
基于所述文章部分中所有语句的语句表征信息输入至第二分层注意力神经网络;
利用双向长短记忆网络算法和语句表征信息获取所述文章部分的文章表征信息。
21.根据权利要求16-20中任意一项所述的方法,任意两个文章部分包括第一部分和第二部分;确定任意两个文章部分之间的相似度表征信息,包括:
获取所述第一部分包括的所有第一语句以及所述第二部分包括的所有第二语句;
确定所有第一语句与所有第二语句之间的相似度信息;
基于所述相似度信息确定所述第一部分与所述第二部分之间的相似度表征信息。
22.根据权利要求21所述的方法,确定所有第一语句与所有第二语句之间的相似度信息,包括:
利用相似度函数对所有第一语句和所有第二语句进行处理,获得所有第一语句与所有第二语句之间的相似度信息。
23.根据权利要求21所述的方法,确定所有第一语句与所有第二语句之间的相似度信息,包括:
确定与所述第一语句相对应的第一向量信息和与所述第二语句相对应的第二向量信息;
计算所述第一向量信息与所述第二向量信息之间的余弦相似度,并根据所述余弦相似度确定所述第一语句与所述第二语句之间的相似度信息。
24.根据权利要求21所述的方法,确定所述第一部分与所述第二部分之间的相似度表征信息,包括:
基于所述相似度信息确定所述第一部分中每个第一语句与所述第二部分中所有第二语句之间的第一最大相似度信息;
基于所述相似度信息确定所述第二部分中每个第二语句与所述第一部分中所有第一语句之间的第二最大相似度信息;
将所述第一最大相似度信息和所述第二最大相似度信息确定为所述相似度表征信息。
25.一种专利文件质量的评价方法,包括:
获取待评价的专利文件以及所述专利文件包括的至少两个专利部分;
确定所述专利部分的专利表征信息、以及至少两个所述专利部分中任意两个专利部分之间的相似度表征信息;
根据所述专利表征信息和相似度表征信息确定与所述专利文件相对应的质量评价结果。
26.根据权利要求25所述的方法,至少两个专利部分可以包括如下中的至少两个:
说明书摘要、权利要求书、说明书。
27.根据权利要求26所述的方法,确定所述专利部分的专利表征信息,包括:
获取所述专利部分包括的所有分词信息;
确定与所述分词信息相对应的词嵌入向量信息;
根据所述词嵌入向量信息确定所述专利部分的专利表征信息。
28.根据权利要求27所述的方法,确定所述专利部分的专利表征信息,包括:
根据所述专利部分中每个语句中分词信息所对应的词嵌入向量信息,确定每个所述语句的语句表征信息;
基于所述专利部分中所有语句的语句表征信息,确定所述专利部分的专利表征信息。
29.根据权利要求28所述的方法,确定每个所述语句的语句表征信息,包括:
将所述专利部分中每个语句中分词信息的词嵌入向量信息输入至第一分层注意力神经网络;
利用双向长短记忆网络算法和词嵌入向量信息获取每个所述语句的语句表征信息。
30.根据权利要求28所述的方法,确定所述专利部分的专利表征信息,包括:
基于所述专利部分中所有语句的语句表征信息输入至第二分层注意力神经网络;
利用双向长短记忆网络算法和语句表征信息获取所述专利部分的专利表征信息。
31.根据权利要求25-30中任意一项所述的方法,任意两个专利部分包括第一部分和第二部分;确定任意两个专利部分之间的相似度表征信息,包括:
获取所述第一部分包括的所有第一语句以及所述第二部分包括的所有第二语句;
确定所有第一语句与所有第二语句之间的相似度信息;
基于所述相似度信息确定所述第一部分与所述第二部分之间的相似度表征信息。
32.根据权利要求31所述的方法,确定所有第一语句与所有第二语句之间的相似度信息,包括:
利用相似度函数对所有第一语句和所有第二语句进行处理,获得所有第一语句与所有第二语句之间的相似度信息。
33.根据权利要求31所述的方法,确定所有第一语句与所有第二语句之间的相似度信息,包括:
确定与所述第一语句相对应的第一向量信息和与所述第二语句相对应的第二向量信息;
计算所述第一向量信息与所述第二向量信息之间的余弦相似度,并根据所述余弦相似度确定所述第一语句与所述第二语句之间的相似度信息。
34.根据权利要求31所述的方法,确定所述第一部分与所述第二部分之间的相似度表征信息,包括:
基于所述相似度信息确定所述第一部分中每个第一语句与所述第二部分中所有第二语句之间的第一最大相似度信息;
基于所述相似度信息确定所述第二部分中每个第二语句与所述第一部分中所有第一语句之间的第二最大相似度信息;
将所述第一最大相似度信息和所述第二最大相似度信息确定为所述相似度表征信息。
35.根据权利要求25-30中任意一项所述的方法,确定与所述专利文件相对应的质量评价结果,包括:
根据所述专利表征信息和相似度表征信息确定目标表征信息;
利用全连接神经网络对所述目标表征信息进行处理,获得与所述专利文件相对应的质量评价结果。
36.根据权利要求35所述的方法,利用全连接神经网络对所述目标表征信息进行处理,包括:
获取用于对所述专利文件进行评价的评价等级;
利用所述全连接神经网络在每个评价等级上对所述目标表征信息进行处理,获得所述专利文件在每个评价等级上相对应的评价信息;
根据所述评价信息确定所述专利文件的目标评价等级。
37.根据权利要求36所述的方法,确定所述专利文件的目标评价等级,包括:
将专利文件在每个评价等级上相对应的评价信息转化为概率信息;
将所述概率信息最大的评价等级确定为所述专利文件的目标评价等级。
38.根据权利要求36所述的方法,在确定与所述专利文件相对应的质量评价结果之后,所述方法还包括:
获取专利文件的实际评价等级;
确定所述实际评价等级与所述目标评价等级之间的交叉熵信息;
利用反向传播算法和所述交叉熵信息对全连接神经网络的网络参数进行更新调整。
39.一种文章质量的评价方法,包括:
获取待处理文章;
获取用户针对所述待处理文章输入的执行操作,根据所述执行操作确定所述待处理文章中包括的至少两个文章部分;
确定所述文章部分的文章表征信息、以及至少两个所述文章部分中任意两个文章部分之间的相似度表征信息;
根据所述文章表征信息和相似度表征信息确定与所述待处理文章相对应的质量评价结果。
40.根据权利要求39所述的方法,所述执行操作包括以下至少之一:点选操作、选中操作、滑动操作。
41.根据权利要求39所述的方法,在根据所述执行操作确定所述待处理文章中包括的至少两个文章部分之后,所述方法还包括:
在交互界面上,显示至少两个所述文章部分。
42.一种文章质量的评价设备,包括:
第一获取模块,用于获取待处理文章以及所述待处理文章包括的至少两个文章部分;
第一确定模块,用于确定所述文章部分的文章表征信息、以及至少两个所述文章部分中任意两个文章部分之间的相似度表征信息;
第一评价模块,用于根据所述文章表征信息和相似度表征信息确定与所述待处理文章相对应的质量评价结果。
43.一种电子设备,其特征在于,包括:存储器、处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现如权利要求1-15中任意一项所述的文章质量的评价方法。
44.一种用于评价文章质量的模型训练设备,包括:
第二获取模块,用于获取待训练文章以及所述待训练文章所对应的标准质量信息,所述待训练文章包括至少两个文章部分;
第二确定模块,用于确定所述文章部分的文章表征信息、以及至少两个所述文章部分中任意两个文章部分之间的相似度表征信息;
训练模块,用于基于所述文章表征信息、相似度标识信息和标准质量信息对全连接神经网络进行模型训练,获得用于评价文章质量的目标模型。
45.一种电子设备,其特征在于,包括:存储器、处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现如权利要求16-24中任意一项所述的用于评价文章质量的模型训练方法。
46.一种专利文件质量的评价设备,包括:
第三获取模块,用于获取待评价的专利文件以及所述专利文件包括的至少两个专利部分;
第三确定模块,用于确定所述专利部分的专利表征信息、以及至少两个所述专利部分中任意两个专利部分之间的相似度表征信息;
第三评价模块,用于根据所述专利表征信息和相似度表征信息确定与所述专利文件相对应的质量评价结果。
47.一种电子设备,其特征在于,包括:存储器、处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现如权利要求25-38中任意一项所述的专利文件质量的评价方法。
48.一种文章质量的评价设备,包括:
第四获取模块,用于获取待处理文章;
所述第四获取模块,还用于获取用户针对所述待处理文章输入的执行操作,根据所述执行操作确定所述待处理文章中包括的至少两个文章部分;
第四确定模块,用于确定所述文章部分的文章表征信息、以及至少两个所述文章部分中任意两个文章部分之间的相似度表征信息;
第四评价模块,用于根据所述文章表征信息和相似度表征信息确定与所述待处理文章相对应的质量评价结果。
49.一种电子设备,其特征在于,包括:存储器、处理器;其中,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现如权利要求39-41中任意一项所述的文章质量的评价方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911077131.9A CN112784597A (zh) | 2019-11-06 | 2019-11-06 | 文章质量的评价方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911077131.9A CN112784597A (zh) | 2019-11-06 | 2019-11-06 | 文章质量的评价方法及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112784597A true CN112784597A (zh) | 2021-05-11 |
Family
ID=75747583
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911077131.9A Pending CN112784597A (zh) | 2019-11-06 | 2019-11-06 | 文章质量的评价方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112784597A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050143971A1 (en) * | 2003-10-27 | 2005-06-30 | Jill Burstein | Method and system for determining text coherence |
JP2017117311A (ja) * | 2015-12-25 | 2017-06-29 | 富士通株式会社 | 文書検索方法、文書検索プログラムおよび文書検索装置 |
CN107273476A (zh) * | 2017-06-08 | 2017-10-20 | 广州优视网络科技有限公司 | 一种文章搜索方法、装置及服务器 |
CN108319581A (zh) * | 2017-01-17 | 2018-07-24 | 科大讯飞股份有限公司 | 一种自然语言语句评价方法及装置 |
CN109408812A (zh) * | 2018-09-30 | 2019-03-01 | 北京工业大学 | 一种基于注意力机制的序列标注联合抽取实体关系的方法 |
CN109726383A (zh) * | 2017-10-27 | 2019-05-07 | 普天信息技术有限公司 | 一种文章语义向量表示方法和系统 |
CN110334356A (zh) * | 2019-07-15 | 2019-10-15 | 腾讯科技(深圳)有限公司 | 文章质量的确定方法、文章筛选方法、以及相应的装置 |
-
2019
- 2019-11-06 CN CN201911077131.9A patent/CN112784597A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050143971A1 (en) * | 2003-10-27 | 2005-06-30 | Jill Burstein | Method and system for determining text coherence |
JP2017117311A (ja) * | 2015-12-25 | 2017-06-29 | 富士通株式会社 | 文書検索方法、文書検索プログラムおよび文書検索装置 |
CN108319581A (zh) * | 2017-01-17 | 2018-07-24 | 科大讯飞股份有限公司 | 一种自然语言语句评价方法及装置 |
CN107273476A (zh) * | 2017-06-08 | 2017-10-20 | 广州优视网络科技有限公司 | 一种文章搜索方法、装置及服务器 |
CN109726383A (zh) * | 2017-10-27 | 2019-05-07 | 普天信息技术有限公司 | 一种文章语义向量表示方法和系统 |
CN109408812A (zh) * | 2018-09-30 | 2019-03-01 | 北京工业大学 | 一种基于注意力机制的序列标注联合抽取实体关系的方法 |
CN110334356A (zh) * | 2019-07-15 | 2019-10-15 | 腾讯科技(深圳)有限公司 | 文章质量的确定方法、文章筛选方法、以及相应的装置 |
Non-Patent Citations (1)
Title |
---|
高扬: "人工智能与机器人先进技术丛书 智能摘要与深度学习", 31 July 2019, 北京理工大学出版社, pages: 23 - 24 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108804641B (zh) | 一种文本相似度的计算方法、装置、设备和存储介质 | |
CN111444320B (zh) | 文本检索方法、装置、计算机设备和存储介质 | |
CN110019732B (zh) | 一种智能问答方法以及相关装置 | |
WO2022116537A1 (zh) | 一种资讯推荐方法、装置、电子设备和存储介质 | |
CN109376222B (zh) | 问答匹配度计算方法、问答自动匹配方法及装置 | |
WO2020114100A1 (zh) | 一种信息处理方法、装置和计算机存储介质 | |
US11580119B2 (en) | System and method for automatic persona generation using small text components | |
CN114330354B (zh) | 一种基于词汇增强的事件抽取方法、装置及存储介质 | |
CN111078842A (zh) | 查询结果的确定方法、装置、服务器及存储介质 | |
CN110941951A (zh) | 文本相似度计算方法、装置、介质及电子设备 | |
WO2022095370A1 (zh) | 一种文本匹配方法、装置、终端设备和存储介质 | |
CN113961666B (zh) | 关键词识别方法、装置、设备、介质及计算机程序产品 | |
CN111368066B (zh) | 获取对话摘要的方法、装置和计算机可读存储介质 | |
US11403339B2 (en) | Techniques for identifying color profiles for textual queries | |
CN110287396B (zh) | 文本匹配方法及装置 | |
JP7390442B2 (ja) | 文書処理モデルのトレーニング方法、装置、機器、記憶媒体及びプログラム | |
CN116933130A (zh) | 一种基于大数据的企业行业分类方法、系统、设备及介质 | |
CN113988085B (zh) | 文本语义相似度匹配方法、装置、电子设备及存储介质 | |
CN114398482A (zh) | 一种词典构造方法、装置、电子设备及存储介质 | |
CN112650869B (zh) | 图像检索重排序方法、装置、电子设备及存储介质 | |
CN111221880B (zh) | 特征组合方法、装置、介质和电子设备 | |
CN114328894A (zh) | 文档处理方法、装置、电子设备及介质 | |
CN112784597A (zh) | 文章质量的评价方法及设备 | |
KR102215259B1 (ko) | 주제별 단어 또는 문서의 관계성 분석 방법 및 이를 구현하는 장치 | |
CN114254622A (zh) | 一种意图识别方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |