CN114254077A

CN114254077A - 一种基于自然语言对稿件完整性的评估方法

Info

Publication number: CN114254077A
Application number: CN202111572608.8A
Authority: CN
Inventors: 黄飞跃; 戚俊
Original assignee: Nanjing Router Software Co ltd
Current assignee: Nanjing Router Software Co ltd
Priority date: 2021-12-21
Filing date: 2021-12-21
Publication date: 2022-03-29

Abstract

本发明涉及自然语言处理技术领域，具体涉及一种基于自然语言对稿件完整性的评估方法；可以通过本方法对稿件内容进行计算，得出的分值可以用于评估稿件新闻要素的完整性，是否缺失了叙事三要素“时间、地点、人物”等，降低内容风险；通过批量化的评分可以提高内容生产中质量低下的痛点，避免大量的“洗稿”“重复稿”“烂稿”充斥在各信息发布渠道中；可以通过训练多种分析器来提高评分的可靠性，维度越多分析器越多，得到的评分数据越可信，适用于各种场景下的内容质量评估要求。

Description

一种基于自然语言对稿件完整性的评估方法

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种基于自然语言对稿件完整性的评估方法。

背景技术

新闻稿作为公司/机构/学校等单位发送予传媒的通信渠道，用来公布有新闻价值的消息。通常会分发于报章、杂志、电台、电视台(电视网络)等渠道。新闻稿异于新闻，新闻稿是鼓励新闻记者在该题材上撰写的稿件。随着媒体融合进程的加剧，如何生产出更有质量的新闻稿内容成了重中之重，

目前，对新闻稿要素完整性的评估仍然使用人工经验判断的方式进行，导致效率低下，且无法量化评定标准。

发明内容

本发明的目的在于提供一种基于自然语言对稿件完整性的评估方法，旨在解决现有技术中对新闻稿要素完整性的评估仍然使用人工经验判断的方式进行，导致效率低下，且无法量化评定标准的技术问题。

为实现上述目的，本发明提供了一种基于自然语言对稿件完整性的评估方法，包括如下步骤：

稿件完成撰写后，将稿件送通过信息化系统流转至评分系统中；

对稿件进行预先格式化，准备进行自然语义分析；

稿件完成格式化后，通过机器学习及自然语言处理训练出对应的分析器模型，将信息传输至由机器学习训练出的模型中进行推理，并得出分值；

汇聚多个分析器的分值，汇聚完成后进行合并计算。

其中，在对稿件进行预先格式化，准备进行自然语义分析的步骤中：

所述格式化包括去除无意义的符号和文字、截取超长字符串或补足字符串最低长度、对内容进行中文分词、提取词向量。

其中，在稿件完成格式化后，通过机器学习及自然语言处理训练出对应的分析器模型，将信息传输至由机器学习训练出的模型中进行推理，并得出分值的步骤中：

所述分析器模型通过根据内容总字数、分段阀值、要素总数、要素加权值和要素完整性计算分值，通过所述内容总字数除以分段阀值得到第一数值，所述要素总数除以所述第一数值得到第二数值，所述要素总数与所述要素加权值相乘得到第三数值，所述第二数值加上所述第三数值得到所述分值，所述分值表示要素完整性。

所述分段阀值根据业务场景进行设置，代表了内容长度对评分结果的影响。

在汇聚多个分析器的分值，汇聚完成后进行合并计算的步骤中：

根据业务场景生成多个分析器，所述业务场景包括时间维度、地点维度、环境维度、人群维度和行业维度。

其中，在汇聚多个分析器的分值，汇聚完成后进行合并计算的步骤中：

通过上述的流程可以完成对新闻稿件内容的要素识别并评分，评分数值与稿件代表要素的完整性呈正相关，根据评分数值判断稿件质量。

本发明的一种基于自然语言对稿件完整性的评估方法，可以通过本方法对稿件内容进行计算，得出的分值可以用于评估稿件新闻要素的完整性，是否缺失了叙事三要素“时间、地点、人物”等，降低内容风险；通过批量化的评分可以提高内容生产中质量低下的痛点，避免大量的“洗稿”“重复稿”“烂稿”充斥在各信息发布渠道中；可以通过训练多种分析器来提高评分的可靠性，维度越多分析器越多，得到的评分数据越可信，适用于各种场景下的内容质量评估要求；有助于通过此方式反向支撑自动写稿类的机器学习模型训练，用于作为验证手段在训练过程中校验自动生成的内容是否有效，解决了文本生成类模型训练时的校验手段匮乏的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的一种基于自然语言对稿件完整性的评估方法的步骤流程图。

图2是本发明提供的一种基于自然语言对稿件完整性的评估方法的原理框图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

请参阅图1和图2，本发明提供一种基于自然语言对稿件完整性的评估方法，包括如下步骤：

S1：稿件完成撰写后，将稿件送通过信息化系统流转至评分系统中；

S2：对稿件进行预先格式化，准备进行自然语义分析；

S3：稿件完成格式化后，通过机器学习及自然语言处理训练出对应的分析器模型，将信息传输至由机器学习训练出的模型中进行推理，并得出分值；

S4：汇聚多个分析器的分值，汇聚完成后进行合并计算。

其中，在步骤S1中，稿件内容通过信息化系统流转至评分系统中，评分系统以接口形式提供服务，便于其他子系统与之对接；

在步骤S2中，所述格式化包括去除无意义的符号和文字、截取超长字符串或补足字符串最低长度、对内容进行中文分词(使用bert等方式)、提取词向量(热独编码方式)。

在步骤S3中，所述分析器模型包含的算法有基于深度学习的文本分类算法，基于机器学习的文本分类算法，基于机器学习的聚类算法，基于深度序列模型的分词、词性标注、命名实体识别算法，基于深度学习和图的句法依存解析和语义依存解析算法，基于概率统计和深度学习的相似度算法，基于规则解析的特殊词组提取算法，基于依存树和句子结构的句子解析算法，基于深度学习的语义槽与意图识别算法，根据上述算法计算与历史稿件相似度，避免大量的“洗稿”“重复稿”“烂稿”充斥在各信息发布渠道中。

将信息传输至由机器学习训练出的模型中进行推理，并得出一个具体的分值。具体计算公式为：

X＝((K÷(L÷P))×T)+(K×T)

其中公式的解读信息如下：

L：内容总字数，文本长度，文本元素个数，与字符串编码格式无关。

P：分段阈值，可以根据业务场景进行设置，代表了内容长度对评分结果的影响，此处数值越大则评分越低。

K：要素总数，由分析器模型输出，为0-N个，N代表了每个分析器模型可以推理得到的标签最大数量。

T：要素加权值，可以根据业务场景进行设置，代表了要素数量对结果的影响，此处数值越大则评分越高。

X：要素完整性，代表通过一系列计算后得出的该内容在特定分析器内的分值。

通过上述公式，计算稿件中的要素完整性。

在步骤S4中，根据业务场景不同，可以训练多个分析器模型对内容进行各个维度的评估打分，所述业务场景包括时间维度、地点维度、环境维度、人群维度、行业维度等，将多个分析器模型得到的分值进行相加获得最终得分，公式如下：

S＝X1+X2+...XN

其中S为具体的稿件最终得分，XN代表上一步流程中某个分析器的得分输出，通过上述的流程可以完成对新闻稿件内容的要素识别并评分，评分越高的稿件自然代表要素越完备，反之则代表新闻要素缺失，可能是低质量的新闻稿件。

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本发明权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种基于自然语言对稿件完整性的评估方法，其特征在于，包括如下步骤：

对稿件进行预先格式化，准备进行自然语义分析；

汇聚多个分析器的分值，汇聚完成后进行合并计算。

2.如权利要求1所述的一种基于自然语言对稿件完整性的评估方法，其特征在于，在对稿件进行预先格式化，准备进行自然语义分析的步骤中：

3.如权利要求2所述的一种基于自然语言对稿件完整性的评估方法，其特征在于，在稿件完成格式化后，通过机器学习及自然语言处理训练出对应的分析器模型，将信息传输至由机器学习训练出的模型中进行推理，并得出分值的步骤中：

所述分析器模型包含的算法有基于深度学习的文本分类算法，基于机器学习的文本分类算法，基于机器学习的聚类算法，基于深度序列模型的分词、词性标注、命名实体识别算法，基于深度学习和图的句法依存解析和语义依存解析算法，基于概率统计和深度学习的相似度算法，基于规则解析的特殊词组提取算法，基于依存树和句子结构的句子解析算法，基于深度学习的语义槽与意图识别算法，通过上述算法计算稿件与历史稿件的相似度。

4.如权利要求3所述的一种基于自然语言对稿件完整性的评估方法，其特征在于，在稿件完成格式化后，通过机器学习及自然语言处理训练出对应的分析器模型，将信息传输至由机器学习训练出的模型中进行推理，并得出分值的步骤中：

5.如权利要求4所述的一种基于自然语言对稿件完整性的评估方法，其特征在于，在稿件完成格式化后，通过机器学习及自然语言处理训练出对应的分析器模型，将信息传输至由机器学习训练出的模型中进行推理，并得出分值的步骤中：

6.如权利要求5所述的一种基于自然语言对稿件完整性的评估方法，其特征在于，在汇聚多个分析器的分值，汇聚完成后进行合并计算的步骤中：

7.如权利要求6所述的一种基于自然语言对稿件完整性的评估方法，其特征在于，在汇聚多个分析器的分值，汇聚完成后进行合并计算的步骤中：