CN114254077A - 一种基于自然语言对稿件完整性的评估方法 - Google Patents
一种基于自然语言对稿件完整性的评估方法 Download PDFInfo
- Publication number
- CN114254077A CN114254077A CN202111572608.8A CN202111572608A CN114254077A CN 114254077 A CN114254077 A CN 114254077A CN 202111572608 A CN202111572608 A CN 202111572608A CN 114254077 A CN114254077 A CN 114254077A
- Authority
- CN
- China
- Prior art keywords
- manuscript
- machine learning
- elements
- score
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明涉及自然语言处理技术领域,具体涉及一种基于自然语言对稿件完整性的评估方法;可以通过本方法对稿件内容进行计算,得出的分值可以用于评估稿件新闻要素的完整性,是否缺失了叙事三要素“时间、地点、人物”等,降低内容风险;通过批量化的评分可以提高内容生产中质量低下的痛点,避免大量的“洗稿”“重复稿”“烂稿”充斥在各信息发布渠道中;可以通过训练多种分析器来提高评分的可靠性,维度越多分析器越多,得到的评分数据越可信,适用于各种场景下的内容质量评估要求。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种基于自然语言对稿件完整性的评估方法。
背景技术
新闻稿作为公司/机构/学校等单位发送予传媒的通信渠道,用来公布有新闻价值的消息。通常会分发于报章、杂志、电台、电视台(电视网络)等渠道。新闻稿异于新闻,新闻稿是鼓励新闻记者在该题材上撰写的稿件。随着媒体融合进程的加剧,如何生产出更有质量的新闻稿内容成了重中之重,
目前,对新闻稿要素完整性的评估仍然使用人工经验判断的方式进行,导致效率低下,且无法量化评定标准。
发明内容
本发明的目的在于提供一种基于自然语言对稿件完整性的评估方法,旨在解决现有技术中对新闻稿要素完整性的评估仍然使用人工经验判断的方式进行,导致效率低下,且无法量化评定标准的技术问题。
为实现上述目的,本发明提供了一种基于自然语言对稿件完整性的评估方法,包括如下步骤:
稿件完成撰写后,将稿件送通过信息化系统流转至评分系统中;
对稿件进行预先格式化,准备进行自然语义分析;
稿件完成格式化后,通过机器学习及自然语言处理训练出对应的分析器模型,将信息传输至由机器学习训练出的模型中进行推理,并得出分值;
汇聚多个分析器的分值,汇聚完成后进行合并计算。
其中,在对稿件进行预先格式化,准备进行自然语义分析的步骤中:
所述格式化包括去除无意义的符号和文字、截取超长字符串或补足字符串最低长度、对内容进行中文分词、提取词向量。
其中,在稿件完成格式化后,通过机器学习及自然语言处理训练出对应的分析器模型,将信息传输至由机器学习训练出的模型中进行推理,并得出分值的步骤中:
所述分析器模型通过根据内容总字数、分段阀值、要素总数、要素加权值和要素完整性计算分值,通过所述内容总字数除以分段阀值得到第一数值,所述要素总数除以所述第一数值得到第二数值,所述要素总数与所述要素加权值相乘得到第三数值,所述第二数值加上所述第三数值得到所述分值,所述分值表示要素完整性。
其中,在稿件完成格式化后,通过机器学习及自然语言处理训练出对应的分析器模型,将信息传输至由机器学习训练出的模型中进行推理,并得出分值的步骤中:
所述分析器模型通过根据内容总字数、分段阀值、要素总数、要素加权值和要素完整性计算分值,通过所述内容总字数除以分段阀值得到第一数值,所述要素总数除以所述第一数值得到第二数值,所述要素总数与所述要素加权值相乘得到第三数值,所述第二数值加上所述第三数值得到所述分值,所述分值表示要素完整性。
其中,在稿件完成格式化后,通过机器学习及自然语言处理训练出对应的分析器模型,将信息传输至由机器学习训练出的模型中进行推理,并得出分值的步骤中:
所述分段阀值根据业务场景进行设置,代表了内容长度对评分结果的影响。
在汇聚多个分析器的分值,汇聚完成后进行合并计算的步骤中:
根据业务场景生成多个分析器,所述业务场景包括时间维度、地点维度、环境维度、人群维度和行业维度。
其中,在汇聚多个分析器的分值,汇聚完成后进行合并计算的步骤中:
通过上述的流程可以完成对新闻稿件内容的要素识别并评分,评分数值与稿件代表要素的完整性呈正相关,根据评分数值判断稿件质量。
本发明的一种基于自然语言对稿件完整性的评估方法,可以通过本方法对稿件内容进行计算,得出的分值可以用于评估稿件新闻要素的完整性,是否缺失了叙事三要素“时间、地点、人物”等,降低内容风险;通过批量化的评分可以提高内容生产中质量低下的痛点,避免大量的“洗稿”“重复稿”“烂稿”充斥在各信息发布渠道中;可以通过训练多种分析器来提高评分的可靠性,维度越多分析器越多,得到的评分数据越可信,适用于各种场景下的内容质量评估要求;有助于通过此方式反向支撑自动写稿类的机器学习模型训练,用于作为验证手段在训练过程中校验自动生成的内容是否有效,解决了文本生成类模型训练时的校验手段匮乏的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的一种基于自然语言对稿件完整性的评估方法的步骤流程图。
图2是本发明提供的一种基于自然语言对稿件完整性的评估方法的原理框图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
请参阅图1和图2,本发明提供一种基于自然语言对稿件完整性的评估方法,包括如下步骤:
S1:稿件完成撰写后,将稿件送通过信息化系统流转至评分系统中;
S2:对稿件进行预先格式化,准备进行自然语义分析;
S3:稿件完成格式化后,通过机器学习及自然语言处理训练出对应的分析器模型,将信息传输至由机器学习训练出的模型中进行推理,并得出分值;
S4:汇聚多个分析器的分值,汇聚完成后进行合并计算。
其中,在步骤S1中,稿件内容通过信息化系统流转至评分系统中,评分系统以接口形式提供服务,便于其他子系统与之对接;
在步骤S2中,所述格式化包括去除无意义的符号和文字、截取超长字符串或补足字符串最低长度、对内容进行中文分词(使用bert等方式)、提取词向量(热独编码方式)。
在步骤S3中,所述分析器模型包含的算法有基于深度学习的文本分类算法,基于机器学习的文本分类算法,基于机器学习的聚类算法,基于深度序列模型的分词、词性标注、命名实体识别算法,基于深度学习和图的句法依存解析和语义依存解析算法,基于概率统计和深度学习的相似度算法,基于规则解析的特殊词组提取算法,基于依存树和句子结构的句子解析算法,基于深度学习的语义槽与意图识别算法,根据上述算法计算与历史稿件相似度,避免大量的“洗稿”“重复稿”“烂稿”充斥在各信息发布渠道中。
将信息传输至由机器学习训练出的模型中进行推理,并得出一个具体的分值。具体计算公式为:
X=((K÷(L÷P))×T)+(K×T)
其中公式的解读信息如下:
L:内容总字数,文本长度,文本元素个数,与字符串编码格式无关。
P:分段阈值,可以根据业务场景进行设置,代表了内容长度对评分结果的影响,此处数值越大则评分越低。
K:要素总数,由分析器模型输出,为0-N个,N代表了每个分析器模型可以推理得到的标签最大数量。
T:要素加权值,可以根据业务场景进行设置,代表了要素数量对结果的影响,此处数值越大则评分越高。
X:要素完整性,代表通过一系列计算后得出的该内容在特定分析器内的分值。
通过上述公式,计算稿件中的要素完整性。
在步骤S4中,根据业务场景不同,可以训练多个分析器模型对内容进行各个维度的评估打分,所述业务场景包括时间维度、地点维度、环境维度、人群维度、行业维度等,将多个分析器模型得到的分值进行相加获得最终得分,公式如下:
S=X1+X2+...XN
其中S为具体的稿件最终得分,XN代表上一步流程中某个分析器的得分输出,通过上述的流程可以完成对新闻稿件内容的要素识别并评分,评分越高的稿件自然代表要素越完备,反之则代表新闻要素缺失,可能是低质量的新闻稿件。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。
Claims (7)
1.一种基于自然语言对稿件完整性的评估方法,其特征在于,包括如下步骤:
稿件完成撰写后,将稿件送通过信息化系统流转至评分系统中;
对稿件进行预先格式化,准备进行自然语义分析;
稿件完成格式化后,通过机器学习及自然语言处理训练出对应的分析器模型,将信息传输至由机器学习训练出的模型中进行推理,并得出分值;
汇聚多个分析器的分值,汇聚完成后进行合并计算。
2.如权利要求1所述的一种基于自然语言对稿件完整性的评估方法,其特征在于,在对稿件进行预先格式化,准备进行自然语义分析的步骤中:
所述格式化包括去除无意义的符号和文字、截取超长字符串或补足字符串最低长度、对内容进行中文分词、提取词向量。
3.如权利要求2所述的一种基于自然语言对稿件完整性的评估方法,其特征在于,在稿件完成格式化后,通过机器学习及自然语言处理训练出对应的分析器模型,将信息传输至由机器学习训练出的模型中进行推理,并得出分值的步骤中:
所述分析器模型包含的算法有基于深度学习的文本分类算法,基于机器学习的文本分类算法,基于机器学习的聚类算法,基于深度序列模型的分词、词性标注、命名实体识别算法,基于深度学习和图的句法依存解析和语义依存解析算法,基于概率统计和深度学习的相似度算法,基于规则解析的特殊词组提取算法,基于依存树和句子结构的句子解析算法,基于深度学习的语义槽与意图识别算法,通过上述算法计算稿件与历史稿件的相似度。
4.如权利要求3所述的一种基于自然语言对稿件完整性的评估方法,其特征在于,在稿件完成格式化后,通过机器学习及自然语言处理训练出对应的分析器模型,将信息传输至由机器学习训练出的模型中进行推理,并得出分值的步骤中:
所述分析器模型通过根据内容总字数、分段阀值、要素总数、要素加权值和要素完整性计算分值,通过所述内容总字数除以分段阀值得到第一数值,所述要素总数除以所述第一数值得到第二数值,所述要素总数与所述要素加权值相乘得到第三数值,所述第二数值加上所述第三数值得到所述分值,所述分值表示要素完整性。
5.如权利要求4所述的一种基于自然语言对稿件完整性的评估方法,其特征在于,在稿件完成格式化后,通过机器学习及自然语言处理训练出对应的分析器模型,将信息传输至由机器学习训练出的模型中进行推理,并得出分值的步骤中:
所述分段阀值根据业务场景进行设置,代表了内容长度对评分结果的影响。
6.如权利要求5所述的一种基于自然语言对稿件完整性的评估方法,其特征在于,在汇聚多个分析器的分值,汇聚完成后进行合并计算的步骤中:
根据业务场景生成多个分析器,所述业务场景包括时间维度、地点维度、环境维度、人群维度和行业维度。
7.如权利要求6所述的一种基于自然语言对稿件完整性的评估方法,其特征在于,在汇聚多个分析器的分值,汇聚完成后进行合并计算的步骤中:
通过上述的流程可以完成对新闻稿件内容的要素识别并评分,评分数值与稿件代表要素的完整性呈正相关,根据评分数值判断稿件质量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111572608.8A CN114254077A (zh) | 2021-12-21 | 2021-12-21 | 一种基于自然语言对稿件完整性的评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111572608.8A CN114254077A (zh) | 2021-12-21 | 2021-12-21 | 一种基于自然语言对稿件完整性的评估方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114254077A true CN114254077A (zh) | 2022-03-29 |
Family
ID=80793726
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111572608.8A Pending CN114254077A (zh) | 2021-12-21 | 2021-12-21 | 一种基于自然语言对稿件完整性的评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114254077A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116841914A (zh) * | 2023-09-01 | 2023-10-03 | 星河视效科技(北京)有限公司 | 一种渲染引擎的调用方法、装置、设备及存储介质 |
CN117709311A (zh) * | 2024-02-05 | 2024-03-15 | 新励成教育科技股份有限公司 | 一种基于云端的演讲稿管理方法、装置、设备及存储介质 |
-
2021
- 2021-12-21 CN CN202111572608.8A patent/CN114254077A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116841914A (zh) * | 2023-09-01 | 2023-10-03 | 星河视效科技(北京)有限公司 | 一种渲染引擎的调用方法、装置、设备及存储介质 |
CN117709311A (zh) * | 2024-02-05 | 2024-03-15 | 新励成教育科技股份有限公司 | 一种基于云端的演讲稿管理方法、装置、设备及存储介质 |
CN117709311B (zh) * | 2024-02-05 | 2024-05-03 | 新励成教育科技股份有限公司 | 一种基于云端的演讲稿管理方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111709242B (zh) | 一种基于命名实体识别的中文标点符号添加方法 | |
CN111783394A (zh) | 事件抽取模型的训练方法、事件抽取方法和系统及设备 | |
CN114254077A (zh) | 一种基于自然语言对稿件完整性的评估方法 | |
CN111274804A (zh) | 基于命名实体识别的案件信息提取方法 | |
CN111061861A (zh) | 一种基于XLNet的文本摘要自动生成方法 | |
CN112992125B (zh) | 一种语音识别方法、装置、电子设备、可读存储介质 | |
CN113590764B (zh) | 训练样本构建方法、装置、电子设备和存储介质 | |
CN113010638A (zh) | 实体识别模型生成方法及装置、实体提取方法及装置 | |
CN113780007A (zh) | 语料筛选方法、意图识别模型优化方法、设备及存储介质 | |
CN115759119B (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
CN111782793A (zh) | 智能客服处理方法和系统及设备 | |
CN109446522B (zh) | 一种试题自动分类系统及方法 | |
CN114970502A (zh) | 一种应用于数字政府的文本纠错方法 | |
CN114036907A (zh) | 一种基于领域特征的文本数据扩增方法 | |
CN112084788B (zh) | 一种影像字幕隐式情感倾向自动标注方法及系统 | |
CN116304064A (zh) | 一种基于抽取式的文本分类方法 | |
CN109947932B (zh) | 一种推送信息分类方法及系统 | |
CN114564942B (zh) | 一种用于监管领域的文本纠错方法、存储介质和装置 | |
CN112668342B (zh) | 基于孪生网络的远程监督关系抽取降噪系统 | |
CN114996442A (zh) | 一种联合抽象程度判别和摘要优化的文本摘要生成系统 | |
CN114416991A (zh) | 一种基于prompt的文本情感原因分析方法和系统 | |
CN112632229A (zh) | 文本聚类方法及装置 | |
CN111259650A (zh) | 基于类标序列生成式对抗模型的文本自动生成方法 | |
CN117453895B (zh) | 一种智能客服应答方法、装置、设备及可读存储介质 | |
CN116992012A (zh) | 文本摘要抽取方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |