CN113822514A - 一种全媒体文稿质量控制方法 - Google Patents
一种全媒体文稿质量控制方法 Download PDFInfo
- Publication number
- CN113822514A CN113822514A CN202011539244.9A CN202011539244A CN113822514A CN 113822514 A CN113822514 A CN 113822514A CN 202011539244 A CN202011539244 A CN 202011539244A CN 113822514 A CN113822514 A CN 113822514A
- Authority
- CN
- China
- Prior art keywords
- manuscript
- full media
- media
- full
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003908 quality control method Methods 0.000 title claims abstract description 22
- 238000004458 analytical method Methods 0.000 claims abstract description 37
- 238000000034 method Methods 0.000 claims abstract description 19
- 238000011156 evaluation Methods 0.000 claims abstract description 8
- 238000004519 manufacturing process Methods 0.000 claims abstract description 4
- 230000011218 segmentation Effects 0.000 claims description 59
- 230000008451 emotion Effects 0.000 claims description 53
- 239000013598 vector Substances 0.000 claims description 36
- 238000004364 calculation method Methods 0.000 claims description 22
- 238000010801 machine learning Methods 0.000 claims description 12
- 238000012549 training Methods 0.000 claims description 7
- 238000002372 labelling Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06395—Quality analysis or management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Strategic Management (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Marketing (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种全媒体文稿质量控制方法,包括以下步骤:S1.获取在融媒生产平台发布的全媒体文稿;S2.对所述全媒体文稿进行整体特征提取,获取所述全媒体文稿的整体特征评分;S3.对所述全媒体文稿进行句子拆分和语法分析,获得句法评分;S4.基于所述整体特征评分和所述句法评分,对所述全媒体文稿进行标记,并生成对所述全媒体文稿的整体评价。本发明的方法实现了对全媒体文稿分析评价并输出整体结论的自动化过程,极大的解放了人力,提高了审稿的效率。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种全媒体文稿质量控制方法。
背景技术
随着互联网的普及,记者由传统的线下发表文章,已经更多的转为了基于互联网平台的文章生成与发表方式。这样使得文章的生成速度更高和数量更大。而这些撰写的稿件当中,存在着质量参差不齐的问题,进而大大增加了新闻审稿人的工作量。此外,随着媒体发展的需要,基于互联网平台生成的文章可更多的包含如、图片、视频、音频等的内容实现全媒体文章,这样也更加增大了新闻审稿人的工作压力。目前国内尚未有对全媒体文稿质量控制较成熟的案例,进而急需一种可对全媒体文稿质量进行自动化审核的方法。此外,传统的人工审核方法不仅效率低,还具有因人工主观因素造成不准确、不公平的问题。
发明内容
本发明的目的在于提供一种全媒体文稿质量控制方法。
为实现上述发明目的,本发明提供一种全媒体文稿质量控制方法,包括以下步骤:
S1.获取在融媒生产平台发布的全媒体文稿;
S2.对所述全媒体文稿进行整体特征提取,获取所述全媒体文稿的整体特征评分;
S3.对所述全媒体文稿进行句子拆分和语法分析,获得句法评分;
S4.基于所述整体特征评分和所述句法评分,对所述全媒体文稿进行标记,并生成对所述全媒体文稿的整体评价。
根据本发明的一个方面,所述整体特征包括:结构特征和语言特征;
所述整体特征评分包括结构特征评分和语言特征评分;
步骤S2中,对所述全媒体文稿进行整体特征提取,获取所述全媒体文稿的整体特征评分的步骤中,包括:
S21.对所述全媒体文稿的结构进行判断,基于判断结果获取所述全媒体文稿的结构特征评分;
S22.对所述全媒体文稿的词汇进行判断,基于判断结果获取所述全媒体文稿的语言特征评分。
根据本发明的一个方面,步骤S21中,对所述全媒体文稿的结构进行判断,基于判断结果获取所述全媒体文稿的结构特征评分的步骤中,包括:
S211.判断所述全媒体文稿是否有分段;
S212.判断所述全媒体文稿是否有新闻六要素;
S213.判断所述全媒体文稿是否有图片;
S214.判断所述全媒体文稿是否有视频;
S215.判断所述全媒体文稿是否图文混排;
S216.汇总步骤S211-S215的判断结果生成所述结构特征评分。
根据本发明的一个方面,步骤S211中,若所述全媒体文稿存在分段,则在输出的判断结果中还包含有与所述分段的数量相匹配的预设数值;
步骤S213中,若所述全媒体文稿存在图片,则在输出的判断结果中还包含有与所述图片的数量相匹配的预设数值。
根据本发明的一个方面,步骤S22中,对所述全媒体文稿的词汇进行判断,基于判断结果获取所述全媒体文稿的语言特征评分的步骤中,包括:
S221.基于新闻报道慎用词汇表数据库对所述全媒体文稿进行识别,判断所述全媒体文稿中是否存在慎用新闻词汇;
S222.若存在所述慎用新闻词汇,则获取出现的所述慎用新闻词汇的数量;
S223.基于所述慎用新闻词汇的数量匹配相应的预设数值,并输出包含该预设数值的语言特征评分。
根据本发明的一个方面,步骤S223中,与所述慎用新闻词汇的数量相对应的所述预设数值为负值。
根据本发明的一个方面,步骤S3中,对所述全媒体文稿进行句子拆分和语法分析,获得句法评分的步骤中,包括:
S31.对所述全媒体文稿拆分为单条句子,并判断所述句子的句型,基于判断结果输出与所述句子的句型相对应的预设数值;
S32.对所述句子进行分词和词性标注,并对所述句子的情感值标注;
S33.若所述全媒体文稿中正面情感值的单句多,则标记为正面文稿,若所述全媒体文稿中负面情感值的单句多,则标记为负面文稿;
S34.汇总步骤S31至S33的输出结果,获得所述句法评分。
根据本发明的一个方面,步骤S32中,对所述句子进行分词和词性标注,并对所述句子的情感值标注的步骤中,将所述句子进行分词后的分词结果转换为词向量w,基于所述词向量w和朴素贝叶斯算法对所述分词结果和所述句子的情感值分别进行评分。
根据本发明的一个方面,基于所述词向量w和朴素贝叶斯算法对所述分词结果进行评分的步骤中,包括:
S321.基于所述词向量w和朴素贝叶斯算法建立计算公式,且计算公式为:
S322.基于所述计算公式获得与所述词向量w相对应的分词概率,且所述分词概率表示为:p(w0,w1,w2...wn|ci);
S323.基于所述分词概率得出所述分词结果的评分。
根据本发明的一个方面,步骤S322中,假设各所述词向量w为独立特征,则所述分词概率表示为:p(w0|ci)p(w1|ci)p(w2|;ci)...p(wn|ci)。
根据本发明的一个方面,对所述句子的情感值进行评分的步骤中,包括:
S324.构建情感词典;
S325.基于所述情感词典和偶数分词概率,获取所述句子的情感值评分,其计算公式为:
其中,Np,Nn分别代表表达正面情感和负面情感的词汇数目;ωpi,ωpj分别代表正面情感词汇和负面情感词汇的权值。
根据本发明的一个方面,采用全媒体文稿质量控制模型执行步骤S1至S4,其中,所述全媒体文稿质量控制模型通过以下步骤获得:
A1.构建包含全媒体文稿样本的历史数据集,并对所述历史数据集中的所述全媒体文稿样本进行等级划分;
A2.提取所述全媒体文稿样本的整体特征,并获取第一标准评分;
A3.对所述全媒体文稿样本进行句子拆分和语法分析,获得第二标准评分;
A4.基于所述全媒体文稿样本,所述整体特征,所述第一标准评分,句子拆分和语法分析结果和所述第二标准评分对机器学习模型进行训练,直到所述机器学习模型的输出分数与所述全媒体文稿样本的标准评分的误差在预设误差范围内,则获得所述全媒体文稿质量控制模型。
根据本发明的一个方面,所述整体特征包括:结构特征和语言特征;
所述第一标准评分包括标准结构特征评分和标准语言特征评分;
步骤A2中,提取所述全媒体文稿样本的整体特征,并获取第一标准评分的步骤中,包括:
A21.对所述全媒体文稿的结构进行分析,基于分析结果获取所述全媒体文稿的标准结构特征评分;
A22.对所述全媒体文稿的词汇进行分析,基于分析结果获取所述全媒体文稿的标准语言特征评分。
根据本发明的一个方面,步骤S21中,对所述全媒体文稿的结构进行分析,基于分析结果获取所述全媒体文稿的标准结构特征评分的步骤中,包括:
A211.判断所述全媒体文稿是否有分段;
A212.判断所述全媒体文稿是否有新闻六要素;
A213.判断所述全媒体文稿是否有图片;
A214.判断所述全媒体文稿是否有视频;
A215.判断所述全媒体文稿是否图文混排;
A216.汇总步骤A211-A215的分析结果生成所述标准结构特征评分。
根据本发明的一个方面,步骤A211中,若所述全媒体文稿存在分段,则在输出的分析结果中还包含有与所述分段的数量相匹配的预设数值;
步骤S213中,若所述全媒体文稿存在图片,则在输出的分析结果中还包含有与所述图片的数量相匹配的预设数值。
根据本发明的一个方面,步骤A22中,对所述全媒体文稿的词汇进行分析,基于分析结果获取所述全媒体文稿的语言特征评分的步骤中,包括:
A221.基于新闻报道慎用词汇表数据库对所述全媒体文稿进行识别,判断所述全媒体文稿中是否存在慎用新闻词汇;
A222.若存在所述慎用新闻词汇,则获取出现的所述慎用新闻词汇的数量;
A223.基于所述慎用新闻词汇的数量匹配相应的预设数值,并输出包含该预设数值的标准语言特征评分。
根据本发明的一个方面,步骤A223中,与所述慎用新闻词汇的数量相对应的所述预设数值为负值。
根据本发明的一个方面,步骤A3中,对所述全媒体文稿样本进行句子拆分和语法分析,获得第二标准评分的步骤中,包括:
A31.对所述全媒体文稿拆分为单条句子,并判断所述句子的句型,基于分析结果输出与所述句子的句型相对应的预设数值;
A32.对所述句子进行分词和词性标注,并对所述句子的情感值标注;
A33.若所述全媒体文稿中正面情感值的单句多,则标记为正面文稿,若所述全媒体文稿中负面情感值的单句多,则标记为负面文稿;
A34.汇总步骤S31至S33的输出结果,获得所述第二标准评分。
根据本发明的一个方面,步骤A32中,对所述句子进行分词和词性标注,并对所述句子的情感值标注的步骤中,将所述句子进行分词后的分词结果转换为词向量w,基于所述词向量w和朴素贝叶斯算法对所述分词结果和所述句子的情感值分别进行评分。
根据本发明的一个方面,基于所述词向量w和朴素贝叶斯算法对所述分词结果进行评分的步骤中,包括:
A321.基于所述词向量w和朴素贝叶斯算法建立计算公式,且计算公式为:
A322.基于所述计算公式获得与所述词向量w相对应的分词概率,且所述分词概率表示为:p(w0,w1,w2...wn|ci);
S323.基于所述分词概率得出所述分词结果的评分。
根据本发明的一个方面,步骤A322中,假设各所述词向量w为独立特征,则所述分词概率表示为:p(w0|ci)p(w1|ci)p(w2|;ci)...p(wn|ci)。
根据本发明的一个方面,步骤S4中,基于所述全媒体文稿质量控制模型对所述全媒体文稿样本输出的正负面判断结果的准确度和召回率评估所述预设误差范围,其中,通过计算F score来评估所述预设误差范围的阈值,其中,F score表示为:
其中,Precision为准确度,recall为系统的召回率。
根据本发明的一种方案,本发明的方法实现了对全媒体文稿分析评价并输出整体结论的自动化过程,极大的解放了人力,提高了审稿的效率。
根据本发明的一种方案,本发明的方法应用于文稿的评分中,有效克服了人工评分过程中因人工主观因素造成不准确、不公平的问题。
根据本发明的一种方案,本发明的方法在审稿过程中,可达到对文稿整篇的完全评价,不会产生遗漏或错误的地方,使得评价结果更为准确。
附图说明
图1是示意性表示根据本发明的一种实施方式的媒体文稿质量控制方法步骤框图。
具体实施方式
下面结合附图和具体实施方式对本发明作详细地描述,实施方式不能在此一一赘述,但本发明的实施方式并不因此限定于以下实施方式。
如图1所示,根据本发明的一种实施方式,本发明的一种全媒体文稿质量控制方法,本发明的方法基于预先训练好的全媒体文稿质量控制模型实现,包括以下步骤:
S1.获取在融媒生产平台发布的全媒体文稿;
S2.对全媒体文稿进行整体特征提取,获取全媒体文稿的整体特征评分;
S3.对全媒体文稿进行句子拆分和语法分析,获得句法评分;
S4.基于整体特征评分和句法评分,对全媒体文稿进行标记,并生成对全媒体文稿的整体评价。
根据本发明的一种实施方式,整体特征包括:结构特征和语言特征;
整体特征评分包括结构特征评分和语言特征评分;
步骤S2中,对全媒体文稿进行整体特征提取,获取全媒体文稿的整体特征评分的步骤中,包括:
S21.对全媒体文稿的结构进行判断,基于判断结果获取全媒体文稿的结构特征评分;
S22.对全媒体文稿的词汇进行判断,基于判断结果获取全媒体文稿的语言特征评分。
根据本发明的一种实施方式,步骤S21中,对全媒体文稿的结构进行判断,基于判断结果获取全媒体文稿的结构特征评分的步骤中,包括:
S211.判断全媒体文稿是否有分段;
S212.判断全媒体文稿是否有新闻六要素;
S213.判断全媒体文稿是否有图片;
S214.判断全媒体文稿是否有视频;
S215.判断全媒体文稿是否图文混排;
S216.汇总步骤S211-S215的判断结果生成结构特征评分。
根据本发明的一种实施方式,步骤S211中,若全媒体文稿存在分段,则在输出的判断结果中还包含有与分段的数量相匹配的预设数值;
步骤S213中,若全媒体文稿存在图片,则在输出的判断结果中还包含有与图片的数量相匹配的预设数值。
根据本发明的一种实施方式,步骤S22中,对全媒体文稿的词汇进行判断,基于判断结果获取全媒体文稿的语言特征评分的步骤中,包括:
S221.基于新闻报道慎用词汇表数据库对全媒体文稿进行识别,判断全媒体文稿中是否存在慎用新闻词汇;
S222.若存在慎用新闻词汇,则获取出现的慎用新闻词汇的数量;
S223.基于慎用新闻词汇的数量匹配相应的预设数值,并输出包含该预设数值的语言特征评分。在本实施方式中,与慎用新闻词汇的数量相对应的预设数值为负值,为减分项目。
根据本发明的一种实施方式,步骤S3中,对全媒体文稿进行句子拆分和语法分析,获得句法评分的步骤中,将文稿拆分为段文档和单条句子进行分析,包括:
S31.对全媒体文稿拆分为单条句子,并判断句子的句型,基于判断结果输出与句子的句型相对应的预设数值;在本实施方式中,句型可分为陈述句、疑问句或感叹句,不同的句型则对应不同的分值。
S32.对句子进行分词和词性标注,并对句子的情感值标注;在本实施方式中,词性可分为名称、动词、形容词、副词等词性进行分词并标注,同时基于朴素贝叶斯算法实现单句的情感值标注。
S33.若全媒体文稿中正面情感值的单句多,则标记为正面文稿,若全媒体文稿中负面情感值的单句多,则标记为负面文稿;
S34.汇总步骤S31至S33的输出结果,获得句法评分。
根据本发明的一种实施方式,步骤S32中,对句子进行分词和词性标注,并对句子的情感值标注的步骤中,将句子进行分词后的分词结果转换为词向量w,基于词向量w和朴素贝叶斯算法对分词结果和句子的情感值分别进行评分。
根据本发明的一种实施方式,基于词向量w和朴素贝叶斯算法对分词结果进行评分的步骤中,包括:
S321.基于词向量w和朴素贝叶斯算法建立计算公式,且计算公式为:
S322.基于计算公式获得与词向量w相对应的分词概率,且分词概率表示为:p(w0,w1,w2...wn|ci);
S323.基于分词概率得出分词结果的评分。
根据本发明的一种实施方式,步骤S322中,假设各词向量w为独立特征,则分词概率表示为:p(w0|ci)p(w1|ci)p(w2|;ci)...p(wn|ci)。
根据本发明的一种实施方式,对句子的情感值进行评分的步骤中,包括:
S324.构建情感词典;在本实施方式中,采用了BosonNLP情感词典作为基础依据,然后针对行业特点对该字典增加了部分专业词汇,然后根据在构建的情感词典的基础上建立完成搜索引擎Solr的索引文档。
S325.基于情感词典和偶数分词概率,获取句子的情感值评分,其计算公式为:
其中,Np,Nn分别代表表达正面情感和负面情感的词汇数目;ωpi,ωpj分别代表正面情感词汇和负面情感词汇的权值。在本实施方式中,对信息的计算结果中,大于0的为正面舆情,小于0的为负面舆情,为0的则为相关舆情。
根据本发明的一种实施方式,采用全媒体文稿质量控制模型执行步骤S1至S4,其中,全媒体文稿质量控制模型通过以下步骤获得:
A1.构建包含全媒体文稿样本的历史数据集,并对历史数据集中的全媒体文稿样本进行等级划分。在本实施方式中可对样本的等级划分为A、B、C、D、E、F六个等级。在本实施方式中,可通过人工的方式对各样本的等级进行划分。
A2.提取全媒体文稿样本的整体特征,并获取第一标准评分;在本实施方式中,可通过人工的方式对样本中的整体特征进行标注,并分配相应的第一标准评分;
A3.对全媒体文稿样本进行句子拆分和语法分析,获得第二标准评分;在本实施方式中,可通过人工的方式对样本中的整体特征进行标注,并分配相应的第二标准评分;
A4.基于全媒体文稿样本,整体特征,第一标准评分,句子拆分和语法分析结果和第二标准评分对机器学习模型进行训练,直到机器学习模型的输出分数与全媒体文稿样本的标准评分的误差在预设误差范围内,则获得全媒体文稿质量控制模型。
根据本发明的一种实施方式,整体特征包括:结构特征和语言特征;
第一标准评分包括标准结构特征评分和标准语言特征评分;
步骤A2中,提取全媒体文稿样本的整体特征,并获取第一标准评分的步骤中,包括:
A21.对全媒体文稿的结构进行分析,基于分析结果获取全媒体文稿的标准结构特征评分;
A22.对全媒体文稿的词汇进行分析,基于分析结果获取全媒体文稿的标准语言特征评分。
根据本发明的一种实施方式,步骤S21中,对全媒体文稿的结构进行分析,基于分析结果获取全媒体文稿的标准结构特征评分的步骤中,包括:
A211.判断全媒体文稿是否有分段;
A212.判断全媒体文稿是否有新闻六要素;
A213.判断全媒体文稿是否有图片;
A214.判断全媒体文稿是否有视频;
A215.判断全媒体文稿是否图文混排;
A216.汇总步骤A211-A215的分析结果生成标准结构特征评分。
根据本发明的一种实施方式,步骤A211中,若全媒体文稿存在分段,则在输出的分析结果中还包含有与分段的数量相匹配的预设数值;
步骤S213中,若全媒体文稿存在图片,则在输出的分析结果中还包含有与图片的数量相匹配的预设数值。
根据本发明的一种实施方式,步骤A22中,对全媒体文稿的词汇进行分析,基于分析结果获取全媒体文稿的语言特征评分的步骤中,包括:
A221.基于新闻报道慎用词汇表数据库对全媒体文稿进行识别,判断全媒体文稿中是否存在慎用新闻词汇;
A222.若存在慎用新闻词汇,则获取出现的慎用新闻词汇的数量;
A223.基于慎用新闻词汇的数量匹配相应的预设数值,并输出包含该预设数值的标准语言特征评分。在本实施方式中,与慎用新闻词汇的数量相对应的预设数值为负值,为减分项目。
根据本发明的一种实施方式,步骤A3中,对全媒体文稿样本进行句子拆分和语法分析,获得第二标准评分的步骤中,将文稿样本拆分为段文档和单条句子进行分析,包括:
A31.对全媒体文稿拆分为单条句子,并判断句子的句型,基于分析结果输出与句子的句型相对应的预设数值;在本实施方式中,句型可分为陈述句、疑问句或感叹句,不同的句型则对应不同的分值。
A32.对句子进行分词和词性标注,并对句子的情感值标注;在本实施方式中,词性可分为名称、动词、形容词、副词等词性进行分词并标注,同时基于朴素贝叶斯算法实现单句的情感值标注。
A33.若全媒体文稿中正面情感值的单句多,则标记为正面文稿,若全媒体文稿中负面情感值的单句多,则标记为负面文稿;
A34.汇总步骤S31至S33的输出结果,获得第二标准评分。
根据本发明的一种实施方式,步骤A32中,对句子进行分词和词性标注,并对句子的情感值标注的步骤中,将句子进行分词后的分词结果转换为词向量w,基于词向量w和朴素贝叶斯算法对分词结果和句子的情感值分别进行评分。
根据本发明的一种实施方式,基于词向量w和朴素贝叶斯算法对分词结果进行评分的步骤中,包括:
A321.基于词向量w和朴素贝叶斯算法建立计算公式,且计算公式为:
A322.基于计算公式获得与词向量w相对应的分词概率,且分词概率表示为:p(w0,w1,w2...wn|ci);
S323.基于分词概率得出分词结果的评分。
根据本发明的一种实施方式,步骤A322中,假设各词向量w为独立特征,则分词概率表示为:p(w0|ci)p(w1|ci)p(w2|;ci)...p(wn|ci)。
根据本发明的一种实施方式,在步骤A4中,将前述的文稿特征和对应的人工评分输入机器学习模型,对其进行训练,直到机器学习模型的输出分数与人工评分的差值在预设范围内,则完成模型训练。其中,机器学习模型的选择可以KNN(邻近算法)、SVM(支持向量机)、DNN(深度神经网络算法)或RNN(循环神经网络算法)等,根据不同的题型选择不同的机器学习模型和模型评估标准进行训练,直到机器学习模型的输出分数与人工评分的差值在预设范围内,则模型训练完成。
在步骤S4中通过训练完成的模型对新获取的文稿进行整体评价所获得的评价结果中不仅包含了对文稿的评分标注、错别字标注,还包含了对文稿的评级。
根据本发明的一种实施方式,步骤S4中,基于所述全媒体文稿质量控制模型对所述全媒体文稿样本输出的正负面判断结果的准确度和召回率评估所述预设误差范围,其中,通过计算F score来评估所述预设误差范围的阈值,其中,F score表示为:
其中,Precision为准确度,recall为系统的召回率(即文稿样本中新闻词汇负面判断值的数量/文稿全部词汇数量)。
当参数α=1时,就是最常见的F score,其可表示为:
上述内容仅为本发明的具体方案的例子,对于其中未详尽描述的设备和结构,应当理解为采取本领域已有的通用设备及通用方法来予以实施。
以上所述仅为本发明的一个方案而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种全媒体文稿质量控制方法,包括以下步骤:
S1.获取在融媒生产平台发布的全媒体文稿;
S2.对所述全媒体文稿进行整体特征提取,获取所述全媒体文稿的整体特征评分;
S3.对所述全媒体文稿进行句子拆分和语法分析,获得句法评分;
S4.基于所述整体特征评分和所述句法评分,对所述全媒体文稿进行标记,并生成对所述全媒体文稿的整体评价。
2.根据权利要求1所述的媒体文稿质量控制方法,其特征在于,所述整体特征包括:结构特征和语言特征;
所述整体特征评分包括结构特征评分和语言特征评分;
步骤S2中,对所述全媒体文稿进行整体特征提取,获取所述全媒体文稿的整体特征评分的步骤中,包括:
S21.对所述全媒体文稿的结构进行判断,基于判断结果获取所述全媒体文稿的结构特征评分;
S22.对所述全媒体文稿的词汇进行判断,基于判断结果获取所述全媒体文稿的语言特征评分。
3.根据权利要求2所述的媒体文稿质量控制方法,其特征在于,步骤S21中,对所述全媒体文稿的结构进行判断,基于判断结果获取所述全媒体文稿的结构特征评分的步骤中,包括:
S211.判断所述全媒体文稿是否有分段;
S212.判断所述全媒体文稿是否有新闻六要素;
S213.判断所述全媒体文稿是否有图片;
S214.判断所述全媒体文稿是否有视频;
S215.判断所述全媒体文稿是否图文混排;
S216.汇总步骤S211-S215的判断结果生成所述结构特征评分。
4.根据权利要求3所述的媒体文稿质量控制方法,其特征在于,步骤S211中,若所述全媒体文稿存在分段,则在输出的判断结果中还包含有与所述分段的数量相匹配的预设数值;
步骤S213中,若所述全媒体文稿存在图片,则在输出的判断结果中还包含有与所述图片的数量相匹配的预设数值。
5.根据权利要求4所述的媒体文稿质量控制方法,其特征在于,步骤S22中,对所述全媒体文稿的词汇进行判断,基于判断结果获取所述全媒体文稿的语言特征评分的步骤中,包括:
S221.基于新闻报道慎用词汇表数据库对所述全媒体文稿进行识别,判断所述全媒体文稿中是否存在慎用新闻词汇;
S222.若存在所述慎用新闻词汇,则获取出现的所述慎用新闻词汇的数量;
S223.基于所述慎用新闻词汇的数量匹配相应的预设数值,并输出包含该预设数值的语言特征评分。
6.根据权利要求5所述的媒体文稿质量控制方法,其特征在于,步骤S223中,与所述慎用新闻词汇的数量相对应的所述预设数值为负值。
7.根据权利要求6所述的媒体文稿质量控制方法,其特征在于,步骤S3中,对所述全媒体文稿进行句子拆分和语法分析,获得句法评分的步骤中,包括:
S31.对所述全媒体文稿拆分为单条句子,并判断所述句子的句型,基于判断结果输出与所述句子的句型相对应的预设数值;
S32.对所述句子进行分词和词性标注,并对所述句子的情感值标注;
S33.若所述全媒体文稿中正面情感值的单句多,则标记为正面文稿,若所述全媒体文稿中负面情感值的单句多,则标记为负面文稿;
S34.汇总步骤S31至S33的输出结果,获得所述句法评分。
8.根据权利要求7所述的媒体文稿质量控制方法,其特征在于,步骤S32中,对所述句子进行分词和词性标注,并对所述句子的情感值标注的步骤中,将所述句子进行分词后的分词结果转换为词向量w,基于所述词向量w和朴素贝叶斯算法对所述分词结果和所述句子的情感值分别进行评分。
9.根据权利要求8所述的媒体文稿质量控制方法,其特征在于,基于所述词向量w和朴素贝叶斯算法对所述分词结果进行评分的步骤中,包括:
S321.基于所述词向量w和朴素贝叶斯算法建立计算公式,且计算公式为:
S322.基于所述计算公式获得与所述词向量w相对应的分词概率,且所述分词概率表示为:p(w0,w1,w2...wn|ci);
S323.基于所述分词概率得出所述分词结果的评分;
步骤S322中,假设各所述词向量w为独立特征,则所述分词概率表示为:p(w0|ci)p(w1|ci)p(w2|;ci)...p(wn|ci);
对所述句子的情感值进行评分的步骤中,包括:
S324.构建情感词典;
S325.基于所述情感词典和偶数分词概率,获取所述句子的情感值评分,其计算公式为:
其中,Np,Nn分别代表表达正面情感和负面情感的词汇数目;ωpi,ωpj分别代表正面情感词汇和负面情感词汇的权值。
10.根据权利要求1至9任一项所述的媒体文稿质量控制方法,其特征在于,采用全媒体文稿质量控制模型执行步骤S1至S4,其中,所述全媒体文稿质量控制模型通过以下步骤获得:
A1.构建包含全媒体文稿样本的历史数据集,并对所述历史数据集中的所述全媒体文稿样本进行等级划分;
A2.提取所述全媒体文稿样本的整体特征,并获取第一标准评分;
A3.对所述全媒体文稿样本进行句子拆分和语法分析,获得第二标准评分;
A4.基于所述全媒体文稿样本,所述整体特征,所述第一标准评分,句子拆分和语法分析结果和所述第二标准评分对机器学习模型进行训练,直到所述机器学习模型的输出分数与所述全媒体文稿样本的标准评分的误差在预设误差范围内,则获得所述全媒体文稿质量控制模型;
所述整体特征包括:结构特征和语言特征;
所述第一标准评分包括标准结构特征评分和标准语言特征评分;
步骤A2中,提取所述全媒体文稿样本的整体特征,并获取第一标准评分的步骤中,包括:
A21.对所述全媒体文稿的结构进行分析,基于分析结果获取所述全媒体文稿的标准结构特征评分;
A22.对所述全媒体文稿的词汇进行分析,基于分析结果获取所述全媒体文稿的标准语言特征评分;
步骤S21中,对所述全媒体文稿的结构进行分析,基于分析结果获取所述全媒体文稿的标准结构特征评分的步骤中,包括:
A211.判断所述全媒体文稿是否有分段;
A212.判断所述全媒体文稿是否有新闻六要素;
A213.判断所述全媒体文稿是否有图片;
A214.判断所述全媒体文稿是否有视频;
A215.判断所述全媒体文稿是否图文混排;
A216.汇总步骤A211-A215的分析结果生成所述标准结构特征评分;
步骤A211中,若所述全媒体文稿存在分段,则在输出的分析结果中还包含有与所述分段的数量相匹配的预设数值;
步骤S213中,若所述全媒体文稿存在图片,则在输出的分析结果中还包含有与所述图片的数量相匹配的预设数值;
步骤A22中,对所述全媒体文稿的词汇进行分析,基于分析结果获取所述全媒体文稿的语言特征评分的步骤中,包括:
A221.基于新闻报道慎用词汇表数据库对所述全媒体文稿进行识别,判断所述全媒体文稿中是否存在慎用新闻词汇;
A222.若存在所述慎用新闻词汇,则获取出现的所述慎用新闻词汇的数量;
A223.基于所述慎用新闻词汇的数量匹配相应的预设数值,并输出包含该预设数值的标准语言特征评分;
步骤A223中,与所述慎用新闻词汇的数量相对应的所述预设数值为负值;
步骤A3中,对所述全媒体文稿样本进行句子拆分和语法分析,获得第二标准评分的步骤中,包括:
A31.对所述全媒体文稿拆分为单条句子,并判断所述句子的句型,基于分析结果输出与所述句子的句型相对应的预设数值;
A32.对所述句子进行分词和词性标注,并对所述句子的情感值标注;
A33.若所述全媒体文稿中正面情感值的单句多,则标记为正面文稿,若所述全媒体文稿中负面情感值的单句多,则标记为负面文稿;
A34.汇总步骤S31至S33的输出结果,获得所述第二标准评分;
步骤A32中,对所述句子进行分词和词性标注,并对所述句子的情感值标注的步骤中,将所述句子进行分词后的分词结果转换为词向量w,基于所述词向量w和朴素贝叶斯算法对所述分词结果和所述句子的情感值分别进行评分;
基于所述词向量w和朴素贝叶斯算法对所述分词结果进行评分的步骤中,包括:
A321.基于所述词向量w和朴素贝叶斯算法建立计算公式,且计算公式为:
A322.基于所述计算公式获得与所述词向量w相对应的分词概率,且所述分词概率表示为:p(w0,w1,w2...wn|ci);
S323.基于所述分词概率得出所述分词结果的评分;
步骤A322中,假设各所述词向量w为独立特征,则所述分词概率表示为:p(w0|ci)p(w1|ci)p(w2|;ci)...p(wn|ci);
步骤S4中,基于所述全媒体文稿质量控制模型对所述全媒体文稿样本输出的正负面判断结果的准确度和召回率评估所述预设误差范围,其中,通过计算F score来评估所述预设误差范围的阈值,其中,F score表示为:
其中,Precision为准确度,recall为系统的召回率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011539244.9A CN113822514A (zh) | 2020-12-23 | 2020-12-23 | 一种全媒体文稿质量控制方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011539244.9A CN113822514A (zh) | 2020-12-23 | 2020-12-23 | 一种全媒体文稿质量控制方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113822514A true CN113822514A (zh) | 2021-12-21 |
Family
ID=78924840
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011539244.9A Pending CN113822514A (zh) | 2020-12-23 | 2020-12-23 | 一种全媒体文稿质量控制方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113822514A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110246177A1 (en) * | 2010-04-06 | 2011-10-06 | Samsung Electronics Co. Ltd. | Syntactic analysis and hierarchical phrase model based machine translation system and method |
CN105095190A (zh) * | 2015-08-25 | 2015-11-25 | 众联数据技术(南京)有限公司 | 一种基于中文语义结构和细分词库结合的情感分析方法 |
KR101826921B1 (ko) * | 2017-11-29 | 2018-02-07 | 한국과학기술정보연구원 | 기술정의문 생성장치 및 그 동작 방법 |
CN108363687A (zh) * | 2018-01-16 | 2018-08-03 | 深圳市脑洞科技有限公司 | 主观题评分及其模型的构建方法、电子设备及存储介质 |
CN109344256A (zh) * | 2018-10-12 | 2019-02-15 | 中国科学院重庆绿色智能技术研究院 | 一种新闻稿件主题分类及审核方法 |
CN109408801A (zh) * | 2018-08-28 | 2019-03-01 | 昆明理工大学 | 一种基于朴素贝叶斯算法的中文分词方法 |
CN110188349A (zh) * | 2019-05-21 | 2019-08-30 | 清华大学深圳研究生院 | 一种基于抽取式多文档摘要方法的自动化写作方法 |
WO2019214145A1 (zh) * | 2018-05-10 | 2019-11-14 | 平安科技(深圳)有限公司 | 文本情绪分析方法、装置及存储介质 |
-
2020
- 2020-12-23 CN CN202011539244.9A patent/CN113822514A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110246177A1 (en) * | 2010-04-06 | 2011-10-06 | Samsung Electronics Co. Ltd. | Syntactic analysis and hierarchical phrase model based machine translation system and method |
CN105095190A (zh) * | 2015-08-25 | 2015-11-25 | 众联数据技术(南京)有限公司 | 一种基于中文语义结构和细分词库结合的情感分析方法 |
KR101826921B1 (ko) * | 2017-11-29 | 2018-02-07 | 한국과학기술정보연구원 | 기술정의문 생성장치 및 그 동작 방법 |
CN108363687A (zh) * | 2018-01-16 | 2018-08-03 | 深圳市脑洞科技有限公司 | 主观题评分及其模型的构建方法、电子设备及存储介质 |
WO2019214145A1 (zh) * | 2018-05-10 | 2019-11-14 | 平安科技(深圳)有限公司 | 文本情绪分析方法、装置及存储介质 |
CN109408801A (zh) * | 2018-08-28 | 2019-03-01 | 昆明理工大学 | 一种基于朴素贝叶斯算法的中文分词方法 |
CN109344256A (zh) * | 2018-10-12 | 2019-02-15 | 中国科学院重庆绿色智能技术研究院 | 一种新闻稿件主题分类及审核方法 |
CN110188349A (zh) * | 2019-05-21 | 2019-08-30 | 清华大学深圳研究生院 | 一种基于抽取式多文档摘要方法的自动化写作方法 |
Non-Patent Citations (1)
Title |
---|
赵天奇等: "语义规则与表情加权融合的微博情感分析方法", 重庆邮电大学学报( 自然科学版), vol. 28, no. 4, pages 503 - 510 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111309912A (zh) | 文本分类方法、装置、计算机设备及存储介质 | |
CN109960804B (zh) | 一种题目文本句子向量生成方法及装置 | |
CN108304468A (zh) | 一种文本分类方法以及文本分类装置 | |
CN114547329A (zh) | 建立预训练语言模型的方法、语义解析方法和装置 | |
CN111651996A (zh) | 摘要生成方法、装置、电子设备及存储介质 | |
CN111930792A (zh) | 数据资源的标注方法、装置、存储介质及电子设备 | |
WO2023236252A1 (zh) | 答案生成方法、装置、电子设备及存储介质 | |
CN114266256A (zh) | 一种领域新词的提取方法及系统 | |
CN113821593A (zh) | 一种语料处理的方法、相关装置及设备 | |
CN112527977A (zh) | 概念抽取方法、装置、电子设备及存储介质 | |
CN112214989A (zh) | 一种基于bert的汉语句子简化方法 | |
CN115602161A (zh) | 一种中文语音增强识别及文本纠错矫正方法 | |
CN115526171A (zh) | 一种意图识别方法、装置、设备及计算机可读存储介质 | |
CN115033753A (zh) | 训练语料集构建方法、文本处理方法及装置 | |
CN111191029B (zh) | 基于监督学习和文本分类的ac构建方法 | |
CN116050419B (zh) | 一种面向科学文献知识实体的无监督识别方法及系统 | |
TWI734085B (zh) | 使用意圖偵測集成學習之對話系統及其方法 | |
CN115204143B (zh) | 一种基于prompt的文本相似度计算方法及系统 | |
CN115017271B (zh) | 用于智能生成rpa流程组件块的方法及系统 | |
CN113822514A (zh) | 一种全媒体文稿质量控制方法 | |
CN114676699A (zh) | 实体情感分析方法、装置、计算机设备和存储介质 | |
CN114548117A (zh) | 一种基于bert语义增强的因果关系抽取方法 | |
CN111859915A (zh) | 一种基于词频显著度水平的英文文本类别识别方法及系统 | |
CN117453895B (zh) | 一种智能客服应答方法、装置、设备及可读存储介质 | |
CN113722447B (zh) | 一种基于多策略匹配的语音搜索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |