CN109344256A - 一种新闻稿件主题分类及审核方法 - Google Patents
一种新闻稿件主题分类及审核方法 Download PDFInfo
- Publication number
- CN109344256A CN109344256A CN201811189190.0A CN201811189190A CN109344256A CN 109344256 A CN109344256 A CN 109344256A CN 201811189190 A CN201811189190 A CN 201811189190A CN 109344256 A CN109344256 A CN 109344256A
- Authority
- CN
- China
- Prior art keywords
- subject
- probability
- theme
- contribution
- manuscript
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
本发明涉及一种新闻稿件主题分类及审核方法,属于人工智能应用领域,包括步骤1.基于现有的已发布的稿件数据集构建LDA主题模型;2.设置可发布主题、可发布主题概率阈值、敏感词汇集、敏感词汇命中次数阈值;3.对待审稿件进行主题分析,计算其主题概率分布,对待审稿件按最大概率主题进行分类,将待审稿件纳入该类别;4.以文字匹配的方式,对待审稿件进行敏感词汇统计分析,统计每个敏感词的命中次数,计算总命中次数;5.对待审稿件进行阈值判定,审核稿件是否通过;6.输出待审稿件的审核结果、概率最大前三主题及其概率、敏感词汇过滤分析结果。本发明作为新闻稿件的预审核工具,是媒体行业应用人工智能和大数据技术进行采编流程重构的有效方法。
Description
技术领域
本发明属于人工智能和大数据应用领域,涉及一种新闻稿件主题分类及审核方法。
背景技术
在人工智能和大数据技术驱动下,为加快适应传统媒体和新兴媒体融合发展的需求,媒体行业急需开展前沿技术嵌入,积极运用人工智能和大数据技术进行媒体内容品质创新、采编流程重构。传统方式的新闻稿件审核完全依靠人工处理,采用人工智能和大数据技术对新闻稿件进行智能化审核,是媒体行业的发展趋势。
发明内容
有鉴于此,本发明的目的在于提供一种新闻稿件主题分类及审核方法。
为达到上述目的,本发明提供如下技术方案:
一种新闻稿件主题分类及审核方法,包括以下步骤:
S1:基于现有的已发布的稿件数据集构建LDA主题模型;
S2:设置可发布主题、可发布主题概率阈值、敏感词汇集、敏感词汇命中次数阈值;
S3:通过构建的LDA主题模型对待审稿件进行主题分析,计算其主题概率分布,对待审稿件按照最大概率主题进行分类,将待审稿件纳入该主题类别;
S4:以文字匹配的方式,对待审稿件进行敏感词汇统计分析,统计每个敏感词的命中次数,并计算总的命中次数;
S5:基于步骤S3和S4的分析结果,对待审稿件进行阈值判定,判断审核稿件是否通过;
S6:输出待审稿件的审核结果、概率最大的前三个主题及其概率、敏感词汇过滤分析统计结果。
步骤S1中构建的LDA主题模型可以不定期重新建立,不需要每次新闻稿件审核时都进行重建。LDA主题模型重新建立后,步骤S2中的可发布主题需要根据新建立的LDA主题模型输出的主题表述进行重新设置。
进一步,在步骤S2中,针对不同类型的新闻版块,设置不同的可发布主题,可发布主题的概率阈值根据具体情况动态调整,敏感词汇集及其命中总次数阈值根据具体情况动态调整。
进一步,在步骤S2中,对于同一个新闻版块,能够设置多个可发布主题,每个可发布主题分别设置相应的概率阈值。
进一步,在步骤S2中,可发布主题根据步骤S1所构建的LDA主题模型输出的主题表述进行设置。
进一步,步骤S1中所述的构建LDA主题模型,是基于已发布的新闻稿件数据集,保留其文字部分,去除图片和视频内容,自动构建LDA主题模型,获得每个主题下代表词汇及其概率分布。
进一步,步骤S3中所述对待审稿件进行主题分析,是基于已构建的LDA主题模型,对待审稿件进行主题分析,获得待审稿件的主题概率分布,统计概率最大的前三个主题并记录其对应概率值,作为输出信息的一部分。
进一步,在步骤S5中,综合主题分类分析和敏感词分析的结果,对待审稿件进行阈值判定审核,待审稿件同时满足如下三个条件的情况下,审核通过,否则审核不通过:
a)主题分类分析结果中,待审稿件的最大概率主题必须是预设置的可发布主题之一;
b)主题分类分析结果中,待审稿件的最大概率主题的概率必须大于等于预设置的相应概率阈值;
c)敏感词汇总的命中次数不超过预设置的总次数阈值。
本发明的有益效果在于:通过本发明的新闻稿件主题分类及审核方法,自动得到审核结果(是否通过),可用来作为新闻稿件预审核手段,减轻审核人员的工作量,提高工作效率;概率最大的前三个主题及其概率可提供待审稿件的总体判别,如果不符合当前新闻版块的主题要求,审稿人员可据此将该稿件推荐到其他相应的新闻版块,或者将此信息反馈给投稿人员;敏感词分析结果可用于规避新闻稿件发布后的负面社会影响。
附图说明
为了使本发明的目的、技术方案和有益效果更加清楚,本发明提供如下附图进行说明:
图1为本发明实施例所述的一种新闻稿件主题分类及审核方法的流程示意图。
具体实施方式
下面将结合附图,对本发明的优选实施例进行详细的描述。
如图1所示,一种新闻稿件主题分类及审核方法,包括以下步骤:
100:基于现有的已发布的稿件数据集构建LDA主题模型;
200:设置可发布主题、可发布主题概率阈值、敏感词汇集、敏感词汇命中次数阈值;
300:通过构建的LDA主题模型对待审稿件进行主题分析,计算其主题概率分布,对待审稿件按照最大概率主题进行分类,将待审稿件纳入该主题类别;
400:以文字匹配的方式,对待审稿件进行敏感词汇统计分析,统计每个敏感词的命中次数,并计算总的命中次数;
500:基于步骤300和400的分析结果,对待审稿件进行阈值判定,判断审核稿件是否通过;
600:输出待审稿件的审核结果、概率最大的前三个主题及其概率、敏感词汇过滤分析统计结果。
步骤100中构建的LDA主题模型可以不定期重新建立,不需要每次新闻稿件审核时都进行重建。LDA主题模型重新建立后,步骤200中的可发布主题需要根据新建立的LDA主题模型输出的主题表述进行重新设置。
步骤100中每个主题以多个代表词汇及其概率分布表示,如:
Topic_X:(word_1,p_1;word_2,p_2;…;word_M,p_M)
步骤100的主题模型由这些主题及其概率分布构成,如:
Model:(topic_1,r_1;topic_2,r_2;…;topic_K,r_K)
其中,r_1,r_2,…,r_K为对应主题的概率。
设置可发布主题时,根据步骤100中所构建的LDA主题模型输出的主题表述进行设置,假如,在模型中“财经”主题表示为(股票,0.3;期货,0.2;基金,0.3),则将“财经”设置为可发布主题时按照该表述进行同样的设置。
可选地,在步骤200中,针对不同类型的新闻版块,设置不同的可发布主题,可发布主题的概率阈值根据具体情况动态调整,敏感词汇集及其命中总次数阈值根据具体情况动态调整。
可选地,在步骤200中,对于同一个新闻版块,能够设置多个可发布主题,每个可发布主题分别设置相应的概率阈值。
可选地,在步骤200中,可发布主题根据步骤100所构建的LDA主题模型输出的主题表述进行设置。
可选地,步骤100中所述的构建LDA主题模型,是基于已发布的新闻稿件数据集,保留其文字部分,去除图片和视频内容,自动构建LDA主题模型,获得每个主题下代表词汇及其概率分布。
可选地,步骤300中所述对待审稿件进行主题分析,是基于已构建的LDA主题模型,对待审稿件进行主题分析,获得待审稿件的主题概率分布,统计概率最大的前三个主题并记录其对应概率值,作为输出信息的一部分。
可选地,在步骤500中,综合主题分类分析和敏感词分析的结果,对待审稿件进行阈值判定审核,待审稿件同时满足如下三个条件的情况下,审核通过,否则审核不通过:
a)主题分类分析结果中,待审稿件的最大概率主题必须是预设置的可发布主题之一;
b)主题分类分析结果中,待审稿件的最大概率主题的概率必须大于等于预设置的相应概率阈值;
c)敏感词汇总的命中次数不超过预设置的总次数阈值。
作为替代方案,可以为每个敏感词设置一个命中次数阈值,审核时要求每个敏感词的命中次数不超过其对应的次数阈值。
最后说明的是,以上优选实施例仅用以说明本发明的技术方案而非限制,尽管通过上述优选实施例已经对本发明进行了详细的描述,但本领域技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离本发明权利要求书所限定的范围。
Claims (7)
1.一种新闻稿件主题分类及审核方法,其特征在于:包括以下步骤:
S1:基于现有的已发布的稿件数据集构建LDA主题模型;
S2:设置可发布主题、可发布主题概率阈值、敏感词汇集、敏感词汇命中次数阈值;
S3:通过构建的LDA主题模型对待审稿件进行主题分析,计算其主题概率分布,对待审稿件按照最大概率主题进行分类,将待审稿件纳入该主题类别;
S4:以文字匹配的方式,对待审稿件进行敏感词汇统计分析,统计每个敏感词的命中次数,并计算总的命中次数;
S5:基于步骤S3和S4的分析结果,对待审稿件进行阈值判定,判断审核稿件是否通过;
S6:输出待审稿件的审核结果、概率最大的前三个主题及其概率、敏感词汇过滤分析统计结果。
2.根据权利要求1所述的一种新闻稿件主题分类及审核方法,其特征在于:在步骤S2中,针对不同类型的新闻版块,设置不同的可发布主题,可发布主题的概率阈值根据具体情况动态调整,敏感词汇集及其命中总次数阈值根据具体情况动态调整。
3.根据权利要求1所述的一种新闻稿件主题分类及审核方法,其特征在于:在步骤S2中,对于同一个新闻版块,能够设置多个可发布主题,每个可发布主题分别设置相应的概率阈值。
4.根据权利要求1所述的一种新闻稿件主题分类及审核方法,其特征在于:在步骤S2中,可发布主题根据步骤S1所构建的LDA主题模型输出的主题表述进行设置。
5.根据权利要求1所述的一种新闻稿件主题分类及审核方法,其特征在于:步骤S1中所述的构建LDA主题模型,是基于已发布的新闻稿件数据集,保留其文字部分,去除图片和视频内容,自动构建LDA主题模型,获得每个主题下代表词汇及其概率分布。
6.根据权利要求1所述的一种新闻稿件主题分类及审核方法,其特征在于:步骤S3中所述对待审稿件进行主题分析,是基于已构建的LDA主题模型,对待审稿件进行主题分析,获得待审稿件的主题概率分布,统计概率最大的前三个主题并记录其对应概率值,作为输出信息的一部分。
7.根据权利要求1所述的一种新闻稿件主题分类及审核方法,其特征在于:在步骤S5中,综合主题分类分析和敏感词分析的结果,对待审稿件进行阈值判定审核,待审稿件同时满足如下三个条件的情况下,审核通过,否则审核不通过:
a)主题分类分析结果中,待审稿件的最大概率主题必须是预设置的可发布主题之一;
b)主题分类分析结果中,待审稿件的最大概率主题的概率必须大于等于预设置的相应概率阈值;
c)敏感词汇总的命中次数不超过预设置的总次数阈值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811189190.0A CN109344256A (zh) | 2018-10-12 | 2018-10-12 | 一种新闻稿件主题分类及审核方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811189190.0A CN109344256A (zh) | 2018-10-12 | 2018-10-12 | 一种新闻稿件主题分类及审核方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109344256A true CN109344256A (zh) | 2019-02-15 |
Family
ID=65309324
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811189190.0A Pending CN109344256A (zh) | 2018-10-12 | 2018-10-12 | 一种新闻稿件主题分类及审核方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109344256A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110413899A (zh) * | 2019-07-03 | 2019-11-05 | 平安科技(深圳)有限公司 | 服务器存储新闻的存储资源优化方法及系统 |
CN110532556A (zh) * | 2019-08-29 | 2019-12-03 | 苏州朗动网络科技有限公司 | 文本新闻的处理方法、设备和存储介质 |
CN110609898A (zh) * | 2019-08-19 | 2019-12-24 | 中国科学院重庆绿色智能技术研究院 | 一种面向不平衡文本数据的自分类方法 |
CN111612414A (zh) * | 2020-04-24 | 2020-09-01 | 上海第一财经传媒有限公司 | 一种移动媒体应用管理系统 |
CN113822514A (zh) * | 2020-12-23 | 2021-12-21 | 常州中吴网传媒有限公司 | 一种全媒体文稿质量控制方法 |
CN114841155A (zh) * | 2022-04-21 | 2022-08-02 | 科技日报社 | 主题内容智能聚合方法、装置、电子设备及存储介质 |
CN115658887A (zh) * | 2022-09-28 | 2023-01-31 | 丽水市广播电视总台 | 一种基于云平台的广播融媒体信息采编发布管理系统 |
CN115658887B (zh) * | 2022-09-28 | 2024-04-26 | 丽水市广播电视总台 | 一种基于云平台的广播融媒体信息采编发布管理系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150154286A1 (en) * | 2013-12-02 | 2015-06-04 | Qbase, LLC | Method for disambiguated features in unstructured text |
US20150248476A1 (en) * | 2013-03-15 | 2015-09-03 | Akuda Labs Llc | Automatic Topic Discovery in Streams of Unstructured Data |
CN106354857A (zh) * | 2016-09-06 | 2017-01-25 | 中国传媒大学 | 一种新闻标签管理系统 |
CN106445998A (zh) * | 2016-05-26 | 2017-02-22 | 达而观信息科技(上海)有限公司 | 一种基于敏感词的文本内容审核方法及系统 |
CN107193892A (zh) * | 2017-05-02 | 2017-09-22 | 东软集团股份有限公司 | 一种文档主题确定方法及装置 |
CN107908669A (zh) * | 2017-10-17 | 2018-04-13 | 广东广业开元科技有限公司 | 一种基于并行lda的大数据新闻推荐方法、系统及装置 |
CN107943824A (zh) * | 2017-10-17 | 2018-04-20 | 广东广业开元科技有限公司 | 一种基于lda的大数据新闻分类方法、系统及装置 |
-
2018
- 2018-10-12 CN CN201811189190.0A patent/CN109344256A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150248476A1 (en) * | 2013-03-15 | 2015-09-03 | Akuda Labs Llc | Automatic Topic Discovery in Streams of Unstructured Data |
US20150154286A1 (en) * | 2013-12-02 | 2015-06-04 | Qbase, LLC | Method for disambiguated features in unstructured text |
CN106445998A (zh) * | 2016-05-26 | 2017-02-22 | 达而观信息科技(上海)有限公司 | 一种基于敏感词的文本内容审核方法及系统 |
CN106354857A (zh) * | 2016-09-06 | 2017-01-25 | 中国传媒大学 | 一种新闻标签管理系统 |
CN107193892A (zh) * | 2017-05-02 | 2017-09-22 | 东软集团股份有限公司 | 一种文档主题确定方法及装置 |
CN107908669A (zh) * | 2017-10-17 | 2018-04-13 | 广东广业开元科技有限公司 | 一种基于并行lda的大数据新闻推荐方法、系统及装置 |
CN107943824A (zh) * | 2017-10-17 | 2018-04-20 | 广东广业开元科技有限公司 | 一种基于lda的大数据新闻分类方法、系统及装置 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110413899A (zh) * | 2019-07-03 | 2019-11-05 | 平安科技(深圳)有限公司 | 服务器存储新闻的存储资源优化方法及系统 |
CN110413899B (zh) * | 2019-07-03 | 2024-03-08 | 平安科技(深圳)有限公司 | 服务器存储新闻的存储资源优化方法及系统 |
CN110609898A (zh) * | 2019-08-19 | 2019-12-24 | 中国科学院重庆绿色智能技术研究院 | 一种面向不平衡文本数据的自分类方法 |
CN110532556A (zh) * | 2019-08-29 | 2019-12-03 | 苏州朗动网络科技有限公司 | 文本新闻的处理方法、设备和存储介质 |
CN111612414A (zh) * | 2020-04-24 | 2020-09-01 | 上海第一财经传媒有限公司 | 一种移动媒体应用管理系统 |
CN111612414B (zh) * | 2020-04-24 | 2024-04-02 | 上海第一财经传媒有限公司 | 一种移动媒体应用管理系统 |
CN113822514A (zh) * | 2020-12-23 | 2021-12-21 | 常州中吴网传媒有限公司 | 一种全媒体文稿质量控制方法 |
CN114841155A (zh) * | 2022-04-21 | 2022-08-02 | 科技日报社 | 主题内容智能聚合方法、装置、电子设备及存储介质 |
CN115658887A (zh) * | 2022-09-28 | 2023-01-31 | 丽水市广播电视总台 | 一种基于云平台的广播融媒体信息采编发布管理系统 |
CN115658887B (zh) * | 2022-09-28 | 2024-04-26 | 丽水市广播电视总台 | 一种基于云平台的广播融媒体信息采编发布管理系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109344256A (zh) | 一种新闻稿件主题分类及审核方法 | |
TW201732662A (zh) | 一種建立資料識別模型的方法及裝置 | |
CN105357167A (zh) | 业务处理方法和装置 | |
CN110263238A (zh) | 一种基于大数据的舆情聆听系统 | |
CN110458109A (zh) | 一种基于图像识别技术的茶叶病害识别系统及工作方法 | |
CN106899809A (zh) | 一种基于深度学习的视频剪辑方法和装置 | |
CN111159645A (zh) | 一种基于产品生产履历和参数的不良根因定位方法 | |
US20180314952A1 (en) | Artificially intelligent historical analysis modeling and computer transaction ranking | |
CN109903053A (zh) | 一种基于传感器数据进行行为识别的反欺诈方法 | |
CN113207511A (zh) | 一种基于农药抗性监测的农药施用方法、系统及可读存储介质 | |
CN111914599A (zh) | 一种基于语义信息多层特征融合的细粒度鸟类识别方法 | |
TWI707299B (zh) | 光學檢測二次圖像分類方法 | |
CN114638696A (zh) | 信贷风险预测模型的训练方法及系统 | |
CN106940804B (zh) | 建筑工程物料管理系统表单数据自动录入方法 | |
CN104077128B (zh) | 一种数据处理方法及装置 | |
CN109903297A (zh) | 基于分类模型的冠脉分割方法及系统 | |
CN112466310A (zh) | 深度学习声纹识别方法、装置、电子设备及存储介质 | |
CN102938052A (zh) | 一种基于计算机视觉的甘蔗分割与识别方法 | |
CN108550053B (zh) | 基于平台技术的用户消费数据采集分析系统及方法 | |
CN106533784A (zh) | 一种提高应用层流量分类准确率的方法 | |
CN110413682A (zh) | 一种数据的分类展示方法及系统 | |
CN115471774A (zh) | 基于音视频双模态特征融合的视频时域动作分割方法 | |
CN107818505A (zh) | 金融数据智能决策方法及系统 | |
CN114077851A (zh) | 基于fsvc的球磨机工况识别方法 | |
CN112699896A (zh) | 一种基于MDFC-ResNet神经网络的农作物病害细粒度识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190215 |