CN111353077A

CN111353077A - 基于智能创作算法的融媒体采编发系统

Info

Publication number: CN111353077A
Application number: CN202010143738.9A
Authority: CN
Inventors: 崔岩松; 陈科良; 张晓欢; 任维政; 黄建明; 杨泰岳; 董晓静
Original assignee: Beijing Huanke Technology Co ltd; Beijing University of Posts and Telecommunications
Current assignee: Beijing Huanke Technology Co ltd; Beijing University of Posts and Telecommunications
Priority date: 2020-03-04
Filing date: 2020-03-04
Publication date: 2020-06-30
Anticipated expiration: 2040-03-04
Also published as: CN111353077B

Abstract

本发明公开的一种基于智能创作算法的融媒体采编发系统，包括业务终端、用户终端以及业务处理平台；业务处理平台包括，内容采集与智能处理模块，用于对原始资源进行预处理和语义处理形成语料库，并接收所述业务终端采写的文本序列，从语料库中智能检索与文本序列语义相匹配的文本序列，并输出至业务终端；多渠道整合发布与运营模块，利用爬虫算法提取多种类型的融媒体资源，并在多个用户终端进行认证多渠道融合发布。本发明能够完整替换新闻出版传媒企业现有的采编发流程，极大程度地提升行业内容产生的效率，同时基于智能创作算法能够实现自动化撰写服务，由此缩短了传统采编流程中素材搜集的时间，在提升创作效率的同时输出多样化的稿件。

Description

基于智能创作算法的融媒体采编发系统

技术领域

本发明属于信息处理技术领域，涉及一种基于智能创作算法的融媒体采编发系统。

背景技术

目前，大多数新闻出版传媒机构已经将存量资源数字化为多种类型的数据库产品。但是，在新媒体随着互联网和移动技术发展而崛起的今天，如何使传统媒体和新媒体融合发展，如何能集各种新闻出版传媒机构的优势于一身，整合各家优势资源并为内容创作提供智能化的辅助服务，是当下新闻出版传媒行业智能化转型的突出问题。

对于稿件生产过程提供智能化服务必不可少的就是自动语义分析，任何对语言的理解都可以归为语义分析的范畴。一段文本通常由词、句子和段落来构成，根据理解对象的语言单位不同，语义分析又可进一步分解为词汇级语义分析、句子级语义分析以及篇章级语义分析。语义分析的目标就是通过建立有效的模型和系统，实现在各个语言单位(包括词汇、句子和篇章等)的自动语义分析，从而实现理解整个文本表达的真实语义。

因此，提供一种用于实现自动化智能服务的基于智能创作算法的融媒体采编发系统是本领域技术人员亟待解决的技术问题。

发明内容

本发明针对上述研究现状和存在的问题，提供了一种基于智能创作算法的融媒体采编发系统。能够完整替换新闻出版传媒企业现有的采编发流程，为从业人员提供更加智能的内容创作、编审以及内容发布和运营支撑服务，极大程度地提升行业内容产生的效率，同时基于自然语言处理的智能文字润色功能能够实现自动化撰写润色服务，由此缩短了传统采编流程中素材搜集的时间，在提升创作效率的同时输出多样化的稿件。

为实现上述目的其具体方案如下：

一种基于智能创作算法的融媒体采编发系统，包括业务终端、用户终端以及业务处理平台；所述业务处理平台包括，

内容采集与智能处理模块，用于对原始资源进行预处理和语义处理形成语料库，并接收所述业务终端采写的文本序列，从语料库中智能检索与文本序列语义相匹配的文本序列，并输出至所述业务终端；

多渠道整合发布与运营模块，利用爬虫算法提取多种类型的融媒体资源，并在多个所述用户终端进行认证多渠道融合发布。

优选的，还包括统一内容资源管理平台，用于对所有资源内容进行统一管理与调取，所述资源内容包括文本内容、HowNet语料库、图片以及音视频等，以便于用户使用本系统进行创作的时候从后台智能的为用户推荐润色内容以及素材，从而满足全媒体资源统一管理与使用的需求。

优选的，还包括运营支撑平台，用于用户管理、产品管理以及集成与接口管理，集成与接口管理包括对所述用户终端和所述业务终端提供认证数据交互接口。

优选的，还包括多媒体编辑模块，多媒体编辑模块可以在用户创作稿件的时候提供辅助，包括稿件内容的智能润色、修改痕迹的记录等。智能润色功能在用户需要使用的时候通过选中编辑器中的文本进行调用，调用完成之后在界面呈现润色推荐结果列表；修改痕迹记录功能则在用户修改、保存的过程中自动对标题、副标题、稿件主要内容等区域的内容修改进行核对、保存，在用户需要回溯稿件内容的时候可以将所有修改记录呈现给用户。

优选的，所述内容采集与处理模块包括，

资源预处理模块，用于对原始资源进行预处理，包括去除干扰信息、资源拆分、分词、元数据补全的处理流程，得到若干词句片段，存储到基础资源库中；

语义处理模块，用于根据所述业务终端采写的文本序列提取关键词，并使用基础资源库中存储的HowNet语料库进行语义扩展和关键词概念关联，得到模板文本序列，存储至语料库；

查询模块，用于根据所述关键词在所述语料库中采用中文字符串模糊匹配算法进行匹配检索，得到与所述关键词相匹配的模板文本序列，并输出至所述业务终端。

优选的，所述资源与处理模块的具体处理过程包括：

去除干扰信息，原始资源的文档以XML格式输入，XML标签为原始资源的文本在所属书籍中的位置，每个XML标签对应一个标签权重，采用高通滤波器原理对给定标签权重范围内的XML标签进行筛选；

资源拆分，对筛选的文档按段落或按断句拆分为多个文本片段；

分词，将文本片段按照词语最大长度匹配法和/或拆分词组最少匹配法和/或最小词方差匹配法进行拆分，得到若干词句片段。

优选的，所述资源与处理模块的具体处理过程还包括：

元数据补全，将原始资源所述书籍的元数据存储至所述基础资源库中，所述元数据包括中图分类、内容摘要、作者信息。

优选的，所述语义处理模块根据所述业务终端采写的文本序列提取关键词具体过程包括：

对采写的文本序列采用如下关键词提取算法，

其中f(i)代表词语i出现的词频，n_i代表词语i在输入文本序列中出现的次数，x_i代表词语所在句子的标签权重，V(i)代表词语i的关键词权重值，M代表用一个完整标签包裹的输入文本序列总个数，M_i代表包含词语i的用一个完整标签包裹的文本序列总个数；

将关键词按照V(i)从高到低进行排序，然后从高到低进行关键词抽取。

优选的，所述查询模块根据所述关键词在所述语料库中采用中文字符串模糊匹配算法进行匹配检索的具体过程包括：

匹配度match(M,N)的计算公式如下所示，

其中，序列M＝{m_im_i+1...m_n}代表待匹配文本序列，即关键词序列，其中m_i代表序列中的每一个字符；序列N＝{n_in_i+1...n_n}代表语料库中存储的模板文本序列，其中n_i代表序列中的每一个字符；N_i,j表示在序列N上与序列M的子序列完全匹配的子序列；匹配度match(M,N)表示在序列N上有多少内容与M是匹配的；

如果match(M,N)＝1则是完全匹配，算法会依据匹配度从高到低输出匹配的模板文本序列。

优选的，所述用户终端包括门户网站、报纸、杂志排版制作平台、自媒体平台以及数字发布平台。

本发明相较现有技术具有以下有益效果：

本发明结合大数据与人工智能技术进行整体设计，结合新闻出版传媒领域的工作流程，设计了一套能够为采编人员提供便携化内容采写服务、智能化内容创作以及多渠道一站式发布与运营管理服务的融媒体平台。该平台能够提升稿件采集的效率、增强内容创作的多样性，并减少多渠道重复分发所带来的时间浪费。平台从资源采集管理到人员协作上促进媒体融合发展，这将对整个新闻出版传媒领域的智能化转型有深远的意义，本发明能够满足以下三类需求：(1)记者、编审以及相关管理人员进行稿件智能创作、编辑，以及统计数据管理与查看的需求；(2)编辑运营人员在各渠道发布稿件以及管理数字资源的需求；(3)公众用户、专业用户能够阅读通过平台发布的内容的需求。

本发明还基于智能语言处理算法，利用图书内容资源生成了语料库，这些语料库用于对智能文字筛选进行训练，通过对原始资源进行拆分、补全，去除冗余的处理，将用户输入的待润色文本通过算法处理从语料库中智能检索对应含义的建议语句。其功能主要体现在能够根据作者想要表达的意思智能替换润色后的多种文字表达艺术。作者能够直接使用这些建议语句，或通过这些建议产生创作灵感，拓宽创作思路，从而极大地提升创作的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明一种基于智能创作算法的融媒体采编发系统的框架图；

图2为本发明内容采集与智能处理模块的处理流程原理图；

图3为本发明内容采集与智能处理模块的处理结果界面示意图；

图4为本发明进行稿件处理的总流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见附图1，为一种基于智能创作算法的融媒体采编发系统框架图，包括业务终端、用户终端以及业务处理平台；

业务终端是直接为记者、编审人员提供稿件创作、编审以及统计服务的应用终端，同时也是核心业务处理平台为业务用户提供服务的出口端。该部分包含记者采写终端、编辑办公终端和审批终端三大部分。记者采写终端可以为记者提供在移动端和PC端撰写稿件的功能，移动端依赖于手机摄像头、MIC输入等，其能够实现多媒体稿件的采写与实时上传，极大程度地提升了新闻报道的实时性。审批终端则可以提供稿件审批、稿件相关数据的查询以及工作绩效查询等管理功能。

业务处理平台包括，

内容采集与智能处理模块，用于对原始资源进行预处理和语义处理形成语料库，并接收业务终端采写的文本序列，从语料库中智能检索与文本序列语义相匹配的文本序列，并输出至业务终端；

多渠道整合发布与运营模块，利用爬虫算法、AUTH 2.0认证授权技术提取多种类型的融媒体资源，与门户网站、报纸、杂志排版制作平台、自媒体平台以及其他数字发布平台进行无缝对接，实现一站式认证多渠道融合发布。

统一内容资源管理平台，用于对所有资源内容进行融合管理。

运营支撑平台，运营支撑平台包含通用支撑能力、统一用户管理、统一产品管理以及集成与接口管理，集成与接口管理模块能够对外提供更多的认证数据交互接口，从各方面为平台的稳定性和可扩展性提供支持。

多媒体编辑模块。

参见说明书附图4，本实施例在进行稿件采编发的流程如下：

(1)稿件在撰稿人初次编写并进行保存之后、提交给编辑进行审核之前处于草稿状态，草稿状态仅撰稿人自己可见，并可以随时进行编辑。

(2)稿件提交审核之后，平台所有成员即可看到该稿件，不过此时的稿件也分为两种状态：1)待审核，即撰稿人已经指定了投稿版面，相关版面的负责人可以看到该稿件并进行处理；2)待指派，即撰稿人未指定版面，需要由新闻中心根据稿件性质制定版面之后，才可以由相关版面编辑进行审核与编辑。

(3)编审人员对于稿件的处理操作有：1)直接通过，交由下一级审核；2)编辑后通过，交由下一级审核；3)退回。稿件只能逐级提交与逐级退回，并且退回后的稿件再提交时还是由退回稿件的人进行编辑审核。

(4)待发布操作：可以在后台给相关人员配置待发布操作按钮，通过这个按钮可以将稿件设置为完成审核的待发布状态，只有该状态的稿件可以支持一键发布到各大媒体上或者被传统媒体选用。

(5)一键发布：待发布状态的稿件可以由后台配置了一键发布权限的人员进行一键发布，一键发布功能可以将稿件一键发布到各大媒体平台上。

该流程展示了稿件生命周期的全部过程，整个系统的所有功能都在这条稿件处理流程的主线上进行设计与实现。

为了进一步优化上述技术方案，内容采集与处理模块包括，

资源预处理模块，用于对原始资源进行预处理，包括去除干扰信息、资源拆分、分词、元数据补全的处理流程，得到若干词句片段，存储到基础资源库中；资源与处理模块的具体处理过程包括：

去除干扰信息，原始资源的文档以XML格式输入，XML标签为原始资源的文本在所属书籍中的位置，每个XML标签对应一个标签权重，采用高通滤波器原理对给定标签权重范围内的XML标签进行筛选；通过去除干扰信息可以将原始资源(网页、小说、名著资源)中包含的一些和内容无关的干扰信息进行清理，对重复强调、修辞手法以及表达语气的部分进行去除，保证处理结果的准确性。干扰信息大多是广告、作者信息、丛书信息等，这些信息本身的标签权重值就较低，因此，基于高通滤波器理念来设计去除干扰信息算法即可满足需求。

以M代表输入的图书文本序列，以N代表输出的图书文本序列，以x代表文本序列的标签，以f(x)代表标签过滤函数，那么去除干扰信息的算法的表达式如下所示，

N＝M×f(x)

依据出版行业标准标签权重体系可知，标签权重在0.5及以下的时候，基本是属于无法为文字润色提供服务的干扰文本信息。因此，标签权重低于0.5的图书文本序列将被滤除。

资源拆分，对筛选的文档拆分为多个文本片段；资源拆分主要是为了提高资源处理效率，将一篇文档拆分成多个文本片段，可以按段落拆分也可以按句子拆分。拆分完成的文本片段包含的数据量大幅缩小，对于前后关联性大或句长极短的句子则选择按段拆分为后续的分词处理环节提供了便利。

分词，将文本片段按照词语最大长度匹配法和/或拆分词组最少匹配法和/或最小词方差匹配法进行拆分，得到若干词句片段。拆分后的文本片段通过分词环节能够输出大量的词语，这些词语会作为最小划分的基本单元存储到基础资源库中。本实施例所采用的中文分词方案基于MMSEG中文分词算法。结合HowNet的中文词语库，同时包含逐次递进的三个层级的处理步骤，输入的文本序列通过这三个层级的处理之后能够获得较为准确的分词结果。分词算法的三个层级表达如下：

第一个层级为“词语最大长度匹配”，它的含义为分词结果都是从HowNet词语库中能够匹配的最长词语。例如：词语“资源库”在HowNew词语库中可以找到1)“资”、“源”、“库”；2)“资源”、“库”；3)“资源库”这三种词语组合，最终的分词结果应该选取获得词语长度最长的一种，即“资源库”。

第二个层级为“拆分词组最少匹配方案”，它的含义为拆分后获得的词语个数最少的方案为最终选取的方案。例如：“房山区长阳镇”可以拆分为1)“房山”、“区长”、“阳镇”；2)“房山区”、“长阳镇”这两种词组。对于第一种拆分方案其拆分过后的词组为3个、第二种为2个，因此选取第二种分词方案更为合理。从以上分析可以看出，其实第二个层级的原理和第一个层级的原理一致，不过在待拆分句子较长的情况下使用第二层级会更为容易一些。

第三个层级为“最小词方差匹配方案”。如果上述两个层级都无法很好地获取到分词结果，则就需要使用本层级的分词方案进行分词。在中文语境中讲究“平均”，因此大多数作家行文的时候习惯使用同一长度的词语进行表达，比如“三字经”就是一个代表。这种“平均”在数学范畴的表达就是分词结果的所有词语长度的方差最小，如果以L₁L₂...L_N代表N种分词方案输出的不同词语序列，以σ²L_N代表词语序列L_N的词语长度方差，那么以公式表达的“最小词方差匹配方案”如下所示：

S＝Min(σ²L₁，σ²L₂，...,σ²L_N)

方差最小的分词结果即是当前方案下的输出，拆分后的文本片段通过上述分词环节能够输出大量的词语，这些词语会作为基本元素存储到基础资源库中。

元数据补全，将原始资源书籍的元数据存储至基础资源库中，元数据包括中图分类、内容摘要、作者信息。

语义处理模块，用于根据业务终端采写的文本序列提取关键词，并在基础资源库中进行语义扩展和关键词概念关联，得到模板文本序列，存储至语料库；基础资源库里存储的资源是经过分词处理之后的文本片段，要实现对于用户输入内容的语义理解，还需要对这些资源进行语义处理。语义处理模块根据业务终端采写的文本序列提取关键词具体过程包括：

对采写的文本序列采用如下关键词提取算法，

在算法中引入

的目的是为降低某些常用词语带来的影响。比如总共输入有20个文本序列，“但是”和“人工智能”在输入文本序列中都出现了20次，那么他们的词频是一样的。而前者在每个文本序列种都有出现，那么

的值就是

后者只在5个文本序列中有出现，那么

的值就是

这样，“人工智能”作为关键词的概率就比“但是”高。将关键词按照V(i)从高到低进行排序，然后从高到低进行关键词抽取。

概念扩展功能能够在提取关键字后，使用关键字和HowNet语义网进行概念扩展，将多个相同的概念指向同一段文字，丰富、扩展检索的内容。

概念关联功能是根据文本上下文，分析多个概念之间的关联度，在用户检索时，不仅给用户提供相同概念的文本，也给用户提供相关概念的文本，提高系统内容的丰富度、准确度。文本分类功能则是使用自然语言处理技术，对文本进行分类，支持用户按类型查询相关内容。关联度的分析基于互信息和左右信息熵的概念，互信息体现了两个变量之间的相互依赖程度，从统计学的视角而言，多字词表达内部词语之间的结合紧密程度依赖于词语的共现频度。如果某些互相成搭配的词语反复大量出现，即它们的共现频度越高，那么词语串的结合紧密性越强。

查询模块，该模块包含查询内容处理、内容检索、内容评价三大功能。

查询内容处理功能能够对查询内容进行分析，计算用户意图。内容检索功能将会根据分析结果，进行内容检索。

内容检索用于根据关键词在语料库中采用中文字符串模糊匹配算法进行匹配检索，得到与关键词相匹配的模板文本序列，并输出至业务终端。查询模块根据关键词在语料库中采用中文字符串模糊匹配算法进行匹配检索的具体过程包括：

匹配度match(M,N)的计算公式如下所示，

内容评价功能则对查询内容进行打分评价，并对符合要求优先度较高的结果进行截取，将处理后的结果返回给用户。

其中，资源预处理模块完成了对作者输入的原始文字的处理，语义处理模块接收处理后的原始信息确定文字所表达的概念，查询模块利用语料库寻找合适的备用语言表述方式。为了保证智能处理算法的完备性，本实施例对算法流程的各个阶段进行了分析与评估，并显示排序，为用户提供参考意见。

要实现智能化的文字处理，首先得有包含大量优秀表达语句的语料库。本实施例基于出版社提供的图书、期刊和报纸等内容资源提取了大量的名家名著、科学文献、优质文摘等原始素材资源，原始素材资源是直接从出版企业数字化之后的图书、期刊和报纸等内容资源中提取的文本数据，因此这些数据需要经过拆分、清洗等一系列预处理之后才能形成可以进行语义处理的基础数据资源。这些原始素材资源经过预处理和语义处理等一系列处理之后便会转化为语料库，用于对输入至系统的待处理的原始资源的处理润色。为使智能文字处理算法能对语义分析得到充分训练并能最终提供充足且合理的润色意见，语料库的完备性是必不可少的。一个完备的语料库包括了多语种的语料，语料数量达到百万级到千万级，对语料的加工处理涵盖了词法级到句法级再到语义和语用级。

参见说明书附图3，本实施例为撰稿人和审稿人都提供了一个稿件编辑器，用户可以在稿件编辑器中实现内容撰写和排版等一系列操作。在撰写稿件的过程中如果用户需要优化语言表达则可以划取待优化文本片段并点击按钮，后台在接收到待润色文本之后启动智能文字润色算法对文本进行分析处理，最后将输出内容按照得分由高到低呈现给用户。例如，用户在稿件编辑器中输入了“最想念家乡的枫叶，枫叶很美丽。”当作者意图对枫叶进行深入的描写而不只是简单直白的将其描述为“枫叶很美丽”时，选中“枫叶很美丽”并点击了“创作小助手”，系统界面上便呈现了润色结果，这些结果都是根据“美丽/枫叶”这个主题从语料库中提取出来的文本片段，用户可以直观地查询。

基础资源库制作完成之后，需要提取资源语义并形成语料库，这个模块被划分为语义处理模块。业务终端用户在向系统提交需要处理的内容之后系统会调用查询模块提取待润色语料库中和输入文本匹配的内容片段，然后使用评价模型对这些内容片段进行打分，最终输出按照分值由高到低排序的筛选结果。资源预处理模块和语义处理模块的工作目标为制作语料库、查询模块则通过内部构建的评价模型从语料库中筛选内容，这三个模块密切配合共同保证算法良好的执行效果。

以上对本发明所提供的一种基于智能创作算法的融媒体采编发系统进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本发明的限制。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种基于智能创作算法的融媒体采编发系统，其特征在于，包括业务终端、用户终端以及业务处理平台；所述业务处理平台包括，

2.根据权利要求1所述的一种基于智能创作算法的融媒体采编发系统，其特征在于，还包括统一内容资源管理平台，用于对所有资源内容进行统一管理与调取，所述资源内容包括文本内容、HowNet语料库、图片以及音视频。

3.根据权利要求1所述的一种基于智能创作算法的融媒体采编发系统，其特征在于，还包括运营支撑平台，用于用户管理、产品管理以及集成与接口管理，集成与接口管理包括对所述用户终端和所述业务终端提供认证数据交互接口。

4.根据权利要求1所述的一种基于智能创作算法的融媒体采编发系统，其特征在于，还包括多媒体编辑模块，所述多媒体编辑模块用于稿件内容的智能润色、修改痕迹的记录；其中，通过选中编辑器中的文本进行智能润色，完成之后在界面呈现润色推荐结果列表；修改痕迹记录包括在用户修改、保存的过程中自动对标题、副标题、稿件主要内容的修改进行核对、保存。

5.根据权利要求1所述的一种基于智能创作算法的融媒体采编发系统，其特征在于，所述内容采集与处理模块包括，

6.根据权利要求5所述的一种基于智能创作算法的融媒体采编发系统，其特征在于，所述资源与处理模块的具体处理过程包括：

7.根据权利要求6所述的一种基于智能创作算法的融媒体采编发系统，其特征在于，所述资源与处理模块的具体处理过程还包括：

8.根据权利要求5所述的一种基于智能创作算法的融媒体采编发系统，其特征在于，所述语义处理模块根据所述业务终端采写的文本序列提取关键词具体过程包括：

对采写的文本序列采用如下关键词提取算法，

9.根据权利要求1所述的一种基于智能创作算法的融媒体采编发系统，其特征在于，所述查询模块根据所述关键词在所述语料库中采用中文字符串模糊匹配算法进行匹配检索的具体过程包括：

匹配度match(M,N)的计算公式如下所示，

10.根据权利要求1所述的一种基于智能创作算法的融媒体采编发系统，其特征在于，所述用户终端包括门户网站、报纸、杂志排版制作平台、自媒体平台以及数字发布平台。