CN112612867A - 新闻稿件传播分析方法、计算机可读存储介质及电子设备 - Google Patents
新闻稿件传播分析方法、计算机可读存储介质及电子设备 Download PDFInfo
- Publication number
- CN112612867A CN112612867A CN202011329768.5A CN202011329768A CN112612867A CN 112612867 A CN112612867 A CN 112612867A CN 202011329768 A CN202011329768 A CN 202011329768A CN 112612867 A CN112612867 A CN 112612867A
- Authority
- CN
- China
- Prior art keywords
- news
- self
- compared
- produced
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 45
- 238000003860 storage Methods 0.000 title claims abstract description 11
- 230000007246 mechanism Effects 0.000 claims abstract description 24
- 230000008520 organization Effects 0.000 claims description 45
- 239000013598 vector Substances 0.000 claims description 31
- 238000012546 transfer Methods 0.000 claims description 28
- 238000000034 method Methods 0.000 claims description 19
- 230000011218 segmentation Effects 0.000 claims description 17
- 238000009826 distribution Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 6
- 230000007480 spreading Effects 0.000 claims description 6
- 238000003892 spreading Methods 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 4
- 238000004519 manufacturing process Methods 0.000 abstract description 18
- 230000005540 biological transmission Effects 0.000 abstract description 5
- 238000012552 review Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 4
- 230000004927 fusion Effects 0.000 description 4
- 241000590419 Polygonia interrogationis Species 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种新闻稿件传播分析方法和计算机可读存储介质,该新闻稿件传播分析方法首先基于同一分类标准分别对自产新闻数据库中的自产新闻和待比对新闻数据库中的待比对新闻进行分类,并根据分类结果计算同一所属类别下的待比对新闻与自产新闻之间的相似度信息,然后根据相似度信息确定待比对新闻是否转载或转引自产新闻,由此,能够更加全面和准确地分析出新闻稿件是否被转载或转引,为衡量新闻媒体机构的传播影响力提供依据,为新闻生产提供决策支持。
Description
技术领域
本发明涉及文档处理技术领域,尤其涉及一种新闻稿件传播分析方法、一种计算机可读存储介质和一种电子设备。
背景技术
随着智能终端的普及和媒体融合的快速发展,信息传播速度和广度得到极大提升。新闻资料是一种重要的媒体内容,数量大、传播快、影响范围广。各类媒体机构致力于生产高质量新闻内容,新闻传播影响力是度量新闻质量的重要指标,也是评估媒体机构影响力的关键因素。对新闻传播影响力的评价依据,除了包含阅读量、评论数、转发数等常规指标外,尤其应该重视新闻被其他媒体引用的情况。
目前,媒体机构大都建立了存储自产新闻的数据库系统,用于实现新闻稿件的查询、管理和发布等功能,同时还统计每条新闻被阅读、评论和转发的情况。通常,媒体机构会采用阅读量、评论数、转发数等指标作为影响力评价的依据,但这些指标主要是对新闻受众行为的归纳,有助于新闻撰写和用户个性化推荐等。实际上,新闻稿件被其他媒体机构引用的情况,能够更加客观、有效地衡量新闻稿件自身的内容质量、新闻价值以及该新闻传播的影响力。就目前媒体机构建设的新闻数据库系统而言,对于新闻稿件被引用的情况,没有得到有效的分析和处理。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明的第一个目的在于提出一种新闻稿件传播分析方法,能够更加全面和准确地分析出新闻稿件是否被转载或转引,为衡量新闻媒体机构的传播影响力提供依据,为新闻生产提供决策支持。
本发明的第二个目的在于提出一种计算机可读存储介质。
本发明的第三个目的在于提出一种电子设备。
为达到上述目的,本发明第一方面实施例提出一种新闻稿件传播分析方法,包括:
基于同一分类标准分别对自产新闻数据库中的自产新闻和待比对新闻数据库中的待比对新闻进行分类;
根据分类结果计算同一所属类别下的待比对新闻与自产新闻之间的相似度信息;
根据相似度信息确定待比对新闻是否转载或转引自产新闻。
根据本发明实施例的新闻稿件传播分析方法,首先基于同一分类标准分别对自产新闻数据库中的自产新闻和待比对新闻数据库中的待比对新闻进行分类,并根据分类结果计算同一所属类别下的待比对新闻与自产新闻之间的相似度信息,然后根据相似度信息确定待比对新闻是否转载或转引自产新闻,由此,能够更加全面和准确地分析出新闻稿件是否被转载或转引,为衡量新闻媒体机构的传播影响力提供依据,为新闻生产提供决策支持。
根据本发明的一个实施例,根据相似度信息确定所述待比对新闻是否转载或转引自产新闻,包括:
根据相似度信息判断待比对新闻是否全文转载自产新闻;
若是,则标记待比对新闻全文转载自产新闻并存储;若否,则判断待比对新闻是否部分转载自产新闻;
若是,则标记待比对新闻部分转载自产新闻并存储;若否,则判断待比对新闻是否全文转引自产新闻;
若是,则标记待比对新闻全文转引自产新闻并存储;若否,则判断待比对新闻是否部分转引自产新闻;
若是,则标记待比对新闻部分转引自产新闻并存储。
根据本发明的一个实施例,对自产新闻数据库中的自产新闻和待比对新闻数据库中的待比对新闻进行分类之前,还包括:
对自产新闻数据库中的自产新闻进行文档切分和关键词提取,以获取自产新闻的词向量及其权重;
对待比对新闻数据库的待比对新闻进行清洗,并对清洗后的待比对新闻进行关键词提取,获取待比对新闻的词向量及其权重。
根据本发明的一个实施例,所述判断待比对新闻是否全文转载自产新闻,包括:
采用基于长文本去重的算法模型计算待比对新闻与自产新闻之间的第一相似度;
若第一相似度大于预设的第一阈值,则标记待比对新闻全文转载自产新闻。
根据本发明的一个实施例,判断待比对新闻是否部分转载所述自产新闻,包括:
在待比对新闻中检索所述自产新闻所属的媒体机构名称并进行定位;
若检索结果不为空,则基于所述媒体机构名称的位置获取待比对新闻中所述媒体机构名称的位置的前一句、当前句和后一句;
采用基于短文本去重的算法模型计算媒体机构名称的位置的前一句、当前句和后一句与自产新闻进行文档切分后的相应句子之间的第二相似度;
若媒体机构名称的位置的前一句、当前句和后一句与所产新闻进行文档切分后的相应句子之间的第二相似度均大于预设的第二阈值,则标记待比对新闻部分转载自产新闻。
根据本发明的一个实施例,判断所述待比对新闻是否全文转引自产新闻,包括:
根据待比对新闻的词向量及其权重和自产新闻的词向量及其权重,采用基于长文本语义相似度的算法模型计算待比对新闻与自产新闻之间的第三相似度;
若第三相似度大于预设的第三阈值,则标记所比对新闻全文转引自产新闻。
根据本发明的一个实施例,所述判断待比对新闻是否部分转引自产新闻,包括:
在待比对新闻中检索自产新闻所属的媒体机构名称并进行定位;
若检索结果不为空,则基于媒体机构名称的位置获取待比对新闻中媒体机构名称的位置的前一句、当前句和后一句;
获取待比对新闻中媒体机构名称的位置的前一句、当前句和后一句的词向量及其权重;
根据待比对新闻中媒体机构名称的位置的前一句、当前句和后一句的词向量及其权重,以及自产新闻的词向量及其权重,采用基于短文本语义相似度的算法模型计算媒体机构名称的位置的前一句、当前句和后一句与自产新闻进行文档切分后的相应句子之间的第四相似度;
若媒体机构名称的位置的前一句、当前句和后一句与自产新闻进行文档切分后的相应句子之间的第四相似度均大于预设的第四阈值,则标记待比对新闻部分转引自产新闻。
根据本发明的一个实施例,基于同一分类标准分别对自产新闻数据库中的自产新闻和待比对新闻数据库的待比对新闻进行分类之前,还包括:
建立自产新闻数据库,其中,自产新闻数据库为结构化数据库,自产新闻数据库的字段包括自产新闻的稿件标题、稿件正文和发表日期;
建立待比对新闻数据库,其中,待比对新闻数据库为结构化数据库,待比对新闻数据库的字段包括待比对新闻的稿件标题、稿件正文和发表日期。
为达到上述目的,本发明第二方面实施例提出了一种计算机可读存储介质,其上存储有新闻稿件传播分析程序,该新闻稿件传播分析程序被处理器执行时实现前述新闻稿件传播分析方法。
根据本发明实施例的计算机可读存储介质,通过前述的新闻稿件传播分析方法,能够更加全面和准确地分析出新闻稿件是否被转载或转引,为衡量新闻媒体机构的传播影响力提供依据,为新闻生产提供决策支持。
为达到上述目的,本发明第三方面实施例提出的一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的新闻稿件传播分析程序,所述处理器执行所述新闻稿件传播分析程序时,实现前述新闻稿件传播分析方法。
根据本发明实施例的电子设备,通过前述的新闻稿件传播分析方法,能够更加全面和准确地分析出新闻稿件是否被转载或转引,为衡量新闻媒体机构的传播影响力提供依据,为新闻生产提供决策支持。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
图1为根据本发明实施例的新闻稿件传播分析方法的流程图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例提出的新闻稿件传播分析方法、计算机可读存储介质及电子设备。
在本申请中,参考图1所示,新闻稿件的传播分析方法包括:
步骤S100,基于同一分类标准分别对自产新闻数据库中的自产新闻和待比对新闻数据库中的待比对新闻进行分类。
具体来说,自产新闻为特定媒体机构自行发表的新闻,待比对新闻为除该特定媒体机构外其他媒体发表的新闻。基于同一分类标准对自产新闻和待比对新闻进行分类可以是基于知识领域(例如政治、军事、社会、外交、文化、体育、娱乐等)对自产新闻和待比对新闻进行文本分类,并分别给自产新闻和待比对新闻标记1-2个分类标签,并存入各自的数据库中。
在其中一个实施例中,在步骤S100之前还包括:建立自产新闻数据库,其中自产新闻数据库为结构化数据库,自产新闻数据库的字段包括自产新闻的稿件标题、稿件正文和发表日期;建立待比对新闻数据库,其中待比对新闻数据库为结构化数据库,待比对新闻数据库的字段包括待比对新闻的稿件标题、稿件正文和发表日期。
具体来说,在建立自产新闻数据库时,可对媒体机构自产新闻进行归档,结构化存储至数据库中,数据库字段包括稿件标题、稿件正文以及发表日期等,即自产新闻数据库为该媒体机构自行发表的新闻稿件的集合。在建立待比对新闻数据库时,可利用网页爬取、第三方(如微博、微信等)数据接口调用等方式,采集或获取待比对新闻,建立待比对新闻数据库,即待比对新闻数据库为该媒体机构通过一定方式获得的其他媒体机构发表的新闻稿件的集合。
在其中一个实施例中,对自产新闻数据库中的自产新闻和待比对新闻数据库中的待比对新闻进行分类之前,在建立待比对新闻数据库和自产新闻数据库之后,还包括:对自产新闻数据库中的自产新闻进行文档切分和关键词提取,以获取自产新闻的词向量及其权重;对待比对新闻数据库中的待比对新闻进行清洗,并对清洗后的待比对新闻进行关键词提取,获取待比对新闻的词向量及其权重。
具体来说,对自产新闻数据库中的自产新闻和待比对新闻数据库中的待比对新闻进行分类之前,还对数据库中的自产新闻和待比对新闻进行预处理。
其中,对自产新闻的预处理可包括对自产新闻进行文档切分和关键词提取,以获取自产新闻的词向量及其权重,具体可以是对自产新闻进行文档切分,以将自产新闻切分为多个句子。按句切分主要依据新闻稿件所用语言对应的句子结束符号,如中文的句号、问号、感叹号和省略号,英文中的句点和问号。自产新闻的关键词提取主要是对自产新闻进行分词,保留名词、动词和动名词,采用主流关键词提取算法并结合命名实体识别技术,提取出每条新闻的人物、地点、机构和主题词,并生成关键词的词向量及其权重存入数据库。
对待比对新闻进行预处理可包括对待比对新闻进行清洗,并对清洗后的待比对新闻进行关键词提取,获取待比对新闻的词向量及其权重,例如,由于利用网页爬取技术获取的待比对新闻中可能存在网页标记和乱码等信息,因此可先对待比对新闻进行清洗以去除待比对新闻中的网页标记和乱码等信息,然后对清洗后的待比对新闻进行关键词,具体提取的方式与前述对自产新闻的提取方式相同,在此不再赘述。
步骤S200,根据分类结果计算同一所属类别下的待比对新闻与自产新闻之间的相似度信息。
具体地,在进行相似度比较时,先从待比对新闻数据库中获取一条待比对新闻,根据待比对新闻的发表日期,对同一所属类别下自产新闻数据库中的自产新闻进行筛选,筛选出该发表日期之前的自产新闻。将该待比对新闻与同一所属类别下发表日期在该待比对新闻之前的自产新闻一一对比,获取该待比对新闻与前述自产新闻的相似度信息,然后逐一将待比对新闻数据库中的每一条待比对新闻做上述相似度对比。
步骤S300,根据相似度信息确定待比对新闻是否转载或转引自产新闻。
其中,转载为不加改动地直接引用,转引为稍作改写地引用。当待比对新闻转载自产新闻时,待比对新闻可以转载自产新闻的全文,也可以转载自产新闻的一部分;当待比对新闻转引自产新闻时,待比对新闻可以转引自产新闻的全文,也可以转引自产新闻的一部分,因此可将待比对新闻的转载或转引分为四个类别,分别为全文转载(即对整篇新闻不做更改或只做个别字词的更改后,直接全文引用,发布为一条新的新闻)、部分转载(即对新闻中的部分段落或句子不做更改或只做个别字词的更改后,直接引用为另一条新闻的一部分)、全文转引(即对整篇新闻进行了多处字词更改或在保留基本语义的基础上进行了语句改写,将改写后的整篇新闻作为一条新的新闻发布)以及部分转引(对新闻中的部分段落或句子在保留基本语义的基础上进行了多处字词更改或语句改写,将改写后的内容作为另一条新闻的一部分)。本实施例中,若待比对新闻和自产新闻的相似度大于一定阈值,则可判断待比对新闻转载或转引自产新闻。
上述实施例提供的新闻稿件传播分析方法,通过建立自产新闻数据库和待比对新闻数据库,将自产新闻数据库和待比对新闻数据库基于同一分类标准进行分类,然后在同一所属类别下逐条计算待比对新闻和自产新闻之间的相似度,通过采用文本分类的方法缩小了比对分析的范围,根据比较的相似度结果找出转载或转引自产新闻的待比对新闻,从而给媒体机构提供了分析自产新闻稿件传播影响力的依据,帮助媒体机构客观有效地分析自产新闻的新闻价值和内容质量,也有助于媒体机构评估自己影响力。
在其中一个实施例中,步骤S300即根据相似度信息确定待比对新闻是否全文转载或转引自产新闻包括:根据相似度信息判断待比对新闻是否全文转载自产新闻;若是,则标记待比对新闻全文转载自产新闻并存储;若否,则判断待比对新闻是否部分转载自产新闻;若是,则标记待比对新闻部分转载自产新闻并存储;若否,则判断待比对新闻是否全文转引自产新闻;若是,则标记待比对新闻全文转引自产新闻并存储;若否,则判断待比对新闻是否部分转引自产新闻;若是,则标记待比对新闻部分转引自产新闻并存储。
在其中一个实施例中,判断待比对新闻会否全文转载自产新闻包括:采用基于长文本去重的算法模型计算待比对新闻与自产新闻之间的第一相似度;若第一相似度大于预设的第一阈值,则标记待比对新闻全文转载自产新闻。
具体地,基于长文本去重的算法模型包括Simhash算法、E-Simhah算法和基于段落主题的文本去重算法等。Simhash算法是一种局部敏感哈希算法,通过指纹之间的距离度量就可以体现文本的相似程度。E-Simhash算法针对Simhash算法的缺点,引入TF-IDF(termfrequency–inverse document frequency,词频-逆向文件频率)和信息熵,通过优化Simhash算法中的权重及阈值计算,增加文本分布信息,使得最终生成的指纹更能体现关键信息的比重,并对指纹信息与权重的关联性进行了分析。基于段落主题的文本去重算法相比于SimHash算法充分考虑了文本的结构以及特性的分布情况。SimHash算法是一个文本产生一个指纹,而基于段落主题的文本去重算法是文本中的每个段落产生一个指纹,因而一个文本可以表达为其包含段落的指纹集合。对于同一个文本而言,基于段落主题的指纹集合比单一指纹包含更多的信息,从而提高对文本相似度判断的准确率。
在采用基于长文本去重的算法模型计算获得待比对新闻与自产新闻之间的相似度信息时,将该相似度信息记为第一相似度,并对其进行判断,若该第一相似度大于预设的第一阈值(如海明距离小于4),则可判定该待比对新闻属于全文转载类别,此时标记待比对新闻为全文转载自产新闻。
在其中一个实施例中,判断待比对新闻是否部分转载自产新闻包括:在待比对新闻中检索自产新闻所属媒体机构的名称并进行定位;若检索结果不为空,则基于媒体结构名称的位置获取待比对新闻中媒体机构名称的位置的前一句、当前句和后一句;采用基于短文本去重的算法模型计算媒体机构名称的位置的前一句、当前句和后一句与自产新闻进行文档切分后的相应句子之间的第二相似度;若媒体机构名称的位置的前一句、当前句与后一句与自产新闻进行文档切分后的相应句子的第二相似度大于预设的第二阈值,则标记待比对新闻部分转载自产新闻。
具体来说,其他媒体机构在部分转载本媒体机构发表的自产新闻时,通常会在转载的内容前后标注本媒体机构的名称(包括全称、简称、同义词表述),因此通过在待比对新闻中检索本媒体机构的名称可以缩小对比分析的范围,减少对比工作量。在待比对新闻中未检索到本媒体机构的名称,即检索结果为空时,可以判断当前的待比对新闻并未部分转载自产新闻,则可以将待比对新闻进行全文转引判断或部分转引判断。若在待比对新闻中检索到本媒体机构的名称,则对媒体机构名称进行定位,鉴于转载的内容通常在媒体机构名称位置的前后,因此获取待比对新闻中媒体机构名称的位置的前一句、当前句和后一句,并基于短文本去重的算法模型计算媒体机构名称的位置的前一句、当前句和后一句与自产新闻进行文档切分后的相应句子之间的第二相似度,若第二相似度大于预设的第二阈值,则标记待比对新闻部分转载自产新闻。
本实施例中,基于短文本去重的算法模型可以是LCS(Longest CommonSubstring,最长公共连续子串)算法、TF-IDF算法或改进的Shingling算法等。其中LCS(Longest Common Substring)算法是利用两个文本中词语的最大公共子串的长度来计算文本之间的相似度。TF-IDF算法是将文本建模成词频向量,运用余弦相似度来衡量文本之间的相似度。改进的Shingling算法是基于特征迭代的短文本去重算法,该算法首先对SimHash的结果进行聚类,然后找出聚簇中的特征对原始特征进行增删,循环迭代直至特征集合收敛,从而达到了短文本去重目的。采用改进的Shingling算法能更好地支持短文本,且具有更高的准确率和召回率。
在其中一个实施例中,判断待比对新闻是否全文转引自产新闻的步骤包括:根据待比对新闻的词向量及其权重和自产新闻的词向量及其权重,采用基于长文本语义相似度的算法模型计算待比对新闻与自产新闻之间的第三相似度;当第三相似度大于预设的第三阈值时,则标记待比对新闻全文转引自产新闻。
具体地,当待比对新闻转引自产新闻时会对自产新闻做一定程度的改写,因此待比对新闻与自产新闻句子可能不同,但语义相似度较高。通过采用基于长文本语义相似度的算法模型(如向量空间模型)计算待比对新闻的词向量及其权重和自产新闻的词向量及其权重的第三相似度,并比较第三相似度与第三阈值的大小判断待比对新闻是否全文转引自产新闻。当第三相似度大于预设的第三阈值时,标记待比对新闻全文转引自产新闻。其中,基于长文本语义相似度的算法模型可以是基于LDA(Latent Dirichlet Allocation,线性判别式分析)的相似度算法或分阶段融合的语义相似度算法。基于LDA的相似度算法利用词语中的共同信息对文本进行主题建模,挖掘出文本中潜在的语义信息,从而计算出文本之间的语义相似度。分阶段融合的语义相似度算法分层次划分文本,将文本划分为段落,段落划分为句子,句子划分为词语,然后进行文本特征选择,分阶段计算词语、句子、段落的相似度,融合后计算出文本的相似度。
本实施例中,第三阈值可设置为较高的阈值,例如95%,当第三相似度大于95%时,标记待比对新闻全文转引自产新闻。进一步地,在进行第三相似度比较时还可设置两档阈值,第三阈值为第一档阈值,第二档阈值小于第一档阈值(也即第三阈值),例如第二档阈值可设置为80%,当第三相似度大于第二档阈值小于第一档阈值时,例如第三相似度大于80%小于95%时,可标记待比对新闻疑似全文转移自产新闻,并留待人工审核。由于转引存在一定程度的改写,语义相似度对比结果可能较低,通过设置两档阈值,相似度比较结果大于第一档阈值的待比对新闻可以确定为全文转引自产新闻,无需人工审核,相似度比较结果大于第二档阈值小于第一档阈值的待比对新闻大概率为全文转引自产新闻,通过留待后续人工审核来确定是否转引,一方面可以保证一定的准确率,另一方便还可以降低人工审核的工作量,减轻人工负担。
在其中一个实施例中,判断待比对新闻是否部分转引自产新闻包括:在待比对新闻中检索自产新闻所属的媒体机构的名称并进行定位;若检索结果不为空,则基于媒体机构名称的位置获取待比对新闻中媒体机构名称的位置的前一句、当前句和后一句;获取待比对新闻中媒体机构名称的位置的前一句、当前句和后一句的词向量及其权重,根据待比对新闻中媒体机构名称的位置的前一句、当前句和后一句的词向量及其权重,以及自产新闻的词向量及其权重,采用基于短文本语义相似度的算法模型极端媒体机构名称的位置的前一句、当前句和后一句与自产新闻进行文档切分后的相应句子之间的第四相似度,若第四相似度大于预设的第四阈值,则标记待比对新闻部分转引自产新闻。
具体地,其他媒体机构在部分转引本媒体机构发表的自产新闻时,通常会在转引的内容前后标注本媒体机构的名称,因此通过在待比对新闻稿件中检索本媒体机构的名称可以缩小对比分析的范围,减少对比工作量。在检索到媒体机构名称后,对媒体机构名称的位置的前一句、当前句和后一句与自产新闻切分后的句子进行语义相似度对比,也即分别提取两者的关键词及其词向量基于短文本语义相似度进行相似度对比,本实施例中基于短文本语义相似度的算法模型可以是多重检验加权融合的相似度算法、基于词向量和卷积神经网络的算法或基于复杂网络的短文本语义相似度算法等。若两者的第四相似度大于预设的第四阈值,则标记待比对新闻部分转引自产新闻。
举例来说,第四阈值可以为95%,也就是说当两者的第四相似度大于95%时,标记待比对新闻部分转引自产新闻。进一步地,在进行第四相似度的比较时,还可以设置两档阈值,第四阈值为第一档阈值,第二档阈值小于第一档阈值,例如可以是80%,当第四相似度大于第二档阈值小于第一档阈值时,例如第四阈值大于80%小于95%时,可以将该待比对新闻标记为疑似部分转引自产新闻,并留待人工审核。由于转引存在一定程度的改写,语义相似度对比结果可能较低,通过设置两档阈值,相似度比较结果大于第一档阈值的待比对新闻可以确定为部分转引自产新闻,无需人工审核,相似度比较结果大于第二档阈值小于第一档阈值的待比对新闻大概率为部分转引自产新闻,通过留待后续人工审核来确定是否转引,一方面可以保证一定的准确率,另一方便还可以降低人工审核的工作量,减轻人工负担。
当判断待比对新闻全文转载、部分转载、全文转引或部分转引自产新闻时,将待比对新闻标记并存储至相应的内存分区中,当判断待比对新闻没有全文转载、部分转载、全文转引和部分转引自产新闻时,则进行下一条待比对新闻的对比。
可以理解的是,全文转载、部分转载、全文转引和部分转引的判断顺序不一定按照上述顺序进行,也可以以其他顺序进行,例如可以先进行全文转载、全文转引判断,再进行部分转载、部分转引判断。
上述新闻稿件传播分析方法,对媒体机构发表的新闻稿件的引用情形,从引用比例大小和改写程度高低两个维度,划分为全文转载、部分转载、全文转引、部分转引四种类别,该划分符合实际应用的需要,有利于对新闻引用情况进行细粒度的分析,从而更加有效地进行新闻传播影响力分析。同时,针对四种类别,分别采用适宜的分析方法,例如,全文转载分析可采用Simhash的方法,部分转载可采用改进的Shingling算法,全文转引和部分转引分析可以在提取代表文章或句子语义的关键词的基础上,采用计算词向量的余弦相似度的方法,从而使得分析更加准确。同时,在分析过程中,采取了有效机制,提高了分析效率和质量:一是采用文本分类的方法缩小了比对分析的范围;二是对应部分转载和部分转引分析,检索和定位媒体机构名称,大大缩减了参与比对分析的句子的数量和媒体机构实际工作的需求。。
综上所述,根据本发明实施例的新闻稿件传播分析方法,基于同一分类标准分别对自产新闻数据库中的自产新闻和待比对新闻数据库中的待比对新闻进行分类,并根据分类结果计算同一所属类别下的待比对新闻与自产新闻之间的相似度信息,以及根据相似度信息确定待比对新闻是否转载或转引自产新闻,能够更加全面和准确地分析出新闻稿件是否被转载或转引,为衡量新闻媒体机构的传播影响力提供依据,为新闻生产提供决策支持。
另外,本申请的又一实施例提供一种计算机可读存储介质,其上存储有新闻稿件传播分析程序,该新闻稿件传播分析程序被处理器执行时实现前述的新闻稿件传播分析方法,关于本申请中新闻稿件传播分析程序运行的描述,请参考本申请中关于新闻稿件传播分析法的描述,具体这里不再赘述。
根据本发明实施例的计算机可读存储介质,通过前述的新闻稿件传播分析方法,能够更加全面和准确地分析出新闻稿件是否被转载或转引,为衡量新闻媒体机构的传播影响力提供依据,为新闻生产提供决策支持。
此外,本申请的又一实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的新闻稿件传播分析程序,处理器执行新闻稿件传播分析程序时,实现前述的新闻稿件传播分析方法,具体这里不再赘述。
根据本发明实施例的电子设备,通过前述的新闻稿件传播分析方法,能够更加全面和准确地分析出新闻稿件是否被转载或转引,为衡量新闻媒体机构的传播影响力提供依据,为新闻生产提供决策支持。
需要说明的是,在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种新闻稿件传播分析方法,其特征在于,包括:
基于同一分类标准分别对自产新闻数据库中的自产新闻和待比对新闻数据库中的待比对新闻进行分类;
根据分类结果计算同一所属类别下的待比对新闻与自产新闻之间的相似度信息;
根据所述相似度信息确定所述待比对新闻是否转载或转引所述自产新闻。
2.根据权利要求1所述的新闻稿件传播分析方法,其特征在于,根据所述相似度信息确定所述待比对新闻是否转载或转引所述自产新闻,包括:
根据所述相似度信息判断所述待比对新闻是否全文转载所述自产新闻;
若是,则标记所述待比对新闻全文转载所述自产新闻并存储;若否,则判断所述待比对新闻是否部分转载所述自产新闻;
若是,则标记所述待比对新闻部分转载所述自产新闻并存储;若否,则判断所述待比对新闻是否全文转引所述自产新闻;
若是,则标记所述待比对新闻全文转引所述自产新闻并存储;若否,则判断所述待比对新闻是否部分转引所述自产新闻;
若是,则标记所述待比对新闻部分转引所述自产新闻并存储。
3.根据权利要求2所述的新闻稿件传播分析方法,其特征在于,对自产新闻数据库中的自产新闻和待比对新闻数据库中的待比对新闻进行分类之前,还包括:
对所述自产新闻数据库中的自产新闻进行文档切分和关键词提取,以获取所述自产新闻的词向量及其权重;
对所述待比对新闻数据库的待比对新闻进行清洗,并对清洗后的待比对新闻进行关键词提取,获取所述待比对新闻的词向量及其权重。
4.根据权利要求2所述的新闻稿件传播分析方法,其特征在于,所述判断所述待比对新闻是否全文转载所述自产新闻,包括:
采用基于长文本去重的算法模型计算所述待比对新闻与所述自产新闻之间的第一相似度;
若所述第一相似度大于预设的第一阈值,则标记所述待比对新闻全文转载所述自产新闻。
5.根据权利要求3所述的新闻稿件传播分析方法,其特征在于,所述判断所述待比对新闻是否部分转载所述自产新闻,包括:
在所述待比对新闻中检索所述自产新闻所属的媒体机构名称并进行定位;
若检索结果不为空,则基于所述媒体机构名称的位置获取所述待比对新闻中所述媒体机构名称的位置的前一句、当前句和后一句;
采用基于短文本去重的算法模型计算所述媒体机构名称的位置的前一句、当前句和后一句与所述自产新闻进行文档切分后的相应句子之间的第二相似度;
若所述媒体机构名称的位置的前一句、当前句和后一句与所述自产新闻进行文档切分后的相应句子之间的第二相似度均大于预设的第二阈值,则标记所述待比对新闻部分转载所述自产新闻。
6.根据权利要求3所述的新闻稿件传播分析方法,其特征在于,所述判断所述待比对新闻是否全文转引所述自产新闻,包括:
根据所述待比对新闻的词向量及其权重和所述自产新闻的词向量及其权重,采用基于长文本语义相似度的算法模型计算所述待比对新闻与所述自产新闻之间的第三相似度;
若所述第三相似度大于预设的第三阈值,则标记所述待比对新闻全文转引所述自产新闻。
7.根据权利要求3所述的新闻稿件传播分析方法,其特征在于,所述判断所述待比对新闻是否部分转引所述自产新闻,包括:
在所述待比对新闻中检索所述自产新闻所属的媒体机构名称并进行定位;
若检索结果不为空,则基于所述媒体机构名称的位置获取所述待比对新闻中所述媒体机构名称的位置的前一句、当前句和后一句;
获取所述待比对新闻中所述媒体机构名称的位置的前一句、当前句和后一句的词向量及其权重;
根据所述待比对新闻中所述媒体机构名称的位置的前一句、当前句和后一句的词向量及其权重,以及所述自产新闻的词向量及其权重,采用基于短文本语义相似度的算法模型计算所述媒体机构名称的位置的前一句、当前句和后一句与所述自产新闻进行文档切分后的相应句子之间的第四相似度;
若所述媒体机构名称的位置的前一句、当前句和后一句与所述自产新闻进行文档切分后的相应句子之间的第四相似度均大于预设的第四阈值,则标记所述待比对新闻部分转引所述自产新闻。
8.根据权利要求1所述的新闻稿件传播分析方法,其特征在于,基于同一分类标准分别对自产新闻数据库中的自产新闻和待比对新闻数据库的待比对新闻进行分类之前,还包括:
建立所述自产新闻数据库,其中,所述自产新闻数据库为结构化数据库,所述自产新闻数据库的字段包括所述自产新闻的稿件标题、稿件正文和发表日期;
建立所述待比对新闻数据库,其中,所述待比对新闻数据库为结构化数据库,所述待比对新闻数据库的字段包括所述待比对新闻的稿件标题、稿件正文和发表日期。
9.一种计算机可读存储介质,其特征在于,其上存储有新闻稿件传播分析程序,该新闻稿件传播分析程序被处理器执行时实现如权利要求1-8中任一项所述的新闻稿件传播分析方法。
10.一种电子设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的新闻稿件传播分析程序,所述处理器执行所述新闻稿件传播分析程序时,实现如权利要求1-8中任一项所述的新闻稿件传播分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011329768.5A CN112612867B (zh) | 2020-11-24 | 2020-11-24 | 新闻稿件传播分析方法、计算机可读存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011329768.5A CN112612867B (zh) | 2020-11-24 | 2020-11-24 | 新闻稿件传播分析方法、计算机可读存储介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112612867A true CN112612867A (zh) | 2021-04-06 |
CN112612867B CN112612867B (zh) | 2024-09-17 |
Family
ID=75225778
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011329768.5A Active CN112612867B (zh) | 2020-11-24 | 2020-11-24 | 新闻稿件传播分析方法、计算机可读存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112612867B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113221010A (zh) * | 2021-05-26 | 2021-08-06 | 支付宝(杭州)信息技术有限公司 | 事件传播状态的显示方法、装置和电子设备 |
CN113449078A (zh) * | 2021-06-25 | 2021-09-28 | 完美世界控股集团有限公司 | 相似新闻识别方法、设备、系统及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107908694A (zh) * | 2017-11-01 | 2018-04-13 | 平安科技(深圳)有限公司 | 互联网新闻的舆情聚类分析方法、应用服务器及计算机可读存储介质 |
CN110413863A (zh) * | 2019-08-01 | 2019-11-05 | 信雅达系统工程股份有限公司 | 一种基于深度学习的舆情新闻去重与推送方法 |
CN110738053A (zh) * | 2019-10-14 | 2020-01-31 | 广东南方新媒体科技有限公司 | 基于语义分析与监督学习模型的新闻主题推荐算法 |
CN111475625A (zh) * | 2020-05-09 | 2020-07-31 | 山东舜网传媒股份有限公司 | 基于知识图谱的新闻稿件生成方法及系统 |
-
2020
- 2020-11-24 CN CN202011329768.5A patent/CN112612867B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107908694A (zh) * | 2017-11-01 | 2018-04-13 | 平安科技(深圳)有限公司 | 互联网新闻的舆情聚类分析方法、应用服务器及计算机可读存储介质 |
CN110413863A (zh) * | 2019-08-01 | 2019-11-05 | 信雅达系统工程股份有限公司 | 一种基于深度学习的舆情新闻去重与推送方法 |
CN110738053A (zh) * | 2019-10-14 | 2020-01-31 | 广东南方新媒体科技有限公司 | 基于语义分析与监督学习模型的新闻主题推荐算法 |
CN111475625A (zh) * | 2020-05-09 | 2020-07-31 | 山东舜网传媒股份有限公司 | 基于知识图谱的新闻稿件生成方法及系统 |
Non-Patent Citations (4)
Title |
---|
GEORGE-ALEXANDRU VLAD等: "Sentence-Level Propaganda Detection in News Articles with Transfer Learning and BERT-BiLSTM-Capsule Model", ASSOCIATION FOR COMPUTATIONAL LINGUISTICS, 4 November 2019 (2019-11-04), pages 148 - 154 * |
JUNPENG GONG等: "An automatic generation method of sports news based on knowledge rules", 2017 IEEE/ACIS 16TH INTERNATIONAL CONFERENCE ON COMPUTER AND INFORMATION SCIENCE(ICIS), 26 May 2017 (2017-05-26), pages 978 - 1 * |
潘正高: "基于内容的Web新闻文本自动分类问题研究", 《中国优秀硕士学位论文全文数据库-信息科技辑》, no. 2012, 15 February 2012 (2012-02-15), pages 35 - 40 * |
马超的博客: "通过相似度聚类算法实现新闻媒体转引转载图谱", pages 1 - 5, Retrieved from the Internet <URL:https://blog.csdn.net.superman_xxx/article/details/104916862> * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113221010A (zh) * | 2021-05-26 | 2021-08-06 | 支付宝(杭州)信息技术有限公司 | 事件传播状态的显示方法、装置和电子设备 |
CN113449078A (zh) * | 2021-06-25 | 2021-09-28 | 完美世界控股集团有限公司 | 相似新闻识别方法、设备、系统及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112612867B (zh) | 2024-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220156292A1 (en) | Systems and methods for generating and using aggregated search indices and non-aggregated value storage | |
US9836541B2 (en) | System and method of managing capacity of search index partitions | |
KR101201037B1 (ko) | 키워드와 웹 사이트 콘텐츠 사이의 관련성 검증 | |
US8027977B2 (en) | Recommending content using discriminatively trained document similarity | |
US7409404B2 (en) | Creating taxonomies and training data for document categorization | |
CN111680173A (zh) | 统一检索跨媒体信息的cmr模型 | |
US8738635B2 (en) | Detection of junk in search result ranking | |
JP7252914B2 (ja) | 検索提案を提供する方法、装置、機器及び媒体 | |
US20130060769A1 (en) | System and method for identifying social media interactions | |
JP2005526317A (ja) | ドキュメントコーパスからコンセプト階層構造を自動に捜索する方法及びシステム | |
CN106407182A (zh) | 一种用于企业电子公文文档自动摘要的方法 | |
CN111090731A (zh) | 基于主题聚类的电力舆情摘要提取优化方法及系统 | |
Huang et al. | A patent keywords extraction method using TextRank model with prior public knowledge | |
CN111444304A (zh) | 搜索排序的方法和装置 | |
WO2011097535A1 (en) | Propagating classification decisions | |
KR20220119745A (ko) | 콘텐츠를 검색하는 방법, 장치, 기기 및 컴퓨터 판독 가능 저장 매체 | |
CN108228612B (zh) | 一种提取网络事件关键词以及情绪倾向的方法及装置 | |
CN114661902A (zh) | 基于多特征融合的文献库冷启动作者同名消歧方法及设备 | |
Barrio et al. | Sampling strategies for information extraction over the deep web | |
CN112612867A (zh) | 新闻稿件传播分析方法、计算机可读存储介质及电子设备 | |
CN112417082A (zh) | 一种科研成果数据消歧归档存储方法 | |
Das et al. | Opinion summarization in Bengali: a theme network model | |
CN111737513B (zh) | 一种针对海量音乐数据的哼唱检索系统 | |
Pan et al. | MCRWR: a new method to measure the similarity of documents based on semantic network | |
Zhang et al. | Large scale incremental web video categorization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |