CN112100372B - 头版新闻预测分类方法 - Google Patents

头版新闻预测分类方法 Download PDF

Info

Publication number
CN112100372B
CN112100372B CN202010845229.0A CN202010845229A CN112100372B CN 112100372 B CN112100372 B CN 112100372B CN 202010845229 A CN202010845229 A CN 202010845229A CN 112100372 B CN112100372 B CN 112100372B
Authority
CN
China
Prior art keywords
news
network
text
similarity
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010845229.0A
Other languages
English (en)
Other versions
CN112100372A (zh
Inventor
曹开臣
戴礼灿
孙文
陈明仁
蔡世民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southwest Electronic Technology Institute No 10 Institute of Cetc
Original Assignee
Southwest Electronic Technology Institute No 10 Institute of Cetc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southwest Electronic Technology Institute No 10 Institute of Cetc filed Critical Southwest Electronic Technology Institute No 10 Institute of Cetc
Priority to CN202010845229.0A priority Critical patent/CN112100372B/zh
Publication of CN112100372A publication Critical patent/CN112100372A/zh
Priority to PCT/CN2021/111885 priority patent/WO2022037446A1/zh
Priority to US17/785,428 priority patent/US20230244757A1/en
Application granted granted Critical
Publication of CN112100372B publication Critical patent/CN112100372B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开的一种头版新闻预测分类方法,旨在一种能够兼顾局部中心性和全局中心,并能表现出较好头版新闻预测结果的新闻预测分类方法。本发明通过下述技术方案实现:首先通过用户界面输入要查询的关键字,在互联网上搜集网页,将搜集到的网页新闻文本信息保存到本地数据库;文本表征模块利用Doc2Vec表征算法进行向量表征,将每一篇新闻文本各自转化为低维、高信息量的文本特征向量;相似性网络构建模块计算新闻间的相似度,根据计算所得的相似矩阵视为新闻相关网络的邻接矩阵,构建出新闻相似性网络,遍历完相似性网络,是则根据支持H‑指数贡献矩阵迭代计算向量HR值,利用HR值对新闻进行权重排序,预测top‑N条新闻作为头版新闻。

Description

头版新闻预测分类方法
技术领域
本发明涉及自然语言处理、人工智能预测分类领域,具体涉及一种报刊的头版新闻智能预测方法。
技术背景
新闻媒介具有传播信息、政治宣传、普及教育、舆论监督、社会服务、文化娱乐等多方面功能。这些功能的发挥都要通过具体的新闻报道来实现,因此报道效果目标也相应呈多元化的形态。如通过报道宣传某种政策、观念或主张;通过批评报道揭露社会弊端,促进问题的解决;通过追踪报道传播最新信息、监视社会环境;通过活动策划与新闻报道的结合,为社会公众提供服务、娱乐,或进行道德教育、解决社会问题,或塑造报纸形象,扩大社会影响等。权威报刊的头版新闻通常报道与国家政治、经济政策相关的重要信息,代表国家政治、外交、经济政策的发展方向,特别是其头版新闻在不同时期对国家政治、经济政策有着决定性的指导作用,被外界作为分析各国政治、经济政策变化的渠道之一。因此,正确预测国家级报刊的头版新闻对判断国家政策变化具有重要意义。
信息技术的快速增长带动了生活的网络化,生活中存在各种各样的网络:在线社交网络、科研网络以及交通网络等。社会网络是人们通过各种关系建立起来的联系,并通过成员之间的交互作用形成的一种网络化结构。社会网络分析法就是对于社会网络的关系结构或者属性进行分析,行动者可以是人、社区或者群体等,他们之间的关系能够反映出一定的现象或者数据。其中诸多数据可以表示为二元图G=(V,E),其中的V表示研究的成员集合,E是成员之间的关系的集合。社会网络的一个突出的特点是存在少数的关键节点,这类节点对研究网络的功能和保持网络的稳定性具有重要的作用。例如网络在遭受外界蓄意攻击时,关键节点遭到攻击就会导致整个的网络瘫痪。网络节点重要(中心)性排序是亟待解决的问题,这对处理信息流,预防传染性的传播以及网络上的其他重要的行为具有非常重要的意义。
在自然界中存在的大量复杂系统都可以通过不同的复杂网络加以描述。一个典型的复杂网络是由许多节点与节点之间的连边组成,其中节点用来代表真实系统中不同的个体,而连边则用来表示个体间的关系。新闻媒体即为不同的新闻互相连接形成的新闻网络。在复杂网络领域的研究中,节点的核心地位确定是极其重要的。其应用包括识别社交网络中最有影响力的人,互联网或城市网络中的关键基础设施节点以及疾病的超级传播者。中心性概念最早是在社交网络分析中开发的,许多用于衡量中心性的术语都反映了它们的社会学渊源。中心性指数就是对节点核心地位的定量刻画,借此反应该节点在网络中的重要性。而“重要性”一词有很多含义,导致对中心性的许多不同定义,目前主要有两种不同的解释。“重要性”可以被认为与网络上的流或传输类型有关,这使得中心性可以根据在资源分配过程中对节点的依赖程度进行定义。“重要性”也可以被认为是节点对网络凝聚力的贡献情况,这使得中心性也可以通过衡量节点对网络凝聚力贡献的程度进行定义。通过研究网络节点中心性的方式研究权威报刊头版新闻的成因,可以从直观的角度给出一个假设来解释头版新闻的成因,即“在新闻网络中,新闻的中心性越大,其成为头版新闻的可能性就高”。因此,利用预测新闻网络节点中心性来实现头版新闻的预测分类是具有较大研究价值的。
发明内容
本发明的任务是提供一种能够兼顾局部中心性和全局中心,并能表现出较好头版新闻预测结果的头版新闻预测分类方法。
为了实现上述发明目的,本发明提供了一种头版新闻预测分类方法,其特征在于包括如下步骤:利用新闻文本数据构建高聚类性、同配性、近似幂律度分布性的新闻网络拓扑结构,首先通过用户界面输入要查询的关键字,在互联网上搜集网页,使用面向对象的程序设计语言Python编写网络爬虫,加载到新闻报刊文本数据采集模块中,将搜集到的网页新闻文本信息保存到本地数据库;数据清洗模块将从网站获取的原数据进行数据清洗工作;文本分词模块使用结巴分词,对清洗完毕的数据进行分词;文本表征模块利用Doc2Vec表征算法进行向量表征,将每一篇新闻文本各自转化为一个低维、高信息量的文本特征向量;相似性网络构建模块利用局部敏感哈希(LSH)算法计算新闻间的相似度情况,得到一个稀疏的相似矩阵,根据LSH计算所得的相似矩阵视为新闻相关网络的邻接矩阵,构建出新闻相似性网络;头版新闻预测模块将H指数引入PageRank算法,根据相似性网络计算支持H-指数贡献矩阵,判断是否遍历完相似性网络,是则根据支持H-指数贡献矩阵迭代计算向量HR值,利用HR值对新闻进行权重排序,预测top-N条新闻作为头版新闻。
本发明相比于现有技术具有如下有益效果:
本发明利用新闻文本数据构建高聚类性、同配性、近似幂律度分布性的新闻网络拓扑结构,新闻报刊文本数据采集模块首先通过用户界面输入要查询的关键字,在互联网上搜集网页,使用Python编写网络爬虫,爬行程序根据输入的相关信息,将搜集到的网页新闻文本信息保存到本地数据库,综合H-中心性排序算法和PageRank排序算法,利用兼顾局部中心性和全局中心性的优势,有效缓解了巨大网络中随机游走本所产生的超大矩阵乘法计算负担,降低了PageRank算法受直接连接重要性较小的节点影响而导致的搜索结果误差。
本发明采用数据清洗模块将从网站获取的原数据进行数据清洗工作;文本分词模块使用结巴分词,对清洗完毕的数据进行分词;文本表征模块利用Doc2Vec表征算法进行向量表征,将每一篇新闻文本各自转化为一个低维、高信息量的文本特征向量,从复杂网络的全新视角构建并分析新闻网络,并对头版新闻的成因给出了一个可解释性强的假设。
本发明相似性网络构建模块利用局部敏感哈希(LSH)算法计算新闻间的相似度情况,得到一个稀疏的相似矩阵,根据LSH计算所得的相似矩阵视为新闻相关网络的邻接矩阵,构建出新闻相似性网络;构建高效的Top-N头版新闻预测模型,相比于其他节点排序算法在四个评估指标上都表现出较好的头版新闻预测结果。
附图说明
图1是本发明头版新闻预测分类的流程图。
具体实施方式
参阅图1,根据本发明,利用新闻文本数据构建高聚类性、同配性、近似幂律度分布性的新闻网络拓扑结构,首先通过用户界面输入要查询的关键字,在互联网上搜集网页,使用面向对象的程序设计语言Python编写网络爬虫,加载到新闻报刊文本数据采集模块中,将搜集到的网页新闻文本信息保存到本地数据库;数据清洗模块将从网站获取的原数据进行数据清洗工作;文本分词模块使用结巴分词,对清洗完毕的数据进行分词;文本表征模块利用Doc2Vec表征算法进行向量表征,将每一篇新闻文本各自转化为一个低维、高信息量的文本特征向量;相似性网络构建模块利用局部敏感哈希(LSH)算法计算新闻间的相似度情况,得到一个稀疏的相似矩阵,根据LSH计算所得的相似矩阵视为新闻相关网络的邻接矩阵,构建出新闻相似性网络;头版新闻预测模块将H指数引入PageRank算法,根据相似性网络计算支持H-指数贡献矩阵,判断是否遍历完相似性网络,是则根据支持H-指数贡献矩阵迭代计算向量HR值,利用HR值对新闻进行权重排序,预测top-N条新闻作为头版新闻。
其具体实现步骤如下:
步骤1:新闻报刊文本数据采集模块使用Python编写网络爬虫将网页新闻文本信息储存为“时间-标题-文本-版面号”的格式,并保存到本地。
步骤2:数据清洗模块将从网站获取的原数据进行数据清洗工作,例如原数据中存在“图片新闻”的情况,图片新闻只包含图片而没有文字内容,将原数据中的部分垃圾信息删除,随后对数据格式进行规则化,删除文本中的标点、空格等,留待后续分词操作,同时将时间转化为标准8位的形式YYYYMMDD。
步骤3:文本分词模块使用结巴分词,对清洗完毕的数据进行分词。
步骤4:文本表征模块利用Doc2Vec表征算法进行向量表征,将每一篇新闻文本各自转化为一个低维、高信息量的文本特征向量;
(1)文本表征模块构建词t在新闻i的和向量
Figure GDA0003662191300000031
其中,h(wt|pi)为词t在新闻i的和向量,wt为新闻中词t对应的one-hot编码向量,pi为新闻i对应的one-hot编码向量,T为Doc2Vec算法考虑的上下文词数;
(2)文本表征模块将和向量带入Doc2Vec算法的神经网络模型中训练,可得到神经网络模型的如下输出函数y,y=Softmax(h(wt|pi)·W)+b
其中,y为神经网络模型的输出,h(wt|pi)为词t在新闻i的和向量,W为Doc2Vec算法的神经网络模型中的隐层权重,b为偏置。
(3)文本表征模块利用上述输出函数构建如下损失函数Loss=∑D(y,wt),通过优化损失函数,可以得到一个隐层权重Wbest矩阵和bbest偏置;
其中,D(·)为向量间二阶欧氏距离,y为神经网络模型的输出函数,wt为新闻中词t对应的one-hot编码向量;
(4)文本表征模块以新闻i对应的one-hot向量pi作为输入,根据训练好的神经网络模型中的隐层权重Wbest,得到低维文本特征向量表征Ri:Ri=pi·Wbest
步骤5:相似性网络构建模块利用局部敏感哈希(LSH)算法计算新闻间的相似度情况,得到一个稀疏的大小为“新闻数×新闻数”的相似矩阵,根据LSH计算所得的相似矩阵视为新闻相关网络的邻接矩阵,构建出新闻相似性网络。
步骤6:头版新闻预测模块将H指数引入PageRank算法,通过遍历相似性网络计算支持H-指数贡献矩阵,进而迭代计算出向量HR值,利用HR值对新闻进行权重排序,预测top-N条新闻作为头版新闻。(1)引入H指数在排序的局部中心性优势,根据相似性网络遍历计算支持H-指数贡献矩阵第i行j列的值,具体计算方式如下:
Figure GDA0003662191300000041
其中,Aij为网络邻接矩阵第i行j列的值,vi为目标节点,vj为vi所属领域中的节点,D(vj)为邻域中节点vj的度,H(vi)为目标节点vi的H指数;
(2)当判定头版新闻预测模块遍历计算完相似性网络,引入Pagerank算法在排序的全局中心性优势,根据邻接函数l(vi,vj)代表在GSHCM网络中节点vJ在vi领域NSHCM(vi)中的节点总数中的比重和支持H-指数贡献矩阵迭代计算向量HR值,具体计算方式如下:
Figure GDA0003662191300000042
其中,d为阻尼系数,并声明d=0.85,NSHCM(vi)为网络GSHCM中节点vi的领域,DSHCM(vj)为网络GSHCM中节点vj的度,网络GSHCM中节点的数量NSHCM=|VSHCM|,其中VSHCM为网络GSHCM的节点集合,如果网络GSHCM中节点vi和网络GSHCM中节点vJvj不相邻,则邻接函数l(vi,vj)=0,将HR值计算结果进行Top-N预测,得到低维文本特征向量表征Ri=Sorti,ifi<N,Sorti表示基于某种排序算法所得的排序序列中第i个元素,N为Top-N预测的预测长度。
以上所述为本发明较佳实施例,应该注意的是上述实施例对本发明进行说明,然而本发明并不局限于此,并且本领域技术人员在脱离所附权利要求的范围情况下可设计出替换实施例。对本领域的技术人员来说,可根据以上描述的技术方案以及构思,做出其它各种相应的改变以及形变,而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。

Claims (7)

1.一种头版新闻预测分类方法,其特征在于包括如下步骤:利用新闻文本数据构建高聚类性、同配性、近似幂律度分布性的新闻网络拓扑结构,首先通过用户界面输入要查询的关键字,在互联网上搜集网页,使用面向对象的程序设计语言Python编写网络爬虫,加载到新闻报刊文本数据采集模块中,将搜集到的网页新闻文本信息保存到本地数据库;数据清洗模块将从网站获取的原数据进行数据清洗工作;文本分词模块使用结巴分词,对清洗完毕的数据进行分词;文本表征模块利用Doc2Vec表征算法进行向量表征,将每一篇新闻文本各自转化为一个低维、高信息量的文本特征向量;相似性网络构建模块利用局部敏感哈希(LSH)算法计算新闻间的相似度情况,得到一个稀疏的相似矩阵,根据LSH计算所得的相似矩阵视为新闻相关网络的邻接矩阵,构建出新闻相似性网络;头版新闻预测模块将H指数引入PageRank算法,根据相似性网络计算支持H-指数贡献矩阵,判断是否遍历完相似性网络,是则根据支持H-指数贡献矩阵迭代计算向量HR值,利用HR值对新闻进行权重排序,预测top-N条新闻作为头版新闻;
其中,头版新闻预测模块将H指数引入PageRank算法,根据相似性网络计算支持H-指数贡献矩阵,判断是否遍历完相似性网络,是则根据支持H-指数贡献矩阵迭代计算向量HR值,利用HR值对新闻进行权重排序,预测top-N条新闻作为头版新闻步骤,具体包括:
头版新闻预测模块对新闻进行权重排序,将预测top-N条新闻作为头版新闻,根据相似性网络计算支持H-指数贡献矩阵第i行j列的值
Figure FDA0003712102810000011
vj∈N(vi)
其中,Aij为网络邻接矩阵第i行j列的值,vi为目标节点,vj为vi所属领域中的节点,D(vj)为邻域中节点vj的度,H(vi)为目标节点vi的H指数;
头版新闻预测模块遍历计算完相似性网络,根据邻接函数l(vi,vj)代表在GSHCM网络中节点vJ在vi领域NSHCM(vi)中的节点总数中的比重和支持H-指数贡献矩阵迭代计算向量HR值:
Figure FDA0003712102810000012
其中,d为阻尼系数,NSHCM(vi)为网络GSHCM中节点vi的领域,DSHCM(vj)为网络GSHCM中节点vj的度,Sorti表示基于某种排序算法所得的排序序列中第i个元素,N为Top-N预测的预测长度;
网络GSHCM中节点的数量NSHCM=|VSHCM|,如果网络GSHCM中节点vi和网络GSHCM中节点vJvj不相邻,则邻接函数l(vi,vj)=0,将HR值计算结果进行Top-N预测,得到低维文本特征向量表征Ri=Sorti,if i<N。
2.如权利要求1所述的头版新闻预测分类方法,其特征在于:新闻报刊文本数据采集模块使用Python编写网络爬虫将网页新闻文本信息储存为“时间-标题-文本-版面号”的格式,并保存到本地。
3.如权利要求1所述的头版新闻预测分类方法,其特征在于:数据清洗模块将从网站获取的原数据中存在的“图片新闻”进行数据清洗,将原数据中的部分垃圾信息删除,随后对数据格式进行规则化,删除文本中的标点、空格,同时将时间转化为标准8位的形式YYYYMMDD。
4.如权利要求1所述的头版新闻预测分类方法,其特征在于:文本表征模块利用Doc2Vec表征算法构建词t在新闻i的和向量
Figure FDA0003712102810000021
其中,wt为新闻中词t对应的one-hot编码向量,pi为新闻i对应的one-hot编码向量,T为Doc2Vec算法考虑的上下文词数。
5.如权利要求4所述的头版新闻预测分类方法,其特征在于:文本表征模块将和向量带入Doc2Vec算法的神经网络模型中训练,得到神经网络模型的如下输出函数y,
Figure FDA0003712102810000022
其中,h(wt|pi)为词t在新闻i的和向量,W为Doc2Vec算法的神经网络模型中的隐层权重,b为偏置。
6.如权利要求5所述的头版新闻预测分类方法,其特征在于:文本表征模块利用神经网络模型的输出函数y构建损失函数Loss=∑D(y,wt),通过优化损失函数,得到一个隐层权重Wbest矩阵和bbest偏置,其中,D(·)为向量间二阶欧氏距离,wt为新闻中词t对应的one-hot编码向量。
7.如权利要求6所述的头版新闻预测分类方法,其特征在于:文本表征模块以新闻i对应的one-hot向量pi作为输入,根据训练好的神经网络模型中的隐层权重Wbest,得到低维文本特征向量表征Ri:Ri=pi·Wbest
CN202010845229.0A 2020-08-20 2020-08-20 头版新闻预测分类方法 Active CN112100372B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202010845229.0A CN112100372B (zh) 2020-08-20 2020-08-20 头版新闻预测分类方法
PCT/CN2021/111885 WO2022037446A1 (zh) 2020-08-20 2021-08-10 头版新闻预测分类方法
US17/785,428 US20230244757A1 (en) 2020-08-20 2021-08-10 Front Page News Prediction and Classification Method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010845229.0A CN112100372B (zh) 2020-08-20 2020-08-20 头版新闻预测分类方法

Publications (2)

Publication Number Publication Date
CN112100372A CN112100372A (zh) 2020-12-18
CN112100372B true CN112100372B (zh) 2022-08-30

Family

ID=73753257

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010845229.0A Active CN112100372B (zh) 2020-08-20 2020-08-20 头版新闻预测分类方法

Country Status (3)

Country Link
US (1) US20230244757A1 (zh)
CN (1) CN112100372B (zh)
WO (1) WO2022037446A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112100372B (zh) * 2020-08-20 2022-08-30 西南电子技术研究所(中国电子科技集团公司第十研究所) 头版新闻预测分类方法
CN113705642B (zh) * 2021-08-16 2023-10-24 中山大学 一种基于属性的文物层次分类方法、系统及装置
CN116204769B (zh) * 2023-03-06 2023-12-05 深圳市乐易网络股份有限公司 一种基于数据分类识别的数据清洗方法、系统及存储介质
CN116206453B (zh) * 2023-05-05 2023-08-11 湖南工商大学 一种基于迁移学习的交通流预测方法、装置及相关设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102937960A (zh) * 2012-09-06 2013-02-20 北京邮电大学 突发事件热点话题的识别与评估装置和方法
CN109740044A (zh) * 2018-12-24 2019-05-10 东华大学 一种基于时间序列智能预测的企业异动预警方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7502789B2 (en) * 2005-12-15 2009-03-10 Microsoft Corporation Identifying important news reports from news home pages
CN101281519B (zh) * 2007-04-02 2015-04-01 北京奇虎科技有限公司 一种评价网络资源价值的方法及其在搜索引擎领域的应用
CN107644010B (zh) * 2016-07-20 2021-05-25 阿里巴巴集团控股有限公司 一种文本相似度计算方法及装置
CN106599181B (zh) * 2016-12-13 2019-06-18 浙江网新恒天软件有限公司 一种基于主题模型的新闻热点检测方法
CN107315797A (zh) * 2017-06-19 2017-11-03 江西洪都航空工业集团有限责任公司 一种网络新闻获取及文本情感预测系统
CN109213869B (zh) * 2017-06-29 2021-08-13 中国科学技术大学 基于多源数据的热点技术预测方法
US11093561B2 (en) * 2017-12-11 2021-08-17 Facebook, Inc. Fast indexing with graphs and compact regression codes on online social networks
US11074434B2 (en) * 2018-04-27 2021-07-27 Microsoft Technology Licensing, Llc Detection of near-duplicate images in profiles for detection of fake-profile accounts
CN109492157B (zh) * 2018-10-24 2021-08-31 华侨大学 基于rnn、注意力机制的新闻推荐方法及主题表征方法
CN109918621B (zh) * 2019-02-18 2023-02-28 东南大学 基于数字指纹和语义特征的新闻文本侵权检测方法与装置
CN111061996A (zh) * 2019-12-09 2020-04-24 昆明理工大学 一种结合Word2vec词向量和LSH局部敏感哈希的推荐算法
CN112100372B (zh) * 2020-08-20 2022-08-30 西南电子技术研究所(中国电子科技集团公司第十研究所) 头版新闻预测分类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102937960A (zh) * 2012-09-06 2013-02-20 北京邮电大学 突发事件热点话题的识别与评估装置和方法
CN109740044A (zh) * 2018-12-24 2019-05-10 东华大学 一种基于时间序列智能预测的企业异动预警方法

Also Published As

Publication number Publication date
WO2022037446A1 (zh) 2022-02-24
US20230244757A1 (en) 2023-08-03
CN112100372A (zh) 2020-12-18

Similar Documents

Publication Publication Date Title
CN112100372B (zh) 头版新闻预测分类方法
Zhang et al. Network representation learning: A survey
CN111914156B (zh) 自适应标签感知的图卷积网络跨模态检索方法、系统
Li et al. Community detection using hierarchical clustering based on edge-weighted similarity in cloud environment
Bhagat et al. Applying link-based classification to label blogs
CN101814083A (zh) 网页自动分类方法和系统
CN111429161B (zh) 特征提取方法、特征提取装置、存储介质及电子设备
CN114238573B (zh) 基于文本对抗样例的信息推送方法及装置
CN111382283A (zh) 资源类别标签标注方法、装置、计算机设备和存储介质
CN115659008B (zh) 大数据信息反馈的信息推送系统、方法、电子设备及介质
Xu et al. A scientific research topic trend prediction model based on multi‐LSTM and graph convolutional network
Wang et al. Link prediction in heterogeneous collaboration networks
CN114528479B (zh) 一种基于多尺度异构图嵌入算法的事件检测方法
Kakisim Enhancing attributed network embedding via enriched attribute representations
Fu et al. Robust representation learning for heterogeneous attributed networks
Dang et al. Look back, look around: A systematic analysis of effective predictors for new outlinks in focused Web crawling
CN112925907A (zh) 基于事件图卷积神经网络的微博评论观点对象分类方法
TW201243627A (en) Multi-label text categorization based on fuzzy similarity and k nearest neighbors
Krishna et al. Question routing via activity-weighted modularity-enhanced factorization
CN111753151A (zh) 一种基于互联网用户行为的服务推荐方法
CN113159976B (zh) 一种微博网络重要用户的识别方法
CN115048521A (zh) 一种基于半监督的图神经网络的案件争议焦点识别方法及装置
CN114722304A (zh) 异质信息网络上基于主题的社区搜索方法
Vedavathi et al. PLRec: an efficient approach towards e-learning recommendation using LSTM-CNN technique
Liu et al. Topic detection based on similar networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant