CN117077632B - 一种用于资讯主题的自动生成方法 - Google Patents

一种用于资讯主题的自动生成方法 Download PDF

Info

Publication number
CN117077632B
CN117077632B CN202311345180.2A CN202311345180A CN117077632B CN 117077632 B CN117077632 B CN 117077632B CN 202311345180 A CN202311345180 A CN 202311345180A CN 117077632 B CN117077632 B CN 117077632B
Authority
CN
China
Prior art keywords
keywords
information
news information
preset
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311345180.2A
Other languages
English (en)
Other versions
CN117077632A (zh
Inventor
胡红亮
郭传斌
杨万波
丁荣
聂雯莹
马少方
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Guoke Zhongan Technology Co ltd
Original Assignee
Beijing Guoke Zhongan Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Guoke Zhongan Technology Co ltd filed Critical Beijing Guoke Zhongan Technology Co ltd
Priority to CN202311345180.2A priority Critical patent/CN117077632B/zh
Publication of CN117077632A publication Critical patent/CN117077632A/zh
Application granted granted Critical
Publication of CN117077632B publication Critical patent/CN117077632B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明提供了一种用于资讯主题的自动生成方法,属于智能生成技术领域,其方法包括:对预置新闻资讯进行时效性分析及聚类处理,并抽取每个聚类结果中的关键词;将每个聚类结果中抽取的关键词进行语义度排序以及正式度判断,根据排序结果与判断结果筛选每个聚类结果中的主题词集,并构建主题词库;收集实时新闻资讯,并判断所述实时新闻资讯的产生时长是否大于预设时长,若是,对所述实时新闻资讯进行资讯解析,获取得到新词汇对所述主题词库进行更新,否则,根据未更新的主题词库对所述实时新闻资讯进行主题规划,自动生成所述实时新闻资讯的实时主题,实现在新闻资讯的信息时效内准确高效的生成对应新闻资讯的主题。

Description

一种用于资讯主题的自动生成方法
技术领域
本发明涉及智能生成技术领域,特别涉及一种用于资讯主题的自动生成方法。
背景技术
近年来,互联网新闻资讯内容呈爆炸式涌入人们的日常生活,然而,新闻资讯的主题识别方法中的传统做法是依靠业务人员对新闻资讯进行总结概括得到一个词汇来作为主题,每天都有大量新闻资讯产生依靠人工去进行总结效率低下,主题的精准度也得不到保障,能否根据对应新闻资讯的时效生成主题也犹未可知。
因此,本发明提供一种用于资讯主题的自动生成方法。
发明内容
本发明提供一种用于资讯主题的自动生成方法,用以通过对预置新闻资讯的时效性分析及聚类处理,以此抽取对应聚类新闻资讯的关键词作为聚类结果,并对每个聚类结果进行语义度排序和正式度判断,根据对应结果最终生成主题词库,对新生成新闻资讯通过判断生成时长,判断是否需要对主题词库进行更新,同时生成对应新闻资讯的主题,以实现在新闻资讯的信息时效内准确高效的生成对应新闻资讯的主题。
本发明提供一种用于资讯主题的自动生成方法,包括:
步骤1:对预置新闻资讯进行时效性分析及聚类处理,并抽取每个聚类结果中的关键词;
步骤2:将每个聚类结果中抽取的关键词进行语义度排序以及正式度判断,根据排序结果与判断结果筛选每个聚类结果中的主题词集,并构建主题词库;
步骤3:收集实时新闻资讯,并判断所述实时新闻资讯的产生时长是否大于预设时长,若是,对所述实时新闻资讯进行资讯解析,获取得到新词汇对所述主题词库进行更新;
否则,根据未更新的主题词库对所述实时新闻资讯进行主题规划,自动生成所述实时新闻资讯的实时主题。
本发明提供一种用于资讯主题的自动生成方法,对预置新闻资讯进行时效性分析及聚类处理,并抽取每个聚类结果中的关键词,包括:
对每篇预置新闻资讯中与时间相关的第一词语以及与名词相关第二词语进行出现频率计算,同时,根据资讯时效词库向每篇预置新闻资讯中的第一词语匹配对应的文字解释与文字解释的生成日期;
根据出现频率计算结果、匹配结果以及对应预置新闻资讯中时间词性与名词词性之间的关联关系,得出每篇预置新闻资讯中每个第二词语的时效-频率系数,得出对应预置新闻资讯的平均时效;
对所述平均时效低于设定时效的预置新闻资讯进行初始消极处理,得到第一筛选资讯并保留,否则,将对应预置新闻资讯保留;
运用lda聚类算法对保留的资讯进行聚类处理,得到聚类结果,得到n类中心主题,并对聚类结果中的每篇第一资讯进行关键词抽取。
本发明提供一种用于资讯主题的自动生成方法,对所述平均时效低于设定时效的预置新闻资讯进行初始消极处理,包括:
根据所述平均时效与设定时效的时效差异,从差异-系数映射表中提取对应新闻资讯的影响系数;
根据所述影响系数,对相应预置新闻资讯进行初始消极处理。
本发明提供一种用于资讯主题的自动生成方法,对聚类结果中的每篇第一资讯进行关键词抽取,包括:
根据分句符号机制将第一资讯进行分句处理,得到句子集合;
将所述句子集合依次输入句子解析模型,生成所述第一资讯的若干句向量;
计算同个第一资讯的每个句向量与对应聚类中心主题的第一距离,抽取对应第一资讯的关键词。
本发明提供一种用于资讯主题的自动生成方法,将每个聚类结果中抽取的关键词进行语义度排序以及正式度判断,根据排序结果与判断结果筛选每个聚类结果中的主题词集,并构建主题词库,包括:
锁定所抽取的关键词于对应预置新闻资讯中前后词语,根据锁定内容对相应抽取的关键词进行词性判断、结构判断与位置判断;
结合词性判断、结构判断与位置判断,生成对应聚类结果的关键词矩阵:
;其中,/>表示第1个关键词的词性判断结果;/>表示第1个关键词的结构判断结果;/>表示第1个关键词的位置判断结果;/>表示第/>个关键词的结构判断结果;/>表示第/>个关键词的词性判断结果;/>表示第/>个关键词的位置判断结果;/>表示对应聚类结果中存在/>个关键词;
计算所述关键词矩阵中每行向量的允许存在值,并将允许存在值小于预设存在值的关键词进行剔除;
对同聚类结果中每个剩余关键词进行语义度计算;
对同聚类结果中每个剩余关键词进行正式度计算;
对所有剩余关键词进行语义度排序以及正式度判断,根据排序结果与判断结果筛选每个聚类结果中的主题词集,并构建主题词库。
本发明提供一种用于资讯主题的自动生成方法,对同聚类结果中每个剩余关键词进行语义度计算,包括:
;其中,/>表示第/>个剩余关键词/>的时效系数;/>表示基于对应聚类结果中涉及到与剩余关键词/>的相关新闻资讯/>中的词频;/>表示相关新闻资讯W的平均词数;/>表示对应聚类结果中所有新闻资讯的平均词数;/>和/>为自由参数,取值为/>;/>表示对应聚类结果中的新闻资讯数量;/>表示对应聚类结果所有新闻资讯所涉及剩余关键词/>的资讯数量;/>表示第/>个剩余关键词/>与对应聚类结果的语义度。
本发明提供一种用于资讯主题的自动生成方法,对同聚类结果中每个剩余关键词进行正式度计算,包括:
从正式近似词库中提取剩余关键词的近似词集合,并确定所述近似词集合中每个正式近似词与剩余关键词/>的第一余弦相似度;
获取主题词库进行最后一次更新之后且截至当下时间之间所捕捉到的新正式词汇,并确定每个新正式词汇与剩余关键词的第二余弦相似度;
根据剩余关键词的所有第一余弦相似度以及第二余弦相似度,确定剩余关键词的正式度。
本发明提供一种用于资讯主题的自动生成方法,对同聚类结果中每个剩余关键词进行语义度计算的过程中,包括:
获取最新新闻资讯中的内容关键词以及主题关键词,并将每个内容关键词与剩余关键词分别进行第三余弦相似度计算,同时,将每个主题关键词与所述剩余关键词/>分别进行第四余弦相似度计算;
从所有第三余弦相似度中筛选大于预设相似度的第五余弦相似度,且结合每个第五余弦相似度所对应内容关键词的预设时效系数,来确定所述剩余关键词基于内容关键词的第一系数;
;其中,/>表示从对应的所有第五余弦相似度所对应内容关键词的预设时效系数中确定的最大时效系数;/>表示对数函数符号;/>表示常数,取值为2.7;/>表示从对应的所有第五余弦相似度中获取与/>一致的余弦相似度;/>表示对应的所有第五余弦相似度的平均相似度;/>表示剩余关键词/>基于内容关键词的第一系数;
根据每个主题关键词的第二预设时效系数,来确定所述剩余关键词基于主题关键词的第二系数;
;其中,/>表示所述剩余关键词/>基于主题关键词的第二系数;/>表示所对应所有第二预设时效系数中的最大时效系数;/>表示所对应所有第二预设时效系数中的最小时效系数;/>表示所对应所有第二预设时效系数中的第/>个时效系数,且/>的取值范围为
基于所有第一系数以及第二系数,得到所述剩余关键词的时效系数;
;其中,/>表示所述剩余关键词/>的时效系数。
本发明提供一种用于资讯主题的自动生成方法,计算所述关键词矩阵中每行向量的允许存在值,并将允许存在值小于预设存在值的关键词进行剔除,包括:
基于结果-设定映射表,分别向同行向量中的词性判断结果、结构判断结果与位置判断结果设置相应的设定值;
根据所有设定值,计算得到所述同行向量的允许存在值;
当所述允许存在值小于预设存在值时,将所述同行向量对应的关键词剔除。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种用于资讯主题的自动生成方法;
图2 为本发明实施例中最新新闻资讯主题生成的流程图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例1:
本发明实施例提供一种用于资讯主题的自动生成方法,如图1所示,包括:
步骤1:对预置新闻资讯进行时效性分析及聚类处理,并抽取每个聚类结果中的关键词;
步骤2:将每个聚类结果中抽取的关键词进行语义度排序以及正式度判断,根据排序结果与判断结果筛选每个聚类结果中的主题词集,并构建主题词库;
步骤3:收集实时新闻资讯,并判断所述实时新闻资讯的产生时长是否大于预设时长,若是,对所述实时新闻资讯进行资讯解析,获取得到新词汇对所述主题词库进行更新;
否则,根据未更新的主题词库对所述实时新闻资讯进行主题规划,自动生成所述实时新闻资讯的实时主题。
该实施例中,预置新闻资讯是建立主题词库的基础新闻资讯,需要包括多方面的新闻资讯,是提前从已经发布的新闻中所抽取好的资讯。
该实施例中,时效性是新闻资讯信息在对应所属时间段内的有效性,超出对应所属时间段,新闻资讯的有效性将大打折扣,甚至于完全无用。
该实施例中,聚类处理是将预置新闻资讯进行归类,归类之后处理对应聚类的聚类结果。
该实施例中,语义度排序是对抽取的关键词与对应新闻资讯的实际主题的契合度进行排序,契合度越高则语义度排序越高,语义度必须超过设定值。
该实施例中,正式度判断是由于新闻资讯中使用的词语必须是正式语言,日常用语中一大部分词汇不可用于新闻资讯,因此需要对聚类结果中的关键词进行正式度的判断,不符合正式度要求的关键词将会被剔除。
该实施例中,主题词集是通过结合语义度排序以及正式度判断筛选之后的对应聚类结果中的关键词集合。
该实施例中,聚类结果是将每篇预置新闻资讯聚类之后抽取的关键词。
该实施例中,主题词库是将每个聚类结果的主题词集进行集合的结果。
该实施例中,如图2所示,资讯解析是实时新闻资讯在产生时长在超过预设时长的情况下,进行步骤2与步骤3的操作,并对主题词库进行更新。
该实施例中,如图2所示,主题规划是实时新闻资讯在产生时长未超过预设时长的情况下,直接根据当下未更新主题词库与实时新闻资讯生成实时主题。
上述技术方案的工作原理及有益效果是:用以通过对预置新闻资讯的时效性分析及聚类处理,以此抽取对应聚类新闻资讯的关键词作为聚类结果,并对每个聚类结果进行语义度排序和正式度判断,根据对应结果最终生成主题词库,对新生成新闻资讯通过判断生成时长,判断是否需要对主题词库进行更新,同时生成对应新闻资讯的主题,以实现在新闻资讯的信息时效内准确高效的生成对应新闻资讯的主题。
实施例2:
本发明实施例提供一种用于资讯主题的自动生成方法,对预置新闻资讯进行时效性分析及聚类处理,并抽取每个聚类结果中的关键词,包括:
对每篇预置新闻资讯中与时间相关的第一词语以及与名词相关第二词语进行出现频率计算,同时,根据资讯时效词库向每篇预置新闻资讯中的第一词语匹配对应的文字解释与文字解释的生成日期;
根据出现频率计算结果、匹配结果以及对应预置新闻资讯中时间词性与名词词性之间的关联关系,得出每篇预置新闻资讯中每个第二词语的时效-频率系数,得出对应预置新闻资讯的平均时效;
对所述平均时效低于设定时效的预置新闻资讯进行初始消极处理,得到第一筛选资讯并保留,否则,将对应预置新闻资讯保留;
运用lda聚类算法对保留的资讯进行聚类处理,得到聚类结果,得到n类中心主题,并对聚类结果中的每篇第一资讯进行关键词抽取。
该实施例中,第一词语是与时间相关的所有词语,比如带有年限和具体时间的词、二十四节气和表示时间意思的成语。
该实施例中,第二项词语是具体的名词性词语,比如人物名词、事物名词、时间名词、方位名词、关系名词。
该实施例中,资讯时效词库是对应词语文字解释生成时间与第一次出现在新闻资讯的时间。
该实施例中,频率计算结果是第一词语与第二词语在每篇新闻资讯中出现的频率。
该实施例中,匹配结果是由第二词语的文字解释与对应生成时间得出的第二词语的初始时效。
该实施例中,时间词性是第一词语的时效与代表的时间结果。
该实施例中,名词词性是第二词语的时效。
该实施例中,关联关系是对应词语出现频率越高,该词语对相应预置新闻资讯的时效产生的影响越大。
该实施例中,时效-频率系数是根据第一词语与第二词语出现频率的不同对相应预置新闻资讯的时效产生的影响不同。
该实施例中,平均时效是相应预置新闻资讯中的每个第一词语与第二词语的对应时效求平均。
该实施例中,设定时效是预置新闻资讯的时效限制,比如体育类新闻资讯的设定时效为4年。
该实施例中,初始消极处理是将相应预置新闻资讯剔除或降低相应预置新闻资讯抽取的关键词数量。
该实施例中,第一筛选资讯是将所有预置新闻资讯进行消极处理之后的剩余预置新闻资讯。
该实施例中,第一资讯是对第一筛选资讯进行聚类分析后对应聚类所含有的预置新闻资讯。
该实施例中,所述聚类算法是按照句向量的语义距离及进行分类的,需要满足完整覆盖要求。
上述技术方案的工作原理及有益效果是:通过对预置新闻资讯与时间相关的第一词语以及与名词相关的第二词语进行分析后得出对应预置新闻资讯的平均时效,以此对预置新闻资讯进行筛选,对筛选结果进行聚类得出n类中心主题,进行关键词抽取,保证关键词的时效性。
实施例3:
本发明实施例提供一种用于资讯主题的自动生成方法,对所述平均时效低于设定时效的预置新闻资讯进行初始消极处理,包括:
根据所述平均时效与设定时效的时效差异,从差异-系数映射表中提取对应新闻资讯的影响系数;
根据所述影响系数,对相应预置新闻资讯进行初始消极处理。
该实施例中,差异-系数映射表包括不同差异时效对主题词库中词语的时效影响程度的集合。
该实施例中,影响系数每篇预置新闻资讯的平均时效与设定时效的差异时效对主题词库中词语的时效影响程度。
上述技术方案的工作原理及有益效果是:对平均时效与设定时效的时效差异进行分析得出对应影响系数,对相应预置新闻资讯做初始消极处理,降低不符合时效的预置新闻资讯对主题词库时效影响。
实施例4:
本发明实施例提供一种用于资讯主题的自动生成方法,对聚类结果中的每篇第一资讯进行关键词抽取,包括:
根据分句符号机制将第一资讯进行分句处理,得到句子集合;
将所述句子集合依次输入句子解析模型,生成所述第一资讯的若干句向量;
计算同个第一资讯的每个句向量与对应聚类中心主题的第一距离,抽取对应第一资讯的关键词。
该实施例中,分句符号机制是在语言表达中的分句标志,比如句号,分号。
该实施例中,句子集合是所有第一资讯的句子。
该实施例中,句子解析模型的输入是句子集合,输出是对应句子的句向量,训练量10000。
该实施例中,句向量是句子表达的主要含义,主要由主语、谓语、宾语与对应句子的情感色彩构成。
该实施例中,聚类中心主题是每个聚类对应的主题。
该实施例中,第一距离是每个句向量与对应聚类中心主题的距离,是第一资讯中每个句子与对应聚类中心主题的相似程度。
上述技术方案的工作原理及有益效果是:通过计算第一资讯的每个句向量与对应聚类中心主题的第一距离,得出对应第一资讯的关键词,保证关键词的准确性。
实施例5:
本发明实施例提供一种用于资讯主题的自动生成方法,将每个聚类结果中抽取的关键词进行语义度排序以及正式度判断,根据排序结果与判断结果筛选每个聚类结果中的主题词集,并构建主题词库,包括:
锁定所抽取的关键词于对应预置新闻资讯中前后词语,根据锁定内容对相应抽取的关键词进行词性判断、结构判断与位置判断;
结合词性判断、结构判断与位置判断,生成对应聚类结果的关键词矩阵:
;其中,/>表示第1个关键词的词性判断结果;/>表示第1个关键词的结构判断结果;/>表示第1个关键词的位置判断结果;/>表示第/>个关键词的结构判断结果;/>表示第/>个关键词的词性判断结果;/>表示第/>个关键词的位置判断结果;/>表示对应聚类结果中存在/>个关键词;
计算所述关键词矩阵中每行向量的允许存在值,并将允许存在值小于预设存在值的关键词进行剔除;
对同聚类结果中每个剩余关键词进行语义度计算;
对同聚类结果中每个剩余关键词进行正式度计算;
对所有剩余关键词进行语义度排序以及正式度判断,根据排序结果与判断结果筛选每个聚类结果中的主题词集,并构建主题词库。
该实施例中,词性判断是关键词在对应句子中的词性与对应语境的情感色彩,比如名词。
该实施例中,结构判断是关键词在对应句子中充当的结构,比如主语、谓语、宾语。
该实施例中,位置判断是关键词对应的句子在整篇新闻资讯结构中对应位置,比如中心句、总起句、总结句与过渡句。
该实施例中,关键词矩阵中,对进行词性判断、结构判断与位置判断的相应关键词做出等级值的设定,词性判断的设定值中,第一等级包括名词,第二等级包括动词、数词、量词和连词,第三等级包括形容词、感叹词拟声词,其中第一等级设定值最高,依次降低,结构判断的设定值为:第一等级包括主语、谓语和宾语,第二等级包括定语和状语,第三等级包括补语,位置判断的设定值为:第一等级包括中心句,第二等级包括总起句和总结句,第三等级包括过渡句,第四等级为剩余句,根据设定值计算对应行向量的允许存在值。
该实施例中,允许存在值是根据对应的等级判断得出的。
该实施例中,语义度计算是计算剩余关键词同聚类新闻资讯的契合度。
该实施例中,正式度计算是计算剩余关键词是否为新闻资讯正式词语。
上述技术方案的工作原理及有益效果是:通过对抽取的关键词进行词性判断、结构判断与位置判断,得出剩余关键词,对剩余关键词进行语义度计算与正式度计算得出符合条件的聚类结果,构建主题词库,实现在新闻资讯的信息时效内准确高效的生成对应新闻资讯的主题。
实施例6:
本发明实施例提供一种用于资讯主题的自动生成方法,对同聚类结果中每个剩余关键词进行语义度计算,包括:
;其中,/>表示第/>个剩余关键词/>的时效系数;/>表示基于对应聚类结果中涉及到与剩余关键词/>的相关新闻资讯/>中的词频;/>表示相关新闻资讯W的平均词数;/>表示对应聚类结果中所有新闻资讯的平均词数;/>和/>为自由参数,取值为/>;/>表示对应聚类结果中的新闻资讯数量;/>表示对应聚类结果所有新闻资讯所涉及剩余关键词/>的资讯数量;/>表示第/>个剩余关键词/>与对应聚类结果的语义度。
该实施例中,时效系数是剩余关键词的有效范围,比如2022年冬奥会的时效系数在2023年为0.5。
上述技术方案的工作原理及有益效果是:计算同聚类结果中每个剩余关键词的语义度,实现在新闻资讯的信息时效内准确高效的生成对应新闻资讯的主题。
实施例7:
本发明实施例提供一种用于资讯主题的自动生成方法,对同聚类结果中每个剩余关键词进行正式度计算,包括:
从正式近似词库中提取剩余关键词的近似词集合,并确定所述近似词集合中每个正式近似词与剩余关键词/>的第一余弦相似度;
获取主题词库进行最后一次更新之后且截至当下时间之间所捕捉到的新正式词汇,并确定每个新正式词汇与剩余关键词的第二余弦相似度;
根据剩余关键词的所有第一余弦相似度以及第二余弦相似度,确定剩余关键词的正式度。
该实施例中,正式近似词库是包含所有新闻资讯用到的正式词语。
该实施例中,近似词集合是与剩余关键词同义的所有正式词语的集合。
该实施例中,第一余弦相似度是正式近似词与剩余关键词含义的相似度。
该实施例中,第二余弦相似度是没有更新到主题词库中的正式词语与剩余关键词含义的相似度。
该实施例中,新正式词汇是没有更新到主题词库中的正式词语,随时事发展发生变化。
该实施例中,确定剩余关键词的正式度是第一余弦相似度与第一余弦相似度的并集为1的结果。
上述技术方案的工作原理及有益效果是:计算同聚类结果中每个剩余关键词的正式度,实现在新闻资讯的信息时效内准确高效的生成对应新闻资讯的主题。
实施例8:
本发明实施例提供一种用于资讯主题的自动生成方法,其特征在于,对同聚类结果中每个剩余关键词进行语义度计算的过程中,包括:
获取最新新闻资讯中的内容关键词以及主题关键词,并将每个内容关键词与剩余关键词分别进行第三余弦相似度计算,同时,将每个主题关键词与所述剩余关键词/>分别进行第四余弦相似度计算;
从所有第三余弦相似度中筛选大于预设相似度的第五余弦相似度,且结合每个第五余弦相似度所对应内容关键词的预设时效系数,来确定所述剩余关键词基于内容关键词的第一系数;
;其中,/>表示从对应的所有第五余弦相似度所对应内容关键词的预设时效系数中确定的最大时效系数;/>表示对数函数符号;/>表示常数,取值为2.7;/>表示从对应的所有第五余弦相似度中获取与/>一致的余弦相似度;/>表示对应的所有第五余弦相似度的平均相似度;/>表示剩余关键词/>基于内容关键词的第一系数;
根据每个主题关键词的第二预设时效系数,来确定所述剩余关键词基于主题关键词的第二系数;
;其中,/>表示所述剩余关键词基于主题关键词的第二系数;/>表示所对应所有第二预设时效系数中的最大时效系数;/>表示所对应所有第二预设时效系数中的最小时效系数;/>表示所对应所有第二预设时效系数中的第/>个时效系数,且/>的取值范围为/>
基于所有第一系数以及第二系数,得到所述剩余关键词的时效系数;
;其中,/>表示所述剩余关键词/>的时效系数。
该实施例中,内容关键词是指根据最新新闻资讯的文章结构进行筛选的针对最新新闻资讯表达含义的关键词。
该实施例中,主题关键词是最新新闻资讯描述的主题词汇。
该实施例中,第三余弦相似度是内容关键词与剩余关键词的含义相似度。
该实施例中,第四余弦相似度是主题关键词与对应剩余关键词的含义相似度。
该实施例中,第五余弦相似度是第三余弦相似度大于预设相似度的词语之间的含义相似度。
该实施例中,预设相似度是通过内容关键词与剩余关键词需要超过0.5。
该实施例中,预设时效系数是当下内容关键词的有效范围。
该实施例中,第二预设时效系数当下主题关键词的有效范围。
上述技术方案的工作原理及有益效果是:通过剩余关键词与最新新闻资讯的内容关键词、主题关键词的余弦相似度的计算得出对应预设时效系数,将对应预设时效系数求平均后得出剩余关键词的时效系数,实现在新闻资讯的信息时效内准确高效的生成对应新闻资讯的主题。
实施例9:
本发明实施例提供一种用于资讯主题的自动生成方法,计算所述关键词矩阵中每行向量的允许存在值,并将允许存在值小于预设存在值的关键词进行剔除,包括:
基于结果-设定映射表,分别向同行向量中的词性判断结果、结构判断结果与位置判断结果设置相应的设定值;
根据所有设定值,计算得到所述同行向量的允许存在值;
当所述允许存在值小于预设存在值时,将所述同行向量对应的关键词剔除。
该实施例中,结果-设定映射表是同行向量中的词性判断结果、结构判断结果与位置判断结果等级设定对应的值。
上述技术方案的工作原理及有益效果是:计算同行向量的允许存在值,实现对应关键词的初步判断。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (7)

1.一种用于资讯主题的自动生成方法,其特征在于,包括:
步骤1:对预置新闻资讯进行时效性分析及聚类处理,并抽取每个聚类结果中的关键词;
步骤2:将每个聚类结果中抽取的关键词进行语义度排序以及正式度判断,根据排序结果与判断结果筛选每个聚类结果中的主题词集,并构建主题词库;
步骤3:收集实时新闻资讯,并判断所述实时新闻资讯的产生时长是否大于预设时长,若是,对所述实时新闻资讯进行资讯解析,获取得到新词汇对所述主题词库进行更新;
否则,根据未更新的主题词库对所述实时新闻资讯进行主题规划,自动生成所述实时新闻资讯的实时主题;
其中,将每个聚类结果中抽取的关键词进行语义度排序以及正式度判断,根据排序结果与判断结果筛选每个聚类结果中的主题词集,并构建主题词库,包括:
锁定所抽取的关键词于对应预置新闻资讯中前后词语,根据锁定内容对相应抽取的关键词进行词性判断、结构判断与位置判断;
结合词性判断、结构判断与位置判断,生成对应聚类结果的关键词矩阵:
;其中,/>表示第1个关键词的词性判断结果;/>表示第1个关键词的结构判断结果;/>表示第1个关键词的位置判断结果;/>表示第/>个关键词的结构判断结果;/>表示第/>个关键词的词性判断结果;/>表示第/>个关键词的位置判断结果;/>表示对应聚类结果中存在/>个关键词;
计算所述关键词矩阵中每行向量的允许存在值,并将允许存在值小于预设存在值的关键词进行剔除;
对同聚类结果中每个剩余关键词进行语义度计算;
对同聚类结果中每个剩余关键词进行正式度计算;
对所有剩余关键词进行语义度排序以及正式度判断,根据排序结果与判断结果筛选每个聚类结果中的主题词集,并构建主题词库;
其中,对同聚类结果中每个剩余关键词进行正式度计算,包括:
从正式近似词库中提取剩余关键词的近似词集合,并确定所述近似词集合中每个正式近似词与剩余关键词/>的第一余弦相似度;
获取主题词库进行最后一次更新之后且截至当下时间之间所捕捉到的新正式词汇,并确定每个新正式词汇与剩余关键词的第二余弦相似度;
根据剩余关键词的所有第一余弦相似度以及第二余弦相似度,确定剩余关键词/>的正式度。
2.根据权利要求1所述的一种用于资讯主题的自动生成方法,其特征在于,对预置新闻资讯进行时效性分析及聚类处理,并抽取每个聚类结果中的关键词,包括:
对每篇预置新闻资讯中与时间相关的第一词语以及与名词相关第二词语进行出现频率计算,同时,根据资讯时效词库向每篇预置新闻资讯中的第一词语匹配对应的文字解释与文字解释的生成日期;
根据出现频率计算结果、匹配结果以及对应预置新闻资讯中时间词性与名词词性之间的关联关系,得出每篇预置新闻资讯中每个第二词语的时效-频率系数,得出对应预置新闻资讯的平均时效;
对所述平均时效低于设定时效的预置新闻资讯进行初始消极处理,得到第一筛选资讯并保留,否则,将对应预置新闻资讯保留;
运用lda聚类算法对保留的资讯进行聚类处理,得到聚类结果,得到n类中心主题,并对聚类结果中的每篇第一资讯进行关键词抽取。
3.根据权利要求2所述的一种用于资讯主题的自动生成方法,其特征在于,对所述平均时效低于设定时效的预置新闻资讯进行初始消极处理,包括:
根据所述平均时效与设定时效的时效差异,从差异-系数映射表中提取对应新闻资讯的影响系数;
根据所述影响系数,对相应预置新闻资讯进行初始消极处理。
4.根据权利要求2所述的一种用于资讯主题的自动生成方法,其特征在于,对聚类结果中的每篇第一资讯进行关键词抽取,包括:
根据分句符号机制将第一资讯进行分句处理,得到句子集合;
将所述句子集合依次输入句子解析模型,生成所述第一资讯的若干句向量;
计算所述第一资讯的每个句向量与对应聚类中心主题的第一距离,抽取对应第一资讯的关键词。
5.根据权利要求1所述的一种用于资讯主题的自动生成方法,其特征在于,对同聚类结果中每个剩余关键词进行语义度计算,包括:
;其中,/>表示第/>个剩余关键词/>的时效系数;/>表示基于对应聚类结果中涉及到与剩余关键词/>的相关新闻资讯/>中的词频;/>表示相关新闻资讯W的平均词数;/>表示对应聚类结果中所有新闻资讯的平均词数;/>和/>为自由参数,取值为/>,/>;/>表示对应聚类结果中的新闻资讯数量;/>表示对应聚类结果所有新闻资讯所涉及剩余关键词/>的资讯数量;/>表示第/>个剩余关键词/>与对应聚类结果的语义度。
6.根据权利要求5所述的一种用于资讯主题的自动生成方法,其特征在于,对同聚类结果中每个剩余关键词进行语义度计算的过程中,包括:
获取最新新闻资讯中的内容关键词以及主题关键词,并将每个内容关键词与剩余关键词分别进行第三余弦相似度计算,同时,将每个主题关键词与所述剩余关键词/>分别进行第四余弦相似度计算;
从所有第三余弦相似度中筛选大于预设相似度的第五余弦相似度,且结合每个第五余弦相似度所对应内容关键词的预设时效系数,来确定所述剩余关键词基于内容关键词的第一系数;
;其中,/>表示从对应的所有第五余弦相似度所对应内容关键词的预设时效系数中确定的最大时效系数;/>表示对数函数符号;/>表示常数,取值为2.7;/>表示从对应的所有第五余弦相似度中获取与/>一致的余弦相似度;/>表示对应的所有第五余弦相似度的平均相似度;表示剩余关键词/>基于内容关键词的第一系数;
根据每个主题关键词的第二预设时效系数,来确定所述剩余关键词基于主题关键词的第二系数;
;其中,/>表示所述剩余关键词/>基于主题关键词的第二系数;/>表示所对应所有第二预设时效系数中的最大时效系数;/>表示所对应所有第二预设时效系数中的最小时效系数;/>表示所对应所有第二预设时效系数中的第/>个时效系数,且/>的取值范围为/>
基于所有第一系数以及第二系数,得到所述剩余关键词的时效系数;
;其中,/>表示所述剩余关键词/>的时效系数。
7.根据权利要求1所述的一种用于资讯主题的自动生成方法,其特征在于,计算所述关键词矩阵中每行向量的允许存在值,并将允许存在值小于预设存在值的关键词进行剔除,包括:
基于结果-设定映射表,分别向同行向量中的词性判断结果、结构判断结果与位置判断结果设置相应的设定值;
根据所有设定值,计算得到所述同行向量的允许存在值;
当所述允许存在值小于预设存在值时,将所述同行向量对应的关键词剔除。
CN202311345180.2A 2023-10-18 2023-10-18 一种用于资讯主题的自动生成方法 Active CN117077632B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311345180.2A CN117077632B (zh) 2023-10-18 2023-10-18 一种用于资讯主题的自动生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311345180.2A CN117077632B (zh) 2023-10-18 2023-10-18 一种用于资讯主题的自动生成方法

Publications (2)

Publication Number Publication Date
CN117077632A CN117077632A (zh) 2023-11-17
CN117077632B true CN117077632B (zh) 2024-01-09

Family

ID=88713880

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311345180.2A Active CN117077632B (zh) 2023-10-18 2023-10-18 一种用于资讯主题的自动生成方法

Country Status (1)

Country Link
CN (1) CN117077632B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492157A (zh) * 2018-10-24 2019-03-19 华侨大学 基于rnn、注意力机制的新闻推荐方法及主题表征方法
CN111090731A (zh) * 2019-12-20 2020-05-01 山大地纬软件股份有限公司 基于主题聚类的电力舆情摘要提取优化方法及系统
CN112580355A (zh) * 2020-12-30 2021-03-30 中科院计算技术研究所大数据研究院 一种新闻资讯话题检测及实时聚合方法
CN113407679A (zh) * 2021-06-30 2021-09-17 竹间智能科技(上海)有限公司 文本主题挖掘方法、装置、电子设备及存储介质
CN114265932A (zh) * 2021-12-10 2022-04-01 国家计算机网络与信息安全管理中心广东分中心 一种融入深度语义关系分类的事件脉络生成方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874292B (zh) * 2015-12-11 2020-05-05 北京国双科技有限公司 话题处理方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492157A (zh) * 2018-10-24 2019-03-19 华侨大学 基于rnn、注意力机制的新闻推荐方法及主题表征方法
CN111090731A (zh) * 2019-12-20 2020-05-01 山大地纬软件股份有限公司 基于主题聚类的电力舆情摘要提取优化方法及系统
CN112580355A (zh) * 2020-12-30 2021-03-30 中科院计算技术研究所大数据研究院 一种新闻资讯话题检测及实时聚合方法
CN113407679A (zh) * 2021-06-30 2021-09-17 竹间智能科技(上海)有限公司 文本主题挖掘方法、装置、电子设备及存储介质
CN114265932A (zh) * 2021-12-10 2022-04-01 国家计算机网络与信息安全管理中心广东分中心 一种融入深度语义关系分类的事件脉络生成方法及系统

Also Published As

Publication number Publication date
CN117077632A (zh) 2023-11-17

Similar Documents

Publication Publication Date Title
CN105824922B (zh) 一种融合深层特征和浅层特征的情感分类方法
CN110297988B (zh) 基于加权LDA和改进Single-Pass聚类算法的热点话题检测方法
CN106156204B (zh) 文本标签的提取方法和装置
CN104794169B (zh) 一种基于序列标注模型的学科术语抽取方法及系统
US8375033B2 (en) Information retrieval through identification of prominent notions
CN109509557B (zh) 一种基于大数据平台的中文电子病历信息抽取预处理方法
CN112632228A (zh) 一种基于文本挖掘的辅助评标方法及系统
CN112559684A (zh) 一种关键词提取及信息检索方法
CN110674296B (zh) 一种基于关键词的资讯摘要提取方法及系统
CN108363694B (zh) 关键词提取方法及装置
CN112581006A (zh) 筛选舆情信息及监测企业主体风险等级的舆情引擎及方法
CN108363699A (zh) 一种基于百度贴吧的网民学业情绪分析方法
CN112365372B (zh) 一种面向裁判文书的质量检测及评估方法及系统
CN111651559B (zh) 一种基于事件抽取的社交网络用户关系抽取方法
CN108062351A (zh) 关于特定主题类别的文本摘要提取方法、可读存储介质
CN110287493B (zh) 风险短语识别方法、装置、电子设备及存储介质
CN111241299A (zh) 一种法律咨询的知识图谱自动构建方法及其检索系统
CN110019556B (zh) 一种话题新闻获取方法、装置及其设备
CN112395862A (zh) 一种基于数据挖掘的环境风险感知评价方法
CN117077632B (zh) 一种用于资讯主题的自动生成方法
CN111966899A (zh) 搜索排序方法、系统及计算机可读存储介质
Li-Juan et al. A classification method of Vietnamese news events based on maximum entropy model
CN115392220A (zh) 一种满意度数值的确定方法及装置
CN113779983B (zh) 文本数据处理方法以及装置、存储介质、电子装置
CN112650838A (zh) 一种基于历史案件大数据的智能问答方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant