CN117077632B

CN117077632B - 一种用于资讯主题的自动生成方法

Info

Publication number: CN117077632B
Application number: CN202311345180.2A
Authority: CN
Inventors: 胡红亮; 郭传斌; 杨万波; 丁荣; 聂雯莹; 马少方
Original assignee: Beijing Guoke Zhongan Technology Co ltd
Current assignee: Beijing Guoke Zhongan Technology Co ltd
Priority date: 2023-10-18
Filing date: 2023-10-18
Publication date: 2024-01-09
Anticipated expiration: 2043-10-18
Also published as: CN117077632A

Abstract

本发明提供了一种用于资讯主题的自动生成方法，属于智能生成技术领域，其方法包括：对预置新闻资讯进行时效性分析及聚类处理，并抽取每个聚类结果中的关键词；将每个聚类结果中抽取的关键词进行语义度排序以及正式度判断，根据排序结果与判断结果筛选每个聚类结果中的主题词集，并构建主题词库；收集实时新闻资讯，并判断所述实时新闻资讯的产生时长是否大于预设时长，若是，对所述实时新闻资讯进行资讯解析，获取得到新词汇对所述主题词库进行更新，否则，根据未更新的主题词库对所述实时新闻资讯进行主题规划，自动生成所述实时新闻资讯的实时主题，实现在新闻资讯的信息时效内准确高效的生成对应新闻资讯的主题。

Description

一种用于资讯主题的自动生成方法

技术领域

本发明涉及智能生成技术领域，特别涉及一种用于资讯主题的自动生成方法。

背景技术

近年来，互联网新闻资讯内容呈爆炸式涌入人们的日常生活，然而，新闻资讯的主题识别方法中的传统做法是依靠业务人员对新闻资讯进行总结概括得到一个词汇来作为主题，每天都有大量新闻资讯产生依靠人工去进行总结效率低下，主题的精准度也得不到保障，能否根据对应新闻资讯的时效生成主题也犹未可知。

因此，本发明提供一种用于资讯主题的自动生成方法。

发明内容

本发明提供一种用于资讯主题的自动生成方法，用以通过对预置新闻资讯的时效性分析及聚类处理，以此抽取对应聚类新闻资讯的关键词作为聚类结果，并对每个聚类结果进行语义度排序和正式度判断，根据对应结果最终生成主题词库，对新生成新闻资讯通过判断生成时长，判断是否需要对主题词库进行更新，同时生成对应新闻资讯的主题，以实现在新闻资讯的信息时效内准确高效的生成对应新闻资讯的主题。

本发明提供一种用于资讯主题的自动生成方法，包括：

步骤1：对预置新闻资讯进行时效性分析及聚类处理，并抽取每个聚类结果中的关键词；

步骤2：将每个聚类结果中抽取的关键词进行语义度排序以及正式度判断，根据排序结果与判断结果筛选每个聚类结果中的主题词集，并构建主题词库；

步骤3：收集实时新闻资讯，并判断所述实时新闻资讯的产生时长是否大于预设时长，若是，对所述实时新闻资讯进行资讯解析，获取得到新词汇对所述主题词库进行更新；

否则，根据未更新的主题词库对所述实时新闻资讯进行主题规划，自动生成所述实时新闻资讯的实时主题。

本发明提供一种用于资讯主题的自动生成方法，对预置新闻资讯进行时效性分析及聚类处理，并抽取每个聚类结果中的关键词，包括：

对每篇预置新闻资讯中与时间相关的第一词语以及与名词相关第二词语进行出现频率计算，同时，根据资讯时效词库向每篇预置新闻资讯中的第一词语匹配对应的文字解释与文字解释的生成日期；

根据出现频率计算结果、匹配结果以及对应预置新闻资讯中时间词性与名词词性之间的关联关系，得出每篇预置新闻资讯中每个第二词语的时效-频率系数，得出对应预置新闻资讯的平均时效；

对所述平均时效低于设定时效的预置新闻资讯进行初始消极处理，得到第一筛选资讯并保留，否则，将对应预置新闻资讯保留；

运用lda聚类算法对保留的资讯进行聚类处理，得到聚类结果，得到n类中心主题，并对聚类结果中的每篇第一资讯进行关键词抽取。

本发明提供一种用于资讯主题的自动生成方法，对所述平均时效低于设定时效的预置新闻资讯进行初始消极处理，包括：

根据所述平均时效与设定时效的时效差异，从差异-系数映射表中提取对应新闻资讯的影响系数；

根据所述影响系数，对相应预置新闻资讯进行初始消极处理。

本发明提供一种用于资讯主题的自动生成方法，对聚类结果中的每篇第一资讯进行关键词抽取，包括：

根据分句符号机制将第一资讯进行分句处理，得到句子集合；

将所述句子集合依次输入句子解析模型，生成所述第一资讯的若干句向量；

计算同个第一资讯的每个句向量与对应聚类中心主题的第一距离，抽取对应第一资讯的关键词。

本发明提供一种用于资讯主题的自动生成方法，将每个聚类结果中抽取的关键词进行语义度排序以及正式度判断，根据排序结果与判断结果筛选每个聚类结果中的主题词集，并构建主题词库，包括：

锁定所抽取的关键词于对应预置新闻资讯中前后词语，根据锁定内容对相应抽取的关键词进行词性判断、结构判断与位置判断；

结合词性判断、结构判断与位置判断，生成对应聚类结果的关键词矩阵：

；其中，/>表示第1个关键词的词性判断结果；/>表示第1个关键词的结构判断结果；/>表示第1个关键词的位置判断结果；/>表示第/>个关键词的结构判断结果；/>表示第/>个关键词的词性判断结果；/>表示第/>个关键词的位置判断结果；/>表示对应聚类结果中存在/>个关键词；

计算所述关键词矩阵中每行向量的允许存在值，并将允许存在值小于预设存在值的关键词进行剔除；

对同聚类结果中每个剩余关键词进行语义度计算；

对同聚类结果中每个剩余关键词进行正式度计算；

对所有剩余关键词进行语义度排序以及正式度判断，根据排序结果与判断结果筛选每个聚类结果中的主题词集，并构建主题词库。

本发明提供一种用于资讯主题的自动生成方法，对同聚类结果中每个剩余关键词进行语义度计算，包括：

；其中，/>表示第/>个剩余关键词/>的时效系数；/>表示基于对应聚类结果中涉及到与剩余关键词/>的相关新闻资讯/>中的词频；/>表示相关新闻资讯W的平均词数；/>表示对应聚类结果中所有新闻资讯的平均词数；/>和/>为自由参数，取值为/>，；/>表示对应聚类结果中的新闻资讯数量；/>表示对应聚类结果所有新闻资讯所涉及剩余关键词/>的资讯数量；/>表示第/>个剩余关键词/>与对应聚类结果的语义度。

本发明提供一种用于资讯主题的自动生成方法，对同聚类结果中每个剩余关键词进行正式度计算，包括：

从正式近似词库中提取剩余关键词的近似词集合，并确定所述近似词集合中每个正式近似词与剩余关键词/>的第一余弦相似度；

获取主题词库进行最后一次更新之后且截至当下时间之间所捕捉到的新正式词汇，并确定每个新正式词汇与剩余关键词的第二余弦相似度；

根据剩余关键词的所有第一余弦相似度以及第二余弦相似度，确定剩余关键词的正式度。

本发明提供一种用于资讯主题的自动生成方法，对同聚类结果中每个剩余关键词进行语义度计算的过程中，包括：

获取最新新闻资讯中的内容关键词以及主题关键词，并将每个内容关键词与剩余关键词分别进行第三余弦相似度计算，同时，将每个主题关键词与所述剩余关键词/>分别进行第四余弦相似度计算；

从所有第三余弦相似度中筛选大于预设相似度的第五余弦相似度，且结合每个第五余弦相似度所对应内容关键词的预设时效系数，来确定所述剩余关键词基于内容关键词的第一系数；

；其中，/>表示从对应的所有第五余弦相似度所对应内容关键词的预设时效系数中确定的最大时效系数；/>表示对数函数符号；/>表示常数，取值为2.7；/>表示从对应的所有第五余弦相似度中获取与/>一致的余弦相似度；/>表示对应的所有第五余弦相似度的平均相似度；/>表示剩余关键词/>基于内容关键词的第一系数；

根据每个主题关键词的第二预设时效系数，来确定所述剩余关键词基于主题关键词的第二系数；

；其中，/>表示所述剩余关键词/>基于主题关键词的第二系数；/>表示所对应所有第二预设时效系数中的最大时效系数；/>表示所对应所有第二预设时效系数中的最小时效系数；/>表示所对应所有第二预设时效系数中的第/>个时效系数，且/>的取值范围为；

基于所有第一系数以及第二系数，得到所述剩余关键词的时效系数；

；其中，/>表示所述剩余关键词/>的时效系数。

本发明提供一种用于资讯主题的自动生成方法，计算所述关键词矩阵中每行向量的允许存在值，并将允许存在值小于预设存在值的关键词进行剔除，包括：

基于结果-设定映射表，分别向同行向量中的词性判断结果、结构判断结果与位置判断结果设置相应的设定值；

根据所有设定值，计算得到所述同行向量的允许存在值；

当所述允许存在值小于预设存在值时，将所述同行向量对应的关键词剔除。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种用于资讯主题的自动生成方法；

图2 为本发明实施例中最新新闻资讯主题生成的流程图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

实施例1：

本发明实施例提供一种用于资讯主题的自动生成方法，如图1所示，包括：

该实施例中，预置新闻资讯是建立主题词库的基础新闻资讯，需要包括多方面的新闻资讯，是提前从已经发布的新闻中所抽取好的资讯。

该实施例中，时效性是新闻资讯信息在对应所属时间段内的有效性，超出对应所属时间段，新闻资讯的有效性将大打折扣，甚至于完全无用。

该实施例中，聚类处理是将预置新闻资讯进行归类，归类之后处理对应聚类的聚类结果。

该实施例中，语义度排序是对抽取的关键词与对应新闻资讯的实际主题的契合度进行排序，契合度越高则语义度排序越高，语义度必须超过设定值。

该实施例中，正式度判断是由于新闻资讯中使用的词语必须是正式语言，日常用语中一大部分词汇不可用于新闻资讯，因此需要对聚类结果中的关键词进行正式度的判断，不符合正式度要求的关键词将会被剔除。

该实施例中，主题词集是通过结合语义度排序以及正式度判断筛选之后的对应聚类结果中的关键词集合。

该实施例中，聚类结果是将每篇预置新闻资讯聚类之后抽取的关键词。

该实施例中，主题词库是将每个聚类结果的主题词集进行集合的结果。

该实施例中，如图2所示，资讯解析是实时新闻资讯在产生时长在超过预设时长的情况下，进行步骤2与步骤3的操作，并对主题词库进行更新。

该实施例中，如图2所示，主题规划是实时新闻资讯在产生时长未超过预设时长的情况下，直接根据当下未更新主题词库与实时新闻资讯生成实时主题。

上述技术方案的工作原理及有益效果是：用以通过对预置新闻资讯的时效性分析及聚类处理，以此抽取对应聚类新闻资讯的关键词作为聚类结果，并对每个聚类结果进行语义度排序和正式度判断，根据对应结果最终生成主题词库，对新生成新闻资讯通过判断生成时长，判断是否需要对主题词库进行更新，同时生成对应新闻资讯的主题，以实现在新闻资讯的信息时效内准确高效的生成对应新闻资讯的主题。

实施例2：

本发明实施例提供一种用于资讯主题的自动生成方法，对预置新闻资讯进行时效性分析及聚类处理，并抽取每个聚类结果中的关键词，包括：

该实施例中，第一词语是与时间相关的所有词语，比如带有年限和具体时间的词、二十四节气和表示时间意思的成语。

该实施例中，第二项词语是具体的名词性词语，比如人物名词、事物名词、时间名词、方位名词、关系名词。

该实施例中，资讯时效词库是对应词语文字解释生成时间与第一次出现在新闻资讯的时间。

该实施例中，频率计算结果是第一词语与第二词语在每篇新闻资讯中出现的频率。

该实施例中，匹配结果是由第二词语的文字解释与对应生成时间得出的第二词语的初始时效。

该实施例中，时间词性是第一词语的时效与代表的时间结果。

该实施例中，名词词性是第二词语的时效。

该实施例中，关联关系是对应词语出现频率越高，该词语对相应预置新闻资讯的时效产生的影响越大。

该实施例中，时效-频率系数是根据第一词语与第二词语出现频率的不同对相应预置新闻资讯的时效产生的影响不同。

该实施例中，平均时效是相应预置新闻资讯中的每个第一词语与第二词语的对应时效求平均。

该实施例中，设定时效是预置新闻资讯的时效限制，比如体育类新闻资讯的设定时效为4年。

该实施例中，初始消极处理是将相应预置新闻资讯剔除或降低相应预置新闻资讯抽取的关键词数量。

该实施例中，第一筛选资讯是将所有预置新闻资讯进行消极处理之后的剩余预置新闻资讯。

该实施例中，第一资讯是对第一筛选资讯进行聚类分析后对应聚类所含有的预置新闻资讯。

该实施例中，所述聚类算法是按照句向量的语义距离及进行分类的，需要满足完整覆盖要求。

上述技术方案的工作原理及有益效果是：通过对预置新闻资讯与时间相关的第一词语以及与名词相关的第二词语进行分析后得出对应预置新闻资讯的平均时效，以此对预置新闻资讯进行筛选，对筛选结果进行聚类得出n类中心主题，进行关键词抽取，保证关键词的时效性。

实施例3：

本发明实施例提供一种用于资讯主题的自动生成方法，对所述平均时效低于设定时效的预置新闻资讯进行初始消极处理，包括：

该实施例中，差异-系数映射表包括不同差异时效对主题词库中词语的时效影响程度的集合。

该实施例中，影响系数每篇预置新闻资讯的平均时效与设定时效的差异时效对主题词库中词语的时效影响程度。

上述技术方案的工作原理及有益效果是：对平均时效与设定时效的时效差异进行分析得出对应影响系数，对相应预置新闻资讯做初始消极处理，降低不符合时效的预置新闻资讯对主题词库时效影响。

实施例4：

本发明实施例提供一种用于资讯主题的自动生成方法，对聚类结果中的每篇第一资讯进行关键词抽取，包括：

该实施例中，分句符号机制是在语言表达中的分句标志，比如句号，分号。

该实施例中，句子集合是所有第一资讯的句子。

该实施例中，句子解析模型的输入是句子集合，输出是对应句子的句向量，训练量10000。

该实施例中，句向量是句子表达的主要含义，主要由主语、谓语、宾语与对应句子的情感色彩构成。

该实施例中，聚类中心主题是每个聚类对应的主题。

该实施例中，第一距离是每个句向量与对应聚类中心主题的距离，是第一资讯中每个句子与对应聚类中心主题的相似程度。

上述技术方案的工作原理及有益效果是：通过计算第一资讯的每个句向量与对应聚类中心主题的第一距离，得出对应第一资讯的关键词，保证关键词的准确性。

实施例5：

本发明实施例提供一种用于资讯主题的自动生成方法，将每个聚类结果中抽取的关键词进行语义度排序以及正式度判断，根据排序结果与判断结果筛选每个聚类结果中的主题词集，并构建主题词库，包括：

对同聚类结果中每个剩余关键词进行语义度计算；

对同聚类结果中每个剩余关键词进行正式度计算；

该实施例中，词性判断是关键词在对应句子中的词性与对应语境的情感色彩，比如名词。

该实施例中，结构判断是关键词在对应句子中充当的结构，比如主语、谓语、宾语。

该实施例中，位置判断是关键词对应的句子在整篇新闻资讯结构中对应位置，比如中心句、总起句、总结句与过渡句。

该实施例中，关键词矩阵中，对进行词性判断、结构判断与位置判断的相应关键词做出等级值的设定，词性判断的设定值中，第一等级包括名词，第二等级包括动词、数词、量词和连词，第三等级包括形容词、感叹词拟声词，其中第一等级设定值最高，依次降低，结构判断的设定值为：第一等级包括主语、谓语和宾语，第二等级包括定语和状语，第三等级包括补语，位置判断的设定值为：第一等级包括中心句，第二等级包括总起句和总结句，第三等级包括过渡句，第四等级为剩余句，根据设定值计算对应行向量的允许存在值。

该实施例中，允许存在值是根据对应的等级判断得出的。

该实施例中，语义度计算是计算剩余关键词同聚类新闻资讯的契合度。

该实施例中，正式度计算是计算剩余关键词是否为新闻资讯正式词语。

上述技术方案的工作原理及有益效果是：通过对抽取的关键词进行词性判断、结构判断与位置判断，得出剩余关键词，对剩余关键词进行语义度计算与正式度计算得出符合条件的聚类结果，构建主题词库，实现在新闻资讯的信息时效内准确高效的生成对应新闻资讯的主题。

实施例6：

本发明实施例提供一种用于资讯主题的自动生成方法，对同聚类结果中每个剩余关键词进行语义度计算，包括：

该实施例中，时效系数是剩余关键词的有效范围，比如2022年冬奥会的时效系数在2023年为0.5。

上述技术方案的工作原理及有益效果是：计算同聚类结果中每个剩余关键词的语义度，实现在新闻资讯的信息时效内准确高效的生成对应新闻资讯的主题。

实施例7：

本发明实施例提供一种用于资讯主题的自动生成方法，对同聚类结果中每个剩余关键词进行正式度计算，包括：

该实施例中，正式近似词库是包含所有新闻资讯用到的正式词语。

该实施例中，近似词集合是与剩余关键词同义的所有正式词语的集合。

该实施例中，第一余弦相似度是正式近似词与剩余关键词含义的相似度。

该实施例中，第二余弦相似度是没有更新到主题词库中的正式词语与剩余关键词含义的相似度。

该实施例中，新正式词汇是没有更新到主题词库中的正式词语，随时事发展发生变化。

该实施例中，确定剩余关键词的正式度是第一余弦相似度与第一余弦相似度的并集为1的结果。

上述技术方案的工作原理及有益效果是：计算同聚类结果中每个剩余关键词的正式度，实现在新闻资讯的信息时效内准确高效的生成对应新闻资讯的主题。

实施例8：

本发明实施例提供一种用于资讯主题的自动生成方法，其特征在于，对同聚类结果中每个剩余关键词进行语义度计算的过程中，包括：

；其中，/>表示所述剩余关键词基于主题关键词的第二系数；/>表示所对应所有第二预设时效系数中的最大时效系数；/>表示所对应所有第二预设时效系数中的最小时效系数；/>表示所对应所有第二预设时效系数中的第/>个时效系数，且/>的取值范围为/>；

；其中，/>表示所述剩余关键词/>的时效系数。

该实施例中，内容关键词是指根据最新新闻资讯的文章结构进行筛选的针对最新新闻资讯表达含义的关键词。

该实施例中，主题关键词是最新新闻资讯描述的主题词汇。

该实施例中，第三余弦相似度是内容关键词与剩余关键词的含义相似度。

该实施例中，第四余弦相似度是主题关键词与对应剩余关键词的含义相似度。

该实施例中，第五余弦相似度是第三余弦相似度大于预设相似度的词语之间的含义相似度。

该实施例中，预设相似度是通过内容关键词与剩余关键词需要超过0.5。

该实施例中，预设时效系数是当下内容关键词的有效范围。

该实施例中，第二预设时效系数当下主题关键词的有效范围。

上述技术方案的工作原理及有益效果是：通过剩余关键词与最新新闻资讯的内容关键词、主题关键词的余弦相似度的计算得出对应预设时效系数，将对应预设时效系数求平均后得出剩余关键词的时效系数，实现在新闻资讯的信息时效内准确高效的生成对应新闻资讯的主题。

实施例9：

本发明实施例提供一种用于资讯主题的自动生成方法，计算所述关键词矩阵中每行向量的允许存在值，并将允许存在值小于预设存在值的关键词进行剔除，包括：

根据所有设定值，计算得到所述同行向量的允许存在值；

该实施例中，结果-设定映射表是同行向量中的词性判断结果、结构判断结果与位置判断结果等级设定对应的值。

上述技术方案的工作原理及有益效果是：计算同行向量的允许存在值，实现对应关键词的初步判断。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种用于资讯主题的自动生成方法，其特征在于，包括：

否则，根据未更新的主题词库对所述实时新闻资讯进行主题规划，自动生成所述实时新闻资讯的实时主题；

其中，将每个聚类结果中抽取的关键词进行语义度排序以及正式度判断，根据排序结果与判断结果筛选每个聚类结果中的主题词集，并构建主题词库，包括：

对同聚类结果中每个剩余关键词进行语义度计算；

对同聚类结果中每个剩余关键词进行正式度计算；

对所有剩余关键词进行语义度排序以及正式度判断，根据排序结果与判断结果筛选每个聚类结果中的主题词集，并构建主题词库；

其中，对同聚类结果中每个剩余关键词进行正式度计算，包括：

根据剩余关键词的所有第一余弦相似度以及第二余弦相似度，确定剩余关键词/>的正式度。

2.根据权利要求1所述的一种用于资讯主题的自动生成方法，其特征在于，对预置新闻资讯进行时效性分析及聚类处理，并抽取每个聚类结果中的关键词，包括：

3.根据权利要求2所述的一种用于资讯主题的自动生成方法，其特征在于，对所述平均时效低于设定时效的预置新闻资讯进行初始消极处理，包括：

4.根据权利要求2所述的一种用于资讯主题的自动生成方法，其特征在于，对聚类结果中的每篇第一资讯进行关键词抽取，包括：

计算所述第一资讯的每个句向量与对应聚类中心主题的第一距离，抽取对应第一资讯的关键词。

5.根据权利要求1所述的一种用于资讯主题的自动生成方法，其特征在于，对同聚类结果中每个剩余关键词进行语义度计算，包括：

；其中，/>表示第/>个剩余关键词/>的时效系数；/>表示基于对应聚类结果中涉及到与剩余关键词/>的相关新闻资讯/>中的词频；/>表示相关新闻资讯W的平均词数；/>表示对应聚类结果中所有新闻资讯的平均词数；/>和/>为自由参数，取值为/>，/>；/>表示对应聚类结果中的新闻资讯数量；/>表示对应聚类结果所有新闻资讯所涉及剩余关键词/>的资讯数量；/>表示第/>个剩余关键词/>与对应聚类结果的语义度。

6.根据权利要求5所述的一种用于资讯主题的自动生成方法，其特征在于，对同聚类结果中每个剩余关键词进行语义度计算的过程中，包括：

；其中，/>表示从对应的所有第五余弦相似度所对应内容关键词的预设时效系数中确定的最大时效系数；/>表示对数函数符号；/>表示常数，取值为2.7；/>表示从对应的所有第五余弦相似度中获取与/>一致的余弦相似度；/>表示对应的所有第五余弦相似度的平均相似度；表示剩余关键词/>基于内容关键词的第一系数；

；其中，/>表示所述剩余关键词/>基于主题关键词的第二系数；/>表示所对应所有第二预设时效系数中的最大时效系数；/>表示所对应所有第二预设时效系数中的最小时效系数；/>表示所对应所有第二预设时效系数中的第/>个时效系数，且/>的取值范围为/>；

；其中，/>表示所述剩余关键词/>的时效系数。

7.根据权利要求1所述的一种用于资讯主题的自动生成方法，其特征在于，计算所述关键词矩阵中每行向量的允许存在值，并将允许存在值小于预设存在值的关键词进行剔除，包括：

根据所有设定值，计算得到所述同行向量的允许存在值；