CN112036190A

CN112036190A - 资讯画像构建方法及装置

Info

Publication number: CN112036190A
Application number: CN202010917893.1A
Authority: CN
Inventors: 狄潇然
Original assignee: Bank of China Ltd
Current assignee: Bank of China Ltd
Priority date: 2020-09-03
Filing date: 2020-09-03
Publication date: 2020-12-04
Anticipated expiration: 2040-09-03
Also published as: CN112036190B

Abstract

本发明公开了一种资讯画像构建方法及装置，其中该方法包括：利用TFIDF算法计算资讯中词语的IDF值，选择IDF值排序在前的预设数量个词语作为第一词集；利用TEXTRANK算法计算资讯中词语的TextRank值，选TextRank值择排序在前的同样预设数量个词语作为第二词集；以第一词集和第二词集的交集词语作为资讯画像的主题词；以第二词集作为资讯画像的关键词，计算关键词的词向量；根据关键词的词向量确定资讯词向量表征方式；根据主题词、关键词和资讯词向量表征方式合并构建资讯画像。本发明不仅仅考虑词频，还考虑词语词之间的关联性，上下文语义，资讯画像内容丰富，准确率高，提高依赖资讯画像个性化服务的质量。

Description

资讯画像构建方法及装置

技术领域

本发明涉及资讯画像技术领域，尤其涉及资讯画像构建方法及装置。

背景技术

本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

资讯是用户因为及时地获得它并利用它而能够在相对短的时间内给自己带来价值的信息。资讯画像被定义为一种抽象出资讯信息全貌的手段，往往用来描述资讯的特点，刻画资讯的形象，常常被应用于一些个性化的服务场景，这就对画像的准确性有了要求。然而传统的资讯画像构建主要以TFIDF(是一种用于信息检索和数据挖掘的常用加权技术。TF是词频，IDF是逆文档频率指数)提取关键词为主，具体过程就是：首先对资讯切词、去停用词，基于给定的资讯语料库中的语料计算每个词语的IDF值，再根据每个词在资讯中出现的频率得到文章中每个词的TFIDF值，然后根据TFIDF值排序，利用topk个词刻画资讯画像，对应的TFIDF值则为权重，这就导致画像的刻画过分依赖语料库，而忽略了词与词之间的关联性，未考虑上下文语义。这就导致资讯的画像过于单调，过分依赖词频，直接影响画像的准确性，限制依赖资讯画像的个性化服务的质量。

发明内容

本发明实施例提供一种资讯画像构建方法，用以解决现有技术中只是以TFIDF提取关键词为主，导致影响画像的准确性，限制依赖资讯画像的个性化服务的质量的技术问题，该方法包括：

利用TFIDF算法计算资讯中词语的IDF值，选择IDF值排序在前的预设数量个词语作为第一词集；

利用TEXTRANK算法计算资讯中词语的TextRank值，选TextRank值择排序在前的同样预设数量个词语作为第二词集；

以第一词集和第二词集的交集词语作为资讯画像的主题词；

以第二词集作为资讯画像的关键词，计算关键词的词向量；

根据所述关键词的词向量确定资讯词向量表征方式；

根据主题词、关键词和资讯词向量表征方式合并构建资讯画像。

本发明实施例还提供一种资讯画像构建装置，用以解决现有技术中只是以TFIDF提取关键词为主，导致影响画像的准确性，限制依赖资讯画像的个性化服务的质量的技术问题，该装置包括：

第一词集确定模块，用于利用TFIDF算法计算资讯中词语的IDF值，选择IDF值排序在前的预设数量个词语作为第一词集；

第二词集确定模块，用于利用TEXTRANK算法计算资讯中词语的TextRank值，选TextRank值择排序在前的同样预设数量个词语作为第二词集；

主题词确定模块，用于以第一词集和第二词集的交集词语作为资讯画像的主题词；

关键词确定模块，用于以第二词集作为资讯画像的关键词；

词向量确定模块，用于计算关键词的词向量；

资讯词向量表征方式确定模块，用于根据所述关键词的词向量确定资讯词向量表征方式；

资讯画像构建模块，用于根据主题词、关键词和资讯词向量表征方式合并构建资讯画像。

本发明实施例还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述资讯画像构建方法。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有执行上述资讯画像构建方法的计算机程序。

本发明实施例中，利用TFIDF算法计算资讯中词语的IDF值，选择IDF值排序在前的预设数量个词语作为第一词集，这样考虑了词频，利用TEXTRANK算法计算资讯中词语的TextRank值，选TextRank值择排序在前的同样预设数量个词语作为第二词集，这样考虑词语词之间的关联性，上下文语义。然后以第一词集和第二词集的交集词语作为资讯画像的主题词；以第二词集作为资讯画像的关键词，计算关键词的词向量；根据所述关键词的词向量确定资讯词向量表征方式；根据主题词、关键词和资讯词向量表征方式合并构建资讯画像。与现有技术中只是以TFIDF提取关键词为主，导致影响画像的准确性，限制依赖资讯画像的个性化服务的质量的技术方案相比，可以使得资讯画像内容丰富，准确率高，提高依赖资讯画像个性化服务的质量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1为本发明实施例中资讯画像构建方法流程图一；

图2为本发明实施例中资讯画像构建方法流程图二；

图3为本发明实施例中资讯画像构建方法流程图三；

图4为本发明实施例中资讯画像构建方法流程图四；

图5为本发明实施例中资讯画像构建装置结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下面结合附图对本发明实施例做进一步详细说明。在此，本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。

图1为本发明实施例中资讯画像构建方法流程图一，如图1所示，该方法包括：

步骤101：利用TFIDF算法计算资讯中词语的IDF值，选择IDF值排序在前的预设数量个(下面可以用k代替)词语作为第一词集；

步骤102：利用TEXTRANK算法计算资讯中词语的TextRank值，选TextRank值择排序在前的同样预设数量个词语作为第二词集；

步骤103：以第一词集和第二词集的交集词语作为资讯画像的主题词；

步骤104：以第二词集作为资讯画像的关键词，计算关键词的词向量；

步骤105：根据所述关键词的词向量确定资讯词向量表征方式；

步骤106：根据主题词、关键词和资讯词向量表征方式合并构建资讯画像。

TextRank算法是一种用于文本的基于图的排序算法，通过把文本分割成若干组成单元(单词、句子)并建立图模型,利用投票机制对文本中的重要成分进行排序,仅利用单篇文档本身的信息即可实现关键词提取、文摘。关键词抽取的任务就是从一段给定的文本中自动抽取出若干有意义的词语或词组。TextRank算法是利用局部词汇之间关系(共现窗口)对后续关键词进行排序，直接从文本本身抽取。

本发明利用TFIDF算法考虑了词频，利用TEXTRANK算法考虑了词语词之间的关联性，上下文语义。

在本发明实施例中，如图2所示，该方法还包括：

步骤104-1：根据IDF值和TextRank值确定关键词权重。由于第二词集和第一词集是不同的，所以关键词权重分为以下两种技术方式：

(1)对属于第一词集和第二词集交集的词语的权重按照如下公式确定：

weights＝TextRank值×IDF值；

(2)对属于第二词集不属于第一词集的词语的权重按照如下公式确定：

weights＝TextRank值；

其中，weights表示关键词权重；TextRank值表示关键词的TextRank值；IDF值表示关键词的IDF值。

举例说明。第一词集假设包括词语A、B、C、D、F，而第二词集假设包括词语A、B、C、D、E，那以第二词集为关键词，计算的是A、B、C、D、E的权重，A、B、C、D有TextRank值和IDF值，以公式weights＝TextRank值×IDF值计算权重，那E只有TextRank值，按照公式weights＝TextRank值计算权重。

在本发明实施例中，如图3所示，还包括：

步骤104-2：将关键词和关键词权重缓存到redis中。使用hash类型结构将关键词和关键词权重缓存到redis中，其中，hash类型结构包括key和value，其中，key为资讯id，value为预设数量个关键词及关键词权重。redis缓存的特性就是访问速度快，可用来存储经常访问的热数据。

具体如下：key＝资讯id，value＝{{关键词1，权重1}，{关键词2，权重2}，……，{关键词k，权重k}}。

在本发明实施例中，步骤104计算关键词的词向量，包括：

利用word2vector算法计算关键词的词向量。

在本发明实施例中，如图4所示，还包括：

步骤104-3：计算关键词的词向量权重。计算公式如下：

关键词的词向量权重＝关键词权重×关键词的词向量。

在本发明实施例中，按照如下公式根据所述关键词的词向量确定资讯词向量表征方式：

资讯词向量表征方式＝预设数量个关键词的词向量的平均值。即：资讯词向量表征方式＝(关键词1词向量+...+关键词k词向量)/k。

在本发明实施例中，步骤106具体包括：

使用hive数据仓库加载主题词、关键词和资讯词向量表征方式；

根据主题词、关键词和资讯词向量表征方式合并构建资讯画像就是将三部分内容合并生成一张宽表，表结构为：资讯id，主题词，关键词，词向量。

数据仓库，英文名称为Data warehouse，可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环境，为企业提供决策支持(Decision Support)。它出于分析性报告和决策支持目的而创建。数据仓库本身并不“生产”任何数据，同时自身也不需要“消费”任何的数据，数据来源于外部，并且开放给外部应用，这也是为什么叫“仓库”，而不叫“工厂”的原因。数据仓库的主要特征：数据仓库是面向主题的(Subject-Oriented)、集成的(Integrated)、非易失的(Non-Volatile)和时变的(Time-Variant)数据集合，用以支持管理决策。

本发明实施例中还提供了一种资讯画像构建装置，如下面的实施例所述。由于该装置解决问题的原理与资讯画像构建方法相似，因此该装置的实施可以参见资讯画像构建方法的实施，重复之处不再赘述。

图5为本发明实施例中资讯画像构建装置结构框图，如图5所示，该资讯画像构建装置包括：

第一词集确定模块02，用于利用TFIDF算法计算资讯中词语的IDF值，选择IDF值排序在前的预设数量个词语作为第一词集；

第二词集确定模块04，用于利用TEXTRANK算法计算资讯中词语的TextRank值，选TextRank值择排序在前的同样预设数量个词语作为第二词集；

主题词确定模块06，用于以第一词集和第二词集的交集词语作为资讯画像的主题词；

关键词确定模块08，用于以第二词集作为资讯画像的关键词；

词向量确定模块10，用于计算关键词的词向量；

资讯词向量表征方式确定模块12，用于根据所述关键词的词向量确定资讯词向量表征方式；

资讯画像构建模块14，用于根据主题词、关键词和资讯词向量表征方式合并构建资讯画像。

在本发明实施例中，关键词确定模块08还用于：

根据IDF值和TextRank值确定关键词权重。

在本发明实施例中，关键词确定模块08具体用于：

对属于第一词集和第二词集交集的词语的权重按照如下公式确定：

weights＝TextRank值×IDF值；

对属于第二词集不属于第一词集的词语的权重按照如下公式确定：

weights＝TextRank值；

在本发明实施例中，词向量确定模块10具体用于：

利用word2vector算法计算关键词的词向量。

在本发明实施例中，词向量确定模块10还用于：

计算关键词的词向量权重。

在本发明实施例中，词向量确定模块10还用于：

按照如下公式计算关键词的词向量权重：

关键词的词向量权重＝关键词权重×关键词的词向量。

在本发明实施例中，资讯词向量表征方式12确定模块具体用于：

按照如下公式根据所述关键词的词向量确定资讯词向量表征方式：

资讯词向量表征方式＝预设数量个关键词的词向量的平均值。

在本发明实施例中，关键词确定模块08还用于：

将关键词和关键词权重缓存到redis中。

在本发明实施例中，关键词确定模块具体用于：

使用hash类型结构将关键词和关键词权重缓存到redis中，其中，hash类型结构包括key和value，其中，key为资讯id，value为预设数量个关键词及关键词权重。

在本发明实施例中，资讯画像构建模块14具体用于：

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种资讯画像构建方法，其特征在于，包括：

以第一词集和第二词集的交集词语作为资讯画像的主题词；

以第二词集作为资讯画像的关键词，计算关键词的词向量；

根据所述关键词的词向量确定资讯词向量表征方式；

2.如权利要求1所述的资讯画像构建方法，其特征在于，还包括：

根据IDF值和TextRank值确定关键词权重。

3.如权利要求2所述的资讯画像构建方法，其特征在于，对属于第一词集和第二词集交集的词语的权重按照如下公式确定：

weights＝TextRank值×IDF值；

weights＝TextRank值；

4.如权利要求1所述的资讯画像构建方法，其特征在于，计算关键词的词向量，包括：

利用word2vector算法计算关键词的词向量。

5.如权利要求1所述的资讯画像构建方法，其特征在于，还包括：

计算关键词的词向量权重。

6.如权利要求5所述的资讯画像构建方法，其特征在于，按照如下公式计算关键词的词向量权重：

关键词的词向量权重＝关键词权重×关键词的词向量。

7.如权利要求1所述的资讯画像构建方法，其特征在于，按照如下公式根据所述关键词的词向量确定资讯词向量表征方式：

8.如权利要求2所述的资讯画像构建方法，其特征在于，还包括：

将关键词和关键词权重缓存到redis中。

9.如权利要求8所述的资讯画像构建方法，其特征在于，将关键词和关键词权重缓存到redis中，包括：

10.如权利要求1所述的资讯画像构建方法，其特征在于，根据主题词、关键词和资讯词向量表征方式合并构建资讯画像，包括：

11.一种资讯画像构建装置，其特征在于，包括：

关键词确定模块，用于以第二词集作为资讯画像的关键词；

词向量确定模块，用于计算关键词的词向量；

12.如权利要求11所述的资讯画像构建装置，其特征在于，关键词确定模块还用于：

根据IDF值和TextRank值确定关键词权重。

13.如权利要求12所述的资讯画像构建装置，其特征在于，关键词确定模块具体用于：

weights＝TextRank值×IDF值；

weights＝TextRank值；

14.如权利要求11所述的资讯画像构建装置，其特征在于，词向量确定模块具体用于：

利用word2vector算法计算关键词的词向量。

15.如权利要求11所述的资讯画像构建装置，其特征在于，词向量确定模块还用于：

计算关键词的词向量权重。

16.如权利要求15所述的资讯画像构建装置，其特征在于，词向量确定模块还用于：

按照如下公式计算关键词的词向量权重：

关键词的词向量权重＝关键词权重×关键词的词向量。

17.如权利要求11所述的资讯画像构建装置，其特征在于，资讯词向量表征方式确定模块具体用于：

18.如权利要求12所述的资讯画像构建装置，其特征在于，关键词确定模块还用于：

将关键词和关键词权重缓存到redis中。

19.如权利要求18所述的资讯画像构建装置，其特征在于，关键词确定模块具体用于：

20.如权利要求11所述的资讯画像构建装置，其特征在于，资讯画像构建模块具体用于：

21.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至10任一所述资讯画像构建方法。

22.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有执行权利要求1至10一所述资讯画像构建方法的计算机程序。