CN112989038B

CN112989038B - 句子级用户画像生成方法、装置及存储介质

Info

Publication number: CN112989038B
Application number: CN202110171840.4A
Authority: CN
Inventors: 徐涛
Original assignee: Zhejiang Lianxin Technology Co ltd
Current assignee: Lexian (Zhejiang) Technology Co.,Ltd.
Priority date: 2021-02-08
Filing date: 2021-02-08
Publication date: 2022-06-21
Anticipated expiration: 2041-02-08
Also published as: CN112989038A

Abstract

本发明提供一种句子级用户画像生成方法、装置及存储介质，包括：接收会话语料，基于爬虫系统对所述会话语料进行处理获取目标语料，其中目标语料包括一个或多个文本；对文本进行分词处理，获得每个文本分词的词向量，基于每个文本分词的词向量生成该文本的句向量；将句向量转换为矩阵得到句矩阵，将句矩阵与句矩阵的转置矩阵相乘得到交叉矩阵；基于TextRank算法对交叉矩阵进行概率转移矩阵图分解，生成句子级用户画像。本发明能够对用户画以句子的形式进行个体化、具体化、形象化等特征的描述。填补了词级、大颗粒的群体标签对个体用户心理画像描述的缺失，通过人机会话的语料，实现对个体的心理诉求进行画像，细颗粒表示了个体用户的诉求标签。

Description

句子级用户画像生成方法、装置及存储介质

技术领域

本发明涉及数据处理技术，尤其涉及一种句子级用户画像生成方法、装置及存储介质。

背景技术

关键词标签，主要用于精准营销、分发推送到真实目标用户群，是对群体特征的高度聚类、抽象后的一种标注描述，在该群中的所有个体用户继承了集体的一般、普遍、大众化的特征。然而，以识别细分群体为目标的关键词标签，缺失了用户个体化、具体化、形象化的特征表达。

以在商品购物、内容阅读、服务消费场等场为例，用户画像主要使用关键词标签的语义关键词来标注目标群体，是一种词级的用户画像特征描述。但是其无法进行句子级、连续可读的自动生成个体用户心理画像描述，进而无法对用户个体化、具体化、形象化等特征进行表达。

发明内容

本发明实施例提供一种句子级用户画像生成方法、装置及存储介质，能够对用户画以句子的形式进行个体化、具体化、形象化等特征的描述。

本发明实施例的第一方面，提供一种句子级用户画像生成方法，包括：

接收会话语料，基于爬虫系统对所述会话语料进行处理获取目标语料，其中所述目标语料包括一个或多个文本；

对所述一个或多个文本进行分词处理，获得每个文本分词的词向量，基于所述每个文本分词的词向量生成该文本的句向量；

将所述句向量转换为矩阵得到句矩阵，将所述句矩阵与所述句矩阵的转置矩阵相乘得到交叉矩阵；

基于TextRank算法对所述交叉矩阵进行概率转移矩阵图分解，生成句子级用户画像。

可选地，在第一方面的一种可能实现方式中，所述接收会话语料包括：

从人机会话系统中抽取出用户留存的对话语料和\或短文本；

所述基于爬虫系统对所述会话语料进行处理获取目标语料包括：

搜索引擎爬虫将对话语料和\或短文本发送给开放搜索引擎，所述基于所述对话语料和\或短文本进行查询得到搜索结果；

将所述搜索结果中的标题文本和\或摘要文本作为目标语料。

可选地，在第一方面的一种可能实现方式中，所述对所述一个或多个文本进行分词处理，获得每个文本分词的词向量包括：

基于开源分词工具将对文本进行分词处理，并转化为词向量表示；

基于所述每个文本分词的词向量生成该文本的句向量包括：

将一个句子中的词向量相加除以单词的数量得到一个加权平均向量，所述加权平均向量为句向量。

可选地，在第一方面的一种可能实现方式中，将所述句向量转换为矩阵得到句矩阵，将所述句矩阵与所述句矩阵的转置矩阵相乘得到交叉矩阵；

计算句矩阵和其转置矩阵中句向量的点积，得到语义相似度的分数矩阵，所述分数矩阵为交叉矩阵。

可选地，在第一方面的一种可能实现方式中，所述基于TextRank算法对所述交叉矩阵进行概率转移矩阵图分解，生成句子级用户画像包括：

所述交叉矩阵包括多个句子节点，其中每个句子节点的权重默认为1，节点间的边权重为语义相似度分数，阻尼系数为0.85，状态向量等于0.15+0.85*M；

对所述交叉矩阵经过若干个迭代后，得到一个稳定态向量；

将向量数组中最大的N个数值所对应的句子作为句子级用户画像，该数值在向量数组中的索引编号即对应矩阵的行和\或列所对应的句子。

本发明实施例的第二方面，提供一种句子级用户画像生成装置，包括：

获取模块，用于接收会话语料，基于爬虫系统对所述会话语料进行处理获取目标语料，其中所述目标语料包括一个或多个文本；

处理模块，用于对所述一个或多个文本进行分词处理，获得每个文本分词的词向量，基于所述每个文本分词的词向量生成该文本的句向量；

交叉模块，用于将所述句向量转换为矩阵得到句矩阵，将所述句矩阵与所述句矩阵的转置矩阵相乘得到交叉矩阵；

生成模块，用于基于TextRank算法对所述交叉矩阵进行概率转移矩阵图分解，生成句子级用户画像。

可选地，在第二方面的一种可能实现方式中，所述获取模块包括抽取单元：

所述抽取单元用于从人机会话系统中抽取出用户留存的对话语料和\或短文本；

所述获取模块包括搜索单元：

所述搜索单元用于搜索引擎爬虫将对话语料和\或短文本发送给开放搜索引擎，所述基于所述对话语料和\或短文本进行查询得到搜索结果；

将所述搜索结果中的标题文本和\或摘要文本作为目标语料。

可选地，在第二方面的一种可能实现方式中，所述处理模块还用于执行以下步骤，包括：

基于所述每个文本分词的词向量生成该文本的句向量包括：

可选地，在第二方面的一种可能实现方式中，所述生成模块还用于执行以下步骤：

对所述交叉矩阵经过若干个迭代后，得到一个稳定态向量；

本发明实施例的第三方面，提供一种可读存储介质，所述可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时用于实现本发明第一方面及第一方面各种可能设计的所述方法。

本发明提供的一种句子级用户画像生成方法、装置及存储介质，本发明填补了词级、大颗粒的群体标签对个体用户心理画像描述的缺失，通过人机会话的语料，实现对个体的心理诉求进行画像，细颗粒表示了个体用户的诉求标签。

附图说明

图1为句子级用户画像生成方法的流程图；

图2为句子级用户画像生成装置的结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

应当理解，在本发明的各种实施例中，各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

应当理解，在本发明中，“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本发明中，“多个”是指两个或两个以上。“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。“包含A、B和C”、“包含A、B、C”是指A、B、C三者都包含，“包含A、B或C”是指包含A、B、C三者之一，“包含A、B和/或C”是指包含A、B、C三者中任1个或任2个或3个。

应当理解，在本发明中，“与A对应的B”、“与A相对应的B”、“A与B相对应”或者“B与A相对应”，表示B与A相关联，根据A可以确定B。根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其他信息确定B。A与B的匹配，是A与B的相似度大于或等于预设的阈值。

取决于语境，如在此所使用的“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

本发明提供一种句子级用户画像生成方法，如图1所示其流程图，包括：

步骤S10、接收会话语料，基于爬虫系统对所述会话语料进行处理获取目标语料，其中所述目标语料包括一个或多个文本。

在步骤S10中，所述接收会话语料包括：

步骤S101、从人机会话系统中抽取出用户留存的对话语料和\或短文本；

步骤S102、搜索引擎爬虫将对话语料和\或短文本发送给开放搜索引擎，所述基于所述对话语料和\或短文本进行查询得到搜索结果；

将所述搜索结果中的标题文本和\或摘要文本作为目标语料。

在一个可能的实施方式中，从人机会话系统中抽取出用户留存的对话语料、短文本。搜索引擎爬虫用于将对话语料发送给开放搜索引擎，获取查询的结果首页，抽取每个搜索结果的标题和摘要。目前主流的业内的编程语言对HTTP协议提供封装，用户实例化一个http请求客户端。

例如：从某心理应用后台，从标签“杭州+80后+女+互联网行业”的用户群中，随机抽取一个用户的人机会话语料，“讨好型，自己不开心，对很多东西不感兴趣”。根据HTTP协议，爬虫程序构造一个请求URL发送给搜索引擎查询接口，一般如：https://www.xxx.com/s？wd＝{讨好型，自己不开心，对很多东西不感兴趣}，从返回的HTML源代码页面中，依据html标签class、id等标识，抽取结果的标题文本、摘要文本。

步骤S20、对所述一个或多个文本进行分词处理，获得每个文本分词的词向量，基于所述每个文本分词的词向量生成该文本的句向量。

在步骤S20中，还包括：

步骤S201、基于开源分词工具将对文本进行分词处理，并转化为词向量表示；

步骤S202、基于所述每个文本分词的词向量生成该文本的句向量包括：

步骤S203、将一个句子中的词向量相加除以单词的数量得到一个加权平均向量，所述加权平均向量为句向量。

在一个可能的实施方式中，对返回的搜索结果，根据标点符号断句，抽取标题文本、摘要文本，利用开源分词工具，如：Python版jieba、Java版hanLP等分词包完成切词，将切词转化为词向量表示。

2013年以来谷歌开源了其word2vec词向量预训练工具，相同上下文语境的词有相似含义，能够将符号型的文本字符转为语义空间的实密向量，实现了词级别的语义类比、推理计算。斯坦福大学对开源提供GLove预训练词向量模型，并基于维基百科的语料完成词向量训练，开源了词向量表示数据库。

句子向量是将句子里的各个词向量相加除以单词的数量，得到一个加权平均向量，用来表示句子的语义。

例如：上述步骤1中的返回结果，“讨好型人格家里一定很多不喜欢的东西”，分词结果是“讨好、型、人格、家里、一定、很多、不、喜欢、的、东西”10个单词，根据切词，依次转化为词向量，所有词向量相加除以单词数量(10个)，获取句子的语义向量。比如，[-1.81802582e-04,-5.90656507e-05,1.16338723e-04,....]这个实密向量表示句子的语义。

步骤S30、将所述句向量转换为矩阵得到句矩阵，将所述句矩阵与所述句矩阵的转置矩阵相乘得到交叉矩阵。

在步骤S30中，包括：

步骤S301、计算句矩阵和其转置矩阵中句向量的点积，得到语义相似度的分数矩阵，所述分数矩阵为交叉矩阵。

在一个可能的实施方式中，通过计算句子向量间的点积，得到了语义相似度的分数矩阵，这是一个“句子数x句子数”方阵。矩阵的数值，表示对应的行、列两个句子的语义相似度，用来表示邻接关系的边权重。通过矩阵，可以得到所有返回结果中的任意两个句子之间的相似度。

例如：上述步骤的返回结果，句子“讨好型人格家里一定很多不喜欢的东西”对应的句子向量是[-1.81802582e-04,-5.90656507e-05,1.16338723e-04,....]，句子“做人还是要讨好自己”句子向量是[3.25291479e-05,-6.07174939e-05,-8.86953108e-05...],两个句子的相似度是大于0、小于1的分数。

步骤S40、基于TextRank算法对所述交叉矩阵进行概率转移矩阵图分解，生成句子级用户画像。

在步骤S40中，包括：

步骤S401、所述交叉矩阵包括多个句子节点，其中每个句子节点的权重默认为1，节点间的边权重为语义相似度分数，阻尼系数为0.85，状态向量等于0.15+0.85*M；

步骤S402、对所述交叉矩阵经过若干个迭代后，得到一个稳定态向量；

步骤S403、将向量数组中最大的N个数值所对应的句子作为句子级用户画像，该数值在向量数组中的索引编号即对应矩阵的行和\或列所对应的句子。

在一个可能的实施方式中，对句子语义的交叉矩阵做概率转移矩阵图分解，默认初始节点权重为1，源于TextRank算法，原始、经典的TextRank算法重点研究文本内部词语结构关系，建立邻接边关系图模型抽取关键词。句子语义的交叉矩阵用于对句子级的关系邻接边权重进行图表示，矩阵描述了网络节点间的权重。

TextRank算法的核心思想是，一个网络节点的重要性取决于有多少个相邻节点指向该节点，且相邻节点的权重同样影响该节点，原始经典算法中，提供了经验阻尼系数为0.85，初始默认每个节点的权重为1。

例如：上述交叉矩阵为M，默认每个句子节点的权重默认为1，节点间的边权重为语义相似度分数，阻尼系数为0.85，状态向量等于0.15+0.85*M，经过若干个迭代后，获得一个稳定态向量。找出向量数组中最大的N个数值，该数值在向量数组中的索引编号，就是对应矩阵的行(或列)所对应的句子。

经过20个迭代训练，状态转移矩阵收敛得到稳定向量。以上述，“讨好型，自己不开心，对很多东西不感兴趣”这个语料，选择状态向量中的最大的前10个句子，有“生活卑微”、“和他人一起大笑”、“如果你总是无法拒绝别人”、“需要怎么做”、“唤醒内心强大自己”、“缺乏自己的主见”、“但是一味委屈自己”、“她不敢表现真实的自己”、“按理说她恋爱会很顺利”、“做人还是要讨好自己”。

本发明还提供一种句子级用户画像生成装置，如图2所示，包括：

在一个实施例中，所述获取模块包括抽取单元：

所述获取模块包括搜索单元：

将所述搜索结果中的标题文本和\或摘要文本作为目标语料。

在一个实施例中，所述处理模块还用于执行以下步骤，包括：

基于所述每个文本分词的词向量生成该文本的句向量包括：

在一个实施例中，所述生成模块还用于执行以下步骤：

对所述交叉矩阵经过若干个迭代后，得到一个稳定态向量；

其中，可读存储介质可以是计算机存储介质，也可以是通信介质。通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。计算机存储介质可以是通用或专用计算机能够存取的任何可用介质。例如，可读存储介质耦合至处理器，从而使处理器能够从该可读存储介质读取信息，且可向该可读存储介质写入信息。当然，可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(ApplicationSpecific Integrated Circuits，简称：ASIC)中。另外，该ASIC可以位于用户设备中。当然，处理器和可读存储介质也可以作为分立组件存在于通信设备中。可读存储介质可以是只读存储器(ROM)、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本发明还提供一种程序产品，该程序产品包括执行指令，该执行指令存储在可读存储介质中。设备的至少一个处理器可以从可读存储介质读取该执行指令，至少一个处理器执行该执行指令使得设备实施上述的各种实施方式提供的方法。

在上述终端或者服务器的实施例中，应理解，处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application SpecificIntegrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种句子级用户画像生成方法，其特征在于，包括：

基于TextRank算法对所述交叉矩阵进行概率转移矩阵图分解，生成句子级用户画像；

搜索引擎爬虫将对话语料和\或短文本发送给开放搜索引擎，基于所述对话语料和\或短文本进行查询得到搜索结果；

将所述搜索结果中的标题文本和\或摘要文本作为目标语料；

所述基于TextRank算法对所述交叉矩阵进行概率转移矩阵图分解，生成句子级用户画像包括：

所述交叉矩阵包括多个句子节点，其中每个句子节点的权重默认为1，节点间的边权重为语义相似度分数，阻尼系数为0.85，状态向量等于0.15 + 0.85*M，其中M为交叉矩阵；

对所述交叉矩阵经过若干个迭代后，得到一个稳定态向量；

2.根据权利要求1所述的句子级用户画像生成方法，其特征在于，

所述接收会话语料包括：

从人机会话系统中抽取出用户留存的对话语料和\或短文本。

3.根据权利要求2所述的句子级用户画像生成方法，其特征在于，

所述对所述一个或多个文本进行分词处理，获得每个文本分词的词向量包括：

基于所述每个文本分词的词向量生成该文本的句向量包括：

4.根据权利要求1所述的句子级用户画像生成方法，其特征在于，

将所述句向量转换为矩阵得到句矩阵，将所述句矩阵与所述句矩阵的转置矩阵相乘得到交叉矩阵包括：

5.一种句子级用户画像生成装置，其特征在于，包括：

生成模块，用于基于TextRank算法对所述交叉矩阵进行概率转移矩阵图分解，生成句子级用户画像；

所述获取模块包括搜索单元：

所述搜索单元用于搜索引擎爬虫将对话语料和\或短文本发送给开放搜索引擎，基于所述对话语料和\或短文本进行查询得到搜索结果；

将所述搜索结果中的标题文本和\或摘要文本作为目标语料；

所述生成模块还用于执行以下步骤：

对所述交叉矩阵经过若干个迭代后，得到一个稳定态向量；

6.根据权利要求5所述的句子级用户画像生成装置，其特征在于，

所述获取模块包括抽取单元：

所述抽取单元用于从人机会话系统中抽取出用户留存的对话语料和\或短文本。

7.根据权利要求6所述的句子级用户画像生成装置，其特征在于，

所述处理模块还用于执行以下步骤，包括：

基于所述每个文本分词的词向量生成该文本的句向量包括：

8.一种可读存储介质，其特征在于，所述可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时用于实现权利要求1至4任一所述的方法。