CN113343108A

CN113343108A - 推荐信息处理方法、装置、设备及存储介质

Info

Publication number: CN113343108A
Application number: CN202110741394.6A
Authority: CN
Inventors: 沈玮; 谢骏峰; 李娟�; 陈兢; 黄鑫; 张璇; 李宇航; 龚成
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2021-09-03
Anticipated expiration: 2041-06-30
Also published as: CN113343108B

Abstract

本发明涉及大数据的用户画像技术领域，本发明公开了一种推荐信息处理方法、装置、设备及存储介质，所述方法包括：通过接收用户的推荐请求，获取问卷对话数据；进行语音识别及文本提取，得到需求数据；自用户信息数据库中获取行为轨迹数据，爬取与需求数据匹配的非结构化数据，爬取人际关系图谱；运用分布式并行计算技术，进行结构化转换以及分类匹配，得到结构化汇总数据；运用深度学习技术，通过客户画像模型对行为轨迹数据和结构化汇总数据进行客户分群，得到分群标签；通过信息推荐模型进行推荐信息分析，得到信息推荐结果。因此，本发明实现了快速地、准确地结合用户的行为轨迹数据、非结构化数据和人际关系图谱自动向用户推荐信息。

Description

推荐信息处理方法、装置、设备及存储介质

技术领域

本发明涉及用户画像技术领域，尤其涉及一种推荐信息处理方法、装置、设备及存储介质。

背景技术

现有信息推荐方法中，主要是通过用户的结构化数据中提取有用数据进行信息推荐。例如，通过用户的年龄、性别、收入、职业等存储与数据库中的结构化数据进行信息推荐，或者通过用户的历史浏览记录进行信息推荐，使得信息推荐的内容不符合当前用户所需要的信息。当推荐的信息较多，或每一推荐的信息的内容较多时，用户无法确定推荐的信息是否是自己真正此时想要的信息，或者两个相似的推荐信息同时出现无法区分哪个才是真正想要的信息，导致推荐信息的准确率较低，使得其对用户的吸引力不够，无法吸引用户使用推荐信息或者对推荐信息做进一步的操作，例如：购买或者分享等操作。

发明内容

本发明提供一种推荐信息处理方法、装置、计算机设备及存储介质，实现了快速地、准确地结合用户的行为轨迹数据、非结构化数据和人际关系图谱自动向用户推荐信息，让用户获取到此时真正关注或者合适的信息，提升了推荐信息的有效性和准确性。

一种推荐信息处理方法，包括：

接收用户的推荐请求，获取所述推荐请求中的问卷对话数据；

对所述问卷对话数据进行语音识别及文本提取，并提取出需求数据；

自用户信息数据库中获取与所述用户关联的行为轨迹数据，同时爬取与所述需求数据匹配的非结构化数据，以及爬取与所述用户关联的人际关系图谱；

运用分布式并行计算技术，对所述非结构化数据进行结构化转换以及分类匹配，得到结构化汇总数据；

运用深度学习技术，通过客户画像模型对所述行为轨迹数据和所述结构化汇总数据进行客户分群，得到与所述用户对应的分群标签；

通过信息推荐模型对所述需求数据、所述分群标签和所述人际关系图谱进行推荐信息分析，得到与所述推荐请求对应的信息推荐结果，并将所述信息推荐结果向所述用户推荐。

一种推荐信息处理装置，包括：

接收模块，用于接收用户的推荐请求，获取所述推荐请求中的问卷对话数据；

提取模块，用于对所述问卷对话数据进行语音识别及文本提取，并提取出需求数据；

爬取模块，用于自用户信息数据库中获取与所述用户关联的行为轨迹数据，同时爬取与所述需求数据匹配的非结构化数据，以及爬取与所述用户关联的人际关系图谱；

分类模块，用于运用分布式并行计算技术，对所述非结构化数据进行结构化转换以及分类匹配，得到结构化汇总数据；

分群模块，用于运用深度学习技术，通过客户画像模型对所述行为轨迹数据和所述结构化汇总数据进行客户分群，得到与所述用户对应的分群标签；

推荐模块，用于通过信息推荐模型对所述需求数据、所述分群标签和所述人际关系图谱进行推荐信息分析，得到与所述推荐请求对应的信息推荐结果，并将所述信息推荐结果向所述用户推荐。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述推荐信息处理方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述推荐信息处理方法的步骤。

本发明提供的推荐信息处理方法、装置、计算机设备及存储介质，通过接收用户的推荐请求，获取所述推荐请求中的问卷对话数据；对所述问卷对话数据进行语音识别及文本提取，并提取出需求数据；自用户信息数据库中获取与所述用户关联的行为轨迹数据，同时爬取与所述需求数据匹配的非结构化数据，以及爬取与所述用户关联的人际关系图谱；运用分布式并行计算技术，对所述非结构化数据进行结构化转换以及分类匹配，得到结构化汇总数据；运用深度学习技术，通过客户画像模型对所述行为轨迹数据和所述结构化汇总数据进行客户分群，得到与所述用户对应的分群标签；通过信息推荐模型对所述需求数据、所述分群标签和所述人际关系图谱进行推荐信息分析，得到与所述推荐请求对应的信息推荐结果，并将所述信息推荐结果向所述用户推荐，如此，实现了通过运用语言识别和文本提取技术，对问卷对话数据进行提取，得到需求数据，通过爬取技术，爬取用户的非结构化数据以及人际关系图谱，并运用分布式并行计算技术，快速对非结构化数据进行结构化转换，得到结构化汇总数据，以及运用深度学习技术，进行客户画像得到分群标签，结合需求数据、分群标签和人际关系图谱进行推荐信息分析，输出信息推荐结果给用户，达到快速地、准确地结合用户的行为轨迹数据、非结构化数据和人际关系图谱自动向用户推荐信息，让用户获取到此时真正关注或者合适的信息，从而提高用户的体验满意度，并且提升了推荐信息的有效性和准确性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中推荐信息处理方法的应用环境示意图；

图2是本发明一实施例中推荐信息处理方法的流程图；

图3是本发明一实施例中推荐信息处理方法的步骤S10的流程图；

图4是本发明一实施例中推荐信息处理方法的步骤S20的流程图；

图5是本发明一实施例中推荐信息处理方法的步骤S30的流程图；

图6是本发明另一实施例中推荐信息处理方法的步骤S30的流程图；

图7是本发明一实施例中推荐信息处理方法的步骤S40的流程图；

图8是本发明一实施例中推荐信息处理方法的步骤S402的流程图；

图9是本发明一实施例中推荐信息处理装置的原理框图；

图10是本发明一实施例中计算机设备的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供的推荐信息处理方法，可应用在如图1的应用环境中，其中，客户端(计算机设备或终端)通过网络与服务器进行通信。其中，客户端(计算机设备或终端)包括但不限于为各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种推荐信息处理方法，其技术方案主要包括以下步骤S10-S60：

S10，接收用户的推荐请求，获取所述推荐请求中的问卷对话数据。

可理解地，在用户完成了推荐信息的相关问卷对话之后，自动触发所述推荐请求，所述推荐请求包括所述问卷对话数据，所述问卷对话数据为用户完成推荐信息的相关问卷对话后生成的音频文件。

在一实施例中，如图3所示，所述步骤S10之前，即所述接收用户的推荐请求，获取所述推荐请求中的问卷对话数据之前，包括：

S101，接收用户的问卷请求，获取所述问卷请求中的所述用户的全身图像。

可理解地，通过图像采集设备采集所述用户的全身照，所述图像采集设备可以为摄像头，得到所述全身图像。

S102，对所述全身图像进行风格识别，识别出与所述用户对应的风格标签。

可理解地，所述风格识别为通过提取所述全身图像中的风格特征，对提取的风格特征进行多任务识别，识别出用户的风格标签，所述风格特征为与人物的人脸、情绪、全身色彩分布和发型相关的特征，所述风格标签表征了用户的当前状态和衣着风格，间接体现了用户的人物性格，为后续预测出用户的群体提供了数据基础。

S103，从问卷库中获取与所述风格标签对应的问卷清单。

可理解地，所述问卷库存储了各风格标签对应的问卷清单。

S104，根据获取的所述问卷清单，发起与所述用户的多轮问卷对话，以及通过多轮问卷对话，生成与所述问卷请求对应的所述问卷对话数据，并触发所述推荐请求。

可理解地，通过将获取的所述问卷清单呈现给用户，或者播报所述问卷清单，通过多轮问卷对话的方式收集用户针对所述问卷清单中的问卷进行回答的音频文件，汇总收集的所述音频文件得到所述问卷对话数据，并自动触发所述推荐请求，所述推荐请求包含所述问卷对话数据。

本发明实现了通过接收用户的问卷请求，获取所述问卷请求中的所述用户的全身图像；对所述全身图像进行风格识别，识别出与所述用户对应的风格标签；从问卷库中获取与所述风格标签对应的问卷清单；根据获取的所述问卷清单，发起与所述用户的多轮问卷对话，以及通过多轮问卷对话，生成与所述问卷请求对应的所述问卷对话数据，并触发所述推荐请求，如此，通过识别出用户的风格标签，获取与风格标签对应的问卷清单，通过多轮问卷对话方式，生成问卷对话数据，并触发推荐请求，能够准确地识别出当前用户的状态，按照多轮对话问卷方式，收集用户的需求信息，为后续的推荐信息提高了准确性，让推荐的信息更加符合用户的需求，提高了用户的体验满意度。

S20，对所述问卷对话数据进行语音识别及文本提取，并提取出需求数据。

可理解地，所述语音识别(Automatic Speech Recognition，ASR)以音频文件为研究对象，通过语音信号处理和模式识别，把音频信号转变为相应文本内容的技术，所述语音识别的过程为首先，对输入的音频文件进行预处理，例如：首尾端的静音切除，降低干扰，静音切除的操作，然后进行声音分帧，把声音切开成一小段一小段，每小段称为一帧，其次，提取语音特征(MFCC特征)，将每一帧波形变成一个包含声音信息的多维向量，最后，根据语音识别的模型，将计算机中存放的字典与提取的语音特征进行匹配，以及通过查表解码匹配后的结果，输出与其结果对应的文本内容的过程。

其中，所述文本提取为通过基于Bi-LSTM和CRF的关键词提取模型，对识别出的文本内容进行序列信息打标以及约束预测等操作，提取与需求相关的关键词，将所有关键词进行汇总得到所述需求数据。

在一实施例中，如图4所示，所述步骤S20中，即所述对所述问卷对话数据进行语音识别及文本提取，并提取出需求数据，包括；

S201，运用语音识别技术，对所述问卷对话数据进行识别，识别出语音数据。

可理解地，所述语音识别(Automatic Speech Recognition，ASR)以音频文件为研究对象，通过语音信号处理和模式识别，把音频信号转变为相应文本内容的技术，所述语音识别的过程为首先，对输入的音频文件进行预处理，例如：首尾端的静音切除，降低干扰，静音切除的操作，然后进行声音分帧，把声音切开成一小段一小段，每小段称为一帧，其次，提取语音特征(MFCC特征)，将每一帧波形变成一个包含声音信息的多维向量，最后，根据语音识别的模型，将计算机中存放的字典与提取的语音特征进行匹配，以及通过查表解码匹配后的结果，输出与其结果对应的文本内容的过程，将该文本内容确定的该为所述语音数据从而识别出

S202，运用word2vec算法和CRF约束算法，对所述语音数据进行文本分段，划分出多个短文本段。

可理解地，所述word2vec算法为指将一个词语(word)转换为一个向量(vector)表示，所述CRF约束算法为通过相邻字之间的关联性以及句首或句尾的约束特征进行表示出各个字是句首、句中或者句尾的算法，通过运用所述word2vec算法和CRF约束算法，可以将所述语音数据划分成多个所述文本分段，所述文本分段为将标识为句首的字和与其时间序列之后的相邻且标识为句尾的字之间划为一段的过程，从而得到多个所述短文本段。

S203，运用Bi-LSTM算法，对所有所述短文本段进行关键字提取，得到所述需求数据。

可理解地，所述Bi-LSTM算法为上下文关联性的语义识别算法，通过运用所述Bi-LSTM算法提取关键字，所述关键字提取的过程为提取与需求特征相关的关键字，从而得到所述需求数据。

本发明实现了通过运用语音识别技术，对所述问卷对话数据进行识别，识别出语音数据；运用word2vec算法和CRF约束算法，对所述语音数据进行文本分段，划分出多个短文本段；运用Bi-LSTM算法，对所有所述短文本段进行关键字提取，得到所述需求数据，如此，能够运用语言识别技术、word2vec算法、CRF约束算法和Bi-LSTM算法，自动识别出用户的真正需要的需求数据，提高了识别的准确率。

S30，自用户信息数据库中获取与所述用户关联的行为轨迹数据，同时爬取与所述需求数据匹配的非结构化数据，以及爬取与所述用户关联的人际关系图谱。

可理解地，所述用户信息数据库为存储了所有用户的行为轨迹数据，所述行为轨迹数据包括了用户的历史浏览数据和基础属性数据，所述基础属性数据包含用户的基本特征相关的信息，比如用户的性别、年龄、婚姻情况等等，所述历史浏览数据为用户在互联网上访问页面相关的数据，比如用户在页面停了多次时间、点击页面按钮的次数、打开了的页面主题、登录查看广告的时间等等数据。其中，爬取所述非结构化数据和爬取人际关系图谱的爬取技术可以相同，也可以不相同，根据需求进行设定，作为优选，爬取的过程为运用快速匹配算法，爬取与其相关的页面，所述快速匹配算法也称为KMP算法，即将所述字符串词条信息中的各组字符串组作为一个模式字符串，将互联网中的页面中的内容转换成多组字符串，将其作为主字符串，在模式字符串和主字符串查找匹配时，各有一个指针指向当前进行匹配的字符(主字符串中是指针i，模式字符串中是指针j)，在保证i指针不回溯的前提下，就只能让j指针回溯，其中，主字符串为需匹配的字符串，即所述指令数据，模式字符串为被匹配的字符串，即所述更新指令，i为主字符串中记录匹配进度的指针，j为指针回溯的距离，相当于模式字符串向右移动的距离，即当某字符匹配失败后，j指针回溯的位置，对于一个给定的模式字符串，其中，每个字符都有可能会遇到匹配失败，这时对应的j指针都需要回溯，具体回溯的位置由模式字符串本身来决定的，和主字符串没有关系，模式字符串中的每个字符所对应j指针回溯的位置，可以通过算法得出，得到的结果相应地存储在一个数组中(默认数组名为next)，该算法为对于模式字符串中的某一字符来说，提取它前面的字符串，分别从字符串的两端查看连续相同的字符串的个数，在其基础上“+1”，结果就是该字符对应的j值，每个模式串的第一个字符对应的值为0，第二个字符对应的值为1，例如：求模式字符串“abcabac”的next，前两个字符对应的0和1是固定的，对于字符‘c’来说，提取字符串“ab”，‘a’和‘b’不相等，相同的字符串的个数为0，0+1＝1，所以‘c’对应的next值为1；第四个字符‘a’，提取“abc”，从首先‘a’和‘c’就不相等，相同的个数为0，0+1＝1，所以，‘a’对应的next值为1；第五个字符‘b’，提取“abca”，第一个‘a’和最后一个‘a’相同，相同个数为1，1+1＝2，所以，‘b’对应的next值为2；第六个字符‘a’，提取“abcab”，前两个字符“ab”和最后两个“ab”相同，相同个数为2，2+1＝3，所以，‘a’对应的next值为3；最后一个字符‘c’，提取“abcaba”，第一个字符‘a’和最后一个‘a’相同，相同个数为1，1+1＝2，所以‘c’对应的next值为2；所以，字符串“abcabac”对应的next数组中的值为(0，1，1，1，2，3，2)，所述快速匹配算法和普通的匹配算法都是从主字符串开头开始匹配，但是在匹配过程中，所述快速匹配算法记录了一些必要的信息，根据该信息，在后续的匹配过程中，跳过了无意义的匹配过程，例如：主字符串为“ababcabcacbab”，模式字符串为“abcac”，模式字符串对应的next值为(0，1，1，1，2)，匹配的过程为在匹配失败的时候，i指针不动，j指针根据其在next值中对应的值进行回退到指定位置，如此，可以发现快速匹配算法只需要匹配3次，而普通的查找算法需要匹配6次，因此，所述快速匹配算法比普通的查找算法速度要快，从而可以加快爬取的速度。

如此，通过爬取非结构化数据和人际关系图谱，为后续进行信息推荐提供更多的有用信息，提高了推荐准确率，提升了用户满意度。

在一实施例中，如图5所示，所述步骤S30中，即所述爬取与所述需求数据匹配的非结构化数据，包括：

S301，运用快速匹配算法，爬取与所述需求数据匹配的待处理页面。

可理解地，所述待处理页面为在互联网中运用所述快速匹配算法爬取出与所述需求数据匹配的页面，即所述待处理页面中包含有所述需求数据的内容。

S302，从所述待处理页面中获取与所述需求数据匹配的内容的上下文信息。

可理解地，从所述待处理页面中找到与所述需求数据匹配的文本内容，通过获取与该文本内容相邻的上下文进行汇总，得到所述上下文信息。

S303，对所述上下文信息进行非结构化提取，得到所述非结构化数据。

可理解地，所述非结构化数据为数据结构不规则，没有预定义的数据模型，不方便用数据库二维逻辑表来表现的数据，可以为所有格式的办公文档、文本、报表、图像和音频/视频信息等等，所述非结构化数据可以为用户的最新动态图像或者文本信息等。

如此，本发明实现了运用快速匹配算法和爬取技术，快速获取待处理页面，并从中获取上下文信息，提取非结构化数据，从而得到与用户相关的非结构化数据，为后续的信息推荐提供了非结构化的数据，扩大了与用户相关的信息，提高了后续推荐信息的有效性和准确性。

在一实施例中，如图6所示，所述步骤S30中，即所述爬取与所述用户关联的人际关系图谱，包括：

S304，自用户信息数据库中获取与所述用户对应的基础属性数据，组成多个词条信息。

可理解地，在所述用户信息数据库中查找与所述用户对应的词条名，所述词条名为对用户名转换成的字符串，按照模式层为“实体-属性-性值”的三元组模式，对所述词条名和所述基础属性数据中的各个属性及其属性值进行组合，将所述词条名作为“实体”，将所述基础属性数据中的各个属性及其属性值作为“属性-性值”，组成多个三元组模式的所述词条信息。

S305，运用快速匹配算法，爬取与所述词条信息匹配的待抽取页面。

可理解地，将各个所述词条信息进行字符串转换，将文字和数值转换成字符串格式，得到与各个所述词条信息一一对应的字符串词条信息，所述字符串词条信息包括三组字符串组，运用所述快速匹配算法，从互联网中根据各个所述字符串词条信息进行爬取，爬取出包含有任一所述字符串词条信息的所述待抽取页面，所述待抽取页面为包含有任一所述字符串词条信息的页面。

S306，通过开放信息抽取原型算法对所有所述待抽取页面进行信息抽取，抽取出与所述用户关联的关系人以及与其对应的文本对象。

可理解地，所述开放信息抽取原型算法为训练完成的基于自监督学习方式和TextRunner的信息抽取的算法，所述开放信息抽取原型算法为运用自监督学习方式(Self-Supervised Learner)，学习生成一个贝叶斯分类器，判断可信关系，过程中运用命名实体识别(Named Entity Recognition，简称NER)对所有所述待抽取页面进行实体识别，识别出与所述用户关联的关系人，并统计发生在不同所述待抽取页面的句子中的频次，保留高频的文本结果作为所述文本对象，所述贝叶斯分类器实现了通过输入一句话，对生成所有可能的候选三元组进行判别，保留可信的三元组的句子的功能，所述贝叶斯分类器首先，对各所述待抽取页面中的句子进行词性标注；然后，使用名词短语识别，识别名词短语之间的实体和与该页面匹配的所述词条信息的词语作为关系表示；最后，进行分类，判别构成的候选三元组是否可信，将与可信的候选三元组对应的句子保留，作为所述文本对象，所述候选三元组为按照“第一实体，名词短语，第二实体”的三元组模式组成的三元组，所述实体识别为识别出人名的实体类别的提取过程。

S307，通过关系人构建模型对各所述文本对象进行关系语义识别，构建所述人际关系图谱。

可理解地，所述关系人构建模型为训练完成的基于BERT和BiLSTM模型架构的构建模型，通过关系人构建模型对所述文本对象进行关系语义识别，识别出与其对应的所述关系人之间的关系，并根据识别出的关系赋予该关系人的权重比，所述关系语义识别为提取所述文本对象中的关系语义特征，并根据提取的所述关系语义特征进行识别出关系的类别的识别过程，所述关系语义特征为具有与人际关系相关的语义的特征，运用基于BERT和BiLSTM模型架构进行关系语义识别能够更加准确地识别出所述用户与所述关系人之间的关系，根据识别出与其对应的所述关系人之间的关系，赋予该关系人相应的权重比，以及构建出所述用户标识码、识别出的与所述关系人的关系和包含有权重比的所述关系人的三元组，从而将所有构建的所述三元组构建出所述人际关系图谱。

本发明实现了通过自用户信息数据库中获取与所述用户对应的基础属性数据，组成多个词条信息；运用快速匹配算法，爬取与所述词条信息匹配的待抽取页面；通过开放信息抽取原型算法对所有所述待抽取页面进行信息抽取，抽取出所述关系人以及与其对应的文本对象；通过关系人构建模型对各所述文本对象进行关系语义识别，构建所述人际关系图谱，如此，实现了通过快速匹配算法、开放信息抽取原型算法以及关系人构建模型，自动爬取出各个关系人，以及识别出其关系，并赋予各个关系人相应的权重比，最终构建出该用户的人际关系图谱，提高了爬取的速度，以及为后续的推荐信息提高了准确率和效率。

S40，运用分布式并行计算技术，对所述非结构化数据进行结构化转换以及分类匹配，得到结构化汇总数据。

可理解地，所述分布式并行计算技术为同时使用多个计算资源来解决一个计算问题，建立分布式架构才能进行所述分布式并行计算技术，所述分布式架构的建立方式为配置SSH(安全外壳协议，Secure Shell)免密登录，通过利用SSH进行登录可以有效防止远程管理过程中的信息泄露问题，配置JDK(Java Development ToolKit，指Java语言开发工具包)环境以及安装Scala文件，所述Scala文件为基于纯面向对象的多范式的编程语言进行编写的可执行程序的文件，建立Hadoop分布式文件系统(HDFS)和配置Spark文件，所述Hadoop分布式文件系统是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统(Distributed File System)，所述配置Spark文件是指对Spark的配置文件中的变量进行配置的过程，从而搭建出Spark分布式架构，因为Spark分布式架构支持DAG(Directed Acyclic Graph，有向无环图)，在Spark中使用DAG能缓存中间数据，减少数据落盘数，其计算过程均在内存中进行，因此计算更高效，无需使用Hadoop分布式文件系统进行配合做相关计算，做到不占用HDFS的文件存储过程及时间。

其中，所述非结构化数据中包括各个爬取得到的单元数据，所述单元数据的数据类型包括图像、音频、无格式文本等等，所述结构化转换的过程为对各个单元数据进行类型识别，识别出与各所述单元数据对应的数据类型；运用分布式并行计算技术，将各所述单元数据分发至一一对应的单线程，通过Spark分布式架构中的主控中心对各所述单元数据进行DAG划分，划分出与所述单元数据对应的所述数据类型匹配的线程类型，并统计相同数据类型的所需线程的数量，及与其对应的数量，对所有所述线程类型及与其对应的数量进行任务调度预测，预测出各个所述单线程以及与所述单线程对应的所述单元数据，将各所述单元数据分发至与其对应的单线程，并通过所述单线程执行与所述单元数据对应的所述数据类型匹配的转换，并做相应的转换操作，以及得到结构化单元数据的过程，所述分类匹配的过程为对所有所述结构化单元数据进行分类匹配，将相同分类的所述结构化单元数据进行汇总，得到包含各分类汇总数据的所述结构化汇总数据的过程。

如此，能够将非结构化数据快速地转换成结构化数据，为后续的客户分群提供更多维度的数据，提高了客户分群的准确性和可靠性。

在一实施例中，如图7所示，所述步骤S40中，即所述运用分布式并行计算技术，对所述非结构化数据进行结构化转换以及分类匹配，得到结构化汇总数据，包括：

S401，通过预处理模型对所述非结构化数据中的各个单元数据进行类型识别，识别出与各所述单元数据对应的数据类型。

可理解地，所述预处理模型为训练完成的神经网络模型，用于识别输入的非结构化数据属于哪一数据类型的模型，所述类型识别为识别出所述单元数据的数据类型，所述数据类型包括视频类型、jpg格式的图片类型、不规则文本的文本类型等等。

S402，运用分布式并行计算技术，将各所述单元数据分发至一一对应的单线程，通过所述单线程执行与所述单元数据对应的所述数据类型匹配的结构化转换，得到与该单元数据对应的结构化单元数据。

可理解地，所述分布式并行计算技术为同时使用多个计算资源来解决一个计算问题，建立分布式架构才能进行所述分布式并行计算技术，所述分布式架构的建立方式为配置SSH免密登录，通过利用SSH进行登录可以有效防止远程管理过程中的信息泄露问题，配置JDK环境以及安装Scala文件，建立Hadoop分布式文件系统和配置Spark文件，从而搭建出Spark分布式架构所述结构化转换的过程为对各个单元数据进行类型识别，识别出与各所述单元数据对应的数据类型；运用分布式并行计算技术，将各所述单元数据分发至一一对应的单线程，通过Spark分布式架构中的主控中心对各所述单元数据进行DAG划分，划分出与所述单元数据对应的所述数据类型匹配的线程类型，并统计相同数据类型的所需线程的数量，及与其对应的数量，对所有所述线程类型及与其对应的数量进行任务调度预测，预测出各个所述单线程以及与所述单线程对应的所述单元数据，将各所述单元数据分发至与其对应的单线程，并通过所述单线程执行与所述单元数据对应的所述数据类型匹配的转换，并做相应的转换操作，以及得到结构化单元数据的过程。

在一实施例中，如图8所示，所述步骤S402中，即所述运用分布式并行计算技术，将各所述单元数据分发至与其对应的单线程，通过所述单线程执行与所述单元数据对应的所述数据类型匹配的结构化转换，得到与该单元数据对应的结构化单元数据，包括：

S4021，通过Spark分布式架构中的主控中心对各所述单元数据进行DAG划分，划分出与所述单元数据对应的所述数据类型匹配的线程类型及与其对应的数量。

可理解地，所述DAG划分为首先将最后一个内存分区创建一个子分区，然后再往前，如果遇到某个内存分区是宽依赖，就会为宽依赖创建一个新的子分区，新的内存分区就是最新的子分区对应的一个内存分区，然后以依次类推，继续往前，根据宽依赖或者窄依赖进行划分，直到最后一个内存分区遍历完为止，划分出与所述单元数据对应的所述数据类型匹配的线程类型及与其对应的数量。

S4022，对所有所述线程类型及与其对应的数量进行任务调度预测，预测出各个所述单线程以及与所述单线程对应的所述单元数据。

可理解地，所述任务调度预测为计算各个所述单线程的运行时间及调用复杂度，从而排列出各个所述单线程执行所述单元数据的顺序。

S4023，将各所述单元数据分发至与其对应的单线程，并通过所述单线程执行与所述单元数据对应的所述数据类型匹配的转换，得到与该单元数据对应的结构化单元数据。

本发明实现了通过Spark分布式架构中的主控中心对各所述单元数据进行DAG划分，划分出与所述单元数据对应的所述数据类型匹配的线程类型及与其对应的数量；对所有所述线程类型及与其对应的数量进行任务调度预测，预测出各个所述单线程以及与所述单线程对应的所述单元数据；将各所述单元数据分发至与其对应的单线程，并通过所述单线程执行与所述单元数据对应的所述数据类型匹配的结构化转换，得到与该单元数据对应的结构化单元数据，如此，通过任务调度预测，预测出各个单线程执行单元数据的顺序，并通过多个单线程并行执行，加快了非结构化转换的效率。

S403，对所有所述结构化单元数据进行分类匹配，将相同分类的所述结构化单元数据进行汇总，得到包含各分类汇总数据的所述结构化汇总数据。

可理解地，所述分类匹配的过程为对所有所述结构化单元数据进行分类匹配，将相同分类的所述结构化单元数据进行汇总，得到包含各分类汇总数据的所述结构化汇总数据的过程。

本发明实现了通过预处理模型对所述非结构化数据中的各个单元数据进行类型识别，识别出与各所述单元数据对应的数据类型；运用分布式并行计算技术，将各所述单元数据分发至一一对应的单线程，通过所述单线程执行与所述单元数据对应的所述数据类型匹配的结构化转换，得到与该单元数据对应的结构化单元数据；对所有所述结构化单元数据进行分类匹配，将相同分类的所述结构化单元数据进行汇总，得到包含各分类汇总数据的所述结构化汇总数据。

S50，运用深度学习技术，通过客户画像模型对所述行为轨迹数据和所述结构化汇总数据进行客户分群，得到与所述用户对应的分群标签。

可理解地，所述深度学习(DL，Deep Learning)是学习样本数据的内在规律和表示层次，通过学习过程中获得图像之间相似性或者共性的特征从而识别出类别的复杂的机器学习算法，所述客户画像模型为训练完成的神经网络模型，所述客户画像模型基于历史收集的历史用户的历史轨迹数据和与其相关的历史结构化数据进行训练的模型，用于对用户进行客户分群的识别，识别所述用户属于哪一个群体类型，给所述用标注一个分群标签，所述客户画像模型的网络结构可以为KNN、贝叶斯、CNN的网络结构，所述客户分群的过程为提取人群特征，并且根据提取的人群特征进行分类，输出用户的分群标签，所述人群特征为提取出人群的分类的相关特征，所述人群特征提取为提取出人群之间差异的特征的过程。

如此，能够结合行为轨迹数据和结构化汇总数据进行综合分析，更加准确地、科学地识别出用户此时的分群标签，提高了信息推荐的准确性和推荐质量，提升了用户满意度。

S60，通过信息推荐模型对所述需求数据、所述分群标签和所述人际关系图谱进行推荐信息分析，得到与所述推荐请求对应的信息推荐结果，并将所述信息推荐结果向所述用户推荐。

可理解地，将所述需求数据、所述分群标签和所述人群关系图谱输入所述信息推荐模型中，所述信息推荐模型为训练完成的神经网络模型，所述信息推荐模型可以根据需求进行训练，比如所述信息推荐模型可以为通过输入需求样本，对所述需求样本进行特征提取，将提取的特征与各个条款的匹配程度进行识别，将匹配程度达到组合要求的条款进行组合，不断学习或者训练生成符合所述需求样本的推荐信息，该推荐信息可以为合同条款之类的信息，所述信息推荐模型也可以为通过输入需求样本，对所述需求样本进行特征提取，将提取的特征与各主题进行匹配，将与各主题匹配的结果进行组合，组合出多个主题组，从所述信息推荐模型中的信息库中查询与所有所述主题组匹配的信息，获取查询到的所有信息的交集，进行不断学习或者训练，生成符合所述需求样本的推荐信息，通过所述信息推荐模型进行推荐信息分析，所述推荐信息分析为通过对输入所述需求数据、所述分群标签和所述人际关系图谱进行特征提取，将提取的特征与各个条款的匹配程度进行识别，将匹配程度达到组合要求的条款进行组合得到所述信息推荐结果的过程，也可以为通过对输入所述需求数据、所述分群标签和所述人际关系图谱进行特征提取，将提取的特征与各个主题进行匹配，将与各主题匹配的结果进行组合，组合出多个主题组，从所述信息推荐模型中的信息库中查询与所有所述主题组匹配的信息，获取查询到的所有信息的交集，得到所述所述信息推荐结果的过程，最终，将所述信息推荐结果通过窗口显示、APP推送或者短信推送等的方式向所述用户推荐，所述用户可以通过一键操作进行打开或者购买所述信息推荐结果中的内容。

本发明实现了通过接收用户的推荐请求，获取所述推荐请求中的问卷对话数据；对所述问卷对话数据进行语音识别及文本提取，并提取出需求数据；自用户信息数据库中获取与所述用户关联的行为轨迹数据，同时爬取与所述需求数据匹配的非结构化数据，以及爬取与所述用户关联的人际关系图谱；运用分布式并行计算技术，对所述非结构化数据进行结构化转换以及分类匹配，得到结构化汇总数据；运用深度学习技术，通过客户画像模型对所述行为轨迹数据和所述结构化汇总数据进行客户分群，得到与所述用户对应的分群标签；通过信息推荐模型对所述需求数据、所述分群标签和所述人际关系图谱进行推荐信息分析，得到与所述推荐请求对应的信息推荐结果，并将所述信息推荐结果向所述用户推荐，如此，实现了通过运用语言识别和文本提取技术，对问卷对话数据进行提取，得到需求数据，通过爬取技术，爬取用户的非结构化数据以及人际关系图谱，并运用分布式并行计算技术，快速对非结构化数据进行结构化转换，得到结构化汇总数据，以及运用深度学习技术，进行客户画像得到分群标签，结合需求数据、分群标签和人际关系图谱进行推荐信息分析，输出信息推荐结果给用户，达到快速地、准确地结合用户的行为轨迹数据、非结构化数据和人际关系图谱自动向用户推荐信息，让用户获取到此时真正关注或者合适的信息，从而提高用户的体验满意度，并且提升了推荐信息的有效性和准确性。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种推荐信息处理装置，该推荐信息处理装置与上述实施例中推荐信息处理方法一一对应。如图9所示，该推荐信息处理装置包括接收模块11、提取模块12、爬取模块13、分类模块14、分群模块15和推荐模块16。各功能模块详细说明如下：

接收模块11，用于接收用户的推荐请求，获取所述推荐请求中的问卷对话数据；

提取模块12，用于对所述问卷对话数据进行语音识别及文本提取，并提取出需求数据；

爬取模块13，用于自用户信息数据库中获取与所述用户关联的行为轨迹数据，同时爬取与所述需求数据匹配的非结构化数据，以及爬取与所述用户关联的人际关系图谱；

分类模块14，用于运用分布式并行计算技术，对所述非结构化数据进行结构化转换以及分类匹配，得到结构化汇总数据；

分群模块15，用于运用深度学习技术，通过客户画像模型对所述行为轨迹数据和所述结构化汇总数据进行客户分群，得到与所述用户对应的分群标签；

推荐模块16，用于通过信息推荐模型对所述需求数据、所述分群标签和所述人际关系图谱进行推荐信息分析，得到与所述推荐请求对应的信息推荐结果，并将所述信息推荐结果向所述用户推荐。

关于推荐信息处理装置的具体限定可以参见上文中对于推荐信息处理方法的限定，在此不再赘述。上述推荐信息处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是客户端或者服务端，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括可读存储介质、内存储器。该可读存储介质存储有操作系统、计算机程序和数据库。该内存储器为可读存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种推荐信息处理方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中推荐信息处理方法。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中推荐信息处理方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种推荐信息处理方法，其特征在于，包括：

2.如权利要求1所述的推荐信息处理方法，其特征在于，所述接收用户的推荐请求，获取所述推荐请求中的问卷对话数据之前，包括：

接收用户的问卷请求，获取所述问卷请求中的所述用户的全身图像；

对所述全身图像进行风格识别，识别出与所述用户对应的风格标签；

从问卷库中获取与所述风格标签对应的问卷清单；

根据获取的所述问卷清单，发起与所述用户的多轮问卷对话，以及通过多轮问卷对话，生成与所述问卷请求对应的所述问卷对话数据，并触发所述推荐请求。

3.如权利要求1所述的推荐信息处理方法，其特征在于，所述对所述问卷对话数据进行语音识别及文本提取，并提取出需求数据，包括：

运用语音识别技术，对所述问卷对话数据进行识别，识别出语音数据；

运用word2vec算法和CRF约束算法，对所述语音数据进行文本分段，划分出多个短文本段；

运用Bi-LSTM算法，对所有所述短文本段进行关键字提取，得到所述需求数据。

4.如权利要求1所述的推荐信息处理方法，其特征在于，所述爬取与所述需求数据匹配的非结构化数据，包括：

运用快速匹配算法，爬取与所述需求数据匹配的待处理页面；

从所述待处理页面中获取与所述需求数据匹配的内容的上下文信息；

对所述上下文信息进行非结构化提取，得到所述非结构化数据。

5.如权利要求1所述的推荐信息处理方法，其特征在于，所述爬取与所述用户关联的人际关系图谱，包括：

自用户信息数据库中获取与所述用户对应的基础属性数据，组成多个词条信息；

运用快速匹配算法，爬取与所述词条信息匹配的待抽取页面；

通过开放信息抽取原型算法对所有所述待抽取页面进行信息抽取，抽取出与所述用户关联的关系人以及与其对应的文本对象；

通过关系人构建模型对各所述文本对象进行关系语义识别，构建所述人际关系图谱。

6.如权利要求1所述的推荐信息处理方法，其特征在于，所述运用分布式并行计算技术，对所述非结构化数据进行结构化转换以及分类匹配，得到结构化汇总数据，包括：

通过预处理模型对所述非结构化数据中的各个单元数据进行类型识别，识别出与各所述单元数据对应的数据类型；

运用分布式并行计算技术，将各所述单元数据分发至一一对应的单线程，通过所述单线程执行与所述单元数据对应的所述数据类型匹配的结构化转换，得到与该单元数据对应的结构化单元数据；

对所有所述结构化单元数据进行分类匹配，将相同分类的所述结构化单元数据进行汇总，得到包含各分类汇总数据的所述结构化汇总数据。

7.如权利要求6所述的推荐信息处理方法，其特征在于，所述运用分布式并行计算技术，将各所述单元数据分发至与其对应的单线程，通过所述单线程执行与所述单元数据对应的所述数据类型匹配的结构化转换，得到与该单元数据对应的结构化单元数据，包括：

通过Spark分布式架构中的主控中心对各所述单元数据进行DAG划分，划分出与所述单元数据对应的所述数据类型匹配的线程类型及与其对应的数量；

对所有所述线程类型及与其对应的数量进行任务调度预测，预测出各个所述单线程以及与所述单线程对应的所述单元数据；

将各所述单元数据分发至与其对应的单线程，并通过所述单线程执行与所述单元数据对应的所述数据类型匹配的转换，得到与该单元数据对应的结构化单元数据。

8.一种推荐信息处理装置，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述推荐信息处理方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述推荐信息处理方法。