CN117557005A

CN117557005A - 调研数据处理方法、装置和存储介质

Info

Publication number: CN117557005A
Application number: CN202410029092.XA
Authority: CN
Inventors: 刘伟科; 张泽华; 韩卫召; 何杰; 沈俊杰; 林战刚
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2024-01-08
Filing date: 2024-01-08
Publication date: 2024-02-13
Anticipated expiration: 2044-01-08
Also published as: CN117557005B

Abstract

本公开提出一种调研数据处理方法、装置和存储介质，涉及大数据处理领域。该方法包括：选出与被调研对象相关的被调研用户，根据被调研用户的用户行为图谱，确定被调研用户对被调研对象的各调研属性的预测评价信息，根据被调研用户对被调研对象的各调研属性的预测评价信息，从被调研对象的调研题目集中，确定适配被调研用户的调研题目，以形成合适被调研用户的个性化的调研问卷。从而，提高调研结果的准确性，提升调研效果。

Description

调研数据处理方法、装置和存储介质

技术领域

本公开涉及大数据处理领域，特别涉及一种调研数据处理方法、装置和存储介质。

背景技术

调研问卷是一组与研究目标有关的问题，它是人们在社会调研活动中用来收集资料的一种常用工具。调研人员借助调研问卷对社会活动过程进行准确、具体的测定，并应用统计方法对调研问卷的回答信息进行量的描述和分析，获取所需要的调研资料。

在一些相关技术中，一份调研问卷经常被复制多份，分发给不同的被调研用户。然而，各个被调研用户受限于自己的经历或经验，并不一定知道调研题目的答案，出现胡乱填写调研题目的答案的情况，影响调研结果的准确性，最终影响调研效果。

发明内容

本公开实施例，选出与被调研对象相关的被调研用户，根据被调研用户的用户行为图谱，确定被调研用户对被调研对象的各调研属性的预测评价信息，根据被调研用户对被调研对象的各调研属性的预测评价信息，从被调研对象的调研题目集中，确定适配被调研用户的调研题目，以形成合适被调研用户的个性化的调研问卷。从而，提高调研结果的准确性，提升调研效果。

本公开一些实施例提出一种调研数据处理方法，包括：

选出与被调研对象相关的被调研用户；

根据所述被调研用户的用户行为图谱，确定所述被调研用户对所述被调研对象的各调研属性的预测评价信息；

根据所述被调研用户对所述被调研对象的各调研属性的预测评价信息，从所述被调研对象的调研题目集中，确定适配所述被调研用户的调研题目，以形成所述被调研用户的调研问卷。

在一些实施例中，所述选出与被调研对象相关的被调研用户包括：选出与所述被调研对象有交互行为的用户作为被调研用户。

在一些实施例中，所述确定所述被调研用户对所述被调研对象的各调研属性的预测评价信息包括：

在所述被调研用户对被调研对象的调研属性有正面评价的情况下，确定所述被调研用户对所述被调研对象的所述调研属性的预测评价信息为预设评价值；

在所述被调研用户对被调研对象的调研属性没有正面评价的情况下，根据所述被调研用户的用户行为图谱，利用评价预测模型进行预测得到所述被调研用户对所述被调研对象的各调研属性的预测评价信息。

在一些实施例中，所述利用评价预测模型进行预测得到所述被调研用户对所述被调研对象的各调研属性的预测评价信息包括：根据所述被调研用户的特征和所述用户行为图谱、所述被调研对象的特征和各调研属性，利用所述评价预测模型进行预测得到所述被调研用户对所述被调研对象的各调研属性的预测评价信息。

在一些实施例中，所述评价预测模型包括：依次级联的图神经网络、注意力模块和深度学习神经网络；

所述利用所述评价预测模型进行预测得到所述被调研用户对所述被调研对象的各调研属性的预测评价信息包括：

根据所述用户行为图谱、所述被调研对象的各调研属性，利用所述图神经网络，确定所述被调研用户对所述被调研对象的各调研属性的第一元路径特征；

根据所述第一元路径特征，利用所述注意力模块，确定第二元路径特征；

根据所述被调研用户的特征、所述被调研对象的特征、所述第二元路径特征，利用所述深度学习神经网络，确定所述被调研用户对所述被调研对象的各调研属性的预测评价信息。

在一些实施例中，所述被调研用户的用户行为图谱通过在所述被调研对象相关的专家知识图谱上设置以下至少一项来形成：所述被调研用户对被调研对象的交互行为连接关系、所述被调研用户对被调研对象的历史评价连接关系、所述被调研用户对被调研对象相关问题的历史解答关系。

在一些实施例中，所述专家知识图谱通过集成物品类属关系、物品分类体系、概念属性关系来构建。

在一些实施例中，所述确定适配所述被调研用户的调研题目，以形成所述被调研用户的调研问卷包括以下至少一项：

将与所述被调研用户没有交互关系的调研题目的数量减少至预设数量；

将与所述被调研用户没有交互关系、且所述预测评价信息的评价值小于预设值的调研题目的数量减少至预设数量；

根据所述预测评价信息，确定各类型的调研题目的数量，其中各类型的调研题目的数量达到预设比例。

在一些实施例中，所述调研题目的类型根据所述预测评价信息的评价值所对应的范围区间确定。

在一些实施例中，所述调研题目的类型包括中性评价类型、正面评价类型、负面评价类型中的至少两个。

在一些实施例中，还包括：

通过生成和抽取的对抗式学习方法，确定信息提取模型；

根据所述被调研用户的调研问卷回答信息，利用所述信息提取模型，确定所述被调研用户对所述被调研对象的各调研属性的实际评价信息。

在一些实施例中，所述通过生成和抽取的对抗式学习方法，确定信息提取模型包括：

利用抽取式摘要模型对所述被调研用户的调研问卷回答信息进行信息提取得到第一用户评价结果；

将所述第一用户评价结果与所述用户行为图谱进行对照得到第二用户评价结果；

利用生成式摘要模型对所述第二用户评价结果进行信息提取得到第三用户评价结果；

将所述第一用户评价结果与所述第三用户评价结果进行比较，如果二者的差异大于预设值，对抽取式摘要模型的参数、生成式摘要模型的参数中的一项或多项进行调整，以使得所述差异小于预设值，对抗学习结束；

将对抗学习后得到的抽取式摘要模型、生成式摘要模型中的一项或多项，确定为信息提取模型。

在一些实施例中，所述利用所述信息提取模型，确定所述被调研用户对所述被调研对象的各调研属性的实际评价信息包括以下至少一项：

当所述信息提取模型为对抗学习后得到的抽取式摘要模型时，将所述被调研用户的调研问卷回答信息输入对抗学习后得到的抽取式摘要模型得到第四用户评价结果，将第四用户评价结果与所述用户行为图谱进行对照得到第五用户评价结果，将第五用户评价结果作为用户对被调研对象的各调研属性的实际评价信息；

当所述信息提取模型为对抗学习后得到的生成式摘要模型时，将所述被调研用户的调研问卷回答信息输入对抗学习后得到的生成式摘要模型得到第六用户评价结果，将第六用户评价结果与所述用户行为图谱进行对照得到第七用户评价结果，将第七用户评价结果作为用户对被调研对象的各调研属性的实际评价信息；

当所述信息提取模型为对抗学习后得到的抽取式摘要模型和生成式摘要模型时，将所述被调研用户的调研问卷回答信息输入对抗学习后得到的生成式摘要模型得到第六用户评价结果，将第六用户评价结果和所述被调研用户的调研问卷回答信息输入对抗学习后得到的抽取式摘要模型得到第八用户评价结果，将第八用户评价结果与所述用户行为图谱进行对照得到第九用户评价结果，将第九用户评价结果作为用户对被调研对象的各调研属性的实际评价信息。

在一些实施例中，还包括：根据所述被调研用户对所述被调研对象的各调研属性的预测评价信息和实际评价信息之间的评价偏差信息，确定所述实际评价信息的显著性权重，用于表征所述实际评价信息在调研结果中展示的显著性。

在一些实施例中，所述确定所述实际评价信息的显著性权重包括：

计算被调研对象、调研属性、预测评价信息形成的第一向量和被调研对象、调研属性、实际评价信息形成的第二向量之间的相关系数；

根据所述相关系数的倒数，确定所述实际评价信息的显著性权重，其中，相关系数越小，评价偏差越大，显著性权重越大。

在一些实施例中，还包括：汇集各个被调研用户的调研问卷回答信息，根据实际评价信息对应的被调研用户的数量和显著性权重中的至少一项，确定调研结果。

在一些实施例中，所述确定调研结果包括以下一项或多项：

如果第一实际评价信息对应的被调研用户的数量或比例大于预设数量或预设比例，确定调研结果包括所述第一实际评价信息；

如果第二实际评价信息对应的被调研用户的数量或比例不大于预设数量或预设比例，且第二实际评价信息的显著性权重高于预设权重，确定调研结果包括所述第二实际评价信息。

本公开一些实施例提出一种调研数据处理装置，包括：存储器；以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行调研数据处理方法。

本公开一些实施例提出一种调研数据处理装置，包括：执行调研数据处理方法的模块。

本公开一些实施例提出一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现调研数据处理方法的步骤。

附图说明

下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍。根据下面参照附图的详细描述，可以更加清楚地理解本公开。

显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示出本公开一些实施例的调研数据处理方法的流程示意图。

图2示出本公开一些实施例的物品类属关系的示意图。

图3示出本公开一些实施例的物品分类体系的示意图。

图4示出本公开一些实施例的概念属性关系的示意图。

图5示出本公开一些实施例的用户行为图谱的示意图。

图6示出本公开一些实施例的评价预测模型的结构示意图。

图7示出本公开一些实施例的抽取式摘要模型的示意图。

图8示出本公开一些实施例的调研数据处理方法与图谱、模型等交互示意图。

图9示出本公开一些实施例的调研数据处理装置的结构示意图。

图10示出本公开一些实施例的调研数据处理装置的结构示意图。

具体实施方式

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

此外，为了避免因不必要的细节而模糊了本公开，在附图中仅仅示出了与至少根据本公开的方案密切相关的处理步骤和/或设备结构，而省略了与本公开关系不大的其他细节。还应注意，在附图中相似的附图标记和字母指示相似的项目，并且因此一旦一个项目在一个附图中被定义，则对于随后的附图无需再对其进行论述。

图1示出本公开一些实施例的调研数据处理方法的流程示意图。图8示出本公开一些实施例的调研数据处理方法与图谱、模型等交互示意图。

参见图1和图8，该实施例的调研数据处理方法包括以下步骤。

步骤110：预先建立专家知识图谱和用户行为图谱，二者合称用户行为-专家知识联合图谱。

1-1）专家知识图谱（也称常识性概念图谱）通过集成物品类属关系、物品分类体系、概念属性关系来构建。专家知识图谱中包括主体、属性、属性值等信息。

物品类属关系包括物品间的上下位关系、同位关系等，可以根据物品关系库构建。图2示出本公开一些实施例的物品类属关系的示意图。如图2所示，滚筒洗衣机类属于（记为isA）洗衣机，洗衣机类属于（记为isA）电器。此外，滚筒洗衣机与波轮洗衣机属于同位关系，波轮洗衣机也类属于（记为isA）洗衣机。

物品分类体系表示各种物品的类别，例如可以通过电子商务平台的物品分类来构建物品分类体系。图3示出本公开一些实施例的物品分类体系的示意图。如图3所示，物品（如商品）可分类为家居、家具、电脑、手机、钟表、宠物、美妆、家用电器等类别。

概念属性关系表示概念（Concept）、属性（Property）、属性值（Value）之间的关系，记为CPV（Concept-Property-Value）。图4示出本公开一些实施例的概念属性关系的示意图。如图4所示，概念为“洗衣机”，属性包括“尺寸”“颜色”“容量”“烘干类型”等，“尺寸”的属性值例如包括“大型”“小型”“微型”，“颜色”的属性值例如包括“白色”“灰色”“银色”等，“烘干类型”的属性值例如包括“热泵”“冷凝”等，“容量”例如包括“10L”“8L”等。

1-2）被调研用户的用户行为图谱通过在专家知识图谱上增加用户与该图谱的交互关系来形成。被调研用户的用户行为图谱通过在所述被调研对象相关的专家知识图谱上设置（增加）以下至少一项来形成：所述被调研用户对被调研对象的交互行为连接关系、所述被调研用户对被调研对象的历史评价连接关系、所述被调研用户对被调研对象相关问题的历史解答关系。

其中，被调研用户对被调研对象的交互行为例如包括但不限于浏览、点评、购买等行为。

其中，被调研用户对被调研对象的历史评价连接关系，来自被调研用户的历史调研问卷，也即，被调研用户的历史调研问卷中的历史评价信息，可以反馈更新到被调研用户行为图谱。

图5示出本公开一些实施例的用户行为图谱的示意图。如图5所示，在洗衣机相关的专家知识图谱上，增加了用户A（UserA）、用户B（UserB）与专家知识图谱的该购买行为、点评行为、浏览行为、解答行为等交互行为，形成该用户的用户行为图谱。

步骤120：确定调研信息，例如包括调研问卷的被调研对象和被调研对象的各调研属性以及调研题目的数量等；选出与被调研对象相关的被调研用户；根据所述被调研用户的用户行为图谱，确定所述被调研用户对调研题目（所述被调研对象的各调研属性）的预测评价信息。

被调研对象例如可以是产品或服务等。被调研对象的调研属性例如可以是产品的某项功能，服务的某个项目等。

用户的行为通常有如下几类：

1）与调研问题所提及的被调研对象不相关，比如没有了解过某个产品，没有购买使用过某个商品等。

2）与调研问题所提及的被调研对象有负面行为，如近期已经投诉过某产品的功能不足。

3）与调研问题所提及的被调研对象有正面行为，如近期已经在评论中正面评价过某产品、或服务等。

4）与调研问题所提及的被调研对象情感中性，如未曾有前置信息可了解该用户对被调研对象的情感，或该用户未曾有过倾向性评价。

借助用户近期与被调研对象之间的行为信息，以及能挖掘到的评价信息，来预测该用户的调研问卷整体评价倾向，及每个调研问题的评价倾向。

2-1）所述选出与被调研对象相关的被调研用户包括：选出与所述被调研对象有交互行为的用户作为被调研用户。其中，交互行为例如包括但不限于购买、浏览、点评等。

2-2）所述确定所述被调研用户对所述被调研对象的各调研属性的预测评价信息包括：

在所述被调研用户对被调研对象的调研属性有正面评价的情况下，确定所述被调研用户对所述被调研对象的所述调研属性的预测评价信息为预设评价值（例如最大评价值）；

在所述被调研用户对被调研对象的调研属性没有正面评价的情况下，根据所述被调研用户的用户行为图谱，利用评价预测模型进行预测得到所述被调研用户对所述被调研对象的各调研属性的预测评价信息。在一些实施例中，根据所述被调研用户的特征和所述用户行为图谱、所述被调研对象的特征和各调研属性，利用所述评价预测模型进行预测得到所述被调研用户对所述被调研对象的各调研属性的预测评价信息。

被调研用户的特征例如包括但不限于被调研用户的标识、性别、年龄等信息。

被调研对象的特征例如包括但不限于被调研对象的标识、名称等信息。

2-2-1）评价预测模型的结构包括：依次级联的GNN（图神经网络，Graph NeuralNetworks）、注意力模块和DNN（深度学习神经网络，Deep-Learning Neural Network），如图6所示。

其中：所述用户行为图谱的输入接口和所述被调研对象的各调研属性的输入接口分别连接图神经网络的输入接口，图神经网络的输出接口连接注意力模块的输入接口，注意力模块的输出接口、所述被调研用户的特征（即用户特征（User Feature））的输入接口、所述被调研对象的特征（如物品特征（Item Feature））的输入接口分别连接深度学习神经网络的输入接口，深度学习神经网络的输出接口用于输出预测评价信息。

其中，GNN基于输入的信息确定被调研用户对被调研对象的调研属性的元路径（meta-path）特征并输出。被调研用户对被调研对象的调研属性的元路径特征包括：被调研用户对被调研对象的调研属性的评价类元路径特征和行为类元路径特征。评价类元路径特征例如为“被调研用户-被调研对象的调研属性-评价”。行为类元路径特征例如为“被调研用户-被调研对象的调研属性-行为（如购买行为/浏览行为/投诉行为）”。

其中，基于用户行为图谱，可以对欲输入评价预测模型的多条数据特征进行聚合，例如可以基于物品类属关系进行聚合。例如，“用户-洗衣机”的行为，是由“用户-滚筒洗衣机”的行为、“用户-波轮洗衣机” 的行为等聚合得到。

2-2-2）评价预测模型的训练过程包括：将训练数据（被调研用户的特征、被调研对象的特征、被调研对象的调研属性、和被调研用户的用户行为图谱）输入评价预测模型，根据评价预测模型输出的被调研用户对被调研对象的调研属性的预测评价信息与标注评价信息之间的偏差信息，迭代地更新评价预测模型的参数，直至满足预设的训练终止条件。训练终止条件例如包括但不限于：偏差信息小于预设值，或达到一定的迭代次数。

其中，关于标注评价信息的标注方法例如为：“用户-被调研对象（调研属性）-正面评价”的样本为正样本，标记为1，其余均可以视为负样本，标记为0。

2-2-3）评价预测模型的使用过程（即预测过程）包括：将被调研用户的特征、被调研对象的特征、被调研对象的调研属性、和被调研用户的用户行为图谱等预测相关信息输入评价预测模型，评价预测模型基于输入的信息进行预测并输出被调研用户对被调研对象的调研属性的预测评价信息。

具体来说：根据所述用户行为图谱、所述被调研对象的各调研属性，利用所述图神经网络，确定所述被调研用户对所述被调研对象的各调研属性的第一元路径特征；根据所述第一元路径特征，利用所述注意力模块，确定第二元路径特征；根据所述被调研用户的特征、所述被调研对象的特征、所述第二元路径特征，利用所述深度学习神经网络，确定所述被调研用户对所述被调研对象的各调研属性的预测评价信息。

需要说明的是，评价预测模型的训练过程所使用的训练数据与评价预测模型的使用过程输入的预测相关信息可以涉及不同的被调研用户、不同的被调研对象、不同的调研属性和不同的用户行为图谱。

评价预测模型输出的预测评价信息的评价值例如是0-1之间的小数，评价值越接近1，代表该被调研用户给出正面评价的概率更高，评价值越接近0，代表该被调研用户给出负面评价的概率更高。其中，负面评价包括曾与被调研对象有交互的用户给出负面评价，以及未曾与被调研对象有交互的用户给出负面评价。

步骤130：根据所述被调研用户对所述被调研对象的各调研属性的预测评价信息，从所述被调研对象的调研题目集中，确定适配所述被调研用户的调研题目，以形成合适被调研用户的个性化的调研问卷。从而，提高调研结果的准确性，提升调研效果。

3-1）被调研对象的调研题目集可以预先确定，确定方法例如包括：选出被调研对象（主体）的不同属性，选出各个属性的不同评价，构造主体-属性-评价的选项式调研题目或/和开放式调研题目。也即，被调研对象的调研题目集可以包括：被调研对象的一个或多个选项式调研题目，或/和，一个或多个开放式调研题目等类型的调研题目。其中，可以基于用户行为图谱，选出被调研对象（主体）的不同属性，选出各个属性的不同评价。

3-2）确定适配所述被调研用户的调研题目，以形成所述被调研用户的调研问卷包括以下中的一项或多项。

（a）将与所述被调研用户没有交互关系的调研题目的数量减少至预设数量（代表数量很小的阈值，例如，设置为0）。从而减少或消除调研问卷中与被调研用户不相关的调研题目，提高调研的准确性。

（b）将与所述被调研用户没有交互关系、且所述预测评价信息的评价值小于预设值（代表负面评价的阈值）的调研题目的数量减少至预设数量（代表数量很小的阈值，例如，设置为0）。从而减少或消除调研问卷中被调研用户不了解就负面评价的调研题目，提高调研的准确性。

（c）根据所述预测评价信息，确定各类型的调研题目的数量，其中各类型的调研题目的数量达到预设比例。所述调研题目的类型根据所述预测评价信息的评价值所对应的范围区间确定。所述调研题目的类型例如包括中性评价类型、正面评价类型、负面评价类型中的至少两个。

例如，中性类型的调研题目的比例大于负面类型的调研题目的比例，负面类型的调研题目的比例大于正面类型的调研题目的比例，例如，50%的中性题目、30%负面题目，20%的正面题目。从而，改善或避免由于调研题目设置不合理所出现的引导倾向的现象。

通过对调研题目的调整，即使面对相同的被调研对象及调研属性，不同被调研用户会看到不同的调研题目，并且不同被调研用户看到的是自己了解的适合自己解答的调研题目。这是因为：不同被调研用户对应不同的行为和行为图谱，进而由此确定的不同被调研用户对被调研对象的各调研属性的预测评价信息亦不同，据此不同被调研用户所删减的不相关的调研题目不同，据此不同被调研用户的各调研题目的类型不同以及由此比例调整掉的调研题目亦不同，从而针对不同的被调研用户生成不同的适合该用户的调研题目。

步骤140：被调研用户回答调研问卷后，根据所述被调研用户的调研问卷回答信息，利用信息提取模型，确定所述被调研用户对调研题目（所述被调研对象的各调研属性）的实际评价信息。

因为“抽取式信息提取方案”,受原文约束大，未必能映射到用户行为图谱的三元组(主体、属性、评价)上,“生成式信息提取方案”，约束相对小，但依赖大量数据校正，两种方案均存在短板，因此，本公开提出一种生成和抽取的对抗式信息提取方案。

4-1）通过生成和抽取的对抗式学习方法，确定信息提取模型包括：

通过生成和抽取的对抗式学习方法所确定的信息提取模型，可以结合生成式信息提取方法和抽取式信息提取方法的两者的优点，更准确完善的提取调研问卷回答信息中的观点信息。

此外，在对抗学习过程中，评估指标，除了准确率（Precision）和召回率（Recall）外，额外增加了与图谱三元组的匹配率指标，该匹配率指标定义为：模型预估的主体、属性、评价三元组与图谱中已存在节点的匹配率，例如：“A品牌、洗衣机、噪音、大”，其中的“洗衣机”、“噪音”、“大”是关键主体、属性、评价节点，若模型输出的值为“洗衣机”、“声音”、“大”，则认为“声音”-“噪音”这一对词的匹配错误，认为该三元组未能匹配。匹配率与准确率定义不同，是为了更加强化该模型预估的元组粒度的准确度。

4-2）利用所述信息提取模型，确定所述被调研用户对所述被调研对象的各调研属性的实际评价信息包括以下A、B、C中至少一项：

A）当所述信息提取模型为对抗学习后得到的抽取式摘要模型时，将所述被调研用户的调研问卷回答信息输入对抗学习后得到的抽取式摘要模型得到第四用户评价结果，将第四用户评价结果与所述用户行为图谱进行对照得到第五用户评价结果，将第五用户评价结果作为用户对被调研对象的各调研属性的实际评价信息。

在做摘要抽取时，会将上下文的问题一并输入到抽取式摘要模型（如Bert模型）中，即同时输入上下文（context），问题（question）、回答（answer）。例如：“在日常生活使用中，您认为A品牌的洗衣机噪声如何”“我认为有点吵”。在这个案例中，将上下文、问题和解答同时输入到Bert模型中，改写后的语句为：“XX客户日常使用A品牌洗衣机有点吵”，而不是“XX客户认为有点吵”这样指代不明的结论。

对抗学习后得到的抽取式摘要模型相对于非对抗学习得到的抽取式摘要模型，可以更准确地提取摘要信息；并且通过与用户行为图谱的对照，可以将摘要更好地映射到图谱中的主体、属性、评价等节点，规范摘要信息。

例如，在有了“XX客户日常使用A品牌洗衣机有点吵”的结论后，对照用户行为图谱二次改写为“XX客户、A品牌、洗衣机、噪音、大”这样的与用户行为图谱语言契合的表述，这种表述正好映射到用户行为图谱中的主体、属性、评价节点。

B）当所述信息提取模型为对抗学习后得到的生成式摘要模型时，将所述被调研用户的调研问卷回答信息输入对抗学习后得到的生成式摘要模型得到第六用户评价结果，将第六用户评价结果与所述用户行为图谱进行对照得到第七用户评价结果，将第七用户评价结果作为用户对被调研对象的各调研属性的实际评价信息。

对抗学习后得到的生成式摘要模型相对于非对抗学习得到的生成式摘要模型，可以更准确地提取摘要信息；并且通过与用户行为图谱的对照，可以将摘要更好地映射到图谱中的主体、属性、评价等节点，规范摘要信息。

C）当所述信息提取模型为对抗学习后得到的抽取式摘要模型和生成式摘要模型时，将所述被调研用户的调研问卷回答信息输入对抗学习后得到的生成式摘要模型得到第六用户评价结果，将第六用户评价结果和所述被调研用户的调研问卷回答信息输入对抗学习后得到的抽取式摘要模型得到第八用户评价结果，将第八用户评价结果与所述用户行为图谱进行对照得到第九用户评价结果，将第九用户评价结果作为用户对被调研对象的各调研属性的实际评价信息。

联合使用对抗学习后得到的生成式摘要模型和抽取式摘要模型，可以结合两者的优点，更准确地提取摘要信息；并且通过与用户行为图谱的对照，可以将摘要更好地映射到图谱中的主体、属性、评价等节点，规范摘要信息。

4-2-1）抽取式摘要模型例如为包括但不限于：BERTSUM（Fine-tune BERT forExtractive Summarization，用于抽取式摘要的微调BERT）模型，其中BERT表示来自Transformers的双向编码器表示（Bidirectional Encoder Representations fromTransformers），MATCHSUM（Extractive Summarization as Text Matching，作为文本匹配的抽取式摘要）模型, 以及TextRank、GRUNER等RNN（Recurrent Neural Network, 循环神经网络）类算法模型等。

图7示出本公开一些实施例的抽取式摘要模型的示意图。如图7所示，BERT模型进行语句切分，对切分后的语句进行语义分析并改写，生成摘要。其中，SBV表示词语间是主谓关系（subject-verb），COO 表示词语间是并列关系（coordinate）。例如，在“酒店位置很好，停车很方便，环境也不错”这句话中，“位置”与“很好”，“停车”与“很方便”，“环境”与“不错”均属于主谓关系，“停车”与“环境”则属于并列关系。

4-2-2）生成式摘要模型例如包括但不限于：MASS（Masked Sequence to SequencePre-training for Language Generation，面向语言生成的屏蔽序列到序列预训练）模型，UNILM（Unified Language Model Pre-training for Natural Language Understandingand Generation，面向自然语言理解和生成的统一语言模型预训练）模型，BART（Bidirectional and Auto-Regressive Transformers，双向和自回归Transformers）模型等。

步骤150：根据所述被调研用户对所述被调研对象的各调研属性的预测评价信息和实际评价信息之间的评价偏差信息，确定所述实际评价信息的显著性权重，用于表征所述实际评价信息在调研结果中展示的显著性，显著性越大，越应当在调研结果中展示。

5-1）确定实际评价信息的显著性权重包括：

被调研对象、调研属性、预测评价信息形成第一向量，被调研对象、调研属性、实际评价信息形成第二向量，计算第一向量和第二向量的相关系数（例如皮尔逊相关系数），相关系数越大，评价偏差越小，反之，相关系数越小，评价偏差越大;

根据所述相关系数的倒数，确定所述实际评价信息的显著性权重，例如，将所述相关系数的倒数作为所述实际评价信息的显著性权重，其中，相关系数越小，评价偏差越大，显著性权重越大。

其中，第一向量和第二向量的相关系数例如为：

其中，、/>、/>分别是对/>样本的标准分数、样本平均值、和样本标准差，/>、/>、/>分别是对/>样本的标准分数、样本平均值、和样本标准差，Y相关参数的含义与X相关参数的含义类似，n表示样本数量，r表示相关系数。

步骤160：汇集各个被调研用户的调研问卷回答信息，根据实际评价信息对应的被调研用户的数量和显著性权重中的至少一项，确定调研结果。

根据实际评价信息对应的被调研用户的数量和显著性权重，不仅可以将“大众派”观点体现在调研结果中，还可以将评价偏差越大的“少数派”观点也体现在调研结果中，调研结果更全面。

6-1）在一些实施例中，确定调研结果例如包括：如果第一实际评价信息对应的被调研用户的数量或比例大于预设数量或预设比例（即用户数量比较多），确定调研结果包括所述第一实际评价信息，还可以包括第一实际评价信息的显著性权重。

通过上述方法6-1），从而将“大众派”观点体现在调研结果中。

6-2）在一些实施例中，确定调研结果例如还包括：如果第二实际评价信息对应的被调研用户的数量或比例不大于预设数量或预设比例，且第二实际评价信息的显著性权重高于预设权重（即显著性权重比较大），确定调研结果包括所述第二实际评价信息，还可以包括第二实际评价信息的显著性权重。

通过上述方法6-2），从而将评价偏差越大的“少数派”观点（新观点）也体现在调研结果中。

综上所述，上述实施例通过大数据处理，可以自动地、智能化地形成合适各个被调研用户的个性化的调研问卷，例如，减少或消除调研问卷中与被调研用户不相关的调研题目，减少或消除调研问卷中被调研用户不了解就负面评价的调研题目，各种类型的调研题目比例适当，改善或避免由于调研题目设置不合理所出现的引导倾向的现象；生成和抽取的对抗式信息提取方案，可以结合两者的优点，更准确地提取调研问卷回答信息的摘要信息；并且通过与用户行为图谱的对照，可以将摘要更好地映射到用户行为图谱中的主体、属性、评价等节点，规范摘要信息；根据实际评价信息对应的被调研用户的数量和显著性权重，不仅可以将“大众派”观点体现在调研结果中，还可以将评价偏差越大的“少数派”观点也体现在调研结果中，调研结果更全面。

如图9所示，该实施例的调研数据处理装置600包括：存储器610以及耦接至该存储器610的处理器620，处理器620被配置为基于存储在存储器610中的指令，执行任意一些实施例中的调研数据处理方法。

其中，存储器610例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序（Boot Loader）以及其他程序等。

其中，处理器620可以用通用处理器、数字信号处理器（Digital SignalProcessor，DSP）、应用专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门阵列（Field Programmable Gate Array ，FPGA）或其它可编程逻辑设备、分立门或晶体管等分立硬件组件方式来实现。

装置600还可以包括输入输出接口630、网络接口640、存储接口650等。这些接口630，640，650以及存储器610和处理器620之间例如可以通过总线660连接。其中，输入输出接口630为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口640为各种联网设备提供连接接口。存储接口650为SD卡、U盘等外置存储设备提供连接接口。总线660可以使用多种总线结构中的任意总线结构。例如，总线结构包括但不限于工业标准体系结构（Industry Standard Architecture，ISA）总线、微通道体系结构（Micro ChannelArchitecture，MCA）总线、外围组件互连（Peripheral Component Interconnect ，PCI）总线。

如图10所示，该实施例的调研数据处理装置700包括：执行调研数据处理方法的模块。

预测评价模块710，被配置为选出与被调研对象相关的被调研用户；根据所述被调研用户的用户行为图谱，确定所述被调研用户对所述被调研对象的各调研属性的预测评价信息。

问卷形成模块720，被配置为根据所述被调研用户对所述被调研对象的各调研属性的预测评价信息，从所述被调研对象的调研题目集中，确定适配所述被调研用户的调研题目，以形成所述被调研用户的调研问卷。

预测评价模块710，被配置为选出与所述被调研对象有交互行为的用户作为被调研用户。

预测评价模块710，被配置为在所述被调研用户对被调研对象的调研属性有正面评价的情况下，确定所述被调研用户对所述被调研对象的所述调研属性的预测评价信息为预设评价值；在所述被调研用户对被调研对象的调研属性没有正面评价的情况下，根据所述被调研用户的用户行为图谱，利用评价预测模型进行预测得到所述被调研用户对所述被调研对象的各调研属性的预测评价信息。

预测评价模块710，被配置为根据所述被调研用户的特征和所述用户行为图谱、所述被调研对象的特征和各调研属性，利用所述评价预测模型进行预测得到所述被调研用户对所述被调研对象的各调研属性的预测评价信息。

所述评价预测模型包括：依次级联的图神经网络、注意力模块和深度学习神经网络。

预测评价模块710，被配置为：

图谱模块730，被配置为通过在所述被调研对象相关的专家知识图谱上设置以下至少一项来形成被调研用户的用户行为图谱：所述被调研用户对被调研对象的交互行为连接关系、所述被调研用户对被调研对象的历史评价连接关系、所述被调研用户对被调研对象相关问题的历史解答关系。

图谱模块730，被配置为通过集成物品类属关系、物品分类体系、概念属性关系来构建专家知识图谱。

问卷形成模块720，被配置为包括以下至少一项：

其中，所述调研题目的类型根据所述预测评价信息的评价值所对应的范围区间确定。

其中，所述调研题目的类型包括中性评价类型、正面评价类型、负面评价类型中的至少两个。

评价提取模块740，被配置为：

通过生成和抽取的对抗式学习方法，确定信息提取模型；

评价提取模块740，被配置为：

评价提取模块740，被配置为包括以下至少一项：

评价偏差模块750，被配置为根据所述被调研用户对所述被调研对象的各调研属性的预测评价信息和实际评价信息之间的评价偏差信息，确定所述实际评价信息的显著性权重，用于表征所述实际评价信息在调研结果中展示的显著性。

评价偏差模块750，被配置为计算被调研对象、调研属性、预测评价信息形成的第一向量和被调研对象、调研属性、实际评价信息形成的第二向量之间的相关系数；根据所述相关系数的倒数，确定所述实际评价信息的显著性权重，其中，相关系数越小，评价偏差越大，显著性权重越大。

调研结果模块760，被配置为汇集各个被调研用户的调研问卷回答信息，根据实际评价信息对应的被调研用户的数量和显著性权重中的至少一项，确定调研结果。

调研结果模块760，被配置为包括以下一项或多项：

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现调研数据处理方法的步骤。其中存储介质例如为非瞬时性存储介质。

本领域内的技术人员应当明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机程序代码的非瞬时性计算机可读存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解为可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本公开的较佳实施例，并不用以限制本公开，凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种调研数据处理方法，其特征在于，包括：

选出与被调研对象相关的被调研用户；

2.根据权利要求1所述的方法，其特征在于，所述选出与被调研对象相关的被调研用户包括：选出与所述被调研对象有交互行为的用户作为被调研用户。

3.根据权利要求1所述的方法，其特征在于，所述确定所述被调研用户对所述被调研对象的各调研属性的预测评价信息包括：

4.根据权利要求3所述的方法，其特征在于，所述利用评价预测模型进行预测得到所述被调研用户对所述被调研对象的各调研属性的预测评价信息包括：

根据所述被调研用户的特征和所述用户行为图谱、所述被调研对象的特征和各调研属性，利用所述评价预测模型进行预测得到所述被调研用户对所述被调研对象的各调研属性的预测评价信息。

5.根据权利要求4所述的方法，其特征在于，所述评价预测模型包括：依次级联的图神经网络、注意力模块和深度学习神经网络；

6.根据权利要求1所述的方法，其特征在于，所述被调研用户的用户行为图谱通过在所述被调研对象相关的专家知识图谱上设置以下至少一项来形成：所述被调研用户对被调研对象的交互行为连接关系、所述被调研用户对被调研对象的历史评价连接关系、所述被调研用户对被调研对象相关问题的历史解答关系。

7.根据权利要求6所述的方法，其特征在于，所述专家知识图谱通过集成物品类属关系、物品分类体系、概念属性关系来构建。

8.根据权利要求1所述的方法，其特征在于，所述确定适配所述被调研用户的调研题目，以形成所述被调研用户的调研问卷包括以下至少一项：

9.根据权利要求8所述的方法，其特征在于，所述调研题目的类型根据所述预测评价信息的评价值所对应的范围区间确定；或者

所述调研题目的类型包括中性评价类型、正面评价类型、负面评价类型中的至少两个。

10.根据权利要求1-9任一项所述的方法，其特征在于，还包括：

通过生成和抽取的对抗式学习方法，确定信息提取模型；

11.根据权利要求10所述的方法，其特征在于，所述通过生成和抽取的对抗式学习方法，确定信息提取模型包括：

12.根据权利要求11所述的方法，其特征在于，所述利用所述信息提取模型，确定所述被调研用户对所述被调研对象的各调研属性的实际评价信息包括以下至少一项：

13.根据权利要求10所述的方法，其特征在于，还包括：

根据所述被调研用户对所述被调研对象的各调研属性的预测评价信息和实际评价信息之间的评价偏差信息，确定所述实际评价信息的显著性权重，用于表征所述实际评价信息在调研结果中展示的显著性。

14.根据权利要求13所述的方法，其特征在于，所述确定所述实际评价信息的显著性权重包括：

15.根据权利要求13所述的方法，其特征在于，还包括：

汇集各个被调研用户的调研问卷回答信息，根据实际评价信息对应的被调研用户的数量和显著性权重中的至少一项，确定调研结果。

16.根据权利要求15所述的方法，其特征在于，所述确定调研结果包括以下一项或多项：

17.一种调研数据处理装置，包括：

存储器；以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行权利要求1-16中任一项所述的调研数据处理方法。

18.一种调研数据处理装置，包括：执行权利要求1-16中任一项所述的调研数据处理方法的模块。

19.一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现权利要求1-16中任一项所述的调研数据处理方法的步骤。