CN114298023A

CN114298023A - 一种基于任务主题词驱动的用户决策需求生成方法及应用

Info

Publication number: CN114298023A
Application number: CN202111556977.8A
Authority: CN
Inventors: 陶宇; 鲁义威; 蒋序平; 刘波; 鄢睿丞; 邓邦鹏; 蒋超; 董东; 魏巍
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-12-18
Filing date: 2021-12-18
Publication date: 2022-04-08

Abstract

本申请公开了一种基于任务主题词驱动的用户决策需求生成方法及应用，该方法包括：获取用户描述文本语句并进行分词，得到需求描述词集合；在知识图谱中查询需求描述词集合中的每个分词对应的任务主题词节点，生成任务主题词集合；将任务主题词集合中的任务主题词作为中心节点，在知识图谱中查询与每个中心节点的关联路径最短的若干个关联节点，将关联节点对应的任务主题词加入任务主题词集合，形成新的词集合；从词集合中筛选出现频次大于预设值的任务主题词，输入预先训练的预测模型中，获得与每个任务主题词关联的需求语句并推荐给用户；本发明向用户推荐决策需求点，为用户制定需求清单，辅助用户在信息迷雾中发现、梳理高价值的信息或知识。

Description

一种基于任务主题词驱动的用户决策需求生成方法及应用

技术领域

本申请涉及自然语言处理技术领域，更具体地，涉及一种基于任务主题词驱动的用户决策需求生成方法及应用。

背景技术

近年来，自然语言处理等人工智能技术发展迅猛，在各个工业、商业领域得到了广泛的应用。在如今各类数据量爆发的信息时代，不同领域平台的用户都会面临由于信息大量冗余而无法高效、快速作出决策的问题。例如，在商业购物平台的消费者用户面对五花八门的商品推荐时难以明确自身的购买需求等。因此，开发出准确的用户需求成为了近些年的研究热点。

目前开发用户需求主要有两类研究方向，一种是从用户出发建立用户画像，另一种是从产品出发建立产品画像。前者比较有代表性的研究包括施文幸等人提出了一种基于改进的萤火虫优化加权K-means算法的分层聚类的画像推荐模型，通过建立用户画像来分析一定区域内的用户电力业务需求；王仁武等人通过构建图书馆学术用户画像的信息行为标签和研究兴趣标签，来准确定位学术用户的信息需求，以此来提高用户的信息获取效率，同时提高图书馆学术资源推荐服务的质量。后者比较有代表性的研究包括谷莹等人提出了一种基于在线产品评论的竞争情报挖掘框架，从产品主题特征和用户情感态度特征两方面构建产品画像，帮助企业有效识别自身品牌及竞争对手的优势和劣势；李翔等人提出了一种基于SPSS和在线评论分析的产品用户需求洞察方法，通过对应产品特征和使用情景下的用户需求指标，导出产品属性要求及产品情景适应性要求，构建产品画像，解决了目前产品用户需求洞察中方法应用不足、缺乏客观性的问题。

然而，无论是从用户出发建立用户画像还是从产品出发建立产品画像，目前的用户需求开发大多都是以提高企业经济效益为目的，优化产品的设计与制造，很少能够真正从用户的角度出发，向用户推荐其可能会关注的需求点，帮助用户发现、梳理高价值的信息。

发明内容

针对现有技术的至少一个缺陷或改进需求，本发明提供了一种基于任务主题词驱动的用户决策需求生成方法及应用，通过搜集用户的历史需求点，构建用户需求语料库及知识图谱，基于任务主题词自动生成用户在决策时可能会关注的需求点，目的在于帮助用户发现、梳理高价值的信息或知识，解决用户在面临信息大量冗余的情况下，无法高效、快速作出决策的问题。

为实现上述目的，按照本发明的第一个方面，提供了一种基于任务主题词驱动的用户决策需求生成方法，其包括：

获取用户描述文本语句并进行分词，得到需求描述词集合；

在预先创建的知识图谱中查询所述需求描述词集合中的每个分词对应的任务主题词节点，生成任务主题词集合；

将所述任务主题词集合中的每个任务主题词作为中心节点，在知识图谱中查询与每个所述中心节点的关联路径最短的若干个关联节点，将所述关联节点对应的任务主题词加入任务主题词集合，形成新的词集合；

从所述词集合中筛选出现频次大于预设值的若干个任务主题词，并输入预先训练的预测模型中，获得与每个任务主题词关联的需求语句并推荐给用户。

2.如权利要求1所述的用户决策需求生成方法，其特征在于，所述知识图谱的创建过程包括：

将用户需求语料库中存储的每条用户需求文本语句进行抽象，获得用户需求文本语句对应的任务主题词，作为用户需求文本语句的主题词标签；

将各所述任务主题词作为知识图谱的底层节点，将预先定义的用户需求基本类型作为知识图谱的顶层节点；

将所述底层节点和顶层节点进行关联，形成任务主题词知识图谱。

优选的，上述用户决策需求生成方法还包括：

将各所述任务主题词进行抽象归纳，形成知识图谱的中间层节点；

采用树状结构的形式将底层节点、中间节点和顶层节点进行关联，形成任务主题词知识图谱。

优选的，上述用户决策需求生成方法，所述预测模型的训练方法为：

对每条用户需求文本语句进行分词及向量化处理，得到由多个字符向量组合而成的文本序列，将所述文本序列及其对应的主题词标签作为训练样本对模型进行训练，得到训练好的预测模型。

优选的，上述用户决策需求生成方法，将所述文本序列及其对应的主题词标签作为训练样本对模型进行训练，得到训练好的预测模型，包括：

待训练的预测模型学习文本序列中相邻的字符向量之间的上下文关系，以及任务主题词与文本序列对应的用户需求文本语句之间的关系；

采用最大似然估计方法构建损失函数，所述损失函数为：

其中，k表示上下文窗口的大小；P(x_i|x_i-k,…,x_i-1:θ)表示文本序列中第i 个字符通过与其左侧的k个字符预测成功的概率值，θ为最大似然函数的估计参数；

调整所述待训练的预测模型的模型参数直至损失函数最小化，得到训练好的预测模型。

优选的，上述用户决策需求生成方法还包括：

接收用户筛选的需求语句并进行排序，形成需求清单并保存。

优选的，上述用户决策需求生成方法，所述获取用户描述文本语句，包括：

获取用户描述文本，采用中文标点断句符号的方法将所述用户描述文本进行分句，得到用户描述文本语句。

按照本发明的第二个方面，提供了一种基于任务主题词驱动的用户决策需求生成装置，其包括：

分词模块，用于获取用户描述文本语句并进行分词，得到需求描述词集合；

第一查询模块，用于在预先创建的知识图谱中查询所述需求描述词集合中的每个分词对应的任务主题词节点，生成任务主题词集合；

第二查询模块，用于将所述任务主题词集合中的每个任务主题词作为中心节点，在知识图谱中查询与每个所述中心节点的关联路径最短的若干个关联节点，将所述关联节点对应的任务主题词加入任务主题词集合，形成新的词集合；

推荐模块，用于从所述词集合中筛选出现频次大于预设值的若干个任务主题词，并输入预先训练的预测模型中，获得与每个任务主题词关联的需求语句并推荐给用户。

按照本发明的第三个方面，还提供了一种计算机设备，其包括至少一个处理单元、以及至少一个存储单元，其中，所述存储单元存储有计算机程序，当所述计算机程序被所述处理单元执行时，使得所述处理单元执行上述任一项所述用户决策需求生成方法的步骤。

按照本发明的第四个方面，还提供了一种计算机可读介质，其存储有可由计算机设备执行的计算机程序，当所述计算机程序在计算机设备上运行时，使得所述计算机设备执行上述任一项所述用户决策需求生成方法的步骤。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

本发明提供的基于任务主题词驱动的用户决策需求生成方法，将“任务主题词”作为用户需求语料库中的需求标签，同时也作为任务主题词知识图谱的节点标签，构建用户需求语料库和知识图谱库；根据用户描述文本语句对应的需求描述词集合在知识图谱中查询需求描述词集合中的每个分词对应的任务主题词节点，并在知识图谱中查询与每个任务主题词节点的关联路径最短的若干个关联节点，将关联节点对应的任务主题词加入任务主题词集合，形成新的词集合；从词集合中筛选出现频次大于预设值的若干个任务主题词，并输入预先训练的预测模型中，获得与每个任务主题词关联的需求语句并推荐给用户；通过本发明向用户推荐决策需求点，为用户制定需求清单，辅助用户在信息迷雾中发现、梳理高价值的信息或知识。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例中所需使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本实施例提供的一种基于任务主题词驱动的用户决策需求生成方法的流程示意图；

图2为本实施例提供的任务主题词知识图谱建立过程的流程示意图；

图3为本实施例提供的预测模型的构成示意图；

图4为本实施例提供的一种基于任务主题词驱动的用户决策需求生成装置的逻辑框图；

图5为本实施例提供的计算机设备的逻辑框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

此外，为了避免使技术人员对本发明的理解模糊，可能不详细地描述或示出公知的或广泛使用的技术、元件、结构和处理。尽管附图表示本发明的示例性实施例，但是附图不必按照比例绘制，并且特定的特征可被放大或省略，以便更好地示出和解释本发明。

本方案提供的一种基于任务主题词驱动的用户决策需求生成方法，具有一定程度的通用性，可应用于商业购物平台、公安系统平台等多个领域，下面以商业购物平台为例进行展开说明。

图1是本实施例提供的一种基于任务主题词驱动的用户决策需求生成方法的流程示意图，参见图1，该方法主要包括以下步骤：

S1获取用户描述文本语句并进行分词，得到需求描述词集合；

本实施例中，用户指代商业购物平台中的消费者，用户在商业购物平台上通过语音或文字等方式输入的需求语句即为用户描述文本。

在一个具体的示例中，获取用户描述文本语句的方法为：

获取用户描述文本，采用中文标点断句符号的方法将所述用户描述文本进行分句，得到用户描述文本语句。采用jieba开源分词工具对用户描述文本语句进行分词并逐行显示，生成需求描述词集合。

S2在预先创建的知识图谱中查询所述需求描述词集合中的每个分词对应的任务主题词节点，生成任务主题词集合；

本实施中，首先需要构建用户需求语料库和任务主题词知识图谱，其中，用户需求语料库的建立过程具体包括：

(1)搜集用户需求语料；

本实施例中，用户需求语料的获取途径包括两种，一种是从商业购物平台中用户操作的历史数据中获取：比如采用基于聚焦网络的爬虫算法获取用户在商业购物平台上的历史数据(文本形式)，包括商品搜索记录、客服聊天记录、售前售后咨询记录、商品浏览记录、关注商品或店铺信息等；二是采用人工撰写的方式获取：组建专家团队，按照不同用户需求类型(必备需求、单向需求、吸引需求)分析撰写用户需求语料。

(2)构建用户需求语料库；

构建用户需求语料库主要是对获取的语料文本进行预处理的过程，包括定义需求语料库的存储规则和中文分句、句法识别；在一个具体示例中，定义语料库的存储规则为逐行存储，每行为一条描述用户需求的自然语言文本语句，语句形式均为陈述句或疑问句，语料保存格式为txt格式。对于搜集的用户需求语料，采用基于中文标点断句符号的方法将用户需求语料进行分句，形成中文语句集合，再通过人工审核的方式将中文语句集合中的文本进一步按照的存储规则进行调整。

然后基于用户需求语料库来建立任务主题词知识图谱，图2为本实施例提供的任务主题词知识图谱建立过程的流程示意图；参见图2，其建立过程包括：

(1)语料标注：将用户需求语料库中存储的每条用户需求文本语句进行抽象，获得用户需求文本语句对应的任务主题词，作为用户需求文本语句的主题词标签；

具体地，将用户需求语料库中存储的每条用户需求文本语句进行抽象，用一个需求类型关键词对该需求文本语句进行描述，即该需求文本语句的任务主题词。例如，对于一条需求文本语句“今天的大米价格是多少？”，可以将该条需求文本语句的任务主题词定义为“大米价格”。

根据任务主题词对用户需求文本语句进行标注，语料标注规则为“任务主题词需求文本语句”，中间由空格隔开，标注语料以txt格式进行存储。例如“大米价格今天的大米价格是多少？”。

最后将任务主题词标签化，将每一条需求文本语句的任务主题词作为该条需求语句的标签。

(2)构建任务主题词知识图谱：将各所述任务主题词作为知识图谱的底层节点，将预先定义的用户需求基本类型作为知识图谱的顶层节点；将所述底层节点和顶层节点进行关联，形成任务主题词知识图谱。

将各条用户需求文本语句对应的任务主题词作为知识图谱的底层节点，同时定义多种用户需求基本类型作为知识图谱的顶层节点，形成任务主题词知识图谱中的关键节点。

在一个具体示例中，预先定义的用户需求基本类型包括必备需求、单向需求和吸引需求三种，其中，必备需求是指消费者用户对商家或企业提供的产品或服务因素的基本要求，反过来说，就是商家或企业为消费者用户提供的承诺性利益。单向需求是指用户的满意状况与需求的满足程度成比例关系的需求，是商家或企业为消费者用户提供的变动性利益，如价格折扣。是指不会被消费者用户主动提出来，也不会被消费者用户过分期望的需求，是商家或企业为顾客提供的非承诺性利益。

在一个可选的实施例中，还包括：

采用自底向上和自顶向下相结合的方式，构建知识图谱的中间层节点；具体来说，基于底层节点和顶层节点通过知识归纳的方式将各所述任务主题词进行抽象归纳，形成知识图谱的中间层节点，并将中间层节点依次关联到三种基本需求类型对应的顶层节点；例如“大米价格”(底层节点)可以抽象归纳为“生活刚需”(中间层节点)，“生活刚需”则可以划分到“必备需求”(顶层节点) 这一基本需求类型中。

最后采用树状结构的形式将底层节点、中间节点和顶层节点进行关联，形成任务主题词知识图谱。

本实施例中，采用关键词模糊查询的方法在上述任务主题词知识图谱中查询需求描述词集合中的每个分词对应的任务主题词节点，生成任务主题词集合。

S3将所述任务主题词集合中的每个任务主题词作为中心节点，在知识图谱中查询与每个所述中心节点的关联路径最短的若干个关联节点，将所述关联节点对应的任务主题词加入任务主题词集合，形成新的词集合；

本实施例中，将任务主题词集合中的每个任务主题词作为中心节点，在知识图谱中查询与之关联路径最短的其他三个任务主题词节点，并加入任务主题词集合，形成新的词集合。

S4从所述词集合中筛选出现频次大于预设值的若干个任务主题词，并输入预先训练的预测模型中，获得与每个任务主题词关联的需求语句并推荐给用户。

本实施例中，从词集合总筛选出现频数最高的10个任务主题词，作为模型的输入，预测模型采用GPT-2开源中文文本生成模型，图3为本实施例提供的预测模型的构成示意图，该预测模型的训练方法为：

对每条用户需求文本语句进行分词及向量化处理，得到由多个字符向量组合而成的文本序列，将所述文本序列及其对应的主题词标签作为训练样本对模型进行训练，通过训练使预测模型学习文本序列中相邻的字符向量之间的上下文关系，以及任务主题词与文本序列对应的用户需求文本语句之间的关系。

模型训练的原理是针对输入的训练文本序列(x1,x2,…,xm)，采用最大似然估计方法来训练，不断通过SGD策略调整神经网络的参数，使得神经网络在给定上文的情况下对于下一个字符预测的准确率越来越高，损失函数越来越小。该损失函数为：

其中，k表示上下文窗口的大小；P(x_i|x_i-k,…,x_i-1:θ)表示文本序列中第i 个字符通过与其相邻的k个字符预测成功的概率值，θ为最大似然函数的估计参数；

本实施例，将筛选的10个任务主题词作为GPT-2模型的输入，模型预测输出相应的10条需求语句，同时向用户作出需求推荐，用户通过编辑、修改和删减等操作挑选出若干条(不超过10条)最想关注的需求条目，并按照用户的关注程度进行排序，最终以需求清单形式保存。

应当注意，尽管在上述的实施例中，以特定顺序描述了本说明书实施例的方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。相反，流程图中描绘的步骤可以改变执行顺序。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

本实施例还提供了一种基于任务主题词驱动的用户决策需求生成的装置，该装置可以采用软件和/或硬件的方式实现，并可集成在计算机设备上；图4为该用户决策需求生成装置的逻辑框图，请参阅图4，该装置包括分词模块、第一查询模块、第二查询模块和推荐模块；

其中，分词模块用于获取用户描述文本语句并进行分词，得到需求描述词集合；

第一查询模块用于在预先创建的知识图谱中查询所述需求描述词集合中的每个分词对应的任务主题词节点，生成任务主题词集合；

第二查询模块用于将所述任务主题词集合中的每个任务主题词作为中心节点，在知识图谱中查询与每个所述中心节点的关联路径最短的若干个关联节点，将所述关联节点对应的任务主题词加入任务主题词集合，形成新的词集合；

推荐模块用于从所述词集合中筛选出现频次大于预设值的若干个任务主题词，并输入预先训练的预测模型中，获得与每个任务主题词关联的需求语句并推荐给用户。

关于基于任务主题词驱动的用户决策需求生成装置的具体限定可以参见上文中对于基于任务主题词驱动的用户决策需求生成方法的限定，在此不再赘述。上述基于任务主题词驱动的用户决策需求生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

本实施例还提供了一种计算机设备，如图5所示，其包括至少一个处理器、以及至少一个存储器，其中，存储器中存储有计算机程序，当计算机程序被处理器执行时，使得处理器执行实施例一中基于任务主题词驱动的用户决策需求生成方法的步骤；本实施例中，处理器和存储器的类型不作具体限制，例如：处理器可以是微处理器、数字信息处理器、片上可编程逻辑系统等；存储器可以是易失性存储器、非易失性存储器或者它们的组合等。

该计算机设备也可以与一个或多个外部设备(如键盘、指向终端、显示器等) 通信，还可与一个或者多个使得用户能与该计算机设备交互的终端通信，和/或与使得该计算机设备能与一个或多个其它计算终端进行通信的任何终端(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口进行。并且，计算机设备还可以通过网络适配器与一个或者多个网络(例如局域网(Local Area Network，LAN)，广域网(Wide AreaNetwork，WAN)和/或公共网络，例如因特网)通信。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程 ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步 DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接 RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态 RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于任务主题词驱动的用户决策需求生成方法，其特征在于，包括：

获取用户描述文本语句并进行分词，得到需求描述词集合；

3.如权利要求2所述的用户决策需求生成方法，其特征在于，还包括：

4.如权利要求1或3所述的用户决策需求生成方法，其特征在于，所述预测模型的训练方法为：

5.如权利要求4所述的用户决策需求生成方法，其特征在于，将所述文本序列及其对应的主题词标签作为训练样本对模型进行训练，得到训练好的预测模型，包括：

采用最大似然估计方法构建损失函数，所述损失函数为：

其中，k表示上下文窗口的大小；P(x_i|x_i-k,…,x_i-1:θ)表示文本序列中第i个字符通过与其左侧的k个字符预测成功的概率值，θ为最大似然函数的估计参数；

6.如权利要求1所述的用户决策需求生成方法，其特征在于，还包括：

7.如权利要求1所述的用户决策需求生成方法，其特征在于，所述获取用户描述文本语句，包括：

8.一种基于任务主题词驱动的用户决策需求生成装置，其特征在于，包括：

9.一种计算机设备，其特征在于，包括至少一个处理单元、以及至少一个存储单元，其中，所述存储单元存储有计算机程序，当所述计算机程序被所述处理单元执行时，使得所述处理单元执行权利要求1～7任一项所述方法的步骤。

10.一种计算机可读介质，其特征在于，其存储有可由计算机设备执行的计算机程序，当所述计算机程序在计算机设备上运行时，使得所述计算机设备执行权利要求1～7任一项所述方法的步骤。