CN107122404A

CN107122404A - 一种用户意图数据提取方法和装置

Info

Publication number: CN107122404A
Application number: CN201710175246.6A
Authority: CN
Inventors: 杨文俊; 张大勇; 陈栋宇; 黄德权; 廉志昌; 李文博
Original assignee: Beijing Dawn Multimedia Technology Co Ltd
Current assignee: Beijing Dawn Multimedia Technology Co Ltd
Priority date: 2017-03-22
Filing date: 2017-03-22
Publication date: 2017-09-01

Abstract

本发明实施例提供了一种用户意图数据提取方法，包括：接收从前端页面输入的文本数据；采用所述文本数据，生成用户意图数据；将所述用户意图数据返回所述前端页面进行展现。本发明实施例提供了一种用户意图数据提取方法，由服务器接收从前端页面输入的文本数据，并采用文本数据生成用户意图数据。服务器将生成的用户意图数据返回前端页面进行展现。本发明实施例中的服务器能够根据用户输入的文本数据，精准的提取用户意图数据，确定用户需求，并将用户意图数据返回前端页面进行展现，简化了用户查看数据的操作。

Description

一种用户意图数据提取方法和装置

技术领域

本发明涉及数据处理技术领域，特别是涉及一种用户意图数据提取方法和一种用户意图数据提取装置。

背景技术

随着社会的进步，娱乐领域的消费在迅速发展，体育行业(包括传统体育及电竞行业)也得到前所未有的进步。越来越多的体育爱好者对数据有了更高的要求，

目前，体育赛事数据的展现方式是将整场赛事的数据统计后，以列表的形式展现出来。通常用户意图只是想查看整场比赛的一部分数据，而现有的这种展现方法将大量的数据都展现给用户，使得用户仍需要从大量的数据中进一步查找，不够简便。

发明内容

鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种用户意图数据提取方法和一种用户意图数据提取装置。

为了解决上述问题，本发明实施例公开了一种用户意图数据提取方法，包括：

接收从前端页面输入的文本数据；

采用所述文本数据，生成用户意图数据；

将所述用户意图数据返回所述前端页面进行展现。

优选的，所述接收从前端页面输入的文本数据的步骤包括：

接收从前端页面输入的语音数据；

将所述语音数据识别为文本数据。

优选的，所述采用所述文本数据，生成用户意图数据的步骤包括：

对所述文本数据进行分词处理，得到多个一元分词和二元分词；

计算所述一元分词和二元分词的词频-逆文档频率tf-idf值；

采用所述一元分词和二元分词的词频-逆文档频率tf-idf值，生成特征向量；

将所述特征向量输入预先建立的意图识别模型进行分类，获得用户意图数据。

对所述文本数据进行分词处理，得到多个分词；

计算各个分词的词向量；

累加所述各个分词的词向量得到语义向量；

将所述语义向量输入预先建立的意图识别模型进行分类，获得用户意图数据。

优选的，所述用户意图数据包括：意图类型，以及各个意图类型的可能性几率；

所述将所述用户意图数据返回所述前端页面进行展现的步骤包括：

按照所述各个意图类型的可能性几率，将意图类型返回所述前端页面进行展现。

优选的，在采用所述文本数据，生成用户意图数据的步骤之前，还包括：

确定文本数据中的目标词；

确定与所述目标词对应的转换词；

采用所述转换词替换所述目标词，得到新的文本数据。

对所述文本数据进行纠错处理。

本发明实施例还公开了一种用户意图数据提取装置，包括：

文本数据接收模块，用于接收从前端页面输入的文本数据；

用户意图数据生成模块，用于采用所述文本数据，生成用户意图数据；

用户意图数据返回模块，用于将所述用户意图数据返回所述前端页面进行展现。

优选的，所述文本数据接收模块包括：

语音数据接收子模块，用于接收从前端页面输入的语音数据；

文本数据识别子模块，用于将所述语音数据识别为文本数据。

优选的，所述用户意图数据生成模块包括：

第一分词子模块，用于对所述文本数据进行分词处理，得到多个一元分词和二元分词；

频率值计算子模块，用于计算所述一元分词和二元分词的词频-逆文档频率tf-idf值；

第一特征向量生成子模块，用于采用所述一元分词和二元分词的词频-逆文档频率tf-idf值，生成特征向量；

第一模型分类子模块，用于将所述特征向量输入预先建立的意图识别模型进行分类，获得用户意图数据。

优选的，所述用户意图数据生成模块包括：

第二分词子模块，用于对所述文本数据进行分词处理，得到多个分词；

词向量计算子模块，用于计算各个分词的词向量；

语义向量生成子模块，用于累加所述各个分词的词向量得到语义向量；

第二模型分类子模块，用于将所述语义向量输入预先建立的意图识别模型进行分类，获得用户意图数据。

所述用户意图数据返回模块包括：

意图类型返回子模块，用于按照所述各个意图类型的可能性几率，将意图类型返回所述前端页面进行展现。

优选的，还包括：

目标词确定模块，用于在所述用户意图数据生成模块，采用所述文本数据，生成用户意图数据之前，确定文本数据中的目标词；

转换词确定模块，用于确定与所述目标词对应的转换词；

替换模块，用于采用所述转换词替换所述目标词，得到新的文本数据。

优选的，还包括：

纠错处理模块，用于在所述用户意图数据生成模块，采用所述文本数据，生成用户意图数据之前，对所述文本数据进行纠错处理。

本发明实施例包括以下优点：

本发明实施例提供了一种用户意图数据提取方法，由服务器接收从前端页面输入的文本数据，并采用文本数据生成用户意图数据。服务器将生成的用户意图数据返回前端页面进行展现。本发明实施例中的服务器能够根据用户输入的文本数据，精准的提取用户意图数据，确定用户需求，并将用户意图数据返回前端页面进行展现，简化了用户查看数据的操作。

附图说明

图1是本发明的一种用户意图数据提取方法实施例1的步骤流程图；

图2是本发明的一种用户意图数据提取方法实施例2的步骤流程图；

图3是本发明实施例中一种对文本数据进行纠错处理的示意图；

图4是本发明的一种用户意图数据提取方法实施例3的步骤流程图；

图5是本发明的一种用户意图数据提取装置实施例的结构框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

参照图1，示出了本发明的一种用户意图数据提取方法实施例1的步骤流程图，具体可以包括如下步骤：

步骤101，接收从前端页面输入的文本数据；

在本发明实施例中，前端页面可以是指应用程序APP中的页面，也可以是浏览器打开的网页页面。

当用户想搜索某些体育数据时，用户可以在前端页面输入文本数据。前端页面将文本数据上传到后端服务器。

步骤102，采用所述文本数据，生成用户意图数据；

服务器采用文本数据，生成用户意图数据。

步骤103，将所述用户意图数据返回所述前端页面进行展现。

用户意图数据表征了用户可能的意图，服务器将用户意图数据返回至前端页面，由前端页面向用户展现用户意图数据。

例如，用户输入的文本数据为科比，得到的用户意图数据可以包括：球员基本信息，球员最近比赛的技术统计，球员即将参加的赛程信息。也就是说一句文本数据对应了三个用户意图，每个用户意图在前端页面对应一个展示单元，前端页面从服务器获取对应的用户意图数据，并将三个单元渲染，拼接到一起，得到最终呈现结果。

同时，服务器还可以将与用户意图数据相关的赛事状况数据返回至前端页面，当用户在前端页面选择用户意图数据时，前端页面可以将与用户意图数据相关的赛事状况数据展现出来。例如，用户意图数据是：查找科比命中率，则前端页面可以展现相应的命中率数据。

参照图2，示出了本发明的一种用户意图数据提取方法实施例2的步骤流程图，具体可以包括如下步骤：

步骤201，接收从前端页面输入的文本数据；

在本发明实施例中，所述步骤201可以包括：

接收从前端页面输入的语音数据；

将所述语音数据识别为文本数据。

当用户想搜索某些体育数据时，用户可以在前端页面输入语音数据。前端页面将语音数据上传到后端服务器，服务器将语音数据识别为文本数据。

当然，语音数据的识别也可以由前端页面复制。前端页面接收用户输入的语音数据后，将语音数据转换为文本数据再上传至服务器。

在本发明实施例中，所述的方法还可以包括：

确定文本数据中的目标词；确定与所述目标词对应的转换词；采用所述转换词替换所述目标词，得到新的文本数据。

由于文本数据中的某些词语可能会存在中文-英文转换词，或中文-拼音转换词等等。在对文本数据进行处理时，可以将文本数据中的目标词筛选出来，并用相应的转换词进行替换。

在服务器中可以设置一个映射表来存储目标词和对应的转换词。服务器将文本数据中的词语与在映射表中进行查找，从而确定文本数据中的目标词。

例如，文本数据为“科比命中率”，其中的目标词为“科比”，对应的英文转换词为“kobe”，对应的拼音转换词为“kebi”。替换后的新文本数据可以为：“kobe命中率”、“kebi命中率”。

在本发明实施例中，所述的方法还可以包括：对所述文本数据进行纠错处理。

参照图3所示为本发明实施例中一种对文本数据进行纠错处理的示意图。首先，建立文本数据的trie树(字典树)。除根节点root外，每一个节点表示一个字词，字词后的数字表示从父亲节点到这个路径的词频之和。

假如输入的文本数据是“中山市”，顺着trie树的路径，找到“中山”的节点，该节点下面没有“市”这个路径(也就是没有“中山市”这个节点)，则在“中山”这个节点之下的节点：“中山路”、“中山陵”中选择词频最大的词作为纠错词来代替原来的文本数据，也就是选择“中山路”替换“中山市”。

除了可以采用基于trie树的纠错方法外，本领域技术人员还可以采用其他方式对文本数据进行纠错除了，本发明实施例对此不作限定。

步骤202，对所述文本数据进行分词处理，得到多个一元分词和二元分词；

一元分词是指由单个字的分词，将文本数据按单字进行切分得到一元分词。

二元分词是指两个字组词的分词，将文本数据按两个字进行切分得到各个二元分词。例如，文本数据为“我们吃饭”，分词处理得到的一元分词包括：“我”“们”“吃”“饭”，二元分词包括：“我们”“们吃”“吃饭”。

步骤203，计算所述一元分词和二元分词的词频-逆文档频率tf-idf值；

TF-IDF(term frequency–inverse document frequency，词频-逆文档频率)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随著它在文件中出现的次数成正比增加，但同时会随著它在语料库中出现的频率成反比下降。

TF-IDF值的计算公式为:

TF-IDF值＝词频TF*逆文档频率IDF

词频TF＝某个词在文章中的出现次数/该文章出现次数最多的词的出现次数

逆文档频率IDF＝log(语料库的文档总数/包含该词的文档数+1)。语料库的文档总数可以是服务器中所有文档的总数。

步骤204，采用所述一元分词和二元分词的词频-逆文档频率tf-idf值，生成特征向量；

特征向量X＝(x1，x2，……，xn)；xi∈R。xi就是每个一元分词或者二元分词的tf-idf值。

步骤205，将所述特征向量输入预先建立的意图识别模型进行分类，获得用户意图数据；

具体的，意图识别模型可以为线性核的SVM(Support Vector Machine，支持向量机)，SVM是一个有监督的学习模型，可以用来进行分类。

在本发明实施例中，可以预先采用包含体育数据的训练样本进行机器训练，以生成可以对体育数据进行分类的意图识别模型。

意图识别模型生成后，可以将特征向量输入到模型中，由意图识别模型对特征向量进行分类，分类得到的结果就是用户意图数据。

步骤206，将所述用户意图数据返回所述前端页面进行展现。

在本发明实施例中，用户意图数据可以包括：意图类型、以及意图类型的可能性几率，所述步骤206可以包括：

在本发明实施例中，意图识别模型输出的用户意图数据包括意图类型、以及意图类型的可能性几率。

在一种示例中，可以将可能性几率大于预设阈值的意图类型返回所述前端页面进行展现。

例如，意图类型包括：(精彩片段回顾，球员数据查询，球员交易信息)，对应的可能性几率分别为(0.2，0.6，0.8)。假如预设阈值为0.5。则球员数据查询和球员交易信息这两个意图类型都满足要求，则服务器将球员数据查询和球员交易信息这两个意图类型，返回至前端页面进行展现。

在另一种示例中，可以按照可能性几率从大至小进行排序；将排序靠前的预设个数的意图类型返回所述前端页面进行展现。

例如，意图类型包括：(精彩片段回顾，球员数据查询，球员交易信息)，对应的可能性几率分别为(0.2，0.6，0.8)。

如果预设个数为2，根据可能性几率，则将排名靠前的2个意图类型(球员数据查询，球员交易信息)返回前端页面进行展现。

参照图4，示出了本发明的一种用户意图数据提取方法实施例3的步骤流程图，具体可以包括如下步骤：

步骤301，接收从前端页面输入的文本数据；

在本发明实施例中，所述步骤301可以包括：

接收从前端页面输入的语音数据；将所述语音数据识别为文本数据。

步骤302，对所述文本数据进行分词处理，得到多个分词；

将文本数据切分得到多个分词。

步骤303，计算各个分词的词向量；

要将自然语言交给机器学习中的算法来处理，通常需要首先将语言数学化，词向量就是用来将语言中的词进行数学化的一种方式。通过训练将某种语言中的每一个词映射成一个固定长度的向量。

步骤304，累加所述各个分词的词向量得到语义向量；

例如，假设文本数据转换成了3个词向量，每个词向量维度为2，则词向量分别为[0.1，04]，[0.3，0.1]，[0.5，0.5]那么这个句子的文档向量就是[0.1，0.4]+[0.3，0.1]+[0.5，0.5]＝[0.9，1.0]。

步骤305，将所述语义向量输入预先建立的意图识别模型进行分类，获得用户意图数据；

具体可以采用作为训练样本的体育数据进行训练，以生成可以对体育数据进行分类的意图识别模型。

步骤306，将所述用户意图数据返回所述前端页面进行展现。

在本发明实施例中，用户意图数据可以包括：意图类型、以及意图类型的可能性几率，所述步骤306可以包括：

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图5，示出了本发明的一种用户意图数据提取装置实施例的结构框图，具体可以包括如下模块：

文本数据接收模块401，用于接收从前端页面输入的文本数据；

用户意图数据生成模块402，用于采用所述文本数据，生成用户意图数据；

用户意图数据返回模块403，用于将所述用户意图数据返回所述前端页面进行展现。

在本发明实施例中，所述文本数据接收模块401可以包括：

在本发明实施例中的一种示例中，所述用户意图数据生成模块402可以包括：

在本发明实施例的另一种示例中，所述用户意图数据生成模块402可以包括：

词向量计算子模块，用于计算各个分词的词向量；

在本发明实施例中，所述用户意图数据包括：意图类型，以及各个意图类型的可能性几率；

所述用户意图数据返回模块403可以包括：

在本发明实施例中，所述的装置还可以包括：

转换词确定模块，用于确定与所述目标词对应的转换词；

在本发明实施例中，所述的装置还可以包括：

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种用户意图数据提取方法和一种用户意图数据提取装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种用户意图数据提取方法，其特征在于，包括：

接收从前端页面输入的文本数据；

采用所述文本数据，生成用户意图数据；

将所述用户意图数据返回所述前端页面进行展现。

2.根据权利要求1所述的方法，其特征在于，所述接收从前端页面输入的文本数据的步骤包括：

接收从前端页面输入的语音数据；

将所述语音数据识别为文本数据。

3.根据权利要求1所述的方法，其特征在于，所述采用所述文本数据，生成用户意图数据的步骤包括：

计算所述一元分词和二元分词的词频-逆文档频率tf-idf值；

4.根据权利要求1所述的方法，其特征在于，所述采用所述文本数据，生成用户意图数据的步骤包括：

对所述文本数据进行分词处理，得到多个分词；

计算各个分词的词向量；

累加所述各个分词的词向量得到语义向量；

5.根据权利要求1或3或4所述的方法，其特征在于，所述用户意图数据包括：意图类型，以及各个意图类型的可能性几率；

6.根据权利要求1所述的方法，其特征在于，在采用所述文本数据，生成用户意图数据的步骤之前，还包括：

确定文本数据中的目标词；

确定与所述目标词对应的转换词；

采用所述转换词替换所述目标词，得到新的文本数据。

7.根据权利要求1或6所述的方法，其特征在于，在采用所述文本数据，生成用户意图数据的步骤之前，还包括：

对所述文本数据进行纠错处理。

8.一种用户意图数据提取装置，其特征在于，包括：

文本数据接收模块，用于接收从前端页面输入的文本数据；

9.根据权利要求8所述的装置，其特征在于，所述文本数据接收模块包括：

10.根据权利要求8所述的装置，其特征在于，所述用户意图数据生成模块包括：

11.根据权利要求8所述的装置，其特征在于，所述用户意图数据生成模块包括：

词向量计算子模块，用于计算各个分词的词向量；

12.根据权利要求8或10或11所述的装置，其特征在于，所述用户意图数据包括：意图类型，以及各个意图类型的可能性几率；

所述用户意图数据返回模块包括：

13.根据权利要求8所述的装置，其特征在于，还包括：

转换词确定模块，用于确定与所述目标词对应的转换词；

14.根据权利要求8所述的装置，其特征在于，还包括：