CN111831901A - 数据处理方法、装置、设备和存储介质 - Google Patents

数据处理方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN111831901A
CN111831901A CN202010225311.3A CN202010225311A CN111831901A CN 111831901 A CN111831901 A CN 111831901A CN 202010225311 A CN202010225311 A CN 202010225311A CN 111831901 A CN111831901 A CN 111831901A
Authority
CN
China
Prior art keywords
user
representations
quantized
representation
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010225311.3A
Other languages
English (en)
Other versions
CN111831901B (zh
Inventor
冯浩
王鹏
徐江
刘纯一
李奘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Didi Infinity Technology and Development Co Ltd
Original Assignee
Beijing Didi Infinity Technology and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Didi Infinity Technology and Development Co Ltd filed Critical Beijing Didi Infinity Technology and Development Co Ltd
Priority to CN202010225311.3A priority Critical patent/CN111831901B/zh
Publication of CN111831901A publication Critical patent/CN111831901A/zh
Application granted granted Critical
Publication of CN111831901B publication Critical patent/CN111831901B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及一种数据处理方法、装置、设备和存储介质。在此描述的方法包括获取与多种类型的用户数据相对应的多个量化表示,并且对多个量化表示中的至少一个量化表示进行掩码,其中用户数据至少指示用户的用户简档和用户行为。方法还包括以经掩码的至少一个量化表示和多个量化表示中未经掩码的其他量化表示为输入、并以未经掩码的至少一个量化表示为输出,训练用于确定用户意图的模型。根据本公开的实施例,通过使用无用户意图标签的大量用户数据来训练用户意图确定模型,使得模型能够更好地学习到用户特征之间的交互和表示,由此能够提高用户意图确定模型的准确性。

Description

数据处理方法、装置、设备和存储介质
技术领域
本公开总体上涉及计算机领域,更特别地涉及一种数据处理方法、装置、设备和计算机可读存储介质。
背景技术
随着网络技术的快速发展,网络用户对于个性化和精细化的产品或业务需求日益增长。为了实现个性化,需要快速准确地识别用户意图,其中用户意图可以指代用户的兴趣或需求、用户想要达成的目标、或者用户想要完成的任务,等等。例如,搜索引擎通过挖掘用户的搜索意图来提供个性化的搜索结果,客服系统通过理解用户意图来提供更高效的客服服务,视频网站根据用户的用户意图来推荐更符合用户兴趣的视频内容等。
发明内容
根据本公开的一些实施例,提供了一种数据处理方法、装置、设备以及计算机可读存储介质。
在本公开的第一方面,提供了一种数据处理方法。方法包括获取与多种类型的用户数据相对应的多个量化表示,并且对多个量化表示中的至少一个量化表示进行掩码,其中用户数据至少指示用户的用户简档和用户行为。方法还包括以经掩码的至少一个量化表示和多个量化表示中未经掩码的其他量化表示为输入、并以未经掩码的至少一个量化表示为输出,训练用于确定用户意图的模型。
在本公开的第二方面,提供了一种用于确定用户意图的方法。方法包括获得与用户有关的数据作为输入,并且使用根据第一方面所训练的模型基于输入来确定用户意图。
在本公开的第三方面,提供了一种数据处理装置。装置包括获取模块、掩码模块以及训练模块。获取模块被配置为获取与多种类型的用户数据相对应的多个量化表示,其中用户数据至少指示用户的用户简档和用户行为。掩码模块被配置为对多个量化表示中的至少一个量化表示进行掩码。训练模块被配置为以经掩码的至少一个量化表示和多个量化表示中未经掩码的其他量化表示为输入、并以未经掩码的至少一个量化表示为输出,训练用于确定用户意图的模型。
在本公开的第四方面,提供了一种用于确定用户意图的装置。装置包括获得模块,被配置为获得与用户有关的数据作为输入,以及使用模块,被配置为使用根据第三方面所训练的模型基于输入确定用户意图。
在本公开的第五方面,提供了一种电子设备,包括存储器和处理器,其中存储器用于存储计算机可执行指令,计算机可执行指令被处理器执行以实现根据本公开的第一方面和/或第二方面的方法。
在本公开的第六方面,提供了一种计算机可读存储介质,其上存储有计算机可执行指令,其中计算机可执行指令被处理器执行实现根据本公开的第一方面和/或第二方面的方法。
根据本公开的各种实施例,通过使用无用户意图标签的用户数据来训练用户意图确定模型,使得模型能够更好地学习到用户特征之间的交互和表示,由此提高用户意图确定模型的准确性。
附图说明
结合附图并参考以下详细说明,本公开各实现方式的特征、优点及其他方面将变得更加明显。在此以示例性而非限制性的方式示出了本公开的若干实现方式,在附图中:
图1示出了根据本公开的实施例的用于确定用户意图的示例环境;
图2示出了根据本公开的实施例的数据处理方法的流程图;
图3示出了根据本公开的实施例的无用户意图标签数据集中的数据的示意图;
图4示出了根据本公开的实施例的有用户意图标签数据集中的数据的示意图;
图5示出了根据本公开的实施例的用户意图确定模型的分段训练的示意图;
图6示出了根据本公开的实施例的用户意图确定模型的联合训练框架的示意图;
图7示出了根据本公开的实施例的基于特征独立的神经网络模型的示例架构的示意图;
图8示出了根据本公开的实施例的基于特征独立的神经网络模型的另一示例架构的示意图;
图9示出了根据本公开的实施例的基于用户意图的客服场景的示例用户界面;
图10示出了根据本公开的实施例的使用用户意图确定模型的方法的流程图;以及
图11示出了其中可以实施本公开的一个或多个实施例的计算设备的框图。
具体实施方式
下面将参照附图更详细地描述本公开的优选实现。虽然附图中显示了本公开的优选实现,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实现所限制。相反,提供这些实现是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
在本文中使用的术语“包括”及其变形表示开放性包括,即“包括但不限于”。除非特别申明,术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实现”和“一个实现”表示“至少一个示例实现”。术语“另一实现”表示“至少一个另外的实现”。术语“第一”、“第二”等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
用户意图是指用户的兴趣或需求、用户想要达成的目标、或者用户想要完成的任务,等等。对于应用和网站而言,理解用户意图能够帮助向用户提供更好的推荐或服务。用户意图确定可视为单标签或多标签的分类问题,用户意图确定模型根据用户特征来确定用户的一个或多个用户意图。
传统的模型训练方法是利用有用户意图标签的用户数据(简称为“有标签数据集”)来进行训练,例如利用用户特征与已标注的用户意图来进行训练。然而,有标签数据集的数据量通常是有限的,而用户意图和用户特征可能是很多种类的,这就造成用户特征和用户意图在给定的数据下可能很稀疏,导致所训练的模型可能出现过拟合,因而无法训练出准确的用户意图确定模型。因此,传统的方法所训练的用户意图确定模型准确性不够高。
为此,本公开的实施例提出了一种基于掩码特征训练的用户意图确定方案。根据本公开的实施例,通过使用无用户意图标签的用户数据(简称为“无标签数据集”)来训练用户意图确定模型,使得模型能够更好地学习到用户特征之间的交互和表示,从而能够提高用户意图确定模型的准确性。
本公开的实施例通过将一些用户特征进行掩码,使得模型学习到如何从一些未经掩码的特征来预测被掩码的特征。因此,本公开的实施例可以使用大量无标签数据集来预训练模型然后使用有标签数据集来微调模型,或者使用无标签数据集和有标签数据集来联合训练模型。由于无标签数据集是数量是非常庞大的,因此本公开的一些实施例能够通过大量无标签数据集的训练来提高所训练的用户意图确定模型的准确性。
作为一个示例,假设无标签数据集包括多个用户特征,例如性别、年龄、城市、打车日期、出发地、目的地、用户评论等。本公开的实施例可以对城市进行掩码(mask),然后将性别、年龄、打车日期、出发地、目的地、用户评论等特征作为模型输入、并将城市作为模型输出,来预训练用户意图确定模型,使得模型能够根据其他特征来预测城市这一特征。通过这种训练方式,模型能够学习到用户特征之间的交互和表示,从而有助于提高模型的准确性。
以下将参考附图1-10描述了本公开的一些示例实施例。
图1示出了根据本公开的实施例的用于确定用户意图的示例环境100。如图1所示,示例环境100包括多个用户设备110-1、110-2(统称为或者单独称为“用户设备110”)和服务器120,用户设备110和服务器120通过网络115相连接,其中网络115可以为任何有线网络、无线网络、或其组合。用户设备110可以为能够连接网络的任何电子设备,包括但不限于智能手机、平板电脑、台式计算机、笔记本计算机、智能可穿戴设备(诸如智能手表、智能眼镜)、导航设备、多媒体播放器设备、智能音箱,等等。
服务器120包括用户数据存储库123和用户意图确定模型125,服务器120可以为集中式服务器、分布式服务器、或者云等。用户数据存储库123存储了大量用户的数据,包括用户简档以及用户行为数据等。在一些实施例中,用户简档可以包括用户在应用和/或网站中注册个人信息,诸如性别、年龄、城市、职业,等等。用户行为可以为用户在应用和/或网站中执行的相关动作的数据,诸如用户在打车应用中的打车行为、用户对于评论对象的评论行为、用户在网站中的点击行为,等等。
用户意图确定模型125是根据本公开的实施例的训练方法所训练的模型,例如神经网络模型。用户意图确定模型125能够从用户数据存储库123获取用户数据,并且根据所获取的用户数据来确定用户的一个或多个用户意图。此外,用户意图确定模型125可以将所确定的用户意图传给其他的系统或模块以执行对应的任务。可选地,用户意图确定模型125可以将所确定的用户意图传给客服系统,客服系统进而可以向用户推荐与用户意图相关的问题,这有助于用户直接点击客服系统所推荐的问题,而无需手动地输入问题,由此提高用户体验。备选地,用户意图确定模型125可以将所确定的用户意图传给搜索引擎、电商系统、新闻服务器、视频服务器,等等。
如图1所示,借助于用户意图确定模型125确定的用户意图,用户设备110-1可以在聊天窗口中向用户推荐用户关心的问题,用户设备110-2可以向用户推荐用户感兴趣的资讯。应当理解,虽然在图1的示例环境100中用户意图确定模型125被部署在服务器120中,但是用户意图确定模型125也可以被部署在用户设备110本地。以下描述了使用无标签数据集和有标签数据集来训练用户意图确定模型125的示例实现。
图2示出了根据本公开的实施例的数据处理方法200的流程图。方法200可以在单个计算设备或者多个计算设备上执行,或者利用专用的加速器资源来执行。
在框202,获取与多种类型的用户数据相对应的多个量化表示,其中用户数据至少指示用户的用户简档和用户行为。例如,从无标签数据集中获取多个用户特征,用户特征的字段(field)例如包括用户的性别、年龄、业务发生时间、用户的评论等。然后,将用户特征转换成易于机器学习训练的独热向量和/或多热向量,例如获得向量a、b、c、d、e、f等。
在框204,对多个量化表示中的至少一个量化表示进行掩码。在一些实施例中,可以基于预定的比例,确定待掩码的向量数目,然后将待掩码向量掩码成特定值(例如零值)或随机值。例如,可以将全部向量的十分之一进行掩码,如果总数的十分之一不是整数,则可以向上取整。通过设置合适的掩码比例,能够提高掩码训练的效率。在多个量化表示为向量a、b、c、d、e、f等的示例中,可以对向量b进行掩码,获得经掩码的向量b’。
在框206,以经掩码的至少一个量化表示和多个量化表示中未经掩码的其他量化表示为输入、并以未经掩码的至少一个量化表示为输出,训练用于确定用户意图的模型。例如,使用向量a、b’、c、d、e、f等作为模型的输入,并且使用向量b作为模型的真实输出,来训练用户意图确定模型125,也即,是的可以使用向量a、b’、c、d、e、f等来预测向量b。因此,本公开的实施例通过使用大量用户的用户特征来训练用户意图确定模型125,使得用户意图确定模型125能够更好地学习到用户特征的交互和表示(诸如特征之间的关联、利用其他特征来表示稀疏特征等),从而能够提高用户意图确定模型125的准确性。
本公开的实施例使用无标签数据集来训练模型,由于存在大量的无标签数据,因而能够更好的学习到特征表示,尤其对于稀疏的比较少出现的特征。不同于传统的处理对象是顺序的数据,本公开的实施例处理的是彼此无序的多个用户特征。此外,特征之间的交互对于后续的任务相关学习具有帮助,另外,一些用户意图与部分特征有关,因而特征预测可以直接用来进行意图预测。例如,某个用户意图A与稀疏特征B非常关联,通过本公开的实施例的无标签数据集的训练,能够从其他特征推导出这个稀疏特征B,进而可以在缺失该稀疏特征B的情况下推断出稀疏特征B的类似特征表示,进而确定出用户意图A。
可选地,本公开的实施例可以使用大量无标签数据集来预训练模型125并且然后使用有标签数据集来微调模型125。备选地,本公开的实施例可以使用无标签数据集和有标签数据集来联合训练模型125。由于无标签数据集无需人工标注并且其数量是非常庞大的,因此本公开的一些实施例能够通过大量无标签数据集的训练来显著提高所训练的模型125的准确性,避免模型在有标签数据集训练中的过拟合。在训练出用户意图确定模型125之后,可以使用模型125在实际场景中根据用户数据来确定用户意图。
以下图3和图4分别描述了用作训练数据的无标签数据集和有标签数据集的示例,图5和图6分别描述了分阶段训练和联合训练的两种训练方式,图7和图8描述了用户意图确定模型的两种示例模型架构,图9描述了用户意图确定模型的示例使用场景。
图3示出了根据本公开的实施例的无标签数据集310中的数据的示意图。无标签数据集310可以被表示为Du={x1,x2,…,xN},其中Du具有N条数据记录,每条数据记录可以对应于一个用户。例如,可以从用户没有明确表示其用户意图的日志等中收集无标签数据。针对每条数据记录,存在K个特征字段(也称为“特征域”),即
Figure BDA0002427443950000081
例如,“星期几”是一个字段,其可以为多个值中的一个,例如“星期一”、“星期二”等,其中“星期一”为一个特征。对于数据记录而言,特征可能是稀疏的,一些特征值可能很少出现。不同字段可以具有不同的数据类型,例如字段中的特征值可以为数值、类型、文本,等等。
如图3所示,无标签数据集310存储着大量的用户数据记录,每条数据记录可以包括若干用户特征,包括但不限于用户简档(诸如性别、年龄等)、用户行为数据(诸如打车行为发生在星期几、用户的评论等)、以及一些统计特征(诸如用户的平均打车距离等)。在一些实施例中,用户的特征可能达到几百个甚至更多。
参考图3,可以将所有的用户特征编码成独热(one-hot)向量和/或多热(multi-hot)向量。可以利用分位数统计来将数值特征转换成独热向量,例如,可以划分成若干个数值范围,然后将每个特征值映射到对应的数值范围中。可以将类型特征转换成独热向量或多热向量,并且可以利用词袋模型将文本转换成多热向量。如图3所示,针对无标签数据集310中某一条数据记录315,可以对其进行编码,以生成包括独热向量和多热向量的向量集325。对于独热向量而言,只存在一个1,其他的全为0;对于多热向量而言,存在两个或更多个1,其中每个位置的1表示一个对应的值或者标签。如图3所示,性别字段中“男”对应的独热向量可以为(1,0),“女”对应的独热向量为(0,1)。用户评论字段中的“亲切”对应第2位置,“热心”对应第4位置。此外,可以在每个向量的最后一位添加特征掩码标志,其中0表示未被掩码,1表示被掩码。因此,每个向量的长度等于可能的特征数目加一,例如可以使用8维向量来指代星期几。通过将用户特征转换成独热向量和多热向量,能够方便特征在模型中的预训练。
继续参考图3,可以对向量集325中的部分向量进行掩码,例如,对字段“星期几”中的特征“星期一”的向量进行掩码,例如将其所有值都设置为0,然后将最后一位特征掩码标志设置为1。备选地,可以将为特征“星期一”的向量生成一个随机值。其他用户特征(诸如性别、年龄、评论等)的向量未被掩码。因此,向量集325被掩码以形成新的向量集335。根据本公开的实施例,可以使用新的向量集335作为模型的输入并且使用特征“星期一”的原始向量作为模型的真实输出,来构建一对训练数据以预训练用户意图确定模型125。通过这种方式,能够使得用户意图确定模型125训练出用户特征交互模式,从而更有助于用户意图确定。
图4示出了根据本公开的实施例的用于有标签数据集410中的数据的示意图。有标签数据集410可以被表示为Dl={(x1,y1),(x2,y2),…,(xM,yM)},其中Dl具有M对数据样本,可以从用户点击推荐的意图或者明确表达其意图的日志等中收集有标签数据,由于应用或者网站中明确表达意图的用户的比例通常很低,因而M远小于N。对于有标签的数据记录(xi,yi),
Figure BDA0002427443950000091
表示标注的用户意图的向量,其中L表示用户意图标签的大小,
Figure BDA0002427443950000092
其中用户意图l对应位置的0值指示不存在意图l,而1值表示存在意图l。
如图4所示,与图3所示出的无标签数据集310相比,有标签数据集410中多了一列标注的“用户意图”。针对有标签数据集410中某一条数据记录415,可以对其进行编码,以生成包括独热向量和多热向量的向量集425。然后,可以使用向量集425中除了用户意图之外的向量作为模型的输入并且使用用户意图向量作为模型的真实输出,来构建一对训练数据以进一步训练用户意图确定模型125,也即,针对用户意图任务,对经训练的用户意图确定模型125进行微调。
在获得来自无标签数据集Du和有标签数据集Dl的训练数据之后,可以使用图5所示出的分阶段训练方式或者使用图6所示出的联合训练方式来训练本公开的实施例的用户意图确定模型125。
图5示出了根据本公开的实施例的用户意图确定模型125的分段训练的示意图。如图5所示,用户意图确定模型125的训练可以包括两个阶段,即预训练(pre-train)阶段501和微调(fine-tune)阶段502,预训练阶段501使用无标签数据集Du来学习特征交互模式,微调阶段502复用所学习到的特征交互模式以训练具体的用户意图确定任务。如图5所示,用户意图确定模型125包括嵌入层510、神经网络层520、掩码特征输出层540、预训练损失函数层550、用户意图输出层570、以及用户意图损失函数层580,其中嵌入层510将高维向量映射到低维向量,神经网络层520学习用户特征和输出之间的非线性关系,嵌入层510和神经网络层520组成的可复用部分530可以在两个阶段复用。
在预训练阶段501,使用无标签数据集Du中的数据来预训练用户意图确定模型125以学习到特征之间的交互和表示。针对每条数据记录,随机地对一些字段中的特征进行掩码并且将其视为未知数,然后学习利用其他特征来预测被掩码的特征。对于数据记录i,其掩码的特征可以被表示为Fi,则模型的学习目标为
Figure BDA0002427443950000101
掩码的特征数目被设置为
Figure BDA0002427443950000109
即γK的向上取整,其中γ表示掩码比例,诸如0.1。将经过掩码的特征向量的掩码输入表示为
Figure BDA00024274439500001010
则预训练阶段501的目标为基于掩码输入来预测被掩码的特征向量,也即
Figure BDA0002427443950000102
如图5所示,模型的输入505为用户特征向量的经掩码形式,被表示为输入
Figure BDA0002427443950000103
输入
Figure BDA0002427443950000104
包括独热向量和/或多热向量,其中的一部分向量被掩码,输入
Figure BDA0002427443950000105
例如可以为图3中所述的向量集335。嵌入层510将掩码输入
Figure BDA0002427443950000106
转换成低维密集向量hin={h1,h2,…,hK},神经网络层520根据输入向量hin生成跨表示的上下文向量hout。掩码特征输出层540根据上下文向量hout获得对应的预测输出545,被表示为输出x’。预训练损失函数层550通过计算预测输出x′i和真实输出
Figure BDA0002427443950000107
之间的损失来调整模型的参数,由此预训练用户意图确定模型125。
对于独热向量,通过softmax函数来获得输出x′k=softmax(hWk),其中
Figure BDA00024274439500001011
表示可学习的参数,Lk表示特征k的维度,并且d表示h的大小。对于多热向量,可以通过sigmoid函数来预测每个特征的概率
Figure BDA0002427443950000108
其中Vk表示与Wk类似的可学习的参数。预训练损失函数层550确定训练损失,针对某条数据记录,预训练损失函数被表示为式(1):
Figure BDA0002427443950000111
其中Fo表示被掩码的独热向量,Fm表示被掩码的多热向量,Lo和Lm分别表示针对独热向量和多热向量的损失。
在一些实施例中,嵌入层510将独热向量和多热向量嵌入成密集向量,密集向量可以保留关键的信息并且具有更好的泛化能力。对于多热向量,可以先将多热向量转换成多个独热向量,将多个独热向量分别转换成多个预定维度的向量,然后基于多个预定维度的向量的均值,来确定与多热向量相对应的密集向量。通过这种方式,使得嵌入层能够有效地转换多热向量,提高了处理效率。
因此,通过预训练阶段501的预训练,用户意图确定模型125能够从无标签数据集Du学习到用户特征的交互和表示的模式,该模式主要为特征的跨组合。设置更深层的神经网络,更能够学习到特征之间的复杂模式,因此,用户意图确定模型125中的神经网络层520可以为深度神经网络(DNN)。
继续参考图5,在微调阶段502,使用有标签数据集Dl中的数据来微调用户意图确定模型125。微调是指加载预训练好的模型125,例如加载一堆网络权重的值,然后把具体领域任务的数据集输入到模型125,在网络上继续反向传播训练,不断调整原有模型的权重,进而获得一个适用于新的特定任务的模型。如图5所示,可以复用在预训练阶段已经训练的可复用部分530,并且增加用户意图输出层570和用户意图损失函数层580。在微调阶段502,模型的输入565为用户特征向量,被表示为输入x,输入x例如为图4中所述的向量集425中除了用户意图的部分。嵌入层510根据输入x生成输入向量hin,神经网络层520根据输入向量hin生成上下文向量hout,用户意图输出层570根据上下文向量hout获得对应的预测输出575,被表示输出y’。用户意图损失函数层580通过预测输出y’和真实输出y之间的损失来调整模型的参数,由此微调用户意图确定模型125。在微调阶段502,既优化公共的嵌入层510和神经网络层520,又针对目标任务优化用户意图输出层570和用户意图损失函数层580。
对于用户意图确定任务,可以使用T个二进制分类器,其中每个分类器对应每个用户意图。输出结果为y’={y′1,y′2,…,y′T},用户意图损失函数层580的用户意图损失函数可以被表示为式(2):
Figure BDA0002427443950000121
其中
Figure BDA0002427443950000122
表示第i个数据记录的第t个意图的预测输出,
Figure BDA0002427443950000123
表示第i个数据记录的第t个意图的真实输出。
因此,根据本公开的实施例,通过使用无标签数据集Du中的大量无标签数据对用户意图确定模型125进行预训练,然后使用有标签数据集Dl中的数据对用户意图确定模型125进行微调,能够提高所训练的用户意图确定模型125的准确性。
图6示出了根据本公开的实施例的用户意图确定模型125的联合训练框架的示意图。不同于图5所示出的分阶段训练框架,图6示出了以多任务方式利用无标签数据集Du和有标签数据集Dl来联合训练模型。
如图6所示,可以以经掩码的向量505作为模型输入,掩码特征的原始向量和标注的用户意图向量作为输出,来联合训练用户意图确定模型125中的掩码特征输出层540和用户意图输出层570。在联合训练过程中,神经网络层520输出的上下文向量hout同时用于掩码特征输出层540和用户意图输出层570,然后联合地优化预训练损失函数层550和用户意图损失函数层580。对于无标签数据集Du中的无标签数据,损失函数层的损失函数与上述式(1)相同。对于有标签数据集Dl中的有标签数据,可以基于预训练损失函数和用户意图损失函数的加权和来确定损失函数,如下式(2)所示:
Figure BDA0002427443950000124
其中α表示控制损失的权重的超参数。
因此,通过联合训练用户意图确定模型125中的掩码特征输出层540和用户意图输出层570,能够加快模型训练的效率。
此外,本公开的一些实施例还提出了改进的神经网络模型架构。本申请的发明人发现,用户的特征之间相对是独立的,这些特征之间是位置无关的。因此,根据本公开的实施例的改进的神经网络层520,将针对各个特征的一些神经网络参数设置为不共享,并且针对每个用户意图,模型仅仅关心一些相关的用户特征,而不是所有的用户特征,由此能够提高模型的准确性。
图7示出了根据本公开的实施例的基于特征独立的神经网络模型的架构的示意图。如图7所示,用户意图确定模型125同样包括嵌入层510、神经网络层520、掩码特征输出层540、预训练损失函数层550、用户意图输出层570、以及用户意图损失函数层580,其中嵌入层510的输入为掩码输入705,被表示为输入
Figure BDA0002427443950000131
嵌入层510将掩码输入
Figure BDA0002427443950000132
转换成密集向量715,即hin={h1,h2,…,hK},神经网络层520用于特征交叉,因而也称为特征交叉层。
如图7所示,神经网络层520的输入是上下文无关的密集向量715,即hin={h1,h2,…,hK},神经网络层520的输出是针对每个用户特征的上下文特征向量725,即
Figure BDA0002427443950000133
上下文意味着每个上下文特征向量并入了来自其他用户特征的信息。神经网络层520中包括K个特征交叉块(简称为FIB),每个用户特征设置单独的FIB,因此,根据本公开的实施例的模型为特征独立的神经网络模型。针对第k个特征的第n层的FIB,可以使用注意力机制来聚集前一层的其他特征的信息以形成新的向量表示
Figure BDA0002427443950000134
如下式(4)所示:
Figure BDA0002427443950000135
每个FIB包括多头自注意力层(简称为MHA)和前馈层(简称为PWF),如图7所示。MHA用来提取每个用户特征的上下文信息,多头可以输出多组,从而获得更多的上下文信息。PWF基于MHA的输出,进一步提取上下文信息,其用于增加非线性同时考虑不同隐式维度之间的交互。图7中示出了神经网络层520中的一层的特征交叉层,神经网络层520可以包括多个层。注意力机制能够使得神经网络具备专注于其输入特征的子集的能力,从而能够选择特定输入。在神经网络层520中,针对各个用户特征的参数是不共享的,例如,针对掩码输入705中的第一个特征,MHA中存在对应的第一注意力参数并且PWF存在对应的第一前馈参数;针对掩码输入705中的第二个特征,MHA存在对应的第二注意力参数并且PWF存在对应的第二前馈参数。通过FIB之间不共享参数,能够减少模型对于不同用户特征之间的位置依赖,从而有助于提高模型的准确性。在MHA中,利用r个头来并行地进行自注意力计算,针对第i个头,通过下式(5)来表示权重向量:
Figure BDA0002427443950000141
其中针对k=1,2,…,K,并且i=1,2,…,r,
Figure BDA0002427443950000142
Figure BDA0002427443950000143
表示特征无关且头部无关的用于注意力计算的可训练参数,并且d表示hk的大小。
将所有的头的结果连接在一起作为输出
Figure BDA0002427443950000144
其可以通过下式(6)表示:
Figure BDA0002427443950000145
其中
Figure BDA0002427443950000146
表示特征无关的可训练参数,Att表示注意力计算。
接下来,对输出
Figure BDA0002427443950000147
应用特征无关前馈处理以产生各个FIB的输出,如下式(7)所示:
Figure BDA0002427443950000148
其中
Figure BDA0002427443950000149
以及
Figure BDA00024274439500001410
表示针对k特征的可训练的参数,Gelu表示激活函数,d’表示中间维度。因此,本公开的实施例无论是在MHA中还是PWF中,都是针对各个用户特征使用各自的参数,因此参数在MHA和PWF中都不共享。
针对每个用户特征,可以聚集多个层,因而神经网络层520中的特征交叉的输出为
Figure BDA0002427443950000151
继续参考图7,用于预训练的掩码特征输出层540和用于微调训练的用户意图输出层570是不同的层,其中掩码特征输出层540和用户意图输出层570都使用逻辑回归来计算输出。对于预训练阶段,针对每个掩码的特征k,使用对应的上下文向量
Figure BDA0002427443950000152
来产生最终的输出735,即x’,其中上下文向量
Figure BDA0002427443950000153
包括与特征k最相关的信息。对于微调阶段,图7示出了利用最后一层注意力池化的输出方案,对于用户意图t,用户意图输出层570使用注意力池化来聚集来自上下文向量hout的相关信息以形成单个向量ht,如下式(8)所示:
Figure BDA0002427443950000154
其中
Figure BDA0002427443950000155
以及
Figure BDA0002427443950000156
表示可训练的参数。
因此,可以通过
Figure BDA0002427443950000157
来计算输出745,其中
Figure BDA0002427443950000158
Figure BDA0002427443950000159
是可训练的参数,并且针对每个意图的输出层可以具有独立的参数。因此,通过为各个用户特征分别生成上下文向量,并且通过注意力池化来获得相关的用户特征的信息,使得每个用户意图可以仅使用部分特征来生成最终的结果,由此能够提高所输出的用户意图的准确性。此外,在训练过程中,模型的超参数可以包括嵌入层大小、隐藏层大小、注意力头的数目、叠层的数目,等等。
传统的用户意图预测方法是将所有的信息压缩到单个向量,然后用这个向量来预测所有的用户意图。然而,每个用户意图可能只跟一部分的用户特征相关,例如打车场景中的绕路问题,主要跟预估行程距离和实际行程距离有关系。因此,传统的单个向量影响了模型的准确性,例如对于长尾的用户意图。为此,本公开的实施例提出了基于特征独立的神经网络模型架构,针对每个特征k都分别产生一个上下文向量
Figure BDA00024274439500001510
每个意图通过聚合与其相关的上下文向量来获得输出结果,由此进一步提高模型的准确性。采用多特征表示来进行预测,相比较于单一的特征表示,在预测多意图任务上能够提升意图预测的准确性。此外,基于特征独立的神经网络模型架构也能够学习到更加复杂的特征交互和表示。
图8示出了根据本公开的实施例的基于特征独立的神经网络模型的另一架构的示意图。如图8所示,用户意图确定模型125同样包括嵌入层510、神经网络层520、掩码特征输出层540、预训练损失函数层550、用户意图输出层570、以及用户意图损失函数层580。与图7的仅最后一层注意力池化的架构的不同之处在于,图8的架构在模型的掩码输入805中添加了标志位,并且在每一层的特征交叉中增加标志位,其个数可以等于用户意图的个数,在特征交叉的过程中,标志位会融合其他各个特征的信息,也即对所有层进行了注意力池化操作。嵌入层510基于掩码输入508获得向量815,神经网络层520基于向量815生成上下文向量825,即
Figure BDA0002427443950000161
其中T表示用户意图的总数,hout的后半部分用于生成用户意图输出结果。上下文向量825中的对应部分用于确定掩码特征输出835,其中上下文向量825中的标志位对应部分用于输入到用户意图输出层570,进而计算出用户意图输出845。在微调阶段,将标志位特征视为掩码特征并且去预测对应的值。因此,针对用户意图t,可以通过
Figure BDA0002427443950000162
来计算输出845,其中
Figure BDA0002427443950000163
Figure BDA0002427443950000164
表示可训练的参数。因此,本公开的实施例在掩码输入中添加标志位,能够在各个层中进行注意力池化,由此更准确地输出用户意图。
图9示出了根据本公开的实施例的基于用户意图的打车客服场景的示例用户界面900。在打车客服场景中,用户通常是带着问题进入到客服系统,借助于本公开的实施例训练的用户意图确定模型125,能够准确地预测用户可能想要提问的问题,从而方便智能客服和/或人工客服更加快速高效地帮助用户解决问题。在打车客服场景中,用户可能是乘客或者司机,通过预测乘客或者司机预期要问的问题,取回预先设置的问答对,并将相关问题提前显示出来,能够提升用户体验并且减少人力资源。
如图9所示,在检测到用户进入客服用户界面的情况下,可以获取用户数据(诸如用户简档和用户打车行为数据等),然后使用经训练的用户意图确定模型125来确定与给定用户相关联的一个或多个问题,诸如相关性最高的前几个问题。然后,在用户在聊天窗口发送问题之前,客户机器人910首先向用户发送消息920以推荐相关的问题,例如“如何查询历史轨迹”、“如何联系司机”等。这样,用户可以直接点击相关的问题,而无需再手动的输入问题,由于所推荐的问题是根据用户的个人简档和行为数据而预测的最相关的一些问题,因而其符合用户的真实意图。通过这种方式,提高了客户场景中的沟通效率,提升了用户体验。应当理解,虽然图9示出了本公开的实施例的用户意图确定模型125的一个使用场景,但是其也可以适用于其他的使用场景。
图10示出了根据本公开的实施例的使用用户意图确定模型的方法1000的流程图。应当理解,模型的使用方法与模型的训练方法可以是由不同的设备来执行。在框1002,获得与用户有关的数据作为模型输入。例如,在根据本公开的实施例的用户意图确定模型125的使用过程中,获得目标用户的用户数据,诸如用户简档和行为数据。在框1004,使用用户意图确定模型125基于输入来确定用户意图。由于本公开的实施例能够更好地训练模型,因此,本公开的实施例的模型能够更准确地确定用户的意图。
在上文中已经参见图1至图10详细描述了根据本公开的方法的示例,在下文中将描述相应的装置的实现方式。
根据本公开的示例性实现方式,提供了一种数据处理装置,包括:获取模块,被配置为获取与多种类型的用户数据相对应的多个量化表示,其中用户数据至少指示用户的用户简档和用户行为;掩码模块,被配置为对多个量化表示中的至少一个量化表示进行掩码;以及训练模块,被配置为以经掩码的至少一个量化表示和多个量化表示中未经掩码的其他量化表示为输入、并以未经掩码的至少一个量化表示为输出,训练用于确定用户意图的模型。
在一些实施例中,其中用户的用户简档至少包括用户的性别,用户的用户行为至少包括用户的评论文本,并且获取模块包括:独热转换模块,被配置为将用户的性别转换成独热量化表示,独热量化表示中存在一个特定值;以及多热转换模块,被配置为将用户的评论文本转换成多热量化表示,多热量化表示中存在两个或更多个特定值。
在一些实施例中,其中训练模块包括:第一转换模块,被配置为将多热量化表示转换成多个独热量化表示;第二转换模块,被配置为将多个独热量化表示分别转换成多个预定维度的量化表示;以及密集量化表示确定模块,被配置为基于多个预定维度的量化表示,确定与多热量化表示相对应的密集量化表示。
在一些实施例中,其中模型为神经网络模型,并且训练模块包括:预训练模块,被配置为以经掩码的至少一个量化表示和多个量化表示中未经掩码的其他量化表示为输入、并以未经掩码的至少一个量化表示为输出,对神经网络模型进行与用户意图无关的预训练;以及进一步训练模块,被配置为以多个量化表示为输入、并以用户的经标注的用户意图的量化表示为输出,对经训练的神经网络模型进行与用户意图有关的进一步训练。
在一些实施例中,其中训练模块包括:用户意图获取模块,被配置为从用户意图数据集获取用户的经标注的用户意图;以及联合训练模块,被配置为以经掩码的至少一个量化表示和多个量化表示中未经掩码的其他量化表示为输入、并以未经掩码的至少一个量化表示和经标注的用户意图的量化表示为输出,联合训练模型中的多个层,多个层至少包括用于预训练的第一输出层和用于用户意图的第二输出层。
在一些实施例中,其中模型为包括嵌入层、特征交叉层和两个输出层的神经网络模型,特征交叉层包括注意力层和前馈层,并且训练模块包括:嵌入模块,被配置为基于输入生成多个输入表示;以及特征交叉模块,被配置为基于多个输入表示生成多个上下文表示。
在一些实施例中,其中特征交叉模块包括:第一生成模块,被配置为基于注意力层中的第一注意力参数和前馈层中的第一前馈参数,生成与多个输入表示中的第一输入表示相对应的第一上下文表示;以及第二生成模块,被配置为基于注意力层中的第二注意力参数和前馈层中的第二前馈参数,生成与多个输入表示中的第二输入表示相对应的第二上下文表示,第一注意力参数不同于第二注意力参数,并且第一前馈参数不同于第二前馈参数。
在一些实施例中,其中训练模块还包括:注意力池化模块,被配置为通过对多个上下文表示进行基于注意力机制的池化处理,来生成用于输出的新的表示。
在一些实施例中,其中训练模块还包括:标志位添加模块,被配置为在输入中添加一个或多个标志位;以及标志位输出模块,被配置为由特征交叉层生成与一个或多个标志位相对应的一个或多个上下文表示。
在一些实施例中,其中掩码模块包括:掩码数目确定模块,被配置为基于预定的比例,确定多个量化表示中要被掩码的量化表示的数目,要被掩码的量化表示的数目小于多个量化表示的总数;以及掩码值确定模块,被配置为将至少一个量化表示掩码成特定值或随机值。
在一些实施例中,装置还包括:问题推荐模块,被配置为根据确定给定用户进入客服用户界面,通过经训练的模型确定与给定用户相关联的一个或多个问题;以及问题呈现模块,被配置为在客服用户界面上向给定用户呈现一个或多个问题。
在一些实施例中,提供了一种用于确定用户意图的装置。装置包括获得模块,被配置为获得与用户有关的数据作为输入,以及使用模块,被配置为使用根据本公开的实施例所训练的模型基于输入确定用户意图。
此外,根据本公开的示例性实现方式,还提供了一种电子设备,包括存储器和处理器,其中存储器用于存储计算机可执行指令,计算机可执行指令被处理器执行以实现上文描述的方法。
因此,根据本公开的实施例的装置和设备,通过使用无用户意图标签的大量用户数据来训练用户意图确定模型,使得模型能够更好地学习到用户数据的特征交互的交互和表示,从而能够提高用户意图确定模型的准确性。
图11示出了示出了其中可以实施本公开的一个或多个实施例的计算设备/服务器1100的框图。应当理解,图11所示出的计算设备/服务器1100仅仅是示例性的,而不应当构成对本文所描述的实施例的功能和范围的任何限制。
如图11所示,计算设备/服务器1100是通用计算设备的形式。计算设备/服务器1100的组件可以包括但不限于一个或多个处理器或处理单元1110、存储器1120、存储设备1130、一个或多个通信单元1140、一个或多个输入设备1150以及一个或多个输出设备1160。处理单元1110可以是实际或虚拟处理器并且能够根据存储器1120中存储的程序来执行各种处理。在多处理器系统中,多个处理单元并行执行计算机可执行指令,以提高计算设备/服务器1100的并行处理能力。
计算设备/服务器1100通常包括多个计算机存储介质。这样的介质可以是计算设备/服务器1100可访问的任何可以获得的介质,包括但不限于易失性和非易失性介质、可拆卸和不可拆卸介质。存储器1120可以是易失性存储器(例如寄存器、高速缓存、随机访问存储器(RAM))、非易失性存储器(例如,只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存)或它们的某种组合。存储设备1130可以是可拆卸或不可拆卸的介质,并且可以包括机器可读介质,诸如闪存驱动、磁盘或者任何其他介质,其可以能够用于存储信息和/或数据(例如用于训练的训练数据)并且可以在计算设备/服务器1100内被访问。
计算设备/服务器1100可以进一步包括另外的可拆卸/不可拆卸、易失性/非易失性存储介质。尽管未在图11中示出,可以提供用于从可拆卸、非易失性磁盘(例如“软盘”)进行读取或写入的磁盘驱动和用于从可拆卸、非易失性光盘进行读取或写入的光盘驱动。在这些情况中,每个驱动可以由一个或多个数据介质接口被连接至总线(未示出)。存储器1120可以包括计算机程序产品1125,其具有一个或多个程序模块,这些程序模块被配置为执行本公开的各种实施例的各种方法或动作。
通信单元1140实现通过通信介质与其他计算设备进行通信。附加地,计算设备/服务器1100的组件的功能可以以单个计算集群或多个计算机器来实现,这些计算机器能够通过通信连接进行通信。因此,计算设备/服务器1100可以使用与一个或多个其他服务器、网络个人计算机(PC)或者另一个网络节点的逻辑连接来在联网环境中进行操作。
输入设备1150可以是一个或多个输入设备,例如鼠标、键盘、追踪球等。输出设备1160可以是一个或多个输出设备,例如显示器、扬声器、打印机等。计算设备/服务器1100还可以根据需要通过通信单元1140与一个或多个外部设备(未示出)进行通信,外部设备诸如存储设备、显示设备等,与一个或多个使得用户与计算设备/服务器1100交互的设备进行通信,或者与使得计算设备/服务器1100与一个或多个其他计算设备通信的任何设备(例如,网卡、调制解调器等)进行通信。这样的通信可以经由输入/输出(I/O)接口(未示出)来执行。
根据本公开的示例性实现方式,提供了一种计算机可读存储介质,其上存储有计算机可执行指令,其中计算机可执行指令被处理器执行以实现上文描述的方法。根据本公开的示例性实现方式,还提供了一种计算机程序产品,计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括计算机可执行指令,而计算机可执行指令被处理器执行以实现上文描述的方法。
这里参照根据本公开实现的方法、装置、设备和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理单元,从而生产出一种机器,使得这些指令在通过计算机或其他可编程数据处理装置的处理单元执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上,使得在计算机、其他可编程数据处理装置或其他设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其他可编程数据处理装置、或其他设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实现的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实现,上述说明是示例性的,并非穷尽性的,并且也不限于所公开的各实现。在不偏离所说明的各实现的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实现的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其他普通技术人员能理解本文公开的各个实现方式。

Claims (26)

1.一种数据处理方法,包括:
获取与多种类型的用户数据相对应的多个量化表示,所述用户数据至少指示用户的用户简档和用户行为;
对所述多个量化表示中的至少一个量化表示进行掩码;以及
以经掩码的至少一个量化表示和所述多个量化表示中未经掩码的其他量化表示为输入、并以未经掩码的至少一个量化表示为输出,训练用于确定用户意图的模型。
2.根据权利要求1所述的方法,其中所述用户的所述用户简档至少包括所述用户的性别,所述用户的所述用户行为至少包括用户的评论文本,并且获取与多种类型的用户数据相对应的多个量化表示包括:
将所述用户的所述性别转换成独热量化表示,所述独热量化表示中存在一个特定值;以及
将所述用户的所述评论文本转换成多热量化表示,所述多热量化表示中存在两个或更多个特定值。
3.根据权利要求2所述的方法,其中训练用于确定用户意图的模型包括:
将所述多热量化表示转换成多个独热量化表示;
将多个独热量化表示分别转换成多个预定维度的量化表示;以及
基于所述多个预定维度的量化表示,确定与所述多热量化表示相对应的密集量化表示。
4.根据权利要求1所述的方法,其中所述模型为神经网络模型,并且训练用于确定用户意图的模型包括:
以经掩码的至少一个量化表示和所述多个量化表示中未经掩码的其他量化表示为输入、并以未经掩码的至少一个量化表示为输出,对所述神经网络模型进行与用户意图无关的预训练;以及
以所述多个量化表示为输入、并以所述用户的经标注的用户意图的量化表示为输出,对经预训练的所述神经网络模型进行与用户意图有关的进一步训练。
5.根据权利要求1所述的方法,其中训练用于确定用户意图的模型包括:
从用户意图数据集获取所述用户的经标注的用户意图;以及
以经掩码的至少一个量化表示和所述多个量化表示中未经掩码的其他量化表示为输入、并以未经掩码的至少一个量化表示和所述经标注的用户意图的量化表示为输出,联合训练所述模型中的多个层,所述多个层至少包括用于预训练的第一输出层和用于用户意图的第二输出层。
6.根据权利要求1所述的方法,其中所述模型为包括嵌入层、特征交叉层和两个输出层的神经网络模型,所述特征交叉层包括注意力层和前馈层,并且训练用于确定用户意图的模型包括:
由所述嵌入层基于所述输入生成多个输入表示;以及
由所述特征交叉层基于所述多个输入表示生成多个上下文表示。
7.根据权利要求6所述的方法,其中由所述特征交叉层基于所述多个输入表示生成多个上下文表示包括:
基于所述注意力层中的第一注意力参数和所述前馈层中的第一前馈参数,生成与所述多个输入表示中的第一输入表示相对应的第一上下文表示;以及
基于所述注意力层中的第二注意力参数和所述前馈层中的第二前馈参数,生成与所述多个输入表示中的第二输入表示相对应的第二上下文表示,所述第一注意力参数不同于所述第二注意力参数,并且所述第一前馈参数不同于所述第二前馈参数。
8.根据权利要求6或7所述的方法,其中训练用于确定用户意图的模型还包括:
通过对所述多个上下文表示进行基于注意力机制的池化处理,来生成用于输出的新的表示。
9.根据权利要求6或7所述的方法,其中训练用于确定用户意图的模型还包括:
在所述输入中添加一个或多个标志位;以及
由所述特征交叉层生成与所述一个或多个标志位相对应的一个或多个上下文表示。
10.根据权利要求1所述的方法,其中对所述多个量化表示中的至少一个量化表示进行掩码包括:
基于预定的比例,确定所述多个量化表示中要被掩码的量化表示的数目,所述要被掩码的量化表示的所述数目小于所述多个量化表示的总数;以及
将所述至少一个量化表示掩码成特定值或随机值。
11.根据权利要求1-10中任一项所述的方法,还包括:
根据确定给定用户进入客服用户界面,通过经训练的所述模型确定与所述给定用户相关联的一个或多个问题;以及
在所述客服用户界面上向所述给定用户呈现所述一个或多个问题。
12.一种用于确定用户意图的方法,包括:
获得与用户有关的数据作为输入;以及
使用根据权利要求1-11中任一项所训练的模型基于所述输入来确定用户意图。
13.一种数据处理装置,包括:
获取模块,被配置为获取与多种类型的用户数据相对应的多个量化表示,所述用户数据至少指示用户的用户简档和用户行为;
掩码模块,被配置为对所述多个量化表示中的至少一个量化表示进行掩码;以及
训练模块,被配置为以经掩码的至少一个量化表示和所述多个量化表示中未经掩码的其他量化表示为输入、并以未经掩码的至少一个量化表示为输出,训练用于确定用户意图的模型。
14.根据权利要求13所述的装置,其中所述用户的所述用户简档至少包括所述用户的性别,所述用户的所述用户行为至少包括用户的评论文本,并且所述获取模块包括:
独热转换模块,被配置为将所述用户的所述性别转换成独热量化表示,所述独热量化表示中存在一个特定值;以及
多热转换模块,被配置为将所述用户的所述评论文本转换成多热量化表示,所述多热量化表示中存在两个或更多个特定值。
15.根据权利要求14所述的装置,其中所述训练模块包括:
第一转换模块,被配置为将所述多热量化表示转换成多个独热量化表示;
第二转换模块,被配置为将多个独热量化表示分别转换成多个预定维度的量化表示;以及
密集量化表示确定模块,被配置为基于所述多个预定维度的量化表示,确定与所述多热量化表示相对应的密集量化表示。
16.根据权利要求13所述的装置,其中所述模型为神经网络模型,并且所述训练模块包括:
预训练模块,被配置为以经掩码的至少一个量化表示和所述多个量化表示中未经掩码的其他量化表示为输入、并以未经掩码的至少一个量化表示为输出,对所述神经网络模型进行与用户意图无关的预训练;以及
进一步训练模块,被配置为以所述多个量化表示为输入、并以所述用户的经标注的用户意图的量化表示为输出,对经预训练的所述神经网络模型进行与用户意图有关的进一步训练。
17.根据权利要求13所述的装置,其中所述训练模块包括:
用户意图获取模块,被配置为从用户意图数据集获取所述用户的经标注的用户意图;以及
联合训练模块,被配置为以经掩码的至少一个量化表示和所述多个量化表示中未经掩码的其他量化表示为输入、并以未经掩码的至少一个量化表示和所述经标注的用户意图的量化表示为输出,联合训练所述模型中的多个层,所述多个层至少包括用于预训练的第一输出层和用于用户意图的第二输出层。
18.根据权利要求13所述的装置,其中所述模型为包括嵌入层、特征交叉层和两个输出层的神经网络模型,所述特征交叉层包括注意力层和前馈层,并且所述训练模块包括:
嵌入模块,被配置为基于所述输入生成多个输入表示;以及
特征交叉模块,被配置为基于所述多个输入表示生成多个上下文表示。
19.根据权利要求18所述的装置,其中所述特征交叉模块包括:
第一生成模块,被配置为基于所述注意力层中的第一注意力参数和所述前馈层中的第一前馈参数,生成与所述多个输入表示中的第一输入表示相对应的第一上下文表示;以及
第二生成模块,被配置为基于所述注意力层中的第二注意力参数和所述前馈层中的第二前馈参数,生成与所述多个输入表示中的第二输入表示相对应的第二上下文表示,所述第一注意力参数不同于所述第二注意力参数,并且所述第一前馈参数不同于所述第二前馈参数。
20.根据权利要求18或19所述的装置,其中所述训练模块还包括:
注意力池化模块,被配置为通过对所述多个上下文表示进行基于注意力机制的池化处理,来生成用于输出的新的表示。
21.根据权利要求18或19所述的装置,其中所述训练模块还包括:
标志位添加模块,被配置为在所述输入中添加一个或多个标志位;以及
标志位输出模块,被配置为由所述特征交叉层生成与所述一个或多个标志位相对应的一个或多个上下文表示。
22.根据权利要求13所述的装置,其中掩码模块包括:
掩码数目确定模块,被配置为基于预定的比例,确定所述多个量化表示中要被掩码的量化表示的数目,所述要被掩码的量化表示的所述数目小于所述多个量化表示的总数;以及
掩码值确定模块,被配置为将所述至少一个量化表示掩码成特定值或随机值。
23.根据权利要求13-22中任一项所述的装置,还包括:
问题推荐模块,被配置为根据确定给定用户进入客服用户界面,通过经训练的所述模型确定与所述给定用户相关联的一个或多个问题;以及
问题呈现模块,被配置为在所述客服用户界面上向所述给定用户呈现所述一个或多个问题。
24.一种用于确定用户意图的装置,包括:
获得模块,被配置为获得与用户有关的数据作为输入;以及
使用模块,被配置为使用根据权利要求13-23中任一项所训练的模型基于所述输入来确定用户意图。
25.一种电子设备,包括:
处理器;以及
存储器,存储有计算机可执行指令,当所述计算机可执行指令被所述处理器执行时被配置以实现根据权利要求1至11中任一项所述的方法或者根据权利要求12所述的方法。
26.一种计算机可读存储介质,其上存储有计算机可执行指令,其中所述计算机可执行指令被处理器执行以实现根据权利要求1至11中任一项所述的方法或者根据权利要求12所述的方法。
CN202010225311.3A 2020-03-26 2020-03-26 数据处理方法、装置、设备和存储介质 Active CN111831901B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010225311.3A CN111831901B (zh) 2020-03-26 2020-03-26 数据处理方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010225311.3A CN111831901B (zh) 2020-03-26 2020-03-26 数据处理方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN111831901A true CN111831901A (zh) 2020-10-27
CN111831901B CN111831901B (zh) 2024-09-20

Family

ID=72913540

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010225311.3A Active CN111831901B (zh) 2020-03-26 2020-03-26 数据处理方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN111831901B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112465035A (zh) * 2020-11-30 2021-03-09 上海寻梦信息技术有限公司 物流配送任务分配方法、系统、设备及存储介质
CN112911326A (zh) * 2021-01-29 2021-06-04 平安科技(深圳)有限公司 弹幕信息处理方法、装置、电子设备和存储介质
CN113407843A (zh) * 2021-07-09 2021-09-17 深圳壹账通智能科技有限公司 用户画像生成方法、装置、电子设备及计算机存储介质
US20220129633A1 (en) * 2020-10-23 2022-04-28 Target Brands, Inc. Multi-task learning of query intent and named entities
CN117151227A (zh) * 2023-08-28 2023-12-01 深圳智现未来工业软件有限公司 一种半导体检测结果的推理方法及装置
CN117709969A (zh) * 2023-12-20 2024-03-15 华南理工大学 面向客服场景的生成匹配式大模型构建方法、介质及设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170357896A1 (en) * 2016-06-09 2017-12-14 Sentient Technologies (Barbados) Limited Content embedding using deep metric learning algorithms
CN108229681A (zh) * 2017-12-28 2018-06-29 郑州云海信息技术有限公司 一种神经网络模型压缩方法、系统、装置及可读存储介质
CN109034385A (zh) * 2017-06-12 2018-12-18 辉达公司 用稀疏数据训练神经网络的系统和方法
CN110033089A (zh) * 2019-04-17 2019-07-19 山东大学 基于分布式估计算法的深度神经网络参数优化方法及系统
CN110196894A (zh) * 2019-05-30 2019-09-03 北京百度网讯科技有限公司 语言模型的训练方法和预测方法
CN110413746A (zh) * 2019-06-25 2019-11-05 阿里巴巴集团控股有限公司 对用户问题进行意图识别的方法及装置
CN110705996A (zh) * 2019-10-17 2020-01-17 支付宝(杭州)信息技术有限公司 基于特征掩码的用户行为识别方法、系统、及装置
CN110751177A (zh) * 2019-09-17 2020-02-04 阿里巴巴集团控股有限公司 分类模型的训练方法、预测方法及装置
US20200090012A1 (en) * 2018-09-14 2020-03-19 International Business Machines Corporation Identification and/or verification by a consensus network using sparse parametric representations of biometric images

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170357896A1 (en) * 2016-06-09 2017-12-14 Sentient Technologies (Barbados) Limited Content embedding using deep metric learning algorithms
CN109034385A (zh) * 2017-06-12 2018-12-18 辉达公司 用稀疏数据训练神经网络的系统和方法
CN108229681A (zh) * 2017-12-28 2018-06-29 郑州云海信息技术有限公司 一种神经网络模型压缩方法、系统、装置及可读存储介质
US20200090012A1 (en) * 2018-09-14 2020-03-19 International Business Machines Corporation Identification and/or verification by a consensus network using sparse parametric representations of biometric images
CN110033089A (zh) * 2019-04-17 2019-07-19 山东大学 基于分布式估计算法的深度神经网络参数优化方法及系统
CN110196894A (zh) * 2019-05-30 2019-09-03 北京百度网讯科技有限公司 语言模型的训练方法和预测方法
CN110413746A (zh) * 2019-06-25 2019-11-05 阿里巴巴集团控股有限公司 对用户问题进行意图识别的方法及装置
CN110751177A (zh) * 2019-09-17 2020-02-04 阿里巴巴集团控股有限公司 分类模型的训练方法、预测方法及装置
CN110705996A (zh) * 2019-10-17 2020-01-17 支付宝(杭州)信息技术有限公司 基于特征掩码的用户行为识别方法、系统、及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张鹏飞、李冠宇、贾彩燕: "面向自然语言推理的基于截断高斯距离的自注意力机制", 《计算机科学》, vol. 47, no. 4, 16 December 2019 (2019-12-16), pages 178 - 183 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220129633A1 (en) * 2020-10-23 2022-04-28 Target Brands, Inc. Multi-task learning of query intent and named entities
US11934785B2 (en) * 2020-10-23 2024-03-19 Target Brands, Inc. Multi-task learning of query intent and named entities
CN112465035A (zh) * 2020-11-30 2021-03-09 上海寻梦信息技术有限公司 物流配送任务分配方法、系统、设备及存储介质
CN112911326A (zh) * 2021-01-29 2021-06-04 平安科技(深圳)有限公司 弹幕信息处理方法、装置、电子设备和存储介质
CN113407843A (zh) * 2021-07-09 2021-09-17 深圳壹账通智能科技有限公司 用户画像生成方法、装置、电子设备及计算机存储介质
CN117151227A (zh) * 2023-08-28 2023-12-01 深圳智现未来工业软件有限公司 一种半导体检测结果的推理方法及装置
CN117151227B (zh) * 2023-08-28 2024-05-17 深圳智现未来工业软件有限公司 一种半导体检测结果的推理方法及装置
CN117709969A (zh) * 2023-12-20 2024-03-15 华南理工大学 面向客服场景的生成匹配式大模型构建方法、介质及设备

Also Published As

Publication number Publication date
CN111831901B (zh) 2024-09-20

Similar Documents

Publication Publication Date Title
CN113822494B (zh) 风险预测方法、装置、设备及存储介质
CN111831901B (zh) 数据处理方法、装置、设备和存储介质
US20210027160A1 (en) End-to-end deep collaborative filtering
US11544573B2 (en) Projection neural networks
CN111538912B (zh) 内容推荐方法、装置、设备及可读存储介质
US11631029B2 (en) Generating combined feature embedding for minority class upsampling in training machine learning models with imbalanced samples
CN111680217B (zh) 内容推荐方法、装置、设备及存储介质
US10860858B2 (en) Utilizing a trained multi-modal combination model for content and text-based evaluation and distribution of digital video content to client devices
CN105210064B (zh) 使用深度网络将资源分类
US11741711B2 (en) Video classification method and server
US11983617B2 (en) Scalable and compressive neural network data storage system
US20200311613A1 (en) Connecting machine learning methods through trainable tensor transformers
US10970629B1 (en) Encodings for reversible sparse dimensionality reduction
CN110476173B (zh) 利用强化学习的分层设备放置
US20180276691A1 (en) Metric Forecasting Employing a Similarity Determination in a Digital Medium Environment
CN111191092A (zh) 画像数据处理方法和画像模型训练方法
CN111382361A (zh) 信息推送方法、装置、存储介质和计算机设备
CN113641835B (zh) 多媒体资源推荐方法、装置、电子设备及介质
CN114912030A (zh) 权益模型训练方法、推荐方法及电子终端和计算机介质
Leke et al. A deep learning-cuckoo search method for missing data estimation in high-dimensional datasets
CN114329065A (zh) 视频标签预测模型的处理方法、视频标签预测方法和装置
CN115204177A (zh) 解纠缠词嵌入的系统和方法
Fruergaard et al. Dimensionality reduction for click-through rate prediction: Dense versus sparse representation
CN112446738A (zh) 广告数据处理方法、装置、介质以及电子设备
US11966405B1 (en) Inferring brand similarities using graph neural networks and selection prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant