CN110647589B - 一种语料数据的生成方法、装置、电子设备及存储介质 - Google Patents

一种语料数据的生成方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN110647589B
CN110647589B CN201810588635.6A CN201810588635A CN110647589B CN 110647589 B CN110647589 B CN 110647589B CN 201810588635 A CN201810588635 A CN 201810588635A CN 110647589 B CN110647589 B CN 110647589B
Authority
CN
China
Prior art keywords
data
commodity
corpus
information set
order
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810588635.6A
Other languages
English (en)
Other versions
CN110647589A (zh
Inventor
张辰
刘怀军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sankuai Online Technology Co Ltd
Original Assignee
Beijing Sankuai Online Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sankuai Online Technology Co Ltd filed Critical Beijing Sankuai Online Technology Co Ltd
Priority to CN201810588635.6A priority Critical patent/CN110647589B/zh
Publication of CN110647589A publication Critical patent/CN110647589A/zh
Application granted granted Critical
Publication of CN110647589B publication Critical patent/CN110647589B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例提供了一种语料数据的生成方法、装置、电子设备及存储介质,包括:获取商品数据;获取搜索词以及搜索词对应的第一订单数据;依据商品数据及所述第一订单数据获得商品售价数据;其中,所述商品数据包括第一商品数据;针对商品数据及第一订单数据进行数据清洗和归一化操作,获得混合商品数据;依据第一商品数据、所述混合商品数据及所述商品售价数据获得订单信息集及商品信息集;依据所述订单信息集及所述商品信息集生成多个语料数据。本发明实施例中,适用于面向电子商务尤其是外卖等以非文本数据领域的NLP任务,增加使用维度,且后续更新将不再依靠手动地制定规则,实现自动化、例行化,大幅减少了人力成本与时间成本。

Description

一种语料数据的生成方法、装置、电子设备及存储介质
技术领域
本发明涉及计算机的技术领域,特别是涉及一种语料数据的生成方法和一种语料数据的生成装置、电子设备及存储介质。
背景技术
在现有的自然语言数据处理过程中,往往是基于书面文章或口语对话得到语料数据,然后使用语言模型加以训练完成各项数据处理任务,其语料数据的获取方式较为直观方便。而在某一业务领域(如电商领域),除去评论等真实语言信息,往往是以结构化数据为主,涉及的文字多为短语而非完整的句子,且传统训练模型中所使用的语料数据并不适用于基于某业务领域的任务需求。
目前,针对某一业务领域的语料数据的生成方法一般会将用户点击行为或浏览行为序列作为训练语料,使用维度较为单一。
发明内容
本发明实施例提供一种语料数据的生成方法和相应的一种语料数据的生成装置、电子设备及存储介质,以解决现有技术中针对某一业务领域的语料数据的生成方法的使用维度较为单一的上述问题。
为了解决上述问题,本发明实施例公开了一种语料数据的生成方法,包括:
获取商品数据;
获取搜索词以及所述搜索词对应的第一订单数据;
依据所述商品数据及所述第一订单数据获得商品售价数据;其中,所述商品数据包括第一商品数据;
针对所述商品数据及第一订单数据进行数据清洗和归一化操作,获得混合商品数据;
依据所述第一商品数据、所述混合商品数据及所述商品售价数据获得订单信息集及商品信息集;
依据所述订单信息集及所述商品信息集生成多个语料数据。
优选地,所述依据所述第一商品数据、所述混合商品数据及所述商品售价数据获得订单信息集及商品信息集的步骤包括:
采用所述第一商品数据、混合商品数据及商品售价数据训练机器学习分类器;
采用训练后的机器学习分类器针对所述第一订单数据进行过滤,获得订单信息集。
优选地,所述依据所述第一商品数据、所述混合商品数据及所述商品售价数据获得订单信息集及商品信息集的步骤,还包括:
采用训练后的机器学习分类器针对所述商品数据进行过滤,获得商品信息集。
优选地,所述语料数据包括第一语料数据、第二语料数据、第三语料数据或第四语料数据中的至少一种,所述依据所述订单信息集及所述商品信息集生成多个语料数据的步骤包括:
提取出所述商品信息集中的商家ID及对应的第一商品名称;
采用所述第一商品名称生成第一语料数据;
和/或,
提取出所述商品信息集中的左侧标签数据及对应的第二商品名称;
采用所述第二商品名称生成第二语料数据;
和/或,
提取出所述订单信息集中的第三商品名称及对应的第一搜索词;
采用所述第一搜索词生成第三语料数据;
和/或,
提取出所述订单信息集中的第二搜索词及对应的第四商品名称;
采用所述第四商品名称生成第四语料数据。
优选地,所述方法还包括:
从所述搜索日志获取到所述曝光展示结果信息;
依据所述曝光展示结果信息获得曝光展示数据集;
依据所述曝光展示数据集生成多个语料数据。
优选地,所述依据所述曝光展示结果信息获得曝光展示数据集的步骤包括:
提取出所述曝光展示结果信息中的搜索词、搜索会话ID及展示商品名称;
将所述搜索词、搜索会话ID及展示商品名称组成所述曝光展示数据集。
优选地,所述语料数据包括第五语料数据和/或第六语料数据;所述依据所述曝光展示数据集生成多个语料数据的步骤包括:
提取出所述曝光展示数据集中的搜索会话ID及对应的搜索词与第一展示商品名称;
采用所述搜索词与第一展示商品名称生成第五语料数据;
和/或,
提取出所述曝光展示数据集中的搜索词及对应的第二展示商品名称;
采用所述第二展示商品名称生成第六语料数据。
优选地,所述语料数据包括第七语料数据和/或第八语料数据;所述方法还包括:
针对超过预设长度的第三语料数据及第四语料数据进行重新组合排列,生成第七语料数据及第八语料数据。
优选地,所述方法还包括:
针对第一语料数据、第二语料数据、第三语料数据、第四语料数据、第五语料数据、第六语料数据、第七语料数据及第八语料数据进行整合,获得第九语料数据。
本发明实施例公开了一种语料数据的生成装置,包括:
第一获取模块,用于获取商品数据;
第二获取模块,用于获取搜索词以及所述搜索词对应的第一订单数据;
商品售价数据获得模块,用于依据所述商品数据及所述第一订单数据获得商品售价数据;其中,所述商品数据包括第一商品数据;
混合商品数据获得模块,用于针对所述商品数据及第一订单数据进行数据清洗和归一化操作,获得混合商品数据;
订单信息集及商品信息集获得模块,用于依据所述第一商品数据、所述混合商品数据及所述商品售价数据获得订单信息集及商品信息集;
第一语料数据生成模块,用于依据所述订单信息集及所述商品信息集生成多个语料数据。
本发明实施例公开了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法的步骤。
本发明实施例公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。本发明实施例包括以下优点:
本发明实施例中,获取商品数据;获取搜索词以及所述搜索词对应的第一订单数据;依据所述商品数据及所述第一订单数据获得商品售价数据;其中,所述商品数据包括第一商品数据;针对所述商品数据及第一订单数据进行数据清洗和归一化操作,获得混合商品数据;依据所述第一商品数据、所述混合商品数据及所述商品售价数据获得订单信息集及商品信息集;依据所述订单信息集及所述商品信息集生成多个语料数据;其中,所述语料数据用于训练机器学习模型;本发明实施例中,适用于面向电子商务尤其是外卖等以非文本数据领域的NLP任务,增加使用维度,且后续更新将不再依靠手动地制定规则,实现自动化、例行化,大幅减少了人力成本与时间成本;本发明实施例中使用的大部分数据来源与用户搜索行为有关,包括但不限于下单行为以及浏览行为,提取的数据更贴近用户需求,提高用户体验。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图;
图1是本发明实施例的一种语料数据的生成方法实施例一的步骤流程图;
图2是本发明实施例中的一种应用程序的显示界面;
图3是本发明实施例的一种语料数据的生成方法实施例二的步骤流程图;
图4是本发明实施例的一种语料数据的生成方法实施例三的步骤流程图;
图5是本发明实施例的一种语料数据的生成装置实施例的结构框图。
具体实施方式
为了使本发明实施例所解决的技术问题、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本发明实施例进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,示出了本发明实施例的一种语料数据的生成方法实施例一的步骤流程图,具体可以包括如下步骤:
步骤101,获取商品数据;
在具体实现中,本发明实施例可以应用在移动终端中,例如,手机、平板电脑、个人数字助理、穿戴设备(如眼镜、手表等)等等。
在本发明实施例中,移动终端的操作系统可以包括Android(安卓)、IOS、WindowsPhone、Windows等等。
在本发明实施例的具体应用中,所述移动终端运行有多个应用程序,所述应用程序可以包括电子商务应用程序;如外卖应用程序、购物应用程序等,当然,还可以包括其他种类的应用程序,本发明实施例对此不作限制,移动终端可以从应用程序中获取到商品数据;该商品数据可以包括商品固有信息,如商品ID、商品名称、商家ID、商家名称、商家分类、左侧标签数据、商家起送价等,本发明实施例对此不作限制。
其中,所述商品数据可以包括第一商品数据;该第一商品数据可以为应用程序中显示的辅助性商品或凑单商品;参照图2,示出本发明实施例中的一种应用程序的显示界面,如图2所示,左侧标签数据中的“配菜”、“加菜”、“辅菜”、“配件”、“凑单”对应的商品数据可以作为第一商品数据,即该第一商品数据可以为辅助性商品或凑单商品的数据;需要说明的是,所述左侧标签数据可以为图2所示的“凉菜”、“流食”、“豆浆”、“烧麦”等各大类的标签数据。
步骤102,获取搜索词以及所述搜索词对应的第一订单数据;
进一步地,所述移动终端还可以获取到应用程序的搜索词,即用户输入到应用程序搜索框中的搜索词,此外,移动终端还可以获取到对应的第一订单数据,如订单ID、订单商品ID、下单数量、商品单价及订单总价等,本发明实施例对此不作限制。
步骤103,依据所述商品数据及所述第一订单数据获得商品售价数据;其中,所述商品数据包括第一商品数据;
具体应用到本发明实施例中,移动终端还可以依据所述商品数据及所述第一订单数据获得商品售价数据;即移动终端可以根据商品数据及所述第一订单数据计算得到商品售价数据,其中,所述商品售价数据可以包括商品在订单中价格占比、商品与商家平均售价比值、商品与商家起送价/包邮价比值、商家商品平均售价等,本发明实施例对此不作限制。
步骤104,针对所述商品数据及第一订单数据进行数据清洗和归一化操作,获得混合商品数据;
实际应用到本发明实施例中,移动终端可以针对所述商品数据及第一订单数据进行数据清洗和归一化操作,获得混合商品数据。
具体而言,移动终端去除商品数据及第一订单数据中的标点符号、停用词、修饰词、数词、量词、无意义字符,并使用文本规则对套餐类商品进行识别,然后拆分成多个单独的商品,获得混合商品数据。
步骤105,依据所述第一商品数据、所述混合商品数据及所述商品售价数据获得订单信息集及商品信息集;
进一步地,移动终端可以依据所述第一商品数据、所述混合商品数据及所述商品售价数据获得订单信息集及商品信息集;具体而言,移动终端采用所述第一商品数据、混合商品数据及商品售价数据训练机器学习分类器;采用训练后的机器学习分类器针对所述第一订单数据进行过滤,获得订单信息集;以及,采用训练后的机器学习分类器针对所述商品数据进行过滤,获得商品信息集。
具体地,移动终端将第一商品数据中的商品名称或商品ID作为正样本,混合商品数据(除第一商品数据之外)中的商品名称或商品ID随机抽取作为负样本,采用商品售价数据作为特征,训练机器学习分类器;进一步地,采用机器学习分类器针对所述第一订单数据及所述商品数据进行过滤,即过滤去除第一订单数据及所述商品数据中的配菜类商品(即第一商品数据)及商家内无销量的商品,分别获得订单信息集及商品信息集;
步骤106,依据所述订单信息集及所述商品信息集生成多个语料数据。
实际应用到本发明实施例中,移动终端可以根据所述订单信息集及所述商品信息集生成多个语料数据,具体地,移动终端可以提取出所述商品信息集中的商家ID及对应的第一商品名称;采用所述第一商品名称生成第一语料数据;进一步地,移动终端还可以提取出所述商品信息集中的左侧标签数据及对应的第二商品名称;采用所述第二商品名称生成第二语料数据;进一步地,移动终端还可以提取出所述订单信息集中的第三商品名称及对应的第一搜索词;采用所述第一搜索词生成第三语料数据;进一步地,移动终端还可以提取出所述订单信息集中的第二搜索词及对应的第四商品名称;采用所述第四商品名称生成第四语料数据;其中,所述语料数据(包括第一语料数据、第二语料数据、第三语料数据、第四语料数据)可以用于训练机器学习模型。
此外,所述语料数据还可以包括第五语料数据、第六语料数据、第七语料数据或第八语料数据中的至少一种,,本发明实施例对此不作限制。
本发明实施例中,获取商品数据;获取搜索词以及所述搜索词对应的第一订单数据;依据所述商品数据及所述第一订单数据获得商品售价数据;其中,所述商品数据包括第一商品数据;针对所述商品数据及第一订单数据进行数据清洗和归一化操作,获得混合商品数据;依据所述第一商品数据、所述混合商品数据及所述商品售价数据获得订单信息集及商品信息集;依据所述订单信息集及所述商品信息集生成多个语料数据;其中,所述语料数据用于训练机器学习模型;本发明实施例中,适用于面向电子商务尤其是外卖等以非文本数据领域的NLP(自然语言处理,Natural Language Processing任务,增加使用维度,且后续更新将不再依靠手动地制定规则,实现自动化、例行化,大幅减少了人力成本与时间成本;本发明实施例中使用的大部分数据来源与用户搜索行为有关,包括但不限于下单行为以及浏览行为,提取的数据更贴近用户需求,提高用户体验。
参照图3,示出了本发明实施例的一种语料数据的生成方法实施例二的步骤流程图,具体可以包括如下步骤:
步骤201,获取商品数据;
本发明实施例中,移动终端中可以包括手机、平板电脑、个人数字助理、穿戴设备(如眼镜、手表等)等等,本发明实施例对此不作限制。
在本发明实施例的一种具体应用中,所述移动终端运行有多个应用程序,所述应用程序可以包括电子商务应用程序;如外卖应用程序、购物应用程序等,移动终端可以从应用程序中获取到商品数据;该商品数据可以包括商品固有信息,如商品ID、商品名称、商家ID、商家名称、商家分类、左侧标签数据、商家起送价等。
步骤202,获取搜索词以及所述搜索词对应的第一订单数据;
进一步地,所述移动终端还可以获取到应用程序的搜索词,此外,移动终端还可以获取到对应的第一订单数据,如订单ID、订单商品ID、下单数量、商品单价及订单总价等,本发明实施例对此不作限制。
步骤203,依据所述商品数据及所述第一订单数据获得商品售价数据;其中,所述商品数据包括第一商品数据;
本发明实施例中,移动终端还可以依据所述商品数据及所述第一订单数据获得商品售价数据;即移动终端可以根据商品数据及所述第一订单数据计算得到商品售价数据,举例而言,所述商品售价数据可以包括商品在订单中价格占比、商品与商家平均售价比值、商品与商家起送价/包邮价比值、商家商品平均售价等。
步骤204,针对所述商品数据及第一订单数据进行数据清洗和归一化操作,获得混合商品数据;
具体应用到本发明实施例中,移动终端去除商品数据及第一订单数据中的标点符号、停用词、修饰词、数词、量词、无意义字符,并使用文本规则对套餐类商品进行识别,然后拆分成多个单独的商品,获得混合商品数据。
步骤205,采用所述第一商品数据、混合商品数据及商品售价数据训练机器学习分类器;
具体而言,所述移动终端还可以采用第一商品数据、混合商品数据及商品售价数据训练机器学习分类器,即移动终端将第一商品数据中的商品名称或商品ID作为正样本,混合商品数据(除第一商品数据之外)中的商品名称或商品ID随机抽取作为负样本,采用商品售价数据作为特征,训练机器学习分类器。
需要说明的是,所述机器学习分类器可以包括随机森林分类器、最近邻分类器、支持向量机分类器、决策树分类器及逻辑回归分类器等,本发明实施例对此不作限制。
步骤206,采用训练后的机器学习分类器针对所述第一订单数据进行过滤,获得订单信息集;
进一步地,采用机器学习分类器针对所述第一订单数据及所述商品数据进行过滤,即过滤去除第一订单数据中的配菜类商品(即第一商品数据),分别获得订单信息集。
步骤207,采用训练后的机器学习分类器针对所述商品数据进行过滤,获得商品信息集;
实际应用到本发明实施例中,移动终端过滤去除所述商品数据中的配菜类商品(即第一商品数据)及商家内无销量的商品,获得商品信息集。
步骤208,依据所述订单信息集及所述商品信息集生成多个语料数据。
本发明实施例中,移动终端可以根据订单信息集及商品信息集生成多个语料数据,进一步地,所述语料数据用于训练机器学习模型,所述机器学习模型可以包括Word2Vec模型、LDA(Latent Dirichlet Allocation,文档主题生成模型)模型等,具体而言,所述机器学习模型还可以包括各种以序列形式输入的深度神经网络模型,本发明实施例对此不作限制。
本发明实施例的一种优选实施例中,所述语料数据包括第一语料数据、第二语料数据、第三语料数据或第四语料数据中的至少一种,所述依据所述订单信息集及所述商品信息集生成多个语料数据的步骤包括以下子步骤:
子步骤S2081,提取出所述商品信息集中的商家ID及对应的第一商品名称;
子步骤S2082,采用所述第一商品名称生成第一语料数据;
和/或,
子步骤S2083,提取出所述商品信息集中的左侧标签数据及对应的第二商品名称;
子步骤S2084,采用所述第二商品名称生成第二语料数据;
和/或,
子步骤S2085,提取出所述订单信息集中的第三商品名称及对应的第一搜索词;
子步骤S2086,采用所述第一搜索词生成第三语料数据;
和/或,
子步骤S2087,提取出所述订单信息集中的第二搜索词及对应的第四商品名称;
子步骤S2088,采用所述第四商品名称生成第四语料数据。
具体应用到本发明实施例中,移动终端可以提取出商品信息集中的商家ID及对应的第一商品名称,采用所述第一商品名称生成第一语料数据,即生成每个商家ID下的第一商品名称的随机序列。
进一步地,移动终端还可以提取出所述商品信息集中的左侧标签数据及对应的第二商品名称,生成每个左侧标签数据下的第二商品名称的随机序列。
具体而言,移动终端还可以提取出所述订单信息集中的第三商品名称及对应的第一搜索词,生成每个第三商品名称下的第一搜索词的随机序列。
实际应用中,移动终端还可以提取出所述订单信息集中的第二搜索词及对应的第四商品名称,生成每个第二搜索词下的第四商品名称的随机序列。
进一步地,移动终端还可以从所述搜索日志获取到所述曝光展示结果信息;依据所述曝光展示结果信息获得曝光展示数据集;依据所述曝光展示数据集生成多个语料数据;其中,所述语料数据可以包括第五语料数据、第六语料数据、第七语料数据及第八语料数据,本发明实施例对此不作限制。
本发明实施例中,获取商品数据;获取搜索词以及所述搜索词对应的第一订单数据;依据所述商品数据及所述第一订单数据获得商品售价数据;其中,所述商品数据包括第一商品数据;针对所述商品数据及第一订单数据进行数据清洗和归一化操作,获得混合商品数据;采用所述第一商品数据、混合商品数据及商品售价数据训练机器学习分类器;采用训练后的机器学习分类器针对所述第一订单数据进行过滤,获得订单信息集;采用训练后的机器学习分类器针对所述商品数据进行过滤,获得商品信息集;依据所述订单信息集及所述商品信息集生成多个语料数据;其中,所述语料数据用于训练机器学习模型;本发明实施例中,适用于面向电子商务尤其是外卖等以非文本数据领域的NLP任务,增加使用维度,且后续更新将不再依靠手动地制定规则,实现自动化、例行化,大幅减少了人力成本与时间成本;本发明实施例中使用的大部分数据来源与用户搜索行为有关,包括但不限于下单行为以及浏览行为,提取的数据更贴近用户需求,提高用户体验;且语料数据随着用户搜索喜好而更新,提高训练的机器学习模型的鲁棒性。
参照图4,示出了本发明实施例的一种语料数据的生成方法实施例三的步骤流程图,具体可以包括如下步骤:
步骤301,获取商品数据;
在本发明实施例的具体应用中,移动终端可以从应用程序中获取到商品数据;该商品数据可以包括商品固有信息,如商品ID、商品名称、商家ID、商家名称、商家分类、左侧标签数据、商家起送价等。
步骤302,获取搜索词以及所述搜索词对应的第一订单数据;
进一步地,所述移动终端还可以获取到应用程序的搜索词,即用户输入到应用程序搜索框中的搜索词,此外,移动终端还可以获取到对应的第一订单数据,如订单ID、订单商品ID、下单数量、商品单价及订单总价等。
步骤303,依据所述商品数据及所述第一订单数据获得商品售价数据;其中,所述商品数据包括第一商品数据;
实际应用到本发明实施例中,移动终端还可以依据所述商品数据及所述第一订单数据获得商品售价数据;即移动终端可以根据商品数据及所述第一订单数据计算得到商品售价数据,举例而言,所述商品售价数据可以包括商品在订单中价格占比、商品与商家平均售价比值、商品与商家起送价/包邮价比值、商家商品平均售价等;其中,所述商品数据包括第一商品数据,该第一商品数据可以为辅助性商品或凑单商品。
步骤304,针对所述商品数据及第一订单数据进行数据清洗和归一化操作,获得混合商品数据;
本发明实施例中,移动终端去除商品数据及第一订单数据中的标点符号、停用词、修饰词、数词、量词、无意义字符,并使用文本规则对套餐类商品进行识别,然后拆分成多个单独的商品,获得混合商品数据。
步骤305,依据所述第一商品数据、所述混合商品数据及所述商品售价数据获得订单信息集及商品信息集;
具体应用到本发明实施例中,移动终端将移动终端将第一商品数据中的商品名称或商品ID作为正样本,混合商品数据(除第一商品数据之外)中的商品名称或商品ID随机抽取作为负样本,采用商品售价数据作为特征,训练机器学习分类器;进一步地,采用机器学习分类器针对所述第一订单数据及所述商品数据进行过滤,即过滤去除第一订单数据及所述商品数据中的配菜类商品(即第一商品数据)及商家内无销量的商品,分别获得订单信息集及商品信息集。
步骤306,依据所述订单信息集及所述商品信息集生成多个语料数据;
实际应用到本发明实施例中,移动终端可以依据所述订单信息集及所述商品信息集生成多个语料数据,所述语料数据用于训练机器学习模型。
步骤307,从所述搜索日志获取到所述曝光展示结果信息;
进一步地,移动终端可以从搜索日志获取到所述曝光展示结果信息;其中,所述曝光展示结果信息可以包括搜索词、搜索会话ID及展示商品名称;需要说明的是,所述搜索会话ID为同一用户在不关闭应用程序的情况下短时间内的会话ID。
步骤308,依据所述曝光展示结果信息获得曝光展示数据集;
实际应用到本发明实施例中,移动终端将所述曝光展示结果信息与所述商品信息集进行比较,过滤掉未包含在商品信息集中的商品名称,提取出所述曝光展示结果信息中的搜索词、搜索会话ID及对应的展示商品名称,将所述搜索词、搜索会话ID及展示商品名称组成所述曝光展示数据集。
步骤309,依据所述曝光展示数据集生成多个语料数据。
本发明实施例的一种优选实施例中,所述多个语料数据还包括第五语料数据和/或第六语料数据;所述依据所述曝光展示数据集生成多个语料数据的步骤包括以下子步骤:
子步骤S3091,提取出所述曝光展示数据集中的搜索会话ID及对应的搜索词与第一展示商品名称;
子步骤S3092,采用所述搜索词与第一展示商品名称生成第五语料数据;
和/或,
子步骤S3093,提取出所述曝光展示数据集中的搜索词及对应的第二展示商品名称;
子步骤S3094,采用所述第二展示商品名称生成第六语料数据。
具体而言,移动终端可以提取出所述曝光展示数据集中的搜索会话ID及对应的搜索词与第一展示商品名称;采用所述搜索词与第一展示商品名称生成第五语料数据;即生成每个搜索会话ID下的搜索词与第一展示商品名称的随机序列。
进一步地,移动终端还可以提取出所述曝光展示数据集中的搜索词及对应的第二展示商品名称;采用所述第二展示商品名称生成第六语料数据;即生成每个搜索词下的第二展示商品名称的随机序列。
需要说明的是,可以采用TFIDF(term frequency–inverse document frequency,词频-逆向文件频率)模型针对第一语料数据至第六语料数据进行过滤,每个语料数据只保留TFIDF值排名靠前的搜索词及商品名称。
实际应用到本发明实施例中,所述语料数据包括第七语料数据和/或第八语料数据;所述方法还包括:针对超过预设长度的第三语料数据及第四语料数据进行重新组合排列,生成第七语料数据及第八语料数据。
具体应用到本发明实施例中,所述方法还包括:针对第一语料数据、第二语料数据、第三语料数据、第四语料数据、第五语料数据、第六语料数据、第七语料数据及第八语料数据进行整合,获得第九语料数据。
需要说明的是,所述第四语料数据、第五语料数据、第六语料数据、第七语料数据、第八语料数据及第九语料数据同样可以用于训练Word2Vec、LDA等机器学习模型。
本发明实施例中,获取商品数据;获取搜索词以及所述搜索词对应的第一订单数据;依据所述商品数据及所述第一订单数据获得商品售价数据;其中,所述商品数据包括第一商品数据;针对所述商品数据及第一订单数据进行数据清洗和归一化操作,获得混合商品数据;依据所述第一商品数据、所述混合商品数据及所述商品售价数据获得订单信息集及商品信息集;依据所述订单信息集及所述商品信息集生成多个语料数据;其中,所述语料数据用于训练机器学习模型;从所述搜索日志获取到所述曝光展示结果信息;依据所述曝光展示结果信息获得曝光展示数据集;依据所述曝光展示数据集生成多个语料数据;本发明实施例中,适用于面向电子商务尤其是外卖等以非文本数据领域的NLP任务,增加使用维度,且后续更新将不再依靠手动地制定规则,实现自动化、例行化,大幅减少了人力成本与时间成本;本发明实施例中使用的大部分数据来源与用户搜索行为有关,包括但不限于下单行为以及浏览行为,提取的数据更贴近用户需求,提高用户体验;且语料数据随着用户搜索喜好而更新,提高训练的机器学习模型的鲁棒性。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图5,示出了本发明实施例的一种语料数据的生成装置实施例的结构框图,具体可以包括如下模块:
第一获取模块401,用于获取商品数据;
第二获取模块402,用于获取搜索词以及所述搜索词对应的第一订单数据;
商品售价数据获得模块403,用于依据所述商品数据及所述第一订单数据获得商品售价数据;其中,所述商品数据包括第一商品数据;
混合商品数据获得模块404,用于针对所述商品数据及第一订单数据进行数据清洗和归一化操作,获得混合商品数据;
订单信息集及商品信息集获得模块405,用于依据所述第一商品数据、所述混合商品数据及所述商品售价数据获得订单信息集及商品信息集;
第一语料数据生成模块406,用于依据所述订单信息集及所述商品信息集生成多个语料数据。
优选地,所述订单信息集及商品信息集获得模块包括:
训练子模块,用于采用所述第一商品数据、混合商品数据及商品售价数据训练机器学习分类器;
订单信息集获得子模块,用于采用训练后的机器学习分类器针对所述第一订单数据进行过滤,获得订单信息集。
优选地,所述订单信息集及商品信息集获得模块包括:
商品信息集获得子模块,用于采用训练后的机器学习分类器针对所述商品数据进行过滤,获得商品信息集。
优选地,所述语料数据包括第一语料数据、第二语料数据、第三语料数据或第四语料数据中的至少一种,所述第一语料数据生成模块包括:
第一提取子模块,用于提取出所述商品信息集中的商家ID及对应的第一商品名称;
第一生成子模块,用于采用所述第一商品名称生成第一语料数据;
和/或,
第二提取子模块,用于提取出所述商品信息集中的左侧标签数据及对应的第二商品名称;
第二生成子模块,用于采用所述第二商品名称生成第二语料数据;
和/或,
第三提取子模块,用于提取出所述订单信息集中的第三商品名称及对应的第一搜索词;
第三生成子模块,用于采用所述第一搜索词生成第三语料数据;
和/或,
第四提取子模块,用于提取出所述订单信息集中的第二搜索词及对应的第四商品名称;
第四生成子模块,用于采用所述第四商品名称生成第四语料数据。
优选地,所述装置还包括:
曝光展示结果信息获取模块,用于从所述搜索日志获取到所述曝光展示结果信息;
曝光展示数据集获得模块,用于依据所述曝光展示结果信息获得曝光展示数据集;
第二语料数据生成模块,用于依据所述曝光展示数据集生成多个语料数据。
优选地,所述曝光展示数据集获得模块包括:
展示商品名称提取子模块,用于提取出所述曝光展示结果信息中的搜索词、搜索会话ID及展示商品名称;
曝光展示数据集组成子模块,用于将所述搜索词、搜索会话ID及展示商品名称组成所述曝光展示数据集。
优选地,所述语料数据包括第五语料数据和/或第六语料数据;所述第二语料数据生成模块包括:
第五提取子模块,用于提取出所述曝光展示数据集中的搜索会话ID及对应的搜索词与第一展示商品名称;
第五生成子模块,用于采用所述搜索词与第一展示商品名称生成第五语料数据;
和/或,
第六提取子模块,用于提取出所述曝光展示数据集中的搜索词及对应的第二展示商品名称;
第六生成子模块,用于采用所述第二展示商品名称生成第六语料数据。
优选地,所述语料数据包括第七语料数据和/或第八语料数据;所述装置还包括:
排列模块,用于针对超过预设长度的第三语料数据及第四语料数据进行重新组合排列,生成第七语料数据及第八语料数据。
优选地,所述装置还包括:
整合模块,用于针对第一语料数据、第二语料数据、第三语料数据、第四语料数据、第五语料数据、第六语料数据、第七语料数据及第八语料数据进行整合,获得第九语料数据。
本发明实施例提供了一种电子设备和一种计算机可读存储介质,所述电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:
获取商品数据;
获取搜索词以及所述搜索词对应的第一订单数据;
依据所述商品数据及所述第一订单数据获得商品售价数据;其中,所述商品数据包括第一商品数据;
针对所述商品数据及第一订单数据进行数据清洗和归一化操作,获得混合商品数据;
依据所述第一商品数据、所述混合商品数据及所述商品售价数据获得订单信息集及商品信息集;
依据所述订单信息集及所述商品信息集生成多个语料数据。
优选地,所述依据所述第一商品数据、所述混合商品数据及所述商品售价数据获得订单信息集及商品信息集的步骤包括:
采用所述第一商品数据、混合商品数据及商品售价数据训练机器学习分类器;
采用训练后的机器学习分类器针对所述第一订单数据进行过滤,获得订单信息集。
优选地,所述依据所述第一商品数据、所述混合商品数据及所述商品售价数据获得订单信息集及商品信息集的步骤,还包括:
采用训练后的机器学习分类器针对所述商品数据进行过滤,获得商品信息集。
优选地,所述语料数据包括第一语料数据、第二语料数据、第三语料数据或第四语料数据中的至少一种,所述依据所述订单信息集及所述商品信息集生成多个语料数据的步骤包括:
提取出所述商品信息集中的商家ID及对应的第一商品名称;
采用所述第一商品名称生成第一语料数据;
和/或,
提取出所述商品信息集中的左侧标签数据及对应的第二商品名称;
采用所述第二商品名称生成第二语料数据;
和/或,
提取出所述订单信息集中的第三商品名称及对应的第一搜索词;
采用所述第一搜索词生成第三语料数据;
和/或,
提取出所述订单信息集中的第二搜索词及对应的第四商品名称;
采用所述第四商品名称生成第四语料数据。
优选地,所述方法还包括:
从所述搜索日志获取到所述曝光展示结果信息;
依据所述曝光展示结果信息获得曝光展示数据集;
依据所述曝光展示数据集生成多个语料数据。
优选地,所述依据所述曝光展示结果信息获得曝光展示数据集的步骤包括:
提取出所述曝光展示结果信息中的搜索词、搜索会话ID及展示商品名称;
将所述搜索词、搜索会话ID及展示商品名称组成所述曝光展示数据集。
优选地,所述语料数据包括第五语料数据和/或第六语料数据;所述依据所述曝光展示数据集生成多个语料数据的步骤包括:
提取出所述曝光展示数据集中的搜索会话ID及对应的搜索词与第一展示商品名称;
采用所述搜索词与第一展示商品名称生成第五语料数据;
和/或,
提取出所述曝光展示数据集中的搜索词及对应的第二展示商品名称;
采用所述第二展示商品名称生成第六语料数据。
优选地,所述语料数据包括第七语料数据和/或第八语料数据;所述方法还包括:
针对超过预设长度的第三语料数据及第四语料数据进行重新组合排列,生成第七语料数据及第八语料数据。
优选地,所述方法还包括:
针对第一语料数据、第二语料数据、第三语料数据、第四语料数据、第五语料数据、第六语料数据、第七语料数据及第八语料数据进行整合,获得第九语料数据。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种语料数据的生成方法和一种语料数据的生成装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种语料数据的生成方法,其特征在于,包括:
获取商品数据;
获取搜索词以及所述搜索词对应的第一订单数据;
依据所述商品数据及所述第一订单数据获得商品售价数据;其中,所述商品数据包括第一商品数据,第一商品数据包括:应用程序中显示的辅助性商品或凑单商品;
针对所述商品数据及第一订单数据进行数据清洗和归一化操作,获得混合商品数据,其中,所述混合商品数据为去除第一商品数据之外的商品数据;
依据所述第一商品数据、所述混合商品数据及所述商品售价数据获得订单信息集及商品信息集;
依据所述订单信息集及所述商品信息集生成多个语料数据;
所述依据所述第一商品数据、所述混合商品数据及所述商品售价数据获得订单信息集及商品信息集的步骤包括:
采用所述第一商品数据、混合商品数据及商品售价数据训练机器学习分类器;
采用训练后的机器学习分类器针对所述第一订单数据进行过滤,获得订单信息集;
采用训练后的机器学习分类器针对所述商品数据进行过滤,获得商品信息集。
2.根据权利要求1所述的方法,其特征在于,所述语料数据包括第一语料数据、第二语料数据、第三语料数据或第四语料数据中的至少一种,所述依据所述订单信息集及所述商品信息集生成多个语料数据的步骤包括:
提取出所述商品信息集中的商家ID及对应的第一商品名称;
采用所述第一商品名称生成第一语料数据;
和/或,
提取出所述商品信息集中的左侧标签数据及对应的第二商品名称;
采用所述第二商品名称生成第二语料数据;
和/或,
提取出所述订单信息集中的第三商品名称及对应的第一搜索词;
采用所述第一搜索词生成第三语料数据;
和/或,
提取出所述订单信息集中的第二搜索词及对应的第四商品名称;
采用所述第四商品名称生成第四语料数据。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
从搜索日志获取到曝光展示结果信息;
依据所述曝光展示结果信息获得曝光展示数据集;
依据所述曝光展示数据集生成多个语料数据。
4.根据权利要求3所述的方法,其特征在于,所述依据所述曝光展示结果信息获得曝光展示数据集的步骤包括:
提取出所述曝光展示结果信息中的搜索词、搜索会话ID及展示商品名称;
将所述搜索词、搜索会话ID及展示商品名称组成所述曝光展示数据集。
5.根据权利要求3所述的方法,其特征在于,所述语料数据包括第五语料数据和/或第六语料数据;所述依据所述曝光展示数据集生成多个语料数据的步骤包括:
提取出所述曝光展示数据集中的搜索会话ID及对应的搜索词与第一展示商品名称;
采用所述搜索词与第一展示商品名称生成第五语料数据;
和/或,
提取出所述曝光展示数据集中的搜索词及对应的第二展示商品名称;
采用所述第二展示商品名称生成第六语料数据。
6.根据权利要求2所述的方法,其特征在于,所述语料数据包括第七语料数据和/或第八语料数据;所述方法还包括:
针对超过预设长度的第三语料数据及第四语料数据进行重新组合排列,生成第七语料数据及第八语料数据。
7.根据权利要求2或5或6所述的方法,其特征在于,所述方法还包括:
针对第一语料数据、第二语料数据、第三语料数据、第四语料数据、第五语料数据、第六语料数据、第七语料数据及第八语料数据进行整合,获得第九语料数据。
8.一种语料数据的生成装置,其特征在于,包括:
第一获取模块,用于获取商品数据;
第二获取模块,用于获取搜索词以及所述搜索词对应的第一订单数据;
商品售价数据获得模块,用于依据所述商品数据及所述第一订单数据获得商品售价数据;其中,所述商品数据包括第一商品数据,第一商品数据包括:应用程序中显示的辅助性商品或凑单商品;
混合商品数据获得模块,用于针对所述商品数据及第一订单数据进行数据清洗和归一化操作,获得混合商品数据,其中,所述混合商品数据为去除第一商品数据之外的商品数据;
订单信息集及商品信息集获得模块,用于依据所述第一商品数据、所述混合商品数据及所述商品售价数据获得订单信息集及商品信息集;
第一语料数据生成模块,用于依据所述订单信息集及所述商品信息集生成多个语料数据;
所述订单信息集及商品信息集获得模块包括:
训练子模块,用于采用所述第一商品数据、混合商品数据及商品售价数据训练机器学习分类器;
订单信息集获得子模块,用于采用训练后的机器学习分类器针对所述第一订单数据进行过滤,获得订单信息集;
商品信息集获得子模块,用于采用训练后的机器学习分类器针对所述商品数据进行过滤,获得商品信息集。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-7任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-7任一项所述方法的步骤。
CN201810588635.6A 2018-06-08 2018-06-08 一种语料数据的生成方法、装置、电子设备及存储介质 Active CN110647589B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810588635.6A CN110647589B (zh) 2018-06-08 2018-06-08 一种语料数据的生成方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810588635.6A CN110647589B (zh) 2018-06-08 2018-06-08 一种语料数据的生成方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN110647589A CN110647589A (zh) 2020-01-03
CN110647589B true CN110647589B (zh) 2021-06-25

Family

ID=69008645

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810588635.6A Active CN110647589B (zh) 2018-06-08 2018-06-08 一种语料数据的生成方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN110647589B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104750779A (zh) * 2015-03-04 2015-07-01 华东师范大学 一种基于条件随机场的中文兼类词识别方法
CN105989081A (zh) * 2015-02-11 2016-10-05 联想(北京)有限公司 一种语料处理方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9842102B2 (en) * 2014-11-10 2017-12-12 Oracle International Corporation Automatic ontology generation for natural-language processing applications

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105989081A (zh) * 2015-02-11 2016-10-05 联想(北京)有限公司 一种语料处理方法和装置
CN104750779A (zh) * 2015-03-04 2015-07-01 华东师范大学 一种基于条件随机场的中文兼类词识别方法

Also Published As

Publication number Publication date
CN110647589A (zh) 2020-01-03

Similar Documents

Publication Publication Date Title
CN108536852B (zh) 问答交互方法和装置、计算机设备及计算机可读存储介质
Singla et al. Statistical and sentiment analysis of consumer product reviews
JP6022056B2 (ja) 検索結果の生成
US10002371B1 (en) System, method, and computer program product for searching summaries of online reviews of products
Rajeev et al. Recommending products to customers using opinion mining of online product reviews and features
CN109829108B (zh) 信息推荐方法、装置、电子设备及可读存储介质
CN107797982A (zh) 用于识别文本类型的方法、装置和设备
CN106294425A (zh) 商品相关网络文章之自动图文摘要方法及系统
CN107798622B (zh) 一种识别用户意图的方法和装置
CN108256537A (zh) 一种用户性别预测方法和系统
WO2024099457A1 (zh) 一种信息推荐方法、装置、存储介质及电子设备
US12072919B2 (en) Sentence level dialogue summaries using unsupervised machine learning for keyword selection and scoring
Rani et al. Study and comparision of vectorization techniques used in text classification
CN111639255A (zh) 搜索关键词的推荐方法、装置、存储介质及电子设备
CN108269169A (zh) 一种导购方法及系统
Park et al. Text mining-based four-step framework for smart speaker product improvement and sales planning
CN111581378A (zh) 基于交易数据建立用户消费标签体系的方法和装置
Irawaty et al. Development of Youtube Sentiment Analysis Application using K-Nearest Neighbors (Nokia Case Study)
CN113722487A (zh) 用户情感分析方法、装置、设备及存储介质
Gutiérrez A comparative study of NLP and machine learning techniques for sentiment analysis and topic modeling on amazon
CN110647589B (zh) 一种语料数据的生成方法、装置、电子设备及存储介质
CN112862553A (zh) 一种商品推荐的方法和装置
Groot Data mining for tweet sentiment classification
CN116703515A (zh) 基于人工智能的推荐方法、装置、计算机设备及存储介质
CN103678720A (zh) 用户反馈数据处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant