CN109871530B

CN109871530B - 一种菜谱领域种子词自动提取实现方法及存储介质

Info

Publication number: CN109871530B
Application number: CN201811624571.7A
Authority: CN
Inventors: 石忠民; 林剑周; 钟力
Original assignee: GUANGZHOU SUMMBA INFORMATION TECHNOLOGY CO LTD
Current assignee: GUANGZHOU SUMMBA INFORMATION TECHNOLOGY CO LTD
Priority date: 2018-12-28
Filing date: 2018-12-28
Publication date: 2023-10-31
Anticipated expiration: 2038-12-28
Also published as: CN109871530A

Abstract

本发明公开了一种菜谱领域种子词自动提取实现方法及存储介质，包括以下步骤：获取菜谱数据；建立基于词向量和文档向量的语义模型；预先定义菜谱领域种子词，并将所述领域种子词输入所述语义模型中，得到各领域种子词的同组同义词。本发明通过建立语义模型，预先定义菜谱领域种子词，并将所述领域种子词输入所述语义模型中，得到各领域种子词的同组同义词，通过程序算法的自动处理，加快对领域种子词的快速提取，省去了大量的人工标注，并成功应用到菜谱领域中去；在省去大量的人力成本和时间的同时，为下游的语义理解服务提供更快更多的数据源。

Description

一种菜谱领域种子词自动提取实现方法及存储介质

技术领域

本发明涉及智能厨房的人工交互领域，具体涉及一种菜谱领域种子词自动提取实现方法及存储介质。

背景技术

现智能厨房大都涉及到人工交互领域，当前主要是讲的机器人要能够理解用户的语言——也就是自然语言理解。第二方面就是答得出，就是说在听懂的基础上，能够给出最准确的答案，需要有一个庞大的语料做储备，或者说答案做储备。

自然语言理解部分离不开对数据的深度处理，尤其是对特定垂直领域种子词的清洗和提取。而这些清洗和提取的工作涉及到大量的人工，对于大的数据量来说，这必定是一个耗时耗力的过程。

发明内容

鉴于以上技术问题，本发明的目的在于提供一种菜谱领域种子词自动提取实现方法及介质，解决自然语言理解部分对数据的深度处理时需要大量的人工的问题，并应用到菜谱领域中。

本发明采用以下技术方案：

一种菜谱领域种子词自动提取实现方法，包括以下步骤：

获取菜谱数据；建立基于词向量和文档向量的语义模型；

预先定义菜谱领域种子词，并将所述领域种子词输入所述语义模型中，得到各领域种子词的同组同义词。

进一步的，还包括以下步骤：

对各领域种子词的同组同义词进行词性剔除；基于菜谱数据通过条件概率方法，识别所述各领域种子词的同组同义词的词性，将各领域种子词的同组同义词中某些词性不同于该领域种子词的词性的同义词剔除，得到各领域种子词进行词性剔除后的同组同义词。

进一步的，所述建立基于词向量和文档向量的语义模型的步骤具体包括：

以大量菜谱数据作为训练样本，将菜谱数据中的文档进行分词处理，得到分词处理后的词和文档；

对分词处理后的词和文档进行训练，得到基于分词、词向量和文档向量建立的语义模型。

进一步的，将分词处理后的词和文档进行训练的步骤包括：将分词处理后的词和文档转换为向量空间的向量；通过余弦定理计算各向量之间的相似度，并将与某分词或文档相似度高的向量对应的分词或文档归为该分词或文档的同组同义词。

进一步的，通过jieba中文分词组件或hanlp汉语言处理组件对菜谱数据中的文档进行分词处理。

进一步的，通过开源工具gensim自然语言处理器工具对分词处理后的词和文档进行训练。

进一步的，所述预先定义菜谱领域种子词的类型至少为以下类型中的一种：

制作流程、厨具、材料、配料。

进一步的，将得到各领域种子词进行词性剔除后的同组同义词存入数据库，以语义理解服务和推荐服务根据各领域种子词的同组同义词进行语义理解和推荐服务。

一种计算机存储介质，其上存储有计算机程序，所述计算机程序在被处理器执行时，实现上述的菜谱领域种子词自动提取实现方法。

相比现有技术，本发明的有益效果在于：

本发明通过建立语义模型，预先定义菜谱领域种子词，并将所述领域种子词输入所述语义模型中，得到各领域种子词的同组同义词，通过程序算法的自动处理，加快对领域种子词的快速提取，省去了大量的人工标注，并成功应用到菜谱领域中去。在省去大量的人力成本和时间的同时，为下游的语义理解服务提供更快更多的数据源。进一步的，将得到各领域种子词进行词性剔除后的同组同义词存入数据库，以语义理解服务和推荐服务根据各领域种子词的同组同义词进行语义理解和推荐服务。

附图说明

图1为本发明菜谱领域种子词自动提取实现方法的流程示意图。

具体实施方式

下面，结合附图以及具体实施方式，对本发明做进一步描述，需要说明的是，在不相冲突的前提下，以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例：

实施例：

请参考图1所示，一种菜谱领域种子词自动提取实现方法，包括以下步骤：

步骤S100:获取菜谱数据；

优选的，菜谱数据可采用爬虫技术获取，用于获取大量的可用数据，但不限于爬虫技术获取，例如，还可通过人工维护录入数据：第三方开放平台接口获取数据等方式获取菜谱数据。

步骤S200:建立基于词向量和文档向量的语义模型；

具体的，所述建立基于词向量和文档向量的语义模型的步骤具体包括：

具体的，将分词处理后的词和文档进行训练的步骤包括：将分词处理后的词和文档转换为向量空间的向量；通过余弦定理计算各向量之间的相似度，并将与某分词或文档相似度高的向量对应的分词或文档归为该分词或文档的同组同义词。

分词、词向量算法及文档向量算法用于自动获取词与词之前的语义距离，优选的，可通过jieba中文分词组件或hanlp汉语言处理组件对菜谱数据中的文档进行分词处理。通过开源工具gensim自然语言处理器工具对分词处理后的词和文档进行训练。

步骤S300:预先定义菜谱领域种子词，并将所述领域种子词输入所述语义模型中，得到各领域种子词的同组同义词；

所述预先定义菜谱领域种子词的类型至少为以下类型中的一种：制作流程、厨具、材料、配料等。当然，这里预先定义菜谱领域种子词的类型不限于上述类型，不一一进行举例。

领域种子词是第一批人工挑选的词汇，可包含不同词性的部分词，如“蒸”、“搅拌“、“菜碟“等。

步骤S400:对各领域种子词的同组同义词进行词性剔除；基于菜谱数据通过条件概率方法，识别所述各领域种子词的同组同义词的词性，将各领域种子词的同组同义词中某些词性不同于该领域种子词的词性的同义词剔除，得到各领域种子词进行词性剔除后的同组同义词。

通过条件概率统计，用于对自动提取的领域种子词做进一步的刷选和处理，剔除某些词性不同于该领域种子词的词性的同义词。

本发明通过程序算法的自动处理，加快了对领域种子词的快速提取，省去大量的人力成本和时间，为下游的语义理解服务提供更快更多的数据源。

具体的，将得到各领域种子词进行词性剔除后的同组同义词存入数据库，以语义理解服务和推荐服务根据各领域种子词的同组同义词进行语义理解和推荐服务。

具体实施例如下：

步骤S1000、获取大量的菜谱数据，具体的，从数据库中加载文档数据，并将文档数据整理成单个的句子；然后，利用开源工具包jieba中文分词组件或hanlp汉语言处理组件对文档数据进行分词；

所述jieba中文分词组件或hanlp汉语言处理组件能支持三种分词模式：精确模式，试图将句子最精确地切开，适合文本分析；全模式，把句子中所有的可以成词的词语都扫描出来；搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。

分词过程如下：“广东菜的口味一般比较清淡“->“广东菜”，“的”,“口味”，”一般“，”比较“，“清淡”

“鱼煎炸至微黄便可起锅”->”鱼”,“煎炸”,“至”,“微黄”,“便”,”可”,“起锅”

步骤S2000：利用开源工具gensim自然语言处理器工具，进行词向量和文档向量的训练。注：词向量和文档向量为当前NLP(自然语言理解)中两种成熟的向量模型，通过将词和文档转换为向量空间的向量，通过余弦定理计算向量直接的相似度，从而得到词与词之间的相似度；

具体的，在文本挖掘中，对文档A分词，得到A1,A2,….An,计算得到分词的Tf-Idf:k1,k2,…kn；同样对文档C分词，得到C1,C2…Cn,计算得到分词的Tf-Idf:d1,d2,…dn。以tf-idf作为分词的权重，则得到文档A的向量P＝{k1A1,k2A2…knAn},转换为P＝{x1,x2,…Xn}，文档C的向量Z＝{d1C1,d2C2…dnCn},转换为Z＝{y1,y2….yn}，计算文档A和C的相似度就是在向量空间模型中计算它们余弦值。

在空间模型中，两条线的夹角越小，它们的余弦值就越大，而它们越相似(重叠或者平行)。

例如：“起锅“，和“出锅”的向量相似度为0.8285461664199829，和“盛出”的向量相似度为0.6366856098175049等)。开源工具gensim提供了词向量和文档向量的训练接口，具体的，如下：

model＝load_model(model_path)

model.build_vocab(sens,update＝True)

model.train(sens,total_examples＝len(sens),epochs＝1)

model.save(modelfp)

步骤S3000:查找领域种子词的同义词；

预先定义并编辑菜谱领域种子词，如：关于制作方法的种子词：搅,爆,煸炒,焖,焙,榨取,凉拌,烘培,清炖,爆炒,腌,清蒸,捞,剥,煨,煲,煸,酿；

关于制作流程的种子词：起锅，点火，下锅；

关于厨具的种子词：锅，铲，水盆，碗柜，拖把；

关于材料的种子词：土豆，番茄，番薯，鱼；

关于配料的种子词：酱油，姜，葱，蒜；

……

将种子词送入步骤S200训练出来的语义模型，可以得出每个词对应的同义词。如：

“煸炒””对应的同义词为：翻炒,爆炒,煎炒,煸,炒,翻抄,炒香,翻遍,炒制,炒软；

“搅”对应的同义词为：搅和,搅打,搅拌,抽打,搅合,搅动,打搅,打,翻搅,搅到；

“起锅”对应的同义词为：出锅,盛出,关火,乘出,出勺,盛盘,盛起,起油锅,装起,熄火；

“锅”对应的同义词为：炒锅,锅子,炒勺,净锅,平锅,另锅,煎锅,平底锅,小锅,炒菜；

“土豆”对应的同义词为：茄子,杏鲍菇,小土豆,胡萝卜,马铃薯,豆角,鸡腿,鸡肉,土豆块,鸡胸肉；

“酱油”对应的同义词为：生抽,蚝油,味极鲜,老抽,鸡精,味精,耗油,花雕酒,鸡粉,味达美。

步骤S4000:通过条件概率统计，识别所述每组同义词的词性，并剔除词性不合理的同义词；

如从步骤S300中得出“锅”的同义词为：炒锅,锅子,炒勺,净锅,平锅,另锅,煎锅,平底锅,小锅,炒菜，基于条件概率统计，可以发现，炒菜为动词，锅为名称，故将炒菜从“锅”的同义词中剔除。

步骤S500:将剔除不合理的同义词后的同组同义词存入数据库，供下游语义理解和推荐服务使用；

如用户问句：“蒸鱼要放哪些配料”，通过本发明的方法对同类领域种子词进行提取并保存后，可得知，“蒸鱼要放哪些配料”可以理解为:蒸(制作方法)+鱼(材料)+配料；

这样，语义理解服务可迅速从配料中获取需要搭配的配料。推荐服务可从制作方法，材料等进行类似菜谱推荐。

本发明还提供一种计算机存储介质，其上存储有计算机程序，本发明的方法如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在该计算机存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机存储介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机存储介质不包括电载波信号和电信信号。

对本领域的技术人员来说，可根据以上描述的技术方案以及构思，做出其它各种相应的改变以及形变，而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。

Claims

1.一种菜谱领域种子词自动提取实现方法，其特征在于，包括以下步骤：

获取菜谱数据，菜谱数据采用爬虫技术获取；

建立基于词向量和文档向量的语义模型；

预先定义菜谱领域种子词，并将所述领域种子词输入所述语义模型中，得到各领域种子词的同组同义词；

对各领域种子词的同组同义词进行词性剔除；基于菜谱数据通过条件概率方法，识别所述各领域种子词的同组同义词的词性，将各领域种子词的同组同义词中某些词性不同于该领域种子词的词性的同义词剔除，得到各领域种子词进行词性剔除后的同组同义词；

所述建立基于词向量和文档向量的语义模型的步骤具体包括：

以菜谱数据作为训练样本，将菜谱数据中的文档进行分词处理，得到分词处理后的词和文档；

对分词处理后的词和文档进行训练，得到基于分词、词向量和文档向量建立的语义模型；

其中通过开源工具gensim自然语言处理器工具对分词处理后的词和文档进行训练；

对分词处理后的词和文档进行训练的步骤包括：将分词处理后的词和文档转换为向量空间的向量；通过余弦定理计算各向量之间的相似度，并将与分词或文档相似度高的向量对应的分词或文档归为该分词或文档的同组同义词；具体为：对文档A分词，得A1 ,A2 ,….An ,计算得到分词的Tf-Idf:k1 ,k2 ,…kn；同样对文档C分词，得到C1 ,C2…Cn ,计算得到分词的Tf-Idf:d1 ,d2 ,…dn，以tf-idf作为分词的权重，则得到文档A的向量P＝{k1A1,k2A2…knAn} ,转换为P＝{x1 ,x2,…Xn}，文档C的向量Z＝{d1C1 ,d2C2…dnCn},转换为Z＝{y1 ,y2… .yn}，计算文档A和C的相似度就是在向量空间模型中计算它们余弦值；

将得到各领域种子词进行词性剔除后的同组同义词存入数据库，以根据各领域种子词的同组同义词进行语义理解和推荐服务。

2.根据权利要求1所述的菜谱领域种子词自动提取实现方法，其特征在于，通过jieba中文分词组件或hanlp汉语言处理组件对菜谱数据中的文档进行分词处理。

3.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序在被处理器执行时，实现如权利要求1-2任一项所述的菜谱领域种子词自动提取实现方法。