CN105824904B

CN105824904B - 基于中医药领域专业词向量的中草药植物图片爬取方法

Info

Publication number: CN105824904B
Application number: CN201610146357.XA
Authority: CN
Inventors: 魏宝刚; 张引; 庄越挺; 谭亮
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2016-03-15
Filing date: 2016-03-15
Publication date: 2018-12-25
Anticipated expiration: 2036-03-15
Also published as: CN105824904A

Abstract

本发明公开了一种基于中医药领域专业词向量的中草药植物图片爬取方法。首先需要选择收集中医药文本数据，本发明采用医学书籍的文本信息以及从百科网站上爬取的中医药相关的词条信息；其次，利用这些文本数据训练Word2Vec模型得到中医药领域专业词向量；然后，利用谷歌、百度等通用搜索引擎提供的基于文本的图像检索功能获取候选图片集和它们所在源网页的文本信息，并利用Doc2Vec模型计算各源网页的特征向量；最后，根据源网页的特征向量与对应中草药词向量的相似度对候选图片集进行重排，选取排在前面的若干图片，然后使用感知哈希算法对图片集进行去重处理，得到最终的图片集。

Description

基于中医药领域专业词向量的中草药植物图片爬取方法

技术领域

本发明涉及中草药植物图片爬取方法，尤其涉及一种基于中医药领域专业词向量的中草药植物图片爬取方法。

背景技术

为了构建专业的中草药植物图像检索系统，首先需要构建中草药植物图像库。随着互联网技术的快速发展和图像获取设备的飞速增长，互联网上产生了大量的中草药植物图片，所以，从互联网上抓取中草药植物图片是一种快速构建中草药植物图像库的有效途径。随着人们对于从海量图片中检索目标图片的需求愈加迫切，通用搜索引擎,如google和百度，都提供了图像检索的功能，包括基于文本的图像检索和基于内容的图像检索。所以，可以利用通用搜索引擎提供的基于文本的图像检索功能来快速地构建中药草图像库，但直接抓取通用搜索引擎检索的结果，效果并不十分理想。分析正确图片所在的源网页和不正确图片所在的源网页，容易发现非目标网页的文本内容与中医药的关系并不大，甚至完全没有关系。

发明内容

本发明的目的是解决现有技术中存在的问题，并提供一种基于中医药领域专业词向量的中草药植物图片爬取方法。

本发明的目的是通过以下技术方案来实现的：

一种基于中医药领域专业词向量的中草药植物图片爬取方法，包括以下步骤：

1)对医学书籍进行OCR处理，提取医案文本信息；同时，爬取百科网站上中医药相关的词条信息；

2)将第1)步所得的文本利用CRF模型与最长单词匹配方法相组合进行分词，同时过滤掉停用词，构建Word2Vec的训练集；

3)训练Word2Vec模型，构造词向量矩阵，即对每一个单词，用一个向量来表示；

4)对于每一种中草药植物，利用搜索引擎提供的基于文本的图像检索功能获取候选图片集和它们所在源网页的内容；

5)对第4)步中得到的每一个源网页，去掉包括HTML标签、JS代码、CSS代码的内容，然后利用CRF模型与最长单词匹配方法相组合进行分词，去掉停用词，得到源网页的文本信息；

6)利用第5)步所得的文本和第3)步得到的词向量矩阵训练Doc2Vec模型，即用第3)步的词向量矩阵初始化Doc2Vec中的词向量矩阵，更新时保持词向量矩阵不变，只更新文档向量，训练完后便得到各源网页的文档向量；

7)根据各源网页的文档向量与对应的中草药词向量的余弦相似度对第4)步中得到的候选图片集进行重排和过滤，选出相似度高于预设阈值的图片集，作为候选图片集；

8)对第7)步中得到的候选图片集中的图片使用感知哈希算法进行去重处理，得到最终的图片集。

本发明是中医药领域与计算机科学相结合的产物，它通过将中医药领域知识引入到中草药植物图片的爬虫框架中，提高了中草药植物图片爬虫的准确性，同时，本发明所阐述的方法也具有一般性，可适用于其他领域相关图片的爬取。

附图说明

图1是一种基于中医药领域专业词向量的中草药植物图片爬取方法的系统架构图；

图2是实施例中中医药领域专业词向量的部分示例；

图3是实施例中图片URL和图片所在源网页URL提取示例。

具体实施方式

下面结合附图和实施例对本发明作进一步说明。

1)对《中国现代名中医医案精粹》、《名医类案》、《续医类案》和《再续名医类案》等书籍进行OCR处理，提取医案文本信息；同时，爬取百度百科、互动百科、搜狗百科和维基百科等百科网站上中医药相关的词条信息。

4)对于每一种中草药植物，利用谷歌、百度等通用搜索引擎提供的基于文本的图像检索功能获取候选图片集和它们所在源网页的内容；

所述的步骤3)中采用基于CBOW模型的Word2Vec模型，包括输入层、投影层和输出层；所述的输入层由2c个单词的词向量v(context(w)₁)，…，v(context(w)_i)，…，v(context(w)_2c)构成，其中context(w)表示单词w的上下文，即其前后各c个单词；所述的投影层由对输入层的2c个词向量做累加求和得到，即所述的输出层是一棵Huffman树，其中，叶子节点共N个，分别对应词典D中每个词，非叶子结点N-1个；定义p^w为从根节点出发到达w对应叶子结点的路径；l^w为路径p^w中包含结点的个数；分别为路径p^w中的l^w个结点，其中表示的是根结点，表示词w对应的结点；表示词w的Huffman编码，由l^w-1位编码构成，表示路径p^w中第j个结点对应的编码；表示路径p^w中非叶子结点对应的向量，表示p^w中第j个非叶子结点对应的向量；对于词典D中任意词w，Huffman树中必存在且仅存在一条从根结点到词w对应的路径p^w；路径p^w上存在l^w-1个分支，将每个分支看成一个二次分类的过程，每一次分类就产生一个概率，将这些概率乘起来，就是所需的p(w|context(w))，其表达式为：

其中，

σ(.)表示sigmoid函数，其表达式是：

将以上公式代入对数似然函数中，得到：

上式即为CBOW模型的目标函数，采用随机梯度上升法来更新模型参数，即：每取一个样本(context(w),w)，就对目标函数的所有相关参数做一次更新，具体步骤如下：

3.1)计算梯度其中，其计算公式为，接下来考虑ζ(w,j)关于x_w的梯度，可以求得:：

3.2)更新其更新公式为：

其中,η表示学习率；

3.3)计算梯度其中，其计算公式为：

3.4)更新词向量v(w')，更新公式如下：

3.5)重复上述3.1)到3.4)步，直到模型训练结束。

所述的步骤8)中感知哈希算法进行去重处理具体为：

8.1)对于候选图片集图片img，将其转换成灰度图片gray_img；

8.2)将第8.1)步中所得的灰度图片gray_img缩放到尺寸为32×32的小图片small_img；

8.3)对第8.2)步所得的小图片small_img进行离散余弦变换，并截取离散余弦变换结果左上角8×8的低频部分LL；

8.4)计算第8.3)步所得低频部分LL的所有值的平均值m；

8.5)将第8.3)步所得低频部分LL的各像素值与第8.4)步中计算得到的平均值m比较，将LL中大于m的像素值置为1，否则置为0；

8.6)将第8.5)步所得64个0或1值从上到下、从左到右依序组合成一个长度为64的二进制串，即图像指纹；

8.7)计算第8.6)步所得的图像指纹之间汉明距离，当汉明距离越大，说明它们的差别越大，反之，汉明距离越小，说明它们越相似；当汉明距离大于10时，便可认为两幅图像完全不同。

实施例

如图1所示，一种基于中医药领域专业词向量的中草药植物图片爬取方法。本实施例中，未详细说明的步骤，如步骤3)、8)，具体按照前述具体实施方式中所述进行。本实施例中采用的主要步骤如下：

3)训练Word2Vec模型，构造词向量矩阵，即对每一个单词，用一个向量来表示，部分词向量如图2所示；

4)对于每一种中草药植物，利用搜索引擎提供的基于文本的图像检索功能获取候选图片集和它们所在源网页的内容，例如以google图片搜索引擎为例，分析其检索结果页面的网页源代码，可以发现每一个缩略图的父节点是一个超链接标签，其href属性包含着我们所需要的全部信息，即图片原图和原图所在的源网页的URL。如图3所示，href的值中有两个重要的参数—imgurl和imgrefurl，分别表示原图的URL和原图所在源网页的URL。

Claims

1.一种基于中医药领域专业词向量的中草药植物图片爬取方法，其特征在于包括以下步骤：

2.根据权利要求1中所述的一种基于中医药领域专业词向量的中草药植物图片爬取方法，其特征在于，所述的步骤3)中采用基于CBOW模型的Word2Vec模型，包括输入层、投影层和输出层；所述的输入层由2c个单词的词向量v(context(w)₁)，…，v(context(w)_i)，…，v(context(w)_2c)构成，其中context(w)表示单词w的上下文，即其前后各c个单词；所述的投影层由对输入层的2c个词向量做累加求和得到，即所述的输出层是一棵Huffman树，其中，叶子节点共N个，分别对应词典D中每个词，非叶子结点N-1个；定义p^w为从根节点出发到达w对应叶子结点的路径；l^w为路径p^w中包含结点的个数；分别为路径p^w中的l^w个结点，其中表示的是根结点，表示词w对应的结点；表示词w的Huffman编码，由l^w-1位编码构成，表示路径p^w中第j个结点对应的编码；表示路径p^w中非叶子结点对应的向量，表示p^w中第j个非叶子结点对应的向量；对于词典D中任意词w，Huffman树中必存在且仅存在一条从根结点到词w对应的路径p^w；路径p^w上存在l^w-1个分支，将每个分支看成一个二次分类的过程，每一次分类就产生一个概率，所有概率的乘积为p(w|context(w))，其表达式为：

其中，

σ(.)表示sigmoid函数

将以上公式代入对数似然函数中，得到：

3.1)计算梯度其中，其计算公式为：

3.2)更新其更新公式为：

其中,η表示学习率；

3.3)计算梯度其中，其计算公式为：

3.4)更新词向量v(w′)，更新公式如下：

3.5)重复上述3.1)到3.4)步，直到模型训练结束。

3.根据权利要求1中所述的一种基于中医药领域专业词向量的中草药植物图片爬取方法，其特征在于，所述的步骤8)中感知哈希算法进行去重处理具体为：

8.1)对于候选图片集图片，将其转换成灰度图片；

8.2)将第8.1)步中所得的灰度图片缩放到尺寸为32×32的小图片；

8.3)对第8.2)步所得的小图片进行离散余弦变换，并截取离散余弦变换结果左上角8×8的低频部分LL；

8.4)计算第8.3)步所得低频部分LL的所有值的平均值m；