CN105824904B - 基于中医药领域专业词向量的中草药植物图片爬取方法 - Google Patents
基于中医药领域专业词向量的中草药植物图片爬取方法 Download PDFInfo
- Publication number
- CN105824904B CN105824904B CN201610146357.XA CN201610146357A CN105824904B CN 105824904 B CN105824904 B CN 105824904B CN 201610146357 A CN201610146357 A CN 201610146357A CN 105824904 B CN105824904 B CN 105824904B
- Authority
- CN
- China
- Prior art keywords
- term vector
- word
- pictures
- herbal medicine
- chinese herbal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Library & Information Science (AREA)
Abstract
本发明公开了一种基于中医药领域专业词向量的中草药植物图片爬取方法。首先需要选择收集中医药文本数据,本发明采用医学书籍的文本信息以及从百科网站上爬取的中医药相关的词条信息;其次,利用这些文本数据训练Word2Vec模型得到中医药领域专业词向量;然后,利用谷歌、百度等通用搜索引擎提供的基于文本的图像检索功能获取候选图片集和它们所在源网页的文本信息,并利用Doc2Vec模型计算各源网页的特征向量;最后,根据源网页的特征向量与对应中草药词向量的相似度对候选图片集进行重排,选取排在前面的若干图片,然后使用感知哈希算法对图片集进行去重处理,得到最终的图片集。
Description
技术领域
本发明涉及中草药植物图片爬取方法,尤其涉及一种基于中医药领域专业词向量的中草药植物图片爬取方法。
背景技术
为了构建专业的中草药植物图像检索系统,首先需要构建中草药植物图像库。随着互联网技术的快速发展和图像获取设备的飞速增长,互联网上产生了大量的中草药植物图片,所以,从互联网上抓取中草药植物图片是一种快速构建中草药植物图像库的有效途径。随着人们对于从海量图片中检索目标图片的需求愈加迫切,通用搜索引擎,如google和百度,都提供了图像检索的功能,包括基于文本的图像检索和基于内容的图像检索。所以,可以利用通用搜索引擎提供的基于文本的图像检索功能来快速地构建中药草图像库,但直接抓取通用搜索引擎检索的结果,效果并不十分理想。分析正确图片所在的源网页和不正确图片所在的源网页,容易发现非目标网页的文本内容与中医药的关系并不大,甚至完全没有关系。
发明内容
本发明的目的是解决现有技术中存在的问题,并提供一种基于中医药领域专业词向量的中草药植物图片爬取方法。
本发明的目的是通过以下技术方案来实现的:
一种基于中医药领域专业词向量的中草药植物图片爬取方法,包括以下步骤:
1)对医学书籍进行OCR处理,提取医案文本信息;同时,爬取百科网站上中医药相关的词条信息;
2)将第1)步所得的文本利用CRF模型与最长单词匹配方法相组合进行分词,同时过滤掉停用词,构建Word2Vec的训练集;
3)训练Word2Vec模型,构造词向量矩阵,即对每一个单词,用一个向量来表示;
4)对于每一种中草药植物,利用搜索引擎提供的基于文本的图像检索功能获取候选图片集和它们所在源网页的内容;
5)对第4)步中得到的每一个源网页,去掉包括HTML标签、JS代码、CSS代码的内容,然后利用CRF模型与最长单词匹配方法相组合进行分词,去掉停用词,得到源网页的文本信息;
6)利用第5)步所得的文本和第3)步得到的词向量矩阵训练Doc2Vec模型,即用第3)步的词向量矩阵初始化Doc2Vec中的词向量矩阵,更新时保持词向量矩阵不变,只更新文档向量,训练完后便得到各源网页的文档向量;
7)根据各源网页的文档向量与对应的中草药词向量的余弦相似度对第4)步中得到的候选图片集进行重排和过滤,选出相似度高于预设阈值的图片集,作为候选图片集;
8)对第7)步中得到的候选图片集中的图片使用感知哈希算法进行去重处理,得到最终的图片集。
本发明是中医药领域与计算机科学相结合的产物,它通过将中医药领域知识引入到中草药植物图片的爬虫框架中,提高了中草药植物图片爬虫的准确性,同时,本发明所阐述的方法也具有一般性,可适用于其他领域相关图片的爬取。
附图说明
图1是一种基于中医药领域专业词向量的中草药植物图片爬取方法的系统架构图;
图2是实施例中中医药领域专业词向量的部分示例;
图3是实施例中图片URL和图片所在源网页URL提取示例。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
一种基于中医药领域专业词向量的中草药植物图片爬取方法,包括以下步骤:
1)对《中国现代名中医医案精粹》、《名医类案》、《续医类案》和《再续名医类案》等书籍进行OCR处理,提取医案文本信息;同时,爬取百度百科、互动百科、搜狗百科和维基百科等百科网站上中医药相关的词条信息。
2)将第1)步所得的文本利用CRF模型与最长单词匹配方法相组合进行分词,同时过滤掉停用词,构建Word2Vec的训练集;
3)训练Word2Vec模型,构造词向量矩阵,即对每一个单词,用一个向量来表示;
4)对于每一种中草药植物,利用谷歌、百度等通用搜索引擎提供的基于文本的图像检索功能获取候选图片集和它们所在源网页的内容;
5)对第4)步中得到的每一个源网页,去掉包括HTML标签、JS代码、CSS代码的内容,然后利用CRF模型与最长单词匹配方法相组合进行分词,去掉停用词,得到源网页的文本信息;
6)利用第5)步所得的文本和第3)步得到的词向量矩阵训练Doc2Vec模型,即用第3)步的词向量矩阵初始化Doc2Vec中的词向量矩阵,更新时保持词向量矩阵不变,只更新文档向量,训练完后便得到各源网页的文档向量;
7)根据各源网页的文档向量与对应的中草药词向量的余弦相似度对第4)步中得到的候选图片集进行重排和过滤,选出相似度高于预设阈值的图片集,作为候选图片集;
8)对第7)步中得到的候选图片集中的图片使用感知哈希算法进行去重处理,得到最终的图片集。
所述的步骤3)中采用基于CBOW模型的Word2Vec模型,包括输入层、投影层和输出层;所述的输入层由2c个单词的词向量v(context(w)1),…,v(context(w)i),…,v(context(w)2c)构成,其中context(w)表示单词w的上下文,即其前后各c个单词;所述的投影层由对输入层的2c个词向量做累加求和得到,即所述的输出层是一棵Huffman树,其中,叶子节点共N个,分别对应词典D中每个词,非叶子结点N-1个;定义pw为从根节点出发到达w对应叶子结点的路径;lw为路径pw中包含结点的个数;分别为路径pw中的lw个结点,其中表示的是根结点,表示词w对应的结点;表示词w的Huffman编码,由lw-1位编码构成,表示路径pw中第j个结点对应的编码;表示路径pw中非叶子结点对应的向量,表示pw中第j个非叶子结点对应的向量;对于词典D中任意词w,Huffman树中必存在且仅存在一条从根结点到词w对应的路径pw;路径pw上存在lw-1个分支,将每个分支看成一个二次分类的过程,每一次分类就产生一个概率,将这些概率乘起来,就是所需的p(w|context(w)),其表达式为:
其中,
σ(.)表示sigmoid函数,其表达式是:
将以上公式代入对数似然函数中,得到:
上式即为CBOW模型的目标函数,采用随机梯度上升法来更新模型参数,即:每取一个样本(context(w),w),就对目标函数的所有相关参数做一次更新,具体步骤如下:
3.1)计算梯度其中,其计算公式为,接下来考虑ζ(w,j)关于xw的梯度,可以求得::
3.2)更新其更新公式为:
其中,η表示学习率;
3.3)计算梯度其中,其计算公式为:
3.4)更新词向量v(w'),更新公式如下:
3.5)重复上述3.1)到3.4)步,直到模型训练结束。
所述的步骤8)中感知哈希算法进行去重处理具体为:
8.1)对于候选图片集图片img,将其转换成灰度图片gray_img;
8.2)将第8.1)步中所得的灰度图片gray_img缩放到尺寸为32×32的小图片small_img;
8.3)对第8.2)步所得的小图片small_img进行离散余弦变换,并截取离散余弦变换结果左上角8×8的低频部分LL;
8.4)计算第8.3)步所得低频部分LL的所有值的平均值m;
8.5)将第8.3)步所得低频部分LL的各像素值与第8.4)步中计算得到的平均值m比较,将LL中大于m的像素值置为1,否则置为0;
8.6)将第8.5)步所得64个0或1值从上到下、从左到右依序组合成一个长度为64的二进制串,即图像指纹;
8.7)计算第8.6)步所得的图像指纹之间汉明距离,当汉明距离越大,说明它们的差别越大,反之,汉明距离越小,说明它们越相似;当汉明距离大于10时,便可认为两幅图像完全不同。
实施例
如图1所示,一种基于中医药领域专业词向量的中草药植物图片爬取方法。本实施例中,未详细说明的步骤,如步骤3)、8),具体按照前述具体实施方式中所述进行。本实施例中采用的主要步骤如下:
1)对《中国现代名中医医案精粹》、《名医类案》、《续医类案》和《再续名医类案》等书籍进行OCR处理,提取医案文本信息;同时,爬取百度百科、互动百科、搜狗百科和维基百科等百科网站上中医药相关的词条信息。
2)将第1)步所得的文本利用CRF模型与最长单词匹配方法相组合进行分词,同时过滤掉停用词,构建Word2Vec的训练集;
3)训练Word2Vec模型,构造词向量矩阵,即对每一个单词,用一个向量来表示,部分词向量如图2所示;
4)对于每一种中草药植物,利用搜索引擎提供的基于文本的图像检索功能获取候选图片集和它们所在源网页的内容,例如以google图片搜索引擎为例,分析其检索结果页面的网页源代码,可以发现每一个缩略图的父节点是一个超链接标签,其href属性包含着我们所需要的全部信息,即图片原图和原图所在的源网页的URL。如图3所示,href的值中有两个重要的参数—imgurl和imgrefurl,分别表示原图的URL和原图所在源网页的URL。
5)对第4)步中得到的每一个源网页,去掉包括HTML标签、JS代码、CSS代码的内容,然后利用CRF模型与最长单词匹配方法相组合进行分词,去掉停用词,得到源网页的文本信息;
6)利用第5)步所得的文本和第3)步得到的词向量矩阵训练Doc2Vec模型,即用第3)步的词向量矩阵初始化Doc2Vec中的词向量矩阵,更新时保持词向量矩阵不变,只更新文档向量,训练完后便得到各源网页的文档向量;
7)根据各源网页的文档向量与对应的中草药词向量的余弦相似度对第4)步中得到的候选图片集进行重排和过滤,选出相似度高于预设阈值的图片集,作为候选图片集;
8)对第7)步中得到的候选图片集中的图片使用感知哈希算法进行去重处理,得到最终的图片集。
Claims (3)
1.一种基于中医药领域专业词向量的中草药植物图片爬取方法,其特征在于包括以下步骤:
1)对医学书籍进行OCR处理,提取医案文本信息;同时,爬取百科网站上中医药相关的词条信息;
2)将第1)步所得的文本利用CRF模型与最长单词匹配方法相组合进行分词,同时过滤掉停用词,构建Word2Vec的训练集;
3)训练Word2Vec模型,构造词向量矩阵,即对每一个单词,用一个向量来表示;
4)对于每一种中草药植物,利用搜索引擎提供的基于文本的图像检索功能获取候选图片集和它们所在源网页的内容;
5)对第4)步中得到的每一个源网页,去掉包括HTML标签、JS代码、CSS代码的内容,然后利用CRF模型与最长单词匹配方法相组合进行分词,去掉停用词,得到源网页的文本信息;
6)利用第5)步所得的文本和第3)步得到的词向量矩阵训练Doc2Vec模型,即用第3)步的词向量矩阵初始化Doc2Vec中的词向量矩阵,更新时保持词向量矩阵不变,只更新文档向量,训练完后便得到各源网页的文档向量;
7)根据各源网页的文档向量与对应的中草药词向量的余弦相似度对第4)步中得到的候选图片集进行重排和过滤,选出相似度高于预设阈值的图片集,作为候选图片集;
8)对第7)步中得到的候选图片集中的图片使用感知哈希算法进行去重处理,得到最终的图片集。
2.根据权利要求1中所述的一种基于中医药领域专业词向量的中草药植物图片爬取方法,其特征在于,所述的步骤3)中采用基于CBOW模型的Word2Vec模型,包括输入层、投影层和输出层;所述的输入层由2c个单词的词向量v(context(w)1),…,v(context(w)i),…,v(context(w)2c)构成,其中context(w)表示单词w的上下文,即其前后各c个单词;所述的投影层由对输入层的2c个词向量做累加求和得到,即所述的输出层是一棵Huffman树,其中,叶子节点共N个,分别对应词典D中每个词,非叶子结点N-1个;定义pw为从根节点出发到达w对应叶子结点的路径;lw为路径pw中包含结点的个数;分别为路径pw中的lw个结点,其中表示的是根结点,表示词w对应的结点;表示词w的Huffman编码,由lw-1位编码构成,表示路径pw中第j个结点对应的编码;表示路径pw中非叶子结点对应的向量,表示pw中第j个非叶子结点对应的向量;对于词典D中任意词w,Huffman树中必存在且仅存在一条从根结点到词w对应的路径pw;路径pw上存在lw-1个分支,将每个分支看成一个二次分类的过程,每一次分类就产生一个概率,所有概率的乘积为p(w|context(w)),其表达式为:
其中,
σ(.)表示sigmoid函数
将以上公式代入对数似然函数中,得到:
上式即为CBOW模型的目标函数,采用随机梯度上升法来更新模型参数,即:每取一个样本(context(w),w),就对目标函数的所有相关参数做一次更新,具体步骤如下:
3.1)计算梯度其中,其计算公式为:
3.2)更新其更新公式为:
其中,η表示学习率;
3.3)计算梯度其中,其计算公式为:
3.4)更新词向量v(w′),更新公式如下:
3.5)重复上述3.1)到3.4)步,直到模型训练结束。
3.根据权利要求1中所述的一种基于中医药领域专业词向量的中草药植物图片爬取方法,其特征在于,所述的步骤8)中感知哈希算法进行去重处理具体为:
8.1)对于候选图片集图片,将其转换成灰度图片;
8.2)将第8.1)步中所得的灰度图片缩放到尺寸为32×32的小图片;
8.3)对第8.2)步所得的小图片进行离散余弦变换,并截取离散余弦变换结果左上角8×8的低频部分LL;
8.4)计算第8.3)步所得低频部分LL的所有值的平均值m;
8.5)将第8.3)步所得低频部分LL的各像素值与第8.4)步中计算得到的平均值m比较,将LL中大于m的像素值置为1,否则置为0;
8.6)将第8.5)步所得64个0或1值从上到下、从左到右依序组合成一个长度为64的二进制串,即图像指纹;
8.7)计算第8.6)步所得的图像指纹之间汉明距离,当汉明距离越大,说明它们的差别越大,反之,汉明距离越小,说明它们越相似;当汉明距离大于10时,便可认为两幅图像完全不同。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610146357.XA CN105824904B (zh) | 2016-03-15 | 2016-03-15 | 基于中医药领域专业词向量的中草药植物图片爬取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610146357.XA CN105824904B (zh) | 2016-03-15 | 2016-03-15 | 基于中医药领域专业词向量的中草药植物图片爬取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105824904A CN105824904A (zh) | 2016-08-03 |
CN105824904B true CN105824904B (zh) | 2018-12-25 |
Family
ID=56987685
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610146357.XA Active CN105824904B (zh) | 2016-03-15 | 2016-03-15 | 基于中医药领域专业词向量的中草药植物图片爬取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105824904B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106294684A (zh) * | 2016-08-06 | 2017-01-04 | 上海高欣计算机系统有限公司 | 词向量的文本分类方法及终端设备 |
CN106528588A (zh) * | 2016-09-14 | 2017-03-22 | 厦门幻世网络科技有限公司 | 一种为文本信息匹配资源的方法及装置 |
CN106709520B (zh) * | 2016-12-23 | 2019-05-31 | 浙江大学 | 一种基于主题模型的医案分类方法 |
CN107908698B (zh) * | 2017-11-03 | 2021-04-13 | 广州索答信息科技有限公司 | 一种主题网络爬虫方法、电子设备、存储介质、系统 |
CN109902168B (zh) | 2019-01-25 | 2022-02-11 | 北京创新者信息技术有限公司 | 一种专利评价方法和系统 |
CN111309699A (zh) * | 2020-01-15 | 2020-06-19 | 张文龙 | 一种基于点对点分布式文件系统的内容共享方法及系统 |
CN111785344A (zh) * | 2020-06-04 | 2020-10-16 | 河南中医药大学 | 基于中医药领域专业词向量的中药处方用药安全检测方法 |
CN117708354B (zh) * | 2024-02-06 | 2024-04-30 | 湖南快乐阳光互动娱乐传媒有限公司 | 图像的索引方法、装置、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103853824A (zh) * | 2014-03-03 | 2014-06-11 | 沈之锐 | 一种基于深度语义挖掘的内文广告发布方法与系统 |
CN104572624A (zh) * | 2015-01-20 | 2015-04-29 | 浙江大学 | 一种基于词向量发现单味药与疾病之间的治疗关系的方法 |
CN104965889A (zh) * | 2015-06-17 | 2015-10-07 | 腾讯科技(深圳)有限公司 | 内容推荐方法及装置 |
-
2016
- 2016-03-15 CN CN201610146357.XA patent/CN105824904B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103853824A (zh) * | 2014-03-03 | 2014-06-11 | 沈之锐 | 一种基于深度语义挖掘的内文广告发布方法与系统 |
CN104572624A (zh) * | 2015-01-20 | 2015-04-29 | 浙江大学 | 一种基于词向量发现单味药与疾病之间的治疗关系的方法 |
CN104965889A (zh) * | 2015-06-17 | 2015-10-07 | 腾讯科技(深圳)有限公司 | 内容推荐方法及装置 |
Non-Patent Citations (2)
Title |
---|
《基于互联网数据集的图像标注技术研究_荚济民》;荚济民;《中国博士学位论文全文数据库 信息科技辑》;20091015;论文第2章 * |
《基于词向量的短文本分类方法研究》;江大鹏;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160215;论文第3章 * |
Also Published As
Publication number | Publication date |
---|---|
CN105824904A (zh) | 2016-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105824904B (zh) | 基于中医药领域专业词向量的中草药植物图片爬取方法 | |
Yuan et al. | Feature extraction and image retrieval based on AlexNet | |
US9489401B1 (en) | Methods and systems for object recognition | |
US7941420B2 (en) | Method for organizing structurally similar web pages from a web site | |
JP2022065108A (ja) | 電子記録の文脈検索のためのシステム及び方法 | |
US8577882B2 (en) | Method and system for searching multilingual documents | |
US9430478B2 (en) | Anchor image identification for vertical video search | |
Chen et al. | Automatic detection of pornographic and gambling websites based on visual and textual content using a decision mechanism | |
CN103631889B (zh) | 一种图像识别方法和装置 | |
Ayoub et al. | Generating image captions using bahdanau attention mechanism and transfer learning | |
CN111813874B (zh) | 太赫兹知识图谱构建方法及系统 | |
Wang et al. | Cyber threat intelligence entity extraction based on deep learning and field knowledge engineering | |
Liang et al. | News video summarization combining surf and color histogram features | |
CN113380360B (zh) | 一种基于多模态病历图的相似病历检索方法及系统 | |
Tian et al. | Image caption generation using multi-level semantic context information | |
Javanmardi et al. | Caps captioning: a modern image captioning approach based on improved capsule network | |
Yin et al. | Chinese named entity recognition based on knowledge based question answering system | |
CN111785344A (zh) | 基于中医药领域专业词向量的中药处方用药安全检测方法 | |
Yao et al. | A dynamic part-attention model for person re-identification | |
López-Sánchez et al. | Supervised Deep Learning Techniques for Image Description: A Systematic Review | |
Maree | Multimedia context interpretation: a semantics-based cooperative indexing approach | |
CN113657116B (zh) | 基于视觉语义关系的社交媒体流行度预测方法及装置 | |
Razis et al. | Latent twitter image information for social analytics | |
Zhu et al. | Question answering on agricultural knowledge graph based on multi-label text classification | |
Agarwal et al. | Convtab: A context-preserving, convolutional model for ad-hoc table retrieval |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |