CN113609365A - 一种中医古籍数据收集整理系统 - Google Patents
一种中医古籍数据收集整理系统 Download PDFInfo
- Publication number
- CN113609365A CN113609365A CN202110920495.XA CN202110920495A CN113609365A CN 113609365 A CN113609365 A CN 113609365A CN 202110920495 A CN202110920495 A CN 202110920495A CN 113609365 A CN113609365 A CN 113609365A
- Authority
- CN
- China
- Prior art keywords
- ancient book
- traditional chinese
- chinese medicine
- electronic file
- ancient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013480 data collection Methods 0.000 title description 2
- 239000003814 drug Substances 0.000 claims abstract description 54
- 201000010099 disease Diseases 0.000 claims abstract description 14
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 14
- 230000009471 action Effects 0.000 claims description 11
- 238000000034 method Methods 0.000 claims description 6
- 102100032202 Cornulin Human genes 0.000 claims description 4
- 101000920981 Homo sapiens Cornulin Proteins 0.000 claims description 4
- 238000004040 coloring Methods 0.000 claims description 4
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 230000009193 crawling Effects 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000001124 body fluid Anatomy 0.000 description 1
- 239000010839 body fluid Substances 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000008506 pathogenesis Effects 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 230000001225 therapeutic effect Effects 0.000 description 1
- 229940126680 traditional chinese medicines Drugs 0.000 description 1
- 230000009278 visceral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
Abstract
本发明公开了一种中医古籍数据收集整理系统,包括:图像采集模块,用于实现中医古籍图像的采集;古籍电子档生成模块,用于根据中医古籍图像内载的文本及文本格式生成对应的古籍电子档;古籍电子档标记模块,用于实现古籍电子档内载药方名称、中药名称、文献名称、疾病名称等的识别,并为每一个药方名称、中药名称、文献名称、疾病名称配置一详情超链接;古籍电子档整理模块,用于实现古籍电子档的排序,生成中医古籍文献。本发明在可以实现中医古籍数据快速整理的同时,实现了其内载药方名称、中药名称、文献名称、疾病名称、专有名词和专业术语的注释,从而大大方便了用户对中医古籍数据的查阅和理解。
Description
技术领域
本发明涉及中医古籍管理领域,具体涉及一种中医古籍数据收集整理系统。
背景技术
在中医领域,从原始社会诞生并不断发展变化的中医学积累了大量的医学文献古籍著作。这些文献著作数量庞大、内容繁杂,种类多样,包括精气学说、阴阳五行学说、气血津液、藏象、经络、体质、病因、发病、病机、治则、养生等。它们中大多使用文言文或古人的口语、歌诀进行记载,书写方式,成书年代都有所不同,与现代汉语有着较大的区别。并且,包含很多中医领域的专有名词和专业术语,人们在查阅的过程中很容易存在理解的偏差。必须借助计算机技术等现代化手段,提供有效的数字化中医药知识元数据,才能更好地在中医古籍宝库中挖掘有价值的知识。
目前,现有的中医药古籍数据库虽然可以实现检索的功能,但是检索所得信息仍然需要使用者去分析,才能够为研究工作提供信息支撑。同时,中医古籍整理的过程需要人为花费大量的时间和精力,费时费力的同时,容易出错。
发明内容
为解决上述问题,本发明提供了一种中医古籍数据收集整理系统,在可以实现中医古籍数据快速整理的同时,实现了其内载药方名称、中药名称、文献名称、疾病名称、专有名词和专业术语的注释,从而大大方便了用户对中医古籍数据的查阅和理解。
为实现上述目的,本发明采取的技术方案为:
一种中医古籍数据收集整理系统,包括:
图像采集模块,用于实现中医古籍图像的采集;
古籍电子档生成模块,用于根据中医古籍图像内载的文本及文本格式生成对应的古籍电子档;
古籍电子档标记模块,用于实现古籍电子档内载药方名称、中药名称、文献名称、疾病名称等的识别,并为每一个药方名称、中药名称、文献名称、疾病名称配置一详情超链接;
古籍电子档整理模块,用于实现古籍电子档的排序,为每一个古籍电子档找到其适配的位置,并建立其与相关古籍电子档之间的关联关系,生成中医古籍文献。
进一步地,所述图像采集模块包括镜框、安装在镜框前侧的双目视觉传感器以及用于实现翻书动作识别的内嵌安装在指环内的三维姿态传感器,用于实现用户翻阅中医古籍视频以及翻书动作覆盖时间点的采集。
进一步地,所述古籍电子档生成模块首先调用视频取帧脚本,基于翻书动作覆盖时间点获取目标中医古籍图像,得到中医古籍图像集,然后基于CTPN+CRNN实现中医古籍图像内载的文本的定位和识别,从反而获取到中医古籍图像内载的文本及文本格式,生成对应的古籍电子档。
进一步地,通过点击详情超链接可以直接实现药方详情、中药详情、文献详情、疾病详情的查看。
进一步地,还包括:
古籍注释模块,用于基于中医古籍词典实现古籍电子档内载专有名词和专业术语的识别,并实现为每一个专有名词和专业术语配置一注释超链接。
古籍电子档审核模块,用于基于中医古籍词典实现古籍电子档内载文本的审核,并以着色标记的方式实现疑似错误位置的反馈。
进一步地,所述中医古籍词典基于网络爬虫模块在预设的网络基站上爬取对应的中医文献集,经人工+机器学习整理所得。
进一步地,还包括:
检索关键字生成模块,用于生成每一页古籍电子档的检索关键字,并构建各检索关键字之间的关系。
本发明具有以下有益效果:
1)在可以实现中医古籍数据快速整理的同时,实现了其内载药方名称、中药名称、文献名称、疾病名称、专有名词和专业术语的注释,从而大大方便了用户对中医古籍数据的查阅和理解。
2)基于图像采集模块+古籍电子档生成模块的设计,实现了中医古籍图像集的快速采集及其内载信息的识别整理,在可以减轻工作量的同时,可以很好的避免人为错误;
附图说明
图1为本发明实施例一种中医古籍数据收集整理系统的系统框图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
如图1所示,一种中医古籍数据收集整理系统,包括:
图像采集模块,用于实现中医古籍图像的采集;
古籍电子档生成模块,用于根据中医古籍图像内载的文本及文本格式生成对应的古籍电子档;
古籍电子档标记模块,用于实现古籍电子档内载药方名称、中药名称、文献名称、疾病名称等的识别,并为每一个药方名称、中药名称、文献名称、疾病名称配置一详情超链接;通过点击详情超链接可以直接实现药方详情、中药详情、文献详情、疾病详情的查看;
古籍注释模块,用于基于中医古籍词典实现古籍电子档内载专有名词和专业术语的识别,并实现为每一个专有名词和专业术语配置一注释超链接;
古籍电子档审核模块,用于基于中医古籍词典实现古籍电子档内载文本的审核,并以着色标记的方式实现疑似错误位置的反馈。反馈时,以弹出对话框的形式实现,弹出对话框内载携带有着色标记的疑似错误位置文本以及参考正确文本,用于点击“修订”即可直接进入疑似错误位置文本的修订界面,点击“无误”,则跳过该疑似错误位置继续进行下一处疑似错误位置的反馈。
古籍电子档整理模块,用于实现古籍电子档的排序,为每一个古籍电子档找到其适配的位置,并建立其与相关古籍电子档之间的关联关系,生成中医古籍文献;基于刻面技术来实现古籍电子档定位,通过计算不同古籍电子档术语间的刻面距离来准确定位古籍电子档;在定位古籍电子档时,在已知刻面的约束下选择相应的术语,以此来完成对所需古籍电子档的描述,如果选择成功,则返回相应的古籍电子档;如果选择不成功,则根据同义词词典和概念距离图计算术语的相似性,形成新的定位信息。
检索关键字生成模块,用于生成每一页古籍电子档的检索关键字,并构建各检索关键字之间的关系。通过检索关键字可以实现古籍电子档的快速查询。
本实施例中,所述图像采集模块包括镜框、安装在镜框前侧的双目视觉传感器以及用于实现翻书动作识别的内嵌安装在指环内的三维姿态传感器,用于实现用户翻阅中医古籍视频以及翻书动作覆盖时间点的采集。
本实施例中,所述古籍电子档生成模块首先调用视频取帧脚本,基于翻书动作覆盖时间点获取目标中医古籍图像,得到中医古籍图像集,然后基于CTPN+CRNN实现中医古籍图像内载的文本的定位和识别,从反而获取到中医古籍图像内载的文本及文本格式,生成对应的古籍电子档。具体的,剔除翻书动作覆盖时间点对应的视频帧,剩余的视频帧即对应目标中医古籍图像。
本具体实施通过中医古籍翻阅视频以及翻书动作覆盖时间点的采集,可以直接实现目标中医古籍图像的采集,从而大大缩短了中药古籍图像采集过程所花费的时间;通过CTPN+CRNN实现中医古籍图像内载的文本的定位和识别,从反而获取到中医古籍图像内载的文本及文本格式,生成对应的古籍电子档,从而大大缩短了从中医古籍图像到中医古籍文本转化所花费的时间。
本实施例中,所述中医古籍词典基于网络爬虫模块在预设的网络基站上爬取对应的中医文献集,经人工+机器学习整理所得。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。
Claims (7)
1.一种中医古籍数据收集整理系统,其特征在于:包括:
图像采集模块,用于实现中医古籍图像的采集;
古籍电子档生成模块,用于根据中医古籍图像内载的文本及文本格式生成对应的古籍电子档;
古籍电子档标记模块,用于实现古籍电子档内载药方名称、中药名称、文献名称、疾病名称的识别,并为每一个药方名称、中药名称、文献名称、疾病名称配置一详情超链接;
古籍电子档整理模块,用于实现古籍电子档的排序,为每一个古籍电子档找到其适配的位置,并建立其与相关古籍电子档之间的关联关系,生成中医古籍文献。
2.如权利要求1所述的一种中医古籍数据收集整理系统,其特征在于:所述图像采集模块包括镜框、安装在镜框前侧的双目视觉传感器以及用于实现翻书动作识别的内嵌安装在指环内的三维姿态传感器,用于实现用户翻阅中医古籍视频以及翻书动作覆盖时间点的采集。
3.如权利要求1所述的一种中医古籍数据收集整理系统,其特征在于:所述古籍电子档生成模块首先调用视频取帧脚本,基于翻书动作覆盖时间点获取目标中医古籍图像,得到中医古籍图像集,然后基于CTPN+CRNN实现中医古籍图像内载的文本的定位和识别,从反而获取到中医古籍图像内载的文本及文本格式,生成对应的古籍电子档。
4.如权利要求1所述的一种中医古籍数据收集整理系统,其特征在于:通过点击详情超链接可以直接实现药方详情、中药详情、文献详情、疾病详情的查看。
5.如权利要求1所述的一种中医古籍数据收集整理系统,其特征在于:还包括:
古籍注释模块,用于基于中医古籍词典实现古籍电子档内载专有名词和专业术语的识别,并实现为每一个专有名词和专业术语配置一注释超链接;
古籍电子档审核模块,用于基于中医古籍词典实现古籍电子档内载文本的审核,并以着色标记的方式实现疑似错误位置的反馈。
6.如权利要求5所述的一种中医古籍数据收集整理系统,其特征在于:所述中医古籍词典基于网络爬虫模块在预设的网络基站上爬取对应的中医文献集,经人工+机器学习整理所得。
7.如权利要求1所述的一种中医古籍数据收集整理系统,其特征在于:还包括:
检索关键字生成模块,用于生成每一页古籍电子档的检索关键字,并构建各检索关键字之间的关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110920495.XA CN113609365A (zh) | 2021-08-11 | 2021-08-11 | 一种中医古籍数据收集整理系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110920495.XA CN113609365A (zh) | 2021-08-11 | 2021-08-11 | 一种中医古籍数据收集整理系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113609365A true CN113609365A (zh) | 2021-11-05 |
Family
ID=78340313
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110920495.XA Pending CN113609365A (zh) | 2021-08-11 | 2021-08-11 | 一种中医古籍数据收集整理系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113609365A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115563118A (zh) * | 2022-10-18 | 2023-01-03 | 黑龙江中医药大学 | 一种基于数据分析的古籍文献收集整理系统及方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100100383A1 (en) * | 2008-10-17 | 2010-04-22 | Aibelive Co., Ltd. | System and method for searching webpage with voice control |
CN103179315A (zh) * | 2011-12-20 | 2013-06-26 | 长沙鹏阳信息技术有限公司 | 连续视频图像处理的纸质文档扫描仪及扫描方法 |
CN104750662A (zh) * | 2015-03-27 | 2015-07-01 | 西藏藏医学院 | 一种藏医药理论孤本古籍文献的抢救、整理与保护方法 |
CN206411669U (zh) * | 2016-08-31 | 2017-08-15 | 天津赛因哲信息技术有限公司 | 一种SaaS古籍知识服务云平台 |
CN109919147A (zh) * | 2019-03-04 | 2019-06-21 | 上海宝尊电子商务有限公司 | 服装吊牌图像中文本识别的方法 |
CN110765926A (zh) * | 2019-10-21 | 2020-02-07 | 杭州易现先进科技有限公司 | 图画书识别方法、装置、电子设备和存储介质 |
CN111507351A (zh) * | 2020-04-16 | 2020-08-07 | 华南理工大学 | 一种古籍文档数字化的方法 |
CN112784594A (zh) * | 2020-06-05 | 2021-05-11 | 珠海金山办公软件有限公司 | 一种文档处理方法、装置、电子设备及可读存储介质 |
-
2021
- 2021-08-11 CN CN202110920495.XA patent/CN113609365A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100100383A1 (en) * | 2008-10-17 | 2010-04-22 | Aibelive Co., Ltd. | System and method for searching webpage with voice control |
CN103179315A (zh) * | 2011-12-20 | 2013-06-26 | 长沙鹏阳信息技术有限公司 | 连续视频图像处理的纸质文档扫描仪及扫描方法 |
CN104750662A (zh) * | 2015-03-27 | 2015-07-01 | 西藏藏医学院 | 一种藏医药理论孤本古籍文献的抢救、整理与保护方法 |
CN206411669U (zh) * | 2016-08-31 | 2017-08-15 | 天津赛因哲信息技术有限公司 | 一种SaaS古籍知识服务云平台 |
CN109919147A (zh) * | 2019-03-04 | 2019-06-21 | 上海宝尊电子商务有限公司 | 服装吊牌图像中文本识别的方法 |
CN110765926A (zh) * | 2019-10-21 | 2020-02-07 | 杭州易现先进科技有限公司 | 图画书识别方法、装置、电子设备和存储介质 |
CN111507351A (zh) * | 2020-04-16 | 2020-08-07 | 华南理工大学 | 一种古籍文档数字化的方法 |
CN112784594A (zh) * | 2020-06-05 | 2021-05-11 | 珠海金山办公软件有限公司 | 一种文档处理方法、装置、电子设备及可读存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115563118A (zh) * | 2022-10-18 | 2023-01-03 | 黑龙江中医药大学 | 一种基于数据分析的古籍文献收集整理系统及方法 |
CN115563118B (zh) * | 2022-10-18 | 2023-04-21 | 黑龙江中医药大学 | 一种基于数据分析的古籍文献收集整理系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mathew et al. | Docvqa: A dataset for vqa on document images | |
CN111316281B (zh) | 基于机器学习的自然语言情境中数值数据的语义分类方法以及系统 | |
CN110750959A (zh) | 文本信息处理的方法、模型训练的方法以及相关装置 | |
RU2711305C2 (ru) | Связывание отчета / изображения | |
CN112154509A (zh) | 具有用于文本注释的演变领域特异性词典特征的机器学习模型 | |
Ahmad et al. | Kpti: Katib's pashto text imagebase and deep learning benchmark | |
Wemhoener et al. | Creating an improved version using noisy OCR from multiple editions | |
CN111190920B (zh) | 一种基于自然语言的数据交互查询方法及其系统 | |
Roller et al. | Cross-lingual candidate search for biomedical concept normalization | |
CN111523316A (zh) | 基于机器学习的药物识别方法及相关设备 | |
CN112035757A (zh) | 医疗瀑布流推送方法、装置、设备及存储介质 | |
CN113297852B (zh) | 一种医学实体词的识别方法和装置 | |
CN113609365A (zh) | 一种中医古籍数据收集整理系统 | |
Quirós et al. | From HMMs to RNNs: computer-assisted transcription of a handwritten notarial records collection | |
CN113469163B (zh) | 一种基于智能纸笔的医疗信息记录方法和装置 | |
Farahani et al. | Automatic chart understanding: a review | |
CN116671918A (zh) | 基于脑电信号的情绪识别方法和装置、电子设备及介质 | |
CN111180076B (zh) | 一种基于多层语义分析的医疗信息提取方法 | |
CN109657207B (zh) | 条款的格式化处理方法和处理装置 | |
CN105989094A (zh) | 基于隐层语义中层表达的图像检索方法 | |
Erjavec et al. | Slovenian Biography. | |
Marcelli et al. | A model for evaluating the performance of a multiple keywords spotting system for the transcription of historical handwritten documents | |
Shen et al. | MaRU: A Manga Retrieval and Understanding System Connecting Vision and Language | |
JP2003323441A (ja) | イメージカルテ管理システム | |
Pham et al. | KTVIC: A Vietnamese Image Captioning Dataset on the Life Domain |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |