CN113609365A - 一种中医古籍数据收集整理系统 - Google Patents

一种中医古籍数据收集整理系统 Download PDF

Info

Publication number
CN113609365A
CN113609365A CN202110920495.XA CN202110920495A CN113609365A CN 113609365 A CN113609365 A CN 113609365A CN 202110920495 A CN202110920495 A CN 202110920495A CN 113609365 A CN113609365 A CN 113609365A
Authority
CN
China
Prior art keywords
ancient book
traditional chinese
chinese medicine
electronic file
ancient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110920495.XA
Other languages
English (en)
Inventor
周艳红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shaanxi University of Chinese Medicine
Original Assignee
Shaanxi University of Chinese Medicine
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shaanxi University of Chinese Medicine filed Critical Shaanxi University of Chinese Medicine
Priority to CN202110920495.XA priority Critical patent/CN113609365A/zh
Publication of CN113609365A publication Critical patent/CN113609365A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures

Abstract

本发明公开了一种中医古籍数据收集整理系统,包括:图像采集模块,用于实现中医古籍图像的采集;古籍电子档生成模块,用于根据中医古籍图像内载的文本及文本格式生成对应的古籍电子档;古籍电子档标记模块,用于实现古籍电子档内载药方名称、中药名称、文献名称、疾病名称等的识别,并为每一个药方名称、中药名称、文献名称、疾病名称配置一详情超链接;古籍电子档整理模块,用于实现古籍电子档的排序,生成中医古籍文献。本发明在可以实现中医古籍数据快速整理的同时,实现了其内载药方名称、中药名称、文献名称、疾病名称、专有名词和专业术语的注释,从而大大方便了用户对中医古籍数据的查阅和理解。

Description

一种中医古籍数据收集整理系统
技术领域
本发明涉及中医古籍管理领域,具体涉及一种中医古籍数据收集整理系统。
背景技术
在中医领域,从原始社会诞生并不断发展变化的中医学积累了大量的医学文献古籍著作。这些文献著作数量庞大、内容繁杂,种类多样,包括精气学说、阴阳五行学说、气血津液、藏象、经络、体质、病因、发病、病机、治则、养生等。它们中大多使用文言文或古人的口语、歌诀进行记载,书写方式,成书年代都有所不同,与现代汉语有着较大的区别。并且,包含很多中医领域的专有名词和专业术语,人们在查阅的过程中很容易存在理解的偏差。必须借助计算机技术等现代化手段,提供有效的数字化中医药知识元数据,才能更好地在中医古籍宝库中挖掘有价值的知识。
目前,现有的中医药古籍数据库虽然可以实现检索的功能,但是检索所得信息仍然需要使用者去分析,才能够为研究工作提供信息支撑。同时,中医古籍整理的过程需要人为花费大量的时间和精力,费时费力的同时,容易出错。
发明内容
为解决上述问题,本发明提供了一种中医古籍数据收集整理系统,在可以实现中医古籍数据快速整理的同时,实现了其内载药方名称、中药名称、文献名称、疾病名称、专有名词和专业术语的注释,从而大大方便了用户对中医古籍数据的查阅和理解。
为实现上述目的,本发明采取的技术方案为:
一种中医古籍数据收集整理系统,包括:
图像采集模块,用于实现中医古籍图像的采集;
古籍电子档生成模块,用于根据中医古籍图像内载的文本及文本格式生成对应的古籍电子档;
古籍电子档标记模块,用于实现古籍电子档内载药方名称、中药名称、文献名称、疾病名称等的识别,并为每一个药方名称、中药名称、文献名称、疾病名称配置一详情超链接;
古籍电子档整理模块,用于实现古籍电子档的排序,为每一个古籍电子档找到其适配的位置,并建立其与相关古籍电子档之间的关联关系,生成中医古籍文献。
进一步地,所述图像采集模块包括镜框、安装在镜框前侧的双目视觉传感器以及用于实现翻书动作识别的内嵌安装在指环内的三维姿态传感器,用于实现用户翻阅中医古籍视频以及翻书动作覆盖时间点的采集。
进一步地,所述古籍电子档生成模块首先调用视频取帧脚本,基于翻书动作覆盖时间点获取目标中医古籍图像,得到中医古籍图像集,然后基于CTPN+CRNN实现中医古籍图像内载的文本的定位和识别,从反而获取到中医古籍图像内载的文本及文本格式,生成对应的古籍电子档。
进一步地,通过点击详情超链接可以直接实现药方详情、中药详情、文献详情、疾病详情的查看。
进一步地,还包括:
古籍注释模块,用于基于中医古籍词典实现古籍电子档内载专有名词和专业术语的识别,并实现为每一个专有名词和专业术语配置一注释超链接。
古籍电子档审核模块,用于基于中医古籍词典实现古籍电子档内载文本的审核,并以着色标记的方式实现疑似错误位置的反馈。
进一步地,所述中医古籍词典基于网络爬虫模块在预设的网络基站上爬取对应的中医文献集,经人工+机器学习整理所得。
进一步地,还包括:
检索关键字生成模块,用于生成每一页古籍电子档的检索关键字,并构建各检索关键字之间的关系。
本发明具有以下有益效果:
1)在可以实现中医古籍数据快速整理的同时,实现了其内载药方名称、中药名称、文献名称、疾病名称、专有名词和专业术语的注释,从而大大方便了用户对中医古籍数据的查阅和理解。
2)基于图像采集模块+古籍电子档生成模块的设计,实现了中医古籍图像集的快速采集及其内载信息的识别整理,在可以减轻工作量的同时,可以很好的避免人为错误;
附图说明
图1为本发明实施例一种中医古籍数据收集整理系统的系统框图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
如图1所示,一种中医古籍数据收集整理系统,包括:
图像采集模块,用于实现中医古籍图像的采集;
古籍电子档生成模块,用于根据中医古籍图像内载的文本及文本格式生成对应的古籍电子档;
古籍电子档标记模块,用于实现古籍电子档内载药方名称、中药名称、文献名称、疾病名称等的识别,并为每一个药方名称、中药名称、文献名称、疾病名称配置一详情超链接;通过点击详情超链接可以直接实现药方详情、中药详情、文献详情、疾病详情的查看;
古籍注释模块,用于基于中医古籍词典实现古籍电子档内载专有名词和专业术语的识别,并实现为每一个专有名词和专业术语配置一注释超链接;
古籍电子档审核模块,用于基于中医古籍词典实现古籍电子档内载文本的审核,并以着色标记的方式实现疑似错误位置的反馈。反馈时,以弹出对话框的形式实现,弹出对话框内载携带有着色标记的疑似错误位置文本以及参考正确文本,用于点击“修订”即可直接进入疑似错误位置文本的修订界面,点击“无误”,则跳过该疑似错误位置继续进行下一处疑似错误位置的反馈。
古籍电子档整理模块,用于实现古籍电子档的排序,为每一个古籍电子档找到其适配的位置,并建立其与相关古籍电子档之间的关联关系,生成中医古籍文献;基于刻面技术来实现古籍电子档定位,通过计算不同古籍电子档术语间的刻面距离来准确定位古籍电子档;在定位古籍电子档时,在已知刻面的约束下选择相应的术语,以此来完成对所需古籍电子档的描述,如果选择成功,则返回相应的古籍电子档;如果选择不成功,则根据同义词词典和概念距离图计算术语的相似性,形成新的定位信息。
检索关键字生成模块,用于生成每一页古籍电子档的检索关键字,并构建各检索关键字之间的关系。通过检索关键字可以实现古籍电子档的快速查询。
本实施例中,所述图像采集模块包括镜框、安装在镜框前侧的双目视觉传感器以及用于实现翻书动作识别的内嵌安装在指环内的三维姿态传感器,用于实现用户翻阅中医古籍视频以及翻书动作覆盖时间点的采集。
本实施例中,所述古籍电子档生成模块首先调用视频取帧脚本,基于翻书动作覆盖时间点获取目标中医古籍图像,得到中医古籍图像集,然后基于CTPN+CRNN实现中医古籍图像内载的文本的定位和识别,从反而获取到中医古籍图像内载的文本及文本格式,生成对应的古籍电子档。具体的,剔除翻书动作覆盖时间点对应的视频帧,剩余的视频帧即对应目标中医古籍图像。
本具体实施通过中医古籍翻阅视频以及翻书动作覆盖时间点的采集,可以直接实现目标中医古籍图像的采集,从而大大缩短了中药古籍图像采集过程所花费的时间;通过CTPN+CRNN实现中医古籍图像内载的文本的定位和识别,从反而获取到中医古籍图像内载的文本及文本格式,生成对应的古籍电子档,从而大大缩短了从中医古籍图像到中医古籍文本转化所花费的时间。
本实施例中,所述中医古籍词典基于网络爬虫模块在预设的网络基站上爬取对应的中医文献集,经人工+机器学习整理所得。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。

Claims (7)

1.一种中医古籍数据收集整理系统,其特征在于:包括:
图像采集模块,用于实现中医古籍图像的采集;
古籍电子档生成模块,用于根据中医古籍图像内载的文本及文本格式生成对应的古籍电子档;
古籍电子档标记模块,用于实现古籍电子档内载药方名称、中药名称、文献名称、疾病名称的识别,并为每一个药方名称、中药名称、文献名称、疾病名称配置一详情超链接;
古籍电子档整理模块,用于实现古籍电子档的排序,为每一个古籍电子档找到其适配的位置,并建立其与相关古籍电子档之间的关联关系,生成中医古籍文献。
2.如权利要求1所述的一种中医古籍数据收集整理系统,其特征在于:所述图像采集模块包括镜框、安装在镜框前侧的双目视觉传感器以及用于实现翻书动作识别的内嵌安装在指环内的三维姿态传感器,用于实现用户翻阅中医古籍视频以及翻书动作覆盖时间点的采集。
3.如权利要求1所述的一种中医古籍数据收集整理系统,其特征在于:所述古籍电子档生成模块首先调用视频取帧脚本,基于翻书动作覆盖时间点获取目标中医古籍图像,得到中医古籍图像集,然后基于CTPN+CRNN实现中医古籍图像内载的文本的定位和识别,从反而获取到中医古籍图像内载的文本及文本格式,生成对应的古籍电子档。
4.如权利要求1所述的一种中医古籍数据收集整理系统,其特征在于:通过点击详情超链接可以直接实现药方详情、中药详情、文献详情、疾病详情的查看。
5.如权利要求1所述的一种中医古籍数据收集整理系统,其特征在于:还包括:
古籍注释模块,用于基于中医古籍词典实现古籍电子档内载专有名词和专业术语的识别,并实现为每一个专有名词和专业术语配置一注释超链接;
古籍电子档审核模块,用于基于中医古籍词典实现古籍电子档内载文本的审核,并以着色标记的方式实现疑似错误位置的反馈。
6.如权利要求5所述的一种中医古籍数据收集整理系统,其特征在于:所述中医古籍词典基于网络爬虫模块在预设的网络基站上爬取对应的中医文献集,经人工+机器学习整理所得。
7.如权利要求1所述的一种中医古籍数据收集整理系统,其特征在于:还包括:
检索关键字生成模块,用于生成每一页古籍电子档的检索关键字,并构建各检索关键字之间的关系。
CN202110920495.XA 2021-08-11 2021-08-11 一种中医古籍数据收集整理系统 Pending CN113609365A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110920495.XA CN113609365A (zh) 2021-08-11 2021-08-11 一种中医古籍数据收集整理系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110920495.XA CN113609365A (zh) 2021-08-11 2021-08-11 一种中医古籍数据收集整理系统

Publications (1)

Publication Number Publication Date
CN113609365A true CN113609365A (zh) 2021-11-05

Family

ID=78340313

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110920495.XA Pending CN113609365A (zh) 2021-08-11 2021-08-11 一种中医古籍数据收集整理系统

Country Status (1)

Country Link
CN (1) CN113609365A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115563118A (zh) * 2022-10-18 2023-01-03 黑龙江中医药大学 一种基于数据分析的古籍文献收集整理系统及方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100100383A1 (en) * 2008-10-17 2010-04-22 Aibelive Co., Ltd. System and method for searching webpage with voice control
CN103179315A (zh) * 2011-12-20 2013-06-26 长沙鹏阳信息技术有限公司 连续视频图像处理的纸质文档扫描仪及扫描方法
CN104750662A (zh) * 2015-03-27 2015-07-01 西藏藏医学院 一种藏医药理论孤本古籍文献的抢救、整理与保护方法
CN206411669U (zh) * 2016-08-31 2017-08-15 天津赛因哲信息技术有限公司 一种SaaS古籍知识服务云平台
CN109919147A (zh) * 2019-03-04 2019-06-21 上海宝尊电子商务有限公司 服装吊牌图像中文本识别的方法
CN110765926A (zh) * 2019-10-21 2020-02-07 杭州易现先进科技有限公司 图画书识别方法、装置、电子设备和存储介质
CN111507351A (zh) * 2020-04-16 2020-08-07 华南理工大学 一种古籍文档数字化的方法
CN112784594A (zh) * 2020-06-05 2021-05-11 珠海金山办公软件有限公司 一种文档处理方法、装置、电子设备及可读存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100100383A1 (en) * 2008-10-17 2010-04-22 Aibelive Co., Ltd. System and method for searching webpage with voice control
CN103179315A (zh) * 2011-12-20 2013-06-26 长沙鹏阳信息技术有限公司 连续视频图像处理的纸质文档扫描仪及扫描方法
CN104750662A (zh) * 2015-03-27 2015-07-01 西藏藏医学院 一种藏医药理论孤本古籍文献的抢救、整理与保护方法
CN206411669U (zh) * 2016-08-31 2017-08-15 天津赛因哲信息技术有限公司 一种SaaS古籍知识服务云平台
CN109919147A (zh) * 2019-03-04 2019-06-21 上海宝尊电子商务有限公司 服装吊牌图像中文本识别的方法
CN110765926A (zh) * 2019-10-21 2020-02-07 杭州易现先进科技有限公司 图画书识别方法、装置、电子设备和存储介质
CN111507351A (zh) * 2020-04-16 2020-08-07 华南理工大学 一种古籍文档数字化的方法
CN112784594A (zh) * 2020-06-05 2021-05-11 珠海金山办公软件有限公司 一种文档处理方法、装置、电子设备及可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115563118A (zh) * 2022-10-18 2023-01-03 黑龙江中医药大学 一种基于数据分析的古籍文献收集整理系统及方法
CN115563118B (zh) * 2022-10-18 2023-04-21 黑龙江中医药大学 一种基于数据分析的古籍文献收集整理系统及方法

Similar Documents

Publication Publication Date Title
Mathew et al. Docvqa: A dataset for vqa on document images
CN111316281B (zh) 基于机器学习的自然语言情境中数值数据的语义分类方法以及系统
CN110750959A (zh) 文本信息处理的方法、模型训练的方法以及相关装置
RU2711305C2 (ru) Связывание отчета / изображения
CN112154509A (zh) 具有用于文本注释的演变领域特异性词典特征的机器学习模型
Ahmad et al. Kpti: Katib's pashto text imagebase and deep learning benchmark
Wemhoener et al. Creating an improved version using noisy OCR from multiple editions
CN111190920B (zh) 一种基于自然语言的数据交互查询方法及其系统
Roller et al. Cross-lingual candidate search for biomedical concept normalization
CN111523316A (zh) 基于机器学习的药物识别方法及相关设备
CN112035757A (zh) 医疗瀑布流推送方法、装置、设备及存储介质
CN113297852B (zh) 一种医学实体词的识别方法和装置
CN113609365A (zh) 一种中医古籍数据收集整理系统
Quirós et al. From HMMs to RNNs: computer-assisted transcription of a handwritten notarial records collection
CN113469163B (zh) 一种基于智能纸笔的医疗信息记录方法和装置
Farahani et al. Automatic chart understanding: a review
CN116671918A (zh) 基于脑电信号的情绪识别方法和装置、电子设备及介质
CN111180076B (zh) 一种基于多层语义分析的医疗信息提取方法
CN109657207B (zh) 条款的格式化处理方法和处理装置
CN105989094A (zh) 基于隐层语义中层表达的图像检索方法
Erjavec et al. Slovenian Biography.
Marcelli et al. A model for evaluating the performance of a multiple keywords spotting system for the transcription of historical handwritten documents
Shen et al. MaRU: A Manga Retrieval and Understanding System Connecting Vision and Language
JP2003323441A (ja) イメージカルテ管理システム
Pham et al. KTVIC: A Vietnamese Image Captioning Dataset on the Life Domain

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination