CN114332875A - 一种笔记卡片结构化方法 - Google Patents
一种笔记卡片结构化方法 Download PDFInfo
- Publication number
- CN114332875A CN114332875A CN202111683575.4A CN202111683575A CN114332875A CN 114332875 A CN114332875 A CN 114332875A CN 202111683575 A CN202111683575 A CN 202111683575A CN 114332875 A CN114332875 A CN 114332875A
- Authority
- CN
- China
- Prior art keywords
- note
- metadata
- identifier
- structuring
- card
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种笔记卡片结构化方法,方法包括:设定一类元数据识别符,元数据识别符包括元数据标记图和元数据类别符,元数据识别符用于对笔记内容进行元数据标识,用户在记录笔记时若需对笔记内容进行标识,则输入元数据识别符;识别系统将笔记内容识别为笔记数据块,若识别到元数据识别符,则将该元数据识别符识别为相应的标识指令,赋予所标识的笔记数据块以相应的元数据内涵,并依据其内涵对笔记数据块进行结构化。本发明便于对笔记卡片进行数字化和结构化的归类整理。
Description
技术领域
本发明涉及信息识别结构化处理领域,特别涉及一种将笔记卡片进行数字化的方法。
背景技术
随时记录笔记是一种良好的学习习惯和方法,尤其是在信息爆炸和知识碎片化严重的当下,如何有效地记录和整理信息,是构建个人知识库、进行系统学习所必然面临的问题。
常见的笔记记录方式可分为纸张记录和数字记录,纸张记录通常手写在笔记本纸张、笔记卡片上,数字记录常见的是电子记事本、平板电脑、手机或电脑等,可以是手写原笔迹,或直接输入文字。纸张记录简单便利、成本低廉,便于保存,但不利于对碎片化的笔记进行整理、重构。数字记录可以是手写原笔迹,也可以通过手写或输入法直接输入文字,便于检索,但设备较贵、携带不便,且可视面积小,进行知识重构时较难体现宏观结构。同时,手写笔记的识别是数字化和结构化的重大障碍,如何提升对笔记内容进行结构化标记的识别性,也是一个重要课题。
对于需要随时记录笔记,并需要在后期进行宏观的知识重构的用户而言,有必要提供一种既能随时记录、成本低廉,也可以同时实现笔记的结构化,并进行笔记重构的方法。
发明内容
本发明提供了一种笔记卡片结构化方法,通过设定的元数据识别符,对笔记内容被识别后的笔记数据块进行结构化标记,当笔记结构化系统在识别笔记卡片时,赋予相应笔记内容以特定的元数据内涵,并对此其进行结构化。
具体而言,设定一类元数据识别符,用户在笔记卡片上记录笔记时输入元数据识别符,对笔记内容进行标识;笔记结构化系统识别笔记卡片,将笔记内容数字化为笔记数据块,若遇到元数据识别符,则将该元数据识别符的元数据内涵赋予该笔记数据块,将该笔记数据块按照元数据内涵所定义的结构行为进行处理;所述元数据标识符包括元数据标记图和元数据类别符;笔记结构化系统将每一张笔记卡片上的所有笔记内容识别为一张虚拟笔记卡,作为笔记的基本单位,将被元数据标识符标记的笔记内容识别为结构化的笔记数据块。
还包括一个结构化数据源,笔记结构化系统在识别被赋予了元数据内涵的笔记内容后,从结构化数据源中的具有同类元数据内涵的笔记数据块中进行检索,对相似的笔记数据块进行新增、归类、合并、替换、修正操作。
更优化地,所述元数据类别符至少包括编号、主题、关键字、来源、引文、分类这几种类别,分别赋予所标记的笔记内容以编号、主题、关键字、来源、引文、分类的元数据内涵。也可以设定档元数据类别符缺失时,默认为某一种元数据类别。
为使笔记结构化系统在扫描笔记时能够自动识别笔记卡片方向,所述元数据类别符还包括一个方向标识符,该方向标识符为笔记卡片的整体指示方向。
更优化地,元数据标记图为圆形,元数据类别符的编号、主题、关键字、来源、引文、分类为标注在圆形内的图形、字母,方向标识符为半边填充色半边空白的圆形。
为了用尽量少的元数据标识符标记大片区域,元数据标识符还包括一种区域标识符,区域标识符的元数据标记图是在圆形外还有两条自圆圈向外延伸的射线,圆圈内为元数据类别符;一对区域标识符分别位于区域整体的对角;笔记结构化系统识别到该对区域标识符后,将其该对区域标识符的射线延伸后所框的区域作为一个整体区域进行存储,对其内部可识别的文字进行识别,并将识别出的词语设定为该区域的关键字。
元数据标识符还包括一种连续标识符,用于标记连续多行或多个文字,连续标识符的元数据标记图是在圆形外还有一条自圆圈向一个方向延伸的射线,圆圈内为元数据类别符;该连续标识符单独使用,当射线为竖向时则跨多行,当射线为横向时则跨多个字;笔记结构化系统识别到该连续标识符后,将该连续标识符所所有行的笔记数据块、所跨的多个文字赋予该元数据类别的内涵。
一般而言,对笔记数据块的标记以元数据标识符开始,以空白或标点符号结束。笔记结构化系统在识别到元数据标识符后,对紧接其后的笔记内容进行识别直至空白、标点处为止作为该笔记数据块,将该笔记数据块赋予该元数据标识符内元数据类别符相应的元数据内涵。
对笔记数据进行结构化整理时,将编号元数据绑定到所在的虚拟笔记卡作为该虚拟笔记卡的固定且唯一的编号;将具有相同主题、分类元数据的虚拟笔记卡归并到相同组;当结构化数据库中存在多个具有相似度的来源、关键字、引文笔记数据块时,则将其所在虚拟笔记卡自动生成相互链接形成笔记网络。
所述笔记卡片是纸质卡片,或笔记软件的数字页面。
本发明的特点和优势在于:
1.对笔记内容进行元数据标记,在数字化时,将整张笔记卡片作为整体的虚拟笔记卡,对元数据标记的笔记数据块赋予相应元数据内容,进行结构化整理。在碎片式记录笔记和构建结构化笔记系统间取得了合适的均衡。
2.可直接处理标签化的数字笔记或借助文字识别技术对纸质笔记卡进行处理转化为可编辑的笔记数据,同时实现了编辑、检索、整理和宏观处理。
3.通过引入标准化的元数据标记图,提升了结构化系统准确识别元数据标识的准确率,有利于对笔记数据进行准确快速的结构化处理。
附图说明
图1是本发明中待数字化处理的笔记卡片的示意图。
图2是本发明对笔记卡片进行数字化处理的流程示意图。
其中0是元数据标记图,11是编号元数据类别符,21是分类元数据类别符,3是主题元数据识别符,4是关键字元数据识别符,5是来源元数据识别符,6是引用元数据识别符,7是区域标识符射线,8是连续标识符射线,9 是方向标识符。
具体实施方式
以下结合附图对本发明的实施例进行详细说明,但是本发明可以由权利要求和技术方案限定和覆盖多种不同方式实施。
图1是本实施例中用户的笔记卡片,可以是在纸质卡片上手写输入的,也可以是数字软件上手写或者利用输入法输入的内容。为使笔记结构化系统是识别卡片时能够精准识别到元数据识别符,每个元数据识别符包括元数据标记图0和其内部的元数据类别符。
其中元数据标记图0是圆形,其内部用字符和图案为元数据类别符,标明其所在的元数据识别符所表示的具体的元数据内涵。在本实施例中,A表示编号,所以由编号元数据类别符11和其外部的元数据标记图0所构成的带圆框的字母A即为编号元数据识别符。同理,由分类元数据类别符21和其外部的元数据标记图0所构成的带圆框的字母B即为分类元数据识别符。依此类推,则带圆框的字母C为分类元数据识别符3、带圆框的单横线为来源元数据识别符5、带圆框的单竖线为引用元数据识别符6。其中特别的是,若元数据标记图0内部为空白,无任何字符或标记图案,则该空心圆框被视为关键字元数据识别符4。另外还有一个方向标识符9,其为下部深色上部浅色的圆形。
另外还包括区域识别符射线7,在图1中是由主题元数据识别符3与其外部延伸的两条区域识别符射线7组合成一个区域标识符,一对区域标识符处于对角位置,其四条区域识别符射线7向射线方向延伸所组成的区域即被视为一个整体区域,赋予区域为主题的元数据内涵。若与区域识别符射线7组合的是不同内涵的元数据识别符,则该区域被赋予其相应的元数据内涵。
类似地,还包括连续识别符,由一个元数据识别符与其外部延伸的一条连续识别符射线8所组合而成。在图1中有两个,其中一个由引文元数据识别符6与一条竖向横跨多行的连续识别符射线8组合而成,这几行都被识别为同一个笔记数据块并被赋予引文的元数据内涵;另一个由一个关键字元数据识别符4与一条横向跨多个字的连续识别符射线8组合而成,其所跨文字的笔记数据块将被赋予关键字的元数据内涵。
经过图2所示的方法进行笔记卡片的结构化处理后,图1所示的笔记卡片的笔记内容将分别被识别为以下的笔记数据块,被赋予相应的元数据内涵。
R文字块被视为笔记编号、Y文字块被视为分类、Z文字块被视为主题、W 和K文字块被视为两个关键字、S文字块被视为另一个关键字、L文字被视为来源、EFG文字块被视为一个整体的引文、HM文字块被视为一个整体的区域,并对其中的M进行识别作为该区域的关键字。上述文字块的笔记内容被识别为笔记数据块后分别被赋予相应的元数据内涵,作为笔记数据块存储。
图2示意了本实施例的整体流程。
用户在记录笔记时在想要给笔记内容标记元数据内容时输入元数据识别符,包括圆形的元数据标记图、射线和圆形内的元数据类别符。
若笔记卡片为纸质,则扫描笔记卡片。若是由笔记软件记录的,则无需扫描。将扫描后的或原初的笔记内容存储为笔记卡片源数据。
笔记结构化系统寻找笔记卡片上的方向识别符9,确定深色半圆为下方。
笔记结构化系统对笔记内容进行数字化的识别,若未识别到元数据标记图,则将该笔记卡片的全部笔记内容存储为一张虚拟笔记卡;若识别到存在元数据标记图,则判断该元数据标记图是否为连续标识符和区域标识符,若均为否,则识别紧随该元数据标记图后的笔记内容,直至遇到空格或标点,将该部分作为一个笔记数据块。
若是连续标识符,则识别该连续标识符及射线所横跨的所有行或字,作为一个笔记数据块。若是区域标识符,则将该对区域标识符射线所围成的区域作为一个整体的笔记数据块;识别该区域内可识别的文字,作为该整体笔记数据块的关键字。
识别标识上述笔记数据块的元数据标记图内的元数据类别符,将该元数据类别符所代表的元数据内涵分别赋予上述的笔记数据块,对笔记数据块进行元数据标识存储,同时构建结构化的数据源。并将该笔记卡片上的所有笔记数据块按其元数据内涵结构化存储为虚拟笔记卡。
检索结构化数据源中相同元数据类别的笔记数据块是否存在相似的数据。若无则流程结束。若有,则在具有相似数据块所在的虚拟笔记卡间建立超链接,构建笔记网络。
系统处理完毕。
通过上述技术方案,本发明可以将碎片化的笔记内容进行结构化处理,方便地建立笔记知识库系统。
以上所述仅为本发明的实施例而已,并非对本发明的限制,对于本领域的技术人员来说,基于本发明内容可以有多种更改、变化和实现途径。
Claims (10)
1.一种笔记卡片结构化方法,其特征在于:设定一类元数据识别符,用户在笔记卡片上记录笔记时输入元数据识别符,对笔记内容进行标识;笔记结构化系统识别笔记卡片,将笔记内容数字化为笔记数据块,若遇到元数据识别符,则将该元数据识别符的元数据内涵赋予该笔记数据块,将该笔记数据块按照元数据内涵所定义的结构行为进行处理;所述元数据标识符包括元数据标记图和元数据类别符;笔记结构化系统将每一张笔记卡片上的所有笔记内容识别为一张虚拟笔记卡,作为笔记的基本单位,将被元数据标识符标记的笔记内容识别为结构化的笔记数据块。
2.根据权利要求1所述的一种笔记卡片结构化方法,其特征在于:还包括一个结构化数据源,笔记结构化系统在识别被赋予了元数据内涵的笔记内容后,从结构化数据源中的具有同类元数据内涵的笔记数据块中进行检索,对相似的笔记数据块进行新增、归类、合并、替换、修正操作。
3.根据权利要求2所述的一种笔记卡片结构化方法,其特征在于:所述元数据类别符至少包括编号、主题、关键字、来源、引文、分类这几种类别,分别赋予所标记的笔记内容以编号、主题、关键字、来源、引文、分类的元数据内涵。
4.根据权利要求3所述的一种笔记卡片结构化方法,其特征在于:所述元数据类别符还包括一个方向标识符,该方向标识符标记笔记卡片的整体方向。
5.根据权利要求3所述的一种笔记卡片结构化方法,其特征在于:所述元数据标记图为圆形,元数据类别符的编号、主题、关键字、来源、引文、分类为标注在圆形内的图形、字母,方向标识符为半边填充色半边空白的圆形。
6.根据权利要求5所述的一种笔记卡片结构化方法,其特征在于:元数据标识符还包括一种区域标识符,区域标识符的元数据标记图是在圆形外还有两条自圆圈向外延伸的射线,圆圈内为元数据类别符;一对区域标识符分别位于区域整体的对角;笔记结构化系统识别到该对区域标识符后,将其该对区域标识符的射线延伸后所框的区域作为一个整体的笔记数据块进行存储,对其内部可识别的文字进行识别,并将识别出的词语设定为该笔记数据块的关键字。
7.根据权利要求5所述的一种笔记卡片结构化方法,其特征在于:元数据标识符还包括一种连续标识符,连续标识符的元数据标记图是在圆形外还有一条自圆圈向一个方向延伸的射线,圆圈内为元数据类别符;该连续标识符单独使用,当射线为竖向时则跨多行,当射线为横向时则跨多个字;笔记结构化系统识别到该连续标识符后,将该连续标识符所跨所有行的笔记数据块、所跨的多个文字的笔记数据块赋予该元数据类别的内涵。
8.根据权利要求5所述的一种笔记卡片结构化方法,其特征在于:笔记结构化系统在识别到元数据标识符后,对紧接其后的笔记内容进行识别直至空白、标点处为止作为该笔记数据块,将该笔记数据块赋予该元数据标识符内元数据类别符相应的元数据内涵。
9.根据权利要求3所述的一种笔记卡片结构化方法,其特征在于:将编号元数据绑定到所在的虚拟笔记卡作为该虚拟笔记卡的固定且唯一的编号;将具有相同主题、分类元数据的虚拟笔记卡归并到相同组;当结构化数据库中存在多个相似的来源、关键字、引文笔记数据块时,则将其所在虚拟笔记卡自动生成相互链接形成笔记网络。
10.根据权利要求2所述的一种笔记卡片结构化方法,其特征在于:所述笔记卡片是纸质卡片,或笔记软件的数字页面。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111683575.4A CN114332875A (zh) | 2021-12-29 | 2021-12-29 | 一种笔记卡片结构化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111683575.4A CN114332875A (zh) | 2021-12-29 | 2021-12-29 | 一种笔记卡片结构化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114332875A true CN114332875A (zh) | 2022-04-12 |
Family
ID=81022578
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111683575.4A Pending CN114332875A (zh) | 2021-12-29 | 2021-12-29 | 一种笔记卡片结构化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114332875A (zh) |
-
2021
- 2021-12-29 CN CN202111683575.4A patent/CN114332875A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6721451B1 (en) | Apparatus and method for reading a document image | |
US9141691B2 (en) | Method for automatically indexing documents | |
US10740638B1 (en) | Data element profiles and overrides for dynamic optical character recognition based data extraction | |
JP2005018678A (ja) | 帳票データ入力処理装置、帳票データ入力処理方法及びプログラム | |
JP2014170539A (ja) | 単一セル中の画像データ及びシンボルデータによるテーブルのソート及びフィルタリング | |
CN110633660B (zh) | 一种文档识别的方法、设备和存储介质 | |
CN112560849B (zh) | 基于神经网络算法的文理分割方法及系统 | |
CN104750791A (zh) | 一种图像检索方法及装置 | |
Cheng et al. | M6doc: A large-scale multi-format, multi-type, multi-layout, multi-language, multi-annotation category dataset for modern document layout analysis | |
US20080244384A1 (en) | Image retrieval apparatus, method for retrieving image, and control program for image retrieval apparatus | |
JPH11282955A (ja) | 文字認識装置、文字認識方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JPS5947641A (ja) | 名刺デ−タベ−ス作成装置 | |
CN115497102A (zh) | 一种甲骨文识别方法及系统 | |
CN115203474A (zh) | 一种数据库自动分类提取技术 | |
CN117558019B (zh) | 从pdf格式元器件手册中自动提取符号图参数的方法 | |
JP2740335B2 (ja) | 自動セル属性判定機能を有する表読取装置 | |
CN114332875A (zh) | 一种笔记卡片结构化方法 | |
JP2000322417A (ja) | 画像ファイリング装置及び方法及び記憶媒体 | |
JP4807618B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP3898645B2 (ja) | 帳票書式編集装置および帳票書式編集プログラム | |
JP2002024761A (ja) | 画像処理装置及び画像処理方法並びに記憶媒体 | |
Kim et al. | Automated labeling algorithms for biomedical document images | |
JP4843705B2 (ja) | 名刺読取装置 | |
JP2786294B2 (ja) | 図形データ検策・格納方法 | |
CN116912867B (zh) | 结合自动标注和召回补全的教材结构提取方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |