CN111126334B - 技术资料的快速阅读和处理方法 - Google Patents
技术资料的快速阅读和处理方法 Download PDFInfo
- Publication number
- CN111126334B CN111126334B CN201911406100.3A CN201911406100A CN111126334B CN 111126334 B CN111126334 B CN 111126334B CN 201911406100 A CN201911406100 A CN 201911406100A CN 111126334 B CN111126334 B CN 111126334B
- Authority
- CN
- China
- Prior art keywords
- technical
- user
- index
- picture
- reading system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/416—Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Abstract
本发明涉及一种技术资料的快速阅读和处理方法,尤其涉及一种以技术图片为导向、引导用户快速阅读和处理技术资料的方法;本发明是以技术图片为主线,利用OCR(Optical Character Recognition)识别技术对技术图片中的标注进行识别;并将其与文字描述进行关联;用户通过对技术图片进行查看的同时、进行选择操作,即可以快速检索到与用户关注的技术特征对应的文字描述,从而实现对技术资料的快速阅读。
Description
技术领域
本发明涉及一种技术资料的快速阅读和处理方法,尤其涉及一种以技术图片为导向、引导用户快速阅读和处理技术资料的方法,属于文件处理的技术领域。
背景技术
技术资料范围很广,包括教材、技术书籍、论文、学术报告、专利、设计资料、技术标准、技术档案、产品说明书等等。
在进行学习、科研、技术创新、技术审核等过程中,都会涉及到对大量技术资料的阅读、理解;面对大量的技术资料时,阅读的效率往往难以保证,而尽可能提高阅读的效率则是一个有待解决的问题。
发明内容
技术资料中包括文字描述和技术图片;技术图片包括原理图、设计图、流程图、统计图、数据表格等等;而技术图片通常是对技术内容的高度概括,其中会包含概括性的标注,所述的标注是索引编码或文字或索引编码与文字的组合;索引编码通常出现在原理图、设计图中,概括性的文字通常出现在流程图、统计图、数据表格中;
本发明是以技术图片为主线,利用OCR(Optical Character Recognition)识别技术对技术图片中的标注进行识别;并将其与文字描述进行关联;用户通过对技术图片进行查看的同时、进行选择操作,即可以快速检索到与用户关注的技术特征对应的文字描述,从而实现对技术资料的快速阅读。
具体的,本发明的第一技术方案是:包括技术资料和阅读系统;技术资料中至少包括文字描述和技术图片,技术图片中包含概括性的标注,所述的标注是索引编码或文字或索引编码与文字的组合;当用户通过阅读系统阅读技术资料时,采用以下步骤:
S101、阅读系统显示技术资料中的技术图片,用户查看技术图片、对技术资料的技术内容形成概括性的认识;
S102、用户根据其需要选择技术图片中的标注,阅读系统提取标注的内容,然后根据标注的内容对技术资料的文字描述进行检索;
需要说明的是,其中:当标注为索引编码时,首先根据索引编码对技术资料的文字描述进行检索,获取与该索引编码对应的索引编码说明;然后按照索引编码,或/和,索引编码说明的文字内容对技术资料的文字描述进行检索;当标注为概括性的文字时,按照文字内容对技术资料的文字描述进行检索;
S103、若用户选择的标注为索引编码时,阅读系统根据S102的检索结果显示与该索引编码对应的索引编码说明;
通过该步骤的转换操作,使得用户可以快速了解索引编码的含义、通常适用于原理图、设计图;另外,对于索引编码说明的显示方法是多种多样的;
S104、当用户需要详细了解与该标注相关的技术资料的文字描述时,由阅读系统根据S102的检索结果,显示与该标注相关的文字描述的节选段落;
S105、当用户需要对一幅或多幅技术图片中的若干个标注的关联性进行分析时,则用户根据其需要选定相关技术图片中的若干个标注,由阅读系统提取若干个标注的内容;然后阅读系统根据用户选择的若干个标注的内容对技术资料的文字描述进行复合检索;然后阅读系统根据复合检索的结果,显示与用户选择的若干个标注全部相关或部分相关的文字描述的节选段落,以便于用户有选择性的快速浏览。
本发明的第二技术方案是:包括技术资料和阅读系统;技术资料中至少包括文字描述和技术图片,技术图片中包含概括性的索引编码;阅读系统对技术资料进行预处理,至少完成提取技术图片中的各个索引编码的内容和位置、并根据索引编码在文字描述中提取与索引编码对应的索引编码说明;当用户通过阅读系统阅读技术资料时,采用以下步骤:
S201、用户浏览一幅或多幅技术图片,阅读系统显示技术图片、并生成索引编码列表,所述的索引编码列表至少是用户所选择的技术图片中所包含的索引编码的汇总集合或精选集合;
需要说明的是,索引编码列表可以进行精选、即当索引编码数量较多时挑选重要的数据进行监控;索引编码列表可以进行扩展,例如直接使用从文字描述中提取与索引编码汇总表;
S202、当用户选择任意一幅技术图片中的任意一个索引编码时,阅读系统将用户选择的索引编码的所在区域做“选中增强显示”;
S203、阅读系统根据用户选择的索引编码,在文字描述中检索用户选择的索引编码与索引编码列表中的用户未选择的索引编码的段落关联性,并按照关联性的高低排序;然后根据关联性排序结果,对各个技术图片中的各个用户未选择的索引编码的所在区域做“关联性差异化增强显示”、从而直观的体现关联性的差异;
S204、用户在一次操作中选择一幅或多幅技术图片中的若干个索引编码时,阅读系统根据用户选择的若干个索引编码,在文字描述中检索用户选择的若干个索引编码与索引编码列表中的用户未选择的索引编码的段落关联性,并按照关联性的高低排序;然后根据关联性排序结果,对各个技术图片中的各个用户未选择的索引编码的所在区域做“关联性差异化增强显示”、从而直观的体现关联性的差异;
S205、用户进行索引编码选择的操作过程包括增加选中、部分取消选中、全部取消选中,阅读系统根据用户的选择分别执行S203或S204的操作;
S206、用户根据“关联性差异化增强显示”的显示效果,快速找出与用户已选择的一个或多个索引编码关联性较高的用户未选择的索引编码,从而加快对技术资料理解的过程。
需要说明的是,其中:
所述的“选中增强显示”包括在索引编码的所在区域画边框、加深区域颜色、闪烁显示;
所述的“关联性差异化增强显示”是按照已选择的索引编码与未选择的索引编码的关联性的高低,对未选择的索引编码的区域进行差异化的增强显示;已选择的索引编码与未选择的索引编码同时出现在文字描述各个段落中的关联次数越多,即已选择的索引编码与未选择的索引编码的关联性越高;可以按照关联性的高低顺序由深变浅的对各个未选择的索引编码区域填充不同的颜色实现差异化的增强显示;或者直接显示关联次数;当然还可以采用其他的差异化的增强显示手段。
进一步的,由于技术资料的格式多种多样,包括DOC、PPT、WPS、PDF、JPG、CAJ等等;因此,有必要一个设置预处理环节,对不同格式的技术资料的内容进行整理;采用现有技术中方法即可以对上述文件格式中的文字和图片进行整理和提取;具体过程是:
阅读系统对技术资料进行预处理,即对技术资料中的文字描述和技术图片进行拆分和整理、并存储预处理结果;当用户通过阅读系统阅读技术资料时,阅读系统能够直接利用预处理结果为用户提供服务;所述的预处理包括:对技术资料中的多段文字描述进行分段、整理、识别;对技术资料中的一幅或多幅技术图片进行截取、编排、整理;
当阅读系统以文字描述为主导对技术资料进行预处理时,采用以下方法:
S301、对文字描述进行解析,提取其中的索引编码和索引编码说明,形成索引编码汇总表;
S302、根据索引编码汇总表对各个技术图片进行自动分析,包括图片分割、索引编码提取、识别;
S303、完成各个技术图片中的索引编码的定位、并与文字描述建立关联索引;即根据所述的与技术图片相关联的索引编码汇总表,执行预检索操作,将各个索引编码或索引编码说明与其在文字描述中出现的段落位置进行关联;使得用户在使用过程中,能够直接运用预检索操作的检索结果。
进一步的,阅读系统提取技术图片中的标注的内容的方法是通过OCR识别提取;该提取过程为以下三种的一种或多种的组合:
S401,实时识别:即在用户查看技术图片时,用户主动选择技术图片中包含标注的区域,阅读系统根据用户所选择区域对该区域的索引编码或文字进行OCR识别;
S402,预处理识别:即在预处理过程中,由阅读系统对技术图片进行分割提取,自动查找各个包含标注的区域、并对该区域的索引编码或文字进行OCR识别;
S403,人工干预:对于上述S401、S402过程中,阅读系统自动识别的标注存在错误或不准确时,通过人工干预的方式进行修改、更正。
通过上述操作,可以形成与技术图片相关联的标注列表、以及对应的标注区域的位置坐标;需要说明的是,其中的位置坐标的作用是用于判定用户对技术图片中的标注的选择。
进一步,对所述的根据标注的内容对技术资料的文字描述进行检索的模式为以下几种模式的一种或多种的组合:
S501、精确匹配:根据标注对应的文字内容,查找文字描述中相同的内容;
S502、模糊查询:若标注对应的文字内容为概括性的文字时,将文字内容按照语义进行拆分、并根据拆分后的内容进行复合查询;
S503、语义分析:以各个标注为关键词、对文字描述的全文进行语义分析,对文字描述各个段落与各个标注之间的关联性和重要性进行分析、排序。
进一步的,用户在通过阅读系统阅读技术资料的过程中使用电子笔记功能,对标注与文字描述的对应关系进行梳理或再加工(其中包括技术资料的作者或编辑者的编写及再加工过程);具体操作是以下几种操作中的一种或多种的组合:
S601、对重要的技术图片中的标注或文字描述的节选段落做重点标记;
S602、对技术图片中的标注或文字描述的节选段落进行注释;
S603、根据用户认定的重要程度,对技术图片中的标注或文字描述的节选段落进行优先级排序;
S604、手工建立技术图片或技术图片中的标注与文字描述的节选段落的关联;
例如,某些技术图片会与某段连续的文字描述有较强的相关性,如文字描述中采用一个段落描述一个具体的实施例,而该实施例的特点通过某个技术图片展现,即可采用上述手工关联方法;
S605、支持技术资料的作者对技术资料进行编辑,即对技术资料中的技术图片、文字描述进行增加、删除、修改操作;
阅读系统保存上述操作形成电子笔记,当同一用户或不同用户再次进行阅读时,即可以利用电子笔记、更准确的理解技术资料的内容。
进一步的,所述的技术图片的扩展形式包括:技术展示视频或技术展示动画。
进一步的,所述的“选中增强显示”和“关联性差异化增强显示”的增强显示效果是以下几种的一种或多种的组合:
第一,在索引编码的所在区域画边框;
第二,改变索引编码的所在区域的颜色;
第三,对索引编码或索引编码的所在区域进行闪烁显示;
第四,对索引编码进行加粗或局部放大显示;
第五,在索引编码的所在区域附近显示辅助性提示信息;
需要说明的是,上述的增强显示手段,都是较为常见的增强显示手段,当然也不排除使用其他的增强显示手段,达到增强显示效果的目的。
进一步的,在阅读系统中单独设置索引编码列表显示区域,在索引编码列表显示区域中显示所述的索引编码列表;然后在上述的S202、S203、S204的操作过程中,将所述的“选中增强显示”和“关联性差异化增强显示”的增强显示效果部分或全部体现在索引编码列表中对应的各个索引编码信息上(即,将所述的索引编码的所在区域集中汇总到索引编码列表显示区域中进行处理);
所述的索引编码列表显示区域中的索引编码列表能够根据用户的需求进行排序,或/和,进行筛选并显示筛选后的结果。
本发明的有益效果是:
1、将技术图片中的索引编码快速翻译为对应的索引编码说明,使得用户可以准确的理解技术图片的含义,尤其对于包含大量索引编码的设计图纸等,有重要意义;
2、以技术图片为入口,以标注为链接,使得用户可以快速检索到其感兴趣的文字描述的节选段落;对技术内容的关注点进行精确了解;不同的阅读者,其知识背景、阅读目的、关注方向均存在差异;因此,以技术图片为入口,使得不同的阅读者可以通过个性化的关注点,快速的进行个性化的阅读;
3、由于技术图片中的索引编码或文字通常为印刷体,而OCR识别技术对于印刷体字符的识别率几乎是100%、技术非常成熟,从而为本发明的技术方案的实现提供了良好的技术保障,并可以实现最流畅的用户体验。
附图说明
附图1:本发明的流程图;
附图2:本发明的实施例1对应的阅读系统操作界面示意图(1.1);
附图3:本发明的实施例1对应的阅读系统操作界面示意图(1.2);
附图4:本发明的实施例2对应的阅读系统操作界面示意图(2.1.1);
附图5:本发明的实施例2对应的阅读系统操作界面示意图(2.1.2);
附图6:本发明的实施例2对应的阅读系统操作界面示意图(2.2.1);
附图7:本发明的实施例2对应的阅读系统操作界面示意图(2.2.2);
其中:图2、图3中A区域中的虚线圆圈位置为用户所选择的技术图片标注位置的示意。
具体实施方式
实施例1:
以下,本实施例结合一个实际的技术资料文件,对本发明的第一技术方案进行详细描述。
本实施例选取中国专利“CN 104733948 B”“智能充电螺旋轨道收放线器”的专利授权文件作为分析的样本。默认该文件为JPG图片格式,共计8页。本例中,仅对该文件的说明书和说明书附图部分的处理进行说明。
第一,对文件进行预处理:首先,按照段落索引编码对文件的说明书文字部分进行段落分割、即将说明书分割为26个段落,并对各个段落中的文字内容进行OCR识别,即形成26段“文字描述”;然后,对说明书附图中的图片进行截取,即提取三幅“技术图片”;
需要说明的是,本实施例中仅是根据说明书段落标记进行的划分,各个段落中还包含多个换行标记,因此还可以根据换行标记或标点符号等对段落进行进一步的划分;
此时,可以对该文件资料进行进一步的加工整理(该步骤非必选,可以跳过),具体如下:
首先,通过图像识别算法对三幅技术图片逐一进行分析识别,提取其中的标注,上述三幅技术图片中的标注均为索引编码,结果如下表:
然后,根据索引编码明细对文字描述进行检索,查找与索引编码对应的索引编码说明;再根据索引编码说明对文字描述进行检索、查找各个索引编码说明在文字描述中出现的位置,结果如下表:
需要说明的是,上表中,为缩减篇幅,将说明书段落[00**]统一缩减为**来表示。
从上述表格中,已可以隐约看出各个标记之间的关联性特征,而上述对文字描述的分析通过现有技术手段是很容易实现的。但是,上述数据仍然难以直接利用,还需要一个高效、便捷的人机交互界面,从而支持个性化的快速阅读。
第二,通过阅读系统显示技术图片,用户可以选择显示三幅图片中任意一幅或多幅同时显示;具体操作以附图2和附图3为例:
如附图2所示,在阅读系统操作界面中,根据用户需求在A区域中显示技术图片中的“图1”,用户点击图中索引编码“5”的位置,即在B区域中显示索引编码和索引编码对应的索引编码说明,即“5-螺旋形的轨道”;然后,用户可触发检索功能,即在C区域中显示索引编码“5”对应相关的文字描述的段落;用户可以有选择性的对相关文字描述的段落进行查看。
进一步的,如附图3所示,在阅读系统操作界面中,A区域中同时显示技术图片中的“图2”、“图3”,用户分别点击图中索引编码“5”、“13”、“15”的位置,即在B区域中显示索引编码和索引编码对应的索引编码说明,即“5-螺旋形的轨道;13-开关;15-计米器”;然后,用户可触发检索功能,即在C区域中显示索引编码“5”、“13”、“15”的组合对应相关的文字描述的段落;其中,将三个索引编码同时出现的段落放在最前面,然后再列出两个索引编码同时出现的段落,并可依次类推;用户可以有选择性的对相关文字描述的段落进行查看。
需要说明的是,当用户点击技术图片中的某个位置时,系统以用户点选的坐标为基准自动对周围区域进行自动识别。
另外,对于概括性的标注为文字的情况做单独的说明。以本发明的附图1为例,该图为流程图,其中的内容以概括性的文字为主;
例如当用户点选第一个流程框的时候,通过OCR识别技术提取其中的文字,即“显示技术资料中的技术图片”;然后对这段文字进行语义分析和拆分、提取关键词“显示”、“技术资料”、“技术图片”;然后根据这些关键词对技术资料的文字描述进行复合检索。
需要说明的是,上述过程仅仅是一个简单的案例,检索过程中还会用到一些更复杂的语义分析的技术手段,相关语义分析的技术手段有很多的公开的技术方案和文献资料、且并非本发明的重点,因此不再赘述。另外,语义分析算法相对比较复杂且存在一定的错误概率,因此可以结合所述的“电子笔记功能”,即通过人工操作实现技术图片信息与文字描述的各个段落之间的关联和备注。
由此可见,本发明所解决的问题是:以技术图片为基础快速的将用户感兴趣的技术点从文字描述中提取出来,以便于用户以最快的速度从个性化的角度对技术文件进行阅读和理解。当进行组合检索时,可以发现某些组合条件重合度很高,但另外一些组合条件的重合度较低;还有一些组合条件几乎没有重合;由此,用户可以对其感兴趣的技术特征的关联性做出快速的分析、判断。当然,用户的操作需要一个便捷人机交互的入口,而技术图片则是进行组合检索的最佳的集成性的入口;尤其是对于篇幅较长、内容较多的技术资料,采用本发明的技术方案可以大幅度提升阅读效率。
实施例2:
以下,本实施例结合一个实际的技术资料文件,对本发明的第二技术方案进行详细描述。
本实施例与实施例1相同,仍然是选取中国专利“CN 104733948 B”“智能充电螺旋轨道收放线器”的专利授权文件作为分析的样本。
第一,对该文件资料进行进一步的加工整理,该预处理过程与实施例1基本相同,可参考实施例1的相关描述,此处省略对该过程的描述。
第二,通过阅读系统显示技术图片,用户可以选择显示三幅图片中任意一幅或多幅同时显示;具体操作以附图4和附图5为例:
如附图4所示,在阅读系统操作界面中,根据用户需求在A区域中同时显示技术图片中的“图2”、“图3”; 用户点击图中索引编码“5”的位置,此时在索引编码“5”所在区域做方框标记、说明该索引编码已被选中;然后,分析统计索引编码“5”与其他索引编码之间的关联度,并根据关联度的数据对其他索引编码的所在区域填充不同的颜色,颜色越深的表示关联度越高、颜色越浅的表示关联度越低。
其中,关联度由高到低依次为“10、12”、“3、4、9”、“6、7、8、11、18”、“13、14、15、16、17、19”;由于说明书附图不能为彩色,因此填充差异效果直观性有所减弱。
进一步的,如附图5所示,用户分别点击图中索引编码“5”、“13”、“15”的位置,此时分别在索引编码“5”、“13”、“15”所在区域做方框标记、说明这几个索引编码已被选中;然后,分析统计索引编码“5”与其他索引编码之间的关联度,并根据关联度在其他索引编码的所在区域填充不同的颜色,颜色越深的表示关联度越高、颜色越浅的表示关联度越低;
此时,具体的关联度计算方法(参考算法)可以是:根据未选中的索引编码,依次逐一对文字描述的各个段落进行分析;统计各个段落中是否同时出现已选中的索引编码和某项未选中的索引编码;
若一个段落中同时出现已选中的三项索引编码和某项未选中的索引编码,则计3分;
若一个段落中同时出现已选中的任意两项索引编码和某项未选中的索引编码,则计2分;
若一个段落中仅出现已选中的任意一项索引编码和某项未选中的索引编码,则计1分;
若该段落中未同时出现已选中索引编码和某项未选中的索引编码,则该段落分值为0;
然后,将各个段落的分值累加,即获得该项索引编码与已选中的三项索引编码的关联性得分;
最后,以此类推获得所有的未选中的索引编码与已选中的三项索引编码的关联性得分;再根据分值高低,对各个未选中的索引编码所在区域填充不同深浅的颜色,以示区分。
按照上述规则计算,索引编码“14”计9分、索引编码“10”计8分、索引编码“16、17”计7分、索引编码“9”计6分、索引编码“19”计5分、索引编码“2、12”计4分、索引编码“4、6、7”计3分、索引编码“1、11”计2分、索引编码“8、18”计1分。其中,由于[0020]段中包含了所有索引编码,为获得更直观的数据在统计时将该段落忽略。
如图5所示,即为根据计算结果进行显示的界面图。此时,对照图4也可以明显的看出,在选择不同的索引编码或索引编码组合时,关联度结果可能会有较大的差异。
第三,也可以采用单独的列表区域、对关联度进行显示;具体操作以附图6和附图7为例:
如附图6所示,在阅读系统操作界面中,A区域中同时显示技术图片中的“图2”、“图3”,用户点击图中索引编码“5”的位置,即在B区域中显示索引编码和索引编码对应的索引编码说明,即“5-螺旋形的轨道”;然后,用户可触发检索功能,即在C区域中显示未选择的索引编码列表、并按照与索引编码“5”的关联度高低进行排序;用户可以有选择性的对索引编码列表中的索引编码相关的文字描述的段落进行查看。
如附图7所示,在阅读系统操作界面中,A区域中同时显示技术图片中的“图2”、“图3”,用户分别点击图中索引编码“5”、“13”、“15”的位置,即在B区域中显示索引编码和索引编码对应的索引编码说明,即“5-螺旋形的轨道;13-开关;15-计米器”;然后,用户可触发检索功能,即在C区域中显示未选择的索引编码列表、并按照与索引编码“5”、“13”、“15”的关联度高低进行排序;用户可以有选择性的对索引编码列表中的索引编码相关的文字描述的段落进行查看。
进一步的,对于C区域中显示的未选择的索引编码列表,可以进行个性化排序、精选或“关联性差异化增强显示”。
综上所述,本实施例与实施例1不同,是从另外一个角度出发、以展现各个索引编码之间的关联性为主导,以便于用户以最快的速度从个性化的角度对技术文件进行阅读和理解;同样,也可以大幅度提升阅读效率。
本发明创造并不局限于上述实施方式,熟悉本领域的技术人员在不违背本发明精神的前提下还可作出等同变形或替换,尤其是对人机交互界面的布局及显示效果进行等效变换,这些等同的变型或替换均包含在本申请权利要求所限定的范围内。
Claims (9)
1.技术资料的快速阅读和处理方法,其特征在于,包括技术资料和阅读系统;技术资料中至少包括文字描述和技术图片,技术图片中包含概括性的标注,所述的标注是索引编码或文字或索引编码与文字的组合;当用户通过阅读系统阅读技术资料时,以技术图片为入口、以标注作为技术图片与文字描述之间的链接,由用户对技术图片中的一个或多个感兴趣的标注进行选择操作,阅读系统将用户选择的一个或多个标注作为检索条件,对文字描述进行检索并显示符合该检索条件的检索结果,从而实现快速的个性化的阅读;具体的操作步骤和显示效果是:
S101、阅读系统显示技术资料中的技术图片,用户查看技术图片、对技术资料的技术内容形成概括性的认识;
S102、用户根据其需要选择技术图片中的标注,阅读系统提取标注的内容,然后根据标注的内容对技术资料的文字描述进行检索;
S103、若用户选择的标注为索引编码时,阅读系统根据S102的检索结果显示与该索引编码对应的索引编码说明;
S104、当用户需要详细了解与该标注相关的技术资料的文字描述时,由阅读系统根据S102的检索结果,显示与该标注相关的文字描述的节选段落、从而缩小阅读范围;
S105、当用户对一幅或多幅技术图片中的若干个标注进行选定后;由阅读系统提取用户选定的若干个标注的内容;然后阅读系统将用户选择的若干个标注的内容作为组合条件、对技术资料的文字描述进行复合检索、并显示符合该组合条件的文字描述的节选段落、从而进一步缩小阅读范围,从而实现有选择性的快速阅读、并实现对若干个标注的关联性进行分析判断。
2.根据权利要求1所述的技术资料的快速阅读和处理方法,其特征在于:对所述的根据标注的内容对技术资料的文字描述进行检索的模式为以下几种模式的一种或多种的组合:
S501、精确匹配:根据标注对应的文字内容,查找文字描述中相同的内容;
S502、模糊查询:若标注对应的文字内容为概括性的文字时,将文字内容按照语义进行拆分、并根据拆分后的内容进行复合查询;
S503、语义分析:以各个标注为关键词、对文字描述的全文进行语义分析,对文字描述各个段落与各个标注之间的关联性和重要性进行分析、排序。
3.根据权利要求1所述的技术资料的快速阅读和处理方法,其特征在于:用户在通过阅读系统阅读技术资料的过程中使用电子笔记功能,对标注与文字描述的对应关系进行梳理或再加工;具体操作是以下几种操作中的一种或多种的组合:
S601、对重要的技术图片中的标注或文字描述的节选段落做重点标记;
S602、对技术图片中的标注或文字描述的节选段落进行注释;
S603、根据用户认定的重要程度,对技术图片中的标注或文字描述的节选段落进行优先级排序;
S604、手工建立技术图片或技术图片中的标注与文字描述的节选段落的关联;
S605、支持技术资料的作者对技术资料进行编辑,即对技术资料中的技术图片、文字描述进行增加、删除、修改操作;
阅读系统保存上述操作形成电子笔记,当同一用户或不同用户再次进行阅读时,即可以利用电子笔记、更准确的理解技术资料的内容。
4.技术资料的快速阅读和处理方法,其特征在于:包括技术资料和阅读系统;技术资料中至少包括文字描述和技术图片,技术图片中包含概括性的索引编码;阅读系统对技术资料进行预处理,至少完成提取技术图片中的各个索引编码的内容和位置、并根据索引编码在文字描述中提取与索引编码对应的索引编码说明;当用户通过阅读系统阅读技术资料时,以技术图片为入口、以标注作为技术图片与文字描述之间的链接,由用户对技术图片中的一个或多个感兴趣的标注进行选择操作,阅读系统将用户选择的一个或多个标注作为检索条件,对文字描述进行检索并显示符合该检索条件的检索结果,从而实现快速的个性化的阅读;具体的操作步骤和显示效果是:
S201、用户浏览一幅或多幅技术图片,阅读系统显示技术图片、并生成索引编码列表,所述的索引编码列表至少是用户所选择的技术图片中所包含的索引编码的汇总集合或精选集合;
S202、当用户选择任意一幅技术图片中的任意一个索引编码时,阅读系统将用户选择的索引编码的所在区域做“选中增强显示”;
S203、阅读系统根据用户选择的索引编码,在文字描述中检索用户选择的索引编码与索引编码列表中的用户未选择的索引编码的段落关联性,并按照关联性的高低排序;然后根据关联性排序结果,对各个技术图片中的各个用户未选择的索引编码的所在区域做“关联性差异化增强显示”、从而直观的体现关联性的差异;
S204、用户在一次操作中选择一幅或多幅技术图片中的若干个索引编码时,阅读系统根据用户选择的若干个索引编码,在文字描述中检索用户选择的若干个索引编码与索引编码列表中的用户未选择的索引编码的段落关联性,并按照关联性的高低排序;然后根据关联性排序结果,对各个技术图片中的各个用户未选择的索引编码的所在区域做“关联性差异化增强显示”、从而直观的体现关联性的差异;
S205、用户进行索引编码选择的操作过程包括增加选中、部分取消选中、全部取消选中,阅读系统根据用户的选择分别执行S203或S204的操作;
S206、用户根据“关联性差异化增强显示”的显示效果,快速找出与用户已选择的一个或多个索引编码关联性较高的用户未选择的索引编码,从而加快对技术资料理解的过程。
5.根据权利要求4所述的技术资料的快速阅读和处理方法,其特征在于:所述的“选中增强显示”和“关联性差异化增强显示”的增强显示效果是以下几种的一种或多种的组合:
第一,在索引编码的所在区域画边框;
第二,改变索引编码的所在区域的颜色;
第三,对索引编码或索引编码的所在区域进行闪烁显示;
第四,对索引编码进行加粗或局部放大显示;
第五,在索引编码的所在区域附近显示辅助性提示信息。
6.根据权利要求4所述的技术资料的快速阅读和处理方法,其特征在于:在阅读系统中单独设置索引编码列表显示区域,在索引编码列表显示区域中显示所述的索引编码列表;然后在上述的S202、S203、S204的操作过程中,将所述的“选中增强显示”和“关联性差异化增强显示”的增强显示效果部分或全部体现在索引编码列表中对应的各个索引编码信息上;
所述的索引编码列表显示区域中的索引编码列表能够根据用户的需求进行排序,或/和,进行筛选并显示筛选后的结果。
7.根据权利要求1或4所述的技术资料的快速阅读和处理方法,其特征在于:所述的技术图片的扩展形式包括:技术展示视频或技术展示动画。
8.根据权利要求1或4所述的技术资料的快速阅读和处理方法,其特征在于:阅读系统对技术资料进行预处理,即对技术资料中的文字描述和技术图片进行拆分和整理、并存储预处理结果;当用户通过阅读系统阅读技术资料时,阅读系统能够直接利用预处理结果为用户提供服务;所述的预处理包括:对技术资料中的多段文字描述进行分段、整理、识别;对技术资料中的一幅或多幅技术图片进行截取、编排、整理;
当阅读系统以文字描述为主导对技术资料进行预处理时,采用以下方法:
S301、对文字描述进行解析,提取其中的索引编码和索引编码说明,形成索引编码汇总表;
S302、根据索引编码汇总表对各个技术图片进行自动分析,包括图片分割、索引编码提取、识别;
S303、完成各个技术图片中的索引编码的定位、并与文字描述建立关联索引;即根据所述的与技术图片相关联的索引编码汇总表,执行预检索操作,将各个索引编码或索引编码说明与其在文字描述中出现的段落位置进行关联;使得用户在使用过程中,能够直接运用预检索操作的检索结果。
9.根据权利要求8所述的技术资料的快速阅读和处理方法,其特征在于:阅读系统提取技术图片中的标注的内容的方法是通过OCR识别提取;该提取过程为以下三种的一种或多种的组合:
S401、实时识别:即在用户查看技术图片时,用户主动选择技术图片中包含标注的区域,阅读系统根据用户所选择区域对该区域的索引编码或文字进行OCR识别;
S402、预处理识别:即在预处理过程中,由阅读系统对技术图片进行分割提取,自动查找各个包含标注的区域、并对该区域的索引编码或文字进行OCR识别;
S403、人工干预:对于上述S401、S402过程中,阅读系统自动识别的标注存在错误或不准确时,通过人工干预的方式进行修改、更正。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911406100.3A CN111126334B (zh) | 2019-12-31 | 2019-12-31 | 技术资料的快速阅读和处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911406100.3A CN111126334B (zh) | 2019-12-31 | 2019-12-31 | 技术资料的快速阅读和处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111126334A CN111126334A (zh) | 2020-05-08 |
CN111126334B true CN111126334B (zh) | 2020-10-16 |
Family
ID=70506053
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911406100.3A Active CN111126334B (zh) | 2019-12-31 | 2019-12-31 | 技术资料的快速阅读和处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111126334B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113409093A (zh) * | 2021-07-13 | 2021-09-17 | 神策网络科技(北京)有限公司 | 一种指标关联性分析方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5845288A (en) * | 1995-12-11 | 1998-12-01 | Xerox Corporation | Automated system for indexing graphical documents having associated text labels |
CN101765840A (zh) * | 2006-09-15 | 2010-06-30 | 埃克斯比布里奥公司 | 纸质与电子文档中的注释的捕获及显示 |
CN102236690A (zh) * | 2010-05-07 | 2011-11-09 | 李晓 | 一种数据管理方法、应用这种方法的文件格式及电子设备 |
CN102609606A (zh) * | 2011-01-25 | 2012-07-25 | 鸿富锦精密工业(深圳)有限公司 | 标识元件的方法及系统 |
CN102622371A (zh) * | 2011-01-28 | 2012-08-01 | 成都致远诺亚舟教育科技有限公司 | 一种历史关联库系统及其实现方法和电子学习设备 |
CN106383643A (zh) * | 2016-09-18 | 2017-02-08 | 浙江慧脑信息科技有限公司 | 一种同时浏览图片和文本的方法 |
CN106934383A (zh) * | 2017-03-23 | 2017-07-07 | 掌阅科技股份有限公司 | 文件中图片标注信息识别方法、装置及服务器 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050216828A1 (en) * | 2004-03-26 | 2005-09-29 | Brindisi Thomas J | Patent annotator |
CN102663010A (zh) * | 2012-03-20 | 2012-09-12 | 复旦大学 | 基于标注语义的个性化图像浏览与推荐方法及系统 |
CN110399568B (zh) * | 2019-07-04 | 2022-09-30 | Oppo广东移动通信有限公司 | 信息搜索方法、装置、终端及存储介质 |
-
2019
- 2019-12-31 CN CN201911406100.3A patent/CN111126334B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5845288A (en) * | 1995-12-11 | 1998-12-01 | Xerox Corporation | Automated system for indexing graphical documents having associated text labels |
CN101765840A (zh) * | 2006-09-15 | 2010-06-30 | 埃克斯比布里奥公司 | 纸质与电子文档中的注释的捕获及显示 |
CN102236690A (zh) * | 2010-05-07 | 2011-11-09 | 李晓 | 一种数据管理方法、应用这种方法的文件格式及电子设备 |
CN102609606A (zh) * | 2011-01-25 | 2012-07-25 | 鸿富锦精密工业(深圳)有限公司 | 标识元件的方法及系统 |
CN102622371A (zh) * | 2011-01-28 | 2012-08-01 | 成都致远诺亚舟教育科技有限公司 | 一种历史关联库系统及其实现方法和电子学习设备 |
CN106383643A (zh) * | 2016-09-18 | 2017-02-08 | 浙江慧脑信息科技有限公司 | 一种同时浏览图片和文本的方法 |
CN106934383A (zh) * | 2017-03-23 | 2017-07-07 | 掌阅科技股份有限公司 | 文件中图片标注信息识别方法、装置及服务器 |
Also Published As
Publication number | Publication date |
---|---|
CN111126334A (zh) | 2020-05-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2007317938B2 (en) | Media material analysis of continuing article portions | |
CN102737039B (zh) | 索引建立方法、搜索方法和搜索结果排序方法及对应装置 | |
US20090234842A1 (en) | Image search using face detection | |
EP1745396B1 (en) | Document information mining tool | |
CN109933796B (zh) | 一种公告文本关键信息提取方法及设备 | |
CN111126334B (zh) | 技术资料的快速阅读和处理方法 | |
EP2544100A2 (en) | Method and system for making document modules | |
CN114359924A (zh) | 数据处理方法、装置、设备及存储介质 | |
WO2007070010A1 (en) | Improvements in electronic document analysis | |
Yurtsever et al. | Figure search by text in large scale digital document collections | |
CN110765107A (zh) | 基于数字化编码的题型识别方法及其系统 | |
CN100444194C (zh) | 文章标题及关联信息的自动抽取装置和抽取方法 | |
AU2018100324B4 (en) | Image Analysis | |
CN112434568A (zh) | 一种画作识别方法、装置、存储介质及计算设备 | |
JPH01304575A (ja) | 文書処理装置 | |
JP2007323238A (ja) | 強調表示装置及びプログラム | |
CN112183035A (zh) | 一种文本标注方法、装置、设备及可读存储介质 | |
Blomqvist et al. | Reading the ransom: Methodological advancements in extracting the swedish wealth tax of 1571 | |
KR102601980B1 (ko) | 특허 도면 부호 설명 출력 방법 및 이를 위한 장치, 시스템 | |
CN115221871B (zh) | 多特征融合的英文科技文献关键词提取方法 | |
KR20040054308A (ko) | 뉴스 비디오의 개별기사 군집화 방법 및 뉴스 브라우징방법 | |
CN113901828A (zh) | 一种文章智能分段和贴标签的方法 | |
Tang et al. | NewsEye: a news video browsing and retrieval system | |
Yadav et al. | Result extraction from searchable PDF | |
CN115759020A (zh) | 表格信息提取方法、表格模板配置方法和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |