CN117953533B - 用于文档页面的高效提取方法及系统 - Google Patents

用于文档页面的高效提取方法及系统 Download PDF

Info

Publication number
CN117953533B
CN117953533B CN202410345806.8A CN202410345806A CN117953533B CN 117953533 B CN117953533 B CN 117953533B CN 202410345806 A CN202410345806 A CN 202410345806A CN 117953533 B CN117953533 B CN 117953533B
Authority
CN
China
Prior art keywords
information
subject
annotation
sentence
sentences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410345806.8A
Other languages
English (en)
Other versions
CN117953533A (zh
Inventor
何小敏
贾若
郑俐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Honghu Yuntu Technology Co ltd
Original Assignee
Beijing Honghu Yuntu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Honghu Yuntu Technology Co ltd filed Critical Beijing Honghu Yuntu Technology Co ltd
Priority to CN202410345806.8A priority Critical patent/CN117953533B/zh
Publication of CN117953533A publication Critical patent/CN117953533A/zh
Application granted granted Critical
Publication of CN117953533B publication Critical patent/CN117953533B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明适用于信息提取技术领域,提供了用于文档页面的高效提取方法及系统,包括以下步骤:接收用户输入的CAD图纸和文档信息,识别CAD图纸中的部件名称;对文档信息中的所有部件名称进行识别,确定文档信息中每个信息语句的主语,当对应的主语缺失时,进行补齐;对主语补齐后的文档信息进行识别分析,提取出文档信息中的连接特征语句以及结构效果语句;根据主语对所有的连接特征语句和结构效果语句进行分类;根据文档信息的提取内容确定每个部件名称的批注信息,所述批注信息为连接特征批注或结构效果批注;将批注信息添加至CAD图纸中。本发明将文档信息中的有效信息提取出来,并添加至图纸中,用户就能够直接观看图纸,理解更加方便。

Description

用于文档页面的高效提取方法及系统
技术领域
本发明涉及信息提取技术领域,具体是涉及一种用于文档页面的高效提取方法及系统。
背景技术
为了方便其他人理解CAD图纸,更快的看懂图纸,往往需要在CAD图纸的各个部件上进行标注批注,由于CAD图纸的文字编辑性较差,在CAD图纸上批注较多的说明内容不够方便,因此,工程师往往会新建一个文档来对CAD图纸进行解释说明,然而,其他人在看文档时往往需要对照CAD图纸进行理解,信息提取与结合不够方便,较为费力。因此,需要提供一种用于文档页面的高效提取方法及系统,旨在解决上述问题。
发明内容
针对现有技术存在的不足,本发明的目的在于提供一种用于文档页面的高效提取方法及系统,以解决上述背景技术中存在的问题。
本发明是这样实现的,一种用于文档页面的高效提取方法,所述方法包括以下步骤:
接收用户输入的CAD图纸和文档信息,识别CAD图纸中的部件名称;
对文档信息中的所有部件名称进行识别,确定文档信息中每个信息语句的主语,当对应的主语缺失时,进行补齐;
对主语补齐后的文档信息进行识别分析,提取出文档信息中的连接特征语句以及结构效果语句;
根据主语对所有的连接特征语句和结构效果语句进行分类,每一类中连接特征语句和结构效果语句对应的部件名称相同;
根据文档信息的提取内容确定每个部件名称的批注信息,所述批注信息为连接特征批注或结构效果批注;
将批注信息添加至CAD图纸中。
作为本发明进一步的方案:所述确定文档信息中每个信息语句的主语,当对应的主语缺失时,进行补齐的步骤,具体包括:
根据标点符号确定文档信息中每个信息语句,判定每个信息语句是否存在主语,且所述主语为部件名称;
当信息语句存在属于部件名称的主语时,将所述主语进行第一标记;否则,确定信息语句不存在主语,执行下一步骤;
确定距离不存在主语的信息语句最近的被标记的主语,所述主语位于不存在主语的信息语句之前,将所述主语与所述信息语句进行绑定,将所述主语进行第二标记。
作为本发明进一步的方案:所述判定每个信息语句是否存在主语,且所述主语为部件名称的步骤,具体包括:
基于所有的部件名称和名词库识别出信息语句中的所有名词;
判定信息语句中的第一个名词是否为部件名称,当为部件名称时,确定所述信息语句存在主语;否则,确定所述信息语句不存在主语。
作为本发明进一步的方案:所述提取出文档信息中的连接特征语句以及结构效果语句的步骤,具体包括:
将信息语句输入至连接特征库中,得到信息语句中的连接特征词汇;
确定信息语句中部件名称的字符数量n、连接特征词汇的字符数量m以及所述信息语句的字符数量z;
对信息语句进行性质判定,当(n+m)÷z大于设定比值时,确定所述信息语句为连接特征语句;否则,确定信息语句中是否包含效果库中的词汇,当包含时,确定所述信息语句为结构效果语句;
提取出文档信息中的所有连接特征语句以及结构效果语句。
作为本发明进一步的方案:所述将批注信息添加至CAD图纸中的步骤,具体包括:
将所有的连接特征批注和结构效果批注标记在CAD图纸中对应的部件名称处;
接收批注信息编辑指令,对批注信息进行更改;
生成批注显示切换图标,当批注显示切换图标被点击,CAD图纸上显示的批注信息在连接特征批注和结构效果批注之间切换。
本发明的另一目的在于提供一种用于文档页面的高效提取系统,所述系统包括:
文档图纸接收模块,用于接收用户输入的CAD图纸和文档信息,识别CAD图纸中的部件名称;
语句主语确定模块,用于对文档信息中的所有部件名称进行识别,确定文档信息中每个信息语句的主语,当对应的主语缺失时,进行补齐;
特征效果提取模块,用于对主语补齐后的文档信息进行识别分析,提取出文档信息中的连接特征语句以及结构效果语句;
信息语句分类模块,用于根据主语对所有的连接特征语句和结构效果语句进行分类,每一类中连接特征语句和结构效果语句对应的部件名称相同;
批注信息确定模块,用于根据文档信息的提取内容确定每个部件名称的批注信息,所述批注信息为连接特征批注或结构效果批注;
批注信息添加模块,用于将批注信息添加至CAD图纸中。
作为本发明进一步的方案:所述语句主语确定模块包括:
信息语句确定单元,用于根据标点符号确定文档信息中每个信息语句,判定每个信息语句是否存在主语,且所述主语为部件名称;
主语第一标记单元,用于当信息语句存在属于部件名称的主语时,将所述主语进行第一标记;否则,确定信息语句不存在主语,执行主语第二标记单元中的步骤;
主语第二标记单元,用于确定距离不存在主语的信息语句最近的被标记的主语,所述主语位于不存在主语的信息语句之前,将所述主语与所述信息语句进行绑定,将所述主语进行第二标记。
作为本发明进一步的方案:所述信息语句确定单元包括:
名词识别子单元,用于基于所有的部件名称和名词库识别出信息语句中的所有名词;
语句主语判定子单元,用于判定信息语句中的第一个名词是否为部件名称,当为部件名称时,确定所述信息语句存在主语;否则,确定所述信息语句不存在主语。
作为本发明进一步的方案:所述特征效果提取模块包括:
连接特征词汇单元,用于将信息语句输入至连接特征库中,得到信息语句中的连接特征词汇;
字符数量确定单元,用于确定信息语句中部件名称的字符数量n、连接特征词汇的字符数量m以及所述信息语句的字符数量z;
语句性质判定单元,用于对信息语句进行性质判定,当(n+m)÷z大于设定比值时,确定所述信息语句为连接特征语句;否则,确定信息语句中是否包含效果库中的词汇,当包含时,确定所述信息语句为结构效果语句;
信息语句提取单元,用于提取出文档信息中的所有连接特征语句以及结构效果语句。
作为本发明进一步的方案:所述批注信息添加模块包括:
批注标记单元,用于将所有的连接特征批注和结构效果批注标记在CAD图纸中对应的部件名称处;
批注编辑单元,用于接收批注信息编辑指令,对批注信息进行更改;
批注显示切换单元,用于生成批注显示切换图标,当批注显示切换图标被点击,CAD图纸上显示的批注信息在连接特征批注和结构效果批注之间切换。
与现有技术相比,本发明的有益效果是:
本发明通过识别CAD图纸中的部件名称,对文档信息中的所有部件名称进行识别,确定文档信息中每个信息语句的主语,然后提取出文档信息中的连接特征语句以及结构效果语句;根据主语对所有的连接特征语句和结构效果语句进行分类,并根据文档信息的提取内容确定每个部件名称的批注信息,最后将批注信息添加至CAD图纸中。如此,文档信息中的有效信息被提取到CAD图纸中,用户能够直接观看CAD图纸,且有效内容直接标注在对应的部件处,用户查看和理解更加方便。
附图说明
图1为一种用于文档页面的高效提取方法的流程图。
图2为一种用于文档页面的高效提取方法中确定信息语句的主语的流程图。
图3为一种用于文档页面的高效提取方法中判定信息语句是否存在主语的流程图。
图4为一种用于文档页面的高效提取方法中提取连接特征语句以及结构效果语句的流程图。
图5为一种用于文档页面的高效提取方法中添加批注信息的流程图。
图6为一种用于文档页面的高效提取系统的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清晰,以下结合附图及具体实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以下结合具体实施例对本发明的具体实现进行详细描述。
如图1所示,本发明实施例提供了一种用于文档页面的高效提取方法,所述方法包括以下步骤:
S100,接收用户输入的CAD图纸和文档信息,识别CAD图纸中的部件名称;
S200,对文档信息中的所有部件名称进行识别,确定文档信息中每个信息语句的主语,当对应的主语缺失时,进行补齐;
S300,对主语补齐后的文档信息进行识别分析,提取出文档信息中的连接特征语句以及结构效果语句;
S400,根据主语对所有的连接特征语句和结构效果语句进行分类,每一类中连接特征语句和结构效果语句对应的部件名称相同;
S500,根据文档信息的提取内容确定每个部件名称的批注信息,所述批注信息为连接特征批注或结构效果批注;
S600,将批注信息添加至CAD图纸中。
需要说明的是,由于CAD图纸的文字编辑性较差,在CAD图纸上批注较多的说明内容不够方便,工程师经常会新建一个文档来对CAD图纸进行解释说明,然而,其他人在看文档时往往需要对照CAD图纸进行理解,信息提取与结合不够方便,较为费脑,本发明实施例旨在解决上述问题。
本发明实施例中,用户首先需要上传CAD图纸和对应的说明文档信息,CAD图纸上需要对各个部件进行名称标注,接着本发明实施例会自动识别CAD图纸中的文字得到所有的部件名称,然后对文档信息中的所有部件名称进行识别,确定文档信息中每个信息语句的主语,当对应的主语缺失时,进行补齐,使得每个信息语句都有主语。接着对主语补齐后的文档信息进行识别分析,提取出文档信息中的连接特征语句以及结构效果语句,连接特征语句和结构效果语句能够很好的帮助其他人对图纸进行深入理解。然后根据主语对所有的连接特征语句和结构效果语句进行分类,每一类中连接特征语句和结构效果语句对应的部件名称相同;如此,就可以确定每个部件名称的批注信息,所述批注信息为连接特征批注或结构效果批注,连接特征批注是该部件名称对应的所有连接特征语句的汇总,结构效果批注是该部件名称对应的所有结构效果语句的汇总,如此,文档信息中的有效信息被提取出来,最后将批注信息添加至CAD图纸中,用户就能够直接观看CAD图纸,且有效内容直接标注在对应的部件处,用户查看和理解更加方便。
如图2所示,作为本发明一个优选的实施例,所述确定文档信息中每个信息语句的主语,当对应的主语缺失时,进行补齐的步骤,具体包括:
S201,根据标点符号确定文档信息中每个信息语句,判定每个信息语句是否存在主语,且所述主语为部件名称;
S202,当信息语句存在属于部件名称的主语时,将所述主语进行第一标记;否则,确定信息语句不存在主语,执行下一步骤;
S203,确定距离不存在主语的信息语句最近的被标记的主语,所述主语位于不存在主语的信息语句之前,将所述主语与所述信息语句进行绑定,将所述主语进行第二标记。
本发明实施例中,为了确定每句信息的主语,首先会根据标点符号确定文档信息中每个信息语句,将不同的信息语句之间断开;然后,判定每个信息语句是否存在属于部件名称的主语,当信息语句存在属于部件名称的主语时,将所述主语进行第一标记,例如将主语标记为绿色;否则,确定所述信息语句不存在主语,然后确定距离该不存在主语的信息语句最近的被标记的主语,要求这个被标记的主语位于不存在主语的信息语句之前,将所述主语与所述信息语句进行绑定,将所述主语进行第二标记,例如将主语标记为红色,将该主语添加至信息语句的句首。
如图3所示,作为本发明一个优选的实施例,所述判定每个信息语句是否存在主语,且所述主语为部件名称的步骤,具体包括:
S2011,基于所有的部件名称和名词库识别出信息语句中的所有名词;
S2012,判定信息语句中的第一个名词是否为部件名称,当为部件名称时,确定所述信息语句存在主语;否则,确定所述信息语句不存在主语。
本发明实施例中,为了确定信息语句是否存在主语,会基于所有的部件名称和名词库识别出信息语句中的所有名词,名词属于部件名称或者名词库中的词汇;然后会判定信息语句中的第一个名词是否为部件名称,当为部件名称时,确定所述信息语句存在主语;否则,确定所述信息语句不存在主语。需要说明的是,这里的不存在主语并非真正的没有主语,而是主语不是部件名称,后续无法进行归类,不方便进行信息的批注。
如图4所示,作为本发明一个优选的实施例,所述提取出文档信息中的连接特征语句以及结构效果语句的步骤,具体包括:
S301,将信息语句输入至连接特征库中,得到信息语句中的连接特征词汇;
S302,确定信息语句中部件名称的字符数量n、连接特征词汇的字符数量m以及所述信息语句的字符数量z;
S303,对信息语句进行性质判定,当(n+m)÷z大于设定比值时,确定所述信息语句为连接特征语句;否则,确定信息语句中是否包含效果库中的词汇,当包含时,确定所述信息语句为结构效果语句;
S304,提取出文档信息中的所有连接特征语句以及结构效果语句。
本发明实施例中,为了提取出文档中的有效信息,事先建立有连接特征库和效果库,例如连接特征库中的词语有连接、固定、设置、转动、安装、配合等,效果库中的词语有目标、效果、效率、方便、提升、增加、降低、达到、实现等。本发明实施例会将信息语句输入至连接特征库中,得到信息语句中的连接特征词汇,然后会确定信息语句中部件名称的字符数量n、连接特征词汇的字符数量m以及所述信息语句的字符总数量z。这样就可以对信息语句进行性质判定,当(n+m)÷z大于设定比值时,设定比值为提前设置的定值,确定所述信息语句为连接特征语句;否则,确定信息语句中是否包含效果库中的词汇,当包含时,确定所述信息语句为结构效果语句;当信息语句既不是连接特征语句,又不是结构效果语句时,它就是普通语句,不会被提取出。
如图5所示,作为本发明一个优选的实施例,所述将批注信息添加至CAD图纸中的步骤,具体包括:
S601,将所有的连接特征批注和结构效果批注标记在CAD图纸中对应的部件名称处;
S602,接收批注信息编辑指令,对批注信息进行更改;
S603,生成批注显示切换图标,当批注显示切换图标被点击,CAD图纸上显示的批注信息在连接特征批注和结构效果批注之间切换。
本发明实施例中,连接特征批注和结构效果批注标记在CAD图纸中对应的部件名称处后,用户可以对批注信息进行编辑修改更正。另外,为了方便用户进行查看,本发明实施例还会生成批注显示切换图标,当批注显示切换图标被用户点击,CAD图纸上显示的批注信息会在连接特征批注和结构效果批注之间切换,如此,用户想要看哪种批注就可以查看哪种批注,使用更加便捷。
如图6所示,本发明实施例还提供了一种用于文档页面的高效提取系统,所述系统包括:
文档图纸接收模块100,用于接收用户输入的CAD图纸和文档信息,识别CAD图纸中的部件名称;
语句主语确定模块200,用于对文档信息中的所有部件名称进行识别,确定文档信息中每个信息语句的主语,当对应的主语缺失时,进行补齐;
特征效果提取模块300,用于对主语补齐后的文档信息进行识别分析,提取出文档信息中的连接特征语句以及结构效果语句;
信息语句分类模块400,用于根据主语对所有的连接特征语句和结构效果语句进行分类,每一类中连接特征语句和结构效果语句对应的部件名称相同;
批注信息确定模块500,用于根据文档信息的提取内容确定每个部件名称的批注信息,所述批注信息为连接特征批注或结构效果批注;
批注信息添加模块600,用于将批注信息添加至CAD图纸中。
作为本发明一个优选的实施例,所述语句主语确定模块200包括:
信息语句确定单元,用于根据标点符号确定文档信息中每个信息语句,判定每个信息语句是否存在主语,且所述主语为部件名称;
主语第一标记单元,用于当信息语句存在属于部件名称的主语时,将所述主语进行第一标记;否则,确定信息语句不存在主语,执行主语第二标记单元中的步骤;
主语第二标记单元,用于确定距离不存在主语的信息语句最近的被标记的主语,所述主语位于不存在主语的信息语句之前,将所述主语与所述信息语句进行绑定,将所述主语进行第二标记。
作为本发明一个优选的实施例,所述信息语句确定单元包括:
名词识别子单元,用于基于所有的部件名称和名词库识别出信息语句中的所有名词;
语句主语判定子单元,用于判定信息语句中的第一个名词是否为部件名称,当为部件名称时,确定所述信息语句存在主语;否则,确定所述信息语句不存在主语。
作为本发明一个优选的实施例,所述特征效果提取模块300包括:
连接特征词汇单元,用于将信息语句输入至连接特征库中,得到信息语句中的连接特征词汇;
字符数量确定单元,用于确定信息语句中部件名称的字符数量n、连接特征词汇的字符数量m以及所述信息语句的字符数量z;
语句性质判定单元,用于对信息语句进行性质判定,当(n+m)÷z大于设定比值时,确定所述信息语句为连接特征语句;否则,确定信息语句中是否包含效果库中的词汇,当包含时,确定所述信息语句为结构效果语句;
信息语句提取单元,用于提取出文档信息中的所有连接特征语句以及结构效果语句。
作为本发明一个优选的实施例,所述批注信息添加模块600包括:
批注标记单元,用于将所有的连接特征批注和结构效果批注标记在CAD图纸中对应的部件名称处;
批注编辑单元,用于接收批注信息编辑指令,对批注信息进行更改;
批注显示切换单元,用于生成批注显示切换图标,当批注显示切换图标被点击,CAD图纸上显示的批注信息在连接特征批注和结构效果批注之间切换。
以上仅对本发明的较佳实施例进行了详细叙述,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
应该理解的是,虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
本领域技术人员在考虑说明书及实施例处的公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。

Claims (6)

1.用于文档页面的高效提取方法,其特征在于,所述方法包括以下步骤:
接收用户输入的CAD图纸和文档信息,识别CAD图纸中的部件名称;
对文档信息中的所有部件名称进行识别,确定文档信息中每个信息语句的主语,当对应的主语缺失时,进行补齐;
对主语补齐后的文档信息进行识别分析,提取出文档信息中的连接特征语句以及结构效果语句;
根据主语对所有的连接特征语句和结构效果语句进行分类,每一类中连接特征语句和结构效果语句对应的部件名称相同;
根据文档信息的提取内容确定每个部件名称的批注信息,所述批注信息为连接特征批注或结构效果批注;
将批注信息添加至CAD图纸中;
其中,所述确定文档信息中每个信息语句的主语,当对应的主语缺失时,进行补齐的步骤,具体包括:根据标点符号确定文档信息中每个信息语句,判定每个信息语句是否存在主语,且所述主语为部件名称;当信息语句存在属于部件名称的主语时,将所述主语进行第一标记;否则,确定信息语句不存在主语,执行下一步骤;确定距离不存在主语的信息语句最近的被标记的主语,所述主语位于不存在主语的信息语句之前,将所述主语与所述信息语句进行绑定,将所述主语进行第二标记;
其中,所述提取出文档信息中的连接特征语句以及结构效果语句的步骤,具体包括:将信息语句输入至连接特征库中,得到信息语句中的连接特征词汇;确定信息语句中部件名称的字符数量n、连接特征词汇的字符数量m以及所述信息语句的字符数量z;对信息语句进行性质判定,当(n+m)÷z大于设定比值时,确定所述信息语句为连接特征语句;否则,确定信息语句中是否包含效果库中的词汇,当包含时,确定所述信息语句为结构效果语句;提取出文档信息中的所有连接特征语句以及结构效果语句。
2.根据权利要求1所述的用于文档页面的高效提取方法,其特征在于,所述判定每个信息语句是否存在主语,且所述主语为部件名称的步骤,具体包括:
基于所有的部件名称和名词库识别出信息语句中的所有名词;
判定信息语句中的第一个名词是否为部件名称,当为部件名称时,确定所述信息语句存在主语;否则,确定所述信息语句不存在主语。
3.根据权利要求1所述的用于文档页面的高效提取方法,其特征在于,所述将批注信息添加至CAD图纸中的步骤,具体包括:
将所有的连接特征批注和结构效果批注标记在CAD图纸中对应的部件名称处;
接收批注信息编辑指令,对批注信息进行更改;
生成批注显示切换图标,当批注显示切换图标被点击,CAD图纸上显示的批注信息在连接特征批注和结构效果批注之间切换。
4.用于文档页面的高效提取系统,其特征在于,所述系统包括:
文档图纸接收模块,用于接收用户输入的CAD图纸和文档信息,识别CAD图纸中的部件名称;
语句主语确定模块,用于对文档信息中的所有部件名称进行识别,确定文档信息中每个信息语句的主语,当对应的主语缺失时,进行补齐;
特征效果提取模块,用于对主语补齐后的文档信息进行识别分析,提取出文档信息中的连接特征语句以及结构效果语句;
信息语句分类模块,用于根据主语对所有的连接特征语句和结构效果语句进行分类,每一类中连接特征语句和结构效果语句对应的部件名称相同;
批注信息确定模块,用于根据文档信息的提取内容确定每个部件名称的批注信息,所述批注信息为连接特征批注或结构效果批注;
批注信息添加模块,用于将批注信息添加至CAD图纸中;
其中,所述语句主语确定模块包括:信息语句确定单元,用于根据标点符号确定文档信息中每个信息语句,判定每个信息语句是否存在主语,且所述主语为部件名称;主语第一标记单元,用于当信息语句存在属于部件名称的主语时,将所述主语进行第一标记;否则,确定信息语句不存在主语,执行主语第二标记单元中的步骤;主语第二标记单元,用于确定距离不存在主语的信息语句最近的被标记的主语,所述主语位于不存在主语的信息语句之前,将所述主语与所述信息语句进行绑定,将所述主语进行第二标记;
其中,所述特征效果提取模块包括:连接特征词汇单元,用于将信息语句输入至连接特征库中,得到信息语句中的连接特征词汇;字符数量确定单元,用于确定信息语句中部件名称的字符数量n、连接特征词汇的字符数量m以及所述信息语句的字符数量z;语句性质判定单元,用于对信息语句进行性质判定,当(n+m)÷z大于设定比值时,确定所述信息语句为连接特征语句;否则,确定信息语句中是否包含效果库中的词汇,当包含时,确定所述信息语句为结构效果语句;信息语句提取单元,用于提取出文档信息中的所有连接特征语句以及结构效果语句。
5.根据权利要求4所述的用于文档页面的高效提取系统,其特征在于,所述信息语句确定单元包括:
名词识别子单元,用于基于所有的部件名称和名词库识别出信息语句中的所有名词;
语句主语判定子单元,用于判定信息语句中的第一个名词是否为部件名称,当为部件名称时,确定所述信息语句存在主语;否则,确定所述信息语句不存在主语。
6.根据权利要求4所述的用于文档页面的高效提取系统,其特征在于,所述批注信息添加模块包括:
批注标记单元,用于将所有的连接特征批注和结构效果批注标记在CAD图纸中对应的部件名称处;
批注编辑单元,用于接收批注信息编辑指令,对批注信息进行更改;
批注显示切换单元,用于生成批注显示切换图标,当批注显示切换图标被点击,CAD图纸上显示的批注信息在连接特征批注和结构效果批注之间切换。
CN202410345806.8A 2024-03-26 2024-03-26 用于文档页面的高效提取方法及系统 Active CN117953533B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410345806.8A CN117953533B (zh) 2024-03-26 2024-03-26 用于文档页面的高效提取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410345806.8A CN117953533B (zh) 2024-03-26 2024-03-26 用于文档页面的高效提取方法及系统

Publications (2)

Publication Number Publication Date
CN117953533A CN117953533A (zh) 2024-04-30
CN117953533B true CN117953533B (zh) 2024-05-28

Family

ID=90792986

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410345806.8A Active CN117953533B (zh) 2024-03-26 2024-03-26 用于文档页面的高效提取方法及系统

Country Status (1)

Country Link
CN (1) CN117953533B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101162480A (zh) * 2007-10-09 2008-04-16 南京大学 工程图自动识别与理解的方法
CN112365590A (zh) * 2020-12-12 2021-02-12 同济大学建筑设计研究院(集团)有限公司 图纸生成方法、装置、计算机设备和存储介质
CN114187605A (zh) * 2021-12-13 2022-03-15 苏州方兴信息技术有限公司 一种数据集成方法、装置和可读存储介质
WO2023048439A1 (ko) * 2021-09-24 2023-03-30 주식회사 팀솔루션 워크 플로우 기반의 시맨틱 cad 데이터 변환 방법 및 이를 위한 장치
CN116434258A (zh) * 2023-04-21 2023-07-14 华联世纪工程咨询股份有限公司 一种表格数据的自动识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101162480A (zh) * 2007-10-09 2008-04-16 南京大学 工程图自动识别与理解的方法
CN112365590A (zh) * 2020-12-12 2021-02-12 同济大学建筑设计研究院(集团)有限公司 图纸生成方法、装置、计算机设备和存储介质
WO2023048439A1 (ko) * 2021-09-24 2023-03-30 주식회사 팀솔루션 워크 플로우 기반의 시맨틱 cad 데이터 변환 방법 및 이를 위한 장치
CN114187605A (zh) * 2021-12-13 2022-03-15 苏州方兴信息技术有限公司 一种数据集成方法、装置和可读存储介质
CN116434258A (zh) * 2023-04-21 2023-07-14 华联世纪工程咨询股份有限公司 一种表格数据的自动识别方法

Also Published As

Publication number Publication date
CN117953533A (zh) 2024-04-30

Similar Documents

Publication Publication Date Title
CN108874928B (zh) 简历数据信息解析处理方法、装置、设备及存储介质
CN110795919B (zh) 一种pdf文档中的表格抽取方法、装置、设备及介质
JP4869630B2 (ja) コンテンツを開始テンプレートとターゲットテンプレートとの間でマップするための方法およびシステム
US20110270858A1 (en) File type recognition analysis method and system
US10042880B1 (en) Automated identification of start-of-reading location for ebooks
CN110705211A (zh) 文本重点内容标记方法、装置、计算机设备及存储介质
CN117953533B (zh) 用于文档页面的高效提取方法及系统
CN111382570A (zh) 文本实体识别方法、装置、计算机设备及存储介质
CN116110051B (zh) 一种文件信息处理方法、装置、计算机设备及存储介质
CN116702739A (zh) 一种合同文本错误信息的模糊判定方法及装置
CN115017871B (zh) 一种文件档案内容的替换显示方法和显示系统
Kuncham et al. Statistical sandhi splitter for agglutinative languages
US11907656B2 (en) Machine based expansion of contractions in text in digital media
CN107015955B (zh) 文档编辑方法和装置
CN115422095A (zh) 一种回归测试用例推荐方法、装置、设备及介质
CN115495556A (zh) 文档处理方法及装置
CN112905763B (zh) 会话系统开发方法、装置、计算机设备及存储介质
CN113569533A (zh) 保险内容标注方法、系统、计算机设备及存储介质
CN112800771B (zh) 文章识别方法、装置、计算机可读存储介质和计算机设备
CN109657210B (zh) 基于语义解析的文本准确率计算方法、装置、计算机设备
CN116320621B (zh) 一种基于nlp的流媒体内容分析方法及系统
CN112667722A (zh) 核电站程序文件转换方法及设备
KR20210145536A (ko) 회의록 관리 방법 및 장치
JP6565012B2 (ja) 翻訳支援システム
CN112101019A (zh) 一种基于词性标注和组块分析的需求模板符合性检查优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant