CN113435168A - 胶图自动编辑方法、系统、终端及介质 - Google Patents
胶图自动编辑方法、系统、终端及介质 Download PDFInfo
- Publication number
- CN113435168A CN113435168A CN202110645472.2A CN202110645472A CN113435168A CN 113435168 A CN113435168 A CN 113435168A CN 202110645472 A CN202110645472 A CN 202110645472A CN 113435168 A CN113435168 A CN 113435168A
- Authority
- CN
- China
- Prior art keywords
- marker
- editing
- glue
- client
- product
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 239000003550 marker Substances 0.000 claims abstract description 111
- 239000003292 glue Substances 0.000 claims description 151
- 238000012549 training Methods 0.000 claims description 24
- 238000001514 detection method Methods 0.000 claims description 17
- 230000015654 memory Effects 0.000 claims description 15
- 238000004140 cleaning Methods 0.000 claims description 13
- 238000012360 testing method Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 8
- 238000003860 storage Methods 0.000 claims description 8
- 238000010586 diagram Methods 0.000 claims description 7
- 238000003062 neural network model Methods 0.000 claims description 4
- 239000004568 cement Substances 0.000 claims 6
- 238000003752 polymerase chain reaction Methods 0.000 description 38
- 238000012545 processing Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000004519 manufacturing process Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 3
- 208000025174 PANDAS Diseases 0.000 description 2
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 2
- 240000004718 Panda Species 0.000 description 2
- 235000016496 Panda oleosa Nutrition 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000003908 quality control method Methods 0.000 description 2
- 241000894007 species Species 0.000 description 2
- 241000512668 Eunectes Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/174—Form filling; Merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/177—Editing, e.g. inserting or deleting of tables; using ruled lines
- G06F40/18—Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/183—Tabulation, i.e. one-dimensional positioning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明的胶图自动编辑方法、系统、终端及介质,通过对原始数据自动标准化,并且通过识别获得的各marker的位置信息,自动对产物胶图进行文字编辑以及切片截取,再将所属同一客户的各客户任务的截取切片进行自动拼接,不仅精准识别产物胶图中的marker,还实现了自动完成一系列的胶图编辑的操作以及可自动同时处理大批量的产物胶图,使得编辑效率的极大提高,而且解放了一定的劳动力,并解决了现有技术的问题。
Description
技术领域
本发明涉及胶图处理领域,特别是涉及一种胶图自动编辑方法、系统、终端及介质。
背景技术
在现有技术中对PCR(聚合酶链式反应)的产物胶图照片需要进行人工操作,首先需要在胶图中对marker和对应的凝胶条带进行标记和编号处理,其次需要手动对胶图进行截取客户对应凝胶条带图片,最后将各个条状截图图片拼接形成完整的图片并交付客户,而这往往需要花费较长的时间和较大的精力。
对于现有技术中的胶图编辑方式,主要有以下三个缺点:
1、marker识别率较低,在进行大规模的图片处理时,无法全部识别胶图中的marker(识别率不足70%),较低的识别率会导致后续图片处理工作无法进行。
2、只能完成marker识别和胶图文字填充以及图片截取过程,并未进行截图拼接,工作人员仍然需要对这些图片进行手动拼接。
3、在作为程序输入的与胶图图片对应的表格数据,需要经过标准化处理,现有技术中该过程仍然需要工作人员手工进行编辑,在一定程度上加重了工作负担,降低了工作效率。。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种胶图自动编辑方法、系统、终端及介质,用于解决现有技术中marker识别率较低、截图拼接需要进行手动拼接以及原始数据需要手动标准化,导致胶图编辑需耗费大量人力,编辑准确度不高,进而编辑效率不高等问题。
为实现上述目的及其他相关目的,本发明提供一种胶图自动编辑方法,包括:对待编辑的产物胶图所对应的原始数据进行标准化,获得填充有对应各客户任务的起始PCR产物以及终点PCR产物分别所对应的序列编号的标准化数据;对所述产物胶图分别进行marker识别并获得各marker的位置信息,并根据所述标准化数据对所述产物胶图分别进行文字编辑以及切片截取,以获得对应各客户任务的截取切片;基于所述标准化数据,对所属同一客户的各客户任务的截取切片进行拼接,获得对应各客户的拼接胶图并输出。
于本发明的一实施例中,所述对待编辑的产物胶图所对应的原始数据进行标准化,获得填充有各客户任务的PCR产物所对应的序列编号的标准化数据包括:访问目标网站,并获取访问结果;将原始数据转换为具有客户任务索引列的清洗数据表格;其中,所述客户任务索引列包括:各客户的名称以及对应各客户的各客户任务的起始PCR产物和终点PCR产物的名称;基于所述清洗数据表格,提取各客户任务分别所对应的起始PCR产物和终点PCR产物的序列编号,并将各序列编号填充至所述清洗数据表格,以获得标准化数据。
于本发明的一实施例中,所述对所述产物胶图分别进行marker识别并获得各marker的位置信息,并根据所述标准化数据对所述产物胶图分别进行文字编辑以及切片截取,以获得对应各客户任务的截取切片包括:基于经过训练的目标检测模型,对所述产物胶图的各marker进行识别,并获得各marker分别处于所述产物胶图的位置信息;基于所述标准化数据,按各marker的位置信息对所述产物胶图进行文字编辑,获得标记有各客户任务的起始marker以及终点marker的文字编辑胶图;基于各客户任务的起始marker以及终点marker的标记,对所述文字编辑胶图进行截取,获得对应各客户任务的截取切片。
于本发明的一实施例中,所述目标检测模型的训练方式包括:采集多个未经过编辑的产物胶图以及对应各胶图的由手动标记获得的各marker的位置信息,并生训练集以及测试集;基于所述训练集以及测试集,训练神经网络模型,以获得目标检测模型。
于本发明的一实施例中,所述将对应各合格峰图文件的经过质控后获得的双端序列分别进行序列拼接,并分别以一样本文件进行储存包括:利用PHRAP程序对对应各合格峰图文件的经过质控后获得的双端序列分别进行拼接,并分别以一样本文件进行储存。
于本发明的一实施例中,所述基于所述标准化数据,按各marker的位置信息对所述产物胶图进行文字编辑,获得标记有各客户任务的起始marker以及终点marker的文字编辑胶图包括:基于所述标准化数据以及各marker的位置信息获得对应各客户任务的起始marker以及终点marker分别所对应的位置信息以及序列编号;按照各客户任务的起始marker以及终点marker分别所对应的位置信息,在所述产物胶图上分别标记对应各客户任务的起始marker以及终点marker的序列编号;基于所述标准化数据,在经过标记的产物胶图上的各客户任务所对应的标记的起始marker以及终点marker的序列编号之间分别填充一或多个序列编号,以获得文字编辑胶图。
于本发明的一实施例中,述基于各客户任务的起始marker以及终点marker的标记,对所述文字编辑胶图进行截取,获得对应各客户任务的截取切片包括:利用OpenCV,根据各客户任务的起始marker以及终点marker的标记,对所述文字编辑胶图进行一或多次截取,以获得对应各客户任务的截取切片。
于本发明的一实施例中,所述基于所述标准化数据,对所属同一客户的各客户任务的截取切片进行拼接,获得对应各客户的拼接胶图并输出包括:基于所述标准化数据,对所属同一客户的各客户任务的截取切片按顺序进行拼接,获得对应各客户的初步拼接胶图;对所述初步拼接胶图进行亮度调节,获得对应各客户的拼接胶图并输出。
为实现上述目的及其他相关目的,本发明提供一种胶图自动编辑系统,所述系统包括:标准化模块,用于对待编辑的产物胶图所对应的原始数据进行标准化,获得填充有对应各客户任务的起始PCR产物以及终点PCR产物分别所对应的序列编号的标准化数据;编辑模块,连接所述标准化模块,用于对所述产物胶图分别进行marker识别并获得各marker的位置信息,并根据所述标准化数据对所述产物胶图分别进行文字编辑以及切片截取,以获得对应各客户任务的截取切片;拼接模块,连接所述编辑模块,用于基于所述标准化数据,对所属同一客户的各客户任务的截取切片进行拼接,获得对应各客户的拼接胶图并输出。
为实现上述目的及其他相关目的,本发明提供一种胶图自动编辑终端,包括:存储器,用于存储计算机程序;处理器,用于执行所述的胶图自动编辑方法。
为实现上述目标及其他相关目标,本申请提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被一个或多个处理器运行时执行所述的胶图自动编辑方法。
如上所述,本发明是一种胶图自动编辑方法、系统、终端及介质,具有以下有益效果:本发明通过对原始数据自动标准化,并且通过识别获得的各marker的位置信息,自动对产物胶图进行文字编辑以及切片截取,再将所属同一客户的各客户任务的截取切片进行自动拼接,不仅精准识别产物胶图中的marker,还实现了自动完成一系列的胶图编辑的操作以及可自动同时处理大批量的产物胶图,使得编辑效率的极大提高,而且解放了一定的劳动力,并解决了现有技术的问题。
附图说明
图1显示为本发明一实施例中的胶图自动编辑方法的流程示意图。
图2显示为本发明一实施例中的胶图自动编辑系统的结构示意图。
图3显示为本发明一实施例中的胶图自动编辑终端的结构示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,在下述描述中,参考附图,附图描述了本发明的若干实施例。应当理解,还可使用其他实施例,并且可以在不背离本发明的精神和范围的情况下进行机械组成、结构、电气以及操作上的改变。下面的详细描述不应该被认为是限制性的,并且本发明的实施例的范围仅由公布的专利的权利要求书所限定。这里使用的术语仅是为了描述特定实施例,而并非旨在限制本发明。空间相关的术语,例如“上”、“下”、“左”、“右”、“下面”、“下方”、““下部”、“上方”、“上部”等,可在文中使用以便于说明图中所示的一个元件或特征与另一元件或特征的关系。
在通篇说明书中,当说某部分与另一部分“连接”时,这不仅包括“直接连接”的情形,也包括在其中间把其它元件置于其间而“间接连接”的情形。另外,当说某种部分“包括”某种构成要素时,只要没有特别相反的记载,则并非将其它构成要素,排除在外,而是意味着可以还包括其它构成要素。
其中提到的第一、第二及第三等术语是为了说明多样的部分、成分、区域、层及/或段而使用的,但并非限定于此。这些术语只用于把某部分、成分、区域、层或段区别于其它部分、成分、区域、层或段。因此,以下叙述的第一部分、成分、区域、层或段在不超出本发明范围的范围内,可以言及到第二部分、成分、区域、层或段。
再者,如同在本文中所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文中有相反的指示。应当进一步理解,术语“包含”、“包括”表明存在所述的特征、操作、元件、组件、项目、种类、和/或组,但不排除一个或多个其他特征、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的,或意味着任一个或任何组合。因此,“A、B或C”或者“A、B和/或C”意味着“以下任一个:A;B;C;A和B;A和C;B和C;A、B和C”。仅当元件、功能或操作的组合在某些方式下内在地互相排斥时,才会出现该定义的例外。
本发明提供一种胶图自动编辑方法,通过对原始数据自动标准化,并且通过识别获得的各marker的位置信息,自动对产物胶图进行文字编辑以及切片截取,再将所属同一客户的各客户任务的截取切片进行自动拼接,不仅精准识别产物胶图中的marker,还实现了自动完成一系列的胶图编辑的操作以及可自动同时处理大批量的产物胶图,使得编辑效率的极大提高,而且解放了一定的劳动力,并解决了现有技术的问题。
下面以附图为参考,针对本发明的实施例进行详细说明,以便本发明所述技术领域的技术人员能够容易地实施。本发明可以以多种不同形态体现,并不限于此处说明的实施例。
如图1所示,展示本发明实施例中的胶图自动编辑方法的流程示意图。
所述方法包括:
步骤S11:对待编辑的产物胶图所对应的原始数据进行标准化,获得填充有对应各客户任务的起始PCR产物以及终点PCR产物分别所对应的序列编号的标准化数据。
可选的,通过对原始数据的处理工作,我们可以更方便的对胶图进行编辑,极大提高程序的可执行性和容错率。其中,所述原始数据一般包括对应各客户的各PCR产物的信息,原始数据可以由表格形式展示,例如,如表一所示,一行分别为对应客户张三的各PCR产物的名称;
表一:原始数据
张三A10 | 张三A11 | 张三A12 | 张三A13 | 张三A14 | 张三A15 |
则需要将原始数据中所有客户的起始PCR产物以及终点PCR产物名称作为客户任务输入,并将对应起始PCR产物以及终点PCR产物的序列编号自动填充至原始数据中各得到例如表2的标准化数据:
表二:标准化数据
张三=A10-A15 | 1 | 5 | - |
可选的,所述步骤S11包括:对目标网站进行访问,并获取访问结果;将原始数据转换为具有客户任务索引列的清洗数据表格;其中,所述客户任务索引列包括:各客户的名称以及对应各客户的各客户任务的起始PCR产物和终点PCR产物的名称,即每个索引列的单元格代表一客户任务名称,在一优选实施方式,索引列的各单元格所在的行对应的单元格上分别填充有该客户任务的起始PCR产物以及终点PCR产物分别所对应的序列编号;基于所述清洗数据表格,提取各客户任务分别所对应的起始PCR产物和终点PCR产物的序列编号,并将各序列编号填充至所述清洗数据表格,以获得标准化数据。
可选的,对目标网站进行访问,并获取访问结果的方式包括:使用Scrapy技术从目标网站获取访问结果;具体的,我们利用Focused Crawler(聚焦网络爬虫)通过目标网站的接口来进行安全访问,通过字符串拼接的方式来构造url地址,其目标网站发起请求的方式为get方法,因此我们通过Query String Parament中保存的参数来构造url地址。利用Parse函数可以将参数编码可直接访问目标网站的url地址,并返回访问结果,例如json数据;另外,我们还可以通过增加判断,来判断是否访问成功,
可选的,所述将原始数据转换为具有客户任务索引列的清洗数据表格的方式包括:使用Python的数据处理模块pandas来对原始数据进行数据清洗;若原始数据的文件格式为xlsx格式,该文本格式不能使用pandas中的read_excel()方法直接读取,则需要将该方法的参数设置为engine=openpyxl,同时将第一列作为客户任务索引列,方便后续的数据处理。
可选的,所述基于所述清洗数据表格,提取各客户任务分别所对应的起始PCR产物和终点PCR产物的序列编号,并将各序列编号填充至所述清洗数据表格,以获得标准化数据的方式包括:基于所述清洗数据表格的各客户任务的起始PCR产物以及终点PCR产物名称,将返回的访问结果(例如json数据)通过正则的方法提取各客户任务的起始PCR产物以及终点PCR产物分别所对应的序列编号,以及例如将PCR产物名称按中间的字符A来进行分割处理,同时为了应为未来更多的变化,我们额外增加了B、C等中间字符。
优选的,对访问所返回结果的json数据解析为Python字典对象,再通过键值对的方法解析字典对象,所对应的序列编号。在一优选的实施方式中,可以采用网页内容分析算法获得序列编号,具体表现为解析返回的response,即该网站的html语言。该算法在很大程度上借用了文本检索的技术,并遵守robots协议,以避免过度访问造成IP封禁。
可选的,为了使未编辑的图片数据和经处理后的标准化的表格产生联动,我们还需要在该原始数据中内增加图片的文件名,优选的,原始数据中的第十三列进行增加。
步骤S12:对所述产物胶图分别进行marker识别并获得各marker的位置信息,并根据所述标准化数据对所述产物胶图分别进行文字编辑以及切片截取,以获得对应各客户任务的截取切片。
可选的,所述步骤S12包括:基于经过训练的目标检测模型,对所述产物胶图的各marker进行识别,并获得各marker分别处于所述产物胶图的位置信息;基于所述标准化数据,按各marker的位置信息对所述产物胶图进行文字编辑,获得标记有各客户任务的起始marker以及终点marker的文字编辑胶图;基于各客户任务的起始marker以及终点marker的标记,对所述文字编辑胶图进行截取,获得对应各客户任务的截取切片。
可选的,所述目标检测模型的训练方式包括:采集多个未经过编辑的产物胶图以及对应各胶图的由手动标记获得的各marker的位置信息,并生训练集以及测试集,基于所述训练集以及测试集,训练神经网络模型,以获得目标检测模型。
举例来说,使用未进行编辑的胶图图片150张以及采用lambing进行手动目标标记的对应各胶图图片的各marker的位置信息作为训练集,50张胶图图片以及经过手动标记获得的对应的各marker的位置信息作为测试集,制作了xml格式的图片注释信息共200个,训练神经网络模型,以获得目标检测模型。
可选的,通过比较各种深度学习的目标检测模型的训练速度、识别速度以及损失函数选用Faster R-CNN作为该程序的目标检测模型来进行产物胶图中的marker识别训练,另外除CNN这三种算法外,我们同时可以选用YOYOV1-V3目标检测算法模型来作为训练模型。
可选的,现有技术中使用的技术方案是通过OpenCV中的match-Template(模板匹配)来对胶图中的marker做出识别,通过opencv的模板匹配来识别marker;本方案的模型相比该方式,修改了部分内容,将原模型的目标检测框的文本信息中的相似度和分类名称删除,新增了获取目标在原始图片中的坐标信息的代码模块,并将模型的分类器更改为一类获得我们所需要的目标检测模型。模型训练后,我们需要将使用胶图训练的目标检测模型封装并替换原设计方案中采用的match-Template(模板匹配)方法。本方案所使用的开源模型经过指定图片集训练后,具有一定的可移植性,换句话说就是适用性较广,可以应用在任意需要进行胶图编辑的过程,并且维护成本较低,基本可以说是一劳永逸。
可选的,选用Tensorflow的开源框架配置编程环境训练所述目标检测模型,Tensorflow具有活跃的开源社区并且封装了绝大多数的深度学习模型,能够更快更方便的进行模型调试与参数训练等工作内容。需要指出的是,在本程序的环境搭建上,我们没有选择最新的Tensorflow版本,而是将版本降到1.15的CPU版,较最新的版本,该版本容错率与适配性要远高于最新版的Tensorflow,同时我们使用anaconda作为Python环境管理器,进一步节省了开发周期。
可选的,在模型的训练过程中,我们使用了tensorflow中的tensorboard来对训练过程中进行监控,举例来说,训练时长为18个小时,共计迭代次数为47万次,最终的loss函数的结果为0.0002;最后我们进行训练模型的检测,在使用测试集进进行测试后,我们训练的模型准确率为99%。
并且,若训练集以及测试集为xml格式,将xml转为能被tensorflow模型接受的train.record和test.record两种TFrecord格式的文件。
可选的,所述基于所述标准化数据,按各marker的位置信息对所述产物胶图进行文字编辑,获得标记有各客户任务的起始marker以及终点marker的文字编辑胶图的方式包括:
基于所述标准化数据以及各marker的位置信息获得对应各客户任务的起始marker以及终点marker分别所对应的位置信息以及序列编号;具体的,各marker的位置信息一般代表一个客户任务的结束或开始,因此我们根据标准化数据的各客户任务的起始PCR产物以及终点PCR产物信息,获得对应各客户任务的起始marker以及终点marker分别所对应的位置信息,并将对应起始PCR产物以及终点PCR产物的序列编号分别作为各起始marker以及终点marker所对应的序列编号,以进行后续的文字编辑。
按照各客户任务的起始marker以及终点marker分别所对应的位置信息,在所述产物胶图上分别标记对应各客户任务的起始marker以及终点marker的序列编号;
基于所述标准化数据,在经过标记的产物胶图上的各客户任务所对应的标记的起始marker以及终点marker的序列编号之间分别填充一或多个序列编号,以获得文字编辑胶图。
可选的,使用PIL第三方模块进行在所述产物胶图上分别标记对应各客户任务的起始marker以及终点marker的序列编号,以及在经过标记的产物胶图上的各客户任务所对应的标记的起始marker以及终点marker的序列编号之间分别填充一或多个序列编号,在这个工作过程中,我们需将经标准化数据封装为字典对象。
可选的,由于在胶图中填充数据需要完整且顺序的数字序列,而数据源的数据仅提供编号的开始和结束两个数字,因此按行读入标准化数据,并将每行转为一个列表,对列表进行判断,选择整型元素,并将一对整型数据扩充为列表,例如使用范围函数range()将开始数字和结束数字扩充为完整且顺序的数字序列,并根据模型识别到的marker的位置信息将该数字序列添加到原始图片的两个marker之间,我们规定两个marker之间的为一行胶图(原始胶图一般情况下为四行胶图),我们根据终止符和终止marker的位置来确定截图位置;例如,我们在文字编辑胶图编辑标记一客户任务的起始marker以及终点marker的序列编号1和5,遍历循环该转化后的列表后,按marker的坐标位置填充1到5之间的数字234。
可选的,OpenCV的截图类似于Python中的列表切片,OpenCV读取图片返回的对象为ndarry对象,可以简单理解为二维矩阵,此矩阵中的每个元素都包含了对应图片上的点的像素信息,我们可以通过对该矩阵进行切片操作,从而进行图片截取操作;因此所述基于各客户任务的起始marker以及终点marker的标记,对所述文字编辑胶图进行截取,获得对应各客户任务的截取切片的方式包括:利用OpenCV,根据各客户任务的起始marker以及终点marker的标记,对所述文字编辑胶图进行一或多次截取,以获得对应各客户任务的截取切片。优选的,截取所述文字编辑图片中最后一行的marker与其后面一段距离用作后续胶图拼接。
可选的,截取所述文字编辑图片中最后一行的marker与其后面一段距离后,可以在该截图上填写CK和M字样,表明一个客户的胶图结束。
步骤S13:基于所述标准化数据,对所属同一客户的各客户任务的截取切片进行拼接,获得对应各客户的拼接胶图并输出。
可选的,基于所述标准化数据中的客户任务索引列,对所属同一客户的各客户任务的截取切片进行拼接,获得对应各客户的拼接胶图并输出。
可选的,基于所述标准化数据中的客户任务索引列,将各截取切片命名为包含客户名称的文件命名模式进行储存。遍历的条形胶图的存放路径,获取了进行一次胶图编辑所有的客户的截取切片,将来自同一个客户的截取切片归纳进同一个列表,并将该列表内的所有截取切片进行拼接,获得对应各客户的拼接胶图并输出。
可选的,基于所述标准化数据的客户任务索引列,对所属同一客户的各客户任务的截取切片按顺序进行拼接,获得对应各客户的初步拼接胶图;对所述初步拼接胶图进行亮度调节,获得对应各客户的拼接胶图并输出。
可选的,在获得初步拼接胶图之后,我们还需要对初步拼接胶图的尾部添加CK标记作为结束标记;但由于胶图亮度不均,添加的CK标记和各截取切片之间亮度差距较大,因此我们在程序中设置了亮度调节,通过各截取切片和CK标记的亮度来尽可能的规避拼接痕迹。优选的,采用PIL模块进行亮度调节。
与上述实施例原理相似的是,本发明提供一种胶图自动编辑系统。
以下结合附图提供具体实施例:
如图2展示本发明实施例中的一种胶图自动编辑系统的结构示意图。
所述系统包括:
标准化模块21,用于对待编辑的产物胶图所对应的原始数据进行标准化,获得填充有对应各客户任务的起始PCR产物以及终点PCR产物分别所对应的序列编号的标准化数据;
编辑模块22,连接所述标准化模块21,用于对所述产物胶图分别进行marker识别并获得各marker的位置信息,并根据所述标准化数据对所述产物胶图分别进行文字编辑以及切片截取,以获得对应各客户任务的截取切片;
拼接模块23,连接所述编辑模块22,用于基于所述标准化数据,对所属同一客户的各客户任务的截取切片进行拼接,获得对应各客户的拼接胶图并输出。
需说明的是,应理解图2系统实施例中的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现;
例如各模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(digital signal processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(CentralProcessing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
因此,由于该胶图自动编辑系统的实现原理已在前述实施例中进行了叙述,因此此处不作重复赘述。
需要说明的是,采用该胶图自动编辑系统对胶图进行编辑,相对于现有技术来说,识别率有了显著提高,由于识别率的提高,在胶图编辑过程中,对于文字的填充更为准确,不会出现文字偏移等现象,极大的改善了胶图编辑的质量,使最终结果更加准确和美观;并且在本公司的生产端,能够为生产工作人员带来较大的工作效率的提升。在日常生产工作任务中,由人工编辑并拼接的胶图每天每人能够编辑80-100张,工作量较大且耗费时间较长。使用本方案后,对于每一张胶图的识别加编辑的速度能够达到1-2秒/每张,并且能够在5-10秒内完成对20张已编辑的胶图的拼接,可以已完全脱离人工干预,仅需手动启动该程序,放置输入胶图和对应的表格数据,即可完成表格数据记录的所有的胶图。从效率来上讲,原本需要专门分配工作人员来进行胶图编辑操作,现在只需要做好准备工作,便可以使用本程序来完成一系列的胶图编辑的操作,不仅实现了效率的极大提高,而且解放了一定的劳动力;还值得说明的是,本方案所使用的开源模型经过指定图片集训练后,具有一定的可移植性,换句话说就是适用性较广,可以应用在任意需要进行胶图编辑的过程,并且维护成本较低,基本可以说是一劳永逸。
如图3展示本发明实施例中的胶图自动编辑终端30的结构示意图。
所述胶图自动编辑终端30包括:存储器31及处理器32所述存储器31用于存储计算机程序;所述处理器32运行计算机程序实现如图1所述的胶图自动编辑方法。
可选的,所述存储器31的数量均可以是一或多个,所述处理器32的数量均可以是一或多个,而图3中均以一个为例。
可选的,所述胶图自动编辑终端30中的处理器32会按照如图1所述的步骤,将一个或多个以应用程序的进程对应的指令加载到存储器31中,并由处理器32来运行存储在第一存储器31中的应用程序,从而实现如图1所述胶图自动编辑方法中的各种功能。
可选的,所述存储器31,可能包括但不限于高速随机存取存储器、非易失性存储器。例如一个或多个磁盘存储设备、闪存设备或其他非易失性固态存储设备;所述处理器32,可能包括但不限于中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessing,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
可选的,所述处理器32可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本发明还提供计算机可读存储介质,存储有计算机程序,所述计算机程序运行时实现如图1所示的胶图自动编辑方法。所述计算机可读存储介质可包括,但不限于,软盘、光盘、CD-ROM(只读光盘存储器)、磁光盘、ROM(只读存储器)、RAM(随机存取存储器)、EPROM(可擦除可编程只读存储器)、EEPROM(电可擦除可编程只读存储器)、磁卡或光卡、闪存、或适于存储机器可执行指令的其他类型的介质/机器可读介质。所述计算机可读存储介质可以是未接入计算机设备的产品,也可以是已接入计算机设备使用的部件。
综上所述,本发明胶图自动编辑方法、系统、终端及介质,通过对原始数据自动标准化,并且通过识别获得的各marker的位置信息,自动对产物胶图进行文字编辑以及切片截取,再将所属同一客户的各客户任务的截取切片进行自动拼接,不仅精准识别产物胶图中的marker,还实现了自动完成一系列的胶图编辑的操作以及可自动同时处理大批量的产物胶图,使得编辑效率的极大提高,而且解放了一定的劳动力,并解决了现有技术的问题。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅示例性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,但凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
Claims (10)
1.一种胶图自动编辑方法,其特征在于,所述方法包括:
对待编辑的产物胶图所对应的原始数据进行标准化,获得填充有对应各客户任务的起始PCR产物以及终点PCR产物分别所对应的序列编号的标准化数据;
对所述产物胶图分别进行marker识别并获得各marker的位置信息,并根据所述标准化数据对所述产物胶图分别进行文字编辑以及切片截取,以获得对应各客户任务的截取切片;
基于所述标准化数据,对所属同一客户的各客户任务的截取切片进行拼接,获得对应各客户的拼接胶图并输出。
2.根据权利要求1中所述的胶图自动编辑方法,其特征在于,所述对待编辑的产物胶图所对应的原始数据进行标准化,获得填充有各客户任务的PCR产物所对应的序列编号的标准化数据包括:
访问目标网站,并获取访问结果;
将原始数据转换为具有客户任务索引列的清洗数据表格;其中,所述客户任务索引列包括:各客户的名称以及对应各客户的各客户任务的起始PCR产物和终点PCR产物的名称;
基于所述清洗数据表格,提取各客户任务分别所对应的起始PCR产物和终点PCR产物的序列编号,并将各序列编号填充至所述清洗数据表格,以获得标准化数据。
3.根据权利要求1中所述的胶图自动编辑方法,其特征在于,所述对所述产物胶图分别进行marker识别并获得各marker的位置信息,并根据所述标准化数据对所述产物胶图分别进行文字编辑以及切片截取,以获得对应各客户任务的截取切片包括:
基于经过训练的目标检测模型,对所述产物胶图的各marker进行识别,并获得各marker分别处于所述产物胶图的位置信息;
基于所述标准化数据,按各marker的位置信息对所述产物胶图进行文字编辑,获得标记有各客户任务的起始marker以及终点marker的文字编辑胶图;
基于各客户任务的起始marker以及终点marker的标记,对所述文字编辑胶图进行截取,获得对应各客户任务的截取切片。
4.根据权利要求1中所述的胶图自动编辑方法,其特征在于,所述目标检测模型的训练方式包括:
采集多个未经过编辑的产物胶图以及对应各胶图的由手动标记获得的各marker的位置信息,并生训练集以及测试集;
基于所述训练集以及测试集,训练神经网络模型,以获得目标检测模型。
5.根据权利要求1中所述的胶图自动编辑方法,其特征在于,所述基于所述标准化数据,按各marker的位置信息对所述产物胶图进行文字编辑,获得标记有各客户任务的起始marker以及终点marker的文字编辑胶图包括:
基于所述标准化数据以及各marker的位置信息获得对应各客户任务的起始marker以及终点marker分别所对应的位置信息以及序列编号;
按照各客户任务的起始marker以及终点marker分别所对应的位置信息,在所述产物胶图上分别标记对应各客户任务的起始marker以及终点marker的序列编号;
基于所述标准化数据,在经过标记的产物胶图上的各客户任务所对应的标记的起始marker以及终点marker的序列编号之间分别填充一或多个序列编号,以获得文字编辑胶图。
6.根据权利要求1中所述的胶图自动编辑方法,其特征在于,所述基于各客户任务的起始marker以及终点marker的标记,对所述文字编辑胶图进行截取,获得对应各客户任务的截取切片包括:
利用OpenCV,根据各客户任务的起始marker以及终点marker的标记,对所述文字编辑胶图进行一或多次截取,以获得对应各客户任务的截取切片。
7.根据权利要求1中所述的胶图自动编辑方法,其特征在于,所述基于所述标准化数据,对所属同一客户的各客户任务的截取切片进行拼接,获得对应各客户的拼接胶图并输出包括:
基于所述标准化数据,对所属同一客户的各客户任务的截取切片按顺序进行拼接,获得对应各客户的初步拼接胶图;
对所述初步拼接胶图进行亮度调节,获得对应各客户的拼接胶图并输出。
8.一种胶图自动编辑系统,其特征在于,所述系统包括:
标准化模块,用于对待编辑的产物胶图所对应的原始数据进行标准化,获得填充有对应各客户任务的起始PCR产物以及终点PCR产物分别所对应的序列编号的标准化数据;编辑模块,连接所述标准化模块,用于对所述产物胶图分别进行marker识别并获得各marker的位置信息,并根据所述标准化数据对所述产物胶图分别进行文字编辑以及切片截取,以获得对应各客户任务的截取切片;
拼接模块,连接所述编辑模块,用于基于所述标准化数据,对所属同一客户的各客户任务的截取切片进行拼接,获得对应各客户的拼接胶图并输出。
9.一种胶图自动编辑终端,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行如权利要求1至7中任一项所述的胶图自动编辑方法。
10.一种计算机存储介质,其特征在于,存储有计算机程序,所述计算机程序运行时实现如权利要求1至7中任一项所述的胶图自动编辑方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110645472.2A CN113435168B (zh) | 2021-06-10 | 2021-06-10 | 胶图自动编辑方法、系统、终端及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110645472.2A CN113435168B (zh) | 2021-06-10 | 2021-06-10 | 胶图自动编辑方法、系统、终端及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113435168A true CN113435168A (zh) | 2021-09-24 |
CN113435168B CN113435168B (zh) | 2024-03-22 |
Family
ID=77755555
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110645472.2A Active CN113435168B (zh) | 2021-06-10 | 2021-06-10 | 胶图自动编辑方法、系统、终端及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113435168B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117392679A (zh) * | 2023-12-11 | 2024-01-12 | 清华大学 | 一种自动标记pcr胶图的方法和系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1246799A (zh) * | 1996-12-05 | 2000-03-08 | 阿斯特拉公司 | 关于幽门螺杆菌的核酸序列和氨基酸序列及其疫苗组合物 |
US20040009479A1 (en) * | 2001-06-08 | 2004-01-15 | Jay Wohlgemuth | Methods and compositions for diagnosing or monitoring auto immune and chronic inflammatory diseases |
CN1764729A (zh) * | 2003-01-24 | 2006-04-26 | 人类遗传标记控股有限公司 | 使用嵌入核酸检测核酸中甲基化改变的分析 |
US20060088836A1 (en) * | 2002-04-24 | 2006-04-27 | Jay Wohlgemuth | Methods and compositions for diagnosing and monitoring transplant rejection |
CN101283280A (zh) * | 2005-08-18 | 2008-10-08 | Zadec私人有限公司 | 用于诊断结直肠癌的蛋白质标记和所述标记作为所述癌症类型治疗的药物靶点的用途 |
CN101691565A (zh) * | 2009-09-29 | 2010-04-07 | 中国水产科学研究院黄海水产研究所 | 海洋细菌新型低温碱性蛋白酶mp |
CN112442513A (zh) * | 2019-09-02 | 2021-03-05 | 南京启真基因工程有限公司 | Cas9过表达载体及其构建方法和应用 |
-
2021
- 2021-06-10 CN CN202110645472.2A patent/CN113435168B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1246799A (zh) * | 1996-12-05 | 2000-03-08 | 阿斯特拉公司 | 关于幽门螺杆菌的核酸序列和氨基酸序列及其疫苗组合物 |
US20040009479A1 (en) * | 2001-06-08 | 2004-01-15 | Jay Wohlgemuth | Methods and compositions for diagnosing or monitoring auto immune and chronic inflammatory diseases |
US20060088836A1 (en) * | 2002-04-24 | 2006-04-27 | Jay Wohlgemuth | Methods and compositions for diagnosing and monitoring transplant rejection |
CN1764729A (zh) * | 2003-01-24 | 2006-04-26 | 人类遗传标记控股有限公司 | 使用嵌入核酸检测核酸中甲基化改变的分析 |
CN101283280A (zh) * | 2005-08-18 | 2008-10-08 | Zadec私人有限公司 | 用于诊断结直肠癌的蛋白质标记和所述标记作为所述癌症类型治疗的药物靶点的用途 |
CN101691565A (zh) * | 2009-09-29 | 2010-04-07 | 中国水产科学研究院黄海水产研究所 | 海洋细菌新型低温碱性蛋白酶mp |
CN112442513A (zh) * | 2019-09-02 | 2021-03-05 | 南京启真基因工程有限公司 | Cas9过表达载体及其构建方法和应用 |
Non-Patent Citations (2)
Title |
---|
TROY ZERR, ET AL: "Automated band mapping in electrophoretic gel images using background information", 《NUCLEIC ACIDS RESEARCH》, pages 2806 * |
郑鹏;冯涛;赵鑫;考晓明;嵇武;: "阻塞性黄疸患者结肠菌群失衡的实验研究", 中国普外基础与临床杂志, no. 10, pages 1209 - 1213 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117392679A (zh) * | 2023-12-11 | 2024-01-12 | 清华大学 | 一种自动标记pcr胶图的方法和系统 |
CN117392679B (zh) * | 2023-12-11 | 2024-03-08 | 清华大学 | 一种自动标记pcr胶图的方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113435168B (zh) | 2024-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10650231B2 (en) | Method, device and server for recognizing characters of claim document, and storage medium | |
JP7000627B2 (ja) | 標的細胞標識方法、装置、記憶媒体及び端末デバイス | |
CN110750694A (zh) | 数据标注实现方法及装置、电子设备、存储介质 | |
US20210350521A1 (en) | Method for computer-implemented determination of blade-defects of a wind turbine | |
CN113837151B (zh) | 表格图像处理方法、装置、计算机设备及可读存储介质 | |
CN110969600A (zh) | 一种产品缺陷检测方法、装置、电子设备及存储介质 | |
WO2022134354A1 (zh) | 车损检测模型训练、车损检测方法、装置、设备及介质 | |
CN115830399B (zh) | 分类模型训练方法、装置、设备、存储介质和程序产品 | |
CN116052193B (zh) | Rpa界面动态表格的拾取和匹配方法及系统 | |
CN116128839A (zh) | 晶圆缺陷识别方法、装置、电子设备以及存储介质 | |
CN106919501A (zh) | 基于缺陷模式的静态分析方法和工具 | |
CN113435168A (zh) | 胶图自动编辑方法、系统、终端及介质 | |
CN117423299B (zh) | 液晶显示屏的性能检测方法、装置、设备及存储介质 | |
CN110908907A (zh) | Web页面测试方法、装置、设备及存储介质 | |
CN116152609B (zh) | 分布式模型训练方法、系统、装置以及计算机可读介质 | |
CN117115823A (zh) | 一种篡改识别方法、装置、计算机设备和存储介质 | |
CN104750604A (zh) | 浏览器兼容性测试案例的生成方法和装置 | |
CN108021353B (zh) | 软件产品的说明文档的生成装置、方法、设备及存储介质 | |
CN115905016A (zh) | 一种BIOS Setup搜索功能测试方法、装置、电子设备及存储介质 | |
CN112257525A (zh) | 物流车辆打卡的识别方法、装置、设备和存储介质 | |
CN112200803A (zh) | 精子核蛋白成熟度检测方法及装置 | |
CN111353335A (zh) | 一种将控制层逻辑图转换为仿真系统组态文件的方法 | |
CN110956174A (zh) | 一种器件编号的识别方法 | |
JP7010364B2 (ja) | データ作成装置、データ分類装置、データ処理システム、データ作成方法、データ分類方法及びプログラム | |
CN110688917A (zh) | 一种物体检测模型生成方法、装置及物体检测方法、装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |