CN114186543A - 一种药物实验文档的内容分析提取方法、系统和存储介质 - Google Patents
一种药物实验文档的内容分析提取方法、系统和存储介质 Download PDFInfo
- Publication number
- CN114186543A CN114186543A CN202111481771.3A CN202111481771A CN114186543A CN 114186543 A CN114186543 A CN 114186543A CN 202111481771 A CN202111481771 A CN 202111481771A CN 114186543 A CN114186543 A CN 114186543A
- Authority
- CN
- China
- Prior art keywords
- data
- keyword
- data format
- cell
- keywords
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000002474 experimental method Methods 0.000 title claims abstract description 48
- 239000003814 drug Substances 0.000 title claims abstract description 38
- 238000000034 method Methods 0.000 title claims abstract description 35
- 229940079593 drug Drugs 0.000 title claims abstract description 34
- 239000013589 supplement Substances 0.000 claims description 21
- 238000004458 analytical method Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 17
- 238000013075 data extraction Methods 0.000 claims description 4
- 230000006698 induction Effects 0.000 abstract 1
- 230000008707 rearrangement Effects 0.000 abstract 1
- 238000000605 extraction Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012827 research and development Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004587 chromatography analysis Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000012362 drug development process Methods 0.000 description 1
- 239000012535 impurity Substances 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000007791 liquid phase Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000003204 osmotic effect Effects 0.000 description 1
- 238000012946 outsourcing Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000011170 pharmaceutical development Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/177—Editing, e.g. inserting or deleting of tables; using ruled lines
- G06F40/18—Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/174—Form filling; Merging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种药物实验文档的内容分析提取方法、系统和存储介质,该方法包括获取对应药物实验文档的第一文本,通过关键词各单元格内容进行检索匹配,若匹配到关键词则查询该关键词所属的数据格式;否则调取近似字典表进行匹配,对匹配到的近似词获取对应关键词所属的数据格式;根据数据格式以该关键词或近似词所在单元格为起点,查询位于同一列或行的各单元格中数据格式,获取具有与关键词所属的数据格式相同的单元格的分布区域;最后根据分布区域获取表格类型和各关键词对应的所属数据值。实现可对药物实验文档中各种类型表格的指定类目或关键词下的数据进行分析提取,用于后续重新整理归纳成新的记录表格。
Description
技术领域
本发明涉及软件技术领域,尤其涉及一种药物实验文档的内容分析提取方法、系统和存储介质。
背景技术
在医药研究过程中,不管是药学还是研发阶段,药物合成或外购样品都需要进行相关的分析,包含杂质、液相、外观、蛋白浓度、不溶性微粒、渗透压等检查项,分析过程会用到很多检测设备,产生大量数据,有一些是需要实验人员在现场设备上抄录,有一些设备可完整记录过程中的原始数据,但是要最终变成可用的实验记录结果还需实验人员进一步的计算,这时就需要将原始数据导出成Excel、PDF等格式文档,由于合规性要求,各类设备最终往往选择PDF格式进行传递,而且多个文件需要实验人员分别去誊抄汇总,会存在抄录错误、漏抄等问题。例如在传统的实验步骤下,当一个实验记录要使用PDF报告中的数据时,需要打开PDF报告,从多条数据中找到多条数据,然后在实验记录中进行誊抄录入,容易导致效率低下,出错率高且实验返工率高的问题。
发明内容
本发明针对现有技术中的不足,提供了一种药物实验文档的内容分析提取方法,包括如下步骤:
S1,获取对应药物实验文档的第一文本,通过关键词对第一文本的各单元格内容进行检索匹配,所述第一文本包含药物实验文档中的表格和表格内数据;
S2,如匹配到关键词,则查询该关键词所属的数据格式;否则调取近似字典表,依次采用关键词的各近似词进行匹配,对匹配到的近似词获取对应关键词所属的数据格式;
S3,根据数据格式以该关键词或近似词所在单元格为起点,查询位于同一列的下方各单元格中数据格式和位于同一行的右侧各单元格中数据格式,获取具有与关键词所属的数据格式相同的单元格的分布区域;
S4,根据分布区域获取第一文本的表格类型,并根据该表格类型确定匹配的各关键词所属数据值所在的单元格并获取对应的所属数据值。
优选的,该药物实验文档的内容分析提取方法,还包括如下步骤:
S5,若未匹配到关键词和近似词,则调取各关键词所属的数据格式,查询表格内是否存在符合同一数据格式的横向或纵向依次相连的多个单元格;
S6,若存在符合同一数据格式的横向或纵向依次相连的多个单元格,则获取该行或该列各单元格数据,如果除第一单元格外其它单元格内数据格式均相同或者空格,则获取该行或该列各单元格的数据值及排列顺序;
S7,获取该行或该列第一单元格内文字作为后补词,将该行或该列其余单元格的数据值作为后补词对应的所属数据值,并建立后补词与数据格式相同的关键词的对应关系。
优选的,所述步骤S7还包括:将后补词作为与其所属的的数据格式相同的关键词的近似词补入近似字典表中。
优选的,所述表格类型包括但不限于第一表格和第二表格,所述第一表格内的数据类型按纵向排列且归属各数据类型的数据值单元格在后横向排列,所述第二表格内的数据类型按横向向排列且归属各数据类型的数据值单元格在后纵向排列。
优选的,所述步骤S3还包括:
在匹配到的关键词或近似词中,找出其中的第一类关键词或者与其近似的关键词为第一类关键词的近似词,获取其中的一个或多个的第一类关键词或者与其近似的关键词是第一类关键词的近似词的所属数据格式,以对应的关键词或近似词所在单元格为起点,查询位于同一列的下方各单元格中数据格式和位于同一行的右侧各单元格中数据格式,获取具有与该关键词或近似词的所属数据格式相同的单元格的分布区域。
本发明还公开了一种药物实验文档的内容分析提取系统,包括:文本分析模块,用于获取对应药物实验文档的第一文本,通过关键词对第一文本的各单元格内容进行检索匹配,所述第一文本包含药物实验文档中的表格和表格内数据;匹配模块,用于在匹配到关键词后查询该关键词所属的数据格式,在没匹配到关键词时调取近似字典表,依次采用关键词的各近似词进行匹配,对匹配到的近似词获取对应关键词所属的数据格式;分布分析模块,用于根据数据格式以该关键词或近似词所在单元格为起点,查询位于同一列的下方各单元格中数据格式和位于同一行的右侧各单元格中数据格式,获取具有与关键词所属的数据格式相同的单元格的分布区域;数据提取模块,用于根据分布区域获取第一文本的表格类型,并根据该表格类型确定匹配的各关键词所属数据值所在的单元格并获取对应的所属数据值。
优选的,药物实验文档的内容分析提取系统还包括:数据格式查询模块,用于在未匹配到关键词和近似词时,调取各关键词所属的数据格式,查询表格内是否存在符合同一数据格式的横向或纵向依次相连的多个单元格;数据获取模块,用于在存在符合同一数据格式的横向或纵向依次相连的多个单元格时,获取该行或该列各单元格数据;在除第一单元格外其它单元格内数据格式均相同或者空格时,获取该行或该列各单元格的数据值及排列顺序;后补词数据模块,用于获取该行或该列第一单元格内文字作为后补词,将该行或该列其余单元格的数据值作为后补词对应的所属数据值,并建立后补词与数据格式相同的关键词的对应关系。
优选的,所述后补词数据模块还被配置为将后补词作为与其所属的的数据格式相同的关键词的近似词补入近似字典表中。
本发明还公开了一种药物实验文档的内容分析提取装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如前述的药物实验文档的内容分析提取方法的步骤。
本发明还公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现前述的药物实验文档的内容分析提取方法的步骤。
本发明公开的药物实验文档的内容分析提取方法和系统,通过关键词对第一文本的各单元格内容进行检索匹配,如没有匹配关键词则调取近似字典表,依次采用关键词的各近似词进行匹配,对匹配到的近似词获取对应关键词所属的数据格式,如没匹配到则采用关键词的各近似词进行匹配,对匹配到的近似词获取对应关键词所属的数据格式。然后以该关键词或近似词所在单元格为起点,查询位于同一列的下方各单元格中数据格式和位于同一行的右侧各单元格中数据格式,获取具有与关键词所属的数据格式相同的单元格的分布区域,从而最终根据获取到的分布区域确定第一文本的表格类型,依据表格类型来查询确定已匹配的各关键词的各所属数据值。解决了现有的在对pdf药物实验文档中表格数据的提取时,只能按预设的表格模板对表格内的特定数据进行选择性的解析获取。或者只能对整个实验文档内的表格数据进行全部的解析获取,然后再人为的对解析后的表格数据内的部分条目数据进行筛选,无法做到对不同类型表格文档中的部分关键词所属的数据即表格中特定类目下的数据进行自动分析提取的问题。可实现对药物实验文档中各种类型表格的指定类目(关键词)下的数据进行分析提取,用于重新整理归纳成新的记录表格。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为一实施例公开的药物实验文档的内容分析提取方法的流程示意图。
图2为一实施例公开的药物实验文档的内容分析提取方法的另一流程示意图。
图3为一实施例公开的步骤S8的具体示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明中,除非另有明确的规定和限定,此处使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明专利申请说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。同样,“一个”或者“一”等类似词语也不表示数量限制,而是表示存在至少一个。
在实际药物研发过程中,分析过程会用到很多检测设备,产生大量数据。例如实验员在对一个药物进行色谱分析时,设备上会有其原始数据记录,但是色谱仪等设备是连续工作的,后面会有很多项目的样品都需要进行检测,所以需要将数据导出成Excel、PDF文件到实验员自己的电脑进行数据处理、计算,这样会产生很多PDF的文件,实验员需要根据项目、设备、样品等编号进行区分后每个文件都一一去处理。由于合规性要求,最终会选择PDF格式进行传递,而且多个文件需要实验人员分别去誊抄,经常会出现抄录错误、漏抄等问题。
为此如附图1所示,本实施例公开了一种,具体可包括如下步骤:
步骤S1,获取对应药物实验文档的第一文本,通过关键词对第一文本的各单元格内容进行检索匹配,所述第一文本包含药物实验文档中的表格和表格内数据。
具体的,可先对上传的多个pdf数据文档中的表格内容进行识别分析,分别转存为可编辑格式的第一文本,所述第一文本包含pdf文件中的表格、表格内数据以及文档id。其中的第一文本可以是txt、word、excel等形式的文件。该药物实验文档的内容分析提取的方法可以应用于医药研发全生命周期管理系统等管理软件,通过在其记录本单元的附件模块中上传与实验相关的附件信息,可以在附件中批量上传检测结果的PDF文件。然后将PDF文件中表格中的内容进行解析,页面会展示出PDF解析完以后的名称、时间、峰值、峰值百分比等列或行中的数据。
在一些实施例中,可先判断pdf数据文档是否为规则文档,如果所述pdf数据文档为规则文档,则查询规则文档库中对应该pdf数据文档的规则文档模板,获取该规则文档模板中的关键词集和表格类型,根据表格类型和关键词集直接从第一文本中提取各关键词及所属数据值。
其中表格类型包括但不限于第一表格和第二表格,所述第一表格内的数据类型按纵向排列且归属各数据类型的数据值单元格在后横向排列,所述第二表格内的数据类型按横向排列且归属各数据类型的数据值单元格在后纵向排列。
具体的,如果是规则文档,则可直接根据规则文档模板的关键词集匹配定位到第一文本中的所需提取的关键词,然后根据规则文档模板的表格类型获知该第一文本的所属数据值的单元格分布类型,进而直接找到关键词对应的所属数据值所在的各单元格,进行数据提取。
在一些规则文档表格中,可能因数据数量和所需呈现的效果,会将表格由数据横向排列的表格类型转换为纵向排列的表格类型。例如原表格类型为数据横向排列的第一类型表格,但当部分数据类型所属的数据值过多,直接导致再使用横向排列时将导致其它数据横向进入第二列,不太符合常规表格习惯和数据呈现效果时,此时可能将该表格由第一表格类型转换为第二表格类型,使同一页表格中能呈现更多同属同一数据类型的数据值。
如果所述pdf数据文档为非规则文档,则通过关键词直接对第一文本的表格各单元格内容进行检索匹配。
步骤S2,如匹配到关键词,则查询该关键词所属的数据格式;否则调取近似字典表,依次采用关键词的各近似词进行匹配,对匹配到的近似词获取对应关键词所属的数据格式。
具体的,如果匹配到关键词,则判断该单元格中是仅存在该关键词还是除该关键词外还包括其它文字信息,如关键字为时间,文档中含有A时间,B时间等,则匹配时先通过名称匹配,匹配完以后再通过hashCode进行关键字的比较,来确定是否是需要的关键字。如果匹配所有的关键字没找到相应的数据,则开始匹配近似关键字,近似关键字在程序字典表中维护,可以进行添加和删除。
在匹配到关键字之后,程序需记录当前关键字所在的位置,然后再后续的解析中,在相应位置下的数据,就是我们需要的关键字数据。直到解析到结束关键字。若出现空行情况,则需要对上下行进行比较,找到空行所在位置是什么地方,然后排除空行后重新计算数据所在行,然后取到关键数据。若有特殊符号,在系统中也可存储了一套特殊字符字典,然后在解析时先过滤掉特殊字符,然后再记录关键字。若出现合并行情况,则分情况,若合并行包含了关键字所在行,则取整行数据为关键数据,若合并行并非关键字所在行,则重新计算相关关键字所在行变化,然后记录对应行下的关键数据。
最好根据用户需要选择复制的内容。确定完毕以后,数据就会自动记录到当前实验记录中的最新的电子表格中。
步骤S3,根据数据格式以该关键词或近似词所在单元格为起点,查询位于同一列的下方各单元格中数据格式和位于同一行的右侧各单元格中数据格式,获取具有与关键词所属的数据格式相同的单元格的分布区域。
在一些具体实施例中,第一文本表格可能具有多种表格类型。例如常规的前面所述的第一表格和第二表格,其中第一表格内的数据类型按纵向排列且归属各数据类型的数据值单元格在后横向排列,所述第二表格内的数据类型按横向排列且归属各数据类型的数据值单元格在后纵向排列。在第一文本表格中,关键词可以包括名称、时间、峰值、峰值百分比等,其中各关键词所属的数据格式会存在不同,例如关键词“名称”的所属数据格式均为文本数据,且其所包含的文字数量也在一定范围内,例如2至10个字符;关键词“时间”的所属数据格式则包括数字和文字信息;关键词“峰值”中则仅是包含纯数字信息;关键词“峰值百分比”中则包含数字信息和特殊符号“%”,其中数字也在是0至100之间,该关键词所属数据最好分辨。上述仅是对常用关键词及其所述数据格式的一个举例,在具体应用中可根据具体关键词和其所述数据进行设置和更新。在一些优选实施例中,由于一些关键词所述数据格式的识别性差异较大,例如关键词“名称”的所属数据格式就容易跟其它常规单元格数据混淆不好区分,因此可根据关键词所属数据格式的可分辨程度分成第一类关键词和第二类关键词,其中第一类关键词包含了所属数据格式具有较高分辨性的关键词,例如峰值百分比等关键词;而第二类关键词包含了所属数据格式具有较低分辨性的关键词,例如名称等关键词。
在本实施例中,在匹配到关键词或近似词后,查询关键词和近似词数据库,获取该关键词或近似词中的一个或多个的所属数据格式,根据获取的所属数据格式以该关键词或近似词所在单元格为起点,查询位于同一列的下方各单元格中数据格式和位于同一行的右侧各单元格中数据格式,当一单元格中数据的数据格式与该关键词或近似词的所属数据格式一致时,进行记录,最终获取具有与关键词所属的数据格式相同的单元格的分布区域。
在一些优选实施例中,在匹配到的关键词或近似词中,找出其中的第一类关键词或者与其近似的关键词是第一类关键词的近似词,获取其中的一个或多个的第一类关键词或者与其近似的关键词是第一类关键词的近似词的所属数据格式,以对应的关键词或近似词所在单元格为起点,查询位于同一列的下方各单元格中数据格式和位于同一行的右侧各单元格中数据格式,获取具有与该关键词或近似词的所属数据格式相同的单元格的分布区域。因为各类关键词的所属数据格式的可分辨程度不同,直接选取其中可分辨程度较高的第一类关键词来进行单元格数据格式筛选匹配的将获得更高的效率和准确性。
具体在本实施例中,该步骤具体还可包括如下内容。
判断除第一单元格外其它同一行单元格内数据格式是否相同或为空格,如是则获取该行各单元格的数据值及排列顺序,将其作为该对应关键词的所属数据值。
如果除第一单元格外其它同一行单元格内的数据格式不同,则判断除第一单元格外其它同一列单元格内数据格式是否相同或为空格,如是则获取该列各单元格的数据值及排列顺序,将其作为该对应关键词的所属数据值。
如果除第一单元格外其它同一列单元格内的数据格式也不同,则放弃对关键词所属数据值的获取。
在具体实施例中,在除第一单元格外其它同一行单元格内的数据格式不同且除第一单元格外其它同一列单元格内的数据格式也不同的情况下,可更换另一个已匹配关键词或近似词进行再次的单元格内的数据格式判断,直至获得一匹配的关键词符合其第一单元格外其它同一行或列的单元格内数据格式相同或为空格。然后根据该匹配关键词或近似词所属的数据格式相同的单元格的分布区域来确定该第一文本的表格类型。根据该第一文本的表格类型再去获取前面那些除第一单元格外其它同一行或列的单元格内数据格式不完全相同的匹配关键词或近似词的单元格内所属数据值。
步骤S4,根据分布区域获取第一文本的表格类型,并根据该表格类型确定匹配的各关键词所属数据值所在的单元格并获取对应的所属数据值。
具体的,如果以对应的关键词或近似词所在单元格为起点,与关键词所属的数据格式相同的单元格均与该关键词或近似词位于同一行,则表明该表格是数据横向布置的表格,即前面所述的第一表格类型。如果与关键词所属的数据格式相同的单元格均与该关键词或近似词位于同一列,则表明该表格是数据纵向布置的表格,即前面所述的第二表格类型。在确认了表格类型后,其它匹配的关键词或近似词的所属数据值所在的单元格即可根据该表格类型去对应的单元格中获取。
在本实施例中,如果部分单元格出现空行或空格情况,则需要对上下行进行比较,找到空行所在位置是什么地方,然后排除空行后重新计算数据所在行,然后取到关键数据。若有特殊符号,在系统中也存储了一套特殊字符字典,然后在解析时先过滤掉特殊字符,再记录关键字。若出现合并行情况,则分情况,若合并行包含了关键字所在行,则取整行数据为关键数据,若合并行并非关键字所在行,则重新计算相关关键字所在行变化,然后记录对应行下的关键数据。
具体在本实施例中,该步骤中根据该表格类型确定匹配的各关键词所属数据值所在的单元格并获取对应的所属数据值,还包括:
根据表格类型获取匹配的各关键词所属数据值所在的同一行或列。
获取该同一行或列中的除第一单元格外其它单元格内数据的数据格式。
根据位于该第一单元格内的匹配的关键词或近似词所属的数据格式,对其它单元格内数据的数据格式进行校验,将数据格式一致的单元格内数据作为该匹配的关键词或近似词的所属数据值。
在具体实施例中,如附图2所示,该药物实验文档的内容分析提取方法还包括如下步骤。
步骤S5,若未匹配到关键词和近似词,则调取各关键词所属的数据格式,查询表格内是否存在符合同一数据格式的横向或纵向依次相连的多个单元格。
步骤S6,若存在符合同一数据格式的横向或纵向依次相连的多个单元格,则获取该行或该列各单元格数据,如果除第一单元格外其它单元格内数据格式均相同或者空格,则获取该行或该列各单元格的数据值及排列顺序。
步骤S7,获取该行或该列第一单元格内文字作为后补词,将该行或该列其余单元格的数据值作为后补词对应的所属数据值,并建立后补词与数据格式相同的关键词的对应关系。
在本实施例中,所述步骤S7还包括:将后补词作为与其所属的的数据格式相同的关键词的近似词补入近似字典表中。
由于实验对象、实验设备和实验人员的不同,使得某些实验文档的关键词描述总会存在一些细微差异,使得关键词的近似值在初始设置时不可能完全穷尽,需要在文档处理过程中根据具体的工作文档对近似字典表中的各关键词近似词进行更新补充,因此通过对一些特定近似词的所属数据格式的匹配来初步判断是否为预设关键词的近似词,从而完成近似字典表的实时补充更新。
在另一些实施例中,还可以包括如下步骤:
步骤S8,按所获取的关键词及所属数据值来自的不同文档id将第二文本分成不同表格区域,将从各第一文本识别获取的关键词和所属数据值按预定格式分别录入所属文档对应的表格区域。
在本实施例中,数据复制粘贴到第二文本的电子表格中,会根据内容所属的文件进行分段,清晰告知用户,每段数据所属的文档,方便其进行计算使用。具体的,在本实施例中,如附图3所示,其中步骤S8还包括如下内容。
步骤S81,按所获取的关键词/近似词/后补词及所属数据值来自的不同文档id将第二文本分成不同表格区域。
步骤S82,如获取了关键词,则将从各第一文本识别获取的关键词和所属数据值按预定格式分别录入所属文档对应的表格区域。
步骤S83,如获取了近似词,则将从各第一文本识别获取的近似词替换为对应的关键词,与所属数据值按预定格式分别录入所属文档对应的表格区域。
步骤S84,如获取了后补词,则将从各第一文本识别获取的后补词以及其对应的关键词,与所属数据值按预定格式分别录入所属文档对应的表格区域。后补词作为在本次文档解析处理中被识别为与关键词可能构成近似的词,需要在最终呈现时将其一并显示在第二文本中,以防识别出错,从而让处理人员在做第二文本进行处理时再次对该后补词进行确认,经确认后后续再录入近似字典表作为与关键词近似的近似词。
在本实施例中,数据在进行记录时,会先分析记录本的内容,若记录本为空,则直接进行数据填充,若记录本中存在数据,则先通过数据所在位置的坐标,和边缘坐标开始计算数据位置,找到要插入的位置以后,再通过坐标计算需要插入行数和剩余行数是否匹配,若剩余行数不足则添加空行,若剩余行数满足添加则直接将数据进行添加。保证每次插入的数据都可以成功。且若是对pdf的数据进行了多选,则插入时会进行分割,通过不同的pdf名称进行分割,将不同pdf的数据进行分割显示。
在本实施例中,该药物实验文档的内容分析提取方法,通过关键词对第一文本的各单元格内容进行检索匹配,如没有匹配关键词则调取近似字典表,依次采用关键词的各近似词进行匹配,对匹配到的近似词获取对应关键词所属的数据格式,如没匹配到则采用关键词的各近似词进行匹配,对匹配到的近似词获取对应关键词所属的数据格式。然后以该关键词或近似词所在单元格为起点,查询位于同一列的下方各单元格中数据格式和位于同一行的右侧各单元格中数据格式,获取具有与关键词所属的数据格式相同的单元格的分布区域,从而最终根据获取到的分布区域确定第一文本的表格类型,依据表格类型来查询确定已匹配的各关键词的各所属数据值。解决了现有的在对pdf药物实验文档中表格数据的提取时,只能按预设的表格模板对表格内的特定数据进行选择性的解析获取。或者只能对整个实验文档内的表格数据进行全部的解析获取,然后再人为的对解析后的表格数据内的部分条目数据进行筛选,无法做到对不同类型表格文档中的部分关键词所属的数据即表格中特定类目下的数据进行自动分析提取的问题。可实现对药物实验文档中各种类型表格的指定类目(关键词)下的数据进行分析提取,用于重新整理归纳成新的记录表格。
在另一实施例中,还公开了一种药物实验文档的内容分析提取系统,包括:文本分析模块,用于获取对应药物实验文档的第一文本,通过关键词对第一文本的各单元格内容进行检索匹配,所述第一文本包含药物实验文档中的表格和表格内数据。匹配模块,用于在匹配到关键词后查询该关键词所属的数据格式,在没匹配到关键词时调取近似字典表,依次采用关键词的各近似词进行匹配,对匹配到的近似词获取对应关键词所属的数据格式。分布分析模块,用于根据数据格式以该关键词或近似词所在单元格为起点,查询位于同一列的下方各单元格中数据格式和位于同一行的右侧各单元格中数据格式,获取具有与关键词所属的数据格式相同的单元格的分布区域。数据提取模块,用于根据分布区域获取第一文本的表格类型,并根据该表格类型确定匹配的各关键词所属数据值所在的单元格并获取对应的所属数据值。
在本实施例中,该药物实验文档的内容分析提取系统,还包括如下模块:数据格式查询模块,用于在未匹配到关键词和近似词时,调取各关键词所属的数据格式,查询表格内是否存在符合同一数据格式的横向或纵向依次相连的多个单元格。数据获取模块,用于在存在符合同一数据格式的横向或纵向依次相连的多个单元格时,获取该行或该列各单元格数据;在除第一单元格外其它单元格内数据格式均相同或者空格时,获取该行或该列各单元格的数据值及排列顺序。后补词数据模块,用于获取该行或该列第一单元格内文字作为后补词,将该行或该列其余单元格的数据值作为后补词对应的所属数据值,并建立后补词与数据格式相同的关键词的对应关系。
在本实施例中,所述后补词数据模块还被配置为将后补词作为与其所属的的数据格式相同的关键词的近似词补入近似字典表中。
上述药物实验文档的内容分析提取系统的具体功能与前面实施例所公开的药物实验文档的内容分析提取方法一一对应,故在此不再详细展开描述,具体可参考前面公开的药物实验文档的内容分析提取方法各实施例。需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
在另一些实施例中,还提供了一种药物实验文档的内容分析提取装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述各实施例中描述的药物实验文档的内容分析提取方法的各个步骤。
其中药物实验文档的内容分析提取装置可包括但不仅限于,处理器、存储器。所述服务器可包括,但不仅限于处理器、存储器。本领域技术人员可以理解,所述示意图仅仅是服务器的示例,并不构成对服务器设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述服务器设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述服务器设备的控制中心,利用各种接口和线路连接整个服务器设备的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述服务器设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
所述药物实验文档的内容分析提取方法如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
总之,以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所作的均等变化与修饰,皆应属本发明专利的涵盖范围。
Claims (10)
1.一种药物实验文档的内容分析提取方法,其特征在于,包括如下步骤:
S1,获取对应药物实验文档的第一文本,通过关键词对第一文本的各单元格内容进行检索匹配,所述第一文本包含药物实验文档中的表格和表格内数据;
S2,若匹配到关键词,则查询该关键词所属的数据格式;否则调取近似字典表,依次采用关键词的各近似词进行匹配,对匹配到的近似词获取对应关键词所属的数据格式;
S3,根据数据格式以该关键词或近似词所在单元格为起点,查询位于同一列的下方各单元格中数据格式和位于同一行的右侧各单元格中数据格式,获取具有与关键词所属的数据格式相同的单元格的分布区域;
S4,根据分布区域获取第一文本的表格类型,并根据该表格类型确定匹配的各关键词所属数据值所在的单元格并获取对应的所属数据值。
2.根据权利要求1所述的药物实验文档的内容分析提取方法,其特征在于,还包括如下步骤:
S5,若未匹配到关键词和近似词,则调取各关键词所属的数据格式,查询表格内是否存在符合同一数据格式的横向或纵向依次相连的多个单元格;
S6,若存在符合同一数据格式的横向或纵向依次相连的多个单元格,则获取该行或该列各单元格数据,如果除第一单元格外其它单元格内数据格式均相同或者空格,则获取该行或该列各单元格的数据值及排列顺序;
S7,获取该行或该列第一单元格内文字作为后补词,将该行或该列其余单元格的数据值作为后补词对应的所属数据值,并建立后补词与数据格式相同的关键词的对应关系。
3.根据权利要求2所述的药物实验文档的内容分析提取方法,其特征在于,所述步骤S7还包括:将后补词作为与其所属的的数据格式相同的关键词的近似词补入近似字典表中。
4.根据权利要求3所述的药物实验文档的内容分析提取方法,其特征在于:
所述表格类型包括但不限于第一表格和第二表格,所述第一表格内的数据类型按纵向排列且归属各数据类型的数据值单元格在后横向排列,所述第二表格内的数据类型按横向向排列且归属各数据类型的数据值单元格在后纵向排列。
5.根据权利要求1-4任一所述的药物实验文档的内容分析提取方法,其特征在于,所述步骤S3还包括:
在匹配到的关键词或近似词中,找出其中的第一类关键词或者与其近似的关键词为第一类关键词的近似词,获取其中的一个或多个的第一类关键词或者与其近似的关键词是第一类关键词的近似词的所属数据格式,以对应的关键词或近似词所在单元格为起点,查询位于同一列的下方各单元格中数据格式和位于同一行的右侧各单元格中数据格式,获取具有与该关键词或近似词的所属数据格式相同的单元格的分布区域。
6.一种药物实验文档的内容分析提取系统,其特征在于,包括:
文本分析模块,用于获取对应药物实验文档的第一文本,通过关键词对第一文本的各单元格内容进行检索匹配,所述第一文本包含药物实验文档中的表格和表格内数据;
匹配模块,用于在匹配到关键词后查询该关键词所属的数据格式,在没匹配到关键词时调取近似字典表,依次采用关键词的各近似词进行匹配,对匹配到的近似词获取对应关键词所属的数据格式;
分布分析模块,用于根据数据格式以该关键词或近似词所在单元格为起点,查询位于同一列的下方各单元格中数据格式和位于同一行的右侧各单元格中数据格式,获取具有与关键词所属的数据格式相同的单元格的分布区域;
数据提取模块,用于根据分布区域获取第一文本的表格类型,并根据该表格类型确定匹配的各关键词所属数据值所在的单元格并获取对应的所属数据值。
7.根据权利要求6所述的药物实验文档的内容分析提取系统,其特征在于,还包括如下模块:
数据格式查询模块,用于在未匹配到关键词和近似词时,调取各关键词所属的数据格式,查询表格内是否存在符合同一数据格式的横向或纵向依次相连的多个单元格;
数据获取模块,用于在存在符合同一数据格式的横向或纵向依次相连的多个单元格时,获取该行或该列各单元格数据;在除第一单元格外其它单元格内数据格式均相同或者空格时,获取该行或该列各单元格的数据值及排列顺序;
后补词数据模块,用于获取该行或该列第一单元格内文字作为后补词,将该行或该列其余单元格的数据值作为后补词对应的所属数据值,并建立后补词与数据格式相同的关键词的对应关系。
8.根据权利要求7所述的药物实验文档的内容分析提取系统,其特征在于,所述后补词数据模块还被配置为将后补词作为与其所属的的数据格式相同的关键词的近似词补入近似字典表中。
9.一种药物实验文档的内容分析提取装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于:所述处理器执行所述计算机程序时实现如权利要求1-5任一所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1-6任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111481771.3A CN114186543A (zh) | 2021-12-06 | 2021-12-06 | 一种药物实验文档的内容分析提取方法、系统和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111481771.3A CN114186543A (zh) | 2021-12-06 | 2021-12-06 | 一种药物实验文档的内容分析提取方法、系统和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114186543A true CN114186543A (zh) | 2022-03-15 |
Family
ID=80542502
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111481771.3A Pending CN114186543A (zh) | 2021-12-06 | 2021-12-06 | 一种药物实验文档的内容分析提取方法、系统和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114186543A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170329749A1 (en) * | 2016-05-16 | 2017-11-16 | Linguamatics Ltd. | Extracting information from tables embedded within documents |
JP2018195077A (ja) * | 2017-05-17 | 2018-12-06 | 富士通株式会社 | 文書変換プログラム、文書変換方法および文書変換装置 |
CN109522538A (zh) * | 2018-11-28 | 2019-03-26 | 腾讯科技(深圳)有限公司 | 表格内容的自动分列方法、装置、设备及存储介质 |
CN110659346A (zh) * | 2019-08-23 | 2020-01-07 | 平安科技(深圳)有限公司 | 表格提取方法、装置、终端及计算机可读存储介质 |
WO2020133186A1 (zh) * | 2018-12-28 | 2020-07-02 | 深圳市世强元件网络有限公司 | 一种文档信息提取方法、存储介质及终端 |
CN111859895A (zh) * | 2020-07-28 | 2020-10-30 | 浙江明度智控科技有限公司 | 一种对批量文档内表格进行比对的方法、系统和存储介质 |
CN112036144A (zh) * | 2020-09-03 | 2020-12-04 | 广联达科技股份有限公司 | 数据解析方法、装置、计算机设备和可读存储介质 |
CN113343815A (zh) * | 2021-05-31 | 2021-09-03 | 北森云计算有限公司 | 一种pdf等版式文档中识别表格的方法 |
US11182604B1 (en) * | 2019-11-26 | 2021-11-23 | Automation Anywhere, Inc. | Computerized recognition and extraction of tables in digitized documents |
-
2021
- 2021-12-06 CN CN202111481771.3A patent/CN114186543A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170329749A1 (en) * | 2016-05-16 | 2017-11-16 | Linguamatics Ltd. | Extracting information from tables embedded within documents |
JP2018195077A (ja) * | 2017-05-17 | 2018-12-06 | 富士通株式会社 | 文書変換プログラム、文書変換方法および文書変換装置 |
CN109522538A (zh) * | 2018-11-28 | 2019-03-26 | 腾讯科技(深圳)有限公司 | 表格内容的自动分列方法、装置、设备及存储介质 |
WO2020133186A1 (zh) * | 2018-12-28 | 2020-07-02 | 深圳市世强元件网络有限公司 | 一种文档信息提取方法、存储介质及终端 |
CN110659346A (zh) * | 2019-08-23 | 2020-01-07 | 平安科技(深圳)有限公司 | 表格提取方法、装置、终端及计算机可读存储介质 |
US11182604B1 (en) * | 2019-11-26 | 2021-11-23 | Automation Anywhere, Inc. | Computerized recognition and extraction of tables in digitized documents |
CN111859895A (zh) * | 2020-07-28 | 2020-10-30 | 浙江明度智控科技有限公司 | 一种对批量文档内表格进行比对的方法、系统和存储介质 |
CN112036144A (zh) * | 2020-09-03 | 2020-12-04 | 广联达科技股份有限公司 | 数据解析方法、装置、计算机设备和可读存储介质 |
CN113343815A (zh) * | 2021-05-31 | 2021-09-03 | 北森云计算有限公司 | 一种pdf等版式文档中识别表格的方法 |
Non-Patent Citations (1)
Title |
---|
曾湘宁, 沈兰生, 任鲲鹏: "印刷表格文本分析识别系统的研究", 中文信息学报, no. 04, 30 December 1997 (1997-12-30) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8799772B2 (en) | System and method for gathering, indexing, and supplying publicly available data charts | |
CN107085602B (zh) | 统计图的生成方法与计算机存储介质 | |
CN111198887B (zh) | 药品索引方法、药品检索方法及系统 | |
CN112036144B (zh) | 数据解析方法、装置、计算机设备和可读存储介质 | |
US7058623B2 (en) | Computer automated system for management of engineering drawings | |
CN110688349A (zh) | 一种文档整理方法、装置、终端及计算机可读存储介质 | |
JP2005235209A (ja) | 配列索引方法及びそのシステム | |
CN114186543A (zh) | 一种药物实验文档的内容分析提取方法、系统和存储介质 | |
CN111859863A (zh) | 一种文档的结构转换方法、装置、存储介质及电子设备 | |
CN110619067A (zh) | 基于行业分类的检索方法、检索装置及可读存储介质 | |
CN116226108A (zh) | 可实现不同治理程度的数据治理方法及系统 | |
CN113536759B (zh) | 文本查重方法和装置及设备 | |
CN114186536A (zh) | 一种数据记录自动分析生成的方法、系统和存储介质 | |
CN115809649A (zh) | 一种NeeS电子文档的eCTD转换方法、系统和存储介质 | |
JP2016018279A (ja) | 文書ファイル検索プログラム、文書ファイル検索装置、文書ファイル検索方法、文書情報出力プログラム、文書情報出力装置及び文書情報出力方法 | |
US11989693B2 (en) | Image-processing device, image processing method, and storage medium on which program is stored | |
CN112116015A (zh) | 基于图像处理的材料分类方法、装置及计算机设备 | |
CN116541382B (zh) | 基于数据安全识别级别的数据治理方法及系统 | |
CN116127105B (zh) | 一种大数据平台的数据汇集方法及装置 | |
CN112559195B (zh) | 数据库死锁的检测方法、装置、测试终端及介质 | |
CN114564472B (zh) | 元数据扩充方法以及存储介质、电子设备 | |
CN111046629B (zh) | 大纲显示方法、装置及设备 | |
JPH0991305A (ja) | 情報処理方法及び装置 | |
JPH1063649A (ja) | タグ付加文書作成方法および装置 | |
CN113821691A (zh) | 文档处理方法及装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |