CN111143374B - 一种数据辅助识别的方法、系统、计算设备及存储介质 - Google Patents

一种数据辅助识别的方法、系统、计算设备及存储介质 Download PDF

Info

Publication number
CN111143374B
CN111143374B CN201911407197.XA CN201911407197A CN111143374B CN 111143374 B CN111143374 B CN 111143374B CN 201911407197 A CN201911407197 A CN 201911407197A CN 111143374 B CN111143374 B CN 111143374B
Authority
CN
China
Prior art keywords
data
information
recognition
identification information
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911407197.XA
Other languages
English (en)
Other versions
CN111143374A (zh
Inventor
郑永升
石磊
石权
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Yitu Healthcare Technology Co ltd
Original Assignee
Hangzhou Yitu Healthcare Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Yitu Healthcare Technology Co ltd filed Critical Hangzhou Yitu Healthcare Technology Co ltd
Priority to CN201911407197.XA priority Critical patent/CN111143374B/zh
Publication of CN111143374A publication Critical patent/CN111143374A/zh
Application granted granted Critical
Publication of CN111143374B publication Critical patent/CN111143374B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2219Large Object storage; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据辅助识别的方法,包括以下步骤:根据原始数据的数据元信息生成与原始数据相关的数据信息;结合词汇库对数据信息进行识别得到对应的识别信息;响应用户的查询请求,向用户显示基于查询请求和识别信息的搜索结果;根据用户对搜索结果的操作生成记录信息,根据记录信息对词汇库和识别信息中至少之一进行更新。本发明公开的数据辅助识别的方法能够帮助用户,尤其是ETL人员快速准确地识别原始数据,降低数据识别复杂度,提升数据抽取速度。本发明还提供了一种数据辅助识别的系统、计算设备以及存储介质。

Description

一种数据辅助识别的方法、系统、计算设备及存储介质
技术领域
本发明涉及大数据处理领域,特别涉及一种数据辅助识别的方法、系统、计算设备及存储介质。
背景技术
在建设大型数据仓库的过程中,数据往往来源于多个不同的生产系统。对于非企业自己开发的生产系统,由于开发者对应用场景的了解程度不同等原因,导致一个数据仓库建设所需的多个系统的原始数据缺乏统一的数据存储规范,数据存储质量参差不齐,存在大量的半结构化数据,导致数据识别困难,对接难度大大增加,不利于数据的处理和应用。尤其是在医疗、政务等数据丰富的应用场景问题尤为突出。以医疗场景下大数据处理为例,由于涉及到多个大的生产系统,例如HIS(医院信息系统)、LIS(实验室信息管理系统)、EMR(电子病历)等,可能分别来自不同的厂家,没有统一的数据存储规范,数据存储质量参差不齐,且涉及的数据种类多,通常需要对接几千张业务表,尤其是医院作为业务系统的使用者,并不理解数据库中的数据模型,数据本身通常以大文本或者富文本形式存储在表的单列中,这一系列问题导致了数据识别难,抽取速度慢等问题。而现有的数据识别方法,仅能完成有血缘关系的数据库、数据表之间的识别,而无法对无血缘关系的数据进行快速准确的识别。因此急需一种能够帮助用户,尤其是ETL(数据仓库技术)人员快速准确地识别原始数据,降低数据识别复杂度,提升数据抽取速度的数据辅助识别的方法。
发明内容
本发明的目的在于解决现有技术中数据仓库建设所需的多个系统的原始数据缺乏统一的数据存储规范,数据存储质量参差不齐,存在大量的半结构化数据,导致数据识别困难,对接难度大大增加,不利于数据的处理和应用的问题。本发明提供了一种数据辅助识别的方法、系统、计算设备及存储介质,能够帮助用户,尤其是ETL人员快速准确地识别原始数据,降低数据识别复杂度,提升数据抽取速度。
为解决上述技术问题,本发明的实施方式公开了一种数据辅助识别的方法,包括以下步骤:根据原始数据的数据元信息生成与原始数据相关的数据信息;结合词汇库对数据信息进行识别得到对应的识别信息;响应用户的查询请求,向用户显示基于查询请求和识别信息的搜索结果;根据用户对搜索结果的操作生成记录信息,根据记录信息对词汇库和识别信息中至少之一进行更新。
采用上述技术方案,该数据辅助识别的方法可以帮助用户,尤其是ETL人员快速准确地识别原始数据,降低数据识别复杂度,提升数据抽取速度。
可选地,词汇库至少包括词典库,识别信息包括第一识别信息、第二识别信息,结合词汇库对数据信息进行识别得到对应的识别信息的步骤,包括:结合词典库对数据信息中的数据库进行识别,得到第一识别信息;结合词典库对数据库中的数据表进行识别,得到第二识别信息。
可选地,识别信息还包括第三识别信息,结合词典库对数据库中的数据表进行识别,得到第二识别信息的步骤,进一步包括:结合词典库对数据表中的字段进行识别,得到第三识别信息;根据第三识别信息,修改第二识别信息。
可选地,识别信息还包括第四识别信息,词汇库还包括领域规则库,结合词典库对数据表中的字段进行识别,得到第三识别信息的步骤,进一步包括:对无法识别的字段,使用自然语言处理对字段下的文本内容进行解析,得到第四识别信息;根据第四识别信息,结合领域规则库修改第三识别信息。
可选地,数据元信息至少包含来源系统,根据原始数据的数据元信息生成与原始数据相关的数据信息的步骤,包括:从数据元信息中获取原始数据的来源系统;根据来源系统的不同,对原始数据进行不同程度的数据采样得到数据信息。
可选地,响应用户的查询请求,向用户显示基于查询请求和识别信息的搜索结果的步骤,包括:接收用户的查询请求;根据查询请求,结合识别信息,调取原始数据中相关的数据表;对数据表进行排序;显示排序后的数据表。
可选地,记录信息包括第一记录信息、第二记录信息,根据用户对搜索结果的操作生成记录信息,根据记录信息对词典库和识别信息中至少之一进行更新的步骤,包括:当用户选择的不是设定序位的数据表时,生成第一记录信息;根据第一记录信息,对识别信息进行更新;当用户对选择的数据表对应的识别信息进行标记操作时,根据标记生成第二记录信息;根据第二记录信息,对词典库和识别信息中至少之一进行更新。
本发明的实施方式还公开了一种数据辅助识别的系统,包括:采样模块,用于根据原始数据的数据元信息生成与原始数据相关的数据信息;词汇库,至少包含词典库;识别模块,用于结合词汇库对数据信息进行识别得到对应的识别信息;显示模块,用于响应用户的查询请求,向用户显示基于查询请求和识别信息的搜索结果;记录模块,用于根据用户对搜索结果的操作生成记录信息,并根据记录信息对词典库和识别信息中至少之一进行更新。
采用上述技术方案,该数据辅助识别的系统可以帮助用户,尤其是ETL人员快速准确地识别原始数据,降低数据识别复杂度,提升数据抽取速度。
可选地,识别模块包括第一识别单元、第二识别单元、第三识别单元和第四识别单元,第四识别单元具有自然语言处理功能,词汇库还包含领域规则库,识别信息包括第一识别信息、第二识别信息、第三识别信息和第四识别信息,第一识别单元用于对数据信息中的数据库进行识别得到第一识别信息,第二识别单元用于对数据库中的数据表进行识别得到第二识别信息,第三识别单元对数据表中的字段进行识别,得到第三识别信息,并根据第三识别信息修改第二识别信息,第四识别单元用于对无法识别的字段下的文本内容进行自然语言处理,得到第四识别信息,并结合领域规则库修改第三识别信息。
可选地,显示模块包括输入单元,搜索单元,显示单元,输入单元用于用户输入查询请求,搜索单元用于根据查询请求,结合识别信息,调取原始数据中相关的数据表,对数据表进行排序,显示单元用于向用户显示排序后的数据表。
本发明的实施方式还公开了一种计算设备,包括:处理器,适于实现各种指令;存储器,适于存储多条指令,指令适于由处理器加载并执行前述实施方式任一数据辅助识别的方法。
采用上述技术方案,该计算设备可以帮助用户,尤其是ETL人员快速准确地识别原始数据,降低数据识别复杂度,提升数据抽取速度。
本发明的实施方式还公开了一种存储介质,存储介质存储有多条指令,指令适于由处理器加载并执行前述实施方式任一数据辅助识别的方法。
采用上述技术方案,该存储介质的应用可以帮助用户,尤其是ETL人员快速准确地识别原始数据,降低数据识别复杂度,提升数据抽取速度。
附图说明
图1示出本发明一实施例的数据辅助识别的方法的流程图;
图2示出本发明一实施例的数据辅助识别的方法对数据信息进行识别的流程图;
图3示出本发明一实施例的数据辅助识别的方法响应用户查询的流程图;
图4示出本发明一实施例的数据辅助系统的示意框图;
图5示出本发明一实施例的词汇库的示意框图;
图6示出本发明一实施例的识别模块的示意框图;
图7示出本发明一实施例的显示模块的示意框图。
具体实施方式
以下由特定的具体实施例说明本发明的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其他优点及功效。虽然本发明的描述将结合较佳实施例一起介绍,但这并不代表此发明的特征仅限于该实施方式。恰恰相反,结合实施方式作发明介绍的目的是为了覆盖基于本发明的权利要求而有可能延伸出的其它选择或改造。为了提供对本发明的深度了解,以下描述中将包含许多具体的细节。本发明也可以不使用这些细节实施。此外,为了避免混乱或模糊本发明的重点,有些具体细节将在描述中被省略。需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
应注意的是,在本说明书中,相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
为使本发明的目的、技术方案和优点更加清楚,下面将以本发明所公开的数据辅助识别的方法及系统在医疗场景中大数据处理过程中的应用为例,结合附图对本发明的实施方式作进一步地详细描述。但可以理解的是,本发明所公开的数据辅助识别的方法及系统对于多系统,数据丰富的应用场景均可适用,如政务等,本发明不作限制。
参照图1所示,本发明的实施方式公开了一种数据辅助识别的方法,包括以下步骤,S1:根据原始数据的数据元信息生成与原始数据相关的数据信息;S2:结合词汇库对数据信息进行识别得到对应的识别信息;S3:响应用户的查询请求,向用户显示基于查询请求和识别信息的搜索结果;S4:根据用户对搜索结果的操作生成记录信息,根据记录信息对词汇库和识别信息中至少之一进行更新。
在S1中,原始数据为多个不同的医院系统(如HIS、LIS等)中的数据库、数据表等,多个原始数据之间可以没有血缘关系。数据元信息为包含原始数据信息的信息,根据实际需要,可以包括基本特征元信息、结构元信息、行为元信息、属性元信息等的一种或多种。简单来说,数据元信息包括原始数据的相关信息,例如原始数据的来源系统、原始数据的同步时间、原始数据信息量的大小、原始数据的结构化程度等信息。本实施方式所公开的数据辅助识别的方法,可根据原始数据的数据元信息生成与原始数据相关的数据信息。例如,可以根据数据元信息中所包含的原始数据的信息量大小的不同,对原始数据进行不同程度的采样得到对应的数据信息。例如,可以预先设定对100M以上的原始数据,进行30%的采样,对10M-100M的原始数据进行60%的采样,对10M以下的原始数据进行100%的采样,有利于提升数据的抽取速度,便于后续的数据处理。原始数据可以是以数据库为单位,也可以是数据表为单位的形式,本发明不作限制。以一份原始数据包含一个数据库举例,假设该数据库大小为150M,包含100张数据表,每张数据表包含20个字段,每个字段下包含10条文本内容,则30%的采样是指对该数据库里的100张数据表均进行采样,且每个数据表采样全部20个字段,但20个字段下面进行对应的随机采样,每个字段下对应获取3条文本内容。具体的采样依据和规则可根据实际需要设定,例如也可根据数据元信息中所包含的来源系统的不同,或者结构化程度的不同设定规则进行采样,本发明不作限制。但可以理解的是,根据数据元信息来生成与原始数据相关的数据信息,有利于减小运算负荷,提升数据抽取的速度。
在S2中,可以理解的是,来源于不同系统的原始数据由于存在结构化程度不一,缺乏统一的数据存储规范,数据存储质量参差不齐等问题,且原始数据之间可能不存在血缘关系,对应采样得到的数据信息也存在同样的问题,此时使用词汇库进行识别可以解决上述问题。在医疗场景下,词汇库可以包含医学词典,医院规范等标准医学用语。例如,医学词典中可包含常用的医学名词,以及医学名词对应的英文以及对应的缩写等信息。此时通过使用词汇库对数据信息进行识别,对无标准规范、半结构化的数据信息识别生成标准的、结构化程度高的识别信息,可以减少原始数据识别的复杂度,提高原始数据识别的准确率,减少了用户,尤其是ETL人员在处理时人工识别的工作量,便于ETL人员后续进行数据的处理和应用。可以理解的是,原始信息与数据信息、识别信息之间存在对应关系,对数据信息识别后生成对应的识别信息,但不改变原始信息的内容,保持原始数据的完整性。
在S3中,当用户,尤其是ETL人员,有查询请求时,可以通过UI界面以关键词检索、模糊查询等形式输入查询请求。例如,当ETL人员输入“体格检查”进行关于数据表的关键词查询时,搜索识别信息中包含“体格检查”的数据表,并向用户显示原始数据中相关的数据表作为搜索结果,供用户选择。
在S4中,当用户选择打开了界面上位于某位的数据表,此时向用户展示对应的数据表及其对应的识别信息。若用户发现该表并非自己所需要“体格检查”的数据表时,或者发现表或表内的识别信息有误时,可以调用词汇库进行标记等操作。又或者,当用户发现识别有误的识别信息,又无法在词汇库中找到对应正确的词语时,用户对该数据表识别有误的识别信息可自行输入文字进行标记。当用户未进行标记时,可认为该数据表的识别信息正确。因此,可根据用户的标记操作或未标记操作生成对应的记录信息。当标记时,可根据记录信息对有误的识别信息进行纠错更新,或者对词汇库进行词汇补充更新。当未标记时,可对用户选择的数据表的识别信息中“体格检查”进行高频识别信息标记或提升概率更新。本实施方式所公开的技术方案可通过合理处理用户信息反馈的方式,可以及时更新丰富词汇库,提升长期的识别准确率和识别速度。
采用上述技术方案所公开的数据辅助识别的方法,可以帮助用户,尤其是ETL人员快速准确地识别原始数据,降低数据识别复杂度,提升数据抽取速度。
可选地,参照图2所示,词汇库至少包括词典库,识别信息包括第一识别信息、第二识别信息,结合词汇库对数据信息进行识别得到对应的识别信息的步骤,包括,S21:结合词典库对数据信息中的数据库进行识别,得到第一识别信息;S22:结合词典库对数据库中的数据表进行识别,得到第二识别信息。
本发明所公开的数据辅助识别的方法,主要用于数据丰富的应用场景。例如,在医院的多个大型生产系统中,原始数据多以数据库为单位,数据库中包含多个数据表。此时的词典库可以是医学词典,医学词典中包含常用的医学名词,以及医学名词对应的英文以及对应的缩写等信息,便于进行数据识别。在S21中,结合词典库,先进行数据信息中数据库的识别,例如库名包含“pis”,则该库可能存放的病理相关数据,可将“病理库”作为第一识别信息的一部分。在S22中,结合词典库,对数据库中的每个数据表进行识别,例如表名称包含“report”则可能是一张报告表,此时根据词典库中所存在的报告表的种类,找到该表可能属于哪些报告表,作为第二识别信息的一部分。结合词典库进行数据库加数据表的识别,可以降低数据识别的复杂度,还可以帮助用户,尤其ETL人员更加准确地识别原始数据。
可选地,参照图2所示,识别信息还包括第三识别信息,结合词典库对数据库中的数据表进行识别,得到第二识别信息的步骤,进一步包括,S23:结合词典库对数据表中的字段进行识别,得到第三识别信息;S24:根据第三识别信息,修改第二识别信息。
本发明所公开的数据辅助识别的方法,可以通过字段识别来提升数据识别的准确性。例如,当表名为“report”时,则根据词典库,该表可能是诊断报告表,检查报告表或手术报告表等。可以对每种类型的报告表预设若干个标准字段和概率规则,本发明不对标准字段的个数,概率规则进行限制,可根据实际需要进行选择。例如,可以对每种类型报告表预设10个标准字段,设定最高概率为1,每匹配一个标准字段,概率增加10%。在S23中,进行字段识别时,通过词典库对“report”里所包含的字段进行识别,与各类可能的报告表的标准字段进行比对,得到第三识别信息。可以理解的是,字段匹配个数多的,该表是对应类型报告表的可能性更高。例如,正在识别的数据表进行字段识别发现包含“主刀医生”、“药剂用量”等第三识别信息,对比匹配得到包含了9个手术报告表的标准字段,8个诊断报告表的标准字段,6个检查报告表的标准字段。在S24中,可根据第三识别信息,修改补充对应的第二识别信息。例如,可以将第二识别信息中所包含的可能表的结果添加对应的概率,例如手术报告表对应为90%,诊断报告表80%,检查报告表60%。通过字段识别,可以根据第三识别信息修正第二识别信息,从而提高本方法的数据识别准确率,也方便后续数据处理应用过程中的使用和调取。此外,还可根据实际需求,设定仅保留概率值为前N位报告表识别结果,对第二识别信息中概率值为前N位报告表识别结果进行保留,删除其他识别结果,从而减少了识别信息占用的储存空间,在后续数据使用和调取过程中也可减少运算时间。
可选地,参照图2所示,识别信息还包括第四识别信息,词汇库还包括领域规则库,结合词典库对数据表中的字段进行识别,得到第三识别信息的步骤,进一步包括,S25:对无法识别的字段,使用自然语言处理对字段下的文本内容进行解析,得到第四识别信息;S26:根据第四识别信息,结合领域规则库修改第三识别信息。
本发明所公开的数据辅助识别的方法,可以通过内容识别来辅助进行字段识别。当待识别的数据信息结构化程度非常低,部分字段无法根据字段名称进行字段识别时,此时可将领域规则库添加至词汇库。例如,在医院这一应用场景下,领域规则库可以来源于医学规范,某一规则可以是:“主述”中包含诊断/症状/体征/手术信息和时间信息。在S25中,当某一字段名称不是词典库中所包含的相关词汇时,无法完成字段识别时,此时可以对该字段下的文本内容进行自然语言处理,解析相关的文本信息。例如,解析发现文本包含了诊断信息和时间信息,则作为第四识别信息。在S26中,使用第四识别信息结合领域规则库,即可以得到对应的第三识别信息应为“主述”,将相应的第三识别信息修改为主述。通过自然语言处理和领域规则库的结合,可以很好地解决字段名称无法识别,字段内的文本数据又是以大文本或者富文本形式存储在表的单列中的情况,进一步提高了本方法的数据识别准确率,也进一步方便了后续数据处理应用过程中的使用和调取。
可选地,数据元信息至少包含来源系统,根据原始数据的数据元信息生成与原始数据相关的数据信息的步骤,包括:从数据元信息中获取原始数据的来源系统;根据来源系统的不同,对原始数据进行不同程度的数据采样得到数据信息。
本发明所公开的数据辅助识别的方法,数据元信息中可包含原始数据的来源系统,因为相同系统内的原始数据的结构化程度相似,存储规范也相似,而不同系统之间的原始数据其结构化程度往往不同,因此可通过来源系统的不同来对原始数据进行不同程度的采样。例如,A系统的原始数据结构化程度高于B系统,则可设定对A系统的原始数据进行30%的采样,对B系统的原始数据进行50%的采样。本发明不对具体的系统和对应的采样规则进行限定,可根据实际需要进行选择。根据来源系统的不同进行不同程度的采样,操作方便,既保证数据识别的准确率,同时提升了数据抽取的速度,便于进行后续的数据识别。
可选地,参照图3所示,响应用户的查询请求,向用户显示基于查询请求和识别信息的搜索结果的步骤,包括,S31:接收用户的查询请求;S32:根据查询请求,结合识别信息,调取原始数据中相关的数据表;S33:对数据表进行排序;S34:显示排序后的数据表。
本发明所公开的数据辅助识别的方法,在S31中,可以通过例如Web端的UI界面接收用户的查询请求,方便用户的使用。例如,用户输入“体格检查”,在S32中,可以调取原始数据中对应的识别信息包含“体格检查”的所有数据表。在S33中,当前序的识别过程中未进行字段识别时,可预先设定“体格检查”的标准数据表应包含的标准字段个数和名称,此时遍历调取的所有相关的数据表,将每个数据表中的字段与标准字段进行对比,按设定的规则对数据表进行排序。例如,可以根据匹配的标准字段个数多少进行排序。也可根据实际需求,设置每个标准字段的不同权重。当前序的识别过程中已进行字段识别时,此时可按各数据表的第二识别信息中“体格检查”对应的概率高低直接进行排序。在S34中,可以将排序后的数据表通过界面显示给用户,便于用户选择。通过将数据表排序,便于用户,例如ETL人员对搜索结果所显示的数据表进行选取,减少了数据查询需要的时间,方便了数据表处理和应用过程中的查询和使用。
可选地,记录信息包括第一记录信息、第二记录信息,根据用户对搜索结果的操作生成记录信息,根据记录信息对词典库和识别信息中至少之一进行更新的步骤,包括:当用户选择的不是设定序位的数据表时,生成第一记录信息;根据第一记录信息,对识别信息进行更新;当用户对选择的数据表对应的识别信息进行标记操作时,根据标记生成第二记录信息;根据第二记录信息,对词典库和识别信息中至少之一进行更新。
本发明所公开的数据辅助识别的方法,可根据用户的反馈及时更新识别信息和词典库。例如,可提前设定按对应可能性从高到低对查询过程中调取的数据表进行排序,显示给用户。同时,设定当用户选取的数据表不是第一位,又或者设定用户选取的表格不是前M位时,生成第一记录信息。例如,设定为M=5,当用户搜索“体格检查”时,选取了搜索结果中排序位于第6位的数据表。此时,可根据第一记录信息,调整序位为第6位的数据表的识别信息。例如,将其第二识别信息中的“体格检查表”标记为高频识别信息或增大其对应的概率,和/或对排序中前5位的数据表的识别信息中“体格检查”标记为低频识别信息和/或减小其对应的概率、或删除其中的“体格检查”。当用户打开选择的数据表后,对应的数据表以及该表对应的识别信息,一同展示给用户。此时,用户在阅读或使用数据表的过程中,发现其对应的识别信息有误时,可以进行相关操作。例如,当发现选择的体格检查表,并非自己想要的数据表时,即表识别有误时,可以调用词典库对该表进行标记,对应生成第二记录信息。当前序识别过程中进行了字段识别时,用户发现某字段识别有误时,可以调用词典库使用词典库内的标准词汇对该字段进行标记,对应生成第二记录信息。在标记过程中,如果用户发现词典库中无识别信息应对应的标准词汇时,可在标记处自行输入标准词汇,对应生成第二记录信息。即第二记录信息可根据需要包含表识别错误信息、字段识别错误信息、新标准词汇信息等一个或多个信息内容。从而可根据第二记录信息对词典库和识别信息中至少之一进行更新。例如,将新的标准词汇加入到词典库,将识别信息内容进行调整等,从而可做到根据用户的反馈及时更新识别信息和词典库,进一步提升了数据识别的准确率,便于数据的处理和应用。
参照图4所示,本发明的实施方式还公开了一种数据辅助识别的系统1,包括:采样模块11,用于根据原始数据的数据元信息生成与原始数据相关的数据信息;词汇库12,至少包含词典库121;识别模块13,用于结合词汇库12对数据信息进行识别得到对应的识别信息;显示模块14,用于响应用户的查询请求,向用户显示基于查询请求和识别信息的搜索结果;记录模块15,用于根据用户对搜索结果的操作生成记录信息,并根据记录信息对词典库121和识别信息中至少之一进行更新。
本发明所公开的数据辅助识别的系统,可参照前述实施方式中的数据辅助识别的方法进行数据识别,可以帮助用户,尤其是ETL人员快速准确地识别原始数据,降低数据识别复杂度,提升数据抽取速度。
可选地,识别模块13包括第一识别单元131、第二识别单元132、第三识别单元133和第四识别单元134,第四识别单元134具有自然语言处理功能,词汇库12还包含领域规则库122,识别信息包括第一识别信息、第二识别信息、第三识别信息和第四识别信息,第一识别单元131用于对数据信息中的数据库进行识别得到第一识别信息,第二识别单元132用于对数据库中的数据表进行识别得到第二识别信息,第三识别单元133对数据表中的字段进行识别,得到第三识别信息,并根据第三识别信息修改第二识别信息,第四识别单元134用于对无法识别的字段下的文本内容进行自然语言处理,得到第四识别信息,并结合领域规则库122修改第三识别信息。
本发明所公开的数据辅助识别的系统,可参照前述实施方式中的数据辅助识别的方法,结合词汇库和自然语言处理功能,对有关于原始信息的数据信息进行数据库的识别、数据表的识别、字段识别和内容识别。可以提高数据识别的准确性,且能够解决字段名称无法识别,字段内的文本数据又是以大文本或者富文本形式存储在表的单列中的情况,进一步提高了本方法的数据识别准确率,帮助用户,尤其是ETL人员更加快速准确地识别原始数据,也进一步方便了数据处理应用过程中的使用和调取。
可选地,显示模块14包括输入单元141,搜索单元142,显示单元143,输入单元141用于用户输入查询请求,搜索单元142用于根据查询请求,结合识别信息,调取原始数据中相关的数据表,对数据表进行排序,显示单元143用于向用户显示排序后的数据表。
本发明所公开的数据辅助识别的系统,可参照前述实施方式中的数据辅助识别的方法,根据用户的反馈及时更新识别信息和词典库,从而进一步提升了数据识别的准确率,便于数据的处理和应用。
本发明的实施方式还公开了一种计算设备,包括:处理器,适于实现各种指令;存储器,适于存储多条指令,指令适于由处理器加载并执行前述实施方式任一数据辅助识别的方法。
该本发明所公开的计算设备,被使用后可以帮助用户,尤其是ETL人员快速准确地识别原始数据,降低数据识别复杂度,提升数据抽取速度。
本发明的实施方式还公开了一种存储介质,存储介质存储有多条指令,指令适于由处理器加载并执行前述实施方式任一数据辅助识别的方法。
该本发明所公开的存储介质,其应用可以帮助用户,尤其是ETL人员快速准确地识别原始数据,降低数据识别复杂度,提升数据抽取速度。
本申请公开的各实施方式可以被实现在硬件、软件、固件或这些实现方法的组合中。本申请的实施例可实现为在可编程系统上执行的计算机程序或程序代码,该可编程系统包括至少一个处理器、存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入设备以及至少一个输出设备。可将程序代码应用于输入指令,以执行本申请描述的各功能并生成输出信息。可以按已知方式将输出信息应用于一个或多个输出设备。为了本申请的目的,处理系统包括具有诸如例如数字信号处理器(DSP)、微控制器、专用集成电路(ASIC)或微处理器之类的处理器的任何系统。
程序代码可以用高级程序化语言或面向对象的编程语言来实现,以便与处理系统通信。在需要时,也可用汇编语言或机器语言来实现程序代码。事实上,本申请中描述的机制不限于任何特定编程语言的范围。在任一情形下,该语言可以是编译语言或解释语言。
在一些情况下,所公开的实施方式可以以硬件、固件、软件或其任何组合来实现。所公开的实施例还可以被实现为由一个或多个暂时或非暂时性机器可读(例如,计算机可读)存储介质承载或存储在其上的指令,其可以由一个或多个处理器读取和执行。例如,指令可以通过网络或通过其他计算机可读介质分发。因此,机器可读介质可以包括用于以机器(例如,计算机)可读的形式存储或传输信息的任何机制,包括但不限于,软盘、光盘、光碟、只读存储器(CD-ROMs)、磁光盘、只读存储器(ROM)、随机存取存储器(RAM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、磁卡或光卡、闪存、或用于利用因特网以电、光、声或其他形式的传播信号来传输信息(例如,载波、红外信号数字信号等)的有形的机器可读存储器。因此,机器可读介质包括适合于以机器(例如,计算机)可读的形式存储或传输电子指令或信息的任何类型的机器可读介质。
在附图中,可以以特定布置和/或顺序示出一些结构或方法特征。然而,应该理解,可能不需要这样的特定布置和/或排序。而是,在一些实施例中,这些特征可以以不同于说明性附图中所示的方式和/或顺序来布置。另外,在特定图中包括结构或方法特征并不意味着暗示在所有实施例中都需要这样的特征,并且在一些实施例中,可以不包括这些特征或者可以与其他特征组合。
需要说明的是,本申请各设备实施例中提到的各模块/单元都是逻辑模块/单元,在物理上,一个逻辑模块/单元可以是一个物理模块/单元,也可以是一个物理模块/单元的一部分,还可以以多个物理模块/单元的组合实现,这些逻辑模块/单元本身的物理实现方式并不是最重要的,这些逻辑模块/单元所实现的功能的组合才是解决本申请所提出的技术问题的关键。此外,为了突出本申请的创新部分,本申请上述各设备实施例并没有将与解决本申请所提出的技术问题关系不太密切的模块/单元引入,这并不表明上述设备实施例并不存在其它的模块/单元。
虽然通过参照本发明的某些优选实施方式,已经对本发明进行了图示和描述,但本领域的普通技术人员应该明白,以上内容是结合具体的实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。本领域技术人员可以在形式上和细节上对其作各种改变,包括做出若干简单推演或替换,而不偏离本发明的精神和范围。

Claims (8)

1.一种数据辅助识别的方法,其特征在于,包括以下步骤:
根据原始数据的数据元信息生成与所述原始数据相关的数据信息;
结合词汇库对所述数据信息进行识别得到对应的识别信息;
响应用户的查询请求,向用户显示基于所述查询请求和所述识别信息的搜索结果;
根据用户对所述搜索结果的操作生成记录信息,根据所述记录信息对所述词汇库和所述识别信息中至少之一进行更新;
所述词汇库至少包括词典库,所述识别信息包括第一识别信息、第二识别信息,所述结合词汇库对所述数据信息进行识别得到对应的识别信息的步骤,包括:结合所述词典库对所述数据信息中的数据库进行识别,得到所述第一识别信息;结合所述词典库对所述数据库中的数据表进行识别,得到所述第二识别信息;
所述识别信息还包括第三识别信息,所述结合所述词典库对所述数据库中的数据表进行识别,得到所述第二识别信息的步骤,进一步包括:结合所述词典库对所述数据表中的字段进行识别,得到所述第三识别信息;根据所述第三识别信息,修改所述第二识别信息;
所述识别信息还包括第四识别信息,所述词汇库还包括领域规则库,所述结合所述词典库对所述数据表中的字段进行识别,得到所述第三识别信息的步骤,进一步包括:对无法识别的字段,使用自然语言处理对字段下的文本内容进行解析,得到所述第四识别信息;根据所述第四识别信息,结合所述领域规则库修改所述第三识别信息。
2.如权利要求1所述的数据辅助识别的方法,其特征在于,所述数据元信息至少包含来源系统,所述根据原始数据的数据元信息生成与所述原始数据相关的数据信息的步骤,包括:
从所述数据元信息中获取所述原始数据的来源系统;
根据所述来源系统的不同,对所述原始数据进行不同程度的数据采样得到所述数据信息。
3.如权利要求1所述的数据辅助识别的方法,其特征在于,所述响应用户的查询请求,向用户显示基于所述查询请求和所述识别信息的搜索结果的步骤,包括:
接收用户的查询请求;
根据所述查询请求,结合所述识别信息,调取所述原始数据中相关的数据表;
对所述数据表进行排序;
显示排序后的数据表。
4.如权利要求3所述的数据辅助识别的方法,其特征在于,所述记录信息包括第一记录信息、第二记录信息,所述根据用户对所述搜索结果的操作生成记录信息,根据所述记录信息对所述词典库和所述识别信息中至少之一进行更新的步骤,包括:
当用户选择的不是设定序位的数据表时,生成第一记录信息;
根据所述第一记录信息,对所述识别信息进行更新;
当用户对选择的数据表对应的识别信息进行标记操作时,根据所述标记生成第二记录信息;
根据所述第二记录信息,对所述词典库和所述识别信息中至少之一进行更新。
5.一种数据辅助识别的系统,其特征在于,包括:
采样模块,用于根据原始数据的数据元信息生成与所述原始数据相关的数据信息;
词汇库,至少包含词典库;
识别模块,用于结合所述词汇库对所述数据信息进行识别得到对应的识别信息;
显示模块,用于响应用户的查询请求,向用户显示基于所述查询请求和所述识别信息的搜索结果;
记录模块,用于根据用户对所述搜索结果的操作生成记录信息,并根据所述记录信息对所述词典库和所述识别信息中至少之一进行更新;
所述识别模块包括第一识别单元、第二识别单元、第三识别单元和第四识别单元,所述第四识别单元具有自然语言处理功能,所述词汇库还包含领域规则库,所述识别信息包括第一识别信息、第二识别信息、第三识别信息和第四识别信息,所述第一识别单元用于对所述数据信息中的数据库进行识别得到所述第一识别信息,所述第二识别单元用于对所述数据库中的数据表进行识别得到所述第二识别信息,所述第三识别单元对所述数据表中的字段进行识别,得到所述第三识别信息,并根据所述第三识别信息修改所述第二识别信息,所述第四识别单元用于对无法识别的字段下的文本内容进行自然语言处理,得到所述第四识别信息,并结合所述领域规则库修改所述第三识别信息。
6.如权利要求5所述的数据辅助识别的系统,其特征在于,所述显示模块包括输入单元,搜索单元,显示单元,所述输入单元用于用户输入所述查询请求,所述搜索单元用于根据所述查询请求,结合所述识别信息,调取原始数据中相关的数据表,对所述数据表进行排序,所述显示单元用于向用户显示排序后的数据表。
7.一种计算设备,其特征在于,包括:
处理器,适于实现各种指令;
存储器,适于存储多条指令,所述指令适于由所述处理器加载并执行权利要求1-4中任一项所述的数据辅助识别的方法。
8.一种存储介质,其特征在于,所述存储介质存储有多条指令,所述指令适于由处理器加载并执行权利要求1-4中任一项所述的数据辅助识别的方法。
CN201911407197.XA 2019-12-31 2019-12-31 一种数据辅助识别的方法、系统、计算设备及存储介质 Active CN111143374B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911407197.XA CN111143374B (zh) 2019-12-31 2019-12-31 一种数据辅助识别的方法、系统、计算设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911407197.XA CN111143374B (zh) 2019-12-31 2019-12-31 一种数据辅助识别的方法、系统、计算设备及存储介质

Publications (2)

Publication Number Publication Date
CN111143374A CN111143374A (zh) 2020-05-12
CN111143374B true CN111143374B (zh) 2023-04-25

Family

ID=70522377

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911407197.XA Active CN111143374B (zh) 2019-12-31 2019-12-31 一种数据辅助识别的方法、系统、计算设备及存储介质

Country Status (1)

Country Link
CN (1) CN111143374B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112184084B (zh) * 2020-11-05 2023-08-08 北京嘉和海森健康科技有限公司 一种病历学习质量评估方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10187751A (ja) * 1996-12-24 1998-07-21 Casio Comput Co Ltd 認識データ処理装置およびそのプログラム記録媒体
CN108549881A (zh) * 2018-05-02 2018-09-18 杭州创匠信息科技有限公司 证件文字的识别方法和装置
CN108845985A (zh) * 2018-05-28 2018-11-20 济南浪潮高新科技投资发展有限公司 一种信息匹配方法和信息匹配装置
CN110427375A (zh) * 2019-07-29 2019-11-08 北京明略软件系统有限公司 字段类别的识别方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10474652B2 (en) * 2013-03-14 2019-11-12 Inpixon Optimizing wide data-type storage and analysis of data in a column store database

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10187751A (ja) * 1996-12-24 1998-07-21 Casio Comput Co Ltd 認識データ処理装置およびそのプログラム記録媒体
CN108549881A (zh) * 2018-05-02 2018-09-18 杭州创匠信息科技有限公司 证件文字的识别方法和装置
CN108845985A (zh) * 2018-05-28 2018-11-20 济南浪潮高新科技投资发展有限公司 一种信息匹配方法和信息匹配装置
CN110427375A (zh) * 2019-07-29 2019-11-08 北京明略软件系统有限公司 字段类别的识别方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘金 ; .基于数据特征的敏感数据识别方法.信息通信.2016,(第02期),第246-247页. *
樊振 ; 过弋 ; 张振豪 ; 韩美琪 ; .基于词典和弱标注信息的电影评论情感分析.计算机应用.2018,(第11期),第38-42页. *

Also Published As

Publication number Publication date
CN111143374A (zh) 2020-05-12

Similar Documents

Publication Publication Date Title
CN111581976B (zh) 医学术语的标准化方法、装置、计算机设备及存储介质
US10572822B2 (en) Modular memoization, tracking and train-data management of feature extraction
CN108182207B (zh) 基于分词网络的中文手术操作的智能编码方法及系统
JP7100422B2 (ja) データプロパティ認識のための装置、プログラム、及び方法
CN107545023B (zh) 文本型指标的提取方法和装置
CN107545934B (zh) 数值型指标的提取方法和装置
CN111143374B (zh) 一种数据辅助识别的方法、系统、计算设备及存储介质
CN111143370A (zh) 用于分析多个数据表之间关系的方法、设备和计算机可读存储介质
CN111223533B (zh) 一种医疗数据检索方法及系统
US10521507B2 (en) Information processing apparatus and registration method
CN117539893A (zh) 数据处理方法、介质、装置和计算设备
CN115577694B (zh) 标准编写的智能推荐方法
CN110956043A (zh) 基于别名标准化的领域专业词汇词嵌入向量训练方法、系统及介质
US11748325B2 (en) System and method for generating multicategory searchable ternary tree data structure
JP2006023968A (ja) 固有表現抽出方法および装置並びにそれらに用いるプログラム
CN114398402A (zh) 结构化信息提取和检索方法、装置、电子设备和存储介质
AU2022201117A1 (en) Frameworks and methodologies for enabling searching and/or categorisation of digitised information, including clinical report data
JP2015106361A (ja) データ検索システムおよびデータ検索方法
CN112965998A (zh) 一种化合物数据库建立及检索方法及系统
US10649982B2 (en) Automated database updating and curation
US10289640B2 (en) Method and system for retrieval of findings from report documents
CN115774793B (zh) 机构时效性的检测方法、系统、电子设备及存储介质
CN114116838B (zh) 数据处理方法、装置、电子设备以及存储介质
JP2014052427A (ja) 辞書更新装置、音声認識システム、辞書更新方法、音声認識方法、および、コンピュータ・プログラム
CN113505570B (zh) 参考文献参见落空的审校方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant