CN115994218A - 一种文本数据单位处理方法、装置及设备 - Google Patents
一种文本数据单位处理方法、装置及设备 Download PDFInfo
- Publication number
- CN115994218A CN115994218A CN202211536443.3A CN202211536443A CN115994218A CN 115994218 A CN115994218 A CN 115994218A CN 202211536443 A CN202211536443 A CN 202211536443A CN 115994218 A CN115994218 A CN 115994218A
- Authority
- CN
- China
- Prior art keywords
- unit
- data
- standard
- text
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种文本数据单位处理方法、装置及设备,通过获取预先定义的标准单位、单位转换系数和单位转换公式,从待处理文本中提取实体对,并确定实体对类别,获取与预先定义数据元的名称对应的类别的实体对,若实体对包含数据和计量单位,则提取数据和计量单位为初始数据和初始单位,基于单位转换系数和单位转换公式将初始数据和初始单位转换为标准数据和标准单位,将标准数据存储到预先定义的数据元,得到标准数据元,将标准数据元通过预先配置的表单展示。因此,标准单位发生变化时,本申请只需要获取新定义的标准单位、单位转换系数和单位转换公式就可以完成单位之间的转换,不需要程序人员对程序进行更改,单位之间转换更加灵活。
Description
技术领域
本申请涉及数据处理技术领域,更具体地说,涉及一种文本数据单位处理方法、装置及设备。
背景技术
随着科技和经济的发展,各行各业中产生的数据也越来越多,大部分数据以文本形式记载,不同人数据记录习惯会有不同,因此数据记录的形式也会有所不同。为了可以更好的对数据进行分析,在对数据进行分析前,需要对数据进行处理。如:医生在书写病历时,由于个人习惯的不同,对于病人吸烟史的记录可能是:“吸烟半年,平均半包/天”、“吸烟3月,平均2支/天”等方式,若需要对患者吸烟史的数据进行分析,就需要统一记录的单位。
现有技术中,当数据单位不一致时,根据初始的数据单位和标准单位,程序人员定制性开发程序来完成数据单位的转换,但是,当标准单位需要随着场景的变化而变化时,需要程序人员对程序进行同步更改,单位之间的转换的灵活性较差。
发明内容
有鉴于此,本申请提供了一种文本数据单位处理方法、装置及设备,用于解决现有技术中,当标准单位需要变化时,需要程序人员对程序进行更改,单位转换灵活性较差的问题。
为实现上述目的,先提出的方案如下:
一种文本数据单位处理方法,包括:
获取待处理文本;
获取预先定义的标准单位、单位转换系数和单位转换公式,所述单位转换系数为表达初始单位和标准单位之间的关系的数值,所述单位转换公式为所述初始单位转换为所述标准单位时的计算公式;
从所述待处理文本中提取实体对,并确定实体对的类别,所述实体对为具有实体关系的两个实体进行结合得到;
获取与预先定义的数据元的名称所对应的类别的实体对,所述数据元为预先根据待处理文本内容所定义的数据字段;
判断所述实体对是否包含数据和计量单位;
若所述实体对包含数据和计量单位,则提取所述实体对中的数据和计量单位,得到初始数据和初始单位;
基于所述单位转换系数和转换公式将所述初始数据和所述初始单位转换为标准数据和标准单位,所述标准数据是以所述标准单位作为记录单位的所记录的数据;
将标准数据存储到所述预先定义的数据元中,得到存储有标准数据的标准数据元;
将所述标准数据元通过预先配置的表单进行展示。
优选地,基于所述单位转换系数和转换公式将所述初始数据和所述初始单位转换为标准数据和标准单位之前,还包括:
判断所述初始数据是否为数值型数据;
若所述初始数据不是数值型数据,则按照预设的转换规则将所述初始数据转换为数值型数据。
优选地,基于所述单位转换系数和转换公式将所述初始数据和所述初始单位转换为标准数据和标准单位之前,还包括:
判断所述初始单位是否与所述标准单位一致;
若所述初始单位与所述标准单位不一致,则执行基于所述单位转换系数和转换公式将所述初始数据和所述初始单位转换为标准数据和标准单位的步骤。
优选地,从所述待处理文本中提取实体对,并确定实体对的类别,包括:
调用自然语言处理引擎将所述待处理文本转化为标准文本;
对所述标准文本进行分词操作,得到分词结果集合,所述分词结果集合包括至少一条分词;
从所述分词结果集合中提取关键词,得到关键词集合,所述关键词集合中包含至少一条关键词;
对所述关键词集合中的关键词进行实体标注和实体关系标注;
将存在实体关系的实体结合起来,得到实体对集合;
基于所述实体关系,确定所述实体对集合中各实体对的类别。
优选地,所述调用自然语言处理引擎将所述待处理文本转化为标准文本,包括:
调用自然语言处理引擎对所述待处理文本进行数据清洗,得到清洗后的待处理文本;
对所述清洗后的待处理文本进行数据规范,得到标准文本。
优选地,所述获取与预先定义的数据元的名称所对应的类别的实体对之前,还包括:
根据实体对所属的类别将实体对按照所属类别对应的存储路径进行存储,不同类别的实体对的存储路径不同;
配置预先定义的数据元的取值路径,所述取值路径为获取预先定义的数据元的名称所对应的类别的实体对的路径;
所述获取与预先定义的数据元的名称所对应的类别的实体对,包括:
根据所述取值路径获取与预先定义的数据元的名称所对应的类别的实体对。
优选地,将所述标准数据元通过预先配置的表单进行展示之后,还包括:
响应用户编辑的操作,对所述标准数据元中的标准数据进行编辑,得到最终数据元;
将所述最终数据元通过所述预先配置的表单进行展示。
优选地,还包括:
将所述标准单位、所述单位转换系数、所述单位转换公式、所述预先配置的表单和所述预先定义的数据元进行打包,得到配置集合,所述配置集合用于在预设情况下被调用,所述预设情况为对文本数据单位进行处理时所需要的配置与所述配置集合中的配置相同。
一种文本数据单位处理装置,包括:
文本获取单元,用于获取待处理文本;
条件获取单元,用于获取预先定义的标准单位、单位转换系数和单位转换公式,所述单位转换系数为表达初始单位和标准单位之间的关系的数值,所述单位转换公式为所述初始单位转换为所述标准单位时的计算公式;
文本处理单元,用于从所述待处理文本中提取实体对,并确定实体对的类别,所述实体对为具有实体关系的两个实体进行结合得到;
数据元取值单元,用于获取与预先定义的数据元的名称所对应的类别的实体对,所述数据元为预先根据待处理文本内容所定义的数据字段;
实体对判断单元,用于判断所述实体对是否包含数据和计量单位;
若所述实体对包含数据和计量单位,则执行结果提取单元的步骤;
结果提取单元,用于提取所述实体对中的数据和计量单位,得到初始数据和初始单位;
单位转换单元,用于基于所述单位转换系数和转换公式将所述初始数据和所述初始单位转换为标准数据和标准单位,所述标准数据是以所述标准单位作为记录单位的所记录的数据;
标准数据存储单元,用于将标准数据存储到所述预先定义的数据元中,得到存储有标准数据的标准数据元;
数据元展示单元,用于将所述标准数据元通过预先配置的表单进行展示。
一种文本数据单位处理设备,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如前述文本数据单位处理方法的各个步骤。
从上述的技术方案可以看出,本申请实施例提供的文本数据单位处理方法,通过获取预先定义的标准单位、单位转换系数和单位转换公式,从待处理文本中提取实体对并确定实体对的类别,其中实体对是具有实体关系的两个实体结合得到的,获取与预先定义的数据元的名称所对应的类别的实体对,若实体对包含数据和计量单位,则提取实体对中的数据和计量单位,得到初始数据和初始单位,进一步基于单位转换系数和转换公式将初始数据和初始单位转换为标准数据和标准单位,并将标准数据存储到预先定义的数据元中,得到存储标准数据的标准数据元,最后将标准数据元通过预先配置的表单进行展示。因此,本申请在标准单位随场景发生变化时,只需要获取新定义的标准单位、单位转换系数和单位转换公式,就可以基于新定义的标准单位、单位转换系数和单位转换公式将初始数据和初始单位转换为标准数据和标准单位,不需要程序人员对程序进行更改,使得单位之间的转换更加灵活。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提高的一种文本数据单位处理方法流程图;
图2为本申请实施例提供的一种预先配置的表单的界面图;
图3为本申请实施例提供的一种数据元展示界面;
图4为本申请实施例提供的一种文本数据单位处理装置结构示意图;
图5为本申请实施例提供的一种文本数据单位处理设备的硬件结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
首先,结合图1对本申请提供的一种文本数据单位处理方法进行说明,如图1所示,该方法可以包括:
步骤S01,获取待处理文本。
具体地,待处理文本可以理解为需要转化为结构化数据的文本。其中,待处理文本可以是任意领域中的文本,比如:医学领域中的病历、化学领域中的实验记录、销售领域中的销售记录等。其中,待处理文本可以是中文文本、英文文本以及中英混合文本等。
步骤S02,获取预先定义的标准单位、单位转换系数和单位转换公式。
具体地,获取预先根据待处理文本内容定义的标准单位、单位转换系数和单位转换公式,单位转换系数为表达初始单位和标准单位之间的关系的数值,单位转换公式为初始单位转换为标准单位时的计算公式。示例如:将医学病历中个人史部分所记录的文本作为待处理文本,若个人史中的记录为“吸烟50年,平均0.5包/天,已戒烟0.5年余”,若预先规定吸烟量标准单位为“支/天”,单位转换系数为“20”,则将“包/天”转换为标准单位的单位转换公式可以为“数据*单位转换系数”。
步骤S03,从待处理文本中提取实体对,并确定实体对的类别。
具体地,待处理文本中会存在实体,而实体之间可能会存在关系,因此可以从待处理文本中提取实体对,实体对是具有实体关系的两个实体进行结合得到,并确定提取的实体对所属的类别。
步骤S04,获取与预先定义的数据元的名称所对应的类别的实体对。
具体地,可以将待处理文本中需要采集的数据字段定义为数据元,获取与预先定义的数据元的名称所对应的类别的实体对。
数据元定义一般可以包括:数据元名称、数据元编码、定义、提示、数据类型、表示形式、值域、值域代码、使用说明等。示例如:将医学病历中个人史部分所记录的文本作为待处理文本,若个人史中的记录为“吸烟50年,平均半包/天,已戒烟0.5年余”,根据个人史的内容对数据元“吸烟量”进行定义,对数据元“吸烟量”定义结果如下表1所示:
表1
步骤S05,判断实体对是否包含数据和计量单位。
具体地,判断获取的与预先定义的数据元的名称所对应的类别的实体对中是否包含数据和计量单位。
若实体对包含数据和计量单位,则执行下述步骤S06的操作。
步骤S06,提取实体对中的数据和计量单位,得到初始数据和初始单位。
具体地,若实体对中包含有数据和计量单位,就将实体对中的数据和计量单位提取出来,将从实体对中提取到的数据和计量单位作为处理前的初始数据和初始单位。
步骤S07,基于单位转换系数和单位转换公式将初始数据和初始单位转换为标准数据和标准单位。
具体地,将初始数据和初始单位按照获取的预先定义的单位转换系数和单位转换公式转换为标准数据和标准单位。其中标准数据是以预先定义的标准单位作为记录单位的所记录的数据。
步骤S08,将标准数据存储到预先定义的数据元中,得到存储有标准数据的标准数据元。
具体地,将从实体对中提取的初始数据转换为标准数据存储到数据元中,得到存储有标准数据的标准数据元。
步骤S09,将标准数据元通过预先配置的表单进行展示。
具体地,将已经定义好的数据元配置到表单中,然后可以为配置完成的表单进行命名,如图2所示:以医学领域文本中的个人史为例,个人史记录“吸烟50年,平均半包/天,已戒烟0.5年余”可以定义数据元为“吸烟史”、“烟龄”、“吸烟量”、“是否戒烟”和“戒烟时长”,将已经定义好的数据元配置到表单中,配置完成后,可以点击“提交”按键完成表单的配置,可以将配置完成的表单命名为“入院记录”。
数据元存储标准数据后,标准数据元中的标准数据可以通过配置完成的表单进行展示,如图3所示:已配置完成的命名为“入院记录”表单中展示了名称为“吸烟史”、“烟龄”、“吸烟量”、“是否戒烟”和“戒烟时长”的数据元,同时,表单对数据元“烟龄”中的标准数据“50”、数据元“吸烟量”中的标准数据“10”以及数据元“戒烟时长”中的标准数据“5”进行了展示。其中数据元“烟龄”和“戒烟时长”的标准单位为“年”,数据元“吸烟量”的标准单位为“支/天”。
本申请实施例提供的一种文本数据单位处理方法,通过获取预先定义的标准单位、单位转换系数和单位转换公式,从待处理文本中提取实体对并确定实体对的类别,其中实体对是具有实体关系的两个实体结合得到的,获取与预先定义的数据元的名称所对应的类别的实体对,若实体对包含数据和计量单位,则提取实体对中的数据和计量单位,得到初始数据和初始单位,进一步基于单位转换系数和转换公式将初始数据和初始单位转换为标准数据和标准单位,并将标准数据存储到预先定义的数据元中,得到存储标准数据的标准数据元,最后将标准数据元通过预先配置的表单进行展示。因此,本申请在标准单位随场景发生变化时,只需要获取新定义的标准单位、单位转换系数和单位转换公式,就可以基于新定义的标准单位、单位转换系数和单位转换公式将初始数据和初始单位转换为标准数据和标准单位,不需要程序人员对程序进行更改,使得单位之间的转换更加灵活。
本申请实施例考虑到某些实体对中可能不包含数据和计量单位,因此在步骤S05,判断实体对是否包含数据和计量单位之后,若实体对不包括数据和计量单位,可以执行下述步骤S10。
步骤S10,通过实体命名的方式提取实体对中包含的关键信息。
具体地,可以将地点、时间、日期和天气等内容设置为关键信息。可以提取实体对中标注为“地点”、“时间”、“日期”和“天气”等标签的实体中的内容作为实体对的关键信息。如:以医学领域文本中的个人史为例,若个人史中的记录为“出生于北京”,可以得到实体对“出生北京”。其中,实体对“出生北京”中不包含数据和计量单位,提取实体对中的关键信息可以是“北京”。
步骤S11,将关键信息存储到预先定义的数据元中,得到存储有关键信息的关键数据元。
具体地,将提取的地点、时间、日期和天气等关键信息存储到预先定义的数据元中,得到存储有关键信息的关键数据元。如:从实体对“出生北京”中可以提取关键信息为“北京”,则可以将“北京”存储到预先定义为“出生地”的数据元中,得到存储有关键信息“北京”的关键数据元。
步骤S12,将关键数据元通过预先配置的表单进行展示。
具体地,关键数据元中的关键信息可以通过配置完成的表单进行展示。如:表单对数据元“出生地”中的关键信息“北京”进行展示。
本申请实施例在实体对不包含数据和计量单位的情况下,通过提取实体对中时间、地点、日期和天气等关键信息,将关键信息存储到预先定义的数据元中,并将存储有关键信息的关键数据元通过预先配置的表单进行展示。将时间、地点、日期和天气等关键信息进行提取,可以更轻松的获取到待处理文本中的关键信息,更好的对待处理文本中的信息进行处理。
数据的记录方式多种多样,数据可能是以文本型进行记录,也可能是以数值型进行记录。为了更好的对待处理文本中的数据和计量单位进行处理,在进行步骤S07,基于单位转换系数和单位转换公式将初始数据和初始单位转换为标准数据和标准单位之前,可以执行下述步骤:
步骤S13,判断初始数据是否为数值型数据。
具体地,可以判断初始数据记录的类型是否是数值型。
若初始数据是数值型,则执行上述步骤S07,基于单位转换系数和单位转换公式将初始数据和初始单位转换为标准数据和标准单位的操作,若初始数据不是数值型数据,则执行下述步骤S14。
步骤S14,按照预设的转换规则将初始数据转换为数值型数据。
具体地,若初始数据记录的类型为文本型时,可以根据预设的转换规则将文本型的初始数据转换为数值型的初始数据。预设的转换规则可以是:将“半”转换为“0.5”,将“一”转换为“1”等规则。示例如:医学文本中的记录为“半包/天”,其中初始数据“半”的记录方式为文本类型,可以根据预设的转换规则将“半”转换为对应的“0.5”,则转换后的医学文本中的记录变为“0.5包/天”。
本申请实施例通过在将初始数据和初始单位转换为标准数据和标准单位之前对初始数据的类型进行判断,将初始数据的类型统一为数值型。可以更好的对文本中的进行统一处理。
本申请的一些实施例中,考虑到可能会出现待处理文本中记录数据用的初始单位与预先定义的标准单位一致的情况。可以在执行步骤S07,基于单位转换系数和转换公式将初始数据和初始单位转换为标准数据和标准单位之前,执行下述步骤S15。
步骤S15,判断初始单位是否与标准单位一致。
具体地,判断初始单位和预先定义的标准单位是否一致。若初始单位与预先定义的标准单位一致,则初始数据和标准数据相同,不需要进行转换的步骤,可以直接执行上述步骤S08,将标准数据存储到预先定义的数据元中的操作;若初始单位与标准单位不一致,则执行步骤S07,基于单位转换系数和转换公式将初始数据和初始单位转换为标准数据和标准单位的步骤。
本申请实施例通过在单位转换之前,对初始单位与标准单位是否一致进行判断,避免了初始单位和标准单位相同,不需要进行单位转换时,对初始单位进行转换的操作,提高了对文本数据单位进行处理的效率。
本申请的一些实施例介绍了步骤S03,从待处理文本中提取实体对,并确定实体对的类别的一些可选实施方式,具体地,该步骤可以包括:
步骤S031,调用自然语言处理引擎将待处理文本转化为标准文本。
具体地,因为待处理文本中所记录的内容可能并不是规范的,通过接口调用自然语言处理引擎将待处理文本转化为标准文本。
步骤S032,对标准文本进行分词操作,得到分词结果集合。
具体地,标准文本的文本类型与待处理文本一致,因此标准文本可以是中文文本、英文文本以及中英混合文本等。其中,中文分词指的是将一个汉字序列切分成一个个单独的词,分词就是将连续的字序列按照一定的规范重新组合成词序列的过程,例如:将“我爱蓝天白云”进行分词,可以得到分词结果为“我”、“爱”、“蓝天”、“白云”。由于英文文本中的句子是由标点符号、空格和词组成,因此,英文分词指的是根据空格和标点符号将英文文本分成单独的词,例如:将“Tomorrow is Monday”进行分词,可以得到分词结果为“Tomorrow”、“is”、“Monday”。因此,对标准文本进行分词处理后得到的分词结果集合中包括至少一条分词。
步骤S033,从分词结果集合中提取关键词,得到关键词集合。
具体地,由于分词集合中包括了标准文本的所有分词结果,因此,可以在分词集合中提取在处理过程中可以发挥作用的关键词,得到关键词集合。其中,关键词集合中包含至少一条关键词。
步骤S034,对关键词集合中的关键词进行实体标注和实体关系标注。
具体地,实体为现实世界中客观存在的并可以相互区分的对象或事物。就数据库而言,实体往往指某类事物的集合。实体标注对应的标签的数量和内容可以是根据需求预先设定的。以医学领域的医学文本为例,示例如:电子病历、医学诊断书等医学文本都含有大量的实体,可以将医学文本中出现的“感冒”、“鼻炎”等实体标注为标签“疾病”,将“头疼”、“腹泻”等实体标注为标签“症状”等。
实体关系为现实世界中事物内部或事物之间语义关系的抽象表示,体现一个实体与另一个实体之间的内在联系,可以将实体之间的关系进行标注。实体关系标注的标签的数量和内容可以是根据需求预先设定的。
步骤S035,将存在实体关系的实体结合起来,得到实体对集合。
具体地,将存在实体关系的两个实体结合起来得到一个实体对,将关键词集合中所有实体对进行打包,得到由各个实体对组成的实体对集合。示例如:习惯“吸烟”和时间“50年”存在实体关系“吸烟时长”,则将两个实体结合得到实体对“吸烟50年”。
步骤S036,基于实体关系,确定实体对集合中各实体对的类别。
具体地,实体关系表达了两个实体的关系,以实体对之间的实体关系作为实体对的类别。示例如实体对“吸烟50年”的实体关系为“吸烟史”,则将“吸烟时长”作为实体对“吸烟50年”的类别。
本申请实施例将待处理文本转化为标准文本,将标准文本进行分词、关键词提取、实体标注和实体关系标注,获得实体对集合。将实体关系作为实体对的类别。将待处理文本中的内容分为不同类别的实体对,使待处理文本中的内容更清楚。
本申请的一些实施例中介绍了步骤S031,调用自然语言处理引擎将待处理文本转化为标准文本,具体地,该步骤包括:
步骤S0311,调用自然语言处理引擎对待处理文本进行数据清洗,得到清洗后的待处理文本。
具体地,待处理文本在记录时,可能会存在一些特殊格式符(&;lt;/br>;\X000d\)和没有实际意义的词,如:“了”、“的”等,还可能会出现重复的内容。可以通过接口调用自然语言处理引擎,将待处理文本中的特殊符号、没有实际意义的词和重复内容进行清洗,得到清洗后的待处理文本。
步骤S0312,对清洗后的待处理文本进行数据规范,得到标准文本。
具体地,清洗后的待处理文本只是将特殊符号、没有实际意义的词和重复的内容进行了清洗,由于同一事物可能会存在简称或别称,因此,清洗后留下来的文本中记录的内容中对于同一内容的记录的方式可能会有不同,可以将文本中记录的内容统一为标准名称进行记录。示例如:医学领域对于“左心房”可能会简称为“左房”,当文本中记录为“左房”时,将“左房”规范为“左心房”。
本申请实施例将待处理文本中的内容进行清洗,例如,将文本中没有实际意义的词进行清洗,得到清洗后的文本,将清洗后的文本中记录的内容进行规范,可以将待处理文本转化为标准文本,提高了后续分词、关键词提取、实体标注和实体关系标注的准确性。
考虑到,由于实体对的数量和类别可能会很多,当获取某一类别的实体对时,会需要较长的时间。本申请实施例提供了一种可选的解决方式,方法如下:在步骤S04,获取与预先定义的数据元的名称所对应的类别的实体对之前,执行下述步骤:
步骤S16,根据实体对所属的类别将实体对按照所属类别对应的存储路径进行存储,不同类别的实体对的存储路径不同。
具体地,可以根据待处理文本的内容,预先根据实体对所属的类别设置实体的存储路径,不同类别的实体对的存储路径不同。
可以根据不同待处理文本内容设置不同的模板,模板中存储有待处理文本中的实体对类别的存储路径。根据待处理文本内容对模板进行命名,示例如:将医学病历中个人史部分所记录的文本作为待处理文本,若个人史中的记录为“吸烟50年,平均0.5包/天,已戒烟0.5年余”,得到实体对类别“吸烟时长”、“吸烟量”和“戒烟时长”,则可以将三个实体对类别对应的存储路径保存到命名为“个人史”的模板中。
步骤S17,配置预先定义的数据元的取值路径。
具体地,根据预先定义的数据元的名称为数据元配置数据元的取值路径,取值路径为获取预先定义的数据元的名称所对应的类别的实体对的路径。示例如:“个人史”模板中存有实体对类别“吸烟时长”、“吸烟量”和“戒烟时长”三种实体对类别的存储路径,数据元“吸烟量”的取值路径可以设置为“个人史_吸烟量”。
在此基础上,步骤S04,获取与预先定义的数据元的名称所对应的类别的实体对的过程可以为:
步骤S041,根据取值路径获取与预先定义的数据元的名称所对应的类别的实体对。
具体地,数据元可以根据配置的取值路径获取与预先定义的数据元的名称所对应的类别的实体对。示例如:数据元名称为“吸烟量”,则与数据元名称对应的实体对类别为“吸烟量”,为数据元“吸烟量”配置取值路径为“个人史_吸烟量”,则数据元“吸烟量”可以根据预先配置的取值路径获取实体类别为“吸烟量”所对应的存储路径中存储的实体对。
本申请实施例通过将实体对按照实体对所属类别进行储存,为预先定义的数据元配置获取与数据元的名称所对应的类别的实体对的取值路径。数据元可以根据取值路径直接获取与数据元名称对应的实体对,缩短了数据元获取与数据元名称对应的实体对所需要的时间。
在本申请的一些实施例中,考虑到从待处理文本中获取的处理结果可能不够准确。因此,标准数据元存储的标准数据可能会出现错误。在步骤S09,将标准数据元通过预先配置的表单进行展示之后,还可以包括:
步骤S18,响应用户编辑的操作,对标准数据元中的标准数据进行编辑,得到最终数据元。
具体地,当用户发现展示的标准数据有错误时,用户可以对标准数据元中的标准数据进行修改、删除等操作。可以响应用户对标准数据元进行编辑的操作,对标准数据元中的标准数据进行修改、删除等操作,将修改后的数据作为最终数据存储到最终数据元中。如图3所示,每个数据元后面都有一个“编辑”按键,可以通过点击“编辑”按键,然后对点击的“编辑”按键所对应的标准数据元中的标准数据进行编辑。
步骤S19,将最终数据元通过预先配置的表单进行展示。
具体地,将存储有用户编辑后的数据的最终数据元通过预先配置的表单进行展示。
本申请实施例中当标准数据元中的标准数据出现错误时,可以通过响应用户对标准数据元的标准数据进行编辑的操作,得到存储有用户编辑后的最终数据的最终数据元,可以保证预先配置的表单中展示的数据的准确性。
本申请的一些实施例中,考虑到对不同的待处理文本进行相同的处理时需要进行相同的配置,为了减少文本处理过程中进行相同配置的次数,提高文本处理效率,可以执行下述步骤S20。
步骤S20,将标准单位、单位转换系数、单位转换公式、预先配置的表单和预先定义的数据元进行打包,得到配置集合。
具体地,可以将对文本进行处理时预先配置的标准单位、单位转换系数、单位转换公式、预先配置的表单和预先定义的数据元等进行打包,得到配置集合。配置集合用于在预设情况下被调用,预设情况为对文本数据单位进行处理时所需要的配置与所述配置集合中的配置相同。
本申请实施例通过将预先配置的标准单位、单位转换系数、单位转换公式、预先配置的表单和预先定义的数据元进行打包,得到的配置集合,当对文本数单位进行处理时所需要的配置与配置集合中存储的配置相同时,可以调用配置集合,不需要再进行配置,而且配置集合可以多次被调用。大大提高了文本数据单位处理的效率。
下面对本申请实施例提供的文本数据单位处理装置进行描述,下文描述的文本数据单位处理装置与上文描述的文本数据单位处理方法可相互参照。
首先结合图4,对文本数据单位处理装置进行介绍,如图4所示,该文本数据单位处理装置可以包括:
文本获取单元100,用于获取待处理文本;
条件获取单元200,用于获取预先定义的标准单位、单位转换系数和单位转换公式,所述单位转换系数为表达初始单位和标准单位之间的关系的数值,所述单位转换公式为所述初始单位转换为所述标准单位时的计算公式;
文本处理单元300,用于从所述待处理文本中提取实体对,并确定实体对的类别,所述实体对为具有实体关系的两个实体进行结合得到;
数据元取值单元400,用于获取与预先定义的数据元的名称所对应的类别的实体对,所述数据元为预先根据待处理文本内容所定义的数据字段;
实体对判断单元500,用于判断所述实体对是否包含数据和计量单位;
若所述实体对包含数据和计量单位,则执行结果提取单元的步骤;
结果提取单元600,用于提取所述实体对中的数据和计量单位,得到初始数据和初始单位;
单位转换单元700,用于基于所述单位转换系数和单位转换公式将所述初始数据和所述初始单位转换为标准数据和标准单位,所述标准数据是以所述标准单位作为记录单位的所记录的数据;
标准数据存储单元800,用于将标准数据存储到所述预先定义的数据元中,得到存储有标准数据的标准数据元;
数据元展示单元900,用于将所述标准数据元通过预先配置的表单进行展示。
可选的,本申请的文本数据单位处理装置,还可以包括:
关键信息提取单元,用于在实体对判断单元500判断出所述实体对不包含数据和计量单位之后,通过实体命名的方式提取所述实体对中包含的关键信息;
关键信息存储单元,用于将所述关键信息存储到所述预先定义的数据元中,得到存储有所述关键信息的关键数据元;
关键数据元展示单元,用于将所述关键数据元通过所述预先配置的表单进行展示。
可选的,本申请的文本数据单位处理装置,还可以包括:
初始数据判断单元,用于在单位转换单元700基于所述单位转换系数和单位转换公式将所述初始数据和所述初始单位转换为标准数据和标准单位之前,判断所述初始数据是否为数值型数据;
若所述初始数据不是数值型数据,则执行下述数据类型转换单元的步骤;
数据类型转换单元,用于按照预设的转换规则将所述初始数据转换为数值型数据。
可选的,本申请的文本数据单位处理装置,还可以包括:
初始单位判断单元,用于在单位转换单元700基于所述单位转换系数和单位转换公式将所述初始数据和所述初始单位转换为标准数据和标准单位之前,判断所述初始单位是否与所述标准单位一致;
若所述初始单位与所述标准单位不一致,则执行单位转换单元700的步骤。
可选的,文本处理单元300可以包括:
文本标准化单元,用于调用自然语言处理引擎将所述待处理文本转化为标准文本;
分词单元,用于对所述标准文本进行分词操作,得到分词结果集合,所述分词结果集合包括至少一条分词;
关键词提取单元,用于从所述分词结果集合中提取关键词,得到关键词集合,所述关键词集合中包含至少一条关键词;
标注单元,用于对所述关键词集合中的关键词进行实体标注和实体关系标注;
实体对获取单元,将存在实体关系的实体结合起来,得到实体对集合;
类别确定单元,用于基于所述实体关系,确定所述实体对集合中各实体对的类别。
可选的,文本标准化单元,可以包括:
文本清洗单元,用于调用自然语言处理引擎对所述待处理文本进行数据清洗,得到清洗后的待处理文本;
文本规范单元,用于对所述清洗后的待处理文本进行数据规范,得到标准文本。
可选的,本申请的文本数据单位处理装置,还可以包括:
实体对存储单元,用于在数据元取值单元400获取与预先定义的数据元的名称所对应的类别的实体对之前,根据实体对所属的类别将实体对按照所属类别对应的存储路径进行存储,不同类别的实体对的存储路径不同;
取值路径配置单元,用于配置预先定义的数据元的取值路径,所述取值路径为获取预先定义的数据元的名称所对应的类别的实体对的路径;
可选的,所述数据元取值单元,可以包括:
第一取值单元,用于根据所述取值路径获取与预先定义的数据元的名称所对应的类别的实体对。
可选的,本申请的文本数据单位处理装置,还可以包括:
数据元编辑单元,用于在数据元展示单元900将所述标准数据元通过预先配置的表单进行展示之后,对所述标准数据元中的标准数据进行编辑,得到最终数据元;
最终数据元展示单元,用于将所述最终数据元通过所述预先配置的表单进行展示。
可选的,本申请的文本数据单位处理装置,还可以包括:
配置存储单元,用于将所述标准单位、所述单位转换系数、所述单位转换公式、所述预先配置的表单和所述预先定义的数据元进行打包,得到配置集合,所述配置集合用于在预设情况下被调用,所述预设情况为对文本数据单位进行处理时所需要的配置与所述配置集合中的配置相同。
本申请实施例提供的文本数据单位处理装置可应用于文本数据单位处理设备。图5示出了文本数据单位处理设备的硬件结构框图,参照图5,设备的硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;
在本申请实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;
处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于实现前述文本数据单位处理方案中的各个处理流程。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种文本数据单位处理方法,其特征在于,包括:
获取待处理文本;
获取预先定义的标准单位、单位转换系数和单位转换公式,所述单位转换系数为表达初始单位和标准单位之间的关系的数值,所述单位转换公式为所述初始单位转换为所述标准单位时的计算公式;
从所述待处理文本中提取实体对,并确定实体对的类别,所述实体对为具有实体关系的两个实体进行结合得到;
获取与预先定义的数据元的名称所对应的类别的实体对,所述数据元为预先根据待处理文本内容所定义的数据字段;
判断所述实体对是否包含数据和计量单位;
若所述实体对包含数据和计量单位,则提取所述实体对中的数据和计量单位,得到初始数据和初始单位;
基于所述单位转换系数和单位转换公式将所述初始数据和所述初始单位转换为标准数据和标准单位,所述标准数据是以所述标准单位作为记录单位的所记录的数据;
将标准数据存储到所述预先定义的数据元中,得到存储有标准数据的标准数据元;
将所述标准数据元通过预先配置的表单进行展示。
2.根据权利要求1所述的方法,其特征在于,基于所述单位转换系数和单位转换公式将所述初始数据和所述初始单位转换为标准数据和标准单位之前,还包括:
判断所述初始数据是否为数值型数据;
若所述初始数据不是数值型数据,则按照预设的转换规则将所述初始数据转换为数值型数据。
3.根据权利要求1所述的方法,其特征在于,基于所述单位转换系数和单位转换公式将所述初始数据和所述初始单位转换为标准数据和标准单位之前,还包括:
判断所述初始单位是否与所述标准单位一致;
若所述初始单位与所述标准单位不一致,则执行基于所述单位转换系数
和单位转换公式将所述初始数据和所述初始单位转换为标准数据和标准单位的步骤。
4.根据权利要求1所述的方法,其特征在于,从所述待处理文本中提取实体对,并确定实体对的类别,包括:
调用自然语言处理引擎将所述待处理文本转化为标准文本;
对所述标准文本进行分词操作,得到分词结果集合,所述分词结果集合包括至少一条分词;
从所述分词结果集合中提取关键词,得到关键词集合,所述关键词集合中包含至少一条关键词;
对所述关键词集合中的关键词进行实体标注和实体关系标注;
将存在实体关系的实体结合起来,得到实体对集合;
基于所述实体关系,确定所述实体对集合中各实体对的类别。
5.根据权利要求4所述的方法,其特征在于,所述调用自然语言处理引擎将所述待处理文本转化为标准文本,包括:
调用自然语言处理引擎对所述待处理文本进行数据清洗,得到清洗后的待处理文本;
对所述清洗后的待处理文本进行数据规范,得到标准文本。
6.根据权利要求1所述的方法,其特征在于,所述获取与预先定义的数据元的名称所对应的类别的实体对之前,还包括:
根据实体对所属的类别将实体对按照所属类别对应的存储路径进行存储,不同类别的实体对的存储路径不同;
配置预先定义的数据元的取值路径,所述取值路径为获取预先定义的数据元的名称所对应的类别的实体对的路径;
所述获取与预先定义的数据元的名称所对应的类别的实体对,包括:
根据所述取值路径获取与预先定义的数据元的名称所对应的类别的实体对。
7.根据权利要求1所述的方法,其特征在于,将所述标准数据元通过预先配置的表单进行展示之后,还包括:
响应用户编辑的操作,对所述标准数据元中的标准数据进行编辑,得到最终数据元;
将所述最终数据元通过所述预先配置的表单进行展示。
8.根据权利要求1-7任一项所述的方法,其特征在于,还包括:
将所述标准单位、所述单位转换系数、所述单位转换公式、所述预先配置的表单和所述预先定义的数据元进行打包,得到配置集合,所述配置集合用于在预设情况下被调用,所述预设情况为对文本数据单位进行处理时所需要的配置与所述配置集合中的配置相同。
9.一种文本数据单位处理装置,其特征在于,包括:
文本获取单元,用于获取待处理文本;
条件获取单元,用于获取预先定义的标准单位、单位转换系数和单位转换公式,所述单位转换系数为表达初始单位和标准单位之间的关系的数值,所述单位转换公式为所述初始单位转换为所述标准单位时的计算公式;
文本处理单元,用于从所述待处理文本中提取实体对,并确定实体对的类别,所述实体对为具有实体关系的两个实体进行结合得到;
数据元取值单元,用于获取与预先定义的数据元的名称所对应的类别的实体对,所述数据元为预先根据待处理文本内容所定义的数据字段;
实体对判断单元,用于判断所述实体对是否包含数据和计量单位;
若所述实体对包含数据和计量单位,则执行结果提取单元的步骤;
结果提取单元,用于提取所述实体对中的数据和计量单位,得到初始数据和初始单位;
单位转换单元,用于基于所述单位转换系数和单位转换公式将所述初始数据和所述初始单位转换为标准数据和标准单位,所述标准数据是以所述标准单位作为记录单位的所记录的数据;
标准数据存储单元,用于将标准数据存储到所述预先定义的数据元中,得到存储有标准数据的标准数据元;
数据元展示单元,用于将所述标准数据元通过预先配置的表单进行展示。
10.一种文本数据单位处理设备,其特征在于,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1-8任一项的文本数据单位处理方法的各个步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211536443.3A CN115994218A (zh) | 2022-12-02 | 2022-12-02 | 一种文本数据单位处理方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211536443.3A CN115994218A (zh) | 2022-12-02 | 2022-12-02 | 一种文本数据单位处理方法、装置及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115994218A true CN115994218A (zh) | 2023-04-21 |
Family
ID=85991390
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211536443.3A Pending CN115994218A (zh) | 2022-12-02 | 2022-12-02 | 一种文本数据单位处理方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115994218A (zh) |
-
2022
- 2022-12-02 CN CN202211536443.3A patent/CN115994218A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108108426B (zh) | 自然语言提问的理解方法、装置及电子设备 | |
Chan et al. | Reproducible extraction of cross-lingual topics (rectr) | |
CN110413787A (zh) | 文本聚类方法、装置、终端和存储介质 | |
KR20170133692A (ko) | 의료 기록 문서에서의 의료 단어의 연관 규칙 생성 방법 및 그 장치 | |
JP2020113129A (ja) | 文書評価装置、文書評価方法及びプログラム | |
CN108470026A (zh) | 新闻标题的句子主干内容提取方法及装置 | |
CN108363700A (zh) | 新闻标题的质量评估方法及装置 | |
CN111091883B (zh) | 一种医疗文本处理方法、装置、存储介质及设备 | |
CN114238639A (zh) | 一种医学术语标准化框架的构建方法、装置、电子设备 | |
CN113343680B (zh) | 一种基于多类型病历文本的结构化信息提取方法 | |
CN112699669B (zh) | 流行病学调查报告的自然语言处理方法、装置及存储介质 | |
CN109065015A (zh) | 一种数据采集方法、装置、设备及可读存储介质 | |
CN112800758A (zh) | 一种文本中近义词判别方法、系统、设备和介质 | |
WO2024109097A1 (zh) | 专利文本的知识图谱创建方法、装置、存储介质及设备 | |
CN115994218A (zh) | 一种文本数据单位处理方法、装置及设备 | |
JP5679400B2 (ja) | カテゴリ主題語句抽出装置及び階層的タグ付与装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
US11782942B2 (en) | Auto-generating ground truth on clinical text by leveraging structured electronic health record data | |
JP5441173B2 (ja) | 関係情報抽出装置、その方法及びプログラム | |
CN112712868A (zh) | 医学数据的分析方法、装置及存储介质 | |
Bettouche et al. | Mapping researcher activity based on publication data by means of transformers | |
CN112766903B (zh) | 识别不良事件的方法、装置、设备及介质 | |
JP2011257791A (ja) | 関係情報抽出装置、その方法及びプログラム | |
CN114154502B (zh) | 医学文本的分词方法、装置、计算机设备和存储介质 | |
JP5512817B2 (ja) | 情報処理装置、情報処理方法、プログラム、および媒体 | |
CN112949310B (zh) | 一种模型训练方法、中医药名识别方法、装置及网络模型 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |