CN112417057A - 结构化数据的生成方法、装置、可读介质和电子设备 - Google Patents
结构化数据的生成方法、装置、可读介质和电子设备 Download PDFInfo
- Publication number
- CN112417057A CN112417057A CN201910770429.1A CN201910770429A CN112417057A CN 112417057 A CN112417057 A CN 112417057A CN 201910770429 A CN201910770429 A CN 201910770429A CN 112417057 A CN112417057 A CN 112417057A
- Authority
- CN
- China
- Prior art keywords
- entity data
- data
- generating
- entity
- natural language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 230000004044 response Effects 0.000 claims abstract description 12
- 230000000694 effects Effects 0.000 abstract description 7
- 230000001575 pathological effect Effects 0.000 description 35
- 230000003902 lesion Effects 0.000 description 33
- 230000002123 temporal effect Effects 0.000 description 19
- 230000008569 process Effects 0.000 description 5
- 238000003672 processing method Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种结构化数据的生成方法、装置、可读介质和电子设备。所述方法包括:从自然语言文本中获取第一实体数据和第二实体数据;判断所述第一实体数据和所述第二实体数据是否满足预设的至少两个逻辑关系和所述至少两个逻辑关系的触发方式;响应于所述第一实体数据和所述第二实体数据满足所述至少两个逻辑关系和所述触发方式,生成所述自然语言文本对应的结构化数据。通过本发明的上述生成方法能够有效地保证结构化效果,提高了将自然语言文本生成结构化数据时的准确率。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种结构化数据的生成方法、装置、可读介质和电子设备。
背景技术
医学自然语言文本在临床研究、科学探索中无法被直接使用,需要被医学工作者转换为结构化数据之后,才能够用于进行临床研究、科学探索。
随着社会的发展,人工智能技术逐渐地走进了我们的生活和工作中,人工智能技术在一定程度上能够帮助医生和科研工作者完成上述科研工作。
但是由于每一家医院都有各自的规定,每一个医生都有自己的书写习惯,这就导致不同的医院的病例会有自己的规律,无法进行统一。实际上也很难让所有的医生都按照相同的规定、格式来书写病历,从而达到比较统一的规律,因此目前病例的结构化效果较差。
发明内容
本发明提供了一种结构化数据的生成方法、装置和可读介质、电子设备,基于两个实体之间存在的至少两个逻辑关系和所述至少两个逻辑关系的触发方式,保证了自然语言文本的结构化效果。
第一方面,本发明提供了一种结构化数据的生成方法,所述生成方法所述方法包括:
从自然语言文本中获取第一实体数据和第二实体数据;
判断所述第一实体数据和所述第二实体数据是否满足预设的至少两个逻辑关系和所述至少两个逻辑关系的触发方式;
响应于所述第一实体数据和所述第二实体数据满足所述至少两个逻辑关系和所述触发方式,生成所述自然语言文本对应的结构化数据。
优选地,在获取所述第一实体数据和所述第二实体数据之前,所述生成方法所述方法还包括:
获取多个所述自然语言文本的样例;
获取各所述样例中的第三实体数据和第四实体数据;
基于各所述样例中的第三实体数据和第四实体数据,建立所述至少两个逻辑关系。
优选地,所述基于各所述样例中的第三实体数据和第四实体数据,建立所述至少两个逻辑关系,包括:
基于各所述样例中,所述第三实体数据和所述第四实体数据的排序关系,建立所述逻辑关系;和/或,
基于各所述样例中,所述第三实体数据和所述第四实体数据的分布关系,建立所述逻辑关系,所述分布关系用于确定所述第三实体数据和所述第四实体数据是否分布在同一语句中。
优选地,在建立了至少两个逻辑关系之后,在获取所述第一实体数据和所述第二实体数据之前,所述生成方法所述方法还包括:
确定所述至少两个逻辑关系的触发方式。
优选地,所述触发方式包括:
第一触发方式,其设置成使所述至少两个逻辑关系都被满足;和/或,
第二触发方式,其设置成使所述至少两个逻辑关系中按照优先级最高低的顺序一个被逐个匹配,直至所述至少两个逻辑关系中有一个被满足。
优选地,所述响应于所述第一实体数据和所述第二实体数据满足所述至少两个逻辑关系和所述触发方式,生成所述自然语言文本对应的结构化数据,包括:
响应于所述第一触发方式,生成所述自然语言文本对应的结构化数据。
优选地,所述响应于所述第一实体数据和所述第二实体数据满足所述至少两个逻辑关系和所述触发方式,生成所述自然语言文本对应的结构化数据,包括:
响应于所述第二触发方式,生成所述自然语言文本对应的结构化数据。
第二方面,本发明提供了一种结构化数据的生成装置,所述生成装置包括:
信息获取模块,其用于从自然语言文本中获取第一实体数据和第二实体数据;
信息匹配模块,其用于判断所述第一实体数据和所述第二实体数据是否满足预设的至少两个逻辑关系和所述至少两个逻辑关系的触发方式;
结构化数据生成模块,其用于响应于所述第一实体数据和所述第二实体数据满足所述至少两个逻辑关系和所述触发方式,生成所述自然语言文本对应的结构化数据。
第三方面,本发明提供了一种可读介质,所述可读介质包括执行指令,所述执行指令设置成被电子设备的处理器执行时使所述电子设备执行第一方面中任一项所述的结构化数据的生成方法。
第四方面,本发明提供了一种电子设备,所述电子设备包括处理器、存储器和存储在所述存储器上的执行指令使所述执行指令设置成被所述处理器执行时使所述电子设备能够执行第一方面中任一项所述的结构化数据的生成方法。
本领域技术人员能够理解的是,在本发明的优选技术方案中,通过第一实体与第二实体之间的至少两个逻辑关系和所述至少两个逻辑关系的触发方式,生成自然语言文本对应的结构化数据,能够有效地保证结构化效果,提高了将自然语言文本生成结构化数据时的准确率。
上述非惯用的优选技术方案的进一步技术效果将在下文中结合具体实施方式加以说明。
附图说明
为了更清楚地说明本发明实施例或现有的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明第一实施例提供的结构化数据的生成方法的流程示意图;
图2是本发明第二实施例提供的结构化数据的生成方法的流程示意图;
图3是本发明第三实施例提供的结构化数据的生成装置的结构示意图;
图4是本发明第四实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合具体实施例及相应的附图对本发明的技术方案进行清楚、完整地描述。本领域技术人员应当理解的是,本节实施方式中所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本节实施方式中所描述的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其它实施例,都不会偏离本发明的技术原理,因此都应当落入到本发明的保护范围内。
需要说明的是,在本发明的描述中,各个功能模块既可以是由多个结构、构件或电子元器件构成的物理模块,也可以是由多条程序构成的虚拟模块;各个功能模块既可以是彼此独立存在的模块,也可以是由一个整体模块按照功能划分而成的模块。本领域技术人员应当理解的是,在能够实现本发明所描述的技术方案的前提下,各个功能模块的构成方式、实现方式、位置关系无论怎样变化都不会偏离本发明的技术原理,因此都应当落入本发明的保护范围之内。
此外,还需要说明的是,在本发明的描述中,除非另有明确的规定和限定,术语“相连”、“连接”应做广义理解,例如,可以是有线连接,也可以是无线连接,还可以是通信连接(包括有线连接和无线连接)。对于本领域技术人员而言,可根据具体情况理解上述术语在本发明中的具体含义。
进一步,还需要说明的是,术语“包括”、“包含”以及其任何形式的变体术语表示的都是涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括该过程、方法、商品或者设备所固有的要素。在没有其它限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
下面参照附图来对本发明的一些可选实施例进行详细说明。
在本发明的第一实施例中:
如图1所示,本发明第一实施例提供的结构化数据的生成方法主要包括:
步骤S101,从自然语言文本中获取第一实体数据和第二实体数据。
其中,该自然语言文本可以采用文字的形式、语音的形式以及其它任意可行的形式。该第一实体数据可以是姓名、专有名词、时间、地点等其它任意可行的信息,并且该第一实体数据可以包括一个或多个所述信息,例如包括一个、两个或三个时间。同样地,该第二实体数据可以是姓名、专有名词、时间、地点等其它任意可行的信息,并且该第二实体数据可以包括一个或多个所述信息,例如包括一个、两个或三个专有名词。
步骤S102,判断所述第一实体数据和所述第二实体数据是否满足预设的至少两个逻辑关系和所述至少两个逻辑关系的触发方式。
其中,每一个逻辑关系都是预先设定好的,所述至少两个逻辑关系的触发方式也是预先设定好的。下文将结合具体示例对逻辑关系的设定和触发方式的设定进行详细说明。
步骤S103,响应于所述第一实体数据和所述第二实体数据满足所述至少两个逻辑关系和所述触发方式,生成所述自然语言文本对应的结构化数据。
基于本实施例的上述内容,本领域技术人员能够理解的是,本发明第一实施例提供的结构化数据的生成方法通过从自然语言文本中获取第一实体数据和第二实体数据,然后判断所述第一实体数据和所述第二实体数据是否满足预设的至少两个逻辑关系和所述至少两个逻辑关系的触发方式,并响应于所述第一实体数据和所述第二实体数据满足所述至少两个逻辑关系和所述触发方式,生成所述自然语言文本对应的结构化数据,不仅有效地保证了自然语言文本的结构化效果,而且还提高了将自然语言文本中的第一实体数据和第二实体数据生成结构化数据时的准确率。如果仅通过一个逻辑关系,则很有可能会导致自然语言文本的结构化数据不准确,例如第一实体数据中包含两个时间,第二实体数据中包含一个专有名词,如果只通过一个逻辑关系,将无法准确识别出所述专有名词对应的是哪一个时间。
需要说明的是,本发明的第一实施例仅为本发明处理方法的一个基础实施例,在其基础上还可以得到其它可选的实施例,例如下面的第二实施例。
在本发明的第二实施例中:
如图2所示,本发明第二实施例提供的结构化数据的生成方法主要包括:
步骤S201,获取多个自然语言文本的样例。
具体地,从需要结构化的自然语言文本中选取多个样例。
作为示例,从临床数据中获取多个病例文本。
步骤S202,获取各所述样例中的第三实体数据和第四实体数据。
继续上述示例,从上述的各病例文本中获取对应于第三实体数据的“病理术语”和对应于第四实体数据的“时间术语”,该“病理术语”包括“残留病变”以及与“残留病变”等同或相近的词语,该“时间术语”包括“年”、“月”、“时间格式”等。
步骤S203,基于各所述样例中的第三实体数据和第四实体数据,建立所述至少两个逻辑关系。
具体地,分别找出上述每一个样例中第三实体数据和第四实体数据之间存在的所有规律,然后根据该规律建立一个逻辑关系。本领域技术人员能够理解的是,如果两个及以上的样例彼此之间具有相同的规律,则该两个及以上的样例中的第三实体数据和第四实体数据存在相同的逻辑关系。本领域技术人员还能够理解的是,该逻辑关系即为第一实体数据与第二实体数据之间的逻辑关系,换句话说,第一实体数据与第三实体数据相对应,第二实体数据与第四实体数据相对应,再换句话说,第一实体数据与第三实体数据为相同类别的数据,例如疾病类型;第二实体数据与第四实体数据为相同类别的数据,例如时间。
更具体地,可以通过如下两种方式中的至少一种来建立所述逻辑关系。第一种,基于各所述样例中,所述第三实体数据和所述第四实体数据的排序关系,建立所述逻辑关系;其中,所述“排序关系”即为第三实体数据和第四实体数据之间存在的规律。第二种,基于各所述样例中,所述第三实体数据和所述第四实体数据的分布关系,建立所述逻辑关系,所述“分布关系”用于确定所述第三实体数据和所述第四实体数据是否分布在同一语句中;其中,所述“是否分布在同一语句中”即为第三实体数据和第四实体数据之间存在的规律。本领域技术人员能够理解的是,所述语句可以是一个整句,也可以是一个分句。由于判定文本中的整句和分句是本领域技术人员所熟知的技术手段,所以此处不再做过多说明。
继续上述示例,病理术语与时间术语可能存在于同一个分句中,也可能存在于同一个整句中;病例术语可能在时间术语的前面,也可能在时间术语的后面。则第一实体与第二实体之间存在的逻辑关系可以是“病理术语与时间术语存在于同一个分句中”、“病理术语与时间术语存在于同一个整句中”、“病理术语与时间术语存在于同一个分句中,并且病例术语在时间术语的后面”、“病理术语与时间术语存在于同一个整句中,并且病例术语在时间术语的后面”等。为了方便说明,在本发明针对于病例文本的示例中,所述至少两逻辑关系仅包括“病理术语与时间术语存在于同一个分句中”和“病理术语与时间术语存在于同一个整句中,并且病例术语在时间术语的后面”。
步骤S204,确定所述至少两个逻辑关系的触发方式。
其中,所述逻辑关系包括第一触发方式或第二触发方式。所述第一触发方式是使所述至少两个逻辑关系都被满足,所述第二触发方式是使所述至少两个逻辑关系中按照优先级最高低的顺序一个被逐个匹配,直至所述至少两个逻辑关系中有一个被满足。本领域技术人员能够理解的是,该优先级是本领域技术人员根据实际需要设定的,在这里指的是病理术语与时间术语之间在文本中的关联程度。对于第二触发方式,可以将至少两个逻辑关系按照优先级的高低依次排列,在优先级较高的一个逻辑关系被满足时,就不用再匹配后面的逻辑关系了,以便提高计算机的运行速率。
继续上述示例,当触发方式为第一触发方式时,在“病理术语与时间术语存在于同一个分句中”和“病理术语与时间术语存在于同一个整句中,并且病例术语在时间术语的后面”都被满足时才会生成各病例文本对应的数据化结构;当触发方式为第二触发方式时,仅在“病理术语与时间术语存在于同一个分句中”被满足时就可以生成各病例文本对应的数据化结构。
步骤S205,从待结构化的自然语言文本中获取第一实体数据和第二实体数据。
其中,该待结构化的自然语言文本可以采用文字的形式、语音的形式以及其它任意可行的形式。该第一实体数据可以是姓名、专有名词、时间、地点等其它任意可行的信息,并且该第一实体数据可以包括一个或多个所述信息,例如包括一个、两个或三个时间。同样地,该第二实体数据可以是姓名、专有名词、时间、地点等其它任意可行的信息,并且该第二实体数据可以是包括一个或多个所述信息,例如包括一个、两个或三个专有名词。
继续上述示例,提供两个待结构化的病例文本,具体如下:
病例文本1:2017.01.01在我院治疗,复查流式残留病变示:异常细胞占比8.02%。
病例文本2:2017.10.02第3次住院,期间白血病残留病变(2016.06.01)示:异常细胞群占有核细胞的4.96%。
如果想使上述两个病例文本中的“残留病变”和“残留病变时间”生成结构化数据,则需要从上述病例文本1中获取对应于第一实体数据的“残留病变”和对应于第二实体数据的“2017.01.01”,从上述病例文本2中获取对应于第一实体数据的“残留病变”和对应于第二实体数据的“2016.06.01”、“2017.10.02”。
步骤S206,判断所述第一实体数据和所述第二实体数据是否满足预设的至少两个逻辑关系和所述至少两个逻辑关系的触发方式。
继续上述示例,当触发方式为第一触发方式时,针对于病例文本1,判断“残留病变”(第一实体数据)和“2017.01.01”(第二实体数据)是否同时满足“病理术语与时间术语存在于同一个分句中”和“病理术语与时间术语存在于同一个整句中,并且病例术语在时间术语的后面”;针对于病例文本2,“残留病变”(第一实体数据)和“2016.06.01”(第二实体数据)是否同时满足“病理术语与时间术语存在于同一个分句中”和“病理术语与时间术语存在于同一个整句中,并且病例术语在时间术语的后面”,“残留病变”(第一实体数据)和“2017.10.02”(第二实体数据)是否同时满足“病理术语与时间术语存在于同一个分句中”和“病理术语与时间术语存在于同一个整句中,并且病例术语在时间术语的后面”。
当触发方式为第二触发方式时,针对于病例文本1,判断“残留病变”(第一文本信息实体数据)和“2017.01.01”(第二实体数据)是否满足“病理术语与时间术语存在于同一个分句中”,如果不满足,再判断“残留病变”(第一文本信息实体数据)和“2017.01.01”(第二实体数据)是否满足“病理术语与时间术语存在于同一个整句中,并且病例术语在时间术语的后面”。在针对于病例文本2中,判断“残留病变”(第一文本信息实体数据)和“2016.06.01”(第二实体数据)是否满足“病理术语与时间术语存在于同一个分句中”,如果不满足,再判断“残留病变”(第一文本信息实体数据)和“2016.06.01”(第二实体数据)是否满足“病理术语与时间术语存在于同一个整句中,并且病例术语在时间术语的后面”;以及判断“残留病变”(第一实体数据)和“2017.10.02”(第二实体数据)是否满足“病理术语与时间术语存在于同一个分句中”,如果不满足,再判断“残留病变”(第一文本信息实体数据)和“2016.06.01”(第二实体数据)是否满足“病理术语与时间术语存在于同一个整句中,并且病例术语在时间术语的后面”。
步骤S207,响应于所述第一实体数据和所述第二实体数据满足所述至少两个逻辑关系和所述触发方式,生成所述自然语言文本对应的结构化数据;
继续上述示例,并以第一触发方式说明:对于病例文本1,“残留病变”和“2017.01.01”不满足“病理术语与时间术语存在于同一个分句中”,但是满足“病理术语与时间术语存在于同一个整句中,并且病例术语在时间术语的后面”,所以病例文本1无法生成结构化数据。对于样例2,“残留病变”和“2016.06.01”满足“病理术语与时间术语存在于同一个分句中”,但是不满足“病理术语与时间术语存在于同一个整句中,并且病例术语在时间术语的后面”;“残留病变”和“2017.10.02”不满足“病理术语与时间术语存在于同一个分句中”,但是满足“病理术语与时间术语存在于同一个整句中,并且病例术语在时间术语的后面”;所以病例文本2无法生成结构化数据。。
继续上述示例,并以第二触发方式说明:对于样例1,虽然“残留病变”与“2017.01.01”之间被“,”隔开,没有在一个分句中不满足“病理术语与时间术语存在于同一个分句中”,但是“残留病变”和“2017.01.01”却在一个整句中并且“残留病变”在“2017.01.01”的后面满足“病理术语与时间术语存在于同一个整句中,并且病例术语在时间术语的后面”,所以病例文本1可以生成结构化数据。对于样例2,由于“残留病变”和“2016.06.01”在一个分句中满足“病理术语与时间术语存在于同一个分句中”,所以病例文本2可以生成“残留病变”和“2016.06.01”的结构化数据。进一步,由于“残留病变”和“2017.10.02”虽然没有在一个分句中,却在一个整句中并且“残留病变”在“2017.10.02”的后面满足病理术语与时间术语存在于同一个整句中,并且病例术语在时间术语的后面”,所以样例2可以生成“残留病变”和“2017.10.02”的结构化数据。但是由于在病例文本2中,“残留病变”和“2016.06.01”在一个分句中,“残留病变”和“2017.10.02”不在一个分句中,所以“残留病变”与“2016.06.01”之间的关系要比“残留病变”与“2017.10.02”之间的关系更加紧密,因此病例文本2仅允许“残留病变”和“2016.06.01”生成结构化数据。
可见,第二触发方式要优于第一触发方式,能够使病例样本1和病例样本2都准确地生成结构化数据。
基于本实施例的上述内容,本领域技术人员能够理解的是,本发明第二实施例提供的结构化数据的生成方法通过在第一实体数据与第二实体数据之间是否满足至少两个逻辑关系以及该至少两个逻辑关系的触发方式的情况下,生成第一实体数据和第二实体数据的结构化数据,不仅有效地保了证结构化效果,而且还提高了将自然语言文本中的第一实体数据和第二实体数据生成结构化数据时的准确率。
在本发明的第三实施例中:
如图3所示,本发明第三实施例提供的结构化数据的生成装置主要包括:
信息获取模块1,其用于从自然语言文本中获取第一实体数据和第二实体数据。
信息匹配模块2,其用于判断所述第一实体数据和所述第二实体数据是否满足预设的至少两个逻辑关系和所述至少两个逻辑关系的触发方式;
结构化数据生成模块3,其用于响应于所述第一实体数据和所述第二实体数据满足所述至少两个逻辑关系和所述触发方式,生成所述自然语言文本对应的结构化数据。
虽然图中并未示出,但是本发明第三实施例提供的结构化数据的生成装置还包括存储模块,该存储模块用于存储所述至少两个逻辑关系和该至少两个逻辑关系的触发方式。其中,触发方式包括第一触发方式和/或第二触发方式。所述第一触发方式是使所述至少两个逻辑关系都被满足,所述第二触发方式是使所述至少两个逻辑关系中按照优先级最高低的顺序一个被逐个匹配,直至所述至少两个逻辑关系中有一个被满足,以使优先级较高的一个逻辑关系被满足时,就不用再匹配后面的逻辑关系了,以便提高计算机的运行速率。
基于本实施例的上述内容,本领域技术人员能够理解的是,本发明第三实施例提供的结构化数据的生成装置通过在第一实体与第二实体之间满足至少两个逻辑关系以及该至少两个逻辑关系的触发方式,才生成第一实体数据和第二实体数据的结构化数据,不仅有效地保证了结构化效果,而且还提高了将自然语言文本中的第一实体数据和第二实体数据生成结构化数据时的准确率。
本领域技术人员应当理解的是,虽然本发明是以两个实体来对本发明的结构化数据的生成方法、装置进行介绍说明的,但是实际应用中所涉及到的实体数量可以多于两个。
在本发明的第四实施例中:
如图4所示,本发明还提供了一种电子设备。该电子设备在硬件层面上包括处理器,可选地还包括存储器、内部总线和网络接口,此外该电子设备还允许包括其它业务所需要的硬件。
其中,存储器用于存放执行指令,该执行指令具体是能够被执行的计算机程序。进一步,存储器可以包括内存和非易失性存储器(non-volatile memory),并向处理器提供执行指令和数据。示例性地,内存可以是高速随机存取存储器(Random-Access Memory,RAM),非易失性存储器可以是至少1个磁盘存储器。
其中,内部总线用于将处理器、存储器和网络接口相互连接到一起。该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线、EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为了便于表示,图4中仅用一个双向箭头表示,但这并不表示仅有一根总线或一种类型的总线。
在上述电子设备的一种可行的实施方式中,处理器可以先从非易失性存储器中读取对应的执行指令到内存中再运行,也可以先从其它设备上获取相应的执行指令再运行,以在逻辑层面上形成结构化数据的生成装置。处理器在执行存储器所存放的执行指令时,能够实现本发明上述任意一个方法实施例中的处理方法。
本领域技术人员能够理解的是,上述结构化数据的生成方法可以应用于处理器中,也可以借助处理器来实现。示例性地,处理器是一种集成电路芯片,具有处理信号的能力。在处理器执行上述处理方法的过程中,上述处理方法的各步骤可以通过处理器中硬件形式的集成逻辑电路或软件形式的指令完成。进一步,上述处理器可以是通用处理器,例如中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件、微处理器以及其它任何常规的处理器。
本领域技术人员还能够理解的是,本发明上述方法实施例的步骤可以被硬件译码处理器执行完成,也可以被译码处理器中的硬件和软件模块组合执行完成。其中,软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器、电可擦写可编程存储器、寄存器等其它本领域成熟的存储介质中。该存储介质位于存储器中,处理器读取存储器中的信息之后结合其硬件完成上述方法实施例中步骤的执行。
在本发明的第五实施例中:
虽然图中并未示出,但是本发明还提出了一种可读介质,该可读存储介质存储有执行指令,存储的执行指令被电子设备的处理器执行时,能够使该电子设备执行本发明上述任意一个方法实施例中的结构化数据的生成方法。
本领域技术人员能够理解的是,本发明上述各个实施例中所述的电子设备可以是计算机。
至此,已经参照附图并结合上述实施例完成了对本发明技术方案的描述。
本领域技术人员能够理解的是,本发明上述的方法实施例能够以方法的形式或计算机程序产品的形式来展现。因此,本发明的技术方案可以采用全硬件的方式来实施,也可以采用全软件的形式来实施,还可以采用软件与硬件相结合的形式来实施。
需要说明的是,为了突出本发明上述多个实施例彼此之间的不同之处,本发明上述的多个实施例之间是以并列的方式和/或递进的方式来进行布局和描述的,并且后面的实施例仅重点说明了其与其它实施例之间的不同之处,各个实施例之间相同或相似的部分可以互相参照。举例说明,对于装置/产品实施例而言,由于装置/产品实施例与方法实施例基本相似,所以描述的相对比较简单,相关之处参见方法实施例对应部分的说明即可。
以上所述仅为本发明的实施例而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明技术原理之内所作的任何修改、等同替换、改进等,均应落入本发明的保护范围之内。
Claims (10)
1.一种结构化数据的生成方法,其特征在于,所述方法包括:
从自然语言文本中获取第一实体数据和第二实体数据;
判断所述第一实体数据和所述第二实体数据是否满足预设的至少两个逻辑关系和所述至少两个逻辑关系的触发方式;
响应于所述第一实体数据和所述第二实体数据满足所述至少两个逻辑关系和所述触发方式,生成所述自然语言文本对应的结构化数据。
2.根据权利要求1所述的生成方法,其特征在于,在获取所述第一实体数据和所述第二实体数据之前,所述方法还包括:
获取多个所述自然语言文本的样例;
获取各所述样例中的第三实体数据和第四实体数据;
基于各所述样例中的第三实体数据和第四实体数据,建立所述至少两个逻辑关系。
3.根据权利要求2所述的生成方法,其特征在于,所述基于各所述样例中的第三实体数据和第四实体数据,建立所述至少两个逻辑关系,包括:
基于各所述样例中,所述第三实体数据和所述第四实体数据的排序关系,建立所述逻辑关系;和/或,
基于各所述样例中,所述第三实体数据和所述第四实体数据的分布关系,建立所述逻辑关系,所述分布关系用于确定所述第三实体数据和所述第四实体数据是否分布在同一语句中。
4.根据权利要求2所述的生成方法,其特征在于,在建立了至少两个逻辑关系之后,在获取所述第一实体数据和所述第二实体数据之前,所述方法还包括:
确定所述至少两个逻辑关系的触发方式。
5.根据权利要求4所述的生成方法,其特征在于,所述触发方式包括:
第一触发方式,其设置成使所述至少两个逻辑关系都被满足;和/或,
第二触发方式,其设置成使所述至少两个逻辑关系按照优先级高低的顺序被逐个匹配,直至所述至少两个逻辑关系中有一个被满足。
6.根据权利要求5所述的生成方法,其特征在于,所述响应于所述第一实体数据和所述第二实体数据满足所述至少两个逻辑关系和所述触发方式,生成所述自然语言文本对应的结构化数据,包括:
响应于所述第一触发方式,生成所述自然语言文本对应的结构化数据。
7.根据权利要求5所述的生成方法,其特征在于,所述响应于所述第一实体数据和所述第二实体数据满足所述至少两个逻辑关系和所述触发方式,生成所述自然语言文本对应的结构化数据,包括:
响应于所述第二触发方式,生成所述自然语言文本对应的结构化数据。
8.一种结构化数据的生成装置,其特征在于,所述生成装置包括:
信息获取模块,其用于从自然语言文本中获取第一实体数据和第二实体数据;
信息匹配模块,其用于判断所述第一实体数据和所述第二实体数据是否满足预设的至少两个逻辑关系和所述至少两个逻辑关系的触发方式;
结构化数据生成模块,其用于响应于所述第一实体数据和所述第二实体数据满足所述至少两个逻辑关系和所述触发方式,生成所述自然语言文本对应的结构化数据。
9.一种可读介质,其特征在于,所述可读介质包括执行指令,所述执行指令设置成在被电子设备的处理器执行时能够使所述电子设备执行权利要求1至7中任一项所述的结构化数据的生成方法。
10.一种电子设备,其特征在于,所述电子设备包括处理器、存储器和存储在所述存储器上的执行指令,所述执行指令设置成在被所述处理器执行时能够使所述电子设备执行权利要求1至7中任一项所述的结构化数据的生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910770429.1A CN112417057A (zh) | 2019-08-20 | 2019-08-20 | 结构化数据的生成方法、装置、可读介质和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910770429.1A CN112417057A (zh) | 2019-08-20 | 2019-08-20 | 结构化数据的生成方法、装置、可读介质和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112417057A true CN112417057A (zh) | 2021-02-26 |
Family
ID=74780270
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910770429.1A Pending CN112417057A (zh) | 2019-08-20 | 2019-08-20 | 结构化数据的生成方法、装置、可读介质和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112417057A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105824801A (zh) * | 2015-03-16 | 2016-08-03 | 国家计算机网络与信息安全管理中心 | 一种基于自动机的实体关系快速抽取方法 |
CN106095913A (zh) * | 2016-06-08 | 2016-11-09 | 广州同构医疗科技有限公司 | 一种电子病历文本结构化方法 |
CN106407443A (zh) * | 2016-09-28 | 2017-02-15 | 医渡云(北京)技术有限公司 | 一种结构化医疗数据生成方法及装置 |
CN106897568A (zh) * | 2017-02-28 | 2017-06-27 | 北京大数医达科技有限公司 | 病历结构化的处理方法和装置 |
-
2019
- 2019-08-20 CN CN201910770429.1A patent/CN112417057A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105824801A (zh) * | 2015-03-16 | 2016-08-03 | 国家计算机网络与信息安全管理中心 | 一种基于自动机的实体关系快速抽取方法 |
CN106095913A (zh) * | 2016-06-08 | 2016-11-09 | 广州同构医疗科技有限公司 | 一种电子病历文本结构化方法 |
CN106407443A (zh) * | 2016-09-28 | 2017-02-15 | 医渡云(北京)技术有限公司 | 一种结构化医疗数据生成方法及装置 |
CN106897568A (zh) * | 2017-02-28 | 2017-06-27 | 北京大数医达科技有限公司 | 病历结构化的处理方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2018177250A1 (zh) | 一种基于区块链的数据处理方法及设备 | |
CN111160012A (zh) | 医学术语识别方法、装置和电子设备 | |
JP5399450B2 (ja) | 医療用語の曖昧性を判定するシステム、方法およびソフトウェア | |
CN109948680B (zh) | 病历数据的分类方法及系统 | |
CN113963770A (zh) | 报告文件生成方法、装置、计算机设备及其存储介质 | |
US10318877B2 (en) | Cohort-based prediction of a future event | |
CN109710738A (zh) | 药物问询方法、装置、系统、计算机设备和存储介质 | |
Lam et al. | Text mining of journal articles for sleep disorder terminologies | |
CN111222324A (zh) | 时间识别方法、装置、计算机可读存储介质及电子设备 | |
CN118248350A (zh) | 改进随机森林预测结果的方法、装置、设备及介质 | |
CN109345081B (zh) | 一种数据采集方法、装置及电子设备 | |
CN113110843B (zh) | 合约生成模型训练方法、合约生成方法及电子设备 | |
CN117540757A (zh) | 用于自动翻译的方法、电子设备及计算机可读存储介质 | |
CN109902309B (zh) | 翻译方法、装置、设备和存储介质 | |
CN112417057A (zh) | 结构化数据的生成方法、装置、可读介质和电子设备 | |
JP2016122397A (ja) | 診断支援装置、診断支援方法及びプログラム | |
WO2023185082A1 (zh) | 一种语言表征模型的训练方法以及训练装置 | |
CN116301775A (zh) | 基于复位树原型图的代码生成方法、装置、设备及介质 | |
CN113010550B (zh) | 结构化数据的批处理对象生成、批处理方法和装置 | |
CN113138762A (zh) | Ui页面开发方法及装置 | |
Cutler et al. | Invasive breast cancer incidence in 2,305,427 screened asymptomatic women: estimated long term outcomes during menopause using a systematic review | |
CN110704632A (zh) | 临床数据的处理方法、装置、可读介质和电子设备 | |
Rockenschaub et al. | Generalisability of AI-based scoring systems in the ICU: a systematic review and meta-analysis | |
Gonçalves et al. | Natural language processing and graph theory: making sense of imaging records in a novel representation frame | |
CN111199805A (zh) | 一种基于医疗数据的类型层级提取方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20230217 Address after: 100089 801, 8th floor, building 9, No.35 Huayuan North Road, Haidian District, Beijing Applicant after: YIDU CLOUD Ltd. Address before: 210043 15 / F, building a, Yangzi science and technology innovation center, Jiangbei new district, Nanjing City, Jiangsu Province Applicant before: NANJING YIDUYUN MEDICAL TECHNOLOGY Co.,Ltd. Applicant before: Nanjing Yiyi Yunda Data Technology Co.,Ltd. |
|
TA01 | Transfer of patent application right |