CN113515927B

CN113515927B - 用于生成结构化文本的方法、计算设备和存储介质

Info

Publication number: CN113515927B
Application number: CN202111071927.0A
Authority: CN
Inventors: 李景阳; 王磊
Original assignee: Beijing Ouying Information Technology Co Ltd
Current assignee: BEIJING ALLIN TECHNOLOGY CO.,LTD.
Priority date: 2021-09-14
Filing date: 2021-09-14
Publication date: 2021-12-03
Anticipated expiration: 2041-09-14
Also published as: CN113515927A

Abstract

本公开的实施例涉及用于生成结构化文本的方法、计算设备和存储介质。根据该方法，获取文本结构化模板，该文本结构化模板包括多个信息主题类型；基于多个第一信息主题类型，识别待结构化文本的多个基础文本信息；基于多个第二信息主题类型以及树状层级关系，识别待结构化文本的多个复合文本信息；基于树状层级关系，为每一复合文本信息和每一基础文本信息确定最终信息主题类型；以及基于多个基础文本信息、多个复合文本信息及其最终信息主题类型，生成待结构化文本的结构化文本。由此，可以为各种各样不同医疗临床医疗文本自动生成结构化文本，因此适应性较强，而且可以降低边际开发成本。

Description

用于生成结构化文本的方法、计算设备和存储介质

技术领域

本公开的实施例总体上涉及数据抽取，并且更具体地涉及一种用于生成结构化文本的方法、计算设备和存储介质。

背景技术

医疗领域经常会存在大量的临床医疗文档，比如门诊病历、住院病历、入院记录、手术记录、病程记录、出院记录、病案首页、检验报告单等等。同时，也会存在自由形式的临床医疗文本，比如在电子邮件、社交软件或专业论坛上存在的医务工作者之间对病例的诊断或治疗方法的交流文本，甚至还存在医务工作者在问诊和治疗过程中的语音记录等等。显然，这些信息以各种各样的形式存在，有些以数字化形式存在于各类医疗业务电子系统中，有些则以纸质表格、单据、报告的方式存在，还有一些以非正式的形式存在于医务工作者个人的电子工具或医务工作者之间各种媒介形式的交流沟通中。

为了有助于医务工作者在患者管理随访、临床风险提示、科研教学等方面的应用，存在以规范化方式对这些临床医疗文本进行整理和保存的需求。目前，通常以人工录入的方式来将这些临床医疗文本数据记录在固定的电子表格中，电子表格的每条记录对应于一个患者，字段则为患者的姓名、性别、年龄、电话、诊断、手术日期等等。但是，人工录入的方式费时费力、效率低下并且容易出错。当前，业界也存在基于规则的信息抽取（InformationExtraction）算法、基于机器学习的命名实体识别（Named Entity Recognition）算法以及自然语言理解（Natural Language Understanding）算法（往往被形式化为问题回答）等来实现针对非结构化文本的自动结构化提取。但是，由于临床医疗文本的特殊性，以上算法并不适于用于所有临床医疗文本信息的结构化提取，而一般仅适用于特定类型的数据（比如病案首页、手术记录、入院记录）或专门定制的数据的自动结构化提取，因此适应性较差，而且数据的定制也需要花费大量的定制开发成本。

因此，有必要提供一种具有很强适应性的生成结构化文本的技术，以便为各种各样不同医疗临床医疗文本自动生成结构化文本，而且能够降低边际开发成本。

发明内容

针对上述问题，本公开提供了一种用于生成结构化文本的方法和计算设备，其适应性较强，可以为各种各样不同医疗临床医疗文本自动生成结构化文本，并且可降低边际开发成本。

根据本公开的第一方面，提供了一种用于生成结构化文本的方法，包括：获取文本结构化模板，所述文本结构化模板包括多个信息主题类型，所述多个信息主题类型包括多个第一信息主题类型和多个第二信息主题类型，所述多个第一信息主题类型和所述多个第二信息主题类型之间存在树状层级关系；基于所述多个第一信息主题类型，识别待结构化文本的多个基础文本信息，每一基础文本信息匹配一个或多个第一信息主题类型；基于所述多个第二信息主题类型以及所述树状层级关系，识别所述待结构化文本的多个复合文本信息，每一复合文本信息匹配一个或多个第二信息主题类型；基于所述树状层级关系，为每一复合文本信息和每一基础文本信息确定最终信息主题类型；以及基于所述多个基础文本信息、所述多个复合文本信息及其最终信息主题类型，生成所述待结构化文本的结构化文本。

根据本公开的第二方面，提供了一种计算设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开的第一方面的方法。

在本公开的第三方面中，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中所述计算机指令用于使所述计算机执行本公开的第一方面的方法。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标注表示相同或相似的元素。

图1示出了用于实现根据本发明的实施例的用于基于非结构化文本生成结构化文本的方法的系统100的示意图。

图2示出了根据本公开的实施例的用于生成结构化文本的方法200的流程图。

图3示出了根据本公开的实施例的示例性文本结构化模板300的示意图。

图4示出了根据本公开的实施例的用于识别待结构化文本的多个复合文本信息的方法400的流程图。

图5示出了根据本公开的实施例的用于为每一复合文本信息和每一基础文本信息确定最终信息主题类型方法500的流程图。

图6示出了示例性待结构化文本600的示意图。

图7示出了示例性待结构化文本700的示意图。

图8示出了根据本公开的实施例的电子设备800的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在本文中使用的术语“包括”及其变形表示开放性包括，即“包括但不限于”。除非特别申明，术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

如上所述，目前通常以人工录入的方式来对临床医疗信息进行规范化整理，或者使用基于规则的信息抽取算法、基于机器学习的命名实体识别算法及自然语言理解算法来实现对这种非结构化文本的自动结构化提取，以最终实现对这种非结构化文本的规范化或结构化。但是，人工录入的方式费时费力、效率低下并且容易出错，因此实用性不强，使用率也不高。

另外，临床医疗信息的同一字段通常存在多个实例，比如病案首页中可能存在多个诊断或多次手术记录，每个记录本身含有多个字段。临床医疗信息的粒度层级差异也很大，既有粒度层级很小的信息（比如年龄、红细胞数量），也有粒度层级很大的信息（比如手术记录等）。这些信息之间可存在层级化的结构关系，但是这些结构关系比较松散而不确定，尤其是在非正式的临床文本中（比如论坛帖子）。因此，前面提到的各种算法并不适于用于所有临床医疗文本信息的结构化提取，而一般仅适用于特定类型的数据或专门定制的数据的自动结构化提取。也就是说，这些算法的适应性较差，难以适用于各种各样不同的临床医疗信息，而且数据的定制也需要花费大量的边际开发成本。

为了至少部分地解决上述问题以及其他潜在问题中的一个或多个，本公开的示例实施例提出了一种用于为非结构化文本生成结构化文本的方法，包括：获取文本结构化模板，所述文本结构化模板包括多个信息主题类型，所述多个信息主题类型包括多个第一信息主题类型和多个第二信息主题类型，所述多个第一信息主题类型和所述多个第二信息主题类型之间存在树状层级关系；基于所述多个第一信息主题类型，识别待结构化文本的多个基础文本信息，每一基础文本信息匹配一个或多个第一信息主题类型；基于所述多个第二信息主题类型以及所述树状层级关系，识别所述待结构化文本的多个复合文本信息，每一复合文本信息匹配一个或多个第二信息主题类型；基于所述树状层级关系，为每一复合文本信息和每一基础文本信息确定最终信息主题类型；以及基于所述多个基础文本信息、所述多个复合文本信息及其最终信息主题类型，生成所述待结构化文本的结构化文本。。以此方式，可以为各种各样不同医疗临床医疗文本自动生成结构化文本，而且可以降低边际开发成本。

图1示出了用于实现根据本发明的实施例的用于基于非结构化文本生成结构化文本的方法的系统100的示意图。如图1中所示，系统100包括计算设备110、网络120和服务器130。计算设备110和服务器130可以通过网络120（例如，因特网）进行数据交互。在本公开中，服务器130可用于提供非结构化文本的结构化应用服务，例如提供文本结构化模块等。计算设备110可经由网络120与服务器130进行通信，以实现对文本结构化模块之类的服务的获取。计算设备110可以包括至少一个处理器112以及与该至少一个处理器112耦合的至少一个存储器114，该存储器114中存储有可由该至少一个处理器112执行的指令116，该指令116在被该至少一个处理器112执行时执行如下所述的方法200。注意，在本文中，计算设备110可以是服务器130的一部分或者可以独立于服务器130。计算设备110或服务器130的具体结构例如可以如下结合图8所述。

图2示出了根据本公开的实施例的用于基于非结构化文本生成结构化文本的方法200的流程图。方法200可由如图1所示的计算设备110执行，也可以在图8所示的电子设备800处执行。应当理解的是，方法200还可以包括未示出的附加框和/或可以省略所示出的框，本公开的范围在此方面不受限制。

在步骤202，计算设备110获取文本结构化模板，该文本结构化模板包括多个信息主题类型，该多个信息主题类型包括多个第一信息主题类型和多个第二信息主题类型，该多个第一信息主题类型和多个第二信息主题类型之间存在树状层级关系。在本公开中，多个第一信息主题类型处于该树状层级关系中的最低粒度层级，并且每一第二信息主题类型包括多个子节点，该第二信息主题类型的每一子节点的粒度层级都低于该第二信息主题类型的粒度层级，并且每一子节点与一个第一信息主题类型或第二信息主题类型相对应。

例如，在图3中，示出了示例性文本结构化模板300，该文档结构化模板300中列出了多个信息主题类型，例如“姓名”、“性别”、“电话”、“年龄”、“血压”、“体温”、“皮肤状况”、“患者基本信息”、“体格检查结果”等等。在图3所示的示例中，由于“姓名”、“性别”、“电话”、“年龄”、“血压”、“体温”、“皮肤状况”、“手术医师”和“麻醉医师”等均不包括子节点，而是构成其他信息主题类型的基础（即处于树状层级关系中的最低粒度层级），因此这些信息主题类型均属于第一信息主题类型。另外，在图3所示的示例中，“患者基本信息”、“体格检查结果”、“手术记录”等均包括多个子节点（例如“患者基本信息”包括“姓名”、“性别”和“年龄”三个子节点），因此这些信息主题类型均属于第二信息主题类型。虽然在图3所示的示例文本结构化模板300中，各个第二信息主题类型均仅包括第一信息主题类型的子节点，但是应了解，第二信息主题类型也可包括第二信息主题类型的子节点，只要该子节点的信息主题类型的粒度层级低于第二信息主题类型即可。

在一些实施例中，如图3所示，每一信息主题类型可以键值对的形式来表示。具体地，每一信息主题类型的键指示该信息主题类型的标识名称，并且每一信息主题类型的值用于识别匹配该信息主题类型的信息。例如，在图3所示的示例文本结构化模板300中，位于等号“=”左边的“姓名”、“性别”、“电话”、“年龄”、“血压”、“体温”、“皮肤状况”、“患者基本信息”等主题类型标识名称均表示相应信息主题类型的键，而位于等号“=”右边的具体人名或字符串等则表示相应信息主题类型的值。

在一些实施例中，第一信息主题类型可包括命名实体类型和基本主题类型，每一命名实体类型由命名实体类型的名称表示，每一基本主题类型由相应的正则表达式表示。例如，在图3所示的示例中，第一信息主题类型“姓名”、“手术医师”和“麻醉医师”分别由患者的姓名、手术医师的姓名和麻醉医师的姓名来表示，因此均属于命名实体类型，而第一信息主题类型“性别”、“电话”、“年龄”、“血压”、“体温”、“皮肤状况”等均由相应的正则表达式来表示，因此属于基本主题类型。应了解，正则表达式用于使用单个字符串来描述、匹配一系列匹配相应句法规则的字符串。因此，基本主题类型“性别”、“电话”、“年龄”、“血压”、“体温”、“皮肤状况”应的正则表达式用于识别匹配这种基本主题类型的文本信息。例如，根据与基本主题类型“性别”相对应的正则表达式可知，文本信息“男性”或“女性”可被识别为匹配该基本主题类型。

在一些实施例中，在文本结构化模板中，对于各个第二信息主题类型，可以包括用多个子节点来表示的实例，并且还可包括用字段名+字段值的方式来表示的实例，以帮助提高识别的准确性。例如，在图3所示的示例中，示出了以字段名+字段值的方式来表示的第二信息主题类型“手术名称”和“手术经过”。在非结构化本文中，经常会以字段名+符号+相关文本片段（诸如字段名+冒号+自然句、字段名+冒号+自然段或者字段名+换行+占据整行的字段名）的方式来表示某个文本信息，因此在文本结构化模板中包括以字段名+字段值的方式来表示的相应实例，可有助于提高对这类文本信息的识别确定性。

在步骤204，计算设备基于多个第一信息主题类型，识别待结构化文本的多个基础文本信息，每一基础文本信息匹配一个或多个第一信息主题类型。在识别出了多个基础文本信息之后，可用每一基础文本信息匹配的第一信息主题类型对该基础文本信息进行标识。

在本公开中，待结构化文本可以是各种各样的临床医疗文本也可以是其他非结构化文本。临床医疗文本可以包括以下中的任何一个：从医院信息系统（HospitalInformation System, HIS）之类的医疗业务系统中导出的Word文件；来自于其他媒介的病例描述文本，例如在电子邮件、社交软件或专业论坛上存在的医务工作者之间对病例的诊断或治疗方法的交流文本；通过各种途径转化来的电子文本，例如通过光学字符识别（OCR）技术从纸质单据、表格、报告或HIS系统的屏幕拍摄的照片转化而来的临床医疗文本，或者通过自动语音识别（ASR）技术从医护人员口述的音频转化而来的临床医疗文本等等。

在本公开中，由于基础文本信息是基于处于最低粒度层级的各个第一信息主题类型来识别的，因此基础文本信息为构成其他信息（即，后面将提到的复合文本信息）的基础，通过最先识别基础文本信息，可有助于实现对高粒度层级的复合文本信息的有效识别，从而提高文本结构化的效率。

具体地，步骤204可包括基于命名实体识别（Named Entity Recognition，NER）算法，识别待结构化文本中匹配每一命名实体类型的基础文本信息。在本公开中，为了将待结构化文本中匹配每一命名实体类型的基础文本信息全部都识别出来，在执行该子步骤时，需要对待结构化文本进行第一次全文扫描。例如，针对图3所示的示例性文本结构化模板300以及图6所示的示例性待结构化文本600，在进行了第一次全文扫描之后，从待结构化文本600中识别出的基础文本信息包括：AAA[姓名]。由此可见，基础文本信息“AAA”已被识别出，并被标识为匹配命名实体类型[姓名]。

步骤204还可包括基于每一基本主题类型的正则表达式，识别待结构化文本中匹配该基本主题类型的基础文本信息。在本公开中，为了将结构化文本中匹配每一基本主题类型的基础文本信息全部都识别出来，在执行该子步骤时，需要对待结构化文本进行第二次全文扫描。也就是说，为了将待结构化文本中的所有基础文本信息都识别出来，总共需要对待结构化文本进行两次全文扫描。例如，还是针对图3所示的示例性文本结构化模板300以及图6所示的示例性待结构化文本600，在进行了第二次全文扫描之后，从待结构化文本600中识别出的基础文本信息包括：AAA[姓名]；男[性别]；78[年龄][血压]；体温36.7^oC[体温]；脉搏72次/分[脉搏]；呼吸20次/分[呼吸]……；全身皮肤、粘膜未见皮疹、出血点、瘀斑及蜘蛛痣[皮肤状况]。由此可见，在第二次全面扫描后，除了在第一次全文扫描时识别出的基础文本信息 “AAA”之外，还识别出了基础文本信息“男”、“体温36.7^oC”、“脉搏72次/分”、“呼吸20次/分”、“全身皮肤、粘膜未见皮疹、出血点、瘀斑及蜘蛛痣”等，并其被标识为匹配一个基本主题类型，另外基础文本信息“78”也被识别出，其被标识为匹配两个基本主题类型。

在步骤206，计算设备基于多个第二信息主题类型以及树状层级关系，识别待结构化文本中的多个复合文本信息，每一复合文本信息匹配一个或多个第二信息主题类型。在识别出了多个复合文本信息之后，可用每一复合文本信息匹配的第二信息主题类型对该复合文本信息进行标识。在本公开中，可基于多个第二信息主题类型以及树状层级关系，按信息主题类型的粒度层级从低到高的顺序，识别待结构化文本中的多个复合文本信息。

在本公开中，由于基础文本信息是构成复合文本信息的基础，并且较高粒度层级的复合文本信息也可能包括较低粒度层级的复合文本信息，因此通过按信息主题类型的粒度层级从低到高的顺序识别复合文本信息可有助于快速而有效地识别出待结构化文本中的各个复合文本信息。

例如，在图6所示的示例中，在经过了步骤206的过程之后，从待结构化文本中识别出的信息可包括：

{AAA[姓名]，男[性别]，78[年龄][血压]。}[患者基本信息，置信度3/3][体格检查结果，置信度1/3];

{体温36.7^oC[体温]，脉搏72次/分[脉搏]，呼吸20次/分[呼吸]，……。全身皮肤、粘膜未见皮疹、出血点、瘀斑及蜘蛛痣[皮肤状况]，……}[体格检查结果，置信度30/30]

下面将结合图4对步骤206作进一步更详细地描述。

在一些实施例中，如前面所提到的，在文本结构化模板中，第二信息主题类型除了包括用多个子节点来表示的实例以外，还可包括用字段名+字段值的方式来表示的实例。

因此，在待结构化文本中包括以字段名+符号+相关文本片段的方式来表示的复合文本信息的情况下，可直接通过识别待结构化文本中的这种字段名+符号的方式来识别出相关的复合文本信息，从而可以进一步提到识别的效率和准确度。

例如，在图7所示的示例性待结构化文本700中，可直接识别出复合文本信息“手术名称”、“手术经过”等。

在步骤208，计算设备基于树状层级关系，为每一复合文本信息和每一基础文本信息确定最终信息主题类型。在本公开中，可基于树状层级关系，按信息主题类型的粒度层级从高到低的顺序，为每一复合文本信息和每一基础文本信息确定最终信息主题类型。

由于自然语言经常会存在一定的歧义性，因此在步骤204和步骤206的过程中，基础文本信息和复合文本信息都可能会匹配多个信息主题类型。也就是说，在最初识别的过程中，基础文本信息和复合文本信息都有可能存在信息主题类型匹配方面的模糊性或不确定性。

在本公开中，通过按信息主题类型的粒度层级从高到低的顺序来为这些信息确定最终信息主题类型，使得能够直接利用上级信息的信息主题类型最终匹配结果来对下级信息中存在不确定性的信息主题类型匹配结果进行消歧，而无需为了消除歧义而针对不同的信息主题类型再进行进一步的定义。

例如，对于图6所示的示例，基础文本信息“78”被标识为匹配信息主题类型“年龄”或者“血压”，另外复合文本信息“AAA，男，78”被标识为匹配信息主题类型“患者基本信息”或“体格检查结果”。因此，在本公开中，通过按信息主题类型的粒度层级从高到低的顺序，先确定复合文本信息“AAA，男，78”属于信息主题类型“患者基本信息”，由此即可确定“78”应当属于“年龄”而非“血压”，因为“患者基本信息”包括子节点“年龄”但不包括子节点“血压”。

下面将结合图5对步骤208作进一步更详细地描述。

在步骤210，基于多个基础文本信息、多个复合文本信息及其最终信息主题类型，生成待结构化文本的结构化文本。

在本公开中，在标识出了待结构化文本中的所有基础文本信息、复合文本信息并为其匹配了最终信息主题类型之后，就可最终生成所需的结构化文本了。例如，可按预定的结构化格式来生成该结构化文本。

例如，对于图6所示的示例性待结构化文本600，最终生成的其结构化文本可以为：

1. 患者基本信息 = AAA，男，78

1.1 姓名 = AAA

1.2性别 = 男

1.3年龄 = 78

2. 体格检查结果 = 体温36.7^oC，脉搏72次/分，呼吸20次/分……

2.1体温 = 36.7^oC

2.2脉搏 = 72次/分

2.3……

2.4 皮肤状况 = 全身皮肤、粘膜未见皮疹、出血点、瘀斑及蜘蛛痣

图4示出了根据本公开的实施例的用于识别待结构化文本的多个复合文本信息的方法400的流程图。方法400可由如图1所示的计算设备110执行，也可以在图8所示的电子设备800处执行。应当理解的是，方法400还可以包括未示出的附加框和/或可以省略所示出的框，本公开的范围在此方面不受限制。

在步骤402，基于当前第二信息主题类型，确定待结构化文本是否存在以下文本片段，该文本片段所包括的一个或多个基础文本信息匹配与当前第二信息主题类型相关联的（一个或多个）第一信息主题类型。

例如，在图6所示的示例中，如果当前第二信息主题类型为“患者基本信息”，可确定待结构化文本存在这样的文本片段“AAA[姓名]；男[性别]；78[年龄][血压]”，因为该文本片段所包括的基础文本信息“AAA[姓名]”、“男[性别]”和“78[年龄][血压]”匹配与第二信息主题类型“患者基本信息”相关联的第一信息主题类型“姓名”、“性别”和“年龄”。如果当前第二信息主题类型为“体格检查结果”，可确定待结构化文本也包括这样的文本片段“AAA[姓名]；男[性别]；78[年龄][血压]”，因为该文本片段所包括的基础文本信息“78[年龄][血压]”匹配与第二信息主题类型“体格检查结果”相关联的第一信息主题类型“血压”。

在步骤404，响应于确定待结构化文本存在该文本片段，确定该文本片段为匹配当前第二信息主题类型的复合文本信息。

例如，继续以上示例，在经过了步骤404之后，文本片段“AAA[姓名]；男[性别]；78[年龄][血压]”被确定为是匹配“患者基本信息”的复合文本信息，并且还被确定为是匹配“体格检查结果”的复合文本信息。

在步骤406，基于文本片段所包括的基础文本信息的总数以及所述文本片段中匹配与当前第二信息主题类型相关联的第一信息主题类型的基础文本信息的数目，确定该文本片段属于当前第二信息主题类型的置信度。

例如，还是继续以上示例，由于文本片段“AAA[姓名]；男[性别]；78[年龄][血压]”中包括3个基础文本信息，并且这3个基础文本信息都匹配与“患者基本信息”相关联的第一信息主题类型，因此该文本片段属于“患者基本信息”的置信度为3/3。另外，由于该文本片段仅有1个基础文本信息匹配与“体格检查结果”相关联的第一信息主题类型，因此该文本片段属于“体格检查结果”的置信度为1/3。

由此可知，相比于“体格检查结果”，以上文本片段属于“患者基本信息”的置信度更高，因此该置信度就可在随后被用作用于确定文本片段的最终信息主题类型的依据，例如在该示例中，可确定以上文本片段应属于“患者基本信息”。

步骤402到406可按信息主题类型的粒度层级从低到高的顺序反复执行，直到识别出了待结构化文本中的所有复合文本信息为止。

通过采用上述手段，本公开能够快速而有效地识别出待结构化文本中的各个复合文本信息。

图5示出了根据本公开的实施例的用于为每一复合文本信息和每一基础文本信息确定最终信息主题类型方法500的流程图。方法500可由如图1所示的计算设备110执行，也可以在图8所示的电子设备800处执行。应当理解的是，方法500还可以包括未示出的附加框和/或可以省略所示出的框，本公开的范围在此方面不受限制。

在步骤502，确定多个复合文本信息中匹配多个第二信息主题类型的一个或多个复合文本信息。

例如，在图6所示的示例中，复合文本信息 “AAA，男，78”被标识为即匹配信息主题类型“患者基本信息”，又匹配“体格检查结果”。

在步骤504，为所确定的每一复合文本信息确定第一最终信息主题类型。

在一些实施例中，步骤504可包括基于该复合文本信息属于所匹配的每一第二信息主题类型的置信度及相关联的预定阈值，为该复合文本信息确定第一最终信息主题类型。

在本公开中，可在该复合文本信息匹配的多个第二信息主题类型之中，选取置信度较高并且超过相关联的预定阈值的第二信息主题类型作为该复合文本信息的第一最终信息主题类型。

例如，在图6所示的示例中，复合文本信息 “AAA，男，78”属于“患者基本信息”的置信度为3/3，并且必定超过预定阈值，而其属于“体格检查结果”的置信度仅为1/3，因此该复合文本信息的第一最终信息主题类型可被确定为是“患者基本信息”。

在本公开中，对于步骤502中确定的每一复合文本信息所匹配的每一第二信息主题类型，与其相关联的预定阈值可与该复合文本信息的在待结构化文本中的存在形式以及该复合文本信息是否是另一复合文本信息的组成部分有关。

例如，如果在待结构化文本中，复合文本信息是以字段名+符号+相关文本片段的形式存在的，但是该复合文本信息匹配的某个第二信息主题类型与该字段名不匹配，则针对该第二信息主题类型可设置一个较高的预定阈值，例如该预定置信度可被设为95%。

如果复合文本信息不是以字段名+符号+相关文本片段的形式存在的，则针对该复合文本信息所匹配的多个第二信息主题类型，可设置中等大小的预定阈值，例如50%。

如果复合文本信息是另一复合文本信息的组成部分，而该复合文本信息所匹配的某个第二信息主题类型并不是该另一复合文本信息所匹配的信息主题类型的子节点，则针对该复合文本信息所匹配的这一第二信息主题类型可设置较高的阈值，例如95%。

如果复合文本信息所匹配的一个第二信息主题类型低于相关联的预定阈值，则可考虑该复合文本信息所匹配的其他信息主题类型，并按以上所列的相同的方法对该气体信息主题类型进行判断，以确定该其他信息主题类型是否可作为第二复合文本信息的第一最终信息主题类型。

如果对于复合文本信息，所匹配的多个第二信息主题类型全部都低于相关联的预定阈值，则丢弃该复合文本信息，或者在其存在字段名+符号+相关文本片段的形式的情况下，根据字段名+字段值的形式来确定其第一最终信息主题类型。

在步骤506，确定多个基础文本信息中匹配多个第一信息主题类型的一个或多个基础文本信息。

例如，在图6所示的示例中，基础文本信息“78”被标识为匹配 “年龄”和“血压”。

在步骤508，为所确定的每一基础文本信息确定第二最终信息主题类型。

在一些实施例中，步骤508可包括：确定该基础文本信息是哪个复合文本信息的组成部分；以及基于为该复合文本信息确定的最终信息主题类型，从匹配所述基础文本信息的多个第一信息主题类型中确定该基础文本信息的第二最终信息主题类型。

例如，在图6所示的示例中，可确定“78”是复合文本信息“AAA，男，78”的子节点，由于复合文本信息“AAA，男，78”最终被确定为属于第二信息主题类型“患者基本信息”，因此可确定“78”应当属于“年龄”而非“血压”，因为“患者基本信息”包括子节点“年龄”但不包括子节点“血压”。

通过采用上述手段，本公开能够直接利用上级信息的信息主题类型最终匹配结果来对下级信息中存在不确定性的信息主题类型匹配结果进行消歧，而无需针对不同的信息主题类型再进行进一步的定义。因此，本公开具有较好的适应性，能够有效解决自然语言的歧义性和各种信息构成模糊性的问题。

图8示出了可以用来实施本公开内容的实施例的示例电子设备800的示意性框图。例如，如图1所示的计算设备110可以由电子设备800来实施。如图所示，电子设备800包括中央处理单元（CPU）801，其可以根据存储在只读存储器（ROM）802中的计算机程序指令或者从存储单元808加载到随机存取存储器（RAM）803中的计算机程序指令，来执行各种适当的动作和处理。在随机存取存储器803中，还可存储电子设备800操作所需的各种程序和数据。中央处理单元801、只读存储器802以及随机存取存储器803通过总线804彼此相连。输入/输出（I/O）接口805也连接至总线804。

电子设备800中的多个部件连接至输入/输出接口805，包括：输入单元806，例如键盘、鼠标、麦克风等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

上文所描述的各个过程和处理，例如方法200、400和500，可由中央处理单元801执行。例如，在一些实施例中，方法200、400和500可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由只读存储器802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序被加载到随机存取存储器803并由中央处理单元801执行时，可以执行上文描述的方法200、400和500的一个或多个动作。

本公开涉及方法、装置、系统、电子设备、计算机可读存储介质和/或计算机程序产品。计算机程序产品可以包括用于执行本公开的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括：便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、静态随机存取存储器（SRAM）、便携式压缩盘只读存储器（CD-ROM）、数字多功能盘（DVD）、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波（例如，通过光纤电缆的光脉冲）、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘计算设备。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构（ISA）指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列（FPGA）或可编程逻辑阵列（PLA），该电子电路可以执行计算机可读程序指令，从而实现本公开的各个方面。

这里参照根据本公开实施例的方法、装置（系统）和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理单元，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理单元执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种用于生成结构化文本的方法，包括：

获取文本结构化模板，所述文本结构化模板包括多个信息主题类型，所述多个信息主题类型包括多个第一信息主题类型和多个第二信息主题类型，所述多个第一信息主题类型和所述多个第二信息主题类型之间存在树状层级关系，所述多个第一信息主题类型处于所述树状层级关系中的最低粒度层级，每一第二信息主题类型包括多个子节点，每一子节点的粒度层级都低于该第二信息主题类型的粒度层级，并且每一子节点都与一个第一信息主题类型或第二信息主题类型相对应；

基于所述多个第一信息主题类型，识别待结构化文本的多个基础文本信息，所述基础文本信息为构成复合文本信息的基础，每一基础文本信息匹配一个或多个第一信息主题类型；

基于所述多个第二信息主题类型以及所述树状层级关系，按信息主题类型的粒度层级从低到高的顺序，识别所述待结构化文本的多个复合文本信息，每一复合文本信息匹配一个或多个第二信息主题类型；

基于所述树状层级关系，按信息主题类型的粒度层级从高到低的顺序，为每一复合文本信息和每一基础文本信息确定最终信息主题类型；以及

基于所述多个基础文本信息、所述多个复合文本信息及其最终信息主题类型，生成所述待结构化文本的结构化文本。

2.根据权利要求1所述的方法，其中每一信息主题类型均以键值对的形式表示，每一信息主题类型的键指示所述信息主题类型的标识名称，并且每一信息主题类型的值用于识别匹配所述信息主题类型的信息。

3.根据权利要求1所述的方法，其中所述多个第一信息主题类型包括多个命名实体类型和多个基本主题类型，每一命名实体类型由所述命名实体类型的名称表示，每一基本主题类型由相应的正则表达式表示。

4.根据权利要求3所述的方法，其中基于所述多个第一信息主题类型，识别所述待结构化文本的多个基础文本信息包括：

基于命名实体识别算法，识别所述待结构化文本中匹配每一命名实体类型的基础文本信息；以及

基于每一基本主题类型的正则表达式，识别所述待结构化文本中匹配所述基本主题类型的基础文本信息。

5.根据权利要求1所述的方法，其中基于所述多个第二信息主题类型以及所述树状层级关系，按信息主题类型的粒度层级从低到高的顺序，识别所述待结构化文本的多个复合文本信息包括：

基于当前第二信息主题类型，确定所述待结构化文本是否存在以下文本片段，所述文本片段所包括的一个或多个基础文本信息匹配与所述当前第二信息主题类型相关联的第一信息主题类型；

响应于确定所述待结构化文本存在所述文本片段，确定所述文本片段为匹配所述当前第二信息主题类型的复合文本信息；以及

基于所述文本片段所包括的基础文本信息的总数以及所述文本片段中匹配与所述当前第二信息主题类型相关联的第一信息主题类型的基础文本信息的数目，确定所述文本片段属于所述当前第二信息主题类型的置信度。

6.根据权利要求1所述的方法，其中基于所述树状层级关系，按信息主题类型的粒度层级从高到低的顺序，为每一复合文本信息和每一基础文本信息确定最终信息主题类型包括：

确定所述多个复合文本信息中匹配多个第二信息主题类型的一个或多个复合文本信息；

为所确定的每一复合文本信息确定第一最终信息主题类型；

确定所述多个基础文本信息中匹配多个第一信息主题类型的一个或多个基础文本信息；以及

为所确定的每一基础文本信息确定第二最终信息主题类型。

7.根据权利要求6所述的方法，其中为所确定的每一复合文本信息确定第一最终信息主题类型包括：

基于所述复合文本信息属于所匹配的每一第二信息主题类型的置信度及相关联的预定阈值，为该复合文本信息确定第一最终信息主题类型。

8.根据权利要求6所述的方法，其中为所确定的每一基础文本信息确定第二最终信息主题类型包括：

确定所述基础文本信息是哪个复合文本信息的组成部分；以及

基于为该复合文本信息确定的最终信息主题类型，从匹配所述基础文本信息的多个第一信息主题类型中确定所述基础文本信息的第二最终信息主题类型。

9.一种计算设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。

10.一种存储有计算机指令的非瞬时计算机可读存储介质，其中所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的方法。