CN112699669B

CN112699669B - 流行病学调查报告的自然语言处理方法、装置及存储介质

Info

Publication number: CN112699669B
Application number: CN202011592514.2A
Authority: CN
Inventors: 柯昆
Original assignee: Yidu Cloud Beijing Technology Co Ltd
Current assignee: Yidu Cloud Beijing Technology Co Ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2022-11-11
Anticipated expiration: 2040-12-29
Also published as: CN112699669A

Abstract

本发明实施例公开了一种流性病学调查报告的自然语言处理方法、装置及计算机可读存储介质，该方法包括：对自然语言信息进行意群划分得到多个意群短语；之后，从意群短语中识别出医学事件信息并保留其他信息作为非医学事件信息，再使用通用的自然语言处理系统从非医学事件信息中提取出常规事件的主干信息；然后，将医学事件信息和常规事件的主干信息结合起来，进行联合信息处理得到决策所需的数据。如此，通过分层提取医学事件信息和常规事件的主干信息的方式，不仅可以针对性地提取到典型的医学事件信息还可以获取常规事件中的其他重要信息，从而避免了信息遗漏，大大提高了信息提取的效率、准确度和完整性。

Description

流行病学调查报告的自然语言处理方法、装置及存储介质

技术领域

本发明实施例涉及信息处理技术领域，尤其涉及一种流行病学调查报告的自然语言处理方法、装置及计算机可读存储介质。

背景技术

流调报告可为流行性疾病的防控提供重要的决策依据，但其通常以自然语言文本的形式记载在文件中，如果仅靠人力手动录入和人工检验数据的方式整理出各种决策所需的医学事件相关信息，会消耗大量的人工成本和时间成本，也无法满足流行性疾病防控决策所需的高时效性。

为此，急需能够从自然语言中自动提取医学事件信息的技术方案。目前，常用的技术方案包括：使用通用的信息提取模型方法进行信息提取，但由于含有医学事件信息的自然语言文本，往往具有特殊的组成结构，如各种医学书写习惯等，难以使用通用自然语言处理模型提取出重要的医学事件信息。

综上所述，如何克服上述方案的缺陷从流行病学调查报告的自然语言中自动提取决策所需的信息，仍是一个尚待解决的技术问题。

发明内容

本发明实施例为了解决从流行病学调查报告的自然语言信息中自动提取医学事件信息中存在的上述问题，创造性地提供一种流行病学调查报告的自然语言处理方法、装置及计算机可读存储介质。

根据本发明实施例第一方面，提供了一种流行病学调查报告的自然语言处理方法，该方法包括：获取自然语言信息，所述自然语言信息中包含有医学事件信息；对自然语言信息进行意群划分得到至少一个意群短语；对至少一个意群短语进行医学事件信息识别得到医学事件信息和非医学事件信息；对非医学事件信息进行语义分析得到主干信息；对医学事件信息和主干信息进行联合信息处理得到第一结构化数据。

根据本发明实施例一实施方式，对至少一个意群短语进行医学事件信息识别得到医学事件信息，包括：根据预先设置的医学词典对至少一个意群短语进行医学事件信息识别得到相应的医学事件信息。

根据本发明实施例一实施方式，医学词典设置有医学事件信息类别，相应地，在所述得到医学事件信息之后，该方法还包括：根据医学事件信息类别确定医学事件信息所属的类别，并在医学事件信息上标记相应类别得到带有类别的医学事件信息。

根据本发明实施例一实施方式，进行医学事件信息识别包括利用内容识别状态机进行医学事件信息识别。

根据本发明实施例一实施方式，对非医学事件信息进行语义分析得到主干信息，包括：对非医学事件信息进行实体识别得到至少一个实体信息；结合针对应用场景的配置信息，对至少一个实体信息进行依存关系分析得到主干信息。

根据本发明实施例一实施方式，对医学事件信息和主干信息进行联合信息处理得到第一结构化数据，包括：对医学事件信息和主干信息进行组合得到综合信息；对综合信息进行结构化处理得到键值配对的第一结构化数据。

根据本发明实施例一实施方式，在得到第一结构化数据之后，该方法还包括：对第一结构化数据进行规范化处理得到第二结构化数据。

根据本发明实施例一实施方式，在得到第一结构化数据之后，该方法还包括：对第一结构化数据进行筛选和关联得到第三结构化数据。

根据本发明实施例第二方面，还提供了一种流行病学调查报告的自然语言处理装置，该装置包括：自然语言信息获取模块，用于获取自然语言信息，所述自然语言信息中包含有医学事件信息；意群划分模块，用于对自然语言信息进行意群划分得到至少一个意群短语；医学事件信息识别模块，用于对至少一个意群短语进行医学事件信息识别得到医学事件信息和非医学事件信息；主干信息提取模块，用于对非医学事件信息进行语义分析得到主干信息；联合信息处理模块，用于对医学事件信息和主干信息进行联合信息处理得到第一结构化数据。

根据本发明实施例第三方面，又提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上任一项的流行病学调查报告的自然语言处理方法。

本发明实施例提供了一种流行病学调查报告的自然语言处理方法、装置及计算机可读存储介质，该方法包括：对自然语言信息进行意群划分得到多个意群短语；之后，先从意群短语中识别出医学事件信息并保留其他信息作为非医学事件信息，再使用通用的自然语言处理系统从非医学事件信息中提取出常规事件的主干信息；然后，将医学事件信息和常规事件的主干信息结合起来，进行联合信息处理得到决策所需的数据。如此，通过分层提取医学事件信息和常规事件的主干信息的方式，不仅可以针对性地提取到典型的医学事件信息，例如，医学事件和医学项目等，还可以获取常规事件中的其他重要信息，例如时间、地点、事件内容等，从而避免了信息遗漏，大大提高了信息提取的效率、准确度和完整性。

需要理解的是，在本发明实施例的实施过程中，并不需要实现上面所述的全部有益效果，而是特定的技术方案可以实现特定的技术效果，并且本发明实施例的其他实施方式还能够实现上面未提到的有益效果。

附图说明

通过参考附图阅读下文的详细描述，本发明实施例示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明实施例的若干实施方式，其中：

在附图中，相同或对应的标号表示相同或对应的部分。

图1示出了本发明实施例流行病学调查报告的自然语言处理方法的实现流程示意图一；

图2示出了本发明实施例流行病学调查报告的自然语言处理方法的实现流程示意图二；

图3示出了本发明实施例流行病学调查报告的自然语言处理装置的组成结构示意图。

具体实施方式

下面将参考若干示例性实施方式来描述本发明实施例的原理和精神。应当理解，给出这些实施方式仅仅是为使本领域技术人员能够更好地理解进而实现本发明实施例，而并非以任何方式限制本发明实施例的范围。相反，提供这些实施方式是为使本发明实施例更加透彻和完整，并能够将本发明实施例的范围完整地传达给本领域的技术人员。

下面结合附图和具体实施例对本发明实施例的技术方案进一步详细阐述。

图1示出了本发明实施例流行病学调查报告的自然语言处理方法的实现流程。参考图1，该方法包括：操作110，获取自然语言信息，所述自然语言信息中包含有医学事件信息；操作120，对自然语言信息进行意群划分得到至少一个意群短语；操作130，对至少一个意群短语进行医学事件信息识别得到医学事件信息和非医学事件信息；操作140，对非医学事件信息进行语义分析得到主干信息；操作150，对医学事件信息和主干信息进行联合信息处理得到第一结构化数据。

在操作110中，自然语言信息主要指以人类自然语言表达的语句或段落，可以是文本形式的，也可以是音频形式的，还可能是经过编码器处理之后的向量信息等等。在本发明实施例中，处理的主要是包含医学事件信息的自然语言信息，即医学自然语言信息。

自然语言信息的获取，则可以通过读取文件、数据库或其他数据载体获取；也可以通过用户实时录入获取；还可以从其他处理系统的输出结果中获取等。

在这一操作中，获取的自然语言信息是本发明实施例流行病学调查报告的自然语言处理方法的数据基础，该数据的合理性、有效性和完整性也会影响到后续数据处理的实施效果。因此，实施者还可以对获取到的自然语言信息进行合理性、有效性和完整性的验证。

在操作120中，意群划分主要指按意思和结构将自然语言信息中的句子划分成多个短语，每个短语具有一个相对独立和完整的语义，每一个短语中词与词关系紧密，不能随意拆分，否则会引起误解。意群短语就是经过意群划分之后得到的，具有一个相对独立和完整语义的每个短语。

在进行意群划分时，可简单地通过文本形式的自然语音信息中的标点符号或括号，或是音频形式的自然语音信息中的停顿，对句子进行粗略划分得到一个连续的子句；也可以利用自然语言模型，根据语义的相关性进行划分；或者将上述方式相结合，先粗略划分得到连续的子句，再对连续的子句进行语义分析得到粒度更细的意群。

在使用通用信息提取模型进行信息提取时，通常需要进行语义分析，而由于医学事件信息往往具有特殊的组成结构，如各种医学书写习惯等。使用传统的分析方法会破坏上述特殊的组成结构，而导致无法提取到完整的医学事件信息。

在这一操作中，本发明实施例使用意群划分来取代分词方法，尽可能保留相对独立和完整的语义，这样包含完整的医学事件信息的概率更大，也就更容易提取到医学事件信息。

然而由于医学事件信息是一个相对专业的领域，即使通过意群划分保留了较完整的语义，使用常规的词库或通用的自然语言处理模型也很难提取出所有的医学事件信息。

因此，在本发明实施例创造性地提出在使用通用的自然语言处理模型进行信息提取之前，先使用专门针对医学事件信息的信息提取方法将医学事件信息提取出来。即通过操作130先识别出医学事件信息，并将其他非医学事件信息保留下来进行后续的自然语言处理。如此，就弥补了使用通用的自然语言处理模型不能很好地提取医学事件信息的缺陷。

在操作130中，信息识别主要指根据医学事件信息的特点，先从意群短语中识别出医学事件信息，并保留其他信息作为非医学事件信息，然后针对医学事件信息和非医学事件信息进行相应的后续处理。

其中，医学事件信息主要指医学领域内的相关信息，包括医学事件中的医学项目、医疗活动和医药数据等，例如，门诊科室、检查检验项目、药品信息等。非医学事件信息主要指不能划归为医学事件信息的其他常规信息，例如时间、地点、人物、区域、常规事件等待。

其中，医学事件信息的识别可以通过构建专门针对医学事件信息的医学事件信息识别模型，并使用包含医学事件信息的训练数据对该医学事件信息识别模型进行训练，之后再使用训练好的医学事件信息识别模型来进行。

此外，医学事件信息的识别还可以辅以医学关键词检测、医学辞典配置和医学知识库搜索等技术手段，以提高医学事件信息识别的检出率和准确率。

由于医学事件信息识别模型涵盖了通过医学关键词检测、医学辞典配置和医学知识库搜索等技术手段获取的专家经验和专业领域知识，并具有更贴近医学事件信息所特有的结构特点的识别策略，比起使用通用语义识别系统提取信息的方法，更容易从医学自然语言信息中获取其中所包含的医学事件信息。

但仅仅获取了这些医学事件信息，例如，处方中的药品名称和药品清单，对于提供决策支持还远远不够，往往还会缺少“去哪个药店买的药”等其他重要的主干信息。

因此，在操作130中，仍然会保留除了医学事件信息之外的其他信息，即非医学事件信息以便提取主干信息。操作140就是用于处理这些非医学事件信息以便提取所需的主干信息。

在操作140中，语义分析可以是通过实体识别、分词处理以及依存关系的分析等自然语言处理过程来实现的。例如，将非医学事件信息输入到自然语言处理模型(比如，Spacy)中得到主干信息。

主干信息主要指常规事件的关键信息，例如，时间、地点、人物、事件、原由等，也包括事件的先后顺序，因果关系等事件之间的关系。

在这一操作中，使用通用的自然语言处理方法，可提取主干信息，从而得到多维度信息，为下一步的决策提供更全面和更充分的信息支持。

至此，已经获取了进行单独标记的医学事件信息，以及通过通用自然语言处理方法得到的常规事件的主干信息，但这些信息都还是分散的、没有连结的半结构化数据，不能直接用于后续的分析或统计系统以提供决策支持，因此，还需要将这些信息进行结合、连结和结构化处理。操作150中的联合信息处理就是用于将医学事件信息、常规事件的主干信息融合起来，并从中提取到后续分析或统计系统可以使用的数据。

在操作150中，联合信息处理主要指将医学事件信息和主干信息进行组合得到既包含医学事件信息又包含事件要素的数据，并对这些数据进行特定处理以得到决策所需的基本数据。其中，第一结构化数据就是从自然语言信息中直接提取到的、决策所需的基本数据。

其中，所述联合信息处理指的就是将医学事件信息和主干信息进行结合、连结和结构化处理，以得到后续分析或统计系统可以使用的基本数据。

通过上述操作的基本描述，不难看出，本发明实施例流行病学调查报告的自然语言处理方法通过分层提取医学事件信息和常规事件的主干信息的方式，不仅可以针对性地提取到典型的医学事件信息，还不会遗漏非医学事件信息中的其他重要信息，从而大大提高了从自然语言信息中流行病学调查报告的自然语言处理效率、准确度和完整性。

需要说明的是，图1所示的本发明实施例仅为本发明的一个基本实施例，实施者还可在此基础上进行扩展和优化，例如：

可选地，在对至少一个意群短语进行医学事件信息识别得到医学事件信息时，可根据预先设置的医学词典对至少一个意群短语进行医学事件信息识别得到医学事件信息。

其中，医学词典是通过长期的医学项目积累得到的多维度词典，专业性强，且易于通过预先设定的识别匹配策略识别出意群短语中的医学事件信息。使用这一实施方式，医学事件信息识别的准确度也较高。

可选地，医学词典设置有医学事件信息类别，相应地，在得到医学事件信息之后，可根据医学事件信息类别确定医学事件信息所属的类别，并在医学事件信息上标记相应类别得到带有类别的医学事件信息。

其中，通过医学事件信息类别的标记，可对医学事件信息进行分类，为后续医学事件信息的联合信息处理提供依据。

可选的，在进行医学事件信息识别时，可利用内容识别状态机进行医学事件信息识别。

其中，度量内容识别状态机，可通过文本类型、数字、小数点、特殊符合和度量单位等指标将定量定性信息整个提取出来。此外，度量内容识别状态机还会对这些得到的文本进行特殊处理，以使这些定量定性的信息不会被后续的分词操作打散，因此可确保医学事件信息的完整性。

可选地，在对非医学事件信息进行语义分析得到主干信息时，可以对非医学事件信息进行实体识别得到至少一个实体信息；结合针对应用场景的配置信息，对至少一个实体信息进行依存关系分析得到主干信息。

其中，实体识别主要指自然语音处理技术中的命名实体识别(Named EntityRecognition，NER)，在实施中可以采用任何适用的实体识别方法，例如，基于规则和词典的方法、基于统计的方法等。

此外，在实体识别之前，还可以进行相应的分词处理，即根据语义提取短语中的词语，或是直接使用分词结果作为实体，在实施中可以采用任何适用的分词方法，例如，中文词法分析(LAC)方法等。

依存关系的分析主要指发现和分类实体之间的语义关系，在实施中可以采用任何适用的关系抽取方法，例如，基于模板的方法或基于机器学习的方法等。

结合针对应用场景的配置信息，包括：对于仅含有事实描述的文本，提取其中的各种独立的信息，通过配置上下文匹配词典、分词的词性限制以及文本内容限制(如正则表达式)等实现；对于含有常规事件的文本，可以借助命名实体识别的结果，提取出时间、地点等信息，然后结合依存关系，组合出事件的各个内容。

通过这种实施方式，可以更准确地、更完整地提取到不同应用场景中特点不同的相关数据。

可选地，在对医学事件信息和主干信息进行联合信息处理得到第一结构化数据时，可对医学事件信息和主干信息进行组合得到综合信息；对组合信息进行结构化处理得到键值配对的第一结构化数据。

通常，第一结构化数据还要用于后续的统计系统或分析系统，因此，第一结构化数据需要处理为后续统计系统或分析系统能够输入的结构化数据，例如键值对。键值对是最通用的一种结构化数据，适用于各种处理，易于进行各种形式的转换。

在对非医学事件信息进行联合信息处理时，可利用命名实体识别、依存关系分析，提取出事件的时间、地点、事件内容等维度数据，生成结构化的事件数据。

而对医学事件信息进行联合信息处理时，可根据针对不同应用场景的结构化策略，和配置的医学辞典，以及已经标记好的医学类型，对医学项目内容以及定量定性结果进行二次提取即可得出相应格式的结构化数据。

可选的，在得到第一结构化数据之后，该方法还包括：对第一结构化数据进行规范化处理得到第二结构化数据。

例如，使用地址结构化模块对地址文本内容进行规范化处理，生成省、市、区或者具体小区的细粒度字段内容。

通常，从自然语言信息中直接提取出来的第一结构化数据会含有多种类型的结构化数据，例如如患者对于自身症状的描述、去医院进行就诊的事件、医院检查内容和结果等。

但在实际应用中，特别是为特定决策提供支持时，所需信息和信息的组织方式都会不尽相同。例如，对于流行性疾病的防控来说，可能需要：

1)将患者的症状与对应的时间关联出来，生成患者发病症状的列表数据；

2)去医院就诊的事件，需要筛选时间、医院机构、交通方式等，生成就诊事件列表数据；

3)检查检验内容需要筛选类型、检查部位、标本等内容，生成患者的检查检验项目列表数据；

4)检查内容和结果还需要关联到相应的医院机构，每一个医院机构生成一份检查内容和结果的列表数据。

在上述内容生成之后，还有些维度的数据是需要有以上述内容作为输入，根据筛选策略再生成的。例如，病人有多次症状表现，则需要结合相关疾病的典型症状和相关检验结果来从多次症状表现得发生日期中筛选出发病日期；病人在发病后可能去过多家医院进行检查诊断，则需要从多家医院中筛选出最终收治病人的医院等等。

图2示出了本发明实施例提取医学事件相关信息方法在如何从流行性疾病流调报告中的自然语义文本中提取流行性疾病防控决策所需数据的具体实现流程，包括：

步骤2010，读取流调报告，获取自然语言信息；

其中，该流调报告是使用自然语言录入的文本文件，包括患者发病就诊情况等相关段落。

步骤2020，进行意群划分，得到多个意群短语；

其中，在进行意群划分时，可先根据主要标点符号划分出一个个连续的子句，再提取这些子句的意群短语。

假设，患者发病就诊情况的段落为：“张三于2020年2月2日自驾去医院A呼吸内科就诊，进行了以下检查：血液化验，其中淋巴细胞百分比较高60％；肺部CT，结果为肺部纹路加粗。医生李四依据上述检测结果诊断为感冒。之后，根据医生开具的处方(药品有C、D、E)去药房取药。然后，张三乘F路公交车回家。”，则可根据主要标点符号划分出连续的子句，例如，“张三于2020年2月2日自驾去医院A呼吸内科就诊”，之后再提取这些子句的主干部分得到意群短语：“张三呼吸内科就诊",其余一些附加信息，例如“2020年2月2日”、“自驾”、“医院A”作为附加信息进行保留。

步骤2030，根据预先设置的医学词典进行医学事件信息识别，判断意群短语所包含的信息是否是医学事件信息，若是，继续步骤2040，若否，继续步骤2060；

例如，对于“张三呼吸内科就诊"中包含有“呼吸内科”这一医学项目和“就诊”这一医学事件，可判断为意群短语所包含的信息是医学事件信息。而对于“张三乘F路公交车回家”这一意群短语，则不包含医学词典中定义的医学事件或医学项目，可判断为意群短语所包含的信息不是医学事件信息。

步骤2040，将该信息标记为医学事件信息；

步骤2050，确定医学事件信息所属类别，并标记类别；

在本实施例中，预先设置的医学词典还设置有类别，例如：检查检验、诊断、药品处方、手术操作等。此时，可进一步确定医学事件信息所属的类别，例如，将“血液化验”确定为“检查检验”类别。

此外，由于检查检验中还含有定量定性的描述信息，可利用配置好的度量内容识别状态机将这些定量定性的描述信息提取出来。例如，将上述段落中的“淋巴细胞百分比60％”和“肺部纹路粗”提取出来标记为相应检查检验的结果。

步骤2060，将该信息标记为非医学事件信息，保留原文；

例如，保留“张三乘F路公交车回家”的原文。

步骤2070，利用自然语言处理模型，对非医学事件信息进行实体识别和依存关系分析；

例如，对上述半结构化数据中的非医学事件信息“张三乘F路公交车回家”，使用自然语言处理模型spacy进行分词、命名实体识别、依存关系分析，提取出事件的主干成分：例如：“人物：张三”、“动作：乘”、“宾语：F路公交车”、“目的地：家”。

步骤2080，对医学事件信息和主干信息进行组合和结构化处理得到键值配对数据；

例如，将上述医学事件信息和主干信息按照原有顺序进行组合，并进行结构化处理得到如下所示的键值配对数据：

{“就诊事件：张三呼吸内科就诊"、“就诊时间：2020年2月2日”、“就医所采用的交通工具：自驾”、“就医地点：医院A”、“检查检测：血液化验”、“血液化验结果：淋巴细胞百分比60％”、“检查检验：肺部CT”、“肺部CT检查结果：肺部纹路粗”、“诊断：感冒”、“药品处方：C、D、E”、“人物：张三”、“动作：乘”、“宾语：F路公交车”、“目的地：家”}

步骤2070，对得到的结构化数据进行后置处理。

其中，后置处理包括：对所述第一结构化数据进行规范化处理得到第二结构化数据。

例如，通过地址库将“医院A”的地址补充完整，并通过地址结构化模块，生成省、市、区或者具体小区的规范地址。

后置处理还可能包括：对所述第一结构化数据进行筛选和关联得到第三结构化数据。例如，需要选取时间、医院机构、交通方式等，生成就诊事件列表数据。

需要说明的是，在上述实施例中给出的数据，包括处理过程中的中间结果，是为了便于理解，而进行了简化和缩略的示例性数据，并非实际实施过程中所采用的实际数据。在实际实施过程中，实施者还可采用任何适用的、便于处理的数据结构来存储这些数据，本发明实施例并不加以限定。

进一步地，本发明实施例还提供了一种流行病学调查报告的自然语言处理装置，如图3所示，该装置30包括：自然语言信息获取模块301，用于获取自然语言信息，所述自然语言信息中包含有医学事件信息；意群划分模块302，用于对自然语言信息进行意群划分得到至少一个意群短语；医学事件信息识别模块303，用于对至少一个意群短语进行医学事件信息识别得到医学事件信息和非医学事件信息；主干信息提取模块304，用于对非医学事件信息进行语义分析得到主干信息；联合信息处理模块305，用于对医学事件信息和主干信息进行联合信息处理得到第一结构化数据。

根据本发明实施例一实施方式，医学事件信息识别模块303具体用于根据医学事件信息类别确定医学事件信息所属的类别，并在医学事件信息上标记相应类别得到带有类别的医学事件信息。

根据本发明实施例一实施方式，医学词典设置有医学事件信息类别，相应地，医学事件信息识别模块303还包括：医学事件信息类别标记子模块，用于根据医学事件信息类别确定医学事件信息所属的类别，并在医学事件信息上标记相应类别得到带有类别的医学事件信息。

根据本发明实施例一实施方式，医学事件信息识别模块303具体用于利用内容识别状态机进行医学事件信息识别。

根据本发明实施例一实施方式，主干信息提取模块304包括实体识别子模块，用于对非医学事件信息进行实体识别得到至少一个实体信息；依存关系分析子模块，用于结合针对应用场景的配置信息，对至少一个实体信息进行依存关系分析得到主干信息。

根据本发明实施例一实施方式，联合信息处理模块305包括：信息组合子模块，用于对医学事件信息和主干信息进行组合得到综合信息；结构化处理子模块，用于对组合信息进行结构化处理得到键值配对的第一结构化数据。

根据本发明实施例一实施方式，该装置30还包括规范化处理模块，用于对第一结构化数据进行规范化处理得到第二结构化数据。

根据本发明实施例一实施方式，该装置30还包括筛选和关联模块，用于对第一结构化数据进行筛选和关联得到第三结构化数据。

根据本发明实施例第三方面，又提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时，使得所述处理器至少执行如下所述的操作步骤：操作110，获取自然语言信息，所述自然语言信息中包含有医学事件信息；操作120，对自然语言信息进行意群划分得到至少一个意群短语；操作130，对至少一个意群短语进行医学事件信息识别得到医学事件信息和非医学事件信息；操作140，对非医学事件信息进行语义分析得到主干信息；操作150，对医学事件信息和主干信息进行联合信息处理得到第一结构化数据。

这里需要指出的是：以上针对流行病学调查报告的自然语言处理装置实施例和计算机可读存储介质实施例的描述，与前述图1至2所示的方法实施例的描述是类似的，具有同前述图1至2所示的方法实施例相似的有益效果，因此不做赘述。对于本发明流行病学调查报告的自然语言处理装置实施例和计算机可读存储介质实施例中未披露的技术细节，请参照本发明实施例前述图1至2所示的方法实施例的描述而理解，为节约篇幅，因此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明实施例上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明实施例的具体实施方式，但本发明实施例的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明实施例揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明实施例的保护范围之内。因此，本发明实施例的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种流行病学调查报告的自然语言处理方法，其特征在于，所述方法包括：

获取自然语言信息，所述自然语言信息中包含有医学事件信息；

对所述自然语言信息进行意群划分得到至少一个意群短语；

对所述至少一个意群短语进行医学事件信息识别得到所述医学事件信息和非医学事件信息；

对所述非医学事件信息进行语义分析得到主干信息；

对所述医学事件信息和所述主干信息进行联合信息处理得到第一结构化数据。

2.根据权利要求1所述的方法，其特征在于，所述对所述至少一个意群短语进行医学事件信息识别得到医学事件信息，包括：

根据预先设置的医学词典对所述至少一个意群短语进行医学事件信息识别得到医学事件信息。

3.根据权利要求2所述的方法，其特征在于，所述医学词典设置有医学事件信息类别，相应地，在所述得到医学事件信息之后，所述方法还包括：

根据所述医学事件信息类别确定所述医学事件信息所属的类别，并在所述医学事件信息上标记相应类别得到带有类别的医学事件信息。

4.根据权利要求1或2所述的方法，其特征在于，所述进行医学事件信息识别包括利用内容识别状态机进行医学事件信息识别。

5.根据权利要求1所述的方法，其特征在于，对所述非医学事件信息进行语义分析得到主干信息，包括：

对所述非医学事件信息进行实体识别得到至少一个实体信息；

结合针对应用场景的配置信息，对所述至少一个实体信息进行依存关系分析得到主干信息，不同的所述应用场景具有特点不同的文本信息。

6.根据权利要求1所述的方法，其特征在于，所述对所述医学事件信息和所述主干信息进行联合信息处理得到第一结构化数据，包括：

对所述医学事件信息和所述主干信息进行组合得到综合信息；

对所述综合信息进行结构化处理得到键值配对的第一结构化数据。

7.根据权利要求1所述的方法，其特征在于，在得到第一结构化数据之后，所述方法还包括：

对所述第一结构化数据进行规范化处理得到第二结构化数据。

8.根据权利要求1所述的方法，其特征在于，在得到第一结构化数据之后，所述方法还包括：

对所述第一结构化数据进行筛选和关联得到第三结构化数据。

9.一种流行病学调查报告的自然语言处理装置，其特征在于，所述装置包括：

自然语言信息获取模块，用于获取自然语言信息，所述自然语言信息中包含有医学事件信息；

意群划分模块，用于对所述自然语言信息进行意群划分得到至少一个意群短语；

医学事件信息识别模块，用于对所述至少一个意群短语进行医学事件信息识别得到医学事件信息和非医学事件信息；

主干信息提取模块，用于对所述非医学事件信息进行语义分析得到主干信息；

联合信息处理模块，用于对所述医学事件信息和所述主干信息进行联合信息处理得到第一结构化数据。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-8中任一项流行病学调查报告的自然语言处理方法所述的方法。