CN114783559B

CN114783559B - 医学影像报告信息抽取方法、装置、电子设备和存储介质

Info

Publication number: CN114783559B
Application number: CN202210717523.2A
Authority: CN
Inventors: 赵周剑; 罗琼; 王永明
Original assignee: Zhejiang Taimei Medical Technology Co Ltd
Current assignee: Zhejiang Taimei Medical Technology Co Ltd
Priority date: 2022-06-23
Filing date: 2022-06-23
Publication date: 2022-09-30
Anticipated expiration: 2042-06-23
Also published as: CN114783559A

Abstract

本申请公开了一种医学影像报告信息抽取方法、装置、电子设备和存储介质，其中该方法包括：基于光学字符识别OCR模型从目标医学影像报告中识别出文本信息；将所述文本信息组装为段落文本，以过滤出目标类型文本信息；分别基于第一神经网络模型和Trie树从所述目标类型文本信息中抽取实体信息；基于词频概率对所述抽取的实体信息进行合并，以确定目标实体信息；基于第二神经网络模型从所述目标实体信息中抽取关系信息。这样，使用者可以方便地查阅医学影像报告的关键信息，且信息抽取结果的可靠性高。

Description

医学影像报告信息抽取方法、装置、电子设备和存储介质

技术领域

本申请属于计算机数据处理技术领域，具体涉及一种医学影像报告信息抽取方法、装置、电子设备和存储介质。

背景技术

在新药研发临床研究、健康险理赔等业务场景中，患者所提供的医学影像报告通常为图片或PDF格式的扫描件。这导致：一、需要医生肉眼查看可能的病灶等信息，也不方便后续的信息录入；二、文本描述较为冗长，且由于不同医生的书写习惯不同，增加了主治医生获取有效信息的难度，因此直接从文本中获取关键信息影响效率；并且，非电子化的文件留存，不利于病例数据的存储、查阅和再编辑。

公开于该背景技术部分的信息仅仅旨在增加对本申请的总体背景的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。

发明内容

本申请的目的在于提供一种医学影像报告信息抽取方法，其用于解决现有技术中医学影像报告查阅不便的问题。

为实现上述目的，本申请提供了一种医学影像报告信息抽取方法，所述方法包括：

基于光学字符识别OCR模型从目标医学影像报告中识别出文本信息；

将所述文本信息组装为段落文本，以过滤出目标类型文本信息；

分别基于第一神经网络模型和Trie树从所述目标类型文本信息中抽取实体信息；

基于词频概率对所述抽取的实体信息进行合并，以确定目标实体信息；

基于第二神经网络模型从所述目标实体信息中抽取关系信息。

一实施例中，基于光学字符识别OCR模型从目标医学影像报告中识别出文本信息，具体包括：

将所述目标医学影像报告旋转至设定角度，并检测其中的连续文本坐标；

基于所述连续文本坐标进行透视变换，以获取文本区域图片；

基于所述OCR模型从所述文本区域图片中识别出文本信息。

一实施例中，将所述文本信息组装为段落文本，以过滤出目标类型文本信息，具体包括：

基于文本字符间距和文本行间距，将所述文本信息组装为段落文本；

基于所述段落文本中文本行的字数以及文本缩进，确定候选文本信息；

以所述候选文本信息匹配目标文本库，以过滤出目标类型文本信息。

一实施例中，所述第一神经网络模型的训练过程包括：

获取样本医学影像报告，其中，所述样本医学影像报告中标注有实体信息，且所述标注的实体信息至少两两标注有关联关系；

基于所述样本医学影像报告对所述第一神经网络模型进行训练。

一实施例中，基于词频概率对所述抽取的实体信息进行合并，以确定目标实体信息，具体包括：

将所述目标类型文本信息划分为若干文本片段信息；

基于所述第一神经网络模型抽取的实体信息，分别确定所述若干文本片段信息的第一划分组词频概率；

基于所述Trie树抽取的实体信息，分别确定所述若干文本片段信息的第二划分组词频概率；

分别将所述第一划分组词频概率和第二划分组词频概率中较大者对应的实体信息，确定为各文本片段信息的目标实体信息。

一实施例中，基于所述第一神经网络模型抽取的实体信息，分别确定所述若干文本片段信息的第一划分组词频概率，具体包括：

基于所述第一神经网络模型抽取的实体信息，分别确定所述若干文本片段信息中的第一划分组实体；

从预训练词频库中获取所述第一划分组实体的词频；

基于分词模型和所述第一划分组实体的词频，分别确定所述若干文本片段信息中除第一划分组实体外的第一划分组词汇；

从所述预训练词频库中获取所述第一划分组词汇的词频；

基于所述第一划分组实体的词频和第一划分组词汇的词频，分别确定所述若干文本片段信息的第一划分组词频概率。

一实施例中，基于所述Trie树抽取的实体信息，分别确定所述若干文本片段信息的第二划分组词频概率，具体包括：

基于所述Trie树抽取的实体信息，分别确定所述若干文本片段信息中的第二划分组实体；

从预训练词频库中获取所述第二划分组实体的词频；

基于分词模型和所述第二划分组实体的词频，分别确定所述若干文本片段信息中除第二划分组实体外的第二划分组词汇；

从所述预训练词频库中获取所述第二划分组词汇的词频；

基于所述第二划分组实体的词频和第二划分组词汇的词频，分别确定所述若干文本片段信息的第二划分组词频概率。

一实施例中，所述方法还包括：

基于样本实体词库，确定样本医学语料中的样本实体；

配置所述样本医学语料中的样本实体的词频，以供所述分词模型划分出所述样本医学语料中除样本实体外的样本词汇；

构建所述预训练词频库，其中，所述预训练词频库包括所述配置的样本实体的词频、样本词汇的词频、以及样本医学语料的总词频。

一实施例中，基于第二神经网络模型从所述目标实体信息中抽取关系信息，具体包括：

获取与所述目标实体信息相匹配的标识；

基于所述第二神经网络模型，提取所述目标实体信息的标识的隐藏状态特征向量；

将任意两个目标实体信息的标识的隐藏状态特征向量进行拼接，得到所述任意两个标识的关系向量；

将所述关系向量进行组合，并对得到的向量矩阵进行分类，以获得所述目标实体信息的关系信息。

一实施例中，所述实体信息包括部位、疾病、症状、检测项目、数值、病灶、修饰词、检查名称、指代词、未见疾病中的至少一种；和/或，

所述关系信息包括症状表现部位、结果、修饰、检测项目、病变部位、指代、侵犯部位、病灶倾向中的至少一种。

一实施例中，所述方法还包括：

以所述实体信息中的部位作为主实体，使用所述目标类型文本信息中抽取的所述关系信息对所述实体信息进行连接，获得所述目标类型文本信息的知识图谱。

本申请还提供一种医学影像报告信息抽取装置，所述医学影像报告信息抽取装置包括：

识别模块，用于基于光学字符识别OCR模型从目标医学影像报告中识别出文本信息；

过滤模块，用于将所述文本信息组装为段落文本，以过滤出目标类型文本信息；

实体抽取模块，用于分别基于第一神经网络模型和Trie树从所述目标类型文本信息中抽取实体信息；

确定模块，用于基于词频概率对所述抽取的实体信息进行合并，以确定目标实体信息；

关系抽取模块，用于基于第二神经网络模型从所述目标实体信息中抽取关系信息。

本申请还提供一种电子设备，包括：

至少一个处理器；以及

存储器，所述存储器存储指令，当所述指令被所述至少一个处理器执行时，使得所述至少一个处理器执行如上所述的医学影像报告信息抽取方法。

本申请还提供一种机器可读存储介质，其存储有可执行指令，所述指令当被执行时使得所述机器执行如上所述的医学影像报告信息抽取方法。

与现有技术相比，根据本申请的医学影像报告信息抽取方法，其通过OCR模型识别目标医学影像报告中的文本信息，并在组装成段落文本后过滤出目标类型文本信息，从而供抽取目标实体信息和关系信息，这样，使用者可以方便地查阅医学影像报告的关键信息；并且，在目标实体信息抽取中还使用词频概率对第一神经网络模型和Trie树的抽取结果进行合并，保证了信息抽取的可靠性。

附图说明

图1是本申请医学影像报告信息抽取方法应用的场景示意图；

图2是根据本申请一实施例医学影像报告信息抽取方法的流程图；

图3是根据本申请一实施例医学影像报告信息抽取方法中报告旋转的场景示意图；

图4是根据本申请一实施例医学影像报告信息抽取方法中连续文本检测的场景示意图；

图5是根据本申请一实施例医学影像报告信息抽取方法中，供第一神经网络模型训练的样本医学影像报告标注示意图；

图6是根据本申请一实施例医学影像报告信息抽取方法中，基于样本实体词库构建Trie树的场景示意图；

图7是根据本申请一实施例医学影像报告信息抽取方法中展示知识图谱的场景示意图；

图8根据本申请一实施例医学影像报告信息抽取装置的模块图；

图9是根据本申请一实施方式电子设备的硬件结构图。

具体实施方式

以下将结合附图所示的各实施方式对本申请进行详细描述。但该等实施方式并不限制本申请，本领域的普通技术人员根据该等实施方式所做出的结构、方法、或功能上的变换均包含在本申请的保护范围内。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

医学影像报告是重要的医疗文书，在临床诊治过程中发挥重要作用。医学影像报告具有客观性和主观性的双重属性。一方面，报告需要客观描述影像所见，真实地记录病变特点；另一方面，报告中又包含根据图像做出的主观评价。由于不同医院、不同系统及人员的差异，导致对诊断报告的归纳和描述千差万别，并且很难直观地从其中获得医生感兴趣的信息。

参图1，在本申请应用的一个典型场景中，服务器可以接收医学影像报告的电子文件，并通过其中配置的机器学习模型，对医学影像报告中的目标实体信息和关系信息进行抽取；同时，服务器还可以进一步对抽取的目标实体信息和关系信息进行整合，并在显示终端上以知识图谱的形式进行展示。通过这样的应用，医生可以快速、直观地获取医学影像报告中的关键信息。

参图2，介绍本申请医学影像报告信息抽取方法的一实施例。在本实施例中，该方法包括：

S11、基于光学字符识别OCR模型从目标医学影像报告中识别出文本信息。

光学字符识别（Optical Character Recognition，OCR）是指针对印刷体字符，通过光学成像设备转换为电子文件，并利用识别软件将电子文件中的文字转换为文本格式。本申请实施例中的目标医学影像报告是指已经利用成像设备转换为计算机可读的电子医学影像报告。

示范性地，成像设备可以是扫描仪、数码相机、带摄像功能的移动终端等，目标医学影像报告的格式可以是PDF、JPG、PNG、BMP等。

在实际应用场景中，医学影像报告在转换为电子文件的过程中可能会被保存为多种角度，并且报告内容上，可能会产生整体图像的变形、偏转等，从而导致字符识别的不可靠。因此，在利用OCR模型识别文本信息之前，可以对目标医学影像报告进行标准化的预处理。

配合参图3，本实施例中，首先可以将目标医学影像报告旋转至设定角度。对于目标医学影像报告而言，常见的角度有0°、90°、180°以及270°，其中，0°为常规视角的角度，90°为0°向右旋转90°，其它角度同理。本实施例中，可以选择将目标医学影像报告都统一旋转至0°，以便于后续处理。

一实施例中，可以使用轻量级神经网络模型mobileNetv3实施目标医学影像报告的旋转，其可以将目标医学影像报告分为0°、90°、180°以及270°四个类别，进而根据目标医学影像报告的角度类别确定对应的旋转角度。

配合参图4，其次，检测旋转至设定角度的目标医学影像报告中的连续文本坐标，例如，可以是检测连续文本的四个顶点：左上、右上、右下、以及左下的顶点坐标。

一实施例中，可以使用DBNet网络模型实施连续文本的坐标检测，并且，综合性能考虑，其主干网络（backbone）可以采用resnet18。DBNet网络可以为目标医学影像报告中的连续文本匹配对应的文本框，从而将这些文本框的四个顶点的坐标确定为对应的连续文本坐标。

根据确定的连续文本坐标，可以进行透视变换，以获取目标医学影像报告中的文本区域图片。透视变换的过程是将一个平面通过一个投影矩阵投影到指定的平面上，从而扭转矫正原图像中可能存在的变形和偏转等问题。

最后，再基于OCR模型从文本区域图片中识别出文本信息。

一实施例中，这里的OCR模型可以是CRNN网络模型。

S12、将所述文本信息组装为段落文本，以过滤出目标类型文本信息。

医学影像报告中包括多个的信息区域，例如患者信息区域，影像所见区域，影像诊断区域，诊断医生信息区域等。在不同的应用场景中，可能感兴趣的信息会分布在这其中的一个或多个区域中，因此，需要根据应用场景的不同，过滤出其中的目标类型文本信息。

通常地，不同信息区域在医学影像报告中会对应至不同的段落文本。因此，本实施例中，首先会基于文本字符间距和文本行间距，将文本信息组装为段落文本。

具体地，可以预设一个标准文本字符间距和标准文本行间距。当检测到两个字符的间距大于该标准文本字符间距时，可以认为这两个字符分属于两个段落文本；又或者，检测到两个文本行的间距大于该标准文本行间距时，可以认为这两个文本行分属于两个段落文本。当然，段落文本的组装还可以同时结合文本字符间距和文本行间距的信息，以增强段落组装的可靠性。

配合参图4，对于组装好的的各段落文本而言，可能是对应到一个信息区域中的标题或者正文。例如，超声所见信息区域包括标题“超声所见”、以及具体的内容“心房正位，……”。对应到本实施例中，可以基于段落文本中文本行的字数以及文本缩进，确定候选文本信息。

具体地，可以根据搜集的常见标题预设一个标准文本行字数，当某个文本行的字数小于该标准文本行字数时，可以认为文本行可能为一个信息区域的标题；同时，还可以结合该文本行是否有缩进，进行进一步确认其是否为标题。

例如，当检测到文本行“超声所见”没有缩进且字数小于标准文本行字数（6个字），则将“超声所见”文本行确定为一个信息区域的标题，而与“超声所见”文本行相邻的下一个段落文本“心房正位，……”确定为该信息区域的正文。

根据信息区域的标题，可以对不同信息区域内容进行区分。本实施例中，可以将此时“标题+正文”构成形式的各信息区域内容视作为候选文本信息。

在筛选目标类型的文本信息时，根据应用场景的不同，可以预置一个目标文本库，目标文本库中存储有目标类型信息区域的标题。进而，可以利用候选文本信息中的标题与该目标文本库进行匹配，并将匹配成功的标题对应的候选文本信息确定为目标类型的文本信息。

示范性地，需要抽取的信息通常存在于医学影像报告中的“超声所见”和“诊断意见”对应的文本中，而“姓名”、“挂号序号”、“科别”等通常不包含目标类型的文本信息。则在目标文本库中，只会收录“超声所见”、“诊断意见”等标题，“姓名”、“挂号序号”、“科别”等标题不会被收录。这样，在利用候选文本信息匹配目标文本库时，只会对应过滤出“超声所见”和“诊断意见”的文本信息。

S13、分别基于第一神经网络模型和Trie树从所述目标类型文本信息中抽取实体信息。

信息抽取（Information Extraction，IE）是从自然语言文本中抽取出特定的事件或事实信息，帮助将海量内容自动分类、提取和重构。这些信息通常包括实体（entity）、关系（relation）、事件（event）等。

本实施例中，抽取的实体信息可以包括部位、疾病、症状、检测项目、数值、病灶、修饰词、检查名称、指代词、未见疾病中的至少一种。

配合参图5，在使用第一神经网络模型前，可以先利用样本医学影像报告对其进行针对性地训练。这里的样本医学影像报告中标注有实体信息，且标注的实体信息至少两两标注有关联关系。

例如，样本医学影像报告中的一段文本内容：“与我院2020-03-04旧片比较，左侧颌下腺缺如，残端结构紊乱，考虑术后改变可能性大，请结合临床。双侧颈部及颌下区多个淋巴结显示，较前变化不大。”其中的“左侧颌下腺”、“缺如”、“残端”、“结构紊乱”、“双侧颈部”、“颌下区”、“多个淋巴结”、“较前变化不大”为实体信息。其中，实体信息的类型标注中，“左侧颌下腺”、“双侧颈部”、“颌下区”为部位，“缺如”、“结构紊乱”、“较前变化不大”为症状，“残端”为指代词，“多个淋巴结”为病灶。部位、症状、指代词以及病灶之间关联关系标注中，“残端”是用于指代“左侧颌下腺”，“缺如”的症状表现部位为“左侧颌下腺”，“多个淋巴结”的病变部位为“双侧颈部”、“颌下区”。

一实施例中，这里的第一神经网络模型可以是roberta-tiny+crf。

配合参图6，Trie树可以是基于样本实体词库进行构建，Trie树包括：根节点root、分支节点、以及叶子节点。其中根节点不代表任何字符，每个分支节点包含一个字符，从根节点到叶子节点，路径上经过的字符连接起来，构成一个实体词。叶子节点内的数字代表该实体词在Trie树种所处的链路，具有共同前缀的链路称为串。

在Trie树构建中可以设定：①具有相同前缀实体词必须位于同一个串内；例如“左侧”、“左下侧”两个词都有“左”这个前缀，那么在 Trie 树上只需构建一个 “左” 节点，“侧”和“下”节点共用一个父节点即可，如此两个词便只需四个节点便可存储，减少了数据存储量；②Trie 树中的词只可共用前缀，不可共用词的其它部分；例如“左侧颌下腺”、“下侧”这两个词虽然前一个词的部分是后一个词的前缀，但在树形上必须是独立的两条链路，而不可以通过首尾交接构建这两个词；③Trie 树中任何一个完整的词，都必须是从根节点开始至叶子节点结束，对一个词进行检索也必须从根节点开始，至叶子节点结束。

在Trie树构建完毕后，可以使用其从目标类型文本信息中抽取实体信息。

S14、基于词频概率对所述抽取的实体信息进行合并，以确定目标实体信息。

利用第一神经网络模型抽取的实体信息，通常具有较好的泛化性能，但对于某些特殊的句式或者表达，模型的拟合效果可能不够好，以至于误抽取或漏抽取。因此，通过利用Trie树进一步抽取实体信息，并将两者抽取的实体信息进行合并，可以更好地保证实体信息抽取的准确性。

本实施例中，可以是找出基于词频概率的最大切分组合，以最终确定目标实体信息。在合并过程中，可以是将目标类型文本信息先划分为若干文本片段信息，并针对每个文本片段信息，比较使用第一神经网络模型抽取的实体信息对应的第一划分组词频概率、和使用Trie抽取的实体信息对应的第二划分组词频概率。

示范性地，可以依据分隔符，例如“，”、“；”、“。”、“

”、“！”等，将目标类型文本信息划分为文本片段信息。

在确定第一划分组词频概率时，可以从预训练词频库中获取第一划分组实体的词频，并基于分词模型和第一划分组实体的词频，分别确定若干文本片段信息中除第一划分组实体外的第一划分组词汇。接着，从预训练词频库中获取第一划分组词汇的词频，并基于第一划分组实体的词频和第一划分组词汇的词频，分别确定若干文本片段信息的第一划分组词频概率。

对于任意一个文本片段信息而言，其中都可能包括能够直接抽取的实体，以及除这些实体外不能被直接抽取的词汇。例如，文本片段信息“患者患有高血压30年”，在使用信息抽取技术进行抽取时，只能抽取到其中的实体“高血压”，而除此之外的其它词汇并不会被作为实体而抽取。

对应到本实施例中，在使用第一神经网络模型抽取实体信息时，将各文本片段信息中可被其直接抽取的部分作为“第一划分组实体”，而文本片段信息中的剩余内容则使用分词模型进行分割，获得“第一划分组词汇”。

一实施例中，这里的分词模型可以是jieba模型。

预训练词频库可以是基于样本实体词库和样本医学语料进行训练。具体地，可以先基于样本实体词库确定样本医学语料中的样本实体，并为这些样本实体配置词频，以供分词模型划分出样本医学语料中除样本实体外的样本词汇。

在为样本实体配置词频时，可以根据实际应用场景，配置一个相对较大的词频

。由于样本实体本身是已经确定的的实体信息，通过为其设置较大的词频，可以使分词模型分词时，减小对其再进行分割的可能。

在分词结束后，可以确定样本医学语料中各样本实体的词频

、样本词汇的词频

、以及样本医学语料的总词频FREQ，而这些都将用于构建上述的预训练词频库。

本实施例中，词频概率可以是一个文本片段信息中所有的实体、词汇、以及其它未登录词相对上述的总词频FREQ的概率之和。例如，一个文本片段信息中各第一划分组实体的词频概率为

（假设有i个实体），各第一划分组词汇的词频概率为

（假设有j个词汇），各第一划分组未登录词的词频概率为

（假设有k个未登录词，且未登录词的词频设置为1），则该文本片段信息最终的第一划分组词频概率为：

+

+

。

在实际的应用中，为了防止上述词频概率的计算下溢，还可以对各计算结果取对数，并再以取对数后的各词频概率计算第一划分组词频概率。

类似地，在确定第二划分组词频概率时，也可以从预训练词频库中获取第二划分组实体的词频，并基于分词模型和第二划分组实体的词频，分别确定若干文本片段信息中除第二划分组实体外的第二划分组词汇。接着，从预训练词频库中获取第二划分组词汇的词频，并基于第二划分组实体的词频和第二划分组词汇的词频，分别确定若干文本片段信息的第二划分组词频概率。

本实施例中，第二划分组词频概率的确定方法可以部分或者全部地参考上述第一划分组词频概率的确定方法，在此不再赘述。

在确定各文本片段信息的第一划分组词频概率和第二划分组词频概率后，可以选择其中较大者对应的实体信息，确定为各文本片段信息的目标实体信息。

S15、基于第二神经网络模型从所述目标实体信息中抽取关系信息。

本实施例中，可以是获取与目标实体信息相匹配的标识，并基于第二神经网络模型，提取目标实体信息的标识的隐藏状态特征向量；随后，将任意两个目标实体信息的标识的隐藏状态特征向量进行拼接，得到该任意两个标识的关系向量；最后，将关系向量进行组合，并对得到的向量矩阵进行分类，以获得目标实体信息的关系信息。

实际应用中，可以根据目标实体信息实际表示的意思匹配标识，例如：将医学影像报告中表示疾病的实体信息可以统一标识为“DIS”，将医学影像报告中的表示时间的实体信息可以统一标识为“TIME”。例如，对于一个文本片段信息“患者患有高血压30年”，可以将“高血压”统一标注为“DIS”，将“30年”、统一标注为“TIME”。

隐藏状态特征向量的维度与第二神经网络中隐藏层的神经元个数相同。假设，隐藏层神经元的个数为h，则每个标识的隐藏状态特征向量的维度为h，对应拼接成的关系向量的维度为2h。

实际应用中，可以采用多层感知机（Multilayer Perceptron，MLP）对向量矩阵进行分类，得到目标实体信息中的实体关系。目标实体信息之间的关系可以按照有无关系进行分类，例如：“患者患有高血压30年，于今年3月入院。”，在该文本中，经过多层感知机进行分类后，输出的结果为：“高血压”与“30年”有关系，“高血压”与“今年3月”无关系。其中，对于“高血压”与“30年”有关系还可以按照开始时间、持续时间以及结束时间进行进一步关系信息提取。

一实施例中，抽取的关系信息可以包括症状表现部位、结果、修饰、检测项目、病变部位、指代、侵犯部位、病灶倾向中的至少一种，第二神经网络模型可以是roberta-tiny。

在本申请的实施例中，对于从医学影像报告中抽取的目标实体信息和关系信息，可使用知识图谱（Knowledge Graph，KG）的方式进行展示。

知识图谱是显示知识发展进程与结构关系的一系列各种不同的图形，用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。

配合参图7，本实施例中，以实体信息中的部位作为主实体，使用目标类型文本信息中抽取的关系信息对实体信息进行连接，从而获得目标类型文本信息的知识图谱。

例如，一份医学影像报告中，包括三个部位：肝内胆管、肝右叶、肝左叶。在知识图谱中，可以以这三个部位作为主实体，并将其挂载在该医学影像报告上。其次，以目标实体信息：“肝右叶”、“较宽处”、“内径”、“6.4mm”为例，“较宽处”是指代“肝右叶”、“内径”是该“较宽处”的检测项目、“6.4mm”是该“检测项目”的结果，因此，通过“指代”、“检测项目”、“结果”三个关系信息可以将上述的目标实体信息进行连接。

当每个主实体对应的连接路径全部挂载到该医学影像报告上后，即可视为获得了该医学影像报告中全部目标实体信息和关系信息的知识图谱。

参图8，介绍本申请医学影像报告信息抽取装置的一实施例。在本实施例中，该医学影像报告信息抽取装置包括识别模块21、过滤模块22、实体抽取模块23、确定模块24、以及关系抽取模块25。

识别模块21用于基于光学字符识别OCR模型从目标医学影像报告中识别出文本信息；过滤模块22用于将文本信息组装为段落文本，以过滤出目标类型文本信息；实体抽取模块23用于分别基于第一神经网络模型和Trie树从目标类型文本信息中抽取实体信息；确定模块24用于基于词频概率对抽取的实体信息进行合并，以确定目标实体信息；关系抽取模块25用于基于第二神经网络模型从目标实体信息中抽取关系信息。

一实施例中，识别模块21具体用于将目标医学影像报告旋转至设定角度，并检测其中的连续文本坐标；基于连续文本坐标进行透视变换，以获取文本区域图片；基于OCR模型从文本区域图片中识别出文本信息。

一实施例中，过滤模块22具体用于基于文本字符间距和文本行间距，将文本信息组装为段落文本；基于段落文本中文本行的字数以及文本缩进，确定候选文本信息；以候选文本信息匹配目标文本库，以过滤出目标类型文本信息。

一实施例中，医学影像报告信息抽取装置还包括第一神经网络模型训练模块26，用于获取样本医学影像报告，其中，样本医学影像报告中标注有实体信息，且标注的实体信息至少两两标注有关联关系；基于样本医学影像报告对第一神经网络模型进行训练。

一实施例中，确定模块24具体用于将目标类型文本信息划分为若干文本片段信息；基于第一神经网络模型抽取的实体信息，分别确定若干文本片段信息的第一划分组词频概率；基于Trie树抽取的实体信息，分别确定若干文本片段信息的第二划分组词频概率；分别将第一划分组词频概率和第二划分组词频概率中较大者对应的实体信息，确定为各文本片段信息的目标实体信息。

一实施例中，确定模块24具体用于基于第一神经网络模型抽取的实体信息，分别确定若干文本片段信息中的第一划分组实体；从预训练词频库中获取第一划分组实体的词频；基于分词模型和第一划分组实体的词频，分别确定若干文本片段信息中除第一划分组实体外的第一划分组词汇；从预训练词频库中获取第一划分组词汇的词频；基于第一划分组实体的词频和第一划分组词汇的词频，分别确定若干文本片段信息的第一划分组词频概率。

一实施例中，确定模块24具体用于基于Trie树抽取的实体信息，分别确定若干文本片段信息中的第二划分组实体；从预训练词频库中获取第二划分组实体的词频；基于分词模型和第二划分组实体的词频，分别确定若干文本片段信息中除第二划分组实体外的第二划分组词汇；从预训练词频库中获取第二划分组词汇的词频；基于第二划分组实体的词频和第二划分组词汇的词频，分别确定若干文本片段信息的第二划分组词频概率。

一实施例中，医学影像报告信息抽取装置还包括词频库训练模块27，用于基于样本实体词库，确定样本医学语料中的样本实体；配置样本医学语料中的样本实体的词频，以供分词模型划分出样本医学语料中除样本实体外的样本词汇；构建预训练词频库，其中，预训练词频库包括配置的样本实体的词频、样本词汇的词频、以及样本医学语料的总词频。

一实施例中，关系抽取模块25具体用于获取与目标实体信息相匹配的标识；基于第二神经网络模型，提取目标实体信息的标识的隐藏状态特征向量；将任意两个目标实体信息的标识的隐藏状态特征向量进行拼接，得到任意两个标识的关系向量；将关系向量进行组合，并对得到的向量矩阵进行分类，以获得目标实体信息的关系信息。

一实施例中，实体信息包括部位、疾病、症状、检测项目、数值、病灶、修饰词、检查名称、指代词、未见疾病中的至少一种；和/或，

关系信息包括症状表现部位、结果、修饰、检测项目、病变部位、指代、侵犯部位、病灶倾向中的至少一种。

一实施例中，医学影像报告信息抽取装置还包括知识图谱构建模块，用于以实体信息中的部位作为主实体，使用目标类型文本信息中抽取的关系信息对实体信息进行连接，获得目标类型文本信息的知识图谱。

如上参照图1至图7，对根据本说明书实施例医学影像报告信息抽取方法进行了描述。在以上对方法实施例的描述中所提及的细节，同样适用于本说明书实施例的医学影像报告信息抽取装置。上面的医学影像报告信息抽取装置可以采用硬件实现，也可以采用软件或者硬件和软件的组合来实现。

图9示出了根据本说明书的实施例的电子设备的硬件结构图。如图9所示，电子设备30可以包括至少一个处理器31、存储器32(例如非易失性存储器)、内存33和通信接口34，并且至少一个处理器31、存储器32、内存33和通信接口34经由总线35连接在一起。至少一个处理器31执行在存储器32中存储或编码的至少一个计算机可读指令。

应该理解，在存储器32中存储的计算机可执行指令当执行时使得至少一个处理器31进行本说明书的各个实施例中以上结合图1至图7描述的各种操作和功能。

在本说明书的实施例中，电子设备30可以包括但不限于：个人计算机、服务器计算机、工作站、桌面型计算机、膝上型计算机、笔记本计算机、移动电子设备、智能电话、平板计算机、蜂窝电话、个人数字助理(PDA)、手持装置、消息收发设备、可佩戴电子设备、消费电子设备等等。

根据一个实施例，提供了一种比如机器可读介质的程序产品。机器可读介质可以具有指令(即，上述以软件形式实现的元素)，该指令当被机器执行时，使得机器执行本说明书的各个实施例中以上结合图1-图7描述的各种操作和功能。具体地，可以提供配有可读存储介质的系统或者装置，在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统或者装置的计算机或处理器读出并执行存储在该可读存储介质中的指令。

在这种情况下，从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此机器可读代码和存储机器可读代码的可读存储介质构成了本说明书的一部分。

可读存储介质的实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD-RW)、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上或云上下载程序代码。

本领域技术人员应当理解，上面公开的各个实施例可以在不偏离发明实质的情况下做出各种变形和修改。因此，本说明书的保护范围应当由所附的权利要求书来限定。

需要说明的是，上述各流程和各系统结构图中不是所有的步骤和单元都是必须的，可以根据实际的需要忽略某些步骤或单元。各步骤的执行顺序不是固定的，可以根据需要进行确定。上述各实施例中描述的装置结构可以是物理结构，也可以是逻辑结构，即，有些单元可能由同一物理客户实现，或者，有些单元可能分由多个物理客户实现，或者，可以由多个独立设备中的某些部件共同实现。

以上各实施例中，硬件单元或模块可以通过机械方式或电气方式实现。例如，一个硬件单元、模块或处理器可以包括永久性专用的电路或逻辑(如专门的处理器，FPGA或ASIC)来完成相应操作。硬件单元或处理器还可以包括可编程逻辑或电路(如通用处理器或其它可编程处理器)，可以由软件进行临时的设置以完成相应操作。具体的实现方式(机械方式、或专用的永久性电路、或者临时设置的电路)可以基于成本和时间上的考虑来确定。

上面结合附图阐述的具体实施方式描述了示例性实施例，但并不表示可以实现的或者落入权利要求书的保护范围的所有实施例。在整个本说明书中使用的术语“示例性”意味着“用作示例、实例或例示”，并不意味着比其它实施例“优选”或“具有优势”。出于提供对所描述技术的理解的目的，具体实施方式包括具体细节。然而，可以在没有这些具体细节的情况下实施这些技术。在一些实例中，为了避免对所描述的实施例的概念造成难以理解，公知的结构和装置以框图形式示出。

本公开内容的上述描述被提供来使得本领域任何普通技术人员能够实现或者使用本公开内容。对于本领域普通技术人员来说，对本公开内容进行的各种修改是显而易见的，并且，也可以在不脱离本公开内容的保护范围的情况下，将本文所对应的一般性原理应用于其它变型。因此，本公开内容并不限于本文所描述的示例和设计，而是与符合本文公开的原理和新颖性特征的最广范围相一致。

Claims

1.一种医学影像报告信息抽取方法，其特征在于，所述方法包括：

基于第二神经网络模型从所述目标实体信息中抽取关系信息；

其中，基于词频概率对所述抽取的实体信息进行合并，以确定目标实体信息，具体包括：

将所述目标类型文本信息划分为若干文本片段信息；

分别将所述第一划分组词频概率和第二划分组词频概率中较大者对应的实体信息，确定为各文本片段信息的目标实体信息；

基于所述第一神经网络模型抽取的实体信息，分别确定所述若干文本片段信息的第一划分组词频概率，具体包括：

从预训练词频库中获取所述第一划分组实体的词频；

从所述预训练词频库中获取所述第一划分组词汇的词频；

基于所述第一划分组实体的词频和第一划分组词汇的词频，分别确定所述若干文本片段信息的第一划分组词频概率；

基于所述Trie树抽取的实体信息，分别确定所述若干文本片段信息的第二划分组词频概率，具体包括：

从预训练词频库中获取所述第二划分组实体的词频；

从所述预训练词频库中获取所述第二划分组词汇的词频；

2.根据权利要求1所述的医学影像报告信息抽取方法，其特征在于，基于光学字符识别OCR模型从目标医学影像报告中识别出文本信息，具体包括：

基于所述OCR模型从所述文本区域图片中识别出文本信息。

3.根据权利要求1所述的医学影像报告信息抽取方法，其特征在于，将所述文本信息组装为段落文本，以过滤出目标类型文本信息，具体包括：

4.根据权利要求1所述的医学影像报告信息抽取方法，其特征在于，所述第一神经网络模型的训练过程包括：

5.根据权利要求1所述的医学影像报告信息抽取方法，其特征在于，所述方法还包括：

基于样本实体词库，确定样本医学语料中的样本实体；

6.根据权利要求1所述的医学影像报告信息抽取方法，其特征在于，基于第二神经网络模型从所述目标实体信息中抽取关系信息，具体包括：

获取与所述目标实体信息相匹配的标识；

7.根据权利要求1所述的医学影像报告信息抽取方法，其特征在于，所述实体信息包括部位、疾病、症状、检测项目、数值、病灶、修饰词、检查名称、指代词、未见疾病中的至少一种；和/或，

8.根据权利要求7所述的医学影像报告信息抽取方法，其特征在于，所述方法还包括：

9.一种医学影像报告信息抽取装置，其特征在于，所述医学影像报告信息抽取装置包括：

关系抽取模块，用于基于第二神经网络模型从所述目标实体信息中抽取关系信息；

其中，确定模块具体：

用于将目标类型文本信息划分为若干文本片段信息；基于第一神经网络模型抽取的实体信息，分别确定若干文本片段信息的第一划分组词频概率；基于Trie树抽取的实体信息，分别确定若干文本片段信息的第二划分组词频概率；分别将第一划分组词频概率和第二划分组词频概率中较大者对应的实体信息，确定为各文本片段信息的目标实体信息；

基于第一神经网络模型抽取的实体信息，分别确定若干文本片段信息中的第一划分组实体；从预训练词频库中获取第一划分组实体的词频；基于分词模型和第一划分组实体的词频，分别确定若干文本片段信息中除第一划分组实体外的第一划分组词汇；从预训练词频库中获取第一划分组词汇的词频；基于第一划分组实体的词频和第一划分组词汇的词频，分别确定若干文本片段信息的第一划分组词频概率；

基于Trie树抽取的实体信息，分别确定若干文本片段信息中的第二划分组实体；从预训练词频库中获取第二划分组实体的词频；基于分词模型和第二划分组实体的词频，分别确定若干文本片段信息中除第二划分组实体外的第二划分组词汇；从预训练词频库中获取第二划分组词汇的词频；基于第二划分组实体的词频和第二划分组词汇的词频，分别确定若干文本片段信息的第二划分组词频概率。

10. 一种电子设备，包括：

至少一个处理器；以及

存储器，所述存储器存储指令，当所述指令被所述至少一个处理器执行时，使得所述至少一个处理器执行如权利要求1至8任一项所述的医学影像报告信息抽取方法。

11.一种机器可读存储介质，其存储有可执行指令，所述指令当被执行时使得所述机器执行如权利要求1至8任一项所述的医学影像报告信息抽取方法。