CN110047569A - 基于胸片报告生成问答数据集的方法、装置及介质 - Google Patents

基于胸片报告生成问答数据集的方法、装置及介质 Download PDF

Info

Publication number
CN110047569A
CN110047569A CN201910282228.7A CN201910282228A CN110047569A CN 110047569 A CN110047569 A CN 110047569A CN 201910282228 A CN201910282228 A CN 201910282228A CN 110047569 A CN110047569 A CN 110047569A
Authority
CN
China
Prior art keywords
rabat
report
question
answer
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910282228.7A
Other languages
English (en)
Other versions
CN110047569B (zh
Inventor
江瑞
汪洁
谢震
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201910282228.7A priority Critical patent/CN110047569B/zh
Publication of CN110047569A publication Critical patent/CN110047569A/zh
Application granted granted Critical
Publication of CN110047569B publication Critical patent/CN110047569B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H15/00ICT specially adapted for medical reports, e.g. generation or transmission thereof

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于胸片报告生成问答数据集的方法、装置及介质,其中,方法包括以下步骤:步骤S1,获取原始胸片报告;步骤S2,基于词性编码对所述原始胸片报告进行简化处理,得到简化后的胸片报告和对应的词性编码文件;步骤S3,根据简化后的胸片报告和对应的词性编码文件生成胸片报告的问答数据集。本发明能够极大地简化复杂的原始胸片报告,既保留了胸片报告的关键信息,又提高了胸片报告的结构性。并且,基于词性编码的方法具有普遍适用性,只要收集影像报告中的对应词汇,就能够应用于各种影像报告的分析。本发明生成的问答数据集,可以作为公开数据集用于对胸片的研究。

Description

基于胸片报告生成问答数据集的方法、装置及介质
技术领域
本发明涉及人工智能技术领域,具体地,涉及一种基于胸片报告生成问答数据集的方法、装置及介质。
背景技术
数据在机器学习,特别是当前流行的深度学习中扮演着重要的角色。好的数据常常具有准确、结构化、可扩展等特点。医学影像报告是患者数据的一个重要载体,表现出准确客观、结构性差、内容复杂等特点。一方面报告的形式和内容因为医生的写作用词习惯而有不同的呈现,故其结构性差。另一方面,医学影像报告涉及很强的医学专业知识,并且其诊断结果往往是医生融合了患者的病史和其他检查,经过较为全面的推理而得出的判断,故医学影像报告的内容比较复杂。
目前,应用医学影像报告数据集对胸部X光图像(即胸片)进行研究时,应用较为广泛的一个医学影像报告数据集是一个去敏感的胸片报告数据集,该数据集被用于研究自动生成影像报告、胸部疾病分类等。但是该数据集呈现如上所述的结构性差、内容复杂等特点。比如,“Heart size is normal”和“Heart is normal in size”使用不同的句子结构表达了相同的含义。单词clear在“Lungs are clear with pleural effusion”和“Lungs areclear of pneumothorax”两句话中表达了不同的含义。这些复杂性使得该胸片报告数据集在上述应用中的难度增加。此外,尽管视觉问答在自然图像中的研究应用广泛,但是目前尚未存在公开的医学影像问答数据集用于对胸片的研究。
发明内容
鉴于以上问题,本发明的目的是提供一种基于胸片报告生成问答数据集的方法、装置及介质,以解决现有未存在医学影像问答数据集以用于胸片研究的问题。
为了实现上述目的,本发明的一个方面是提供一种基于胸片报告生成问答数据集的方法,包括以下步骤:
步骤S1,获取原始胸片报告;
步骤S2,基于词性编码对所述原始胸片报告进行简化处理,得到简化后的胸片报告和对应的词性编码文件;
步骤S3,根据简化后的胸片报告和对应的词性编码文件生成胸片报告的问答数据集。
优选地,所述方法还包括步骤S4:确定生成的问答数据集中的候选问题,其中,候选问题指出现次数超过预设值的问题;根据确定的候选问题、简化后的胸片报告以及词性编码文件对生成的问答数据集进行扩增。
优选地,所述步骤S2包括:根据医学知识确定原始胸片报告中的关键词和非关键词;将原始胸片报告中的非关键词剔除,仅保留关键词;对仅保留关键词的原始胸片报告进行处理,得到简化后的胸片报告;基于词性编码生成与简化后的胸片报告对应的词性编码文件。
优选地,对仅保留关键词的原始胸片报告进行处理,包括:将原始胸片报告中隐藏的正面描述修改为正面描述,将原始胸片报告中隐藏的负面描述修改为负面描述;将原始胸片报告中的长句拆分为多个独立的短句。
优选地,将原始胸片报告中的长句拆分为多个独立的短句,包括:识别原始胸片报告中的长句中的连接词和/或共享单词;根据连接词的位置将长句拆分为多个独立的短句,和/或根据共享单词的位置,将长句除去共享单词的剩余部分拆分成多个句子,将共享单词与拆分得到的多个句子分别连接起来构成多个独立的短句。
优选地,所述步骤S3包括:根据对应的词性编码文件,按照简化后的胸片报告中的每个句子中的每个单词的语义进行答案提取与问题生成;根据提取的答案与生成的问题构建形成胸片报告的问答数据集。
优选地,进行答案提取与问题生成的步骤包括:通过句子中每个单词的语义确定待生成的问题类型以及所述问题类型对应的起始单词;确定待提取答案的句子对应的词性编码文件中与所述问题类型的答案类型相对应的字母;提取与所述字母对应的单词作为答案;由所述问题类型对应的起始单词和句子中作为答案的单词之外的部分构成生成的问题。
优选地,根据确定的候选问题、简化后的胸片报告以及词性编码文件对生成的问答数据集进行扩增,包括:从一个候选问题中提取出查询单词,并根据候选问题的问题类型确定答案类型;将查询单词与简化后的胸片报告进行匹配,若匹配,则进行下一步,若不匹配,则返回上一步;根据匹配结果定位目标语句,其中,目标语句中包含与查询单词相匹配的单词;根据对应的词性编码文件确定目标语句中与答案类型对应的字母;根据与答案类型对应的字母提取目标语句中相对应的单词,作为答案;由候选问题与提取的答案,构成问答对,对问答数据集进行扩增。
本发明的另一个方面是提供一种电子装置,包括:处理器;存储器,所述存储器中包括问答数据集生成程序,所述问答数据集生成程序被所述处理器执行时实现如上所述的基于胸片报告生成问答数据集的方法的步骤。
本发明的再一个方面是提供一种计算机可读存储介质,所述计算机可读存储介质中包括问答数据集生成程序,所述问答数据集生成程序被处理器执行时,实现如上所述的基于胸片报告生成问答数据集的方法的步骤。
与现有技术相比,本发明具有以下优点和有益效果:
本发明能够极大地简化复杂的原始胸片报告,既保留了胸片报告的关键信息,又提高了胸片报告的结构性。并且,基于词性编码的方法具有普遍适用性,只要收集影像报告中的对应词汇,就能够应用于各种影像报告的分析。本发明根据简化后的胸片报告以及词性编码文件生成胸片问答数据集,可以用于对胸片的研究。
附图说明
图1为本发明所述基于胸片报告生成问答数据集的方法的流程示意图;
图2为本发明中问答数据集生成程序的模块示意图。
具体实施方式
下面将参考附图来描述本发明所述的实施例。本领域的普通技术人员可以认识到,在不偏离本发明的精神和范围的情况下,可以用各种不同的方式或其组合对所描述的实施例进行修正。因此,附图和描述在本质上是说明性的,而不是用于限制权利要求的保护范围。此外,在本说明书中,附图未按比例画出,并且相同的附图标记表示相同的部分。
图1为本发明所述基于胸片报告生成问答数据集的方法的流程示意图,如图1所示,本发明所述基于胸片报告生成问答数据集的方法包括以下步骤:
步骤S1,获取原始胸片报告,原始胸片报告为未经处理的胸片报告,是医生或专家融合了病患的病史以及其他检查,得到的针对该病患的胸片报告;
步骤S2,基于词性编码对所述原始胸片报告进行简化处理,得到简化后的胸片报告和对应的词性编码文件,简化的胸片报告保留有胸片报告的关键信息,减少了原始胸片报告的复杂度;
步骤S3,根据简化后的胸片报告和对应的词性编码文件生成胸片报告的问答数据集,生成的问答数据集可以用于对胸片的研究。
本发明的一个实施例中,所述步骤S2包括:根据医学知识确定原始胸片报告中的关键词和非关键词,其中,关键词指的是描述胸片内容的必要词汇,能够反映胸片报告中与胸片有关的关键信息,例如,胸片报告中描述胸片的位置词汇或胸片出现某些病变的词汇等均是关键词,而胸片报告中还可能会包含腹腔、膝盖等描述,则属于非关键词;将原始胸片报告中的非关键词剔除,仅保留关键词,以便于保留胸片报告中的关键信息;对仅保留关键词的原始胸片报告进行处理,得到简化后的胸片报告;将关键词按照词性分类,基于词性编码生成与简化后的胸片报告对应的词性编码文件,使用一个字母对各类别进行词性定义。
本发明的一个可选实施例中,将简化后的胸片报告中的关键词划分为疾病、物体(器官)、位置、属性、存在和指示词六类,疾病类如consolidation,nodule,effusion等;物体类如lung,heart,rib等;位置类如left,right,base等;属性类如clear,normal,small等;存在类如without,with,represent等;指示词如in,within,and等;按照词性分类和编码,每类关键词由一个字母编码,上述六类关键词分别由d,o,l,s,y和指示词本身编码,如下表1所示,从而生成与简化后的胸片报告对应的词性编码文件。
表1
编码字母 编码类型 关键词
d disease atelectasis,effusion,mass,…
o object heart,lung,silhouette,…
l location left,right,bilateral,…
s attribute nodular,unremarkable,acute,…
y existence with,no,represent,…
- indicator in,within,and,…
进一步地,对保留关键词的胸片报告进行处理,以得到简化后的胸片报告,其中,对仅保留关键词的原始胸片报告进行处理,包括:对隐藏的正负面描述进行识别替换以及将长句等价变换为短句。具体地,对隐藏的正负面描述进行识别替换包括:将原始胸片报告中隐藏的正面描述修改为正面描述,将原始胸片报告中隐藏的负面描述修改为负面描述,隐藏的正面和负面描述,分为三类,第一类句子以‘No change’为起始词,它们实际上表述积极的结果,例如,“No change in the small calcified granuloma in the rightupper lobe”,‘No change’是一个隐藏的正面描述,对于此类别,只需删除‘No change’即可修改为正面描述;后两类以单词‘free’和‘clear’及其变体如‘cleared’、‘clearing’等为特征的隐藏的负面描述,例如,‘free’在“The lungs are free of focal airspacedisease”等句子中表示阴性结果,应与“XXXX lucency under the right hemidiaphragmmay represent a focus of free air”等句子中所表示的游动气体相区别。同样,‘clear’在“Clearing of left base airspace disease”等句子中表达否定的意思,应与“Lungare clear bilaterally”等句子中所表达的清晰的意思区别开来。对于这两个类别,首先识别出隐藏的否定表达式,然后将相应的单词更改为‘No’,即可将隐藏的负面描述修改为负面描述。将长句等价变换为短句包括:将原始胸片报告中的长句拆分为多个独立的短句,以通过多个独立的短句清晰地表述胸片报告的内容。
本发明的一个实施例中,将原始胸片报告中的长句拆分为多个独立的短句,包括:识别原始胸片报告中的长句中的连接词和/或共享单词;根据连接词的位置将长句拆分为多个独立的短句,其中,连接词作为一个句子中的特征词,连接两个相对独立的句子,连接词包括`and',`y'(表示词性编码文件中的字母)和`,',这类句子在连接词处被分成两个句子,例如,句子“The lungs are clear without infiltrate”在`y'(`without')处被分为两句,“The lungs are clear”和“Without infiltrate”。
和/或根据共享单词的位置,将长句除去共享单词的剩余部分拆分成多个句子,将共享单词与拆分得到的多个句子分别连接起来构成多个独立的短句。此类句子由多个部分组成,这些部分共享一个词或一个短语(共享单词)。这类长句可以转换成等价的多个短句。根据共享单词可将此类长句分为四种主要的类型:`y',`within o o',`s'和`d'。例如,在句子“No effusions,pneumonia,or pneumothorax”中三种疾病共享`y'-`No',等价于“Noeffusions.No pneumonia.No pneumothorax.”。对于具有共享部分的长句子,首先识别出共享单词,然后将除去共享单词的剩余部分拆分为几个独立的句子,最后将共享部分与每个拆分的句子连接起来,从而构成多个独立的短句。
此外,基于词性编码将编码文件中的‘and’设置为‘p’、‘or’设置为‘p’、‘within’设置为‘w’以及‘in’设置为‘i’,使得简化后的胸片报告中的每个单词都由相应的代表单词类别的单一字母来编码。由于关键词囊括了胸片报告的关键信息,所以简化后的胸片报告保留了原始胸片报告几乎全部的关键信息,并且大大减少了原始胸片报告的复杂度,如下表2所示。
表2
本发明中,使用自然语言处理方法生成与简化后的胸片报告对应的问答对,由多个问答对构建形成问答数据集,以便于对胸片的研究分析。本发明的一个实施例中,根据简化后的胸片报告和对应的词性编码文件生成胸片报告的问答数据集,包括:根据对应的词性编码文件,按照简化后的胸片报告中的每个句子中的每个单词的语义进行答案提取与问题生成;根据提取的答案与生成的问题构建形成胸片报告的问答数据集。进一步地,进行答案提取与问题生成的步骤包括:通过句子中每个单词的语义确定待生成的问题类型以及所述问题类型对应的起始单词,本发明中生成了四类问题,相对应的起始单词分别为:Isthere,Where,How和What is the comparison;确定待提取答案的句子对应的词性编码文件中与所述问题类型的答案类型相对应的字母;提取与所述字母对应的单词作为答案;由所述问题类型对应的起始单词和句子中作为答案的单词之外的部分构成生成的问题。以Isthere问题为例,若句子对应的词性编码文件中含有字母y(表示存在),那么将句子中与y对应的单词被提取出来作为答案,而相应的问题则由Is there和除了答案单词之外的句子的其余部分组成。比如,对于待提取答案的句子“Without acute infiltrate”及其词性编码文件中对应的编码句子“y s d”,提取与y对应的单词`without'作为答案,生成问题为“Isthere acute infiltrate?”。
本发明的一个实施例中,设置七种类型的问答对,分别是:y-How,y-Is There,i-Where,w-How/Where,s-How,l-Where和特殊短语。问题-答案的生成方法对于每个类别几乎是相同的:首先通过检索出待提取答案的句子中,答案所属的模式来识别问题-答案对的类别,然后提取答案模式对应的单词作为答案,最后通过连接该类别所对应问题的特定起始单词(wh-word和be-word)与剩余单词来生成问题。具体地,y-How的问题对应的编码模式为‘y s',如:胸片报告中的句子“The heart is not enlarged”,确定待生成的问题类型以及对应的起始单词为“How”,确定对应的编码字母为“y s”,提取与编码字母对应的单词“notenlarged”作为答案,从而生成问答对“How is the heart?”-“not enlarged”;除此之外,其他含‘y’编码的句子均生成y-Is there问题。i-Where问题处理带有‘i’编码的指示词‘in’的句子,in-短语(‘in’和其后所接的单词)表示位置的描述,例如,胸片报告中的句子“Calcified granuloma in left midlung”生成问答对“Where is calcifiedgranuloma?”-‘in left midlung’。w-How/Where针对含有由‘w’编码的单词‘within’的句子。这类句子对应的问题应分为两类,即How和Where。例如,句子“Pulmonary vasculaturewithin normal limits”应返回问答对“How is pulmonary vasculature?”–‘withinnormal limits’,而句子“focal opacity within right upper lung”应返回问答对“Where is focal opacity?”-‘within right upper lung’。s-How问题则是针对含有编码‘s’,‘s s’,‘s s s’,‘s p s’等的句子,提取这些编码模式对应的单词或短语作为答案,并连接How和句子中的剩余部分构成问题,例如,句子“Clear lungs”生成问答对“How islungs”-‘Clear’。类似地,l-Where问题针对含有编码`l'的句子,相应的l-短语是问题Where对应的答案,例如,“left upper lobe granuloma”对应问答对“Where isgranuloma?”-‘left upper lobe’。特殊短语包含right larger than left,rightgreater than left,left greater than right等,对应What is the comparison问题,例如句子“bilateral pleural effusions,right larger than left”生成问答对“What isthe comparison of bilateral pleural effusions?”-‘right larger than left’。
本发明的一个实施例中,所述方法还包括步骤S4:确定生成的问答数据集中的候选问题,其中,候选问题指出现次数超过预设值的问题,具体地,收集生成的问答数据集中的所有问题,并统计各个问题出现的次数,将出现次数超过预设值(例如8次)的问题作为候选问题,用于扩增问答数据集;根据确定的候选问题、简化后的胸片报告以及词性编码文件对生成的问答数据集进行扩增。对于每一个简化后的胸片报告以及对应的词性编码文件,提问每一个候选问题时,若能够在胸片报告中找到对应的答案,则构成相应的问题-答案对。
具体地,根据确定的候选问题、简化后的胸片报告以及词性编码文件对生成的问答数据集进行扩增,包括:从一个候选问题中提取出查询单词,并根据候选问题的问题类型确定答案类型,其中,查询单词是候选问题的中心字段,即问题起始单词(wh-word和be-word)后面的字段,答案的类型根据问题的起始单词确定,How表示属性,Where表示位置,Isthere表示存在;将查询单词与简化后的胸片报告进行匹配,即将查询单词与简化后的胸片报告中的单词进行逐一核对,以确定简化后的胸片报告中是否包含查询单词,若匹配,则表示简化后的胸片报告中存在包含查询单词的语句,进行下一步定位目标语句,若不匹配,则表示简化后的胸片报告中不存在包含查询单词的语句,返回上一步,舍弃此候选问题,选择下一个候选问题,用于问答数据集的扩增;根据匹配结果定位目标语句,其中,目标语句中包含与查询单词相匹配的单词;根据对应的词性编码文件确定目标语句中与答案类型对应的字母;根据与答案类型对应的字母提取目标语句中相对应的单词,作为答案;由候选问题与提取的答案,构成问答对,对问答数据集进行扩增。由于简化后的胸片报告中每个单词的语义功能已经在词性编码文件中进行了标注,因此提取答案就是提取被编码了答案类型标签的单词。该步骤可有效扩增生成的问答对数据集,扩充倍数为2.3倍。
例如,对于候选问题“Is there consolidation?”,提取的查询单词为“consolidation”,根据问题类型为is there,确定答案类型为是否存在,经过与简化后的胸片报告进行匹配,定位的目标语句为“without focal consolidation”以及对应的词性编码文件为“y s d”,确定与答案类型对应的字母为y,提取目标语句中相应的单词without作为答案,从而构成问答对“Is there consolidation?”-“without”。
本发明所述基于胸片报告生成问答数据集的方法应用于电子装置,所述电子装置可以是电视机、智能手机、平板电脑、计算机等终端设备。
所述电子装置,包括:处理器;存储器,所述存储器中包括问答数据集生成程序,所述问答数据集生成程序被所述处理器执行时实现如下所述的基于胸片报告生成问答数据集的方法的步骤:
获取原始胸片报告;基于词性编码对所述原始胸片报告进行简化处理,得到简化后的胸片报告和对应的词性编码文件;根据简化后的胸片报告和对应的词性编码文件生成胸片报告的问答数据集。
所述电子设备还包括网络接口和通信总线等。其中,网络接口可以包括标准的有线接口、无线接口,通信总线用于实现各个组件之间的连接通信。
存储器包括至少一种类型的可读存储介质,可以是闪存、硬盘、光盘等非易失性存储介质,也可以是插接式硬盘等,且并不限于此,可以是以非暂时性方式存储指令或软件以及任何相关联的数据文件并向处理器提供指令或软件程序以使该处理器能够执行指令或软件程序的任何装置。本发明中,存储器存储的软件程序包括问答数据集生成程序,并可以向处理器提供该问答数据集生成程序,以使得处理器可以执行该问答数据集生成程序,实现问答数据集生成方法的步骤。
处理器可以是中央处理器、微处理器或其他数据处理芯片等,可以运行存储器中的存储程序,例如,本发明中问答数据集生成程序。
所述电子设备还可以包括显示器,显示器也可以称为显示屏或显示单元。在一些实施例中显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode,OLED)触摸器等。显示器用于显示在电子设备中处理的信息以及用于显示可视化的工作界面。
所述电子设备还可以包括用户接口,用户接口可以包括输入单元(比如键盘)、语音输出装置(比如音响、耳机)等。
在其他实施例中,问答数据集生成程序还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器中,并由处理器执行,以完成本发明。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。图2为本发明中问答数据集生成程序的模块示意图,如图2所示,所述问答数据集生成程序可以被分割为:获取模块1、简化模块2和数据集生成模块3。上述模块所实现的功能或操作步骤均与上文类似,此处不再详述,示例性地,例如其中:
获取模块1,获取原始胸片报告;
简化模块2,基于词性编码对所述原始胸片报告进行简化处理,得到简化后的胸片报告和对应的词性编码文件;
数据集生成模块3,根据简化后的胸片报告和对应的词性编码文件生成胸片报告的问答数据集。
本发明之电子装置的具体实施方式与上述基于胸片报告生成问答数据集的方法的具体实施方式大致相同,在此不再赘述。
本发明的一个实施例中,计算机可读存储介质可以是任何包含或存储程序或指令的有形介质,其中的程序可以被执行,通过存储的程序指令相关的硬件实现相应的功能。例如,计算机可读存储介质可以是计算机磁盘、硬盘、随机存取存储器、只读存储器等。本发明并不限于此,可以是以非暂时性方式存储指令或软件以及任何相关数据文件或数据结构并且可提供给处理器以使处理器执行其中的程序或指令的任何装置。所述计算机可读存储介质中包括问答数据集生成程序,所述问答数据集生成程序被处理器执行时,实现如下的问答数据集生成方法:
获取原始胸片报告;基于词性编码对所述原始胸片报告进行简化处理,得到简化后的胸片报告和对应的词性编码文件;根据简化后的胸片报告和对应的词性编码文件生成胸片报告的问答数据集。
本发明之计算机可读存储介质的具体实施方式与上述基于胸片报告生成问答数据集的方法以及电子装置的具体实施方式大致相同,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

Claims (10)

1.一种基于胸片报告生成问答数据集的方法,应用于电子装置,其特征在于,包括以下步骤:
步骤S1,获取原始胸片报告;
步骤S2,基于词性编码对所述原始胸片报告进行简化处理,得到简化后的胸片报告和对应的词性编码文件;
步骤S3,根据简化后的胸片报告和对应的词性编码文件生成胸片报告的问答数据集。
2.根据权利要求1所述的基于胸片报告生成问答数据集的方法,其特征在于,所述方法还包括步骤S4:
确定生成的问答数据集中的候选问题,其中,候选问题指出现次数超过预设值的问题;
根据确定的候选问题、简化后的胸片报告以及词性编码文件对生成的问答数据集进行扩增。
3.根据权利要求1所述的基于胸片报告生成问答数据集的方法,其特征在于,所述步骤S2包括:
根据医学知识确定原始胸片报告中的关键词和非关键词;
将原始胸片报告中的非关键词剔除,仅保留关键词;
对仅保留关键词的原始胸片报告进行处理,得到简化后的胸片报告;
基于词性编码生成与简化后的胸片报告对应的词性编码文件。
4.根据权利要求3所述的基于胸片报告生成问答数据集的方法,其特征在于,对仅保留关键词的原始胸片报告进行处理,包括:
将原始胸片报告中隐藏的正面描述修改为正面描述,将原始胸片报告中隐藏的负面描述修改为负面描述;
将原始胸片报告中的长句拆分为多个独立的短句。
5.根据权利要求4所述的基于胸片报告生成问答数据集的方法,其特征在于,将原始胸片报告中的长句拆分为多个独立的短句,包括:
识别原始胸片报告中的长句中的连接词和/或共享单词;
根据连接词的位置将长句拆分为多个独立的短句,和/或根据共享单词的位置,将长句除去共享单词的剩余部分拆分成多个句子,将共享单词与拆分得到的多个句子分别连接起来构成多个独立的短句。
6.根据权利要求1所述的基于胸片报告生成问答数据集的方法,其特征在于,所述步骤S3包括:
根据对应的词性编码文件,按照简化后的胸片报告中的每个句子中的每个单词的语义进行答案提取与问题生成;
根据提取的答案与生成的问题构建形成胸片报告的问答数据集。
7.根据权利要求6所述的基于胸片报告生成问答数据集的方法,其特征在于,进行答案提取与问题生成的步骤包括:
通过句子中每个单词的语义确定待生成的问题类型以及所述问题类型对应的起始单词;
确定待提取答案的句子对应的词性编码文件中与所述问题类型的答案类型相对应的字母;
提取与所述字母对应的单词作为答案;
由所述问题类型对应的起始单词和句子中作为答案的单词之外的部分构成生成的问题。
8.根据权利要求2所述的基于胸片报告生成问答数据集的方法,其特征在于,根据确定的候选问题、简化后的胸片报告以及词性编码文件对生成的问答数据集进行扩增,包括:
从一个候选问题中提取出查询单词,并根据候选问题的问题类型确定答案类型;
将查询单词与简化后的胸片报告进行匹配,若匹配,则进行下一步,若不匹配,则返回上一步;
根据匹配结果定位目标语句,其中,目标语句中包含与查询单词相匹配的单词;
根据对应的词性编码文件确定目标语句中与答案类型对应的字母;
根据与答案类型对应的字母提取目标语句中相对应的单词,作为答案;
由候选问题与提取的答案,构成问答对,对问答数据集进行扩增。
9.一种电子装置,其特征在于,包括:
处理器;
存储器,所述存储器中包括问答数据集生成程序,所述问答数据集生成程序被所述处理器执行时实现如权利要求1至8中任一项所述的基于胸片报告生成问答数据集的方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括问答数据集生成程序,所述问答数据集生成程序被处理器执行时,实现如权利要求1至8中任一项所述的基于胸片报告生成问答数据集的方法的步骤。
CN201910282228.7A 2019-04-09 2019-04-09 基于胸片报告生成问答数据集的方法、装置及介质 Active CN110047569B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910282228.7A CN110047569B (zh) 2019-04-09 2019-04-09 基于胸片报告生成问答数据集的方法、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910282228.7A CN110047569B (zh) 2019-04-09 2019-04-09 基于胸片报告生成问答数据集的方法、装置及介质

Publications (2)

Publication Number Publication Date
CN110047569A true CN110047569A (zh) 2019-07-23
CN110047569B CN110047569B (zh) 2021-02-26

Family

ID=67276540

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910282228.7A Active CN110047569B (zh) 2019-04-09 2019-04-09 基于胸片报告生成问答数据集的方法、装置及介质

Country Status (1)

Country Link
CN (1) CN110047569B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112309528A (zh) * 2020-10-27 2021-02-02 上海交通大学 一种基于视觉问答方法的医疗影像报告生成方法
CN113392253A (zh) * 2021-06-28 2021-09-14 北京百度网讯科技有限公司 视觉问答模型训练及视觉问答方法、装置、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105608218A (zh) * 2015-12-31 2016-05-25 上海智臻智能网络科技股份有限公司 智能问答知识库的建立方法、建立装置及建立系统
US9971967B2 (en) * 2013-12-12 2018-05-15 International Business Machines Corporation Generating a superset of question/answer action paths based on dynamically generated type sets
CN109101551A (zh) * 2018-07-10 2018-12-28 广州极天信息技术股份有限公司 一种问答知识库的构建方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9971967B2 (en) * 2013-12-12 2018-05-15 International Business Machines Corporation Generating a superset of question/answer action paths based on dynamically generated type sets
CN105608218A (zh) * 2015-12-31 2016-05-25 上海智臻智能网络科技股份有限公司 智能问答知识库的建立方法、建立装置及建立系统
CN109101551A (zh) * 2018-07-10 2018-12-28 广州极天信息技术股份有限公司 一种问答知识库的构建方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DINA DEMNER-FUSHMAN 等: "Preparing a collection of radiology examinations for distribution and retrieval", 《JOURNAL OF THE AMERICAN MEDICAL INFORMATICS ASSOCIATION》 *
王龙: "基于论坛数据的问答挖掘", 《中国优秀硕士学位论文全文数据库》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112309528A (zh) * 2020-10-27 2021-02-02 上海交通大学 一种基于视觉问答方法的医疗影像报告生成方法
CN112309528B (zh) * 2020-10-27 2023-04-07 上海交通大学 一种基于视觉问答方法的医疗影像报告生成方法
CN113392253A (zh) * 2021-06-28 2021-09-14 北京百度网讯科技有限公司 视觉问答模型训练及视觉问答方法、装置、设备及介质
CN113392253B (zh) * 2021-06-28 2023-09-29 北京百度网讯科技有限公司 视觉问答模型训练及视觉问答方法、装置、设备及介质

Also Published As

Publication number Publication date
CN110047569B (zh) 2021-02-26

Similar Documents

Publication Publication Date Title
CN111339774B (zh) 文本的实体关系抽取方法和模型训练方法
JP6799800B2 (ja) 意味情報生成方法、意味情報生成装置、およびプログラム
CN111353310B (zh) 基于人工智能的命名实体识别方法、装置及电子设备
US9691164B2 (en) System and method for symbol-space based compression of patterns
CN110675944A (zh) 分诊方法及装置、计算机设备及介质
CN110121705A (zh) 将语用学原理应用于与可视分析交互的系统和方法
CN109933785A (zh) 用于实体关联的方法、装置、设备和介质
CN108491486B (zh) 模拟病人问诊对话方法、装置、终端设备及存储介质
CN105975531B (zh) 基于对话知识库的机器人对话控制方法和系统
CN112667794A (zh) 一种基于孪生网络bert模型的智能问答匹配方法及系统
CN110134792B (zh) 文本识别方法、装置、电子设备以及存储介质
WO2015093540A1 (ja) フレーズペア収集装置、及びそのためのコンピュータプログラム
US11645447B2 (en) Encoding textual information for text analysis
CN109522416A (zh) 一种金融风险控制知识图谱的构建方法
CN112530584A (zh) 一种医疗诊断辅助方法及系统
CN116151263B (zh) 多模态命名实体识别方法、装置、设备以及存储介质
CN115017303A (zh) 基于新闻文本进行企业风险评估的方法、计算设备和介质
CN111581969B (zh) 医疗术语向量表示方法、装置、存储介质及电子设备
CN113868387A (zh) 一种基于改进tf-idf加权的word2vec医疗相似问题检索方法
CN113590810A (zh) 摘要生成模型训练方法、摘要生成方法、装置及电子设备
CN112199958A (zh) 概念词序列生成方法、装置、计算机设备及存储介质
CN110047569A (zh) 基于胸片报告生成问答数据集的方法、装置及介质
CN116402166A (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
CN116842168B (zh) 跨领域问题处理方法、装置、电子设备及存储介质
CN117454217A (zh) 一种基于深度集成学习的抑郁情绪识别方法、装置及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant