CN110692102A - 从医患对话中捕获详细结构用于在临床文献中使用 - Google Patents

从医患对话中捕获详细结构用于在临床文献中使用 Download PDF

Info

Publication number
CN110692102A
CN110692102A CN201780091415.6A CN201780091415A CN110692102A CN 110692102 A CN110692102 A CN 110692102A CN 201780091415 A CN201780091415 A CN 201780091415A CN 110692102 A CN110692102 A CN 110692102A
Authority
CN
China
Prior art keywords
medical
tool
transcript
tokens
annotated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201780091415.6A
Other languages
English (en)
Inventor
C.科
G.李
P.钟
J.保罗
D.S.S.谢
K.周
D.乔恩泽卡尔
A.拉杰科马尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN110692102A publication Critical patent/CN110692102A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H80/00ICT specially adapted for facilitating communication between medical practitioners or patients, e.g. for collaborative diagnosis, therapy or health monitoring
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H15/00ICT specially adapted for medical reports, e.g. generation or transmission thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/20ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/20ICT specially adapted for the handling or processing of medical references relating to practices or guidelines
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M11/00Telephonic communication systems specially adapted for combination with other electrical systems
    • H04M11/10Telephonic communication systems specially adapted for combination with other electrical systems with dictation recording and playback systems

Abstract

提供了一种方法和系统,用于帮助用户将标记分配给患者和医疗专业人员之间对话的转录本中的词汇或文本跨度,并在转录本中形成如此标记的词汇或文本跨度的分组。转录本被显示在工作站的界面上。提供了用于突出显示转录本中的由一个或多个词汇组成的文本跨度。提供了用于为被突出显示的文本跨度分配标记的另一工具。该工具包括一项特征,可搜索可用于被分配给被突出显示的文本跨度的一组预定义标记。预定义标记对医疗实体和医疗实体的属性进行编码。该界面还包括用于创建相关的被突出显示的文本跨度的分组的工具。这些工具可以由鼠标动作或键盘敲击或它们的组合组成。

Description

从医患对话中捕获详细结构用于在临床文献中使用
背景技术
本公开涉及一种用于促进对医疗接触中的转录的音频或音频-视频录音进行注释的方法和系统。
患者和医疗从业者(诸如医生和护士)之间的对话以及他们的对话经常被录音下来。对话的录音和转录本是患者的病案的一部分。转录本可以由语音到文本(speech-to-text)转换器创建,也可以由受过训练的(人)医疗转录师听取录音来创建。
不带任何注释的转录本在医生检查时用处有限,因为他们必须全神贯注地阅读转录本的许多行或页才能找到相关信息或理解转录本中不同评论的关联性。
此外,医疗接触的转录本的收集可以用来训练机器学习模型。训练机器学习模型需要大量高质量的训练示例,即,被标记的数据。在本领域中,需要一种方法来促进医疗接触的被注释的转录本的生成,即,相关词汇或短语被突出显示并与医疗概念相关联,并且被分组为彼此相关。本公开满足了这一需求。
发明内容
在第一方面,公开了一种促进对医疗从业者-患者对话的录音进行注释的方法。该方法包括生成转录的音频录音的显示(即转录本)的步骤,例如在由执行注释的人(“划线标记员(scribe labeler)”)使用的工作站的显示器上显示。提供了一种工具用于突出显示转录本中由一个或多个词汇组成的文本跨度(span oftext)。这些工具可以是简单的鼠标或键盘快捷键,用于选择或突出显示一个或多个词汇。
该方法还包括提供用于将标记分配给被突出显示的文本跨度的工具的步骤。该工具包括用于搜索可用于被分配给被突出显示的文本跨度的一组预定义标记的特征。例如,当划线标记员在转录本中突出显示词汇(诸如“胃痛”)时,弹出窗口,用户可以在该窗口中搜索(例如通过滚动或使用搜索工具进行搜索)可用标记。标记对医疗实体(诸如症状、药物、实验室结果等)和医疗实体的属性(例如,症状实体的严重性、位置、频率、发作时间)进行编码。
在本文档中,术语“医疗实体”意指离散医疗主题的类别,诸如症状、药物、实验室结果、生命体征、主诉、医疗成像、状况、医疗设备等。医疗实体被预定义为与标记任务的上下文相关,因此在这种情况下,在一个实施例中,它们可以由以下列表组成:药物、程序、症状、生命体征、状况、社会史、医疗状况、手术、成像、提供者、疫苗、生育史、检查、以及医疗设备。医疗实体可以以分级方式构造,诸如医疗实体“药物”可以是“药物:过敏”的形式,其中“过敏”是整个类别“药物”的类型或子类。作为另一示例,医疗实体“症状”可以以身体不同部分的症状的分级方式来构造,诸如“症状:眼睛”、“症状:神经”等。
术语“医疗实体的属性”简单地意味着医疗实体的一些描述性特性或特性,诸如例如医疗实体“医疗设备”可以具有“患者的实际使用”的属性,这意味着患者当前正在使用一件医疗设备。作为另一示例,症状医疗实体可以具有“发作”的属性。当转录本中有词汇或短语指示患者第一次开始经历症状的时间时,将使用“症状/发作”的标记作为注释。作为另一示例,当转录本中有词汇或短语指示患者定期使用某件医疗设备时,将使用“医疗设备/定期”的标记作为注释,其中“定期”是医疗实体“医疗设备”的属性。
该方法还包括提供用于对相关的被突出显示的文本跨度进行分组的工具的步骤。该工具可以是例如鼠标点击或键盘快捷键的组合,以建立分组。这些分组允许与被分配给被突出显示的文本跨度的标记相关联的医疗实体作为一个组相关联。例如,在患者描述上周开始的剧烈胸痛的对话中,文本“剧烈”、“胸痛”和“上周”将被突出显示,并分别用症状标记以及严重性、位置和发作时间的属性进行标记,并被分组在一起,因为所有这些都是相互关联的。
在另一方面,公开了一种系统,用于促进对医疗从业者-患者对话的录音的注释。该系统包括:a)显示录音的转录本的界面;b)用于突出显示转录本中由一个或多个词汇组成的文本跨度的工具;c)用于将标记分配给突出显示的文本跨度的工具,其中该工具包括能够搜索可用于被分配给被突出显示的文本跨度的预定标记的特征,并且其中该标记对医疗实体和医疗实体的属性进行编码;以及d)用于创建相关的被突出显示的文本跨度的分组的工具。
该方法和系统适用于其他类型的转录本,其中例如由操作者创建了一组预定义标记,这些标记被设计成与手头的注释任务相关,并且这些标记与关于转录本和注释任务的实体和属性相关联。本公开的工具以相同的方式用于这些其他可能的实施方式中,诸如例如法律诉讼(诸如证词或审判)的转录本,或者行政机构(诸如市议会、国会、州立法机构等)前的听证转录本。
附图说明
图1是示出在其中可以执行该方法的环境的流程图。
图2是工作站图示,该工作站具有显示器和用户接口,供人(“划线标记员”)用来注释医疗接触的转录本。用户接口包括结合图4-6所描述的工具。术语“用户接口”是指工作站上的显示和用于提供用户输入的相关设备(诸如鼠标和键盘)的组合。
图3是图2的用户接口的图示,示出了准备注释的转录本列表。
图4是医疗接触的转录本的图示,其中划线标记员正在注释文本中的某些词汇或短语。图4示出弹出的搜索框,该搜索框允许划线标记员搜索医疗实体和相关属性。文本跨度通过工具的使用(诸如通过点击词汇或使用鼠标拖动技术)被突出显示。
图5是图4的转录本的图示,其中划线标记员正在注释文本“左上角”和弹出的搜索框。此外,针对短语“左上角”,还显示了提议的标记:医疗实体“症状”和属性“位置(在身上)”。提议的标记由图1中示出的预标记系统生成。
图6是当划线标记员形成两个被突出显示的文本跨度“胃痛”和“三天”的分组时,图4和图5的转录本的图示。用于形成该分组的工具由突出显示两个文本然后按下键盘快捷键组成,该键盘快捷键是按住“G”键、单击被突出显示的文本跨度、以及释放“G”键。图6还示出了“组”选项卡中的组的形成,该选项卡在显示器的底部列出了转录本中的所有组。
图7是图1的预标记器的更详细的图示。
图8是根据图1的特征的机器学习模型训练系统的图示,该系统接收大量被注释的转录本作为输入。
具体实施方式
本公开涉及用于促进对医疗接触的录音(即患者和医疗从业者(诸如医生或护士)之间的对话)进行注释的方法和系统。录音可以是音频或音频-视频录音。录音被转录成书面形式。转录本可以由受过训练的医疗转录师生成,即手工生成,或者通过使用本领域已知的语音到文本转换器生成。系统的输出是转录本的注释版本,其中文本中的相关医疗信息(即文本跨度,诸如单个词汇或词汇组)被标记(即被标注为与医疗实体和这些实体的属性相关联),并且被分组以表达被标记的文本之间的相关性。
图1是示出在其中实践本公开的方法和系统的环境的流程图。在102,获得患者对与医生或护士的接触进行录音的同意。此外,建议患者将录音的转录本放入电子健康记录中,并获得同意。还建议患者该录音可能被注释并被用于生成或训练机器学习模型,并且也获得同意。在转录本被注释或被用于机器学习模型训练的所有情况下,转录本数据隐去患者的身份,并按照HIPAA下的公开和使用有限数据集的所有要求来使用。从每个机构获得道德审查和机构审查委员会豁免。患者数据没有链接到任何谷歌用户数据。此外,对于将被注释的转录本用于机器学习模型训练的系统116,包括沙箱基础设施,沙箱基础设施根据法规、数据许可和/或数据使用协议保持每个电子健康记录(或转录本)数据集彼此分离。每个沙箱中的数据都是加密的;所有数据访问都在单独的级别上进行控制、日志记录和审核。
在步骤104,在获得所需的患者同意后,患者咨询医疗从业者并且获得音频或音频-视频录音,并且以数字格式存储该音频或音频-视频录音。
在步骤106,由受过训练的转录员或通过使用语音到文本转换器获得录音的书面转录本。转录本最好附有时间索引,其中转录本中所说的词汇或文本行与录音的耗时(elapsed time)相关联,这将在后续说明。
在步骤108,转录本的注释由划线标记员以在随后的附图中描述和解释的方式执行。注释包括将标记分配给转录本中的文本跨度以及文本跨度的分组,以指示它们的相关性。在步骤108中,生成被转录的音频录音的显示,例如在划线标记员所使用的工作站的显示器上生成。参见图2以及图4-6。提供了一个工具,用于突出显示被转录的音频录音中的由一个或多个词汇组成的文本跨度。该工具可以是用于选择或突出显示一个或多个词汇的简单的鼠标或键盘快捷键。还提供了一个工具,用于为被突触显示的文本跨度分配标记。该工具包括用于搜索可用于被分配给被突出显示的文本跨度的预定标记的特征。例如,当划线标记员在转录本中突出显示词汇(诸如“胃痛”)时,会弹出一个列表,用户可以在该列表中搜索可用的标记,并且提供了一个搜索工具,用于在标记列表中执行词汇搜索。标记对医疗实体(诸如症状、药物、实验室结果等)和医疗实体的属性(例如,症状实体的严重性、位置、频率、发作时间)进行编码。
还提供了一个工具,用于对相关的被突出显示的文本跨度进行分组。这些分组允许将与标记相关联的医疗实体分组在一起。例如,在患者描述上周开始的剧烈胸痛的对话中,文本“剧烈”、“胸痛”和“上周”将被突出显示,并用症状标记以及严重性、位置和发作时间的属性进行标记,并被分组在一起,因为它们都与患者的单一医疗状况相关。如下所述,该工具可以由键盘和/或鼠标操作组成。
该系统可以包括预标记器110,在图7中更详细地示出。预标记器是实施学习的自动词汇识别模型的计算机系统,该模型识别转录本中可能是标记或分组的主题的词汇或文本跨度。预标记器110通过在划线标记员执行转录本的注释时为被突出显示的文本跨度提供建议标记来向注释步骤108提供输入。这在图5中有更详细的显示。
作为注释步骤108的结果,创建了被注释的转录本文件112,被注释的转录本文件112由转录本、以被标记或被标注的文本跨度(词汇或短语)形式出现的注释、以及被标注的文本跨度的分组组成。被注释的转录本文件是数字形式的,文件中的注释和分组作为元数据等。被注释的转录本文件112然后被添加到患者的电子健康记录(electronic healthrecord,EHR)114或者被供应给机器学习模型训练系统116,机器学习模型训练系统116可以例如是用于训练机器学习模型以自动注释医疗接触的转录本的系统。可替换地,机器学习模型可以使用被注释的转录本以及患者健康记录中的其他数据,不仅针对单个患者,而且针对大量其他患者,以生成对未来医疗事件的预测,例如,如2017年7月28日提交的序列号为62/538,112的未决美国临时申请中所述的,其内容通过引用结合于此。EHR 114可以被提供给系统116,如虚线114所指示的。
被注释的转录本文件112可以反馈到预标记器中,以便能够进一步训练机器学习预标记器110,如虚线120所指示的。这一方面将在稍后进一步详细描述。
图2是在图1的注释步骤108期间划线标记员所使用的工作站200的图示。工作站包括执行应用的中央处理单元(通用计算机210),该应用提供医疗接触的转录本和工具的显示,通过这些工具,由键盘212、鼠标214和监视器216组成的用户接口允许突出显示文本跨度(词汇或短语230),为文本跨度分配标记,以及对被突出显示的文本跨度进行分组,如下文将讨论的。监视器216包括转录本222的显示218和用于允许用户导航到转录本的各个部分的滚动条224。转录本的时间索引220被示出在显示218的顶部。时间索引包括滑动器221,当滑动器221水平来回移动时,允许转录本的与特定耗时相关联的部分被显示在显示118的顶部。在这种情况下,时间索引220指示转录本为13分24秒的持续时间,并且滑动器221在最左边,因此转录本的开始被示出在显示的顶部。转录本以编号行的形式出现,随后是对说话者(医生或患者)的标识,随后是所讲内容的文本转录本。
图3示出了当划线标记员登录到图2的工作站时,在图2的用户接口上提供的需要注释的转录本的“待办”列表的显示。单个转录本是隐去患者身份的(即,仅通过列302中的患者编号而不是姓名来标识)。列304示出了耗时,列306示出了转录本中的文本的行数,列308示出了与医疗接触相关联的患者的主诉,以及列310示出了医疗接触的性质或类型。当在图3中选择转录本中的一个时(例如,通过点击列302中的数字),生成图2的显示。
图4是用户接口的显示218以及转录本222和时间索引220的图示。在转录本中提供每个话语(句子或词汇)的时间段信息,并且时间索引220提供滑动器工具221,滑动器工具221左右移动以跳转到转录本的不同部分。
该界面提供了用于文本突出显示的工具。特别是,鼠标和键盘快捷键使得突出显示文本跨度变得容易。例如,用户可以双击给定的词汇,并且该词汇会自动在显示器上突出显示。只能突出显示词汇,不能突出显示单个字符,这样可以减少错误并提高注释速度。其他工具也可以用于突出显示,诸如通过鼠标点击和拖动技术、键盘敲击(诸如将光标放在词汇上并点击特定的键,诸如H或CTRL-H),或者键盘敲击和鼠标动作的组合。
在图4的示例中,用户突出显示了词汇“胃痛”(见400)。用户接口提供了用于文本标注的工具,即,对突出显示的术语进行标记。标记被应用于突出显示的文本跨度,实质上允许划线标记员将信息注入到转录本中,例如指示突出显示的文本“胃痛”是一种症状或胃肠症状。特别地,当用户突出显示了术语“胃痛”时,弹出其示出了医疗实体和相关属性的列表404的框(工具)402、他们可以通过其搜索列表404的搜索的术语输入字段405、以及允许划线标记员滚动列表并选择适于突出显示的测试的医疗实体和相关联的属性的滚动条406。在示例图4中,在列表404中找到医疗实体“症状:GI”和相关属性“腹痛”,并且用户点击医疗实体和属性的组合。显示包括位于显示底部的表格选项卡410,其列出了被标记的文本跨度,包括医疗实体、属性、转录本中的位置(第4行)和相关联的文本跨度(“胃痛”)。
划线标记员执行相同的过程并使用相同的工具来突出显示文本跨度“三天”,将医疗实体的标记“症状属性”和属性“持续时间”(“症状属性/持续时间”)分配给被突出显示的文本跨度“三天”,并且该附加注释被显示在注释表格410中。
划线标记员然后继续突出显示文本跨度“左上角”412。划线标记员再次使用工具402将标记归于文本跨度“左上角”。同样,这可以使用图4中描述的工具来完成。如图5中示出的,在一个实施例中,其中存在转录本的预标记,当用户突出显示文本跨度“左上角”时,在框502中示出建议标记。该建议标记由图1的预标记器分配给文本跨度“左上角”。用户可以通过点击框502接受该建议,或者通过点击X图标504拒绝该建议。在图5的情况下,划线标记员通过鼠标点击(或任何其他合适的用户接口动作,诸如键盘快捷键等)接受建议,并将注释添加到表格410,如图5中的506所示出的。如果划线标记员拒绝该建议,他们可以使用弹出搜索工具402或滚动标记列表来寻找合适的标记。
应当理解,搜索工具402可以在划线标记员采取动作以突出显示一个文本跨度时弹出,并且在标记被分配之后消失,或者可替换地,它可以是注释期间用户接口的持久特征。
如先前所述,图2和图4-6的用户接口包括用于允许划线标记员将概念上或因果上相互关联的被突出显示并且被标记的文本跨度组合在一起的工具。例如,在图6中,文本跨度“胃痛”和“三天”与胃肠症状相关,即症状的类型和症状的持续时间。为了进行这种分组,在图示的实施例中,界面以键盘敲击和鼠标动作的组合的形式提供工具。特别是,划线标记员按住“G”键,点击两个被突出显示的文本跨度,然后释放“G”键。当然,在本公开的范围内,用于形成分组的工具的该特定示例的变化是可能的,诸如单独的鼠标动作的组合(例如,通过左键点击然后右键点击来选择文本跨度,以形成组)、单独的按键敲击(例如,通过ALT-G选择被突出显示的文本跨度并然后回车,以形成组),或者鼠标动作和按键敲击的其他各种可能的组合。在图6中,“2”图标602指示分组中的元素数量(这里是两个)。“X”图标604是点击目标以删除分组。用户已经切换了组选项卡606,“胃痛”和“三天”的组以及转录本中的位置(在该示例中,第4行用于组中第一元素的位置)如608所指示。
图4的搜索工具402使得定位相关标记的过程易于导航。在医疗转录本的示例中,可能有数百种可能的标记可供选择。例如,可能有十个或二十个预定义的不同医疗实体,并且每个医疗实体有十个或二十个或更多个不同的属性。如前所述,医疗实体可以以分级方式定制和组织。这些标记对专门为医疗文档设计的医疗本体进行编码。这些标记对医疗实体信息(诸如药物、程序、症状、状况等)、和实体的属性(诸如症状的发作、严重性、频率等),以及患者是否拒绝(属性)医疗程序(实体)进行编码。
如图6中示出的文本分组允许划线标记员将附加信息注入转录本,特别是识别概念之间的关系或相关性。例如,本公开的系统和方法允许划线标记员指定被突出显示的文本的组,使得实体可以作为一个组与属性相关联。
图7更详细地示出了图1的预标记系统110。系统110的输入是在图1的步骤108生成的文本转录本702。系统110使用机器学习医疗命名实体识别(named entity recognition,NER)模型703,该模型703以预注释转录本704的形式,基于来自训练示例的监督学习,识别转录本中的候选信息(词汇或短语)以及用于这些词汇或短语的建议标记。命名实体识别模型在机器学习领域是熟知的,在科学文献中有广泛的描述。NER模型703需要其自有的标记训练数据。对于这些训练数据,我们使用了医疗教科书(超过120,000本医疗教科书)的大量语料,使用了深度学习词汇嵌入,结合了大量的现有医疗本体论词典,例如UMLS(统一医疗语言系统,unified medical language system)和SNOMED(医学的系统化命名,systemizednomenclature of medicine)。此外,NER可以根据注释的医疗接触转录本中得到训练。NER模型也可以根据混合数据源来进行训练,数据源可以包括医疗和临床教科书、来自医生-患者对话的被注释转录本以及包含在大量患者的匿名电子健康记录中的临床文档。如图1和图7中执行的,可以根据转录本的注释的反馈来进一步训练NER模型。例如,在预标记系统生成预注释的转录本704并且划线标记员已经在步骤108完成注释之后,可以将预注释的转录本704中的建议注释和被注释的转录本112之间的校正反馈回NER模型。
如图8中示出的,被注释的转录本112可以供应给机器学习模型训练系统。在一种形式中,模型训练系统116使用来自大量患者的转录本以及其他患者数据来生成机器学习模型以进行健康预测。可替换地,被注释的转录本可以在系统116中用于开发深度学习模型,以用于自动进行生成医疗接触的被注释的转录本的过程。
本公开的系统和方法具有几个优点。在许多自然语言处理文本注释工具中,必须以明确而繁琐的方式识别它们之间的关系。相反,在本公开中,标记(包括与注释任务相关的预定义标记)以及标记和分组工具允许这种关系被容易地指定。用户可以通过如图所示的搜索工具快速搜索标记,并通过简单的用户接口动作(诸如点击鼠标)来选择标记。此外,如上所述,通过使用键盘、鼠标或其组合的简单用户接口动作,可以非常快速地创建概念上或因果上相关的被突出显示的文本跨度的分组。
虽然图示的实施例描述了用于帮助标记医疗接触的转录本的界面和工具,但是本公开的原理可以应用于其他情况。具体而言,为实体和这些实体的属性生成预定义标记列表,例如,列出转录本中感兴趣词汇的所有可能类别或分类以及与类别或分类中的每一个相关联的属性,类似于医疗实体的属性。上述用户接口动作通常以相同的方式执行,即划线标记员将使用简单的用户接口工具读取转录本并突出显示与注释任务相关的词汇或其他文本跨度,然后划线标记员可以通过这些工具搜索可用标记并将它们分配给突出显示的文本跨度。此外,还提供分组工具来形成相关的突出显示的文本跨度的组。结果是被注释的转录本。这些方法对其他类型的转录本是有用的,诸如法律专业背景下的证词或审判转录本、政府机构证据的听证转录本等。
用于在医疗转录本的注释中使用的标记列表的示例在下面的表1中列出。当然,应当理解,列表的变化是可能的,并且在其他上下文中,将定义其他标记。在列表中,实体1是医疗实体,实体2是实体1的医疗实体的子类别或医疗实体的属性,实体3是分层模式中医疗实体的属性或实体1的医疗实体的进一步子类别。
表1
Figure BDA0002295866060000101
Figure BDA0002295866060000111
Figure BDA0002295866060000131
Figure BDA0002295866060000141
Figure BDA0002295866060000151
Figure BDA0002295866060000171
Figure BDA0002295866060000181
Figure BDA0002295866060000191
Figure BDA0002295866060000201
Figure BDA0002295866060000211

Claims (34)

1.一种促进对医疗从业者-患者对话的录音进行注释的方法,包括以下步骤:
a)生成录音的转录本的显示;
b)提供用于突出显示转录本中的由一个或多个词汇组成的文本跨度的工具;
c)提供用于将标记分配给被突出显示的文本跨度的工具,其中所述工具包括用于搜索可用于被分配给被突出显示的文本跨度的一组预定义标记的特征,并且其中所述标记对医疗实体和医疗实体的属性进行编码;以及
d)提供用于创建相关的被突出显示的文本跨度的分组的工具。
2.根据权利要求1所述的方法,其中,被转录的录音被索引到时间段信息。
3.根据权利要求1或2所述的方法,其中,工具b)仅允许突出显示词汇或词汇的组,而不允许突出显示单个字符。
4.根据权利要求1-3中任一项所述的方法,其中,所述医疗实体从由药物、程序、症状、生命体征、状况、社会史、医疗状况、手术、成像、提供者、疫苗、生殖史、检查和医疗设备组成的医疗实体列表中选择。
5.根据权利要求4所述的方法,其中,所述医疗实体中的至少一个以分级方式安排。
6.根据权利要求5所述的方法,其中,所述医疗实体中的至少一个包括症状医疗实体和所述症状医疗实体内的身体的不同部分。
7.根据权利要求4所述的方法,其中,所述医疗实体中的一个由症状医疗实体组成,并且其中所述症状医疗实体包括至少严重性、频率、发作、位置的属性。
8.根据权利要求1-7中任一项所述的方法,还包括将所述转录本供应给预标记系统,并从所述预标记系统接收预注释的转录本,所述预注释的转录本包含用于转录本中的文本跨度的建议标记。
9.根据权利要求8所述的方法,其中,所述工具c)还包括来自预注释的转录本的建议标记的显示和拒绝或接受所述建议标记的工具。
10.根据权利要求8所述的方法,其中,所述预标记系统包括在医疗教科书、临床术语词典、电子健康记录中的临床文档、和医生-患者对话的被注释的转录本中的至少一个上训练的命名实体识别模型。
11.根据权利要求1-10中任一项所述的方法,其中,工具b)和工具d)包括(多个)键盘敲击、鼠标动作或这两者的组合。
12.根据权利要求1-11中任一项所述的方法,其中,在工具c)中用于搜索的特征包括可用标记的滚动列表的显示和用于键入搜索项以搜索可用标记列表的搜索框,并且其中,工具c)还包括(多个)键盘敲击、鼠标动作或着两者的组合以分配标记。
13.一种促进对医疗从业者-患者对话的录音进行注释的系统,包括:
a)显示所述录音的转录本的界面;
b)用于突出显示所述转录本中的由一个或多个词汇组成的文本跨度的工具;
c)用于将标记分配给被突出显示的文本跨度的工具,其中所述工具包括能够搜索可用于被分配给被突出显示的文本跨度的一组预定义标记的特征,并且其中所述预定义标记对医疗实体和医疗实体的属性进行编码;以及
d)用于创建相关的被突出显示的文本跨度的分组的工具。
14.根据权利要求13所述的系统,其中,被转录的录音被索引到时间段信息。
15.根据权利要求13或14所述的系统,其中,所述工具b)仅允许突出显示词汇或词汇组,而不允许突出显示单个字符。
16.根据权利要求13-15中任一项所述的系统,其中,所述医疗实体从由药物、程序、症状、生命体征、状况、社会史、医疗状况、手术、成像、提供者、疫苗、生殖史、检查和医疗设备组成的医疗实体列表中选择。
17.根据权利要求16所述的系统,其中,所述医疗实体中的至少一个是以分级方式预定义的。
18.根据权利要求17所述的系统,其中,所述医疗实体中的至少一个包括症状医疗实体和所述症状医疗实体内的身体的不同部分。
19.根据权利要求16所述的系统,其中,所述医疗实体中的一个由症状医疗实体组成,并且其中所述症状医疗实体包括至少严重性、频率、发作、位置的属性。
20.根据权利要求13-19中任一项所述的系统,还包括预标记系统,所述预标记系统生成预注释的转录本,所述预注释的转录本包含用于转录本中的文本跨度的建议标记。
21.如权利要求20所述的系统,其中,工具c)还包括来自预注释的转录本的建议标记的显示和拒绝或接受所述建议标记的工具。
22.根据权利要求20所述的系统,其中,所述预标记系统包括在医疗教科书、临床术语词典、电子健康记录中的临床文档、和医生-患者对话的被注释的转录本中的至少一个上训练的命名实体识别模型。
23.根据权利要求13-22中任一项所述的系统,还包括用于生成机器学习模型的系统,所述机器学习模型被配置为自动生成被注释的转录的音频录音。
24.根据权利要求13-22中任一项所述的系统,还包括用于生成被配置为生成健康预测的机器学习模型的系统。
25.根据权利要求13-24中任一项所述的系统,其中,工具b)和工具d)包括(多个)键盘敲击、鼠标动作或这两者的组合。
26.根据权利要求13-25中任一项所述的系统,其中,在工具c)中用于搜索的特征包括可用标记的滚动列表的显示和用于键入搜索项以搜索可用标记列表的搜索框,并且其中,工具c)还包括(多个)键盘敲击、鼠标动作或这两者的组合以分配标记。
27.一种促进对话的录音的注释的方法,包括以下步骤:
a)生成所述录音的转录本的显示;
b)提供用于突出显示转录本中的由一个或多个词汇组成的文本跨度的工具;
c)提供用于将标记分配给被突出显示的文本跨度的工具,其中所述工具包括用于搜索可用于被分配给被突出显示的文本跨度的预定义标记的特征,并且其中所述标记对实体和实体的属性进行编码;以及
d)提供用于创建相关的被突出显示的文本跨度的分组的工具。
28.根据权利要求27所述的方法,其中,所述录音由患者和医疗专业人员之间的录音组成。
29.根据权利要求27或权利要求28所述的方法,还包括将所述转录本供应给预标记系统,并从所述预标记系统接收预注释的转录本,所述预注释的转录本包含用于转录本中的文本跨度的建议标记。
30.权利要求27-29中任一项的方法,其中被转录的录音被索引到时间段信息。
31.根据权利要求27-30中任一项所述的方法,其中,工具b)和工具d)包括(多个)键盘敲击、鼠标动作或这两者的组合。
32.根据权利要求27-31中任一项所述的方法,其中,在工具c)中用于搜索的特征包括可用标记的滚动列表的显示和用于键入搜索项以搜索可用标记列表的搜索框,并且其中,工具c)还包括(多个)键盘敲击、鼠标动作或这两者的组合以分配标记。
33.根据权利要求29所述的方法,其中,所述工具c)还包括来自预注释的转录本的建议标记的显示和拒绝或接受所述建议标记的工具。
34.根据权利要求27-33中任一项所述的方法,其中,实体中的至少一个是以分级方式定义的。
CN201780091415.6A 2017-10-20 2017-10-20 从医患对话中捕获详细结构用于在临床文献中使用 Pending CN110692102A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2017/057640 WO2019078887A1 (en) 2017-10-20 2017-10-20 CAPTURING DETAILED STRUCTURE FROM PATIENT-PHYSICIAN CONVERSATIONS FOR USE IN CLINICAL DOCUMENTATION

Publications (1)

Publication Number Publication Date
CN110692102A true CN110692102A (zh) 2020-01-14

Family

ID=60302467

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780091415.6A Pending CN110692102A (zh) 2017-10-20 2017-10-20 从医患对话中捕获详细结构用于在临床文献中使用

Country Status (6)

Country Link
US (2) US11521722B2 (zh)
EP (1) EP3602563A1 (zh)
JP (1) JP7174717B2 (zh)
KR (1) KR102365621B1 (zh)
CN (1) CN110692102A (zh)
WO (1) WO2019078887A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114842717A (zh) * 2022-05-17 2022-08-02 浙江大学 一种重症监护病房用的智能化谵妄评估模型

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL278719B2 (en) * 2018-05-15 2024-01-01 Nunetz Inc Systems and methods for adapting a user interface based platform based on a patient's medical information
USD931294S1 (en) 2018-06-22 2021-09-21 5 Health Inc. Display screen or portion thereof with a graphical user interface
AU2020209737A1 (en) * 2019-01-14 2021-07-29 5 Health Inc. Methods and systems for managing medical information
GB201911760D0 (en) * 2019-08-16 2019-10-02 Eigen Tech Ltd Training and applying structured data extraction models
US11947872B1 (en) * 2019-11-01 2024-04-02 Allstate Insurance Company Natural language processing platform for automated event analysis, translation, and transcription verification
WO2021130953A1 (ja) 2019-12-26 2021-07-01 日本電気株式会社 会話支援装置、会話支援システム、会話支援方法及び記録媒体
CN111462894B (zh) * 2020-03-27 2023-09-01 北京百度网讯科技有限公司 一种医疗冲突的检测方法、装置、电子设备及存储介质
CN112270186B (zh) * 2020-11-04 2024-02-02 吾征智能技术(北京)有限公司 一种基于熵模型的口辣文本信息匹配系统
US20240047049A1 (en) * 2022-08-02 2024-02-08 ScribeAmerica, LLC Platform for routing clinical data

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005050474A2 (en) * 2003-11-21 2005-06-02 Philips Intellectual Property & Standards Gmbh Text segmentation and label assignment with user interaction by means of topic specific language models and topic-specific label statistics
JP2005267358A (ja) * 2004-03-19 2005-09-29 Hitachi Medical Corp 地域医療のための電子カルテ作成・管理システム及びその運営方法
JP2007058715A (ja) * 2005-08-26 2007-03-08 Hitachi Medical Corp 医療業務支援システム
CN101251876A (zh) * 2007-02-22 2008-08-27 通用电气公司 用于提供电子医疗记录数据临床显示和搜索的方法及系统
US20100312725A1 (en) * 2009-06-08 2010-12-09 Xerox Corporation System and method for assisted document review
US20130080161A1 (en) * 2011-09-27 2013-03-28 Kabushiki Kaisha Toshiba Speech recognition apparatus and method
US20140142960A1 (en) * 2012-11-16 2014-05-22 International Business Machines Corporation Generation of medical information using text analytics
US20150134362A1 (en) * 2010-09-01 2015-05-14 Apixio, Inc. Systems and methods for a medical coder marketplace
CN105190628A (zh) * 2013-03-01 2015-12-23 纽昂斯通讯公司 确定临床医生的预订项目的意图的方法和设备

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5146439A (en) 1989-01-04 1992-09-08 Pitney Bowes Inc. Records management system having dictation/transcription capability
US6778979B2 (en) * 2001-08-13 2004-08-17 Xerox Corporation System for automatically generating queries
US8155957B1 (en) 2003-11-21 2012-04-10 Takens Luann C Medical transcription system including automated formatting means and associated method
US7613610B1 (en) 2005-03-14 2009-11-03 Escription, Inc. Transcription data extraction
US8275613B2 (en) 2006-08-21 2012-09-25 Unifiedvoice Corporation All voice transaction data capture—dictation system
US20080115090A1 (en) * 2006-11-09 2008-05-15 Arlene Disbrow Apparatus for presenting a hierarchically and thematically arranged plurality of concisely annotated pictograms for facilitating communication without speech
US20080201434A1 (en) * 2007-02-16 2008-08-21 Microsoft Corporation Context-Sensitive Searches and Functionality for Instant Messaging Applications
WO2009100389A1 (en) * 2008-02-06 2009-08-13 Teo, Inc. Universal targeted blogging system
WO2011091254A2 (en) 2010-01-21 2011-07-28 ePower Engine Systems, L.L.C. Hydrocarbon fueled-electric series hybrid propulsion systems
US9679107B2 (en) 2011-02-18 2017-06-13 Nuance Communications, Inc. Physician and clinical documentation specialist workflow integration
US9569594B2 (en) 2012-03-08 2017-02-14 Nuance Communications, Inc. Methods and apparatus for generating clinical reports
US20140047332A1 (en) 2012-08-08 2014-02-13 Microsoft Corporation E-reader systems
US9298703B2 (en) 2013-02-08 2016-03-29 Machine Zone, Inc. Systems and methods for incentivizing user feedback for translation processing
US9348815B1 (en) 2013-06-28 2016-05-24 Digital Reasoning Systems, Inc. Systems and methods for construction, maintenance, and improvement of knowledge representations
US20150379212A1 (en) * 2013-12-10 2015-12-31 Jaan Health, Inc. System and methods for enhanced management of patient care and communication
WO2016020935A2 (en) 2014-08-07 2016-02-11 Abhijit Manohar Gupta A one screen multi-fold gesture based, interactive time-line view based, relationship management system and method
US20160162464A1 (en) 2014-12-09 2016-06-09 Idibon, Inc. Techniques for combining human and machine learning in natural language processing
JP6074820B2 (ja) * 2015-01-23 2017-02-08 国立研究開発法人情報通信研究機構 アノテーション補助装置及びそのためのコンピュータプログラム
US9671999B2 (en) 2015-05-13 2017-06-06 Nuance Communications, Inc. Methods and apparatus for improving understandability of audio corresponding to dictation
US10390082B2 (en) * 2016-04-01 2019-08-20 Oath Inc. Computerized system and method for automatically detecting and rendering highlights from streaming videos
US10515125B1 (en) * 2016-07-26 2019-12-24 The Thought & Expression Company LLC Structured text segment indexing techniques
CN106251865A (zh) 2016-08-04 2016-12-21 华东师范大学 一种基于语音识别的医疗健康记录自动填写方法
CN107038336A (zh) 2017-03-21 2017-08-11 科大讯飞股份有限公司 一种电子病历自动生成方法及装置
US9824691B1 (en) * 2017-06-02 2017-11-21 Sorenson Ip Holdings, Llc Automated population of electronic records
US10839554B2 (en) * 2018-01-05 2020-11-17 Irobot Corporation Image labeling for cleaning robot deep learning system

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005050474A2 (en) * 2003-11-21 2005-06-02 Philips Intellectual Property & Standards Gmbh Text segmentation and label assignment with user interaction by means of topic specific language models and topic-specific label statistics
JP2005267358A (ja) * 2004-03-19 2005-09-29 Hitachi Medical Corp 地域医療のための電子カルテ作成・管理システム及びその運営方法
JP2007058715A (ja) * 2005-08-26 2007-03-08 Hitachi Medical Corp 医療業務支援システム
CN101251876A (zh) * 2007-02-22 2008-08-27 通用电气公司 用于提供电子医疗记录数据临床显示和搜索的方法及系统
US20100312725A1 (en) * 2009-06-08 2010-12-09 Xerox Corporation System and method for assisted document review
US20150134362A1 (en) * 2010-09-01 2015-05-14 Apixio, Inc. Systems and methods for a medical coder marketplace
US20130080161A1 (en) * 2011-09-27 2013-03-28 Kabushiki Kaisha Toshiba Speech recognition apparatus and method
US20140142960A1 (en) * 2012-11-16 2014-05-22 International Business Machines Corporation Generation of medical information using text analytics
CN105190628A (zh) * 2013-03-01 2015-12-23 纽昂斯通讯公司 确定临床医生的预订项目的意图的方法和设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DAIN KAPLAN ET.AL: "Slate – A Tool for Creating and Maintaining Annotated Corpora", 《JLCL 2011》 *
PONTUS STENETORP ET.AL: "BRAT: aWeb-based Tool for NLP-Assisted Text Annotation", 《PROCEEDINGS OF THE 13TH CONFERENCE OF THE EUROPEAN CHAPTER OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 *
SEID MUHIE YIMAM ET.AL: "WebAnno: A Flexible,Web-based and Visually Supported System for Distributed Annotations", 《PROCEEDINGS OF THE 51ST ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114842717A (zh) * 2022-05-17 2022-08-02 浙江大学 一种重症监护病房用的智能化谵妄评估模型
CN114842717B (zh) * 2022-05-17 2023-03-10 浙江大学 一种重症监护病房用的智能化谵妄评估模型

Also Published As

Publication number Publication date
US20230055094A1 (en) 2023-02-23
KR20190140987A (ko) 2019-12-20
US20200152302A1 (en) 2020-05-14
JP2020528590A (ja) 2020-09-24
KR102365621B1 (ko) 2022-02-21
EP3602563A1 (en) 2020-02-05
US11521722B2 (en) 2022-12-06
WO2019078887A1 (en) 2019-04-25
JP7174717B2 (ja) 2022-11-17

Similar Documents

Publication Publication Date Title
KR102365621B1 (ko) 임상 문서에서 사용하기 위한 환자-의사 대화에서 세부 구조 캡처링
US11650732B2 (en) Method and system for generating transcripts of patient-healthcare provider conversations
US11894140B2 (en) Interface for patient-provider conversation and auto-generation of note or summary
US20210398630A1 (en) Systems and methods for identifying errors and/or critical results in medical reports
US8595620B2 (en) Document creation and management systems and methods
US20200311343A1 (en) Methods and apparatus for extracting facts from a medical text
JP6679494B2 (ja) 書かれた勧告に基づいて医療のフォローアップ予約をスケジューリングするためのシステム及び方法
Malmasi et al. Canary: an NLP platform for clinicians and researchers
Suominen et al. Capturing patient information at nursing shift changes: methodological evaluation of speech recognition and information extraction
US20170364640A1 (en) Machine learning algorithm to automate healthcare communications using nlg
US20220189486A1 (en) Method of labeling and automating information associations for clinical applications
Löbe et al. Towards phenotyping of clinical trial eligibility criteria
Nair et al. Automated clinical concept-value pair extraction from discharge summary of pituitary adenoma patients
US20140344679A1 (en) Systems and methods for creating a document
US11748361B1 (en) Systems and methods for multi-dimensional ranking of experts
Song et al. Is auto-generated transcript of patient-nurse communication ready to use for identifying the risk for hospitalizations or emergency department visits in home health care? A natural language processing pilot study
McDermott Automated de-identification and unstructured textual electronic medical record data in Manitoba
Shah Addressing Clinical Documentation Challenges: The Role of AI-Powered Digital Scribes
Dalianis et al. User Needs: Clinicians, Clinical Researchers and Hospital Management
Holloway Ethnographic and qualitative data analysis
Cam et al. An investigation on the use of computerized patient care documentation: Preliminary results
Shen et al. Identifying Drug-Induced Liver Illness (DILI) with Computerized Information Extraction: No More Dilly-Dallying
Hina et al. Extracting the concepts in Clinical Documents using SNOMED-CT and GATE

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination