CN111026282B

CN111026282B - 一种在输入过程中判断是否进行医学数据标注的控制方法

Info

Publication number: CN111026282B
Application number: CN201911181922.6A
Authority: CN
Inventors: 姚娟娟
Original assignee: Shanghai Mingping Medical Data Technology Co ltd
Current assignee: Shanghai Mingping Medical Data Technology Co ltd
Priority date: 2019-11-27
Filing date: 2019-11-27
Publication date: 2023-05-23
Anticipated expiration: 2039-11-27
Also published as: CN111026282A

Abstract

本发明提供一种在输入过程中判断是否进行医学数据标注的控制方法，其中，用户输入医学数据所选择的标签与标准标签数据库一致，包括如下步骤：a.判断用户输入的字符串是否调用自标准字符串数据库，若所述字符串是调用自标准字符串数据库，则执行步骤b；若所述字符串不是调用自标准字符串数据库，则执行步骤c；b.所述字符串无需执行标注步骤；c.将用户输入所选择的标签与所述字符串关联。

Description

一种在输入过程中判断是否进行医学数据标注的控制方法

技术领域

本发明涉及数据处理领域，尤其是针对医学数据标准进行标注的方法，具体地涉及一种在输入过程中判断是否进行医学数据标注的控制方法。

背景技术

随着数据时代的到来，各种不同类型的数据被搜集和处理，医学数据作为最为特殊的一种数据，其所包含的变量众多，包括患者数据、医生数据、疾病数据、症状数据、检验数据、诊断数据、治疗数据、药物数据等等。从医学活动本身出发，其最大的区别点在于，医学行为之间存在着清晰的逻辑关系，因此医学数据之间也就存在着清晰的语义关系，同时，医学数据通常是由医生或者患者输入或者生成的，这些数据间的语义关系能够反应医生的决策和对应的治疗方法与疾病发展情况之间的相互关系。

现有针对人工智能领域应用的医学数据，一种是通过深度挖掘HIS系统病历数据生成，通常称之为结构化信息抽取，另一种是另行建模并通过医务工作者重新填写生成，两种方法都可以获得符合机器学习质量要求的基础数据。从商业运营的角度考虑，上述两种基础数据的获得方法，均源自国际上在人工智能领域较为领先的公司，之所以采取该两种方法，其原因在于国外医学数据的稀缺性。而对我国而言，我们具备世界上最大的人口基数和医疗就诊人次，医学数据的基础数量是海量的，但整体质量却参差不齐，在此基础上，如果采用上述两种常用的方法处理医学数据，对于我国国情而言，其成本更加高昂，耗时将会更久。

无论采取何种方法，其收集而来的医学数据都需要经过标注后方可作为机器学习的素材，而医学数据的标注对专业化的要求极高，其必须由医生来完成，这是医学数据标注区别于消费数据、生活数据、语言数据等传统大数据标注之所在。但是，从实际运营角度出发，特别是从我国国情考虑，在医生已经超负荷工作的前提下，组织大批量的医生专门从事医学数据的标注是基本无法实现。

为此，如果发掘一种算法，能够简化医学数据标注的流程，让医生在日常学习、工作中即可自动完成医学数据的标注，这将为全行业带来。

发明内容

本发明技术方案所解决的技术问题为，如何简化医学数据标注的流程，提供医学数据标注的效率。

为了解决上述技术问题，本发明提供一种在输入过程中判断是否进行医学数据标注的控制方法，其中，用户输入医学数据所选择的标签与标准标签数据库一致，包括如下步骤：

a.判断用户输入的字符串是否调用自标准字符串数据库，若所述字符串是调用自标准字符串数据库，则执行步骤b；若所述字符串不是调用自标准字符串数据库，则执行步骤c；

b.所述字符串无需执行标注步骤；

c.将用户输入所选择的标签与所述字符串关联。

优选地，所述步骤c之后，执行如下步骤：

d.基于关联在所述字符串上的所述标签选定标注终端；

e.对所述字符串进行语义分析并发送至所述标注终端；

f.所述标注终端根据步骤e的语义分析结果判断是否对所述字符串进行标注。

优选地，所述步骤d包括如下步骤：

d1.提取所述标签上的特征字符；

d2.基于所述特征字符选定所述标注终端。

优选地，所述步骤d1包括如下步骤：

d11.对所述标签分词处理并识别所述标签上的通用字符，所述通用字符来自于非医学字符库；

d12.将排除所述通用字符后剩余的字符提取后作为所述特征字符。

优选地，所述步骤f包括如下步骤：

f1.基于标记在所述字符串上的标签选定多个逻辑词组；

f2.将所述语义分析结果逐一嵌入至多个所述逻辑词组中组成多个嵌入式逻辑词组；

f3.逐一判断每个所述嵌入式逻辑词组的逻辑连贯性是否符合既定条件，若至少一个所述嵌入式逻辑词组的逻辑连贯性符合既定条件，则所述标注终端对所述字符串执行标注行为。

优选地，所述步骤f3中，所述嵌入式逻辑词组的逻辑连贯性通过最大概率P(O|ρ)表达，包括如下步骤：

f31.给定模型ρ＝(A，B，π)，其中，A表示多个所述逻辑词组之间的转移概率分布，B表示多个所述嵌入式逻辑词组的概率分布，π表示多个所述逻辑词组的概率分布；

f32.根据公式

计算所述嵌入式逻辑词组出现的最大概率P(O|ρ)，其中，O表示嵌入式逻辑词组序列，α_T表示前向概率，O＝o₁，o₂，…o_t，α_T＝α₁，α₂，…α_t，i表示生成第t个嵌入式逻辑词组时相对应的逻辑词组在全部逻辑词组序列的编号，i＝1，2，…m，/>

α₁(i)＝π_ib_i(o₁)，π_i表示每个所述逻辑词组的初始概率，b_i(o₁)表示第i个逻辑词组生成第1个嵌入式逻辑词组的概率，a_ij表示第i个逻辑词组转移到第j个逻辑词组的状态转移概率，b_i(o_i+1)表示第i个逻辑词组生成第i+1个嵌入式逻辑词组的概率，m表示所述逻辑词组的数量。

优选地，若所述P(O|ρ)小于概率阈值P，则判定所述嵌入式逻辑词组的逻辑连贯性符合既定条件。

优选地，所述步骤f1中，所述逻辑词组是陆续被选定的。

优选地，所述步骤f2中，所述逻辑词组的数量少于所述嵌入式逻辑词组的数量。

优选地，所述步骤a之前执行如下步骤：判断用户是否进入提问场景，若用户进入提问场景，则执行步骤a。

本发明首先限定用户输入医学数据所选择的标签与标准标签数据库一致，通过判断用户输入的信息是否调用自标准字符串数据库决定是否对用户输入的字符串进行标签关联，以确定执行医学数据标注的基础步骤。

在对用户输入的字符串进行标签关联的前提下，进一步通过对用户输入的字符串进行语义分析决定是否执行数据标注步骤。

本发明还提供一种全新的判断是否进行数据标注的算法，基于字符串的语义分析结果生成嵌入式逻辑词组，通过最大概率表示嵌入式逻辑词组的逻辑连贯性，进而决定是否执行数据标注步骤。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其他特征、目的和优点将会变得更明显：

图1为本发明的一种具体实施方式的，一种在输入过程中判断是否进行医学数据标注的控制方法的流程图；

图2为本发明的第一实施例的，一种在提问场景下通过用户输入信息判断是否进行医学数据标注的控制方法的流程图；

图3为本发明的第二实施例的，一种在提问场景下通过用户输入信息判断是否进行医学数据二次标注的控制方法的流程图；

图4为本发明的第三实施例的，另一种在提问场景下通过用户输入信息判断是否进行医学数据二次标注的控制方法的流程图；

图5为本发明的第四实施例的，另一种在提问场景下通过用户输入信息判断是否进行医学数据二次标注的控制方法的流程图；

图6为本发明的第五实施例的，另一种在提问场景下通过用户输入信息判断是否进行医学数据二次标注的控制方法的流程图；以及

图7为本发明的第六实施例的，另一种在提问场景下通过用户输入信息判断是否进行医学数据二次标注的控制方法的流程图。

具体实施方式

为了更好的使本发明的技术方案清晰的表示出来，下面结合附图对本发明作进一步说明。

本领域技术人员理解，医学数据通常来自于用户终端的输入，所述用户终端可以理解为一种终端设备，其可以通过人工输入或者通过与不同的检测设备打通端口传输数据。例如，可以是手机或者平板电脑，通过人工输入或者拍照自动识别的方式录入数据，又例如，可以是与体征传感器或者医疗检测装置共同数据的计算机，通过开放端口实时传输数据。更为具体地，基础医学数据是与个体相关联的数据，可以从多个维度进行理解：从医学数据的产生渠道来看，所述基础医学数据主要可分为医生端数据和患者端数据，医生端数据包括门急诊记录、住院记录、影像记录、实验室记录、用药记录、手术记录、随访记录等，患者端数据包括个人生活习惯、生活环境、家庭遗传、家庭环境等。从基础医学数据的组成结构来看，基础医学数据可分为：(1)检查手段产生的测量数值，如体温、血压、血氧饱和度、化验值等；(2)仪器记录的信号，如心电图、脑电图等；(3)医学影像设备生成的图像，如X线图像、CT图像和MRI图像等；(4)文本形式呈现的报告结果，例如医生结合自身医学知识给出的针对测量数值、信号、图像的解释和医生做出的病理诊断等；(5)叙述性的数据，如医生记录的主诉(患者口述的病情)、病人的病历；(6)元数据文本，例如关于器官、药物、疾病以及治疗方法的知识、医疗设备的参数等；(7)社会特征，例如医院的机构信息、医生和患者的个人信息等。这些不同种类的基础医学数据虽然结构和包含的语义各不相同，但它们能够相互印证相互补充，都从特定的角度表达了医学信息的内容和特点，构成了多样且互补的数据集合。

进一步地，在本发明中，用户输入的信息内容本身并不追求自然语言逻辑上的连贯性，但应存在医学上的语义关系，结合我国医院历史病历现状，这一类的信息内容在HIS系统中是不存在的，虽然近两年来国家卫生管理部门在全国医院推行标准化电子病历，这样的电子病历数据质量本身已经相当结构化，但仍然并非是本发明所涉及的用户输入的“信息内容”，即，本发明所限定的标注流程，并非应用于如下场景：医生在日常的临床工作中，面诊的过程中在HIS系统输入患者的信息，然后在医生输入上述信息过程中通过本发明的算法完成医学数据的标注。

更进一步地，本发明所涉及的输入信息，也就是输入的一系列字符串具备以下特点：

1)多个字符串可划分为若干结构，各结构之间功能相互支持，内容独立的离散模块；

2)各个字符串具有清晰的语义信息，其内容为一个医学词组或者多个医学词组，优选为一个医学词组；

3)各字符串之间被分隔符分割，常见的分隔符可以是标点符号，但优选的是非标点符号，包括回车、空格、编号序列、特殊字符等；

4)各字符串的内容表达有值域限制，所述值域限制根据所述字符串的种类进行设定，即，所述字符串的内容是因变量，所述字符串的种类为自变量。具体地，所述字符串的种类可以理解对所述字符串的标签化设定，例如，所述字符串的标签被设定为“学科”，相应地，所述字符串的内容可以是“神经内科”，即，所述字符串的内容的值域被限制在上述范围内，本领域技术人员理解，所述字符串的标签的获得是非常容易得，根据历史病历形成的科室和对应的医生即可非常容易定位，不需要额外的复杂的算法进行预处理。又例如，所述字符串的标签被设定为“疾病”，相应的，所述字符串的内容可以是“糖尿病”；又例如，所述字符串的标签被设定为“症状”，相应的，所述字符串的内容可以是“多尿”。

进一步地，结合以上特点，所述字符串在标注前，所述字符串不需要进过分词处理。具体地，所述字符串的表现形式通常有两种，文本形式和Web文档形式，文本形式是比较常见的形式，Web文档形式是以字符串为单位拆分加载到Web所形成。在现有技术中，对字符串进行处理前，通常需要调取对应的医学词库并对字符串进行分词处理，常用的方法是以对应的医学词库为特征构造文本向量，这样形成文本向量相当庞大，计算量也较大。现有的技术改进方案中，为降低文本向量的维度，需要利用尽量少的医学词库来构建文本向量，如此就需要提高医学词库的关联度，随着关联度的提高，有需要引入重要性排序，这最终导致分词算法越来越复杂，效率提高的同时准确度缺不稳定的。本发明中，所述字符串的内容简短、清晰，全部来自于临床医生，不含冗余的修饰成分，结合实际的应用情况，完全可以省略对字符串的分词步骤，提高效率，这是现有技术所不曾用到的方案。

图1示出了本发明的具体实施方式的，一种在输入过程中判断是否进行医学数据标注的控制方法，用户输入医学数据所选择的标签与标准标签数据库一致，包括如下步骤：

首先执行步骤S101，判断用户输入的字符串是否调用自标准字符串数据库。具体地，所述标准字符串数据库属于后台数据库的一部分，所述标准字符串数据库也是遵守标签分类的规则，所述标准字符串数据库的建设方式有多种，例如，以疾病为核心进行自主定义，即，首先按照疾病病种进行标签分类，标签分类可以包括疾病的产生、发展、症状、诊断、治疗、随访等多种分类，然后按照标签分类的规则定义对应的标准化医学词组；又例如，采用医学文本信息抽取的方式建立数据库，这有赖于抽取算法的质量。本领域技术人员理解，自主定义的方式需要大量人力、物力的投入，但其所建立的数据库质量很高，而采用信息抽取的方式，虽然目前该领域算法研究很深入，也是很热门的研究方向，但其更多的依赖于抽取对象也就是基础医学文本信息的质量，在我国现阶段医学数据质量普遍不高的前提下，信息抽取的方式可控性不高。本发明优选采用自主定义的方式建立标准字符串数据库。

进一步地，步骤S101中，若所述字符串是调用自标准字符串数据库，则执行步骤S102，所述字符串无需执行标注步骤。具体地，根据实际的应用场景不同，判断所述字符串是否调用自所述标准字符串数据库的判断方法也是不同的。更为具体地，在通常的技术方案中，本步骤是省略的，即，若所述字符串是调用自标准字符串数据库，则系统直接判断终止程序即可，而本发明则专门加入了“无需执行标注步骤”的确认步骤，这实际上是增加一个步骤，其原因在于，本发明依赖于大量调取后台数据的操作，增加此步骤虽然会降低程序效率，但是可以防止程序出错。

在一个应用场景中，标注系统提供给用户的输入场景是可点击化的，即，系统直接将所述标准字符串数据库所包含的标准字符串以可视化的状态呈现至用户，用户在输入所述字符串时，只需要直接点击即可完成输入步骤，此时判断所述字符串是否调用自所述标准字符串数据库时，只需要采集用户的点击动作即可，本领域技术人员理解，此种场景下需要对用户画像首先有个较为清晰的判断，其原因在于所述标准字符串数据库是非常庞大的，在实际使用时不可能将全部标准字符串呈现于用户，需要系统根据用户画像智能推送，相应地，用户画像的刻画是需要采集用户个人信息或者一定量的用户数据积累，因此本场景不适用于标注系统上线的初期。区别于此，在另一个应用场景中，标注系统提供给用户的输入场景是由用户自行填写的，所述标注系统还可以对用户输入的字符串进行模糊识别和修正，在此基础上，对用户输入的字符串与标准字符串数据库进行相似度比对，本领域技术人员理解，此种相似度比对有较多算法可以应用，其并非本发明的重点，在此不予赘述，特别需要注意的是，在进行相似度比对之前，首先应当确认用户输入的字符串与标准字符串数据库对应的标签类别是一致的。

进一步地，步骤S101中，若所述字符串不是调用自标准字符串数据库，则执行步骤s103，将用户输入所选择的标签与所述字符串关联。本领域技术人员理解，在通常的意义上，标签关联属于自然语言处理的相似度研究范围，其目的在于研究词与词之间的相似度，但本步骤所涉及的关联，其本身并不需要复杂的语义识别算法和关联算法，而是直接将用户输入行为作为触发点，将用户选择的标签(标签来自于后台的标准标签数据库)和用户输入的字符串相关联，而执行这一步骤的前提就是字符串也是来自于标准字符串数据库，因此，实际上，用户在输入的过程中就是把后台数据库中的标准标签数据库和标准字符串数据库进行关联，也就是间接完成了标准字符串数据的标签标注，这是一种预标注步骤。

作为本发明的第一实施例，图2示出了一种在提问场景下通过用户输入信息判断是否进行医学数据标注的控制方法，包括如下步骤：

执行步骤S201，判断用户是否进入提问场景。本领域技术人员理解，本发明涉及的医学数据标注是近年来医学领域人工智能技术发展的基础所在，不同于传统的消费数据标注，如果采用商业化的医学数据标注模式，就需要组织大量的临床医生参与标注工作，这在实际应用中是不可能完成的，其原因在于：医学在不断发展，医生专门从事数据标注工作，随着时间的推移，医生专业知识脱离临床发展，标注准确性降低，如果直接选择在医疗机构工作的医生完成标注，则会有医生时间不够，标注速度过慢，而且标注成本会极高，超出公司承受能力。为此，寻找一个非商业化的场景进行标注是最为重要的，从这一点出发，临床医生最为需要的是医学疑点问题的解决，这是医生工作之根本，本实施例就是通过引导医生进行提问场景，从医生的实际需求出发，让医生在提问过程中完成标注，节省标注成本，还能够保证医生不离开临床岗位，这是现有技术所曾用到的方案。具体地，本实施例步骤启动的前提，就是首先确认医生是否进入提问场景。

进一步地，步骤S201中，若用户进入提问场景，则执行步骤S202，判断用户输入的字符串是否调用自标准字符串数据库，该步骤可以结合步骤S101予以理解，在此不予赘述。

进一步地，步骤S202中，若所述字符串是调用自标准字符串数据库，则执行步骤S203，所述字符串无需执行标注步骤，该步骤可以结合步骤S102予以理解，在此不予赘述。

进一步地，步骤S202中，若所述字符串不是调用自标准字符串数据库，则执行步骤S204，将用户输入所选择的标签与所述字符串关联，该步骤可以结合步骤S103予以理解，在此不予赘述。

作为本发明的第二实施例，图3示出了一种在提问场景下通过用户输入信息判断是否进行医学数据二次标注的控制方法，包括如下步骤：

执行步骤S301，判断用户是否进入提问场景，该步骤可以结合步骤S201予以理解，在此不予赘述。

进一步地，步骤S301中，若用户进入提问场景，则执行步骤S302，判断用户输入的字符串是否调用自标准字符串数据库，该步骤可以结合步骤S101予以理解，在此不予赘述。

进一步地，步骤S302中，若所述字符串是调用自标准字符串数据库，则执行步骤S303，所述字符串无需执行标注步骤，该步骤可以结合步骤S102予以理解，在此不予赘述。

进一步地，步骤S302中，若所述字符串不是调用自标准字符串数据库，则执行步骤S304，将用户输入所选择的标签与所述字符串关联，该步骤可以结合步骤S103予以理解，在此不予赘述。

进一步地，执行步骤S305，基于关联在所述字符串上的所述标签选定标注终端。本领域技术人员理解，判断是否能够进行数据标注，其前提就是找到能够完成数据标注的终端，本步骤之目的就在于此。具体地，本步骤并未限定未找到标注终端时如何处理，在实际应用中，本步骤是存在一定的迟滞性的，即，选择标注终端的时间可长可短，直至根据标签找到为止。更为具体地，选择所述标注终端的方法有多种，在基础信息较为完善的情形下，例如，曾经定义过标签的终端可以选定为标注终端，又例如，与所述标签曾经关联过的终端也可以选定为标注终端，这些都属于现有技术，在此不予赘述。

进一步地，执行步骤S306，对所述字符串进行语义分析并发送至所述标注终端。具体地，本步骤所涉及的语义分析算法可以大大精简，其语义分析结果不需要追求医学上的严谨性，在现有技术中，关于医学文本语义分析算法的研究是热点，其原因在于，医学的专业性导致传统的自然语言语义分析算法无法直接应用于医学领域，但从市场上的研究结果来看，较为精准的医学文本语义分析算法尚未成熟，在这基础上，本实施例通过选定标注终端的方式，降低对语义分析算法的高精度要求，以使本发明的算法在实际中更为符合真实应用场景的需求。更为具体地，即使语义分析结果不太精准，在将其发送至标注终端后，由于标注终端是通过标签关联选定，在语义分析结果不清晰的前提下并不影响其数据标注的准确性。

进一步地，执行步骤S307，所述标注终端根据步骤S306的语义分析结果判断是否对所述字符串进行标注。具体地，本步骤的标注可以理解为本发明的二次标注，即，区别于步骤S103的预标注。更为具体地，步骤S103的预标注是一种标签关联的步骤，其本身不涉及字符串的新增、修改，本步骤的标注则是对所述字符串的新增、修改，即，在原字符串的基础上加入了新的字符串，因此将其称之为二次标注，如此，在步骤执行完毕后形成的医学数据，其本质上至少经过两个终端的处理，数据质量更高，为人工智能的机器学习奠定基础。

作为本发明的第三实施例，图4示出了另一种在提问场景下通过用户输入信息判断是否进行医学数据二次标注的控制方法，包括如下步骤：

执行步骤S401，判断用户是否进入提问场景，该步骤可以结合步骤S201予以理解，在此不予赘述。

进一步地，步骤S401中，若用户进入提问场景，则执行步骤S402，判断用户输入的字符串是否调用自标准字符串数据库，该步骤可以结合步骤S101予以理解，在此不予赘述。

进一步地，步骤S402中，若所述字符串是调用自标准字符串数据库，则执行步骤S403，所述字符串无需执行标注步骤，该步骤可以结合步骤S102予以理解，在此不予赘述。

进一步地，步骤S402中，若所述字符串不是调用自标准字符串数据库，则执行步骤S404，将用户输入所选择的标签与所述字符串关联，该步骤可以结合步骤S103予以理解，在此不予赘述。

进一步地，执行步骤S405，提取所述标签上的特征字符。具体地，结合第二实施例描述，本实施例涉及一种具体的通过标签选定标注终端的方法，其通过一一识别标签上特征字符的方式找到标注终端，本领域技术人员，对于常规的医学文本而言，如果一一识别，其算法比较复杂，也会消耗大量的系统资源，而医学类的标签并非像医学术语一样发展速度较快，做特征提取也更为稳定，本实施例即采用这个方式。更为具体地，现有技术中有多种特征提取算法可以借鉴，均是采用语义识别的原则完成，在此不予赘述。在本发明的第四实施例中，发明人给出了另一种更为简便的算法，具体请见第四实施例。

进一步地，执行步骤S406，基于所述特征字符选定所述标注终端。具体地，所述特征字符可以是疾病、学科、地域、级别等各种信息，所述标注终端登录系统后，系统会采集标注终端的相关信息，本步骤就是通过匹配特征字符包含的信息和标注终端的相关信息完成选定步骤的。

进一步地，执行步骤S407，对所述字符串进行语义分析并发送至所述标注终端，该步骤可以结合步骤S306予以理解，在此不予赘述。

进一步地，执行步骤S408，所述标注终端根据步骤S407的语义分析结果判断是否对所述字符串进行标注，该步骤可以结合步骤S307予以理解，在此不予赘述。

作为本发明的第四实施例，图5示出了另一种在提问场景下通过用户输入信息判断是否进行医学数据二次标注的控制方法，包括如下步骤：

执行步骤S501，判断用户是否进入提问场景，该步骤可以结合步骤S201予以理解，在此不予赘述。

进一步地，步骤S501中，若用户进入提问场景，则执行步骤S502，判断用户输入的字符串是否调用自标准字符串数据库，该步骤可以结合步骤S101予以理解，在此不予赘述。

进一步地，步骤S502中，若所述字符串是调用自标准字符串数据库，则执行步骤S503，所述字符串无需执行标注步骤，该步骤可以结合步骤S102予以理解，在此不予赘述。

进一步地，步骤S502中，若所述字符串不是调用自标准字符串数据库，则执行步骤S504，将用户输入所选择的标签与所述字符串关联，该步骤可以结合步骤S103予以理解，在此不予赘述。

进一步地，执行步骤S505，对所述标签分词处理并识别所述标签上的通用字符，所述通用字符来自于非医学字符库。具体地，本步骤之目的在于快速的识别出医学字符库而不必考虑语言上的逻辑连贯性，现有技术中的分词算法和字符识别算法，通常为了语义上的精准而做研究，而医学上最大的特点在于，不必苛求语言逻辑上的连贯性，本实施例的标签也是医学类的标签，其识别方法采用排除法，这样大大提高了识别效率，本步骤首先是通过匹配非医学字符库找到非医学类的通用字符。

进一步地，执行步骤S506，将排除所述通用字符后剩余的字符提取后作为所述特征字符。具体地，结合步骤S505可知，在步骤S505的基础上，本步骤的执行不需要额外复杂的算法支撑，避开了医学文本识别的难点，而且还有一个重要原因在于，医学是在不断发展的，医生在实际临床中经常会制造一些医学文本术语，因此建立一个大而全的标准化的医学文本词库难度是极高，相比而言，一个非医学类的文本词库建设就相对简单，本实施例中的非医学字符库就是这样的，通过快速找到非医学类的通用字符，排除后剩余的字符可能和通过复杂算法识别出的医学字符略有区别，但对于本发明目的的实现足以，效率缺大大提高了。

进一步地，执行步骤S507，基于所述特征字符选定所述标注终端，该步骤可以结合步骤S305予以理解，在此不予赘述。

进一步地，执行步骤S508，对所述字符串进行语义分析并发送至所述标注终端，该步骤可以结合步骤S306予以理解，在此不予赘述。

进一步地，执行步骤S509，所述标注终端根据步骤S508的语义分析结果判断是否对所述字符串进行标注，该步骤可以结合步骤S307予以理解，在此不予赘述。

作为本发明的第五实施例，图6示出了另一种在提问场景下通过用户输入信息判断是否进行医学数据二次标注的控制方法，包括如下步骤：

执行步骤S601，判断用户是否进入提问场景，该步骤可以结合步骤S201予以理解，在此不予赘述。

进一步地，步骤S601中，若用户进入提问场景，则执行步骤S602，判断用户输入的字符串是否调用自标准字符串数据库，该步骤可以结合步骤S101予以理解，在此不予赘述。

进一步地，步骤S602中，若所述字符串是调用自标准字符串数据库，则执行步骤S603，所述字符串无需执行标注步骤，该步骤可以结合步骤S102予以理解，在此不予赘述。

进一步地，步骤S602中，若所述字符串不是调用自标准字符串数据库，则执行步骤S604，将用户输入所选择的标签与所述字符串关联，该步骤可以结合步骤S103予以理解，在此不予赘述。

进一步地，执行步骤S605，基于关联在所述字符串上的所述标签选定标注终端，该步骤可以结合步骤S305予以理解，在此不予赘述。

进一步地，执行步骤S606，对所述字符串进行语义分析并发送至所述标注终端，该步骤可以结合步骤S306予以理解，在此不予赘述。

进一步地，执行步骤S607，基于标记在所述字符串上的标签选定多个逻辑词组。具体地，所述逻辑词组也是由后台数据库的标准字符串组成但又区别于标准字符串，当标签标记于用户输入的字符串之后，标签与字符串即产生了关联，基于该标签即可从后台数据库调取多个标准字符串，调取的每个标准字符串与标签都是关联，这是建立标准字符串数据库通用规则，在本步骤中，将调取多个标准字符串共同组成多个逻辑词组，组成算法可以灵活选择，例如，以调取顺序为原则，每2个字符串组成一个逻辑词组，又例如，随机抽取2个字符串组成一个逻辑词组，又例如，字符串还可以是3个、4个或者更多，又例如，同一个字符串可以反复用于组成多个逻辑词组，即，系统设定每个标签对应至少选定5个逻辑词组，每个逻辑词组由2个标准字符串组成，而实际上后台能够与标签匹配的字符串只有8个，此时，就会通过将一个字符串反复应用最终达成组成5个逻辑词组之目的。本领域技术人员理解，这样形成逻辑词组语义上不一定连贯，但仍具有医学上的意义。

进一步地，执行步骤S608，将所述语义分析结果逐一嵌入至多个所述逻辑词组中组成多个嵌入式逻辑词组。具体地，嵌入方法可以是嵌入至词首、词尾或者随机嵌入至任一个标准字符串之前或者之后，但必须是将语义分析结果全部嵌入到每一个逻辑词组中，这属于现有技术在此不予赘述。

进一步地，执行步骤S609，逐一判断是否存在至少一个所述嵌入式逻辑词组的逻辑连贯性符合既定条件，若至少一个所述嵌入式逻辑词组的逻辑连贯性符合既定条件，则执行步骤S610，所述标注终端对所述字符串执行标注行为。具体地，本步骤是判断逻辑连贯性而非语义连贯性，结合步骤S607和S608，嵌入式逻辑词组的生成算法并未追求质量，因此嵌入式逻辑词组的质量是参差不齐的，本实施例应用的数学上的概率问题，虽然嵌入式逻辑词组的质量不一定高，但由于嵌入式逻辑词组只是用于判断是否执行二次标注行为的过渡性参考标准，其本身的质量并不影响最终医学数据标注质量，只要能够其逻辑连贯性符合要求，就可以判定标准终端执行标注行为。例如，以常见疾病糖尿病为例，一个标准的、耗时较长、成本较高的标注方式为，按照“患者情况”、“症状”、“化检指标”、“病史”、“家族史”、“服药史”来标注，但这是建立在准备对该医学数据进行标准的前提的，但如何判断是否对该医学数据进行标注则是现有技术研究的空白，在这里例子中，引入本实施例的方法，嵌入式逻辑词组可能是由以下字符串组成的“男性”、“多尿”、“二甲双胍”、“口干”、“餐后血糖”、“糖化血红蛋白”，虽然该词组在语义上并不连贯，但是其逻辑连贯性上已经具备进行数据标注的条件，因此就判断对其进行标注。本领域技术人员理解，本实施例可以快速筛选出需要进行标注的医学数据，快速识别垃圾数据，提高标注效率。

作为本发明的第六实施例，图7示出了另一种在提问场景下通过用户输入信息判断是否进行医学数据二次标注的控制方法，包括如下步骤：

执行步骤S701，判断用户是否进入提问场景，该步骤可以结合步骤S201予以理解，在此不予赘述。

进一步地，步骤S701中，若用户进入提问场景，则执行步骤S702，判断用户输入的字符串是否调用自标准字符串数据库，该步骤可以结合步骤S101予以理解，在此不予赘述。

进一步地，步骤S702中，若所述字符串是调用自标准字符串数据库，则执行步骤S703，所述字符串无需执行标注步骤，该步骤可以结合步骤S102予以理解，在此不予赘述。

进一步地，步骤S702中，若所述字符串不是调用自标准字符串数据库，则执行步骤S704，将用户输入所选择的标签与所述字符串关联，该步骤可以结合步骤S103予以理解，在此不予赘述。

进一步地，执行步骤S705，基于关联在所述字符串上的所述标签选定标注终端，该步骤可以结合步骤S305予以理解，在此不予赘述。

进一步地，执行步骤S706，对所述字符串进行语义分析并发送至所述标注终端，该步骤可以结合步骤S306予以理解，在此不予赘述。

进一步地，执行步骤S707，基于标记在所述字符串上的标签选定多个逻辑词组，该步骤可以结合步骤S607予以理解，在此不予赘述。优选地，所述逻辑词组是陆续被选定的，即，组成所述逻辑词组的标准字符串是按照一定序列顺序选定的，同样的，结合步骤S607的逻辑词组的组成方式可以理解。

进一步地，执行步骤S708，将所述语义分析结果逐一嵌入至多个所述逻辑词组中组成多个嵌入式逻辑词组，该步骤可以结合步骤S608予以理解，在此不予赘述。优选地，所述逻辑词组的数量少于所述嵌入式逻辑词组的数量，本领域技术人员理解，基于步骤S608的描述，所述嵌入式逻辑词组的质量是参差不齐的，例如，5个逻辑词组形成的5个嵌入式逻辑词组中，必然会有1个或者几个逻辑词组的质量较低，要实现本优选实施例的目的，需要引入词组质量分析算法，在进入步骤S709之前，降低嵌入式逻辑词组的数量，减少系统运算量，词组质量分析算法有较多现有技术可以借鉴，其并非本发明的重点，在此不予赘述。

进一步地，执行步骤S709，给定模型ρ＝(A，B，π)，其中，A表示多个所述逻辑词组之间的转移概率分布，B表示多个所述嵌入式逻辑词组的概率分布，π表示多个所述逻辑词组的概率分布。

进一步地，执行步骤S710，根据公式

进一步地，执行步骤S711，判断所述P(O|ρ)是否小于概率阈值P。具体地，所述概率阈值P由系统设定调整。进一步地，步骤S711中，若所述P(O|ρ)小于概率阈值P，则执行步骤S712，所述标注终端对所述字符串执行标注行为。具体地，所述标注终端对字符串的标注行为如何实施并非本发明的重点，在此不予赘述。

进一步地，步骤S711中，若所述P(O|ρ)不小于概率阈值P，则重新执行步骤S709。本领域技术人员理解，重新执行步骤S709之后，在步骤S710中所选定的嵌入式逻辑词组与之前执行步骤S710所选定的嵌入式逻辑词组并不重复，具体地，当全部嵌入式逻辑词组执行完毕后仍然未找到符合步骤S712标准的嵌入式逻辑词组，则本实施例自动终止，不再执行数据标注步骤。

以上对本发明的具体实施例进行了描述。需要理解的是，本发明并不局限于上述特定实施方式，本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种在输入过程中判断是否进行医学数据标注的控制方法，其特征在于，用户输入医学数据所选择的标签与标准标签数据库一致，包括如下步骤：

b.所述字符串无需执行标注步骤；

c.将用户输入所选择的标签与所述字符串关联；

d.基于关联在所述字符串上的所述标签选定标注终端；

d1.提取所述标签上的特征字符；

d12.将排除所述通用字符后剩余的字符提取后作为所述特征字符；

d2.基于所述特征字符选定所述标注终端；

e.对所述字符串进行语义分析并发送至所述标注终端；

f.所述标注终端根据步骤e的语义分析结果判断是否对所述字符串进行标注；

f1.基于标记在所述字符串上的标签选定多个逻辑词组；

f3.逐一判断每个所述嵌入式逻辑词组的逻辑连贯性是否符合既定条件，若至少一个所述嵌入式逻辑词组的逻辑连贯性符合既定条件，则所述标注终端对所述字符串执行标注行为；

所述嵌入式逻辑词组的逻辑连贯性通过最大概率P(O|ρ)表达，若所述P(O|ρ)小于概率阈值P，则判定所述嵌入式逻辑词组的逻辑连贯性符合既定条件。

2.根据权利要求1所述的控制方法，其特征在于：所述步骤f3中，所述嵌入式逻辑词组的逻辑连贯性通过最大概率P(O|ρ)表达，包括如下步骤：

f32.根据公式

计算所述嵌入式逻辑词组出现的最大概率P(O|ρ)，其中，O表示嵌入式逻辑词组序列，α_T表示前向概率，O＝o₁，o₂，…o_t，α_T＝α₁，α₂，…α₁，i表示生成第t个嵌入式逻辑词组时相对应的逻辑词组在全部逻辑词组序列的编号，i＝1，2，…m，

3.根据权利要求1中任一项所述的控制方法，其特征在于：所述步骤f1中，所述逻辑词组是陆续被选定的。

4.根据权利要求1中任一项所述的控制方法，其特征在于：所述步骤f2中，所述逻辑词组的数量少于所述嵌入式逻辑词组的数量。

5.根据权利要求1中任一项所述的控制方法，其特征在于：所述步骤a之前执行如下步骤：判断用户是否进入提问场景，若用户进入提问场景，则执行步骤a。