CN111191456A - 一种使用序列标注进行识别文本分段的方法 - Google Patents

一种使用序列标注进行识别文本分段的方法 Download PDF

Info

Publication number
CN111191456A
CN111191456A CN201811360997.6A CN201811360997A CN111191456A CN 111191456 A CN111191456 A CN 111191456A CN 201811360997 A CN201811360997 A CN 201811360997A CN 111191456 A CN111191456 A CN 111191456A
Authority
CN
China
Prior art keywords
model
text
sequence
clause
segmented
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811360997.6A
Other languages
English (en)
Other versions
CN111191456B (zh
Inventor
罗立刚
刘辉
张正宽
张天泽
常涛
王玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zero Krypton Technology Tianjin Co Ltd
Original Assignee
Zero Krypton Technology Tianjin Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zero Krypton Technology Tianjin Co Ltd filed Critical Zero Krypton Technology Tianjin Co Ltd
Priority to CN201811360997.6A priority Critical patent/CN111191456B/zh
Publication of CN111191456A publication Critical patent/CN111191456A/zh
Application granted granted Critical
Publication of CN111191456B publication Critical patent/CN111191456B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Primary Health Care (AREA)
  • Public Health (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种使用序列标注进行识别文本分段的方法,包括步骤:A、分别将样本集合的不同文字段切分为子句集合,采用语义特征向量标注所述子句集合以形成语义特征向量集合;B、对所述语义特征向量集合进行聚类训练,得到聚类模型,对所述聚类模型的各对象进行簇编号以形成序列模型;C、将所述序列模型与所述不同文字段建立映射,对映射后的簇序列训练序列标注模型;D、依次套用所述序列模型和所述序列标注模型,对待分段的文本进行分段。通过样本集合为数据库范本,进行标准化建模。在后续识别文本分段时,把对待分段文本中的句式模型进行标准化,而后依据模型将标准化的语句映射到语句特征,从而可以将表示相同语义的不同表述完成识别文本分段。

Description

一种使用序列标注进行识别文本分段的方法
技术领域
本发明涉及文字处理技术领域,特别是一种使用序列标注进行识别文本分段的方法。
背景技术
随着人工智能时代的到来,对于机器理解大段文本能力的要求越来越高。长文本因其信息量复杂,书写方式多样等,机器很难直接对其进行理解,所以可以先对长文本进行分解,拆解出其关键性信息片段,然后再逐个对片段信息进行进一步抽取和刻画,采用分治思想的方式是目前业界的一种主流做法。
在对长文本进行目标片段划分上,当前有使用多分类方式,即对子句建立多分类模型,然后基于规则或者模型在对子句进行连续性再拼接,构建成片段。但该方法缺乏上下文信息,对子句类型比较分散的情况难以应付。
还有使用深度学习问答模型方法,该方法能够做到端到端识别,但其对数据量和数据质量有比较高的要求,同时计算复杂度也很高,应用成本较高。
发明内容
本发明的主要目的在于提供一种使用序列标注进行识别文本分段的方法,包括步骤:
A、分别将样本集合的不同文字段切分为子句集合,采用语义特征向量标注所述子句集合以形成语义特征向量集合;
B、对所述语义特征向量集合进行聚类训练,得到聚类模型,对所述聚类模型的各对象进行簇编号以形成序列模型;
C、将所述序列模型与所述不同文字段建立映射,建立序列标注模型;
D、依次套用所述序列模型和所述序列标注模型,对待分段的文本进行分段。
由上,通过以样本集合为数据库范本,建立将表示相同语义的不同句式进行标准序列化的模型,以及建立序列与语句特征映射关系的模型,从而进行标准化建模。在后续对待分段的文本进行识别文本分段时,首先把对待分段文本中的各种句式依据标准序列化的模型进行标准化,而后依据序列与语句特征映射关系的模型将标准化的语句映射到语句特征,从而可以将表示相同语义的不同表述完成识别文本分段。
其中,所述步骤A包括:
对所述子句集合中的各子句进行分词处理,得出各子句中各分词的词向量;
分别对各子句中的词向量进行平均值计算,得出该各子句的语义特征向量。
由上,通过采用对组成句子的各单词词义向量的获取,进而计算出句子的语义特征向量。
其中,所述步骤D包括:
将待分段的文本切分为待分段子句集合,采用语义特征向量标注所述子句集合以形成待分段语义特征向量集合;
采用聚类模型对所述待分段语义特征向量的标注集合进行验算,以确定出各子句的簇编号;
采用序列标注模型对各子句所属的簇编号进行映射,以对所述各子句进行文字段的构建,确定出构建文本的各个片段。
由上,对待分段的文本进行识别文本分段时,首先将其采用与语义特征向量的标注集合相同的格式进行标准化,其次将标准化的各子句进行语义特征的映射,从而完成对待分段的文本的识别。
其中,所述样本集合和为历史病历;所述待分段的文本为新病历。
附图说明
图1为使用序列标注进行识别文本分段的方法的流程图。
具体实施方式
下面参见图1对本发明所述的使用序列标注进行识别文本分段的方法进行详细说明,包括由步骤S100~S400组成的建模训练阶段、步骤S500的识别文本分段阶段和步骤S600的应用阶段,详细说明如下:
S100:对文本切分成若干子句,获取各子句的语义特征向量的集合。
设语料样本集合S1,该集合S1中包括多个文字段,各文字段表述为Pi,i为大于或等于1的自然数。对所述文字段Pi按标点符号进行切分,得到子句Sij,二者的逻辑关系为Pi=Si1、Si2、……、Sij。所述子句Sij构成一形容不同文字段的标注(token)集合S2。例如在一段话中,一些语句是检查描述(对应为该段的开始),一些语句是病理描述(对应为该段的结束);或者一些语句是入院情况(开始),一些语句是治疗情况(中间过程),一些语句是出院情况(结束);又或者一些语句是描述患病症状(开始),一些语句是描述痊愈表现(结束)等等。由此会有不同的文字段。
对各所述子句Sij进行分词,得到Wijk,k为大于或等于1的自然数。所述分词结果Wijk构成词粒度集合W1。对所述词粒度集合W1进行词向量提取,得出词向量Wijk_vec。所述词向量具有良好的语义特性,是表示词语特征的常用方式。词向量每一维的值代表一个具有一定的语义和语法上解释的特征。本实施例中,对于词向量提取可采用Word2vec模型实现,该模型是google在2013年推出,特点是将所有的词向量化,这样词与词之间就可以定量度量彼此之间的关系。
举个例子,红细胞计数、血红蛋白、平均红细胞体积、白细胞计数、血小板这些名词各对应一个向量,向量中只有一个值为1,其余都为0。可见,这些名词之间是没有交集的。但经过Word2vec模型进行词向量提取后,使上述各名词产生关联,例如以在人体内的存量这一一维变量建立联系从而以向量形式表示;又或者同时以在人体内的存量、以及所占重量或更新速度等三维数据建立联系从而以向量形式表示等等。
又例如,在一段病历中,一般包括患者的身份信息,病情叙述、检查内容和分析结果。采用词向量提取,便可以将各个名词与上述不同过程建立相关性。例如分词包括张三、45岁、男、血液检测、血糖高总共五个分词。则张三、45岁、男三个分词便跟身份信息的关联性最强,而跟病情叙述、检查内容和分析结果两个过程的相关性较弱。
另外,对于语义特征向量的获取还可采用例如潜在语义分析(LSA,LatentSemantic Analysis)等其他方法进行,在此不进行限定。
使用采用平均值算法得到句子语义特征向量Sij_vec,Sij_vec=Average(Wijk_vec)。从而形成语义特征向量的集合S3。
S200:对所述语义特征向量的集合进行聚类训练,得到聚类模型。
通过对各子句语义特征向量的识别,将语义特征相同或者近似的子句划归为同一类。
本实施例中,对语义特征向量的集合S3进行聚类训练采用K-means算法,其基本原理是基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。
本步骤对语义特征向量的集合S3进行聚类训练的训练结果得到聚类模型M1,聚类簇为K。即从j个子句中随机选取K个作为质心;对剩余的每个子句测量其到每个质心的距离,并把它归到最近的质心的类;重新计算已经得到的各个类的质心;迭代执行前述两步,直至新的质心与原质心相等或小于指定阈值。
S300:对所述标注集合S2按照聚类模型进行编号以形成序列模型。
对所述标注集合S2根据聚类模型M1进行验算,从而可以推断出各子句Sij所属的簇编号,所述簇编号表示为cid,由此将所述标注集合S2转换为簇编号序列,表示为Sij_cid。
由于常用汉字约为6000例,这其中包括了单字间的组合、单词间的组合、单句间的组合以及三者之间的结合,可以说组合形式千变万化。即,对于同一种病理描述的表达,可能有前种万种,例如同样是对感冒的描述,可能存在“疑似感冒”,“检查结果为感冒”,“感冒的可能性很大”等等多种表达。因此,本步骤的目的就是将同一语义的千万种表达进行标准化处理,转换为簇编号序列。
S400:将所述序列模型与形容不同文字段的标注集合S2建立映射,采用序列标注方法进行序列标注模型训练,得到序列标注模型。
本步骤的目的实质是将簇编号序列与不同文字段建立映射。简单来说,在进行步骤S300得到簇编号序列时,仅以数字标号进行区分。而本步骤的目的是将所述序列与步骤S100中的不同文字段的标注集合建立映射,从而对相同文字段的不同句子进行序列标注模型的建立。
具体的序列标注方法可采用CRF或LSTM-CRF等,二者的实现原理相同,是指在给定输入节点条件下计算输出节点的条件概率,其核心思想是利用无向图理论使序列标注的结果达到在整个序列上全局最优。通过序列标注模型训练后所得到的序列标注模型记为M2。
S500:依次套用所述序列和所述序列标注模型,对待分段的文本进行分段的识别。
本步骤中,对于待分段的文本S1’,包括一文字段Pi’,i为大于或等于1的自然数。对所述文字段Pi’按标点符号切分为Sij’,Pi’=Si1’、Si2’、……、Sij’,从而得到标注集合S2’。
对所述标注集合S2’根据聚类模型M1进行验算,推断出各子句Sij’所属的簇编号Sij’_cid。
采用序列标注模型M2对各子句Sij’所属的簇编号进行映射,以确定出各子句Sij’所在的各个片段。
针对应用场景,在长文本中识别出目标事件片段,如在医疗领域中,从医疗病历中识别出描述患者病理检测情况的信息片段,而舍弃患者信息片段。由于现有电子病历可能包括一个病人各种繁杂信息的描述。则通过聚类模型M1可以判断出各子句在文本中的起始、中间或结尾位置。而通过序列标注模型M2可以判断出对应各子句所表达的含义,从而可以帮助医生或者患者快速找到所需要的信息。
依照一实例说明,假设病历内容为:患者2年8月前因“胸痛胸闷”就诊于新新医学院一附院,行胸部CT(2015.06.02)示:左侧胸腔积液并左肺膨胀不全,左肺下叶弱强化结节。胸10椎体高密度影,性质待定。超声(2015.06.02)示:左侧胸腔积液。在该院行胸腔置管引流,共引流出淡黄色液体约3000ml。
在训练阶段,上述病历内容被标注为:
CT检查:行胸部CT(2015.06.02)示:左侧胸腔积液并左肺膨胀不全,左肺下叶弱强化结节。胸10椎体高密度影,性质待定。
超声检查:超声(2015.06.02)示:左侧胸腔积液。在该院行胸腔置管引流,共引流出淡黄色液体约3000ml。
通过步骤S100、S200聚类训练,假定聚类簇为500,将病历内容映射到簇编号为:
病历内容:10,20:21,31。41,51。100:20。22,300。
标注结果映射为:
CT检查:20:21,31。41,51。
超声检查:100:20。22,300。
S300转化为序列标注,采用BIESO标记,BIESO标记实质即采用几个字母将文本内容进行标记(替代),具体如下所示:
10 S
, O
20 B
: I
21 I
, I
31 I
。 I
41 I
, I
51 I
。 E
100 B
: I
20 I
。 I
22 I
, I
300 I
。 E
通过对标注结果训练即得到序列标注模型。
在预测阶段,将文本映射到聚类簇编号,然后使用序列标注模型去预测,得到结果编号序列,进而得到文本片段。
S600:基于所识别出的文本分段,对患者进行诊治或复查等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种使用序列标注进行识别文本分段的方法,其特征在于,包括步骤:
A、分别将样本集合的不同文字段切分为子句集合,采用语义特征向量标注所述子句集合以形成语义特征向量集合;
B、对所述语义特征向量集合进行聚类训练,得到聚类模型,对所述聚类模型的各对象进行簇编号以形成序列模型;
C、将所述序列模型与所述不同文字段建立映射,建立序列标注模型;
D、依次套用所述序列模型和所述序列标注模型,对待分段的文本进行分段。
2.根据权利要求1所述的方法,其特征在于,所述步骤A包括:
对所述子句集合中的各子句进行分词处理,得出各子句中各分词的词向量;
分别对各子句中的词向量进行平均值计算,得出该各子句的语义特征向量。
3.根据权利要求1所述的方法,其特征在于,所述步骤D包括:
将待分段的文本切分为待分段子句集合,采用语义特征向量标注所述子句集合以形成待分段语义特征向量集合;
采用聚类模型对所述待分段语义特征向量的标注集合进行验算,以确定出各子句的簇编号;
采用序列标注模型对各子句所属的簇编号进行映射,以对所述各子句进行文字段的构建,确定出构建文本的各个片段。
4.根据权利要求1~3任一所述的方法,其特征在于,所述样本集合和为历史病历;所述待分段的文本为新病历。
CN201811360997.6A 2018-11-15 2018-11-15 一种使用序列标注进行识别文本分段的方法 Active CN111191456B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811360997.6A CN111191456B (zh) 2018-11-15 2018-11-15 一种使用序列标注进行识别文本分段的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811360997.6A CN111191456B (zh) 2018-11-15 2018-11-15 一种使用序列标注进行识别文本分段的方法

Publications (2)

Publication Number Publication Date
CN111191456A true CN111191456A (zh) 2020-05-22
CN111191456B CN111191456B (zh) 2023-05-09

Family

ID=70705602

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811360997.6A Active CN111191456B (zh) 2018-11-15 2018-11-15 一种使用序列标注进行识别文本分段的方法

Country Status (1)

Country Link
CN (1) CN111191456B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737989A (zh) * 2020-06-24 2020-10-02 深圳前海微众银行股份有限公司 一种意图识别方法、装置、设备及存储介质
CN112016274A (zh) * 2020-09-08 2020-12-01 平安科技(深圳)有限公司 医学文本结构化方法、装置、计算机设备及存储介质
CN112052646A (zh) * 2020-08-27 2020-12-08 安徽聚戎科技信息咨询有限公司 一种文本数据标注方法
CN114387602A (zh) * 2022-03-24 2022-04-22 北京智源人工智能研究院 医疗ocr数据优化模型训练方法、优化方法及设备
CN116561327A (zh) * 2023-07-11 2023-08-08 北京全景智联科技有限公司 基于聚类算法的政务数据管理方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095928A (zh) * 2016-06-12 2016-11-09 国家计算机网络与信息安全管理中心 一种事件类型识别方法及装置
CN108268449A (zh) * 2018-02-10 2018-07-10 北京工业大学 一种基于词项聚类的文本语义标签抽取方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106095928A (zh) * 2016-06-12 2016-11-09 国家计算机网络与信息安全管理中心 一种事件类型识别方法及装置
CN108268449A (zh) * 2018-02-10 2018-07-10 北京工业大学 一种基于词项聚类的文本语义标签抽取方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737989A (zh) * 2020-06-24 2020-10-02 深圳前海微众银行股份有限公司 一种意图识别方法、装置、设备及存储介质
CN112052646A (zh) * 2020-08-27 2020-12-08 安徽聚戎科技信息咨询有限公司 一种文本数据标注方法
CN112052646B (zh) * 2020-08-27 2024-03-29 安徽聚戎科技信息咨询有限公司 一种文本数据标注方法
CN112016274A (zh) * 2020-09-08 2020-12-01 平安科技(深圳)有限公司 医学文本结构化方法、装置、计算机设备及存储介质
WO2021164301A1 (zh) * 2020-09-08 2021-08-26 平安科技(深圳)有限公司 医学文本结构化方法、装置、计算机设备及存储介质
CN112016274B (zh) * 2020-09-08 2024-03-08 平安科技(深圳)有限公司 医学文本结构化方法、装置、计算机设备及存储介质
CN114387602A (zh) * 2022-03-24 2022-04-22 北京智源人工智能研究院 医疗ocr数据优化模型训练方法、优化方法及设备
CN114387602B (zh) * 2022-03-24 2022-07-08 北京智源人工智能研究院 医疗ocr数据优化模型训练方法、优化方法及设备
CN116561327A (zh) * 2023-07-11 2023-08-08 北京全景智联科技有限公司 基于聚类算法的政务数据管理方法
CN116561327B (zh) * 2023-07-11 2023-09-08 北京全景智联科技有限公司 基于聚类算法的政务数据管理方法

Also Published As

Publication number Publication date
CN111191456B (zh) 2023-05-09

Similar Documents

Publication Publication Date Title
CN108831559B (zh) 一种中文电子病历文本分析方法与系统
CN109378053B (zh) 一种用于医学影像的知识图谱构建方法
CN111191456B (zh) 一种使用序列标注进行识别文本分段的方法
US10929420B2 (en) Structured report data from a medical text report
Banerjee et al. Radiology report annotation using intelligent word embeddings: Applied to multi-institutional chest CT cohort
CN111613339B (zh) 一种基于深度学习的相似病历查找方法与系统
CN108628824A (zh) 一种基于中文电子病历的实体识别方法
CN110705293A (zh) 基于预训练语言模型的电子病历文本命名实体识别方法
US20220301670A1 (en) Automated information extraction and enrichment in pathology report using natural language processing
CN112597774B (zh) 中文医疗命名实体识别方法、系统、存储介质和设备
CN110069779B (zh) 医疗文本的症状实体识别方法及相关装置
CN106874643A (zh) 基于词向量自动构建知识库实现辅助诊疗的方法和系统
CN114582470B (zh) 一种模型的训练方法、训练装置及医学影像报告标注方法
CN109344250A (zh) 基于医保数据的单病种诊断信息快速结构化方法
CN109378066A (zh) 一种基于特征向量实现疾病预测的控制方法及控制装置
CN110335653A (zh) 基于openEHR病历格式的非标准病历解析方法
CN112635011A (zh) 疾病诊断方法、疾病诊断系统和可读存储介质
CN111696640A (zh) 自动获取病历模板的方法、装置和存储介质
CN115062165B (zh) 基于读片知识图谱的医学影像诊断方法及装置
CN111191415A (zh) 基于原始手术数据的手术分类编码方法
WO2021008601A1 (zh) 一种医学数据的检验方法
WO2023204944A1 (en) Training of text and image models
CN112071431B (zh) 基于深度学习和知识图谱的临床路径自动生成方法及系统
CN112861881A (zh) 一种基于改进MobileNet模型的蜂窝肺识别方法
CN117422074A (zh) 一种临床信息文本标准化的方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant