CN111191456A

CN111191456A - 一种使用序列标注进行识别文本分段的方法

Info

Publication number: CN111191456A
Application number: CN201811360997.6A
Authority: CN
Inventors: 罗立刚; 刘辉; 张正宽; 张天泽; 常涛; 王玲
Original assignee: Zero Krypton Technology Tianjin Co Ltd
Current assignee: Zero Krypton Technology Tianjin Co Ltd
Priority date: 2018-11-15
Filing date: 2018-11-15
Publication date: 2020-05-22
Anticipated expiration: 2038-11-15
Also published as: CN111191456B

Abstract

本发明提供一种使用序列标注进行识别文本分段的方法，包括步骤：A、分别将样本集合的不同文字段切分为子句集合，采用语义特征向量标注所述子句集合以形成语义特征向量集合；B、对所述语义特征向量集合进行聚类训练，得到聚类模型，对所述聚类模型的各对象进行簇编号以形成序列模型；C、将所述序列模型与所述不同文字段建立映射，对映射后的簇序列训练序列标注模型；D、依次套用所述序列模型和所述序列标注模型，对待分段的文本进行分段。通过样本集合为数据库范本，进行标准化建模。在后续识别文本分段时，把对待分段文本中的句式模型进行标准化，而后依据模型将标准化的语句映射到语句特征，从而可以将表示相同语义的不同表述完成识别文本分段。

Description

一种使用序列标注进行识别文本分段的方法

技术领域

本发明涉及文字处理技术领域，特别是一种使用序列标注进行识别文本分段的方法。

背景技术

随着人工智能时代的到来，对于机器理解大段文本能力的要求越来越高。长文本因其信息量复杂，书写方式多样等，机器很难直接对其进行理解，所以可以先对长文本进行分解，拆解出其关键性信息片段，然后再逐个对片段信息进行进一步抽取和刻画，采用分治思想的方式是目前业界的一种主流做法。

在对长文本进行目标片段划分上，当前有使用多分类方式，即对子句建立多分类模型，然后基于规则或者模型在对子句进行连续性再拼接，构建成片段。但该方法缺乏上下文信息，对子句类型比较分散的情况难以应付。

还有使用深度学习问答模型方法，该方法能够做到端到端识别，但其对数据量和数据质量有比较高的要求，同时计算复杂度也很高，应用成本较高。

发明内容

本发明的主要目的在于提供一种使用序列标注进行识别文本分段的方法，包括步骤：

A、分别将样本集合的不同文字段切分为子句集合，采用语义特征向量标注所述子句集合以形成语义特征向量集合；

B、对所述语义特征向量集合进行聚类训练，得到聚类模型，对所述聚类模型的各对象进行簇编号以形成序列模型；

C、将所述序列模型与所述不同文字段建立映射，建立序列标注模型；

D、依次套用所述序列模型和所述序列标注模型，对待分段的文本进行分段。

由上，通过以样本集合为数据库范本，建立将表示相同语义的不同句式进行标准序列化的模型，以及建立序列与语句特征映射关系的模型，从而进行标准化建模。在后续对待分段的文本进行识别文本分段时，首先把对待分段文本中的各种句式依据标准序列化的模型进行标准化，而后依据序列与语句特征映射关系的模型将标准化的语句映射到语句特征，从而可以将表示相同语义的不同表述完成识别文本分段。

其中，所述步骤A包括：

对所述子句集合中的各子句进行分词处理，得出各子句中各分词的词向量；

分别对各子句中的词向量进行平均值计算，得出该各子句的语义特征向量。

由上，通过采用对组成句子的各单词词义向量的获取，进而计算出句子的语义特征向量。

其中，所述步骤D包括：

将待分段的文本切分为待分段子句集合，采用语义特征向量标注所述子句集合以形成待分段语义特征向量集合；

采用聚类模型对所述待分段语义特征向量的标注集合进行验算，以确定出各子句的簇编号；

采用序列标注模型对各子句所属的簇编号进行映射，以对所述各子句进行文字段的构建，确定出构建文本的各个片段。

由上，对待分段的文本进行识别文本分段时，首先将其采用与语义特征向量的标注集合相同的格式进行标准化，其次将标准化的各子句进行语义特征的映射，从而完成对待分段的文本的识别。

其中，所述样本集合和为历史病历；所述待分段的文本为新病历。

附图说明

图1为使用序列标注进行识别文本分段的方法的流程图。

具体实施方式

下面参见图1对本发明所述的使用序列标注进行识别文本分段的方法进行详细说明，包括由步骤S100～S400组成的建模训练阶段、步骤S500的识别文本分段阶段和步骤S600的应用阶段，详细说明如下：

S100：对文本切分成若干子句，获取各子句的语义特征向量的集合。

设语料样本集合S1，该集合S1中包括多个文字段，各文字段表述为P_i，i为大于或等于1的自然数。对所述文字段P_i按标点符号进行切分，得到子句S_ij，二者的逻辑关系为P_i＝S_i1、S_i2、……、S_ij。所述子句S_ij构成一形容不同文字段的标注(token)集合S2。例如在一段话中，一些语句是检查描述(对应为该段的开始)，一些语句是病理描述(对应为该段的结束)；或者一些语句是入院情况(开始)，一些语句是治疗情况(中间过程)，一些语句是出院情况(结束)；又或者一些语句是描述患病症状(开始)，一些语句是描述痊愈表现(结束)等等。由此会有不同的文字段。

对各所述子句S_ij进行分词，得到W_ijk，k为大于或等于1的自然数。所述分词结果W_ijk构成词粒度集合W1。对所述词粒度集合W1进行词向量提取，得出词向量W_ijk_vec。所述词向量具有良好的语义特性，是表示词语特征的常用方式。词向量每一维的值代表一个具有一定的语义和语法上解释的特征。本实施例中，对于词向量提取可采用Word2vec模型实现，该模型是google在2013年推出，特点是将所有的词向量化，这样词与词之间就可以定量度量彼此之间的关系。

举个例子，红细胞计数、血红蛋白、平均红细胞体积、白细胞计数、血小板这些名词各对应一个向量，向量中只有一个值为1，其余都为0。可见，这些名词之间是没有交集的。但经过Word2vec模型进行词向量提取后，使上述各名词产生关联，例如以在人体内的存量这一一维变量建立联系从而以向量形式表示；又或者同时以在人体内的存量、以及所占重量或更新速度等三维数据建立联系从而以向量形式表示等等。

又例如，在一段病历中，一般包括患者的身份信息，病情叙述、检查内容和分析结果。采用词向量提取，便可以将各个名词与上述不同过程建立相关性。例如分词包括张三、45岁、男、血液检测、血糖高总共五个分词。则张三、45岁、男三个分词便跟身份信息的关联性最强，而跟病情叙述、检查内容和分析结果两个过程的相关性较弱。

另外，对于语义特征向量的获取还可采用例如潜在语义分析(LSA，LatentSemantic Analysis)等其他方法进行，在此不进行限定。

使用采用平均值算法得到句子语义特征向量S_ij_vec，S_ij_vec＝Average(W_ijk_vec)。从而形成语义特征向量的集合S3。

S200：对所述语义特征向量的集合进行聚类训练，得到聚类模型。

通过对各子句语义特征向量的识别，将语义特征相同或者近似的子句划归为同一类。

本实施例中，对语义特征向量的集合S3进行聚类训练采用K-means算法，其基本原理是基于距离的聚类算法，采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大。该算法认为簇是由距离靠近的对象组成的，因此把得到紧凑且独立的簇作为最终目标。

本步骤对语义特征向量的集合S3进行聚类训练的训练结果得到聚类模型M1，聚类簇为K。即从j个子句中随机选取K个作为质心；对剩余的每个子句测量其到每个质心的距离，并把它归到最近的质心的类；重新计算已经得到的各个类的质心；迭代执行前述两步，直至新的质心与原质心相等或小于指定阈值。

S300：对所述标注集合S2按照聚类模型进行编号以形成序列模型。

对所述标注集合S2根据聚类模型M1进行验算，从而可以推断出各子句S_ij所属的簇编号，所述簇编号表示为cid，由此将所述标注集合S2转换为簇编号序列，表示为S_ij_cid。

由于常用汉字约为6000例，这其中包括了单字间的组合、单词间的组合、单句间的组合以及三者之间的结合，可以说组合形式千变万化。即，对于同一种病理描述的表达，可能有前种万种，例如同样是对感冒的描述，可能存在“疑似感冒”，“检查结果为感冒”，“感冒的可能性很大”等等多种表达。因此，本步骤的目的就是将同一语义的千万种表达进行标准化处理，转换为簇编号序列。

S400：将所述序列模型与形容不同文字段的标注集合S2建立映射，采用序列标注方法进行序列标注模型训练，得到序列标注模型。

本步骤的目的实质是将簇编号序列与不同文字段建立映射。简单来说，在进行步骤S300得到簇编号序列时，仅以数字标号进行区分。而本步骤的目的是将所述序列与步骤S100中的不同文字段的标注集合建立映射，从而对相同文字段的不同句子进行序列标注模型的建立。

具体的序列标注方法可采用CRF或LSTM-CRF等，二者的实现原理相同，是指在给定输入节点条件下计算输出节点的条件概率，其核心思想是利用无向图理论使序列标注的结果达到在整个序列上全局最优。通过序列标注模型训练后所得到的序列标注模型记为M2。

S500：依次套用所述序列和所述序列标注模型，对待分段的文本进行分段的识别。

本步骤中，对于待分段的文本S1’，包括一文字段P_i’，i为大于或等于1的自然数。对所述文字段P_i’按标点符号切分为S_ij’，P_i’＝S_i1’、S_i2’、……、S_ij’，从而得到标注集合S2’。

对所述标注集合S2’根据聚类模型M1进行验算，推断出各子句S_ij’所属的簇编号S_ij’_cid。

采用序列标注模型M2对各子句S_ij’所属的簇编号进行映射，以确定出各子句S_ij’所在的各个片段。

针对应用场景，在长文本中识别出目标事件片段，如在医疗领域中，从医疗病历中识别出描述患者病理检测情况的信息片段，而舍弃患者信息片段。由于现有电子病历可能包括一个病人各种繁杂信息的描述。则通过聚类模型M1可以判断出各子句在文本中的起始、中间或结尾位置。而通过序列标注模型M2可以判断出对应各子句所表达的含义，从而可以帮助医生或者患者快速找到所需要的信息。

依照一实例说明，假设病历内容为：患者2年8月前因“胸痛胸闷”就诊于新新医学院一附院，行胸部CT(2015.06.02)示：左侧胸腔积液并左肺膨胀不全，左肺下叶弱强化结节。胸10椎体高密度影，性质待定。超声(2015.06.02)示：左侧胸腔积液。在该院行胸腔置管引流，共引流出淡黄色液体约3000ml。

在训练阶段，上述病历内容被标注为：

CT检查：行胸部CT(2015.06.02)示：左侧胸腔积液并左肺膨胀不全，左肺下叶弱强化结节。胸10椎体高密度影，性质待定。

超声检查：超声(2015.06.02)示：左侧胸腔积液。在该院行胸腔置管引流，共引流出淡黄色液体约3000ml。

通过步骤S100、S200聚类训练，假定聚类簇为500，将病历内容映射到簇编号为：

病历内容：10，20：21，31。41，51。100：20。22，300。

标注结果映射为：

CT检查：20:21，31。41，51。

超声检查：100：20。22，300。

S300转化为序列标注，采用BIESO标记，BIESO标记实质即采用几个字母将文本内容进行标记(替代)，具体如下所示：

10 S

， O

20 B

： I

21 I

， I

31 I

。 I

41 I

， I

51 I

。 E

100 B

： I

20 I

。 I

22 I

， I

300 I

。 E

通过对标注结果训练即得到序列标注模型。

在预测阶段，将文本映射到聚类簇编号，然后使用序列标注模型去预测，得到结果编号序列，进而得到文本片段。

S600：基于所识别出的文本分段，对患者进行诊治或复查等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种使用序列标注进行识别文本分段的方法，其特征在于，包括步骤：

2.根据权利要求1所述的方法，其特征在于，所述步骤A包括：

3.根据权利要求1所述的方法，其特征在于，所述步骤D包括：

4.根据权利要求1～3任一所述的方法，其特征在于，所述样本集合和为历史病历；所述待分段的文本为新病历。