CN113343686A

CN113343686A - 文本多特征歧义消解方法及系统

Info

Publication number: CN113343686A
Application number: CN202110484022.XA
Authority: CN
Inventors: 袁锋; 段成志; 张宇昂; 刘悦; 徐传杰; 于凤洋
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2021-04-30
Filing date: 2021-04-30
Publication date: 2021-09-03

Abstract

本发明提供一种文本多特征歧义消解方法及系统，属于文本识别处理技术领域，包括：将待消解的文本输入到训练好的消解模型中，对文本中的组合型歧义字段进行识别和抽取，按照文本中的词的上下文关联性以及词性特征对抽取的文本进行切分，得到歧义消解后的文本；其中，所述训练好的消解模型由训练集训练得到，所述训练集包括由歧义字段所在文本的文本权重特征、上下文关联特征和词性特征组成的特征向量。本发明对文本中的权重特征、上下文词特征和词性特征进行结合生成特征向量，利用非线性SVM模型采取线性核函数进行分类，最终得到正确的组合型歧义的切分方式，使具有多特征歧义字段的文本分类识别更加准确。

Description

文本多特征歧义消解方法及系统

技术领域

本发明涉及文本识别处理技术领域，具体涉及一种文本多特征歧义消解方法及系统。

背景技术

针对文本处理识别中的歧义消解工作，关于英文文本的词义消歧，如，Andreim等人通过对Shotgun进行改进而得到一种新的无监督的全局词义消歧方法，Calvo等人探索基于多层感知器，融合深层神经网络LSTM和GRU解决词义消歧(WSD，word sensedisambiguation)问题的泛化问题；Abuakgaija等人提出融合了遗传模拟退火和蚁群两种算法并进行改进的单词消歧方法；Nguyen等人针对朝鲜语的特殊特征，手动建立了一个正式的语义网络，用于发展朝鲜语词义消歧系统：UTagger。Simov等人提出了一种新颖的深层双向ESN(DBiESN)结构应用于词义消歧。

对于中文文本歧义消解的研究，刘小虎博士的毕业论文是国内最早研究歧义消解的学术文献。张春祥等人通过对大量无标注语料进行分析，同时使用多种语言学知识构建了一种半监督的消歧方法。肖锐等人在多义词语义拓扑图的基础上构建有监督的深度神经网络模型，最终得到词义消歧分类模型。唐共波等人为解决词语消歧问题，通过计算多义词生成的词向量和特征向量这两种向量之间的相似度并进行分析。史兆鹏等人提出了一种新型的词义消歧方法，通过融合多特征来达到词义消歧的目的。中文文本因为其自身构词特点，会同时产生切分歧义。

为了对中文分词中出现的切分歧义进行消解，出现了基于字符分类、基于语境、基于规则、基于统计、向量空间模型以及混合的方法。基于字符分类的方法中Xue于2003年通过最大熵标记器对手动注释数据进行训练，以达到将汉字或汉字标记自动分配给指示单词中汉字位置的汉字或汉字标记。基于语境的方法中，冯素琴在对组合型歧义进行消歧时，采用对数似然比方法构建语境计算模型，在此基础上对语境信息的窗口大小、位置和频次进行统计，分析其对消歧的影响而设计了相应的权值计算公式。袁鼎荣等人以组合型歧义字段所在句子为研究对象，通过构建支持度度量因子对组合型歧义进行切分。周俊等通过对交叉型歧义的分析，采取最长广义词匹配的原则构建中文分词模型，较好的对歧义词进行消解。郭丙华等人将歧义词与词语搭配词典进行匹配，并对其动宾搭配进行判断，通过这种方法对文档词语歧义性进行消除，并且得到比较准确的结果。王崇把改进的退一字组合算法和动词判定两种算法进行结合对歧义进行消解。随着歧义研究的发展和延伸，向量空间模型和混合方法使用的越来越多。尤慧丽等人通过C-SVM模型融合规则对组合型歧义进行消解。李超对复句关系词歧义切分研究中，提出了一种基于规则和向量空间模型(VectorSpace Model,VSM)的方法，并结合词性特征构建复句关系词歧义切分模型。梁胜等人针对交集型歧义，将基于词典和基于统计的中文分词方法相结合进行歧义消解。李惠构建一种组合型歧义消解方法，提高切分精度的基础上，对未登陆词进行识别。

中医医案文本包含了中医医师对患者疾病判断以及治疗的完整信息，通过分析相关文本可以发现隐藏在中医医案中的规律性知识。中医医案文本语言与日常中所使用的语言有一定的差别，中医医案中的文本特点描述如下：

(1)语言精练。中医医案文本的语言在描述中经常对部分文本进行省略。比如中医医案文本中的“舌淡红”和“舌质淡胖”，应该理解为“舌淡、舌红”和“舌质淡、舌质胖”。“舌淡红”和“舌质淡胖”把相同的主语进行省略，只使用一个主语用多个特点进行描述。因此在理解中医医案文本时需要借助上下文。

(2)模糊性。在中医理论中，许多概念无法进行明确定义，在表述上具有一定的模糊性，中医文本的模糊性在中医医案的表述中也是普遍存在的，如词语“胃火”、“肝火”、“肾水”，短语“肝火上炎”、“湿热下注”等等。虽然这些文本描述具有一定的模糊性，但是这些描述都具有一定的词性特征，比如词语“胃火”、“肝火”、“肝阳”、“肾水”都是名词+名词的组合，而短语“肝火上炎”、“湿热下注”则是名词+动词的组合，因此可以通过分析词性对中医医案文本进行理解。

(3)非结构化。中医的诊疗流程首先通过望、闻、问、切来获得病患所患疾病的外在表现形式，然后判断人体内部气血阴阳、脏腑经络的改变，从而得到病名并归纳出证型。通过分析证型，确立治则治法，最后到具体的治疗措施如中药、针灸、推拿等等，从而达到治疗目的。这个过程被记录到医案中，所使用的都是中医专业术语，都是非结构化数据，难以被采集利用。

由于中医医案文本的上述自身特点，在分词的过程中会产生切分歧义，相应的会产生歧义字段，进而对分词结果产生影响。歧义字段是指在不同的文本语境中存在不同形式切分的文本。歧义消解就是通过使用一定的方法和技术将歧义字段进行修正，使其切分成准确的方式，便于后续研究。中医医案文本分词和歧义消解属于中文分词和歧义消解领域，但是由于中医医案文本中使用大量专有名词、个人习惯用语以及现代与古代用语混杂，这使得现有的歧义消解算法不能很好的应用于中医医案文本。

发明内容

本发明的目的在于提供一种结合文本中的权重特征、上下文词特征和词性特征进行结合生成特征向量，利用非线性SVM模型采取线性核函数进行分类，最终得到正确的组合型歧义的文本多特征歧义消解方法及系统，以解决上述背景技术中存在的至少一项技术问题。

为了实现上述目的，本发明采取了如下技术方案：

第一方面，本发明提供一种文本多特征歧义消解方法，包括：将待消解的文本输入到训练好的消解模型中，对文本中的组合型歧义字段进行识别和抽取，按照文本中的词的上下文关联性以及词性特征对抽取的文本进行切分，得到歧义消解后的文本；其中，所述训练好的消解模型由训练集训练得到，所述训练集包括由歧义字段所在文本的文本权重特征、上下文关联特征和词性特征组成的特征向量。

优选的，训练得到所述消解模型包括：构建组合型歧义词库；结合组合型歧义词库，对文本的歧义字段进行识别和抽取，通过加入词长的TF-IDF算法计算文本权重值生成权重特征，并结合歧义字段的上下文关联特征和词性特征，得到特征向量；将特征向量输入非线性核函数SVM分类器，训练得到所述消解模型。

优选的，构建组合型歧义词库包括：对文本的分词词典进行遍历，对其中可能出现组合型歧义现象的词进行标记和抽取，对抽取出的歧义字段所在文本的词性、正确切分结果和文本所在位置进行标注，构建以语句为单位的歧义词库。

优选的，对文本的歧义字段进行识别和抽取包括并将文本字段与歧义字段库进行匹配，若该文本存在于歧义字段库中，则将其进行抽取。

优选的，获取权重特征包括：使用TF-IDF算法计算文本中歧义字段的权重值，并设置加权因子，将计算的权重值转化为权重特征。

优选的，获取上下文关联特征包括：对于包含歧义字段的文本，以歧义字段为中心，设置窗口，提取歧义字段上下文词集合；将上下文词集合转换为对应的词向量集合并作为上下文词特征。

优选的，获取词性特征包括：对于歧义字段所在文本的词性标签序列，以歧义字段为中心，选取窗口设置范围内的词，提取目标词词性标签集合。

第二方面，本发明提供一种文本多特征歧义消解系统，包括：

消解模块，所述消解模块被配置为：利用训练好的消解模型将待消解的文本中的组合型歧义字段进行识别和抽取，按照文本中的词的上下文关联性以及词性特征对抽取的文本进行切分，得到歧义消解后的文本；其中，所述训练好的消解模型由训练集训练得到，所述训练集包括由歧义字段所在文本的文本权重特征、上下文关联特征和词性特征组成的特征向量。

第三方面，本发明提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质包括用于执行如上所述的文本多特征歧义消解方法的指令。

第四方面，本发明提供一种电子设备，包括如上所述的非暂态计算机可读存储介质；以及能够执行所述非暂态计算机可读存储介质的所述指令的一个或多个处理器。

本发明有益效果：对文本中的权重特征、上下文词特征和词性特征进行结合生成特征向量，利用非线性SVM模型采取线性核函数进行分类，最终得到正确的组合型歧义的切分方式，使具有多特征歧义字段的文本分类识别更加准确。

本发明附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例所述的用CHI量化的权重图。

图2为本发明实施例所述的融合特征向量的拼接过程示意图。

图3为本发明实施例所述的非线性SVM的分类原理示意图。

图4为本发明实施例所述的中医医案文本多特征歧义消解流程示意图。

图5为本发明实施例所述的识别和抽取歧义字段流程示意图。

图6为本发明实施例所述的不同窗口大小对结果的影响示意图。

具体实施方式

下面详细叙述本发明的实施方式，所述实施方式的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过附图描述的实施方式是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。

还应该理解的是，诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样定义，不会用理想化或过于正式的含义来解释。

为便于理解本发明，下面结合附图以具体实施例对本发明作进一步解释说明，且具体实施例并不构成对本发明实施例的限定。

本领域技术人员应该理解，附图只是实施例的示意图，附图中的部件并不一定是实施本发明所必须的。

实施例1

本实施例1中，提供一种文本多特征歧义消解系统，该系统包括：

在本实施例1中，利用上述的系统实现了文本多特征歧义消解方法，该方法包括：将待消解的文本输入到训练好的消解模型中，对文本中的组合型歧义字段进行识别和抽取，按照文本中的词的上下文关联性以及词性特征对抽取的文本进行切分，得到歧义消解后的文本；其中，所述训练好的消解模型由训练集训练得到，所述训练集包括由歧义字段所在文本的文本权重特征、上下文关联特征和词性特征组成的特征向量。

其中，训练得到所述消解模型包括：构建组合型歧义词库；结合组合型歧义词库，对文本的歧义字段进行识别和抽取，通过加入词长的TF-IDF算法计算文本权重值生成权重特征，并结合歧义字段的上下文关联特征和词性特征，得到特征向量；将特征向量输入非线性核函数SVM分类器，训练得到所述消解模型。

其中，构建组合型歧义词库包括：对文本的分词词典进行遍历，对其中可能出现组合型歧义现象的词进行标记和抽取，对抽取出的歧义字段所在文本的词性、正确切分结果和文本所在位置进行标注，构建以语句为单位的歧义词库。

其中，对文本的歧义字段进行识别和抽取包括并将文本字段与歧义字段库进行匹配，若该文本存在于歧义字段库中，则将其进行抽取。

其中，获取权重特征包括：使用TF-IDF算法计算文本中歧义字段的权重值，并设置加权因子，将计算的权重值转化为权重特征。

其中，获取上下文关联特征包括：对于包含歧义字段的文本，以歧义字段为中心，设置窗口，提取歧义字段上下文词集合；将上下文词集合转换为对应的词向量集合并作为上下文词特征。

其中，获取词性特征包括：对于歧义字段所在文本的词性标签序列，以歧义字段为中心，选取窗口设置范围内的词，提取目标词词性标签集合。

综上，本实施例1中提供的一种文本多特征歧义消解方法及系统，融合了具有歧义字段的文本的权重特征、上下文词关联特征以及文本词性特征，组成了特征向量，训练得到的识别消解模型对文本进行了精准切分，最终得到了正确的切分结果，使文本识别更加精确。

实施例2

在本实施例2中，结合中医医案文本语言精练、模糊性和非结构化的特点，提出一种融合了多特征的方法，对现有的歧义消解算法进行改进，设计出适用于中医医案文本的多特征歧义消解模型，应用于中医医案文本，进行文本消歧识别，进一步提升了中医医案文本分词的准确率。

在本实施例2中，对中医议案文本多特征歧义消解方法，包括：将待消解的中医医案文本输入到训练好的消解模型中，对文本中的组合型歧义字段进行识别和抽取，按照文本中的词的上下文关联性以及词性特征对抽取的文本进行切分，得到歧义消解后的文本；其中，所述训练好的消解模型由训练集训练得到，所述训练集包括由歧义字段所在文本的文本权重特征、上下文关联特征和词性特征组成的特征向量。

训练得到所述消解模型包括：构建组合型歧义词库；结合组合型歧义词库，对文本的歧义字段进行识别和抽取，通过加入词长的TF-IDF算法计算文本权重值生成权重特征，并结合歧义字段的上下文关联特征和词性特征，得到特征向量；将特征向量输入非线性核函数SVM分类器，训练得到所述消解模型。

构建组合型歧义词库包括：对中医医案文本的分词词典进行遍历，对其中可能出现组合型歧义现象的词进行标记和抽取，对抽取出的歧义字段所在文本的词性、正确切分结果和文本所在位置进行标注，构建以语句为单位的歧义词库。

对文本的歧义字段进行识别和抽取包括并将文本字段与歧义字段库进行匹配，若该文本存在于歧义字段库中，则将其进行抽取。

获取权重特征包括：使用TF-IDF算法计算文本中歧义字段的权重值，并设置加权因子，将计算的权重值转化为权重特征。

获取上下文关联特征包括：对于包含歧义字段的文本，以歧义字段为中心，设置窗口，提取歧义字段上下文词集合；将上下文词集合转换为对应的词向量集合并作为上下文词特征。

获取词性特征包括：对于歧义字段所在文本的词性标签序列，以歧义字段为中心，选取窗口设置范围内的词，提取目标词词性标签集合。

中医医案文本中歧义字段的消解效果受多方面影响，其中一方面就是窗口。对于窗口的设计首先要量化歧义字段在所在文本中的权重，其次是根据权重来确定窗口大小。目前，确定窗口大小的方法有三种：信息增益(Information Gain,IG)法；x²统计量(CHI)法；互信息(Mutual Information,MI)法。为了更好的利用词性特征对窗口进行选择，本实施例2中，采用CHI方法作为本实施例窗口选择的方法。

在对中医医案文本进行处理时，CHI衡量的是在该文本的词性P和歧义字段W之间的关联程度，W相对位置出现P越多，则P和W之间的关联性就越大。词性P和歧义字段W的统计值如(1)所示：

其中，a表示语料库中包括歧义字段，W且该位置处的词性为P的句子数目；b表示语料库中不包括歧义字段W但该位置处的词性是P的句子数目；c表示语料库中包括歧义字段W但该位置处的词性不是P的句子数目；d表示语料库中不包括歧义字段W且该位置处的词性也不是P的句子数，n则表示语料库的句子总数。

利用CHI方法计算各个位置处的权重结果为：

[-5]1.7246111898639013

[-4]1.8133651181524368

[-3]1.9260230611963669

[-2]2.0653713522232097

[-1]2.2952254388242257

[+1]2.3116944705242189

[+2]2.2357890369951227

[+3]1.9697943420415549

[+4]1.8961126512194982

[+5]1.9025186791919517

为了更直观地展示权重走向趋势，用折线图进行展示，如图1所示为用CHI量化的权重图。

一个目标词在中医医案文本被标注为什么词性，与所在语言环境密切相关，且上下文对目标词的影响程度是近距离大于远距离。因此，在利用CHI方法解决歧义字段问题时，本实施例2中，将上下文窗口的大小确定为3，即上下文的有效范围为±3。

在本实施例2中，生成特征向量时，对于文本的权重特征、上下文词特征和词性特征，进行提取之后生成向量，并对向量进行拼接操作，最终生成本实施例的特征向量。

(1)权重特征

为了解决中医医案文本中一些无效信息特征值高的问题，使用TF-IDF算法可以有效计算出中医医案文本中歧义字段的权重值。TF-IDF算法公式如(2)、(3)所示：

其中，tf(t_k,d)表示为特征词t_k在中医医案文本d中出现的频数，N表示中医语料集，

表示中医语料集中含有特征词t_k的数量。

在中医医案文本中，由于其语言简短精炼的特点，使其包含大量固定用语、专有名词这类长词。在使用TF-IDF算法进行特征提取中，词的长度越长，专指性越弱，同时概括性也越弱，所以长词应该具有相对较高的权重，所以，本实施例2中，在提取中医医案文本特征的过程中设置加权因子L如(4)所示：

其中，l表示特征词的词长。通过加入词长的TF-IDF算法计算中医医案文本权重，并将其转化为权重特征。整合以上公式可得最后的特征词的权重值如(5)所示：

W_k＝TF×IDF×L (5)

对于中医医案文本“由于气的运行不畅导致的气血瘀滞，影响血液循环。”和“治愈后未能巩固，导致病邪留著，形成血瘀，病情较以前严重。”通过TF-IDF算法求其窗口内文本权重，权重记为R，如表1所示。

表1中医医案文本权重值

对于中医医案文本中文本权重值，低于设定阈值的设置为“0”，高于设定阈值的设置为词的权重。对于包含歧义字段W_t的中医医案文本S＝w₁,...w_t-1,w_t,w_t+1,...,w_n，其中，n为句子中包含的词的个数。可以得到中医医案文本的权重R，歧义字段为“合”时公式如(6)所示，“分”时公式如(7)所示：

R₁＝[right_t-k,...,right_t-1,right_t,right_t+1,...,right_t+k] (6)

R₂＝[right_t-k,...,right_t-1,right_t1,right_t2,right_t+1,...,right_t+k] (7)

在公式(6)和(7)中，right_i,i∈(t-k,...,t+k)代表第i个词的权重集合。

将其转变为对应的特征向量集合，由此可得窗口k内上下文文本权重特征，歧义字段为“合”时如(8)所示，歧义字段为“分”时如(9)所示：

在公式(8)、(9)中，

表示第i个词的权重特征向量。

(2)上下文词特征

对于包含歧义字段W_t的中医医案文本S＝w₁,...w_t-1,w_t,w_t+1,...,w_n，其中，n为句子中包含的词的个数。以歧义字段W_t为中心，窗口设置为k，提取歧义字段上下文词集合C，有两种形式。“合”的形式公式如(10)所示，“分”的形式公式如(11)所示：

C₁＝[c_t-k,...,c_t-1,c_t,c_t+1,...,c_t+k] (10)

C₂＝[c_t-k,...,c_t-1,c_t1,c_t2,c_t+1,...,c_t+k] (11)

在公式(10)和(11)中，c_i,i∈(t-k,...,t+k)，代表第i个词的上下文词集合。

将上下文词集合转换为对应的词向量集合并作为上下文词特征，两种形式分别为：“合”的形式如(12)所示，“分”的形式如(13)所示：

在公式(12)和(13)中，

代表第i个词的上下文词特征向量。

当歧义字段前后词语个数不足k个时，缺少的部分用Null代替。对于包含“血瘀”这个歧义字段的中医医案文本“治愈后未能巩固，导致病邪留著，形成血瘀，病情较以前严重”和“由于气的运行不畅导致的气血瘀滞，影响血液循环”。和当上下文窗口为3时，取得有效词语集合为[运行不畅导致气血瘀滞影响血液循环]和[病邪留著形成血瘀病情严重Null]。

转换为对应的词性特征集合“合”的形式：

转换为对应的词性特征集合“分”的形式：

(3)词性特征

对于歧义字段w_t所在中医医案文本的词性标签序列P＝p₁,...,p_t-1,p_t,p_t+1,...,p_n，其中n为文本序列长度，p_t为歧义字段所在文本中词的词性。以歧义字段w_t为中心，选取窗口设置范围k内的词，提取目标词词性标签集合。歧义词形式为“合”时词性形式如(14)所示，为“分”时词性形式如(15)所示：

P₁＝[p_t-k,...,p_t-1,p_t,p_t+1,...,p_t+k] (14)

P₂＝[p_t-k,...,p_t-1,p_t1,p_t2,p_t+1,...,p_t+k] (15)

在公式(14)和(15)中，p_i,i∈(t-k,...,t+k)，代表第i个词的词性标签集合。

词性特征是词性标签集合生成的词性向量集合。歧义词形式为“合”时词性特征如(16)所示，为“分”时词性特征如(17)所示：

在公式(16)和(17)中，

代表第i个词的词性特征向量。

当歧义字段左右两侧词的数量达不到k个时，缺少的部分就用Null代替。对于包含“血瘀”这个歧义字段的中医医案文本“治愈后未能巩固，导致病邪留著，形成血瘀，病情较以前严重”和“由于气的运行不畅导致的气血瘀滞，影响血液循环”这两个句子的词性标签序列分别为：

[v,f,v,v,v,n,v,v,n,n,a]和[n,v,a,v,n,n,a,null]。

当上下文窗口为3时，歧义字段的上下文词性标签序列为：

[n,v,v,n,n,a,null]和[v,a,v,n,v,v,n,v]。

将其转换为词向量集合得到词性特征为：

[v_n,v_v,v_v,v_n,v_n,v_a,v_null]和[v_v,v_a,v_v,v_n,v_v,v_v,v_n,v_v]。

(4)特征向量生成

本实施例将得到的文本的权重特征、上下文词特征以及词性特征共同构成多特征歧义消解算法的特征向量A，歧义字段为“合”形式表示如(18)所示：

其中，

表示在公式

中的第t-k个元素，

表示在公式

中第t-k个元素，

表示在公式

中第t-k个元素，t表示歧义字段位置，k表示窗口大小。其他同理。

“分”的形式表示如(19)所示：

其中，

表示在公式

中的第t-k个元素，

表示在公式

中第t-k个元素，

表示在公式

中第t-k个元素，t₁、t₂表示歧义字段位置，其他同理。

每个特征向量是由文本权重特征向量、上下文词特征向量以及词性特征向量通过拼接得到的，本实施例2中将词频权重向量和上下文词特征向量设置为32维，词性特征向量设置为64维。本实施例2所使用的的特征向量都是通过Word2vec模型得到。单个特征向量如图2所示输入向量拼接过程。

形成特征向量A后，输入到非线性SVM中构建“合”分类器和“分”分类器进行组合型歧义消解。

在本实施例2中，进行SVM分类器构建时：

在中医医案文本数据集上使用SVM分类器，为了取得更好的结果，在使用非线性SVM的基础上选择核函数，可以通过线性方法对非线性分类问题进行解决[77]。在核函数方面，选取其中的线性核函数对非线性SVM进行构建。非线性SVM的分类原理图如图3所示。

在非线性SVM中，通常用公式(20)来描述最优化问题：

其中：

使用二次规划技术得到最优解如(21)所示：

选择a^*的一个正分量

并据此计算a^*如(22)所示：

最后构建决策函数，判断x的类别如(23)所示：

通过非线性SVM算法对中医医案文本组合型歧义进行消解。对于歧义消解任务，切分方式有两种“合”和“分”，因此使用一对多方法构建两个分类器，具有最大分类函数的结果就是预测的结果。模型训练时，将歧义字段所在文本提取到的文本权重特征向量、上下文词特征向量和词性特征向量同时进行结合，通过拼接生成特征向量作为非线性SVM分类器的输入，针对组合型歧义两种切分方式，构建“合”分类器和“分”分类器。测试时，根据分类器的产生的类别，最后得票数最多的类别即为训练好的模型预测的组合型歧义切分形式。

实施例3

本实施例3针对中医医案文本的多特征歧义消解，提供了一种中医医案文本多特征歧义消解方法，并构建了多特征歧义消解模型，分为四个阶段：(1)针对组合型歧义消解问题，构建组合型歧义词库，对歧义字段进行识别和抽取。(2)选取合适的上下文窗口；(3)通过提取文本的权重特征、上下文词特征和词性特征生成特征向量。(4)将特征向量输入到非线性SVM中，通过训练集文本训练“合”分类器和“分”分类器，实现对中医医案文本中组合型歧义的消解，提高中医医案文本分词准确率。

中医医案文本多特征歧义消解流程如图4所示，具体消解的过程如下：

步骤(1)选取含有组合型歧义字段的中医医案1000份，按照交叉验证方式，其中一部分作训练，一部分作测试。

步骤(2)通过歧义字段库识别句子中所含的组合型歧义字段，并抽取歧义字段所在文本，得到其分词后所有的词以及对应的词性标注。

步骤(3)提取出歧义字段所在文本，通过加入词长的TF-IDF算法计算文本权重值生成权重特征，并结合歧义字段的上下文词特征和词性特征，最终得到特征向量。

步骤(4)使用非线性核函数SVM分类器，找到最佳的参数C和Gama。并把特征向量作为SVM的输入。

步骤(5)由训练生成“合”、“分”两种分类器。测试语料输入到训练好的分类器中使用，通过判断分类器得票情况，得到消歧结果。根据测试语料的结果，评价消歧模型的性能。

在本实施例3中，对于歧义字段识别和抽取：

采用歧义字段库对中医医案文本中组合型歧义进行识别和抽取。构建歧义字段库第一步是对中医分词词典进行遍历，根据第二章中对组合型歧义的定义，对其中可能出现组合型歧义现象的词进行标记和抽取。

由于中医医案文本中的文本权重特征、上下文词以及词性特征都会对歧义消解产生重要影响，所以本实施例对抽取出的歧义字段所在文本的词性、正确切分结果和文本所在位置进行标注，构建以语句为单位的歧义词库。最后借助中医医案文本组合型歧义字段库对多特征歧义消解进行研究，为中医医案文本切分技术提供方便。

对歧义字段的识别和抽取的步骤为：遍历中医分词词典，对其中可能出现组合型歧义现象的词进行标记，然后提取出这些词组成一个歧义字段库，并将中医医案文本字段与歧义字段库进行算法匹配，若该文本存在于歧义字段库中，则将其进行抽取。流程如图5所示为识别和抽取歧义字段流程图。

为了验证本实施例3构建的中医医案文本多特征歧义消解模型的有效性，进行以下对比实验。

多特征歧义消解模型验证

(1)上下文窗口对实验结果影响

为了验证上下文窗口对实验结果影响，分别设置1、2、3、5、7五种不同的窗口，并采取宏平均准确率作为窗口对实验结果影响的评价指标，实验结果如表2所示。为了更直观的看出数据走向，如图6所示为窗口大小对结果的影响示意图。通过表2和图6，可以清晰的发现当上下文窗口为3时，该消歧方法在中医医案文本组合型歧义消歧过程中取得了最好的结果，宏平均准确率达到了94.97％。表明上下文窗口的大小变化会带来噪声影响，影响模型实验结果准确率。

表2上下文窗口大小对多特征消歧结果影响

(2)特征选取对消歧结果的影响

为了验证特征选取对消歧结果的影响，分别选取词频权重特征、上下文词特征、词性特征、词频权重特征+上下文词特征、词频权重特征+词性特征、上下文词特征+词性特征以及词频权重特征+上下文词特征+词性特征进行试验，对比结果如表3所示。

表3特征选取结果对比

通过表3所示，当选取三个特征中任意一个时，得到的结果准确率相差不超过0.65，准确率集中于90.50％左右。当选取三个特征中的任意两个组合之后，准确率得到一定的提升，相较于选取一个特征准确率提升了2个百分点左右，表明特征的选取对于结果的准确率有积极的影响。当选取三个特征时，P、R和F1的值均达到了最优，表明本实施例选取的三个特征对于中医医案文本消歧有积极影响。

(3)SVM分类器性能

为了验证SVM分类器性能，对比几种常见的核函数对中医医案文本消歧结果的影响，实验中选用宏平均准确率作为评价指标，对比结果如表4所示。

表4核函数对中医医案文本消歧结果影响

由表4可知，高斯核和sigmoid核两种核函数在多特征歧义消解中取得的实验结果不理想。而线性核相对于多项式核函数，准确率提高了8.59％，取得了94.97％的准确率。表明对于中医医案文本线性核具有较好的分类效果。

(4)对比实验

为了验证本实施例多特征歧义消解模型的有效性和可行性，分别与基于规则、基于语境信息、基于统计以及向量空间模型和本实施例消歧方法的歧义消解准确率进行对比。并选取其中1000份包含组合型歧义的中医医案进行交叉验证。本实施例采用十折交叉验证的方法来验证本实施例消歧模型的消歧效果。进行十次实验，对取得的的结果取平均值作为最终针组合型歧义消解的准确率。实验结果如表5所列。

对比表5中所展示的五种歧义消解方法在中医医案文本中得到的准确率，本实施例多特征歧义消解模型所取得的平均准确率提高了4个百分点左右，平均消歧准确率达到了95.03％。表明本实施例提出的多特征歧义消解模型是有效的。

表5模型歧义消解结果对比

(5)歧义消解对分词结果影响

为验证本实施例提出的歧义消解方法可以提高中医文本分词准确率，分别统计Jieba、ICTCLAS以及本实施例构建的基于Bi-GRU中医医案文本分词模型的两种情况：①没有加入本实施例构建的多特征歧义消解模型得到的分词准确率；②加入了本实施例构建的多特征歧义消解模型得到的分词准确率。得到的实验结果如表6所列。

表6分词方法准确率

通过表6可以看出，没有加入本实施例多特征歧义消解模型的分词准确率要低于加入了本实施例多特征歧义消解模型分词准确率，加入本实施例消歧方法后，中医医案文本分词取得的准确率、召回值和F1值均得到一定程度的提高。表明本实施例构建的多特征歧义消解模型对分词准确率的提高有积极影响。

(6)分词结果展示

中医中包含多种疾病，每种疾病的描述语言之间也存在差异，导致分词和歧义消解在不同的疾病描述文本中存在不同的效果。为了对结果更直观的进行展示，抽取在“冠心病”、“高血压”以及“糖尿病”这三种疾病中容易出现歧义的描述文本，将其使用Jieba、ICTCLAS以及本实施例分词和歧义消解方法得到的结果进行展示。

①首先选取疾病“冠心病”的文本进行结果展示。

冠心病是西医的一种描述，在中医中冠心病被称为“心痛”、“胸痹”或“心痹”。选取五句中医医案文本中的描述文本，对其分词和歧义消解结果进行展示，如表7所示。

中医医案文本1：由于气的运行不畅导致的气血瘀滞，影响血液循环。

中医医案文本2：治愈后未能巩固，导致病邪留著，形成血瘀，病情较以前严重。

中医医案文本3：胸闷，心悸，气短，不能平卧，畏寒，尿少，活动后则心悸气短加重明显。

中医医案文本4：胸闷症状明显减轻，仍入睡困难，梦多，平素口干苦。

中医医案文本5：阵发性胸闷，由于紧张劳累时出现阵发性胸闷、心悸。

从表7的结果可以看出，对于中医医案文本1中的“气血瘀滞”，是组合型歧义词。它是中医的一个病症名，是由于气机郁滞而导致血行瘀阻所出现的一种症候。本实施例的分词方法忽略了“气血”这两个名词的联系，而错误的将“血瘀”切分在一起。本实施例的消歧方法根据特征向量，可以成功对“气血瘀滞”进行切分。

中医医案文本4中的“口干苦”，在分词中都切分成单独的词，没有联系其上下文。中医中的“口干苦”应该切分成“口干”、“口苦”，但是由于技术上的桎梏，暂时达不到这种要求，因此本实施例把“口干苦”单独切分成词。

对于疾病“冠心病”的文本进行分词，Jieba分词和ICTCLAS分词方法产生的歧义较少，Jieba分词取得更好的精度。而对于组合型歧义文本“血瘀”，Jieba分词、ICTCLAS分词以及本实施例分词方法均不能对其进行正确的切分。而本实施例的消岐方法可以得到较好的切分结果。

表7冠心病描述文本分词消歧结果

②其次选取疾病“高血压”的文本进行结果展示。

中医医案文本描述中，没有高血压这一疾病的名称，它主要是根据患者患高血压时所表现的症状来进行描述，例如头痛、眩晕。选取五句中医医案文本中的描述文本，对其分词和歧义消解结果进行展示，如表8所示。

中医医案文本1：感觉眩晕头痛，面色红热，急躁易怒，舌红苔黄。

中医医案文本2：心慌乏力，形体虚胖，苔白腻。

中医医案文本3：夜间易心慌，头痛乏力，口干。

中医医案文本4：健忘近八个月，肢体麻木，心慌气短，五心烦热。

中医医案文本5：眩晕头痛，身形消瘦，神疲乏力，并伴有心悸腰酸。

从表8的结果可以看出，中医医案文本1中的“苔白腻”，在分词中都切分成单独的词，没有联系其上下文。中医中的“苔白腻”应该切分成“苔白”、“苔腻”，但是由于技术上的桎梏，暂时达不到这种要求，因此实施例3中把“苔白腻”单独切分成词。中医医案文本4中“五心烦热”，是中医中固定短语，用于对患者手脚发热以及心情郁闷烦躁的一种描述。中医医案文本5中的“神疲乏力”，根据第二章的定义可以判定为是组合型歧义词，可以切分成“神疲”、“乏力”，而在其他文本中“疲乏”可以单独存在并有意义。对于疾病“高血压”的文本进行分词，Jieba分词和ICTCLAS分词方法出现的切分歧义增多，不仅限于组合型歧义。本实施例的分词方法能改善部分切分歧义，歧义消解方法可以利用上下文对歧义进行正确切分。

表8高血压描述文本分词消歧结果

③最后选取疾病“糖尿病”的文本进行结果展示。

中医中描述糖尿病为“消渴病”。选取五句中医医案文本中的描述文本，对其分词和歧义消解结果进行展示，如表9所示。

中医医案文本1：舌红苔白腻有裂纹。

中医医案文本2：现仍有皮疹，腰疼，右腿疼痛，舌红苔白厚。

中医医案文本3：周身关节疼痛，多汗，口干口渴明显，多饮，纳可，入睡困难。

中医医案文本4：口渴不明显，小便数多，颜色显清白，先用益气补中方法。

中医医案文本5：舌体胖大，腰酸背痛，夜多小便。

从表9的结果可以看出，对于中医医案文本1、2中的“苔白腻”、“苔白厚”，在分词中都切分成单独的词，没有联系其上下文。中医中的“苔白腻”、“苔白厚”应该切分成“苔白、苔腻”、“苔白、苔厚”，但是由于技术上的桎梏，暂时达不到这种要求，因此本实施例把“苔白腻、苔白厚”单独切分成词。

中医医案文本3中“纳可”，是中医的固定描述，表示饮食方面的情况还可以。消歧时使用特征向量可以对其进行正确切分。

对于疾病“糖尿病”的文本进行分词，Jieba分词和ICTCLAS分词方法在部分文本上出现切分歧义，使得分词准确率不理想。通过使用本实施例分词和歧义消解方法之后，可以有效提高分词准确率。

表9高血压描述文本分词消歧结果

通过分析得到的结果，本实施例3中设计的中医医案文本分词方法仍有不足之处，而本实施例的消歧模型可以在一定程度上克服本实施例分词模型的不足，得到正确的切分结果，提高中医医案文本分词精度，一定程度上在中医医师在诊疗过程中起到辅助作用，促进中医进一步发展。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

上述虽然结合附图对本公开的具体实施方式进行了描述，但并非对本公开保护范围的限制，所属领域技术人员应该明白，在本发明公开的技术方案的基础上，本领域技术人员在不需要付出创造性劳动即可做出的各种修改或变形，都应涵盖在本发明的保护范围之内。

Claims

1.一种文本多特征歧义消解方法，其特征在于，包括：将待消解的文本输入到训练好的消解模型中，对文本中的组合型歧义字段进行识别和抽取，按照文本中的词的上下文关联性以及词性特征对抽取的文本进行切分，得到歧义消解后的文本；其中，所述训练好的消解模型由训练集训练得到，所述训练集包括由歧义字段所在文本的文本权重特征、上下文关联特征和词性特征组成的特征向量。

2.根据权利要求1所述的文本多特征歧义消解方法，其特征在于，训练得到所述消解模型包括：构建组合型歧义词库；结合组合型歧义词库，对文本的歧义字段进行识别和抽取，通过加入词长的TF-IDF算法计算文本权重值生成权重特征，并结合歧义字段的上下文关联特征和词性特征，得到特征向量；将特征向量输入非线性核函数SVM分类器，训练得到所述消解模型。

3.根据权利要求2所述的文本多特征歧义消解方法，其特征在于，构建组合型歧义词库包括：对文本的分词词典进行遍历，对其中可能出现组合型歧义现象的词进行标记和抽取，对抽取出的歧义字段所在文本的词性、正确切分结果和文本所在位置进行标注，构建以语句为单位的歧义词库。

4.根据权利要求3所述的文本多特征歧义消解方法，其特征在于，对文本的歧义字段进行识别和抽取包括并将文本字段与歧义字段库进行匹配，若该文本存在于歧义字段库中，则将其进行抽取。

5.根据权利要求4所述的文本多特征歧义消解方法，其特征在于，获取权重特征包括：使用TF-IDF算法计算文本中歧义字段的权重值，并设置加权因子，将计算的权重值转化为权重特征。

6.根据权利要求5所述的文本多特征歧义消解方法，其特征在于，获取上下文关联特征包括：对于包含歧义字段的文本，以歧义字段为中心，设置窗口，提取歧义字段上下文词集合；将上下文词集合转换为对应的词向量集合并作为上下文词特征。

7.根据权利要求6所述的文本多特征歧义消解方法，其特征在于，获取词性特征包括：对于歧义字段所在文本的词性标签序列，以歧义字段为中心，选取窗口设置范围内的词，提取目标词词性标签集合。

8.一种文本多特征歧义消解系统，其特征在于，包括：

9.一种非暂态计算机可读存储介质，其特征在于：所述非暂态计算机可读存储介质包括用于执行如权利要求1-7任一项所述的文本多特征歧义消解方法的指令。

10.一种电子设备，包括如权利要求9所述的非暂态计算机可读存储介质；以及能够执行所述非暂态计算机可读存储介质的所述指令的一个或多个处理器。