CN111008530A

CN111008530A - 一种基于文档分词的复杂语义识别方法

Info

Publication number: CN111008530A
Application number: CN201911217564.XA
Authority: CN
Inventors: 唐昱润; 宫法明; 马玉辉; 李昕; 司朋举
Original assignee: China University of Petroleum East China
Current assignee: China University of Petroleum East China
Priority date: 2019-12-03
Filing date: 2019-12-03
Publication date: 2020-04-14

Abstract

本发明公开了一种基于文档分词的复杂语义识别方法，该方法包含：将原始文档分成较小的段落，在此基础上进行去除停用词、分段和分句等预处理操作；结合一阶和二阶隐马尔科夫模型，自适应的选取合适的隐马尔科夫模型进行分词，以该模型为基础，再次结合石油领域词典、互信息、语义约束矩阵和语法约束矩阵，实现石油领域专业术语和组合词的精确识别；利用混合策略抽取相关领域的概念术语，通过专业术语、组合词与概念术语建立连续的词袋模型，在词袋模型上采用支持向量机分类器对多个向量进行多特征提取，实现基于文档分词的复杂语义识别。本发明的方法能够有效地解决大数据环境下石油领域内部专业纷繁复杂、深层语义难以识别的问题。

Description

一种基于文档分词的复杂语义识别方法

技术领域

本发明属于自然语言处理领域，涉及一种基于文档分词的复杂语义识别方法。

背景技术

在信息技术不断发展的今天，石油领域相关活动的信息化程度越来越高，油田信息系统对各种知识库的应用日益频繁。石油领域内部专业纷繁复杂，新的技术及术语不断更新，信息没有经过结构化表示，这些问题影响了石油领域的知识表示、信息共享、软件复用和高效管理。语义分析就是对信息进行分词，建立语义计算模型，识别其中的语义关系，使计算机能够理解。在互联网时代，信息资源飞速增长，想要快速找到自己所需要的信息，就必须使用语义分析技术，语义分析变得越来越重要。

文档中的词是最小的能独立运行的语言单位，由于中文具有连续书写的特点，如果不进行分词，计算机很难理解文本包含的信息，无法进行语义分析。目前常用的中文分词算法有：基于统计的算法、基于规则的算法、两者相结合的算法和基于语义的算法。基于统计的算法是利用字母之间的统计关系推断字边界的位置，然后计算相邻字母的贡献频率进行分词，效率比较低。基于规则的方法使用依赖关系抽取关系词对，通过关系词对进行模式匹配识别语义关系，准确率很高，但由于自身局限性，所以召回率并不是很高。通过模式匹配的方法来识别语义关系，但是汉语表达的句式多种多样，无法涵盖所有内容，且没有领域适应性。因此，如何在数据繁多和极其复杂的关系中，充分地利用文档中的分词进行准确高效的复杂语义识别成为一个亟待解决的难题。

发明内容

本发明为了克服上述缺陷，提出了一种基于文档分词的复杂语义识别方法，本发明具体步骤如下：

S1，在对文档进行分词之前，将文档分成较小的段落，便于后期的分词算法的实现；

S2，在较小段落的基础上进行预处理，包括去除停用词、分段和分句等操作；

S3，结合一阶和二阶隐马尔科夫模型，自适应的选取合适的隐马尔科夫模型进行分词；

S4，以自适应隐马尔科夫模型为基础，结合石油领域词典、互信息、语义约束矩阵和语法约束矩阵，实现石油领域专业术语和组合词的精确识别；

S5，利用基于混合策略的领域概念抽取算法，实现从大规模领域资料中抽取相关概念术语；

S6，通过专业术语、组合词与概念术语建立连续的词袋模型；

S7，在词袋模型上采用支持向量机分类器对多个向量进行多特征提取，实现相似关系的语义识别；

S8，输出分词后的文档与识别后的语义关系。

本发明的技术方案特征和改进为：

对于步骤S2，本发明主要利用去除停用词、分段和分句等方法以实现文档分词的预处理，去除停用词处理是为了提高检索效率和减少存储空间，在处理文本时会将这些无意义的词剔除掉，通过人工构建选取本身并无实际意义，只有结合其他词语或句子才有一定的作用的停用词，将要去除的停用整理形成停用词表；分段分句处理是利用一些具有分割作用的符号将文档进行切分，包括段落分隔符、回车符与标点符号等。通过将分隔符、数字和字母整理成分割符一览表，然后扫描整篇文档与分割符号表中的分隔符进行匹配，匹配成功则进行分割标记。

对于步骤S4，本发明采用的自适应隐马尔科夫模型是根据术语集预先判断待分文档包含专业术语的多少，然后与阈值进行比较，若包含专业术语数量大于阈值，说明该段落包含的专业术语多，应该进行准确分词，调用二阶隐马尔科夫模型进行分词，否则进行快速分词，调用一阶隐马尔科夫模型进行分词；通过将石油领域各个子学科从1到i进行编号，统计每个子学科最常用的n个专业术语，如石油勘探开发领域最常用的术语有勘探、测井、储量、井、压差等；然后将各个子学科的代表性专业术语构成一个集合，总的术语集Q表示如下

式(1)中，Q_i表示编号为i子学科的术语集，N表示为每个子学科的最多个的专业术语，通过判断输入的文档属于哪一个子学科领域，假设输入文档为D，属于的子学科编号为m，提取术语集Q＝Q_m，假设Q_m中含有的代表性术语个数为n，遍历Q_m搜索文档D中含有的代表性专业术语数量表示为：

X＝[x₁,x₂,…,x_n] (2)

式(2)中，x_i表示文档D中含有编号为i的代表性术语的数量，则文档D含有代表性专业术语的数量表示为：

式(3)中，num_D是通过文档D中的代表性术语数量叠加得到，而专业术语数量阈值s是通过字数num以及比例系数α来确定，即专业术语数量阈值s＝numα，进而判断隐马尔科夫模型的使用，如下所示：

式(4)中，若专业术语的数量num_D小于专业术语数量阈值s，则调用一阶隐马尔科夫模型进行快速分词，否则使用二阶隐马尔科夫模型进行准确分词。

对于步骤S5，本发明采用基于混合策略的领域概念抽取算法，将统计学概念抽取与改进的词典概念抽取相结合，通过对大量文档进行分析并提取统计数据，将符合条件的字串序列提取出来以建立领域词典，将词语与领域词典中的词语进行匹配，如果匹配成功，则该词语就是领域词语，通过计算在领域词典内出现的频率来代表这个词在该领域内的重要程度，通常采用设定相关度阈值的方式进行术语的抽取；将二者结合的方法能够针对不同的情况进行具体分析，对两种方法扬长避短，从而获得较好的概念抽取结果。

对于步骤S7，本发明采用支持向量机在词袋模型上对多个向量进行多特征提取，利用多个向量多个特征进行语义识别，对于两个向量u＝(u₁,…,u_n)和v＝(v₁,...,v_n)，如果两个词语具有相似关系，则两个向量在同维度上的分量也具有相似关系，他们的向量差就很小，某一维度的分量和就很大，各个向量特征定义如下：

式(5)中，f_diff表示向量差特征，f_add表示向量和特征，f_mul表示向量乘特征，f_cat表示向量连接特征；其次，通过两个向量u和v进行不同的组合运算，完成对不同特征的表示学习，将词语转转换成词向量的形式，将词向量进行特征计算，导入到支持向量机训练SVM分类器，最终将上下义、总分、类义关系识别出来。

本发明的基于文档分词的复杂语义识别方法，解决了现有技术对大数据环境下石油领域内部专业纷繁复杂、深层语义难以识别的问题，具有以下优点：

(1)本发明的方法能够有效地解决石油工业内数量庞大的知识表示问题，实现了知识库的构建与复杂语义的表示与识别；

(2)本发明的方法能够将统计学概念抽取与改进的词典概念抽取相结合，通过对大量文档进行分析并提取统计数据，从而获得较好的概念抽取结果；

(3)本发明的方法能够利用自适应隐马尔科夫分词模型对单句进行分词处理，结合领域词典、互信息和语法语义约束矩阵对分词结果进行校准，实现石油领域文档分词。

附图说明

图1为本发明中基于文档分词的复杂语义识别方法的流程图。

图2为本发明中分词预处理的流程图。

图3为本发明中自适应隐马尔科夫分词算法的流程图。

具体实施方式

下面结合附图以及具体实施方式对本发明作进一步详细说明：

一种基于文档分词的复杂语义识别方法，如图1所示，为本发明的基于文档分词的复杂语义识别方法的流程图，该方法包含：

S1，文档划分，获得的石油领域内相关专业文档数据可以看作是未经处理的粗语料文本，由于粗语料是未经处理的语料库，包含的数据信息杂乱无章，直接利用其进行语义关系识别会大大降低识别的准确率。在对文档进行分词之前，将文档分成较小的段落，便于后期的分词算法的实现。

S2，文档预处理，在较小段落的基础上进行预处理，包括去除停用词、分段和分句等操作以实现文档分词的预处理。去除停用词处理是为了提高检索效率和减少存储空间，在处理文本时会将这些无意义的词剔除掉，通过人工构建选取本身并无实际意义，只有结合其他词语或句子才有一定的作用的停用词，将要去除的停用整理形成停用词表。分段分句处理是利用一些具有分割作用的符号将文档进行切分，包括段落分隔符、回车符与标点符号等。通过将分隔符、数字和字母整理成分割符一览表，然后扫描整篇文档与分割符号表中的分隔符进行匹配，匹配成功则进行分割标记，分词预处理的流程如图2所示。具体地，将文档进行全篇扫描与停用词表、分割符号表进行匹配，如果匹配到停用词表，则进行去除停用词继续扫描，如果匹配到分割符号表，则进行段落句子分割。

S3，自适应选取合适的隐马尔科夫模型，结合一阶和二阶隐马尔科夫模型，自适应的选取合适的隐马尔科夫模型进行分词。根据术语集预先判断待分文档包含专业术语的多少，然后与阈值进行比较，若包含专业术语数量大于阈值，说明该段落包含的专业术语多，应该进行准确分词，调用二阶隐马尔科夫模型进行分词；否则进行快速分词，调用一阶隐马尔科夫模型进行分词。假设待分文档为D，经过与处理后有r个段落和s个最小字串，字串 Y_i＝y_i1,y_i2,...,y_im，y_ij表示一个单字。调用自适应隐马尔科夫模型进行分词，然后判断分好的单词是否在领域词典中，若在领域词典中，则判断该单词相邻上下单词之间的紧密度，判断是否需要进行重新分词，否则带入约束矩阵再进行语法约束和语义约束校准结果，最后输出分词结果。算法流程图如图3所示，具体分词步骤如下：

(1)输入字串Y_i，调用自适应隐马尔科夫模型进行分词，计算该句所在段落包含术语集中专业术语的数量，如果大于某一阈值，则进行步骤(2)，否则进行步骤(3)；

(2)调用二阶隐马尔科夫模型进行分词，将字串Y_i分成单词序列X_i＝x_i1,x_i2,...,x_in，进行步骤(4)；

(3)调用一阶隐马尔科夫模型进行分词，将字串Y_i分成单词序列X_i＝x_i1,x_i2,...,x_in，进行步骤(4)；

(4)遍历X_i，判断x_ij(j＝1,...,n)是否在领域词典中，若x_ij在领域词典中，进行步骤(5)，否则进行步骤(6)；

(5)查找单词x_ij的相邻上下单词，并记录单词x_ij、x_ij-1、x_ij+1和句子编号i到数组S，进行步骤(8)；

(6)将单词带入约束矩阵进行验证，若满足约束矩阵，则进行步骤(8)，否则记录并剔除该分词方式，进行步骤(1)；

(7)判断组合词频率是否大于阈值，如大于阈值，则将编号为i的句子作为字串输入，进行步骤(1)，否则进行步骤(6)；

(8)判断数组S是否完全遍历，若遍历结束，则结束分词，输出分词结果，否则遍历整个文档统计组合词x_i,j-1x_ij，x_i,jx_i,j+1频率，进行步骤(7)。

S4，组合词精确识别，为了使分词更加准确，提出了矩阵约束法，其主要的内容就是一个语法语义约束矩阵，其中矩阵中的元素代表两个词之间词性是否符合语法规则和语义是否符合逻辑规则。如何高效准确快速的建立矩阵以及矩阵的好坏，对分词结果的准确率提高有重要意义，约束矩阵是一个0-1的二值矩阵，表示了约束情况。对于元素p_ij，如果第i行对应的单词词性和第j列单词的词性有约束，那么p_ij值为1，否则为0。同样地，语义约束矩阵采用同样的方法进行构建。以自适应隐马尔科夫模型为基础，结合石油领域词典、互信息、语义约束矩阵和语法约束矩阵，实现石油领域专业术语和组合词的精确识别。

S5，基于混合策略的领域概念抽取，通过该算法将统计学概念抽取与改进的词典概念抽取相结合，通过对大量文档进行分析并提取统计数据，将符合条件的字串序列提取出来以建立领域词典，将词语与领域词典中的词语进行匹配，如果匹配成功，则该词语就是领域词语，通过计算在领域词典内出现的频率来代表这个词在该领域内的重要程度，通常采用设定相关度阈值的方式进行术语的抽取；将二者结合的方法能够针对不同的情况进行具体分析，对两种方法扬长避短，从而获得较好的概念抽取结果。

S6，连续词袋模型的构建，将文档看成是由单词组成的集合，对抽取到的石油领域内的相关概念进行语义关系识别，根据连续词袋模型将概念表示成词向量的形式，利用改进词向量训练算法对词向量进行扩展强化训练，使词向量包含上下文语义信息。词袋模型的训练以中心词上下文的词作为输入，以中心词的词向量作为输出，不考虑与中心词之间距离大小，只要在范围内就可以。

S7，SVM多特征提取，采用支持向量机在词袋模型上对多个向量进行多特征提取，利用多个向量多个特征进行语义识别。对于两个向量，如果两个词语具有相似关系，则两个向量在同维度上的分量也具有相似关系，它们的向量差就很小，某一维度的分量和就很大。通过两个向量进行不同的组合运算，完成对不同特征的表示学习，将词语转转换成词向量的形式，将词向量进行特征计算，导入到支持向量机训练SVM分类器，最终将上下义、总分、类义关系识别出来。。

S8，输出分词后的文档与识别后的语义关系。

综上所述，本发明的基于文档分词的复杂语义识别方法在大数据环境下解决了石油领域内部专业纷繁复杂、深层语义难以识别的问题，构建了石油工业内数量庞大的知识库，可以结合领域词典、互信息和语法语义约束矩阵对分词结果进行校准，实现了石油领域文档分词，可适用于多个领域。

尽管本发明的内容已经通过上述优选实施例作了详细介绍，但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后，对于本发明的多种修改和替代都将是显而易见的。因此，本发明的保护范围应由所附的权利要求来限定。

Claims

1.一种基于文档分词的复杂语义识别方法，其特征及具体步骤如下：

S8，输出分词后的文档与识别后的语义关系。

2.根据权利要求1所述的一种基于文档分词的复杂语义识别方法，其特征在于，步骤S2，本发明主要利用去除停用词、分段和分句等方法以实现文档分词的预处理，去除停用词处理是为了提高检索效率和减少存储空间，在处理文本时会将这些无意义的词剔除掉，通过人工构建选取本身并无实际意义，只有结合其他词语或句子才有一定的作用的停用词，将要去除的停用整理形成停用词表；分段分句处理是利用一些具有分割作用的符号将文档进行切分，包括段落分隔符、回车符与标点符号等。通过将分隔符、数字和字母整理成分割符一览表，然后扫描整篇文档与分割符号表中的分隔符进行匹配，匹配成功则进行分割标记。

3.根据权利要求1所述的一种基于文档分词的复杂语义识别方法，其特征在于，对于步骤S4，本发明采用的自适应隐马尔科夫模型是根据术语集预先判断待分文档包含专业术语的多少，然后与阈值进行比较，若包含专业术语数量大于阈值，说明该段落包含的专业术语多，应该进行准确分词，调用二阶隐马尔科夫模型进行分词，否则进行快速分词，调用一阶隐马尔科夫模型进行分词；通过将石油领域各个子学科从1到i进行编号，统计每个子学科最常用的n个专业术语，如石油勘探开发领域最常用的术语有勘探、测井、储量、井、压差等；然后将各个子学科的代表性专业术语构成一个集合，总的术语集Q表示如下：

X＝[x₁,x₂,…,x_n] (2)

式(3)中，num_D是通过文档D中的代表性术语数量叠加得到，而专业术语数量阈值s是通过字数num以及比例系数α来确定，即专业术语数量阈值s＝num·α，进而判断隐马尔科夫模型的使用，如下所示：

4.根据权利要求1所述的一种基于文档分词的复杂语义识别方法，其特征在于，对于步骤S5，本发明采用基于混合策略的领域概念抽取算法，将统计学概念抽取与改进的词典概念抽取相结合，通过对大量文档进行分析并提取统计数据，将符合条件的字串序列提取出来以建立领域词典，将词语与领域词典中的词语进行匹配，如果匹配成功，则该词语就是领域词语，通过计算在领域词典内出现的频率来代表这个词在该领域内的重要程度，通常采用设定相关度阈值的方式进行术语的抽取；将二者结合的方法能够针对不同的情况进行具体分析，对两种方法扬长避短，从而获得较好的概念抽取结果。

5.根据权利要求1所述的一种基于文档分词的复杂语义识别方法，其特征在于，对于步骤S7，本发明采用支持向量机在词袋模型上对多个向量进行多特征提取，利用多个向量多个特征进行语义识别，对于两个向量u＝(u₁,…,u_n)和v＝(v₁,…,v_n)，如果两个词语具有相似关系，则两个向量在同维度上的分量也具有相似关系，他们的向量差就很小，某一维度的分量和就很大，各个向量特征定义如下：