CN111897917A

CN111897917A - 基于多模态自然语言特征的轨道交通行业术语提取方法

Info

Publication number: CN111897917A
Application number: CN202010734793.5A
Authority: CN
Inventors: 刘永浩; 曹幂; 林海; 温俊; 周逸夫; 李涛; 张帆
Original assignee: Jiaxing Yunda Intelligent Equipment Co ltd
Current assignee: Chengdu Lingyao Technology Co ltd
Priority date: 2020-07-28
Filing date: 2020-07-28
Publication date: 2020-11-06
Anticipated expiration: 2040-07-28
Also published as: CN111897917B

Abstract

本发明公开了基于多模态自然语言特征的轨道交通行业术语提取方法，涉及自然语言处理、数据挖掘技术领域，解决了目前依赖于词典的行业术语提取方法无法实现自动、快速、高效的提取轨道交通行业行业术语的问题，其技术方案要点是：结合分词技术、词性分析技术、句法分析技术和无监督学习技术从不同的维度得到自然语言的多模态特征；在二元共现分析与三元共现分析的基础上，又使用基于邻接字的扩展方法对二元词对和三元词进行了扩充，通过对多种技术方法的综合运用，从自然语言的不同模态得到了不同批次的术语库，并对各批次的术语库取并集得到最终的行业术语库，最后通过行业术语库的自动抽样和规则过滤，提高行业术语抽取的覆盖率和准确度。

Description

基于多模态自然语言特征的轨道交通行业术语提取方法

技术领域

本发明涉及自然语言处理、数据挖掘技术领域，更具体地说，它涉及基于多模态自然语言特征的轨道交通行业术语提取方法。

背景技术

目前，我国的轨道交通行业在近年来得到了迅猛发展，因此对该行业各岗位、各工种相关工作人员的技术能力和服务水平提出了更高的要求，加之该行业涉及领域广泛、涉及学科众多、知识体系复杂，从而对轨道交通行业的教育培训系统也提出了更高的要求。因此，传统的教育理念和技术手段已经无法满足学员对相关教育培训系统的在线化、个性化和智能化需求。

基于此，以知识图谱为核心的轨道交通智慧教育培训系统便应运而生。然而，在知识图谱的构建过程，首先需要从该行业知识库、教材和工程资料中对知识实体的名称进行抽取，常见的专业术语的提取方法主要包括分词技术、行业词典匹配和命名实体识别等方法，无论那种方法都对行业词典或标注语料库有着极强的依赖。现有的术语词汇抽取技术都需要使用已有的标注数据集对模型进行训练，其中标注数据集的构建需要花费大量的人力和物力，并且若构建的词典内容不够准确、词条数量不足时，都会影响对专业术语的提取效果，很难完全抽取出所有的术语词汇。

然而，对于轨道交通行业而言，到目前为止，尚未有一套充足、完备的行业词典，所以依赖于词典的方法都无法实现自动、快速、高效的提取行业术语的需求。因此，如何研究设计一种基于多模态自然语言特征的轨道交通行业术语提取方法是我们目前急需解决的问题。

发明内容

本发明的目的是提供基于多模态自然语言特征的轨道交通行业术语提取方法，结合分词技术、词性分析技术、句法分析技术和无监督学习技术从不同的维度得到自然语言的多模态特征，并对多模态特征进行综合分析，能够快速高效的从非结构化文本中提取出轨道交通行业的专业词汇，提高行业术语抽取的覆盖率和准确度。

本发明的上述技术目的是通过以下技术方案得以实现的：

第一方面，提供了基于多模态自然语言特征的轨道交通行业术语提取方法，包括以下步骤：

S1：对行业语料库中的文档标题进行识别和提取，并根据过滤词词库对识别和提取的行业术语进行过滤，得到第一批候选词词库；

S2：根据过滤词词库对行业语料库进行文本切分、筛选后得到由文本单元构成的预选词列表，并对预选词列表循环迭代过滤后得到第二批候选词词库；

S3：通过分词模型和词性标注模型对语料进行分词和词性标注，将连续相邻的类名词合并成名词性短语，抽取名词性短语后得到第三批候选词词库；

S4：对分词列表去除处理后得到预选分词列表、词频统计列表，根据预选分词列表、词频统计列表进行二元共现分析后得到由二元词对构成的第四批候选词词库；

S5：根据预选分词列表、词频统计列表进行三元共现分析得到由三元词对构成的第五批候选词词库；

S6：根据邻接字对二元词对和/或三元词对进行扩展，得到第六批候选词词库；

S7：对所有批次的候选词词库求解并集后得到最终行业术语库。

优选的，在步骤S1中，所述过滤词词库具体为：根据开源汉语词典建立的由介词、连词、助词、副词等常用虚词构成的词库。

优选的，在步骤S2中，所述第二批候选词词库具体为：

S201：对行业语料库进行预处理：

通过标题识别规则将标题编号剔除，并将标题内容作为一个独立的文本行；

根据标点符号和特殊符号将语料进行切分，并去除掉标点符号和特殊符号后得到文本集；

S202：在文本集中筛选出字符串长度小于指定阈值的文本单元，构成预选词列表；

S203：循环迭代预选词列表，通过过滤词词库将预选词的前置过滤词和后置过滤词全部删除，得到第二批候选词词库。

优选的，在步骤S4、S5中，所述分词列表去除停用词和过滤词具体为：

S401：根据加载的停用词词库和过滤词词库去除分词列表中的停用词和过滤词，得到预选分词列表；

S402：对预选分词列表进行一元共现分析后得到预选分词列表中所有词语的词频统计列表，一元共现分析的计算公式为：

其中，W_i表示预选分词列表中的某词语，C(W_i)表示某词语在预选分词列表中出现的次数， T表示预选分词列表中分词的总数，P(W_i)表示某词语在预选分词列表中出现的概率。

优选的，所述二元共现分析具体为：

S403：按预定顺序遍历语料库的预选分词列表，以当前词为中心，分别取左邻接词和右邻接词形成二元词对形成二元词对列表；

S404：计算二元词对列表中每个二元词对的左邻接熵、右邻接熵和互信息，并计算总评分值；

S405：根据总评分值对二元词对列表进行排序，获取前序N个二元词对构成第四批候选词词库。

优选的，所述左邻接熵、右邻接熵具体为：

左邻接熵的计算公式为：

右邻接熵的计算公式为：

其中，S_l是候选词W的左邻接词的集合，S_r是候选词W的右邻接词的集合；P(W_l|W)表示W_l是候选词W的左邻接词的条件概率，P(W_r|W)表示W_r为候选词W的右邻接词的条件概率；

P(W_l|W)和P(W_r|W)的计算公式为：

其中，N(W_l，W)表示W_l和W共同出现的次数，N(W)表示W出现的次数；同理，N(W，W_r)表示W和W_r共同出现的次数。

优选的，所述互信息具体为：

其中，P(X)、P(Y)表示词X、Y单独出现在语料集中的概率，P(X，Y)表示X和Y共同在语料集中出现的概率，MI(X，Y)表示X和Y的关联程度；若MI(X，Y)＞0，表示X和Y是相互关联的，且MI的值越大表示二者相关联的程度越大，越有可能成为新词；若MI(X，Y)＝0，则表示X和Y是彼此独立的；若MI(X，Y)＜0，则表示X和Y是不相关的。

优选的，所述总评分值具体为：

优选的，在步骤S6中，所述二元词对、三元词对扩展具体为：

S601：从左至右逐字扩展候选词语，统计候选词语与右邻接字共现的词频，按照词频阈值进行过滤；

S603：计算候选词语与右邻接字的互信息值；若大于互信息阈值，则继续向右扩展；否则，将候选词记作候选新词；

S603：过滤候选新词，得到新词集合；用邻接熵进行候选新词的过滤，设置左右邻接熵的阈值，计算左右邻接熵，将左右邻接熵小于左右邻接熵阈值的候选新词删除掉，得到以候选新词形成的第六批候选词词库。

第二方面，提供了一种计算机系统，包括存储器、处理器以及存储在存储器内并可在处理器中执行第一方面1-9任意一项所述方法的计算机程序。

与现有技术相比，本发明具有以下有益效果：

(1)本发明综合利用标题识别规则、分词模型、词性分析和无监督学习算法从多个模态分批次提取行业术语，与传统技术方法相比不仅减少了人工标注的工作，还提高了行业术语提取的工作效率和覆盖率；

(2)本发明实现了对行业术语提取过程的自动化和智能化，提取过程无需人工干预，也无需要人工对语料库进行标注，在节省人力物力的同时，也使得行业术语库的构建效率得到了很大的提升；

(3)本发明在二元共现分析与三元共现分析的基础上，又使用基于邻接字的扩展方法对二元词对和三元词进行了扩充。通过对多种技术方法的综合运用，从自然语言的不同模态得到了不同批次的术语库，并对各批次的术语库取并集得到最终的行业术语库，最后通过行业术语库的自动抽样和规则过滤，使得术语词词库的覆盖率有了极大的提升。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。在附图中：

图1是本发明实施例中的流程图；

图2是本发明实施例中的逻辑框图；

图3是本发明实施例中轨道交通行业知识图谱的局部结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例和附图1-2，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

实施例：基于多模态自然语言特征的轨道交通行业术语提取方法，如图1与图2所示，包括以下步骤：

步骤一、按照标题识别规则对行业语料库中的文档标题进行识别和提取，并根据过滤词词库对识别和提取的行业术语进行过滤，得到第一批候选词词库。过滤词词库为根据开源汉语词典建立的由介词、连词、助词、副词等常用虚词构成的词库。其中，行业语料库为通过OCR技术和文档解析技术对轨道交通行业的培训教材和工程材料进行读取，并对读取的文本内容和表格内容进行预处理，例如：字符编码格式转换、乱码剔除、行内容合并、表格文本内容按表格格式对齐等，最后将预处理完的文本内容加入轨道交通行业语料库。轨道交通培训教材中的标题基本都是由行业术语组成，因此通过标题识别规则提取出来的词语大部分可以直接做为行业术语。

步骤二、根据过滤词词库对行业语料库进行文本切分、筛选后得到由文本单元构成的预选词列表，并对预选词列表循环迭代过滤后得到第二批候选词词库。具体为：通过标题识别规则将标题编号剔除，并将标题内容作为一个独立的文本行；根据标点符号和特殊符号将语料进行切分，并去除掉标点符号和特殊符号后得到文本集，完成对行业语料库的预处理。在文本集中筛选出字符串长度小于指定阈值的文本单元，构成预选词列表。循环迭代预选词列表，通过过滤词词库将预选词的前置过滤词和后置过滤词全部删除，得到第二批候选词词库。其中，过滤词包括用于连接词语或句子的连词、表示词语或句子之间关系的介词、表示词语或句子结构关系的助词等汉语虚词。由于虚词很少出现在行业术语中，因此通过过滤词一方面可以用于句子切分，另一方面可以对提取出来的行业术语进行二次筛选和过滤。

步骤三、通过分词模型和词性标注模型对语料进行分词和词性标注，将连续相邻的类名词合并成名词性短语，抽取名词性短语后得到第三批候选词词库。类名词包括但不限于名词 (n)、名形词(an)和名动词(vn)。

步骤四、加载停用词词库和过滤词词库后，去除分词列表中的停用词和过滤词，得到预选分词列表，再通过一元共现分析得到预选分词列表中所有词语的词频统计列表。

一元共现分析的计算公式为：

对预选分词列表进行二元共现分析，得到由二元词对构成的第四批候选词词库。通过计算连续邻接的二元词对之间的邻接熵、互信息和评分值来判断该二元词对是否可以独立成词。二元共现分析具体为：

按预定顺序遍历语料库的预选分词列表，以当前词为中心，分别取左邻接词和右邻接词形成二元词对形成二元词对列表；计算二元词对列表中每个二元词对的左邻接熵、右邻接熵和互信息，并计算总评分值；根据总评分值对二元词对列表进行排序，获取前序N个二元词对构成第四批候选词词库。其中：

左邻接熵的计算公式为：

右邻接熵的计算公式为：

其中，S_l是候选词W的左邻接词的集合，S_r是候选词W的右邻接词的集合；P(W_l|W)表示W_l是候选词W的左邻接词的条件概率，P(W_r|W)表示W_r为候选词W的右邻接词的条件概率。

P(W_l|W)和P(W_r|W)的计算公式为：

互信息具体为：

总评分值具体为：

步骤五、对预选分词列表进行进行三元共现分析，得到由三元词对构成的第五批候选词词库。按顺序遍历语料库的预选分词列表，以当前词为中心，分别取其两个左邻接词和两个右邻接词形成三元词对，并加入三元词对列表。分别计算三元词对列表中每个三元词对的左邻接熵、右邻接熵和互信息，并计算其总评分值。将三元词对列表按评分值进行排序，获取前前序N个三元词对做为第五批候选词词库。

步骤六、根据邻接字对二元词对、三元词对进行扩展，得到第六批候选词词库。具体为：从左至右逐字扩展候选词语，统计候选词语与右邻接字共现的词频，按照词频阈值进行过滤。计算候选词语与右邻接字的互信息值；若大于互信息阈值，则继续向右扩展；否则，将候选词记作候选新词。过滤候选新词，得到新词集合；用邻接熵进行候选新词的过滤，设置左右邻接熵的阈值，计算左右邻接熵，将左右邻接熵小于左右邻接熵阈值的候选新词删除掉，得到以候选新词形成的第六批候选词词库。

步骤七、对所有批次的候选词词库求解并集后得到最终行业术语库。如图3所示，以最终行业术语库为基础，通过关键词匹配算法从轨道交通行业语料库中提取出术语词汇做为知识实体的实体名称，可以通过知识图谱构建技术构建出轨道交通行业知识图谱。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于多模态自然语言特征的轨道交通行业术语提取方法，其特征是，包括以下步骤：

2.根据权利要求1所述的基于多模态自然语言特征的轨道交通行业术语提取方法，其特征是，在步骤S1中，所述过滤词词库具体为：根据开源汉语词典建立的由介词、连词、助词、副词等常用虚词构成的词库。

3.根据权利要求1所述的基于多模态自然语言特征的轨道交通行业术语提取方法，其特征是，在步骤S2中，所述第二批候选词词库具体为：

S201：对行业语料库进行预处理：

4.根据权利要求1所述的基于多模态自然语言特征的轨道交通行业术语提取方法，其特征是，在步骤S4、S5中，所述分词列表去除停用词和过滤词具体为：

其中，W_i表示预选分词列表中的某词语，C(W_i)表示某词语在预选分词列表中出现的次数，T表示预选分词列表中分词的总数，P(W_i)表示某词语在预选分词列表中出现的概率。

5.根据权利要求4所述的基于多模态自然语言特征的轨道交通行业术语提取方法，其特征是，所述二元共现分析具体为：

6.根据权利要求5所述的基于多模态自然语言特征的轨道交通行业术语提取方法，其特征是，所述左邻接熵、右邻接熵具体为：

左邻接熵的计算公式为：

右邻接熵的计算公式为：

P(W_l|W)和P(W_r|W)的计算公式为：

7.根据权利要求6所述的基于多模态自然语言特征的轨道交通行业术语提取方法，其特征是，所述互信息具体为：

8.根据权利要求7所述的基于多模态自然语言特征的轨道交通行业术语提取方法，其特征是，所述总评分值具体为：

9.根据权利要求1所述的基于多模态自然语言特征的轨道交通行业术语提取方法，其特征是，在步骤S6中，所述二元词对、三元词对扩展具体为：

10.一种计算机系统，其特征是，包括存储器、处理器以及存储在存储器内并可在处理器中执行权利要求1-9任意一项所述方法的计算机程序。