CN113342928A

CN113342928A - 一种基于改进TextRank算法的钢材料专利文本中工艺信息抽取方法及其系统

Info

Publication number: CN113342928A
Application number: CN202110496876.XA
Authority: CN
Inventors: 魏晓; 钱权; 赵睿; 丁聪; 陈永琪
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2021-05-07
Filing date: 2021-05-07
Publication date: 2021-09-03

Abstract

本发明公开了一种钢材料领域的基于改进TextRank算法的钢材料专利中工艺信息抽取方法和系统，对输入的工艺相关文本进行预处理；计算集合中每个词语的TF*IDF值；将集合中的词语通过word2vec工具转化为向量表示形式；增加词位置信息以及合并语义相似词，得到最终文本关键词集合；对文本中每个句子构建其矩阵表示；构建改进TextRank算法的图模型并进行迭代直至收敛，改进之处在于将句子在文本中所处位置和第四步得到的主题词信息融入到图模型顶点计算中，图模型中边关系权重则是通过计算矩阵的余弦相似度；取上一步模型最终得分topK的句子按排序原则进行排列并去除其中的冗余信息，使最终保留的工艺信息具有连贯性。本发明方法简便易操作，效果好。

Description

一种基于改进TextRank算法的钢材料专利文本中工艺信息抽取方法及其系统

技术领域

本发明属于钢材料知识图谱领域，具体涉及一种基于改进TextRank算法的钢材料专利文本中工艺信息抽取方法。

背景技术

钢材料加工工艺的不断改进，导致钢材料领域工艺知识具有形式多样、内容复杂的特点。对专利文本中的钢材料加工工艺信息进行抽取，是最终实现领域工艺知识整合的先决条件。

而文本信息抽取方法存在以下不足：

利用神经网络算法进行文本信息抽取需要大型语料库，同时存在训练时间长，工艺信息抽取慢的问题，不适合进行实际应用。

利用基于统计的方法进行文本信息抽取往往能够达到较快的速度，其中最经典的算法为TextRank算法。但其在对文本信息进行只考虑了句子节点间的相似性，在构建图模型中结点间边关系时直接比较句子间包含共同词的数量，以此来判断两句子关联程度，而忽视了文本的篇章结构以及文本中句子的位置及语义信息。

同时钢材料专利文本其其他领域文本不同，工艺描述信息在文本中较为集中且专业名词较多，不能直接利用现有文本信息抽取方法进行工艺抽取。

发明内容

为了解决现有技术问题，本发明的目的在于克服已有技术存在的不足，提供一种基于改进TextRank算法的钢材料专利文本中工艺信息抽取方法，针对经典TextRank算法的不足，同时针对钢材料领域的相关工艺专利文本的特殊性，本发明方法针对钢材料工艺专利文本的特殊性提取主题词，然后融合文本主题词、句间位置关系及语义关系计算TextRank算法中图模型的顶点得分以及顶点间边关系，并结合句子和主题词处理多余信息，最终选取topK得分的句子作为此钢材料工艺专利文本的关键信息作为抽取结果。

为达到上述发明创造目的，本发明采用如下技术方案：

一种基于改进TextRank算法的钢材料专利文本中工艺信息抽取方法，包括以下步骤：

步骤A：对钢材料工艺专利文献文本进行预处理，主要包括分词、去停用词以及词性标注，得到初步筛选出的主题词集合w＝{w₁,w₂,…w_n}；

步骤B：计算主题词集合中每个词语的TF*IDF值；首先计算词频TF值,统计w集合中相关词语在文本中出现的次数；再计算逆文档频率IDF值；其中，TF表示主题词集合中每个词语出现的频率值，其中，IDF表示逆文本频率值，由总文本数量除以包含该词语的文本数量，再将得到的商取以10为底的对数得到；

步骤C：将文本预处理后的主题词集合w通过word2vec工具转化为向量表示形式；选用其中的CBOW模型，并用hierarchical softmax方法完成转化，采用n维的词向量表示，得到新的工艺文本主题词集合w_c；

步骤D：增加词位置信息以及合并语义相似词，目的是为了得到最终关键词的排序信息；

步骤E：将待抽取的专利文本以句子为单位进行分离，整个文本的句子集合表示为S＝{s₁,s₂,…s_n}；同时以句子为单位，对每个句子进行同步骤A的预处理工作，并利用步骤C中的Word2vec工具中的CBOW模型将所有词转化为词向量表示，并通过拼接方式构成每个句子的矩阵表示M_n*m，n为词向量维度，m为文本中最大句子长度，不足补零向量；

步骤F：构建改进TextRank算法的图模型，设置初始值进行迭代直至收敛.

步骤G：对步骤F中的所有句子顶点得分进行排序，取topK作为抽取出的工艺关键信息，其中K值为文本所有句子数的10％；并对此K个句子的顺序进行排列，并去除其中的冗余信息，使最终保留的句子具有连贯性；输出最终钢材料专利文本中抽取出的工艺信息。

优选地，所述步骤A包括如下步骤：

步骤A1：分词使用的是效果较好的中文分词工具jieba，对文本中包含的字符进行切分。

步骤A2：根据钢材料领域工艺文本特性总结停用词表，并利用构建好的停用词表去除工艺文本中无用词，这些词主要为介词、助词、连接词等。

步骤A3：使用jieba工具包对工艺文本进行词性标注，去掉文本中所有的非名词，获得工艺文本主题词集合w＝{w₁,w₂,…w_n}。

优选地，所述步骤B包括如下步骤：

计算主题词集合中每个词语的TF*IDF值。首先计算词频TF值,统计w集合中相关词语在文本中出现的次数；再计算逆文档频率IDF值，统计w集合中相关词语在所有工艺文本或工艺语料库中出现的比例，将计算得到的结果取对数，该占比值越小，IDF的值则越大，表明该词区分于其他词的能力越强；最后计算词的TF-IDF值，词出现的次数越多，得到的TF*IDF值越大。

优选地，所述步骤C包括如下步骤：

将文本预处理后的主题词集合w通过word2vec工具转化为向量表示形式，这里选用其中的CBOW模型并用hierarchical softmax方法完成转化，得到n维的词向量表示，为统计词位置信息以及词语间语义相似度做准备，经过向量化表示得到新的工艺文本主题词集合w_c。

优选地，所述步骤D包括如下步骤：

步骤D1：文本在抽取词信息的时候，如果当前词语位于句子前部应增加权重信息，根据上步利用CBOW模型得到的词向量得到距离值，将其与位置平均值比较可以得到距离信息，距离句首位置越近权重P_i越大，具体的权重P_i分配公式如下：

将步骤B得到的词的TF-IDF值与权重P_i相乘得到TF-IDF_new作为融合词位置信息的结果；

步骤D2：将步骤C中的集合w_c得到的剩余词利用余弦相似度计算相似性，公式如下：

其中词w_x＝(v₁,v₂,…v_n)、w_y＝(v₁,v₂,…v_n)均为通过步骤C中CBOW模型转化的n维向量表示形式；wordsim(w_x,w_y)的值越大代表词语语义相似度越高，最终去掉语义相似的词语；合并的规则是保留两个词中TF-IDF_new值较大的词；

步骤D3：将剩余词语按TF-IDF_new值排序，根据设定的阈值得到最终该工艺专利文本的主题词集合w，为最终抽取出文本中工艺关键信息提供主题词语义支持。

优选地，所述步骤E包括如下步骤：

将待抽取的专利文本以句子为单位进行分离，整个文本的句子集合表示为S＝{s₁,s₂,…s_n}。同时以句子为单位，对每个句子进行同步骤A的预处理工作，并利用步骤C中的Word2vec工具中的CBOW模型将所有词转化为词向量表示，并通过拼接方式构成每个句子的矩阵表示M_n*m，n为词向量维度，m为文本中最大句子长度，不足补零向量。

优选地，所述步骤F构建改进TextRank算法的图模型,对经典TextRank算法的改进主要体现在：

1)将句子在文本中所处位置以及主题词信息融入到图模型顶点计算中；

2)图中顶点间边关系的计算不再用原有的共现词公式计算，而是利用步骤F中得到的句子矩阵表示，计算两个矩阵的余弦相似度作为图模型中边关系权重；步骤F分为三步：

步骤F1：计算图模型的顶点句子得分；文本中句子处在不同位置，权重信息应不同，文本中段落的第一句包含的信息往往最多，句子位置信息权重的定义公式为：

同时还要考虑句子中是否包含主题词，包含主题词的句子显然更为关键，主题词信息权重的定义公式为：

图模型的顶点句子得分最终计算公式为：

Score(i)＝P(s_i)*F(s_i)*TextRank(s_i)

其中TextRank(s_i)为经典TextRank中的方式，公式为：

其中w_ij,w_jk为两句子间相似度系数，在下一步G2中进行计算；Input(s_i)为步骤F中得到的当前文本所有句子集合S_all，Output(s_j)表示当前句子所链接的其他句子集合，d表示阻尼数值，表示图中某一顶点跳转到其他任意顶点的概率，优选取0.85；

步骤F2：计算图模型中顶点间边关系权重；经典的TextRank算法主要统计两句子间共现词数量来反映关联性，而忽视了句子间语义信息；利用步骤E中得到的句子矩阵表示，计算两个句子矩阵的余弦相似度作为图模型中边关系权重；计算公式为：

步骤F3：训练改进的TextRank图模型，将图中顶点间边关系权重初始化为1，学习率设置为0.001，对所有顶点值及边关系权重不断迭代计算直到模型收敛，此时各顶点的最终得分将作为确定当前工艺文本中关键句的重要依据。

优选地，对步骤F中的所有句子顶点得分进行排序，取topK作为抽取出的工艺关键信息，其中K值为文本所有句子数的10％；并对此K个句子的顺序进行排列，并去除其中的冗余信息，使最终保留的句子具有连贯性；

优选地，所述步骤G包括如下步骤：

步骤G1：对K个句子进行排序，仅仅按照得分顺序从高到低排列会使最后的工艺信息缺乏整体性以及连贯性，排序原则为：

1)当句子中包含关键时刻、步骤等时序信息时，则两个句子由该时序信息决定顺序；

2)主题词原有顺序和句子顺序要相互对应，如果两个句子分别包含了两个不同的主题词信息，则该句子按照主题词原有顺序排序；

3)在句子包含主题词信息相同情况下，则按照原有文本的得分顺序进行排列；按照该方式处理后形成工艺关键信息集合S_new；

步骤G2：结合句子和主题词信息并利用MMR算法去除冗余工艺信息，计算公式为：

MR(S_i)＝α·Sim₁(S_i,S_m)-(1-α)·max[Sim₂(S_i,S_j)]

其中α取0.8，相似度Sim₁函数、Sim₂函数的计算则采用同步骤F中图模型边关系权重的方法，S_m为步骤D中主题词组成的文本信息句，Sim₁函数反映当前语句与文本主题词所组成的文本信息句间的关联度，Sim₂函数则将当前语句和工艺关键信息集合S_new中包含的其他句子比较，并取最大值，可以反映出与已选工艺关键信息的差异性；

计算每个句子的MR值，当MR(S_i)≤0.85时则保留该条语句，去除高于此值的语句，最终抽取出该钢材料专利文本中的工艺关键信息。

一种计算机系统，其程序执行本发明基于改进TextRank算法的钢材料专利文本中工艺信息抽取方法。

本发明与现有技术相比较，具有如下显而易见的突出实质性特点和显著优点：

1.本发明相较于神经网络算法不需要构造大型语料库，同时训练时间短，专利文本中工艺信息抽取速度较快，适合于实际使用；

2.本发明在文本预处理时，针对钢材料领域专利文本的特殊性，构造专用停用词表，相较于使用通用停用词表，可以有效提升最终抽取出的工艺信息准确度；

3.经典的TextRank算法在构建图模型时，顶点得分和边关系权重计算均忽视了文本的篇章结构、文本主题以及文本中句子的位置和语义信息；本发明对经典TextRank算法进行改进，首先将句子在文本中所处位置以及主题词信息融入到图模型顶点计算中；其次图中顶点间边关系的计算不再用原有的共现词公式计算，而是利用包含句子语义信息的矩阵并通过计算两个矩阵的余弦相似度，最终作为图模型中边关系权重；

4.在利用改进TextRank算法获得topK关键句后，本发明还结合句子和主题词信息并利用MMR算法来去除冗余工艺信息，使最后从钢材料专利文本中抽取出的工艺信息能够较好概括全文，同时保持语句间的连贯性。

附图说明

图1为本发明的基于改进TextRank算法的钢材料专利中工艺信息抽取方法的流程示意图。

具体实施方式

以下结合具体的实施例子对上述方案做进一步说明，本发明的优选实施例详述如下：

实施例一：

在本实施例中，参见图1，一种基于改进TextRank算法的钢材料专利文本中工艺信息抽取方法，包括以下步骤：

步骤G：对步骤F中的所有句子顶点得分进行排序，取topK作为抽取出的工艺关键信息，其中K值为文本所有句子数的10％；并对此K个句子的顺序进行排列，并去除其中的冗余信息，使最终保留的句子具有连贯性。

输出最终钢材料专利文本中抽取出的工艺信息。

本实施例方法相较于神经网络算法不需要构造大型语料库，同时训练时间短，专利文本中工艺信息抽取速度较快，适合于实际使用；本实施例方法在文本预处理时，针对钢材料领域专利文本的特殊性，构造专用停用词表，相较于使用通用停用词表，可以有效提升最终抽取出的工艺信息准确度。

实施例二：

本实施例与实施例一基本相同，特别之处在于：

在本实施例中，参见图1，

在本发明的一个可选实施例中，上述步骤A在获取输入文本后，预处理步骤具体为：

步骤A1：分词使用的是效果较好的中文分词工具jieba，对文本中包含的字符进行切分；

步骤A2：根据钢材料领域工艺文本特性总结停用词表，并利用构建好的停用词表去除工艺文本中无用词，这些词主要为介词、助词、连接词；

步骤A3：使用jieba工具包对工艺文本进行词性标注，去掉文本中所有的非名词，获得工艺文本主题词集合w＝{w₁,w₂,…w_n}；

步骤B具体为：首先计算词频TF值,统计w集合中相关词语在文本中出现的次数；再计算逆文档频率IDF值，统计w集合中相关词语在所有工艺文本或工艺语料库中出现的比例，将计算得到的结果取对数，该占比值越小，IDF的值则越大，表明该词区分于其他词的能力越强；最后计算词的TF-IDF值，词出现的次数越多，得到的TF*IDF值越大；

步骤C具体为：选用其中的CBOW模型并用hierarchical softmax方法完成转化，得到n维的词向量表示，为统计词位置信息以及词语间语义相似度做准备，经过向量化表示得到新的工艺文本主题词集合w_c；

步骤D具体分为三步：

步骤D1：文本在抽取词信息的时候，如果当前词语位于句子前部应增加权重信息，根据上步利用CBOW模型得到的词向量得到距离值，将其与位置平均值比较可以得到距离信息，距离句首位置越近权重P_i越大，具体的权重分配公式如下：

将在步骤B中得到的词的TF-IDF值与权重P_i相乘得到TF-IDF_new作为融合词位置信息的结果；

步骤D2：将集合w_c得到的剩余词利用余弦相似度计算相似性，公式如下：

步骤D3：将剩余词语按TF-IDF_new值排序，根据设定的阈值得到最终该工艺专利文本的主题词集合w，为最终抽取出文本中工艺关键信息提供主题词语义支持；

步骤E具体为：将待抽取的专利文本以句子为单位进行分离，并对每个句子构建其矩阵表示形式；整个文本的句子集合表示为S＝{s₁,s₂,…s_n}；同时以句子为单位，对每个句子进行同步骤A的预处理工作，并利用步骤C中的Word2vec工具中的CBOW模型将所有词转化为词向量表示，并通过拼接方式构成每个句子的矩阵表示M_n*m，n为词向量维度，m为文本中最大句子长度，不足补零向量；

步骤F具体分为三步：

图模型的顶点句子得分最终计算公式为：

Score(i)＝P(s_i)*F(s_i)*TextRank(s_i)

其中TextRank(s_i)为经典TextRank中的方式，公式为：

步骤F3：训练改进的TextRank图模型，将图中顶点间边关系权重初始化为1，学习率设置为0.001，对所有顶点值及边关系权重不断迭代计算直到模型收敛，此时各顶点的最终得分将作为确定当前工艺文本中关键句的重要依据；

步骤G具体分为两步：

步骤G1：对K个句子进行排序，仅仅按照得分顺序从高到低排列会使最后的工艺信息缺乏整体性以及连贯性，本发明的排序原则为：

3)在句子包含主题词信息相同情况下，则按照原有文本的得分顺序进行排列。按照该方式处理后形成工艺关键信息集合S_new；

MR(S_i)＝α·Sim₁(S_i,S_m)-(1-α)·max[Sim₂(S_i,S_j)]

上述实施例钢材料领域专利文本中工艺相关信息的抽取方法，对输入的工艺相关文本进行预处理；计算集合中每个词语的TF*IDF值；将集合中的词语通过word2vec工具转化为向量表示形式；增加词位置信息以及合并语义相似词，得到最终文本关键词集合；对文本中每个句子构建其矩阵表示；构建改进TextRank算法的图模型并进行迭代直至收敛，改进之处在于将句子在文本中所处位置和第四步得到的主题词信息融入到图模型顶点计算中，图模型中边关系权重则是通过计算矩阵的余弦相似度；取上一步模型最终得分topK的句子按排序原则进行排列并去除其中的冗余信息，使最终保留的工艺信息具有连贯性。上述实施例方法简便易操作，效果好。

上面对本发明实施例结合附图进行了说明，但本发明不限于上述实施例，还可以根据本发明的发明创造的目的做出多种变化，凡依据本发明技术方案的精神实质和原理下做的改变、修饰、替代、组合或简化，均应为等效的置换方式，只要符合本发明的发明目的，只要不背离本发明的技术原理和发明构思，都属于本发明的保护范围。

Claims

1.一种基于改进TextRank算法的钢材料专利文本中工艺信息抽取方法，其特征在于，包括以下步骤：

步骤A：对钢材料工艺专利文献文本进行预处理，主要包括分词、去停用词以及词性标注，得到初步筛选出的主题词集合w＝{w₁，w₂，...w_n}；

步骤B：计算主题词集合中每个词语的TF*IDF值；首先计算词频TF值，统计w集合中相关词语在文本中出现的次数；再计算逆文档频率IDF值；其中，TF表示主题词集合中每个词语出现的频率值，其中，IDF表示逆文本频率值，由总文本数量除以包含该词语的文本数量，再将得到的商取以10为底的对数得到；

步骤E：将待抽取的专利文本以句子为单位进行分离，整个文本的句子集合表示为S＝{s₁，s₂，...s_n}；同时以句子为单位，对每个句子进行同步骤A的预处理工作，并利用步骤C中的Word2vec工具中的CBOW模型将所有词转化为词向量表示，并通过拼接方式构成每个句子的矩阵表示M_n*m，n为词向量维度，m为文本中最大句子长度，不足补零向量；

2.根据权利要求1中所述基于改进TextRank算法的钢材料专利文本中工艺信息抽取方法，其特征在于，所述步骤A包括如下步骤：

步骤A3：使用jieba工具包对工艺文本进行词性标注，去掉文本中所有的非名词，获得工艺文本主题词集合w＝{w₁，w₂，...w_n}。

3.根据权利要求1中所述基于改进TextRank算法的钢材料专利文本中工艺信息抽取方法，其特征在于，所述步骤D包括如下步骤：