CN113342928A - 一种基于改进TextRank算法的钢材料专利文本中工艺信息抽取方法及其系统 - Google Patents

一种基于改进TextRank算法的钢材料专利文本中工艺信息抽取方法及其系统 Download PDF

Info

Publication number
CN113342928A
CN113342928A CN202110496876.XA CN202110496876A CN113342928A CN 113342928 A CN113342928 A CN 113342928A CN 202110496876 A CN202110496876 A CN 202110496876A CN 113342928 A CN113342928 A CN 113342928A
Authority
CN
China
Prior art keywords
text
information
sentences
word
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110496876.XA
Other languages
English (en)
Inventor
魏晓
钱权
赵睿
丁聪
陈永琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Shanghai for Science and Technology
Original Assignee
University of Shanghai for Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Shanghai for Science and Technology filed Critical University of Shanghai for Science and Technology
Priority to CN202110496876.XA priority Critical patent/CN113342928A/zh
Publication of CN113342928A publication Critical patent/CN113342928A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种钢材料领域的基于改进TextRank算法的钢材料专利中工艺信息抽取方法和系统,对输入的工艺相关文本进行预处理;计算集合中每个词语的TF*IDF值;将集合中的词语通过word2vec工具转化为向量表示形式;增加词位置信息以及合并语义相似词,得到最终文本关键词集合;对文本中每个句子构建其矩阵表示;构建改进TextRank算法的图模型并进行迭代直至收敛,改进之处在于将句子在文本中所处位置和第四步得到的主题词信息融入到图模型顶点计算中,图模型中边关系权重则是通过计算矩阵的余弦相似度;取上一步模型最终得分topK的句子按排序原则进行排列并去除其中的冗余信息,使最终保留的工艺信息具有连贯性。本发明方法简便易操作,效果好。

Description

一种基于改进TextRank算法的钢材料专利文本中工艺信息抽 取方法及其系统
技术领域
本发明属于钢材料知识图谱领域,具体涉及一种基于改进TextRank算法的钢材料专利文本中工艺信息抽取方法。
背景技术
钢材料加工工艺的不断改进,导致钢材料领域工艺知识具有形式多样、内容复杂的特点。对专利文本中的钢材料加工工艺信息进行抽取,是最终实现领域工艺知识整合的先决条件。
而文本信息抽取方法存在以下不足:
利用神经网络算法进行文本信息抽取需要大型语料库,同时存在训练时间长,工艺信息抽取慢的问题,不适合进行实际应用。
利用基于统计的方法进行文本信息抽取往往能够达到较快的速度,其中最经典的算法为TextRank算法。但其在对文本信息进行只考虑了句子节点间的相似性,在构建图模型中结点间边关系时直接比较句子间包含共同词的数量,以此来判断两句子关联程度,而忽视了文本的篇章结构以及文本中句子的位置及语义信息。
同时钢材料专利文本其其他领域文本不同,工艺描述信息在文本中较为集中且专业名词较多,不能直接利用现有文本信息抽取方法进行工艺抽取。
发明内容
为了解决现有技术问题,本发明的目的在于克服已有技术存在的不足,提供一种基于改进TextRank算法的钢材料专利文本中工艺信息抽取方法,针对经典TextRank算法的不足,同时针对钢材料领域的相关工艺专利文本的特殊性,本发明方法针对钢材料工艺专利文本的特殊性提取主题词,然后融合文本主题词、句间位置关系及语义关系计算TextRank算法中图模型的顶点得分以及顶点间边关系,并结合句子和主题词处理多余信息,最终选取topK得分的句子作为此钢材料工艺专利文本的关键信息作为抽取结果。
为达到上述发明创造目的,本发明采用如下技术方案:
一种基于改进TextRank算法的钢材料专利文本中工艺信息抽取方法,包括以下步骤:
步骤A:对钢材料工艺专利文献文本进行预处理,主要包括分词、去停用词以及词性标注,得到初步筛选出的主题词集合w={w1,w2,…wn};
步骤B:计算主题词集合中每个词语的TF*IDF值;首先计算词频TF值,统计w集合中相关词语在文本中出现的次数;再计算逆文档频率IDF值;其中,TF表示主题词集合中每个词语出现的频率值,其中,IDF表示逆文本频率值,由总文本数量除以包含该词语的文本数量,再将得到的商取以10为底的对数得到;
步骤C:将文本预处理后的主题词集合w通过word2vec工具转化为向量表示形式;选用其中的CBOW模型,并用hierarchical softmax方法完成转化,采用n维的词向量表示,得到新的工艺文本主题词集合wc
步骤D:增加词位置信息以及合并语义相似词,目的是为了得到最终关键词的排序信息;
步骤E:将待抽取的专利文本以句子为单位进行分离,整个文本的句子集合表示为S={s1,s2,…sn};同时以句子为单位,对每个句子进行同步骤A的预处理工作,并利用步骤C中的Word2vec工具中的CBOW模型将所有词转化为词向量表示,并通过拼接方式构成每个句子的矩阵表示Mn*m,n为词向量维度,m为文本中最大句子长度,不足补零向量;
步骤F:构建改进TextRank算法的图模型,设置初始值进行迭代直至收敛.
步骤G:对步骤F中的所有句子顶点得分进行排序,取topK作为抽取出的工艺关键信息,其中K值为文本所有句子数的10%;并对此K个句子的顺序进行排列,并去除其中的冗余信息,使最终保留的句子具有连贯性;输出最终钢材料专利文本中抽取出的工艺信息。
优选地,所述步骤A包括如下步骤:
步骤A1:分词使用的是效果较好的中文分词工具jieba,对文本中包含的字符进行切分。
步骤A2:根据钢材料领域工艺文本特性总结停用词表,并利用构建好的停用词表去除工艺文本中无用词,这些词主要为介词、助词、连接词等。
步骤A3:使用jieba工具包对工艺文本进行词性标注,去掉文本中所有的非名词,获得工艺文本主题词集合w={w1,w2,…wn}。
优选地,所述步骤B包括如下步骤:
计算主题词集合中每个词语的TF*IDF值。首先计算词频TF值,统计w集合中相关词语在文本中出现的次数;再计算逆文档频率IDF值,统计w集合中相关词语在所有工艺文本或工艺语料库中出现的比例,将计算得到的结果取对数,该占比值越小,IDF的值则越大,表明该词区分于其他词的能力越强;最后计算词的TF-IDF值,词出现的次数越多,得到的TF*IDF值越大。
优选地,所述步骤C包括如下步骤:
将文本预处理后的主题词集合w通过word2vec工具转化为向量表示形式,这里选用其中的CBOW模型并用hierarchical softmax方法完成转化,得到n维的词向量表示,为统计词位置信息以及词语间语义相似度做准备,经过向量化表示得到新的工艺文本主题词集合wc
优选地,所述步骤D包括如下步骤:
步骤D1:文本在抽取词信息的时候,如果当前词语位于句子前部应增加权重信息,根据上步利用CBOW模型得到的词向量得到距离值,将其与位置平均值比较可以得到距离信息,距离句首位置越近权重Pi越大,具体的权重Pi分配公式如下:
Figure BDA0003054769760000031
将步骤B得到的词的TF-IDF值与权重Pi相乘得到TF-IDFnew作为融合词位置信息的结果;
步骤D2:将步骤C中的集合wc得到的剩余词利用余弦相似度计算相似性,公式如下:
Figure BDA0003054769760000032
其中词wx=(v1,v2,…vn)、wy=(v1,v2,…vn)均为通过步骤C中CBOW模型转化的n维向量表示形式;wordsim(wx,wy)的值越大代表词语语义相似度越高,最终去掉语义相似的词语;合并的规则是保留两个词中TF-IDFnew值较大的词;
步骤D3:将剩余词语按TF-IDFnew值排序,根据设定的阈值得到最终该工艺专利文本的主题词集合w,为最终抽取出文本中工艺关键信息提供主题词语义支持。
优选地,所述步骤E包括如下步骤:
将待抽取的专利文本以句子为单位进行分离,整个文本的句子集合表示为S={s1,s2,…sn}。同时以句子为单位,对每个句子进行同步骤A的预处理工作,并利用步骤C中的Word2vec工具中的CBOW模型将所有词转化为词向量表示,并通过拼接方式构成每个句子的矩阵表示Mn*m,n为词向量维度,m为文本中最大句子长度,不足补零向量。
优选地,所述步骤F构建改进TextRank算法的图模型,对经典TextRank算法的改进主要体现在:
1)将句子在文本中所处位置以及主题词信息融入到图模型顶点计算中;
2)图中顶点间边关系的计算不再用原有的共现词公式计算,而是利用步骤F中得到的句子矩阵表示,计算两个矩阵的余弦相似度作为图模型中边关系权重;步骤F分为三步:
步骤F1:计算图模型的顶点句子得分;文本中句子处在不同位置,权重信息应不同,文本中段落的第一句包含的信息往往最多,句子位置信息权重的定义公式为:
Figure BDA0003054769760000041
同时还要考虑句子中是否包含主题词,包含主题词的句子显然更为关键,主题词信息权重的定义公式为:
Figure BDA0003054769760000042
图模型的顶点句子得分最终计算公式为:
Score(i)=P(si)*F(si)*TextRank(si)
其中TextRank(si)为经典TextRank中的方式,公式为:
Figure BDA0003054769760000043
其中wij,wjk为两句子间相似度系数,在下一步G2中进行计算;Input(si)为步骤F中得到的当前文本所有句子集合Sall,Output(sj)表示当前句子所链接的其他句子集合,d表示阻尼数值,表示图中某一顶点跳转到其他任意顶点的概率,优选取0.85;
步骤F2:计算图模型中顶点间边关系权重;经典的TextRank算法主要统计两句子间共现词数量来反映关联性,而忽视了句子间语义信息;利用步骤E中得到的句子矩阵表示,计算两个句子矩阵的余弦相似度作为图模型中边关系权重;计算公式为:
Figure BDA0003054769760000044
步骤F3:训练改进的TextRank图模型,将图中顶点间边关系权重初始化为1,学习率设置为0.001,对所有顶点值及边关系权重不断迭代计算直到模型收敛,此时各顶点的最终得分将作为确定当前工艺文本中关键句的重要依据。
优选地,对步骤F中的所有句子顶点得分进行排序,取topK作为抽取出的工艺关键信息,其中K值为文本所有句子数的10%;并对此K个句子的顺序进行排列,并去除其中的冗余信息,使最终保留的句子具有连贯性;
优选地,所述步骤G包括如下步骤:
步骤G1:对K个句子进行排序,仅仅按照得分顺序从高到低排列会使最后的工艺信息缺乏整体性以及连贯性,排序原则为:
1)当句子中包含关键时刻、步骤等时序信息时,则两个句子由该时序信息决定顺序;
2)主题词原有顺序和句子顺序要相互对应,如果两个句子分别包含了两个不同的主题词信息,则该句子按照主题词原有顺序排序;
3)在句子包含主题词信息相同情况下,则按照原有文本的得分顺序进行排列;按照该方式处理后形成工艺关键信息集合Snew
步骤G2:结合句子和主题词信息并利用MMR算法去除冗余工艺信息,计算公式为:
MR(Si)=α·Sim1(Si,Sm)-(1-α)·max[Sim2(Si,Sj)]
其中α取0.8,相似度Sim1函数、Sim2函数的计算则采用同步骤F中图模型边关系权重的方法,Sm为步骤D中主题词组成的文本信息句,Sim1函数反映当前语句与文本主题词所组成的文本信息句间的关联度,Sim2函数则将当前语句和工艺关键信息集合Snew中包含的其他句子比较,并取最大值,可以反映出与已选工艺关键信息的差异性;
计算每个句子的MR值,当MR(Si)≤0.85时则保留该条语句,去除高于此值的语句,最终抽取出该钢材料专利文本中的工艺关键信息。
一种计算机系统,其程序执行本发明基于改进TextRank算法的钢材料专利文本中工艺信息抽取方法。
本发明与现有技术相比较,具有如下显而易见的突出实质性特点和显著优点:
1.本发明相较于神经网络算法不需要构造大型语料库,同时训练时间短,专利文本中工艺信息抽取速度较快,适合于实际使用;
2.本发明在文本预处理时,针对钢材料领域专利文本的特殊性,构造专用停用词表,相较于使用通用停用词表,可以有效提升最终抽取出的工艺信息准确度;
3.经典的TextRank算法在构建图模型时,顶点得分和边关系权重计算均忽视了文本的篇章结构、文本主题以及文本中句子的位置和语义信息;本发明对经典TextRank算法进行改进,首先将句子在文本中所处位置以及主题词信息融入到图模型顶点计算中;其次图中顶点间边关系的计算不再用原有的共现词公式计算,而是利用包含句子语义信息的矩阵并通过计算两个矩阵的余弦相似度,最终作为图模型中边关系权重;
4.在利用改进TextRank算法获得topK关键句后,本发明还结合句子和主题词信息并利用MMR算法来去除冗余工艺信息,使最后从钢材料专利文本中抽取出的工艺信息能够较好概括全文,同时保持语句间的连贯性。
附图说明
图1为本发明的基于改进TextRank算法的钢材料专利中工艺信息抽取方法的流程示意图。
具体实施方式
以下结合具体的实施例子对上述方案做进一步说明,本发明的优选实施例详述如下:
实施例一:
在本实施例中,参见图1,一种基于改进TextRank算法的钢材料专利文本中工艺信息抽取方法,包括以下步骤:
步骤A:对钢材料工艺专利文献文本进行预处理,主要包括分词、去停用词以及词性标注,得到初步筛选出的主题词集合w={w1,w2,…wn};
步骤B:计算主题词集合中每个词语的TF*IDF值;首先计算词频TF值,统计w集合中相关词语在文本中出现的次数;再计算逆文档频率IDF值;其中,TF表示主题词集合中每个词语出现的频率值,其中,IDF表示逆文本频率值,由总文本数量除以包含该词语的文本数量,再将得到的商取以10为底的对数得到;
步骤C:将文本预处理后的主题词集合w通过word2vec工具转化为向量表示形式;选用其中的CBOW模型,并用hierarchical softmax方法完成转化,采用n维的词向量表示,得到新的工艺文本主题词集合wc
步骤D:增加词位置信息以及合并语义相似词,目的是为了得到最终关键词的排序信息;
步骤E:将待抽取的专利文本以句子为单位进行分离,整个文本的句子集合表示为S={s1,s2,…sn};同时以句子为单位,对每个句子进行同步骤A的预处理工作,并利用步骤C中的Word2vec工具中的CBOW模型将所有词转化为词向量表示,并通过拼接方式构成每个句子的矩阵表示Mn*m,n为词向量维度,m为文本中最大句子长度,不足补零向量;
步骤F:构建改进TextRank算法的图模型,设置初始值进行迭代直至收敛.
步骤G:对步骤F中的所有句子顶点得分进行排序,取topK作为抽取出的工艺关键信息,其中K值为文本所有句子数的10%;并对此K个句子的顺序进行排列,并去除其中的冗余信息,使最终保留的句子具有连贯性。
输出最终钢材料专利文本中抽取出的工艺信息。
本实施例方法相较于神经网络算法不需要构造大型语料库,同时训练时间短,专利文本中工艺信息抽取速度较快,适合于实际使用;本实施例方法在文本预处理时,针对钢材料领域专利文本的特殊性,构造专用停用词表,相较于使用通用停用词表,可以有效提升最终抽取出的工艺信息准确度。
实施例二:
本实施例与实施例一基本相同,特别之处在于:
在本实施例中,参见图1,
在本发明的一个可选实施例中,上述步骤A在获取输入文本后,预处理步骤具体为:
步骤A1:分词使用的是效果较好的中文分词工具jieba,对文本中包含的字符进行切分;
步骤A2:根据钢材料领域工艺文本特性总结停用词表,并利用构建好的停用词表去除工艺文本中无用词,这些词主要为介词、助词、连接词;
步骤A3:使用jieba工具包对工艺文本进行词性标注,去掉文本中所有的非名词,获得工艺文本主题词集合w={w1,w2,…wn};
步骤B具体为:首先计算词频TF值,统计w集合中相关词语在文本中出现的次数;再计算逆文档频率IDF值,统计w集合中相关词语在所有工艺文本或工艺语料库中出现的比例,将计算得到的结果取对数,该占比值越小,IDF的值则越大,表明该词区分于其他词的能力越强;最后计算词的TF-IDF值,词出现的次数越多,得到的TF*IDF值越大;
步骤C具体为:选用其中的CBOW模型并用hierarchical softmax方法完成转化,得到n维的词向量表示,为统计词位置信息以及词语间语义相似度做准备,经过向量化表示得到新的工艺文本主题词集合wc
步骤D具体分为三步:
步骤D1:文本在抽取词信息的时候,如果当前词语位于句子前部应增加权重信息,根据上步利用CBOW模型得到的词向量得到距离值,将其与位置平均值比较可以得到距离信息,距离句首位置越近权重Pi越大,具体的权重分配公式如下:
Figure BDA0003054769760000071
将在步骤B中得到的词的TF-IDF值与权重Pi相乘得到TF-IDFnew作为融合词位置信息的结果;
步骤D2:将集合wc得到的剩余词利用余弦相似度计算相似性,公式如下:
Figure BDA0003054769760000072
其中词wx=(v1,v2,…vn)、wy=(v1,v2,…vn)均为通过步骤C中CBOW模型转化的n维向量表示形式;wordsim(wx,wy)的值越大代表词语语义相似度越高,最终去掉语义相似的词语;合并的规则是保留两个词中TF-IDFnew值较大的词;
步骤D3:将剩余词语按TF-IDFnew值排序,根据设定的阈值得到最终该工艺专利文本的主题词集合w,为最终抽取出文本中工艺关键信息提供主题词语义支持;
步骤E具体为:将待抽取的专利文本以句子为单位进行分离,并对每个句子构建其矩阵表示形式;整个文本的句子集合表示为S={s1,s2,…sn};同时以句子为单位,对每个句子进行同步骤A的预处理工作,并利用步骤C中的Word2vec工具中的CBOW模型将所有词转化为词向量表示,并通过拼接方式构成每个句子的矩阵表示Mn*m,n为词向量维度,m为文本中最大句子长度,不足补零向量;
步骤F具体分为三步:
步骤F1:计算图模型的顶点句子得分;文本中句子处在不同位置,权重信息应不同,文本中段落的第一句包含的信息往往最多,句子位置信息权重的定义公式为:
Figure BDA0003054769760000081
同时还要考虑句子中是否包含主题词,包含主题词的句子显然更为关键,主题词信息权重的定义公式为:
Figure BDA0003054769760000082
图模型的顶点句子得分最终计算公式为:
Score(i)=P(si)*F(si)*TextRank(si)
其中TextRank(si)为经典TextRank中的方式,公式为:
Figure BDA0003054769760000083
其中wij,wjk为两句子间相似度系数,在下一步G2中进行计算;Input(si)为步骤F中得到的当前文本所有句子集合Sall,Output(sj)表示当前句子所链接的其他句子集合,d表示阻尼数值,表示图中某一顶点跳转到其他任意顶点的概率,优选取0.85;
步骤F2:计算图模型中顶点间边关系权重;经典的TextRank算法主要统计两句子间共现词数量来反映关联性,而忽视了句子间语义信息;利用步骤E中得到的句子矩阵表示,计算两个句子矩阵的余弦相似度作为图模型中边关系权重;计算公式为:
Figure BDA0003054769760000091
步骤F3:训练改进的TextRank图模型,将图中顶点间边关系权重初始化为1,学习率设置为0.001,对所有顶点值及边关系权重不断迭代计算直到模型收敛,此时各顶点的最终得分将作为确定当前工艺文本中关键句的重要依据;
步骤G具体分为两步:
步骤G1:对K个句子进行排序,仅仅按照得分顺序从高到低排列会使最后的工艺信息缺乏整体性以及连贯性,本发明的排序原则为:
1)当句子中包含关键时刻、步骤等时序信息时,则两个句子由该时序信息决定顺序;
2)主题词原有顺序和句子顺序要相互对应,如果两个句子分别包含了两个不同的主题词信息,则该句子按照主题词原有顺序排序;
3)在句子包含主题词信息相同情况下,则按照原有文本的得分顺序进行排列。按照该方式处理后形成工艺关键信息集合Snew
步骤G2:结合句子和主题词信息并利用MMR算法去除冗余工艺信息,计算公式为:
MR(Si)=α·Sim1(Si,Sm)-(1-α)·max[Sim2(Si,Sj)]
其中α取0.8,相似度Sim1函数、Sim2函数的计算则采用同步骤F中图模型边关系权重的方法,Sm为步骤D中主题词组成的文本信息句,Sim1函数反映当前语句与文本主题词所组成的文本信息句间的关联度,Sim2函数则将当前语句和工艺关键信息集合Snew中包含的其他句子比较,并取最大值,可以反映出与已选工艺关键信息的差异性;
计算每个句子的MR值,当MR(Si)≤0.85时则保留该条语句,去除高于此值的语句,最终抽取出该钢材料专利文本中的工艺关键信息。
上述实施例钢材料领域专利文本中工艺相关信息的抽取方法,对输入的工艺相关文本进行预处理;计算集合中每个词语的TF*IDF值;将集合中的词语通过word2vec工具转化为向量表示形式;增加词位置信息以及合并语义相似词,得到最终文本关键词集合;对文本中每个句子构建其矩阵表示;构建改进TextRank算法的图模型并进行迭代直至收敛,改进之处在于将句子在文本中所处位置和第四步得到的主题词信息融入到图模型顶点计算中,图模型中边关系权重则是通过计算矩阵的余弦相似度;取上一步模型最终得分topK的句子按排序原则进行排列并去除其中的冗余信息,使最终保留的工艺信息具有连贯性。上述实施例方法简便易操作,效果好。
上面对本发明实施例结合附图进行了说明,但本发明不限于上述实施例,还可以根据本发明的发明创造的目的做出多种变化,凡依据本发明技术方案的精神实质和原理下做的改变、修饰、替代、组合或简化,均应为等效的置换方式,只要符合本发明的发明目的,只要不背离本发明的技术原理和发明构思,都属于本发明的保护范围。

Claims (6)

1.一种基于改进TextRank算法的钢材料专利文本中工艺信息抽取方法,其特征在于,包括以下步骤:
步骤A:对钢材料工艺专利文献文本进行预处理,主要包括分词、去停用词以及词性标注,得到初步筛选出的主题词集合w={w1,w2,...wn};
步骤B:计算主题词集合中每个词语的TF*IDF值;首先计算词频TF值,统计w集合中相关词语在文本中出现的次数;再计算逆文档频率IDF值;其中,TF表示主题词集合中每个词语出现的频率值,其中,IDF表示逆文本频率值,由总文本数量除以包含该词语的文本数量,再将得到的商取以10为底的对数得到;
步骤C:将文本预处理后的主题词集合w通过word2vec工具转化为向量表示形式;选用其中的CBOW模型,并用hierarchical softmax方法完成转化,采用n维的词向量表示,得到新的工艺文本主题词集合wc
步骤D:增加词位置信息以及合并语义相似词,目的是为了得到最终关键词的排序信息;
步骤E:将待抽取的专利文本以句子为单位进行分离,整个文本的句子集合表示为S={s1,s2,...sn};同时以句子为单位,对每个句子进行同步骤A的预处理工作,并利用步骤C中的Word2vec工具中的CBOW模型将所有词转化为词向量表示,并通过拼接方式构成每个句子的矩阵表示Mn*m,n为词向量维度,m为文本中最大句子长度,不足补零向量;
步骤F:构建改进TextRank算法的图模型,设置初始值进行迭代直至收敛.
步骤G:对步骤F中的所有句子顶点得分进行排序,取topK作为抽取出的工艺关键信息,其中K值为文本所有句子数的10%;并对此K个句子的顺序进行排列,并去除其中的冗余信息,使最终保留的句子具有连贯性;输出最终钢材料专利文本中抽取出的工艺信息。
2.根据权利要求1中所述基于改进TextRank算法的钢材料专利文本中工艺信息抽取方法,其特征在于,所述步骤A包括如下步骤:
步骤A1:分词使用的是效果较好的中文分词工具jieba,对文本中包含的字符进行切分。
步骤A2:根据钢材料领域工艺文本特性总结停用词表,并利用构建好的停用词表去除工艺文本中无用词,这些词主要为介词、助词、连接词等。
步骤A3:使用jieba工具包对工艺文本进行词性标注,去掉文本中所有的非名词,获得工艺文本主题词集合w={w1,w2,...wn}。
3.根据权利要求1中所述基于改进TextRank算法的钢材料专利文本中工艺信息抽取方法,其特征在于,所述步骤D包括如下步骤:
步骤D1:文本在抽取词信息的时候,如果当前词语位于句子前部应增加权重信息,根据上步利用CBOW模型得到的词向量得到距离值,将其与位置平均值比较可以得到距离信息,距离句首位置越近权重Pi越大,具体的权重Pi分配公式如下:
Figure FDA0003054769750000021
将步骤B得到的词的TF-IDF值与权重Pi相乘得到TF-IDFnew作为融合词位置信息的结果;
步骤D2:将步骤C中的集合wc得到的剩余词利用余弦相似度计算相似性,公式如下:
Figure FDA0003054769750000022
其中词wx=(v1,v2,...vn)、wy=(v1,v2,...vn)均为通过步骤C中CBOW模型转化的n维向量表示形式;wordsim(wx,wy)的值越大代表词语语义相似度越高,最终去掉语义相似的词语;合并的规则是保留两个词中TF-IDFnew值较大的词;
步骤D3:将剩余词语按TF-IDFnew值排序,根据设定的阈值得到最终该工艺专利文本的主题词集合w,为最终抽取出文本中工艺关键信息提供主题词语义支持。
4.根据权利要求1中所述基于改进TextRank算法的钢材料专利文本中工艺信息抽取方法,其特征在于,所述步骤F对经典TextRank算法的改进主要体现在:
1)将句子在文本中所处位置以及主题词信息融入到图模型顶点计算中;
2)图中顶点间边关系的计算不再用原有的共现词公式计算,而是利用步骤F中得到的句子矩阵表示,计算两个矩阵的余弦相似度作为图模型中边关系权重;步骤F可分为三步:
步骤F1:计算图模型的顶点句子得分;文本中句子处在不同位置,权重信息应不同,文本中段落的第一句包含的信息往往最多,句子位置信息权重的定义公式为:
Figure FDA0003054769750000023
同时还要考虑句子中是否包含主题词,包含主题词的句子显然更为关键,主题词信息权重的定义公式为:
Figure FDA0003054769750000024
图模型的顶点句子得分最终计算公式为:
Score(i)=P(si)*F(si)*TextRank(si)
其中TextRank(si)为经典TextRank中的方式,公式为:
Figure FDA0003054769750000031
其中wij,wjk为两句子间相似度系数,在下一步G2中进行计算;Input(si)为步骤F中得到的当前文本所有句子集合Sall,Output(sj)表示当前句子所链接的其他句子集合,d表示阻尼数值,表示图中某一顶点跳转到其他任意顶点的概率,优选取0.85;
步骤F2:计算图模型中顶点间边关系权重;经典的TextRank算法主要统计两句子间共现词数量来反映关联性,而忽视了句子间语义信息;利用步骤E中得到的句子矩阵表示,计算两个句子矩阵的余弦相似度作为图模型中边关系权重;计算公式为:
Figure FDA0003054769750000032
步骤F3:训练改进的TextRank图模型,将图中顶点间边关系权重初始化为1,学习率设置为0.001,对所有顶点值及边关系权重不断迭代计算直到模型收敛,此时各顶点的最终得分将作为确定当前工艺文本中关键句的重要依据。
5.根据权利要求1中所述基于改进TextRank算法的钢材料专利文本中工艺信息抽取方法,其特征在于,所述步骤G包括如下步骤:
步骤G1:对K个句子进行排序,仅仅按照得分顺序从高到低排列会使最后的工艺信息缺乏整体性以及连贯性,排序原则为:
1)当句子中包含关键时刻、步骤等时序信息时,则两个句子由该时序信息决定顺序;
2)主题词原有顺序和句子顺序要相互对应,如果两个句子分别包含了两个不同的主题词信息,则该句子按照主题词原有顺序排序;
3)在句子包含主题词信息相同情况下,则按照原有文本的得分顺序进行排列;按照该方式处理后形成工艺关键信息集合Snew
步骤G2:结合句子和主题词信息并利用MMR算法去除冗余工艺信息,计算公式为:
MR(Si)=α·Sim1(Si,Sm)-(1-α)·max[Sim2(Si,Sj)]
其中α取0.8,相似度Sim1函数、Sim2函数的计算则采用同步骤F中图模型边关系权重的方法,Sm为步骤D中主题词组成的文本信息句,Sim1函数反映当前语句与文本主题词所组成的文本信息句间的关联度,Sim2函数则将当前语句和工艺关键信息集合Snew中包含的其他句子比较,并取最大值,可以反映出与已选工艺关键信息的差异性;
计算每个句子的MR值,当MR(Si)≤0.85时则保留该条语句,去除高于此值的语句,最终抽取出该钢材料专利文本中的工艺关键信息。
6.一种计算机系统,其特征在于,其程序执行权利要求1中所述基于改进TextRank算法的钢材料专利文本中工艺信息抽取方法。
CN202110496876.XA 2021-05-07 2021-05-07 一种基于改进TextRank算法的钢材料专利文本中工艺信息抽取方法及其系统 Pending CN113342928A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110496876.XA CN113342928A (zh) 2021-05-07 2021-05-07 一种基于改进TextRank算法的钢材料专利文本中工艺信息抽取方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110496876.XA CN113342928A (zh) 2021-05-07 2021-05-07 一种基于改进TextRank算法的钢材料专利文本中工艺信息抽取方法及其系统

Publications (1)

Publication Number Publication Date
CN113342928A true CN113342928A (zh) 2021-09-03

Family

ID=77469846

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110496876.XA Pending CN113342928A (zh) 2021-05-07 2021-05-07 一种基于改进TextRank算法的钢材料专利文本中工艺信息抽取方法及其系统

Country Status (1)

Country Link
CN (1) CN113342928A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114912446A (zh) * 2022-04-29 2022-08-16 中证信用增进股份有限公司 一种关键词抽取方法、装置及储存介质
CN118211131A (zh) * 2024-05-21 2024-06-18 之江实验室 一种适用于金融大模型的文本数据预处理方法及系统
CN118445403A (zh) * 2024-07-08 2024-08-06 浪潮软件科技有限公司 一种基于机器学习的热点问题发现方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110825877A (zh) * 2019-11-12 2020-02-21 中国石油大学(华东) 一种基于文本聚类的语义相似度分析方法
CN111090731A (zh) * 2019-12-20 2020-05-01 山大地纬软件股份有限公司 基于主题聚类的电力舆情摘要提取优化方法及系统
KR20200109417A (ko) * 2019-03-12 2020-09-23 동국대학교 산학협력단 키워드 자동 추출 방법 및 장치
CN111737453A (zh) * 2020-05-29 2020-10-02 南京硅基智能科技有限公司 一种基于无监督的多模型融合抽取式文本摘要方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200109417A (ko) * 2019-03-12 2020-09-23 동국대학교 산학협력단 키워드 자동 추출 방법 및 장치
CN110825877A (zh) * 2019-11-12 2020-02-21 中国石油大学(华东) 一种基于文本聚类的语义相似度分析方法
CN111090731A (zh) * 2019-12-20 2020-05-01 山大地纬软件股份有限公司 基于主题聚类的电力舆情摘要提取优化方法及系统
CN111737453A (zh) * 2020-05-29 2020-10-02 南京硅基智能科技有限公司 一种基于无监督的多模型融合抽取式文本摘要方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张志尧: "基于TF-IDF与TextRank的自动摘要抽取", 《中国优秀硕士学位论文全文数据库 (基础科学辑)》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114912446A (zh) * 2022-04-29 2022-08-16 中证信用增进股份有限公司 一种关键词抽取方法、装置及储存介质
CN118211131A (zh) * 2024-05-21 2024-06-18 之江实验室 一种适用于金融大模型的文本数据预处理方法及系统
CN118211131B (zh) * 2024-05-21 2024-07-30 之江实验室 一种适用于金融大模型的文本数据预处理方法及系统
CN118445403A (zh) * 2024-07-08 2024-08-06 浪潮软件科技有限公司 一种基于机器学习的热点问题发现方法及系统

Similar Documents

Publication Publication Date Title
CN107862027B (zh) 检索意图识别方法、装置、电子设备及可读存储介质
CN110378409B (zh) 一种基于要素关联注意力机制的汉越新闻文档摘要生成方法
CN109960724B (zh) 一种基于tf-idf的文本摘要方法
CN113342928A (zh) 一种基于改进TextRank算法的钢材料专利文本中工艺信息抽取方法及其系统
WO2019196314A1 (zh) 文本信息相似度匹配方法、装置、计算机设备及存储介质
CN109960786A (zh) 基于融合策略的中文词语相似度计算方法
CN107562717B (zh) 一种基于Word2Vec与词共现相结合的文本关键词抽取方法
CN111125349A (zh) 基于词频和语义的图模型文本摘要生成方法
CN109657053B (zh) 多文本摘要生成方法、装置、服务器及存储介质
CN102411621A (zh) 一种基于云模型的中文面向查询的多文档自动文摘方法
CN111859961B (zh) 一种基于改进TopicRank算法的文本关键词抽取方法
CN112818661B (zh) 一种专利技术关键词非监督提取方法
CN114065758A (zh) 一种基于超图随机游走的文档关键词抽取方法
CN103559193A (zh) 一种基于选择单元的主题建模方法
CN113626584A (zh) 一种自动文本摘要生成方法、系统、计算机设备和存储介质
CN111694927A (zh) 一种基于改进词移距离算法的文档自动评阅方法
CN111984782A (zh) 藏文文本摘要生成方法和系统
CN115906805A (zh) 基于词细粒度的长文本摘要生成方法
CN112148886A (zh) 一种内容知识图谱的构建方法及系统
CN116304020A (zh) 一种基于义原分析和跨度特征的工业文本实体抽取方法
CN113934835A (zh) 结合关键词和语义理解表征的检索式回复对话方法及系统
Zheng et al. Weakly-supervised image captioning based on rich contextual information
CN112115256A (zh) 一种融入中文笔画信息的新闻文本摘要生成的方法及装置
CN111639189A (zh) 一种基于文本内容特征的文本图构建方法
CN108427769B (zh) 一种基于社交网络的人物兴趣标签提取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210903

RJ01 Rejection of invention patent application after publication