CN107193803A - 一种基于语义的特定任务文本关键词提取方法 - Google Patents

一种基于语义的特定任务文本关键词提取方法 Download PDF

Info

Publication number
CN107193803A
CN107193803A CN201710383289.3A CN201710383289A CN107193803A CN 107193803 A CN107193803 A CN 107193803A CN 201710383289 A CN201710383289 A CN 201710383289A CN 107193803 A CN107193803 A CN 107193803A
Authority
CN
China
Prior art keywords
word
mrow
text
msub
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710383289.3A
Other languages
English (en)
Other versions
CN107193803B (zh
Inventor
吴俊杰
孙运动
袁石
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dongfang Kenuo Technology Development Co Ltd
Original Assignee
Beijing Dongfang Kenuo Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dongfang Kenuo Technology Development Co Ltd filed Critical Beijing Dongfang Kenuo Technology Development Co Ltd
Priority to CN201710383289.3A priority Critical patent/CN107193803B/zh
Publication of CN107193803A publication Critical patent/CN107193803A/zh
Application granted granted Critical
Publication of CN107193803B publication Critical patent/CN107193803B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于语义的特定任务文本关键词提取方法,属于自然语言处理领域。首先,从相关文本中提取某特定任务的主题词,利用语义表示技术转换成语义向量;其次,利用分词工具对待提取关键词的文本进行分词,词性标注和筛选;然后,将筛选后的词语转化成语义向量,并计算每个筛选后词语与特定任务主题词的相似度;最后,以词语为节点构建词语网络图,基于词语相似度计算每个词语的重要度,从而提取词语网络图中重要词语。本发明综合考虑词语在文本中的语义特征和结构特征,适用于面向特定任务的文本关键词提取,实现从文本中获取重要信息的功能,为文本挖掘、自然语言处理、知识工程等领域提供重要的技术支持。

Description

一种基于语义的特定任务文本关键词提取方法
技术领域
本发明属于自然语言处理领域,涉及信息抽取技术,具体是一种基于语义的特定任务文本关键词提取方法。
背景技术
随着社会化媒体的飞速发展,人们每时每刻都接收和处理来自于物理世界和信息世界的大量信息。但是,这些信息数量大、结构复杂以及无意义信息多等特点,导致人们不可能对每一条接收到的信息都进行加工和处理,识别其中有价值的部分。因此,如何从文本中获取有用的信息是实现快速、准确地处理信息的关键。
在现实世界中,关键词是对有用信息最直观的表示,所以如何从文本中获取人们关注的关键词成为当前迫切需要解决的问题。从文本中获取人们关注的关键词,一方面可以帮助人们快速地理解信息的内容,另一方面还可以为文本挖掘、自然语言处理、知识工程等领域提供重要的技术支持,具有非常广泛的应用。例如,在营销领域,从顾客对某个产品的评论中提取关键词,可以揭示顾客所关注的方面,为生产更契合顾客需求的产品提供必要的支撑;在舆情监控领域,从网上言论中提取关键词,可以掌握舆情发展的最新态势,为政府部门的舆论监控与引导提供必要的支持。
发明内容
本发明针对上述问题,提出了一种基于语义的特定任务文本关键词提取方法;考虑待提取关键词文本与特定任务的语义关系,通过计算语义相似度来衡量候选关键词与特定任务的语义相关度,再考虑待提取关键词文本的结构特征,以词语网络图的形式表示文本的词语结构,最后利用网络重要度算法,结合词语的文本结构特征和与特定任务的语义特征,从词语网络图中提取重要度高的词语。
具体步骤如下:
步骤一、针对某特定任务,通过网络爬虫采集与该任务相关的文本,作为该任务的语料;
步骤二、利用文档主题生成模型LDA,生成语料中每篇文档的主题以及每个主题下对应的词语;
步骤三、分别计算每个词语的权重,按照权重将词语从高到低排序,选取前K个词语作为该特定任务相关语料的主题词;
其中,Weightr表示词语r的权重;WTdr表示通过LDA模型计算出的词语r在文档d中的代表主题的概率,C表示词语r出现的文档数量。
步骤四、将K个主题词利用word2vector技术,将每个主题词表示成不同的语义向量;
步骤五、针对待提取关键词的文本,进行分词和词语筛选,将每条文本转化成若干词语的集合;
分词的过程中对每一个词语进行词性标注;
词语筛选包括对分词后的词语进行词性筛选和词频筛选;
步骤六、针对得到的所有词语集合,以词语为节点,以两个词语共同出现的次数作为边,构建词语网络图;
步骤七、将待提取关键词的文本分词和筛选后的每个词语,利用word2vector技术表示成语义向量;
步骤八、针对待提取关键词的文本的每个词语的语义向量,计算与特定任务的每个主题词的语义向量之间的语义相似度。
两个词语向量Di和Dj之间的语义相似度计算公式如下:
Di是指待提取关键词的文本筛选后的词语i表达成的词语语义向量;Dj是指特定任务的词语j表达成的词语语义向量;wik表示词语语义向量Di中第k个元素的值,wjk表示词语语义向量Dj中第k个元素的值,n代表语义向量的维度,即包含的元素个数。
步骤九、针对待提取关键词文本筛选后的词语i,分别计算与K个主题词语义相似度的加权算术平均值,并将该平均值作为词语i与特定任务的语义相似度;
Si-task表示待提取关键词的文本筛选后的词语i与该特定任务的语义相似度;Si-j表示词语i 与K个主题词中的第j个主题词的语义相似度;
步骤十、针对词语网络图,利用每个词语与特定任务的语义相似度,计算该词语的重要度,并根据重要度将词语降序排列,从中选取前T个词语作为待提取文本的关键词。
重要度用每个词语的权重来体现;计算公式如下:
WS(Vi)表示节点Vi的权重,{Vm}i表示与节点Vi有边相连的节点集合,d表示阻尼系数。fim表示节点Vi和Vm之间边的权重,WS(Vm)表示节点Vm的权重。Z表示归一化因子,表示与节点 Vi相连的边的权重之和,计算公式如下所示:
本发明的优点在于:
1)、一种基于语义的特定任务文本关键词提取方法,利用外部语料对特定任务主题词进行语义扩充,实现对特定任务主题词语义特征的刻画,并用语义向量表示词语的语义特征,再综合考虑词语的语义特征和主题特征提取文本关键词。
2)、一种基于语义的特定任务文本关键词提取方法,既考虑了文本关键词与任务的契合关系,又考虑了待提取关键词文本的内部结构。一方面,通过计算候选词语与特定任务主题词的语义向量相似度,实现对候选关键词和任务主题词的语义相似度的刻画。另一方面,根据词语间的共现关系,考虑文本内部结构对候选词语权重的影响,在计算候选词语权重时加入与该节点共同出现的词语的权重。
附图说明
图1为本发明一种基于语义的特定任务文本关键词提取方法的原理图;
图2为本发明一种基于语义的特定任务文本关键词提取方法的流程图。
具体实施例
下面结合附图对本发明的具体实施方法进行详细说明。
本发明一种基于语义的特定任务文本关键词提取方法,首先考虑待提取关键词文本的语义特征,计算文本与特定任务主题词的语义相似度,再考虑待提取关键词文本的结构特征,构建词语网络图,最后利用搜索引擎网页排序技术计算每一个词语的重要度,并根据重要度提取网络图中重要度较高的词语。
如图1所示,具体为:首先,利用搜索引擎搜索某一特定任务相关语料,从与特定任务相关的语料中提取主题词,并利用语义表示技术,将主题词转换成语义向量;其次,利用分词工具对待提取关键词的文本进行预处理;以词语为节点,构建词语网络图,再利用语义表示技术,计算文本与特定任务的主题词之间的语义相似度。再基于词语相似度,利用搜索引擎网页排序技术计算每个词语的重要度,并根据重要度提取词语网络图中的重要词语。
如图2所示,具体实施步骤如下:
步骤一:针对某特定任务,通过网络爬虫采集与该任务相关的文本,作为该任务的语料;
特定任务相关的语料是在关键词提取任务开始之前通过网络爬虫技术采集到的。例如,对于“提取消费倾向的关键词”的任务,需要从互联网或者其他渠道采集与“消费倾向”相关的文本,作为与该任务相关的语料。
步骤二、利用文档主题生成模型LDA,生成语料中每篇文档的主题以及每个主题下对应的词语;
针对特定任务相关的语料,利用LDA(Latent Dirichlet Allocation)文档主题生成模型,生成每篇文档的N个主题以及每个主题下对应的M个词语。
在本发明中,使用gensim中的LDA工具进行主题词的提取,根据以下网址提取主题词, http://radimrehurek.com/gensim/models/ldamodel.html;其中,文档主题数N取10,每个主题下对应的词语数M取10。每篇文档都通过LDA算法表示成了由N×M个词语组成的集合。
步骤三、分别计算每个词语的权重,按照权重将词语从高到低排序,选取前K个词语作为该特定任务相关语料的主题词;
其中,Weightr表示词语r的权重,WTdr表示通过LDA模型计算出的词语r在文档d中的代表主题的概率,C表示词语r出现的文档数量。
本发明中K取10。
步骤四、将K个主题词利用word2vector技术,将每个主题词表示成不同的语义向量;
本步骤使用gensim中的word2vector工具将词语转化成语义向量,参考具体网址如下: http://radimrehurek.com/gensim/models/word2vec.html。
步骤五、针对待提取关键词的文本,进行预处理,将每条文本转化成若干词语的集合;
预处理包括以下两个方面的内容
首先,对待提取关键词的文本进行分词。分词的目的是为了将待提取关键词的文本转化成一个个词语。根据汉语语言的特点,能反映文本语义信息的词语都是实词。因此,在分词的过程中需要对每一个词语进行词性标注。
然后,对分词之后的结果进行两种特殊处理,一种是词性筛选,另一种是词频筛选。
词性筛选是指将分词结果中的名词、形容词、动词保留下来,将其他词性的词语去掉。词频筛选是指将分词结果中的低频词和高频词去掉。
低频词很可能是只在少数新闻评论中出现的,不具有代表性。高频词有两种可能:一种是大部分新闻评论都出现的词语;另一类是错误分词以后产生的分词碎片。
进行词性和词频筛选之后可以提高本发明处理数据的精度。
步骤六、针对得到的所有词语集合,以词语为节点,以两个词语共同出现的次数作为边,构建词语网络图;
将待提取关键词的文本转化成词语网络图,对于待提取关键词的文本,本步骤利用一个长度为L的滑动窗口,从第一个词语开始,向后滑动。滑动窗口的长度是指其覆盖的词语的数量,本发明中L取4。若两个词语共同出现在一个滑动窗口中,则这两个词语共同出现的次数加1。
例如,一个待提取关键词的文本经过预处理后得到的结果为“高速公路,司机,超速,行驶,受到,交警,处罚”,基于上述结果构建词语网络图。对于结果中的每个词语,在网络图中都是一个节点。利用长度L=4的滑动窗口,从第一个词语“高速公路”开始,滑动窗口覆盖“高速公路,司机,超速,行驶”这4个词语,则这四个词语中每两个词语的共同出现次数加1。然后滑动窗口向后滑动1个词语,覆盖“司机,超速,行驶,受到”,则这四个词语中每两个词语的共同出现次数加1。以此类推,直到滑动窗口到达文档最后一个词语,则停止计算。
步骤七、将待提取关键词的文本分词和筛选后的每个词语,利用word2vector技术表示成语义向量;
本步骤仍然使用gensim中的word2vector工具将词语转化成语义向量,参考网址如下: http://radimrehurek.com/gensim/models/word2vec.html。
步骤八、针对待提取关键词的文本的每个词语的语义向量,计算与特定任务的每类主题词的语义向量之间的语义相似度。
本发明考虑提取的关键词与特定任务的语义关系,首先利用语义表示技术将候选关键词和特定任务的主题词转化成语义向量,然后计算候选关键词和特定任务主题词语义向量之间余弦相似度,用余弦相似度作为候选关键词与特定任务的语义相似度,以实现与特定任务相关的关键词提取。
余弦相似度是信息检索中常用的相似度的计算方式,假如有两个词语i和j,词语i表达成文件向量Di=(wi1,wi2,...,win),词语j表达成Dj=(wj1,wj2,...,wjn),则这两个词语的余弦相似度计算公式为:
Di是指待提取关键词的文本筛选后的词语i表达成的词语语义向量;Dj是指特定任务的词语j表达成的词语语义向量;wik表示词语语义向量Di中第k个元素的值,wjk表示词语语义向量Dj中第k个元素的值,n代表语义向量的维度,即包含的元素个数。
余弦相似度最小值为0,最大值为1,其几何意义是计算两文件或词语向量在高纬度空间中的夹角,夹角越小,余弦相似度越大(角度为0°时,相似度为1);夹角越大,余弦相似度越小(角度为90°时,相似度为0)。
对于待提取关键词的文本预处理后的每个词语,本步骤利用余弦相似度计算公式计算这个词语与特定任务的每个主题词之间的语义相似度。例如,特定任务的10个主题词,对于待提取关键词的文本预处理后的每个词语,本步骤需要分别计算该词语与特定任务的10个主题词的语义相似度,得到10个余弦相似度的值。
步骤九、针对待提取关键词文本筛选后的词语i,分别计算与K类主题词语义相似度的加权算术平均值,并将该平均值作为词语i与特定任务的语义相似度;
计算公式如下所示:
Si-task表示待提取关键词的文本筛选后的词语i与该特定任务的语义相似度;Si-j表示词语i 与K个主题词中的第j个主题词的语义相似度;Weightj表示第j个主题词的权重;K表示特定任务的主题词的数量。
步骤十、针对词语网络图,利用每个词语与特定任务的语义相似度,计算该词语的重要度,并根据重要度将词语降序排列,从中选取前T个词语作为待提取文本的关键词。
提取构建的词语网络图中的重要词语,首先计算词语网络图中每个词语的重要度,并根据重要度对词语进行降序排列,从中选出重要度较高的T个词语作为待提取文本的关键词,本发明中T取10:
本步骤中计算词语网络图中每个词语的重要度的方法是利用搜索引擎网页排序算法—Pagerank算法基础上进行了改进,计算网络图中词语的重要度,并根据重要度提取关键词。具体步骤如下:
根据词语网络图,利用如下公式对每个词语的权重进行迭代计算。
WS(Vi)表示节点Vi的权重,{Vm}i表示与节点Vi有边相连的节点集合,d表示阻尼系数,取值范围为0到1,代表从图中某一特定点指向其他任意点的概率,一般取值为0.85。fim表示节点Vi和Vm之间边的权重,WS(Vm)表示节点Vm的权重。Z表示归一化因子,表示与节点Vi相连的边的权重之和,计算公式如下所示:
本发明使用networkx中的pagerank计算包迭代计算词语网络图中的节点权重,参考网址如下:http://networkx.github.io/。
本发明利用语义表示技术和搜索引擎网页排序技术,综合考虑词语在文本中的语义特征和结构特征,适用于面向特定任务的文本关键词提取,实现从文本中获取重要信息的功能,为文本挖掘、自然语言处理、知识工程等领域提供重要的技术支持。

Claims (7)

1.一种基于语义的特定任务文本关键词提取方法,其特征在于,具体步骤如下:
步骤一、针对某特定任务,通过网络爬虫采集与该任务相关的文本,作为该任务的语料;
步骤二、利用文档主题生成模型LDA,生成语料中每篇文档的主题以及每个主题下对应的词语;
步骤三、分别计算每个词语的权重,按照权重将词语从高到低排序,选取前K个词语作为该特定任务相关语料的主题词;
<mrow> <msub> <mi>Weight</mi> <mi>r</mi> </msub> <mo>=</mo> <mfrac> <mrow> <munder> <mo>&amp;Sigma;</mo> <mi>d</mi> </munder> <msub> <mi>WT</mi> <mrow> <mi>d</mi> <mi>r</mi> </mrow> </msub> </mrow> <mi>C</mi> </mfrac> </mrow>
其中,Weightr表示词语r的权重;WTdr表示通过LDA模型计算出的词语r在文档d中的代表主题的概率,C表示词语r出现的文档数量;
步骤四、将K个主题词利用word2vector技术,将每个主题词表示成不同的语义向量;
步骤五、针对待提取关键词的文本,进行分词和词语筛选,将每条文本转换成若干词语的集合;
步骤六、针对所有词语集合,以词语为节点,以两个词语共同出现的次数作为边,构建词语网络图;
步骤七、将待提取关键词的文本分词和筛选后的每个词语,利用word2vector技术表示成语义向量;
步骤八、针对待提取关键词的文本的每个词语的语义向量,计算与特定任务的每个主题词的语义向量之间的语义相似度;
两个词语向量Di和Dj之间的语义相似度计算公式如下:
<mrow> <mi>C</mi> <mi>o</mi> <mi>s</mi> <mrow> <mo>(</mo> <msub> <mi>D</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>D</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>w</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> </msub> <msub> <mi>w</mi> <mrow> <mi>j</mi> <mi>k</mi> </mrow> </msub> </mrow> <mrow> <msqrt> <mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msubsup> <mi>w</mi> <mrow> <mi>i</mi> <mi>k</mi> </mrow> <mn>2</mn> </msubsup> </mrow> </msqrt> <msqrt> <mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msubsup> <mi>w</mi> <mrow> <mi>j</mi> <mi>k</mi> </mrow> <mn>2</mn> </msubsup> </mrow> </msqrt> </mrow> </mfrac> </mrow>
Di是指待提取关键词的文本筛选后的词语i表达成的词语语义向量;Dj是指特定任务的词语j表达成的词语语义向量;wik表示词语语义向量Di中第k个元素的值,wjk表示词语语义向量Dj中第k个元素的值,n代表语义向量的维度,即包含的元素个数;
步骤九、针对待提取关键词文本筛选后的词语i,分别计算与K个主题词语义相似度的加权算术平均值,并将该平均值作为词语i与特定任务的语义相似度;
<mrow> <msub> <mi>S</mi> <mrow> <mi>i</mi> <mo>-</mo> <mi>t</mi> <mi>a</mi> <mi>s</mi> <mi>k</mi> </mrow> </msub> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <msub> <mi>S</mi> <mrow> <mi>i</mi> <mo>-</mo> <mi>j</mi> </mrow> </msub> <mo>&amp;times;</mo> <msub> <mi>Weight</mi> <mi>j</mi> </msub> </mrow> <mi>K</mi> </mfrac> </mrow>
Si-task表示待提取关键词的文本筛选后的词语i与该特定任务的语义相似度;Si-j表示词语i与K个主题词中的第j个主题词的语义相似度;
步骤十、针对词语网络图,利用每个词语与特定任务的语义相似度,计算该词语的重要度,并根据重要度将词语降序排列,从中选取前T个词语作为待提取文本的关键词;
重要度用每个词语的权重来体现;计算公式如下:
<mrow> <mi>W</mi> <mi>S</mi> <mrow> <mo>(</mo> <msub> <mi>V</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>d</mi> <mo>)</mo> </mrow> <mo>&amp;times;</mo> <msub> <mi>S</mi> <mrow> <mi>i</mi> <mo>-</mo> <mi>t</mi> <mi>a</mi> <mi>s</mi> <mi>k</mi> </mrow> </msub> <mo>+</mo> <mi>d</mi> <mo>&amp;times;</mo> <munder> <mo>&amp;Sigma;</mo> <mrow> <msub> <mi>V</mi> <mi>m</mi> </msub> <mo>&amp;Element;</mo> <msub> <mrow> <mo>{</mo> <msub> <mi>V</mi> <mi>m</mi> </msub> <mo>}</mo> </mrow> <mi>i</mi> </msub> </mrow> </munder> <mfrac> <msub> <mi>f</mi> <mrow> <mi>i</mi> <mi>m</mi> </mrow> </msub> <mi>Z</mi> </mfrac> <mi>W</mi> <mi>S</mi> <mrow> <mo>(</mo> <msub> <mi>V</mi> <mi>m</mi> </msub> <mo>)</mo> </mrow> </mrow>
WS(Vi)表示节点Vi的权重,{Vm}i表示与节点Vi有边相连的节点集合,d表示阻尼系数;fim表示节点Vi和Vm之间边的权重,WS(Vm)表示节点Vm的权重;Z表示归一化因子,表示与节点Vi相连的边的权重之和,计算公式如下所示:
2.如权利要求1所述的一种基于语义的特定任务文本关键词提取方法,其特征在于,所述的步骤一,利用外部语料对特定任务主题词进行语义扩充,实现对特定任务主题词语义特征的刻画。
3.如权利要求1所述的一种基于语义的特定任务文本关键词提取方法,其特征在于,所述步骤三,综合主题词在每个文档中主题表示的概率,对每个主题词表示特定任务主题的权重进行刻画。
4.如权利要求1所述的一种基于语义的特定任务文本关键词提取方法,其特征在于,所述的步骤五具体为:首先,对待提取关键词的文本进行分词,分词的目的是为了将待提取关键词的文本转化成一个个词语;根据汉语语言的特点,能反映文本语义信息的词语都是实词;因此,在分词的过程中需要对每一个词语进行词性标注;
然后,对分词之后的结果进行两种特殊处理,一种是词性筛选,另一种是词频筛选;
词性筛选是指将分词结果中的名词、形容词和动词保留下来,将其他词性的词语去掉;词频筛选是指将分词结果中的低频词和高频词去掉。
5.如权利要求1所述的一种基于语义的特定任务文本关键词提取方法,其特征在于,所述的步骤六具体为:对于待提取关键词的文本,利用一个长度为L的滑动窗口,从第一个词语开始,向后滑动;滑动窗口的长度是指其覆盖的词语的数量;若两个词语共同出现在一个滑动窗口中,则这两个词语共同出现的次数加1;以此类推,直到滑动窗口到达文档最后一个词语,则停止计算。
6.如权利要求1所述的一种基于语义的特定任务文本关键词提取方法,其特征在于,所述的步骤四和步骤七中,语义向量表示主题词和候选关键词的语义特征。
7.如权利要求1所述的一种基于语义的特定任务文本关键词提取方法,其特征在于,所述的步骤十,综合考虑了文本关键词与任务的契合关系和待提取关键词文本的内部结构,利用Si-task表示文本关键词与任务的契合关系,表示待提取关键词文本的内部结构,并采用迭代计算的思想,实现候选关键词的权重计算。
CN201710383289.3A 2017-05-26 2017-05-26 一种基于语义的特定任务文本关键词提取方法 Active CN107193803B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710383289.3A CN107193803B (zh) 2017-05-26 2017-05-26 一种基于语义的特定任务文本关键词提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710383289.3A CN107193803B (zh) 2017-05-26 2017-05-26 一种基于语义的特定任务文本关键词提取方法

Publications (2)

Publication Number Publication Date
CN107193803A true CN107193803A (zh) 2017-09-22
CN107193803B CN107193803B (zh) 2020-07-10

Family

ID=59875142

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710383289.3A Active CN107193803B (zh) 2017-05-26 2017-05-26 一种基于语义的特定任务文本关键词提取方法

Country Status (1)

Country Link
CN (1) CN107193803B (zh)

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107967522A (zh) * 2017-11-24 2018-04-27 国网内蒙古东部电力有限公司 一种电网技改大修工程成本管理系统及其控制方法
CN108073571A (zh) * 2018-01-12 2018-05-25 中译语通科技股份有限公司 一种多语言文本质量评估方法及系统、智能文本处理系统
CN108509416A (zh) * 2018-03-20 2018-09-07 京东方科技集团股份有限公司 句意识别方法及装置、设备和存储介质
CN108764007A (zh) * 2018-02-10 2018-11-06 集智学园(北京)科技有限公司 基于ocr与文本分析技术对注意力的测量方法
CN108829822A (zh) * 2018-06-12 2018-11-16 腾讯科技(深圳)有限公司 媒体内容的推荐方法和装置、存储介质、电子装置
CN108846023A (zh) * 2018-05-24 2018-11-20 普强信息技术(北京)有限公司 文本的非常规特性挖掘方法及装置
CN109492078A (zh) * 2018-09-30 2019-03-19 普强信息技术(北京)有限公司 一种基于动态停词的原因挖掘方法
CN109840300A (zh) * 2019-03-04 2019-06-04 深信服科技股份有限公司 网络舆情分析方法、装置、设备及计算机可读存储介质
CN109885831A (zh) * 2019-01-30 2019-06-14 广州杰赛科技股份有限公司 关键术语抽取方法、装置、设备及计算机可读存储介质
CN109902199A (zh) * 2019-03-01 2019-06-18 深圳市伟文无线通讯技术有限公司 一种近场语料采集方法及装置
CN110162791A (zh) * 2019-05-24 2019-08-23 中国船舶工业综合技术经济研究院 一种面向国防科技领域的文本关键词提取方法及系统
CN110198464A (zh) * 2019-05-06 2019-09-03 平安科技(深圳)有限公司 语音智能播报方法、装置、计算机设备及存储介质
CN110263343A (zh) * 2019-06-24 2019-09-20 北京理工大学 基于短语向量的关键词抽取方法及系统
CN110442733A (zh) * 2019-08-08 2019-11-12 恒生电子股份有限公司 一种主题生成方法、装置和设备及介质
CN110502640A (zh) * 2019-07-30 2019-11-26 江南大学 一种基于建构的概念词义发展脉络的提取方法
CN110765777A (zh) * 2019-10-17 2020-02-07 上海大学 一种基于关联语义链网络的事件相关度计算方法
CN110781679A (zh) * 2019-10-15 2020-02-11 上海大学 一种基于关联语义链网络的新闻事件关键词挖掘方法
CN110852100A (zh) * 2019-10-30 2020-02-28 北京大米科技有限公司 关键词提取方法、装置、电子设备及介质
TWI703457B (zh) * 2018-03-20 2020-09-01 日商斯庫林集團股份有限公司 文字探勘方法、文字探勘程式及文字探勘裝置
CN111724196A (zh) * 2020-05-14 2020-09-29 天津大学 一种基于用户体验的提高汽车产品质量的方法
CN112269858A (zh) * 2020-10-22 2021-01-26 中国平安人寿保险股份有限公司 同义词典的优化方法、装置、设备及存储介质
CN112489740A (zh) * 2020-12-17 2021-03-12 北京惠及智医科技有限公司 病历检测方法及相关模型的训练方法和相关设备、装置
CN113011194A (zh) * 2021-04-15 2021-06-22 电子科技大学 融合关键词特征和多粒度语义特征的文本相似度计算方法
CN113270092A (zh) * 2021-05-11 2021-08-17 云南电网有限责任公司 一种基于lda算法的调度语音关键词提取方法
CN114943236A (zh) * 2022-06-30 2022-08-26 北京金山数字娱乐科技有限公司 关键词提取方法及装置
CN115168600A (zh) * 2022-06-23 2022-10-11 广州大学 一种个性化定制下的价值链知识发现方法
CN116302841A (zh) * 2023-04-13 2023-06-23 银川兴诚电子科技有限公司 一种工业物联网安全监测方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08314980A (ja) * 1995-03-13 1996-11-29 Torendei:Kk ドキュメントデータベースの構築方法、表示方法、及び表示装置
CN105677769A (zh) * 2015-12-29 2016-06-15 广州神马移动信息科技有限公司 一种基于潜在狄利克雷分配(lda)模型的关键词推荐方法和系统
CN105843795A (zh) * 2016-03-21 2016-08-10 华南理工大学 基于主题模型的文档关键词抽取方法及其系统
CN106372064A (zh) * 2016-11-18 2017-02-01 北京工业大学 一种文本挖掘的特征词权重计算方法
CN106469187A (zh) * 2016-08-29 2017-03-01 东软集团股份有限公司 关键词的提取方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08314980A (ja) * 1995-03-13 1996-11-29 Torendei:Kk ドキュメントデータベースの構築方法、表示方法、及び表示装置
CN105677769A (zh) * 2015-12-29 2016-06-15 广州神马移动信息科技有限公司 一种基于潜在狄利克雷分配(lda)模型的关键词推荐方法和系统
CN105843795A (zh) * 2016-03-21 2016-08-10 华南理工大学 基于主题模型的文档关键词抽取方法及其系统
CN106469187A (zh) * 2016-08-29 2017-03-01 东软集团股份有限公司 关键词的提取方法及装置
CN106372064A (zh) * 2016-11-18 2017-02-01 北京工业大学 一种文本挖掘的特征词权重计算方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZHIYUAN LIU,WENYI HUANG,YABIN ZHENG,MAOSONG SUN: "Automatic Keyphrase Extraction via Topic Decomposition", 《PROCEEDINGS OF THE 2010 CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING》 *
董奥根,刘茂福,黄革新,舒琦赟: "基于向量空间模型的知识点与试题自动关联方法", 《计算机与现代化》 *

Cited By (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107967522A (zh) * 2017-11-24 2018-04-27 国网内蒙古东部电力有限公司 一种电网技改大修工程成本管理系统及其控制方法
CN108073571A (zh) * 2018-01-12 2018-05-25 中译语通科技股份有限公司 一种多语言文本质量评估方法及系统、智能文本处理系统
CN108073571B (zh) * 2018-01-12 2021-08-13 中译语通科技股份有限公司 一种多语言文本质量评估方法及系统、智能文本处理系统
CN108764007A (zh) * 2018-02-10 2018-11-06 集智学园(北京)科技有限公司 基于ocr与文本分析技术对注意力的测量方法
TWI703457B (zh) * 2018-03-20 2020-09-01 日商斯庫林集團股份有限公司 文字探勘方法、文字探勘程式及文字探勘裝置
CN108509416B (zh) * 2018-03-20 2022-10-11 京东方科技集团股份有限公司 句意识别方法及装置、设备和存储介质
CN108509416A (zh) * 2018-03-20 2018-09-07 京东方科技集团股份有限公司 句意识别方法及装置、设备和存储介质
CN108846023A (zh) * 2018-05-24 2018-11-20 普强信息技术(北京)有限公司 文本的非常规特性挖掘方法及装置
CN108829822A (zh) * 2018-06-12 2018-11-16 腾讯科技(深圳)有限公司 媒体内容的推荐方法和装置、存储介质、电子装置
CN108829822B (zh) * 2018-06-12 2023-10-27 腾讯科技(深圳)有限公司 媒体内容的推荐方法和装置、存储介质、电子装置
CN109492078A (zh) * 2018-09-30 2019-03-19 普强信息技术(北京)有限公司 一种基于动态停词的原因挖掘方法
CN109885831A (zh) * 2019-01-30 2019-06-14 广州杰赛科技股份有限公司 关键术语抽取方法、装置、设备及计算机可读存储介质
CN109885831B (zh) * 2019-01-30 2023-06-02 广州杰赛科技股份有限公司 关键术语抽取方法、装置、设备及计算机可读存储介质
CN109902199A (zh) * 2019-03-01 2019-06-18 深圳市伟文无线通讯技术有限公司 一种近场语料采集方法及装置
CN109840300A (zh) * 2019-03-04 2019-06-04 深信服科技股份有限公司 网络舆情分析方法、装置、设备及计算机可读存储介质
CN110198464A (zh) * 2019-05-06 2019-09-03 平安科技(深圳)有限公司 语音智能播报方法、装置、计算机设备及存储介质
CN110198464B (zh) * 2019-05-06 2023-03-28 平安科技(深圳)有限公司 语音智能播报方法、装置、计算机设备及存储介质
CN110162791A (zh) * 2019-05-24 2019-08-23 中国船舶工业综合技术经济研究院 一种面向国防科技领域的文本关键词提取方法及系统
CN110162791B (zh) * 2019-05-24 2023-04-07 中国船舶工业综合技术经济研究院 一种面向国防科技领域的文本关键词提取方法及系统
CN110263343A (zh) * 2019-06-24 2019-09-20 北京理工大学 基于短语向量的关键词抽取方法及系统
CN110502640A (zh) * 2019-07-30 2019-11-26 江南大学 一种基于建构的概念词义发展脉络的提取方法
CN110442733A (zh) * 2019-08-08 2019-11-12 恒生电子股份有限公司 一种主题生成方法、装置和设备及介质
CN110781679A (zh) * 2019-10-15 2020-02-11 上海大学 一种基于关联语义链网络的新闻事件关键词挖掘方法
CN110781679B (zh) * 2019-10-15 2023-09-15 上海大学 一种基于关联语义链网络的新闻事件关键词挖掘方法
CN110765777A (zh) * 2019-10-17 2020-02-07 上海大学 一种基于关联语义链网络的事件相关度计算方法
CN110765777B (zh) * 2019-10-17 2023-09-15 上海大学 一种基于关联语义链网络的事件相关度计算方法
CN110852100B (zh) * 2019-10-30 2023-07-21 北京大米科技有限公司 关键词提取方法、装置、电子设备及介质
CN110852100A (zh) * 2019-10-30 2020-02-28 北京大米科技有限公司 关键词提取方法、装置、电子设备及介质
CN111724196A (zh) * 2020-05-14 2020-09-29 天津大学 一种基于用户体验的提高汽车产品质量的方法
CN112269858A (zh) * 2020-10-22 2021-01-26 中国平安人寿保险股份有限公司 同义词典的优化方法、装置、设备及存储介质
CN112269858B (zh) * 2020-10-22 2024-04-19 中国平安人寿保险股份有限公司 同义词典的优化方法、装置、设备及存储介质
CN112489740A (zh) * 2020-12-17 2021-03-12 北京惠及智医科技有限公司 病历检测方法及相关模型的训练方法和相关设备、装置
CN113011194A (zh) * 2021-04-15 2021-06-22 电子科技大学 融合关键词特征和多粒度语义特征的文本相似度计算方法
CN113270092A (zh) * 2021-05-11 2021-08-17 云南电网有限责任公司 一种基于lda算法的调度语音关键词提取方法
CN115168600A (zh) * 2022-06-23 2022-10-11 广州大学 一种个性化定制下的价值链知识发现方法
CN114943236A (zh) * 2022-06-30 2022-08-26 北京金山数字娱乐科技有限公司 关键词提取方法及装置
CN116302841A (zh) * 2023-04-13 2023-06-23 银川兴诚电子科技有限公司 一种工业物联网安全监测方法及系统
CN116302841B (zh) * 2023-04-13 2023-12-08 北京浩太同益科技发展有限公司 一种工业物联网安全监测方法及系统

Also Published As

Publication number Publication date
CN107193803B (zh) 2020-07-10

Similar Documents

Publication Publication Date Title
CN107193803A (zh) 一种基于语义的特定任务文本关键词提取方法
EP2041669B1 (en) Text categorization using external knowledge
CN110059311A (zh) 一种面向司法文本数据的关键词提取方法及系统
Ahmed et al. Effective sentimental analysis and opinion mining of web reviews using rule based classifiers
US20070294223A1 (en) Text Categorization Using External Knowledge
CN106997382A (zh) 基于大数据的创新创意标签自动标注方法及系统
CN107122413A (zh) 一种基于图模型的关键词提取方法及装置
CN104598532A (zh) 一种信息处理方法及装置
CN103116637A (zh) 一种面向中文Web评论的文本情感分类方法
CN102332028A (zh) 一种面向网页的不良Web内容识别方法
CN110516074B (zh) 一种基于深度学习的网站主题分类方法及装置
Kaur Incorporating sentimental analysis into development of a hybrid classification model: A comprehensive study
CN104361037B (zh) 微博分类方法及装置
Sabuna et al. Summarizing Indonesian text automatically by using sentence scoring and decision tree
CN103593431A (zh) 网络舆情分析方法和装置
Wardhani et al. Sentiment analysis article news coordinator minister of maritime affairs using algorithm naive bayes and support vector machine with particle swarm optimization
Kurniawan et al. Indonesian twitter sentiment analysis using Word2Vec
Campbell et al. Content+ context networks for user classification in twitter
CN107291686B (zh) 情感标识的辨识方法和情感标识的辨识系统
Meddeb et al. Using twitter streams for opinion mining: a case study on airport noise
de Silva SAFS3 algorithm: Frequency statistic and semantic similarity based semantic classification use case
Das et al. Crime pattern analysis by identifying named entities and relation among entities
Özyirmidokuz Mining unstructured Turkish economy news articles
Rizal et al. Sentiment analysis on movie review from rotten tomatoes using word2vec and naive bayes
CN113516202A (zh) Cbl特征提取与去噪的网页精准分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant