CN110287280A - 一种分析文章中词的方法和装置、存储介质以及电子设备 - Google Patents

一种分析文章中词的方法和装置、存储介质以及电子设备 Download PDF

Info

Publication number
CN110287280A
CN110287280A CN201910549712.1A CN201910549712A CN110287280A CN 110287280 A CN110287280 A CN 110287280A CN 201910549712 A CN201910549712 A CN 201910549712A CN 110287280 A CN110287280 A CN 110287280A
Authority
CN
China
Prior art keywords
word
sentence
article
analyzed
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910549712.1A
Other languages
English (en)
Other versions
CN110287280B (zh
Inventor
康战辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910549712.1A priority Critical patent/CN110287280B/zh
Publication of CN110287280A publication Critical patent/CN110287280A/zh
Application granted granted Critical
Publication of CN110287280B publication Critical patent/CN110287280B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种分析文章中词的方法,包括:获取待分析文章,该待分析文章包含至少一个句子,该句子包括文章的标题和正文句子;分析计算待分析文章的句子中词的初始词权重;分析计算待分析文章中正文句子与标题的相似度;根据所述词的初始词权重、所述相似度以及句子与词的对应关系进行迭代收敛处理,得到待分析文章中词的最终词权重,最终词权重的取值不大于1且不小于0。本方案中,先计算得到待分析文章中词的初始词权重,再根据该词的初始词权重、正文句子与标题的相似度以及句子与词的对应关系进行迭代收敛处理,在迭代收敛处理过程中,将该正文句子与标题的相似度以及句子与词之间的关系作为参考因素,计算得到词的最终词权重准确度更高。

Description

一种分析文章中词的方法和装置、存储介质以及电子设备
技术领域
本发明涉及计算机技术领域,尤其涉及一种分析文章中词的方法和装置、存储介质以及电子设备。
背景技术
现实网络中存在海量的文章,为了实现基于文章的内容进行处理,如搜索排序、提取摘要等,需要对文章中的各个词的权重进行计算。
现有技术中,经典的文章(正文较长)词权重计算方案称之为TextRank算法,将文章中处于某个距离内的两个词之间构成边,这样一篇文章就会构成一个图,接着用pagerank算法(一种基于游走的计算网页权威度的经典网页搜索算法)做迭代计算,最终即可得到不同词节点的权重,这个权重就是该词在文章中的权重。
经典TextRank假设两个词在某个窗口内共现,他们就具有同样的相似度,即所构成文章图中的边的权重是固定,且基于是否共现在某个窗口内,只有0,1两种取值。但显然可以有多种计算两个词之间语义相似度的算法,将语义相似度作为边的权重。
由于该方案中,只捕捉了窗口共现信息,而缺乏语义表达,边的权重计算粗糙,导致相似度的精确度较低,进而导致对文章分析的准确度较低。
发明内容
本发明实施例提供了一种分析文章中词的方法,能够精确分析计算文章中词权重,提高了文章分析的准确度。
为解决上述技术问题,本发明实施例提供以下技术方案:
第一方面,本发明实施例提供一种分析文章中词的方法,包括:
获取待分析文章,所述待分析文章包含至少一个句子;
分析计算所述待分析文章的句子中词的初始词权重,所述句子至少包括文章的标题和至少一个文章的正文句子;
分析计算所述待分析文章中正文句子与标题的相似度;
根据所述词的初始词权重、所述相似度以及句子与词的对应关系进行迭代收敛处理,得到所述待分析文章中词的最终词权重,所述最终词权重的取值不大于1且不小于0。
第二方面,本发明实施例还提供一种分析文章中词的装置,包括:
获取模块,用于获取待分析文章,所述待分析文章包含至少一个句子;
初始词权重分析模块,用于分析计算所述待分析文章的句子中词的初始词权重,所述句子至少包括文章的标题和至少一个文章的正文句子;
相似度分析模块,用于分析计算所述待分析文章中正文句子与标题的相似度;
最终词权重分析模块,根据所述词的初始词权重、所述相似度以及句子与词的对应关系进行迭代收敛处理,得到所述待分析文章中词的最终词权重,所述最终词权重的取值不大于1且不小于0。
从以上技术方案可以看出,本发明实施例具有以下优点:
在本发明实施例中提供了一种分析文章中词的方法,包括:获取待分析文章,所述待分析文章包含至少一个句子;分析计算所述待分析文章的句子中词的初始词权重,所述句子至少包括文章的标题和至少一个文章的正文句子;分析计算所述待分析文章中正文句子与标题的相似度;根据所述词的初始词权重、所述相似度以及句子与词的对应关系进行迭代收敛处理,得到所述待分析文章中词的最终词权重,所述最终词权重的取值不大于1且不小于0。本方案中,先计算得到待分析文章中词的初始词权重,再根据该词的初始词权重、正文句子与标题的相似度以及句子与词的对应关系进行迭代收敛处理,在迭代收敛处理过程中,将该正文句子与标题的相似度以及句子与词之间的关系作为参考因素,计算得到词的最终词权重准确度更高。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种分析文章中词的方法流程方框示意图;
图2为本发明实施例提供的一种分析文章中词的方法中句子级别词权重序列模型示意图;
图3为本发明实施例提供的一种分析文章中词的方法中生成标注语料的示意图;
图4为本发明实施例提供的一种分析文章中词的方法中建立的词权重图示意图;
图5为本发明实施例提供的一种分析文章中词的装置的组成结构示意图;
图6为本发明实施例提供的分析文章中词的方法应用于电子设备的组成结构示意图。
具体实施方式
本发明实施例提供了一种分析文章中词的方法和装置,用于精确计算文章中词在句子中的权重,当基于用户搜索内容推荐文章时,能够提高推荐的准确度,当基于文章内容提取文章摘要时,能够提高摘要的准确度。
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本发明的一部分实施例,而非全部实施例。基于本发明中的实施例,本领域的技术人员所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。
面对网络中海量的文章,为使用户能够更加方便和快捷的获得文章的信息,本发明研究了分析文章中词的方法中,获取待分析文章,所述待分析文章包含至少一个句子;分析计算所述待分析文章的句子中词的初始词权重,所述句子至少包括文章的标题和至少一个文章的正文句子;分析计算所述待分析文章中正文句子与标题的相似度;根据所述词的初始词权重、所述相似度以及句子与词的对应关系进行迭代收敛处理,得到所述待分析文章中词的最终词权重,所述最终词权重的取值不大于1且不小于0。本方案中,先计算得到待分析文章中词的初始词权重,再根据该词的初始词权重、正文句子与标题的相似度以及句子与词的对应关系进行迭代收敛处理,在迭代收敛处理过程中,将该正文句子与标题的相似度以及句子与词之间的关系作为参考因素,计算得到词的最终词权重准确度更高,提高了词权重的准确程度,进而提高了对文章分析的准确度,接下来分别进行详细说明。
本发明分析文章中词的方法的一个实施例,请参阅图1所示,本发明一个实施例提供的分析文章中词的方法,可以包括如下步骤:
101、获取待分析文章;
在发明实施例中,所述待分析文章包含至少一个句子。
在本发明的一些实施例中,该待分析文章中包含一个或者多个句子。
具体实施中,该句子可以是较长的句子,也可以是较短的句子。
例如,该句子可以是“酒店人常用英语口语100句,超实用”,还可以是“推拿手法”等。
具体实施中,该待分析文章中还可以包含其他内容,如图片、视频、音频等,本实施例中仅需针对该待分析文章中的句子进行分析。
需要说明的是,该句子中可以包含中文、英文、数字或者其他形式的文字字符等。
102、分析计算所述待分析文章的句子中词的初始词权重,所述句子至少包括文章的标题和至少一个文章的正文句子;
其中,对于该待分析文章中句子中词的初始词权重进行计算。
其中,当该文章有标题和正文时,该句子包含标题和正文句子;当该文章只有标题时,则该句子包含标题;当该文章无标题时,则该句子包含正文句子。
本发明实施例中,能够对于文章的标题和正文句子中词的词权重进行初步计算,得到初始词权重,以便后续步骤中针对待分析文章整体的句子中词的词权重进行分析。针对于现有技术中只捕捉窗口共现信息不考虑文章标题与正文之间的关系,分析的准确度更高。
在发明实施例中,步骤102分析计算所述待分析文章的句子中词的初始词权重,具体可以包括如下步骤:
1021、将所述句子划分为至少两个词并执行嵌入操作;
本实施例中,现将该句子进行分词处理,将其划分为至少两个词。
例如,该句子是“酒店人常用英语口语100句,超实用”,则将其划分为“酒店”、“人”、“常用”、“英语口语”、“100”、“句”、“超实用”几个词。
其中,可以预设句子划分规则,将该待分析文章中的句子进行划分,得到多个词。
例如,采用指定的字典(dictionary),在该字典中查找词汇进行句子分割。
具体的,将该分词得到的词嵌入算法模型中,其中该算法模型可以包括嵌入层、两层双向长短期记忆网络以及输出层,该输出层具体可以采用输出条件随机场算法模型(CRF,Conditional Random Field algorithm)或算法梯度提升树模型(GBDT,GradientBoosting Decison Tree)。
具体,该嵌入层将该多个词嵌入算法模型中。
1022、基于将所述至少两个词嵌入,使得预设的两层双向长短期记忆网络编码所述至少两个词,得到编码结果;
其中,采用两层双向长短期记忆网络对该句子分得的多个词进行编码。
具体的,该两层双向长短期记忆网络包括Bi-LSTM(Bi-directional Long Short-Term Memory,双向循环神经网络)层和Dense(稠密)层。
1023、依据预设的条件随机场算法模型或算法梯度提升树模型预测任一词的下一个词的概率,并将所述概率记为所述任一词在所述句子中的初始词权重,所述条件随机场算法模型或算法梯度提升树模型基于所述句子的标注语料预先训练得到。
具体实施中,预先训练完成该条件随机场算法模型或算法梯度提升树模型。
具体的,将编码结果输入条件随机场算法模型或算法梯度提升树模型中,预测任一词的下一个词的概率,该概率即为该词在句子中的初始词权重。
例如,该词为“酒店”,计算得到下一个词是“人”的概率是0.76,“地址”概率是0.20,“预定”的概率是0.10,而该句子中,下一个词是“人”,则该“酒店”的概率是0.76。
其中,该102的具体实现过程,可以集成到一个算法模型中实现,如该算法模型命名为句子级别词权重序列模型。
如图2所示的为句子级别词权重序列模型示意图,该模型对句子进行处理得到其中词初始词权重,其中句子级别词权重序列模型包括:Input(输入),Embeding-Layer(嵌入层)、Bi-LSTM layer、Dense-Layer以及CRF-Layer。其中,对输入句子“酒店人常用英语口语100句,超实用!”划分得到的“酒店”、“人”、“常用”、“英语口语”、“100”、“句”、“超实用”几个词,经过Embeding-Layer的嵌入处理,在经过Bi-LSTM layer进行双向编码处理,将两个方向的编码处理结果分别输出给Dense-Layer,在经过Dense-Layer的处理,提取到这些编码处理结果之间的关联,并将处理结果输出给CRF-Layer,以实现针对该分析出来的关联进行序列标注,并输出最终的序列标注结果。其中,该输出的序列标注结果中对于每个词的词权重进行标注,如下表1所示
表1
具体实施中,该CRF-Layer也可以替换为GBDT-Layer。
其中,1023中涉及的条件随机场算法模型或算法梯度提升树模型需要基于句子的标注语料预先训练得到。
本发明中,获取该句子的标注语料的过程具体如下:
10231、根据搜索点击操作,选择与所述搜索点击操作对应的日志;
本实施例中,是对于搜索操作进行推荐相应的文章,相应的,根据搜索点击操作,从系统日志中选择与该点击操作对应的日志。
10232、基于所述搜索点击操作对应的日志获取所述搜索点击操作对应的文章;
根据该搜索点击操作对应的日志中记载的内容,获取该搜索点击操作对应的文章。
如根据用户搜索点击操作对应的日志确定对应的文章标题包括:“酒店常用英语”、“预定酒店,英语怎么说”、“酒店餐饮应用沟通”等。
具体的,将该文章构建查询列表,该查询列表中包含有该文章中标题中的词。
10233、从所述点击操作对应的文章中选择与所述句子中相应的词作为第一候选标注;
从该查询列表中抽取与该句子中相应的词,如该句子为“酒店人常用英语口语100句,超实用!”,该查询列表中包含有“酒店常用英语”、“预定酒店,英语怎么说”、“酒店餐饮应用沟通”等,抽取得到的词为“英语”、“酒店”等。将该抽取得到的“英语”、“酒店”等词作为第一候选标注。
本发明中,10233中从所述点击操作对应的文章中选择与所述句子中相应的词作为第一候选标注,具体包括:
A1、基于所述搜索点击操作对应的文章构建第一列表,所述第一列表中包含所述搜索点击操作对应的文章中的所有词;
A2、从所述第一列表中选择与所述句子中相应的词作为第一候选标注。
10234、对所述待分析文章泛化处理,基于泛化后的所述待分析文章得到与所述句子中相应的词作为第二候选标注;
依据该待分析文章,查找与该待分析文章相似的文章,具体是依据搜索点击操作对应的日志中查找与该待分析文章相似的文章。
例如,待分析文章标题为“酒店人常用英语口语100句,超实用”,对该标题进行泛化,得到相似的文章“酒店人常用英语100句”,查找与该“酒店人常用英语100句”相应的搜索点击日志,确定对应的文章标题包括:“酒店英语”、“常用英语口语”等。
然后,从该确定的对应文章中选择与所述句子中相应的词作为第二候选标注。
本发明中,10234中基于泛化后的所述待分析文章得到与所述句子中相应的词作为第二候选标注,具体包括:
B1、对所述待分析文章进行泛化处理,得到与所述待分析文章中所述句子满足相似条件的泛化后句子;
B2、从系统日志中选择与泛化后句子相应的日志,根据泛化后句子相应的日志获取泛化后文章,依据所述泛化后文章构建第二列表,所述第二列表中包含所述泛化文章中与所述待分析文章相应的词;
B3、从所述第二列表中选择与所述句子中相应的词作为第二候选标注。
10235、将所述第一候选标注和第二候选标注取交集得到候选标注集合;
将该第一候选标注和第二候选标注取交集,将二者中所有的词集合到一起,得到候选标注集合。
10236、基于预设的同义词词典,对所述候选标注集合中的词做同义词泛化,得到所述句子的标注语料。
本步骤中,加载预设的同义词词典,从该词典中查找与该候选标注集合中的词同义的词,实现对该候选标注集合中的词做同义词泛化,最终得到该句子的标注语料。
如下图3所示的为生成标注语料的示意图,该示意图中以微信中进行搜索文章标题为例进行说明。
该待分析文章的标题是“酒店人常用英语口语100句,超实用”,针对该文章doc(文档)“酒店人常用英语口语100句,超实用”,查找搜索点击日志,确定微信用户点击日志包括“酒店常用英语”、“预定酒店,英语怎么说”、“酒店餐饮应用沟通”得到文章标题列表,对该日志中的文章标题列表中包含的词进行抽取,得到与该待分析文章标题相同的“英语”“酒店”等词。
对于该待分析文章的标题进行泛化处理,得到共现相似doc的文章“酒店人常用英语口语100句”,针对该“酒店人常用英语口语100句”,查找搜索点击日志,确定微信用户点击日志包括“酒店英语”、“常用英语口语”等得到文章标题列表,对该日志中的文章标题列表中包含的词进行抽取,得到相近的“英语”“酒店”“英语口语”等词。
将两组词取交集,得到“英语”“酒店”“英语口语”等词,经过同义词泛化,得到“英语”“酒店”“英语口语”“美语”,该得到的词语集合作为该句子“酒店人常用英语口语100句,超实用”的标注语料。
与现有技术中采用的词权重计算算法,如tfidf、TextRank等比对,本发明实施例中提供的基于条件随机场算法模型或算法梯度提升树模型预测词的词权重,具有较强的上下文感知能力,预测得到的词概率(词权重)也更加准确。
103、分析计算所述待分析文章中正文句子与标题的相似度;
在发明实施例中,还需要考虑正文句子与标题的相似度。
具体的,可以采用sentence similarity based bert(标准的经典算法),计算正文句子与标题的相似度。
本发明实施例中,该标题作为一种句子,计算与正文句子之间的句子相似度。
例如,该标准的经典算法具体可以采用word-embeding(词嵌入)对句子进行编码,以实现对其进行向量表示,然后基于得到的向量可以采用余弦相似度、欧氏距离、KL(Kullback Leibler,差异)距离等算法计算句子(标题)与句子(正文句子)之间的相似度。
104、根据所述词的初始词权重、所述相似度以及句子与词的对应关系进行迭代收敛处理,得到所述待分析文章中词的最终词权重,所述最终词权重的取值不大于1且不小于0。
本发明中,104根据权利要求1所述的方法,其特征在于,根据所述词的初始词权重、所述待分析文章中句子间的相似度以及句子与词的对应关系进行迭代收敛处理,得到所述待分析文章中词的最终词权重,包括:
1041、以所述待分析文章中的词为词节点、所述待分析文章中正文句子为句子节点、所述待分析文章的标题为标题节点,将所述词节点分别与其所属的句子节点/标题节点相连,句子节点与标题节点相连,构建词权重图。
其中,词节点与句子节点/标题节点相连的边的权重取所述词的初始词权重,所述句子节点与标题节点相连的边的权重取所述正文句子与所述标题的相似度值;
根据计算出的词的初始词权重、句子之间的相似度建立词权重图。
如图4所示的是建立的词权重图示意图,其中包括词节点401、句子节点402和标题节点403。其中,词节点中的词属于该句子,则该词节点与该句子节点连通,边权重为该词节点中词的初始词权重(词权重也表征了该词在句子中的重要程度);词节点中的词属于该标题节点,该词节点与标题节点连通,边权重为该词节点中词的初始词权重;句子节点与题目节点分别相连通,边权重为二者之间的相似度。
1042、基于所述词权重图进行迭代收敛计算,得到所述词节点中词的最终词权重。
具体的,采用预设的网页级别算法(PageRank)对所述词权重图中的词节点权重值进行迭代收敛计算,得到所述词节点中词的最终词权重。
本发明实施例中,词权重图中建立了词、正文句子、标题之间的联系,基于该词权重图中的关联关系以及词的初始词权重、句子之间的相似度,采用PageRank进行迭代收敛计算,进行N(N>1)轮的迭代收敛后,直至收敛结果在满足收敛条件的范围内浮动,将此时该词节点对应的边的值作为该词的最终词权重。
本发明实施例中涉及的采用PageRank进行迭代收敛计算,是基于建立的词权重图进行的,精确率(precision)更高,召回率(recall)更高,综合值(F1)更高。如下表2所示的为本发明实施例中采用PageRank进行迭代收敛计算(采用PageRank++表示)的结果与现有技术中采用的PageRank进行迭代收敛计算的结果。
表2
算法模型 precision recall F1
PageRank 0.58 0.69 0.63
PageRank++ 0.66 0.76 0.71
其中,召回率是确定的重要词的个数与整体重要词的个数的比值。
F1值是基于精确率和召回率得到的综合值。
根据上表2可知的,本发明实施例中提供的迭代收敛过程得到的结果精确率、召回率以及综合值,均高于现有技术中的迭代收敛结果。
本发明的实施例中,计算标题与正文句子之间的相似度,以相似度的形式将标题与正文句子之间的关联结合到计算词节点的词权重的过程中,具体采用词的初始词权重、正文句子与标题之间的相似度互指导的迭代计算方式。
针对现有技术仅仅能够根据采用TextRank算法计算句子中词的权重值,存在只捕捉了窗口共现信息,而缺乏语义表达的问题,本发明中通过结合待分析文章中标题与正文句子间的相似度以及句子与词的对应关系进行迭代收敛处理,考虑了待计算的词与文章整体之间的关系,计算结果更加准确。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
为便于更好的实施本发明实施例的上述方案,下面还提供用于实施上述方案的相关装置。
请参阅图5所示,本发明实施例提供的一种分析文章中词的装置结构示意图,可以包括:获取模块501、初始词权重分析模块502、相似度分析模块503、最终词权重分析模块504。
获取模块501,用于获取待分析文章,所述待分析文章包含至少一个句子;
初始词权重分析模块502,用于分析计算所述待分析文章的句子中词的初始词权重,所述句子至少包括文章的标题和至少一个文章的正文句子;
相似度分析模块503,用于分析计算所述待分析文章中正文句子与标题的相似度;
最终词权重分析模块504,根据所述词的初始词权重、所述相似度以及句子与词的对应关系进行迭代收敛处理,得到所述待分析文章中词的最终词权重,所述最终词权重的取值不大于1且不小于0。
在本发明的一些实施例中,所述初始词权重分析模块,包括:
嵌入单元,用于将所述句子划分为至少两个词并执行嵌入操作;
编码单元,用于基于将所述至少两个词嵌入,使得预设的两层双向长短期记忆网络编码所述至少两个词,得到编码结果;
预测单元,用于依据预设的条件随机场算法模型或算法梯度提升树模型预测任一词的下一个词的概率,并将所述概率记为所述任一词在所述句子中的初始词权重,所述条件随机场算法模型或算法梯度提升树模型基于所述句子的标注语料预先训练得到。
在本发明的一些实施例中,获取所述句子的标注语料的过程具体包括:
根据搜索点击操作,选择与所述搜索点击操作对应的日志;
基于所述搜索点击操作对应的日志获取所述搜索点击操作对应的文章;
从所述点击操作对应的文章中选择与所述句子中相应的词作为第一候选标注;
对所述待分析文章泛化处理,基于泛化后的所述待分析文章得到与所述句子中相应的词作为第二候选标注;
将所述第一候选标注和第二候选标注取交集得到候选标注集合;
基于预设的同义词词典,对所述候选标注集合中的词做同义词泛化,得到所述句子的标注语料。
在本发明的一些实施例中,从所述点击操作对应的文章中选择与所述句子中相应的词作为第一候选标注,包括:
基于所述搜索点击操作对应的文章构建第一列表,所述第一列表中包含所述搜索点击操作对应的文章中的所有词;
从所述第一列表中选择与所述句子中相应的词作为第一候选标注。
在本发明的一些实施例中,所述基于泛化后的所述待分析文章得到与所述句子中相应的词作为第二候选标注,包括:
对所述待分析文章进行泛化处理,得到与所述待分析文章中所述句子满足相似条件的泛化后句子;
从系统日志中选择与泛化后句子相应的日志,根据泛化后句子相应的日志获取泛化后文章,依据所述泛化后文章构建第二列表,所述第二列表中包含所述泛化文章中与所述待分析文章相应的词;
从所述第二列表中选择与所述句子中相应的词作为第二候选标注。
在本发明的一些实施例中,最终词权重分析模块504,具体用于:
以所述待分析文章中的词为词节点、所述待分析文章中正文句子为句子节点、所述待分析文章的标题为标题节点,将所述词节点分别与其所属的句子节点/标题节点相连,句子节点与标题节点相连,构建词权重图,其中,词节点与句子节点/标题节点相连的边的权重取所述词的初始词权重,所述句子节点与标题节点相连的边的权重取所述正文句子与所述标题的相似度值;
基于所述词权重图中进行迭代收敛计算,得到所述词节点中词的最终词权重。
在本发明的一些实施例中,所述对所述词权重图中的节点的权重值进行迭代收敛计算,包括:
采用预设的网页级别算法对所述词权重图中的词节点权重值进行迭代收敛计算,得到所述词节点中词的最终词权重。
本发明实施例还提供了一种执行分析文章中词的方法的电子设备,如图6所示,为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。
具体的,该电子设备可以为终端设备也可以为服务器。
图6是本发明实施例提供的一种电子设备结构示意图,该电子设备600可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(centralprocessing units,CPU)622(例如,一个或一个以上处理器)和存储器632,一个或一个以上存储应用程序642或数据644的存储介质630(例如一个或一个以上海量存储设备)。其中,存储器632和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对电子设备中的一系列指令操作。更进一步地,中央处理器622可以设置为与存储介质630通信,在电子设备600上执行存储介质630中的一系列指令操作。
电子设备600还可以包括一个或一个以上电源626,一个或一个以上有线或无线网络接口650,一个或一个以上输入输出接口658,和/或,一个或一个以上操作系统641,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由电子设备所执行的应用程序的推荐方法可以基于该图6所示的电子设备结构。
通过以上实施例对本发明实施例的描述可知,本发明实施例提供的一种分析文章中词的方法中:获取待分析文章,所述待分析文章包含至少一个句子;分析计算所述待分析文章的句子中词的初始词权重,所述句子至少包括文章的标题和至少一个文章的正文句子;分析计算所述待分析文章中正文句子与标题的相似度;根据所述词的初始词权重、所述相似度以及句子与词的对应关系进行迭代收敛处理,得到所述待分析文章中词的最终词权重,所述最终词权重的取值不大于1且不小于0。本方案中,先计算得到待分析文章中词的初始词权重,再根据该词的初始词权重、正文句子与标题的相似度以及句子与词的对应关系进行迭代收敛处理,在迭代收敛处理过程中,将该正文句子与标题的相似度以及句子与词之间的关系作为参考因素,计算得到词的最终词权重准确度更高。
另外需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现,当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下,凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现,而且,用来实现同一功能的具体硬件结构也可以是多种多样的,例如模拟电路、数字电路或专用电路等。但是,对本发明而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘,U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
综上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照上述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对上述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种分析文章中词的方法,其特征在于,包括:
获取待分析文章,所述待分析文章包含至少一个句子;
分析计算所述待分析文章的句子中词的初始词权重,所述句子至少包括文章的标题和至少一个文章的正文句子;
分析计算所述待分析文章中正文句子与标题的相似度;
根据所述词的初始词权重、所述相似度以及句子与词的对应关系进行迭代收敛处理,得到所述待分析文章中词的最终词权重,所述最终词权重的取值不大于1且不小于0。
2.根据权利要求1所述的方法,其特征在于,所述分析计算所述待分析文章的句子中词的初始词权重,具体包括:
将所述句子划分为至少两个词并执行嵌入操作;
基于将所述至少两个词嵌入,使得预设的两层双向长短期记忆网络编码所述至少两个词,得到编码结果;
依据预设的条件随机场算法模型或算法梯度提升树模型预测任一词的下一个词的概率,并将所述概率记为所述任一词在所述句子中的初始词权重,所述条件随机场算法模型或算法梯度提升树模型基于所述句子的标注语料预先训练得到。
3.根据权利要求2所述的方法,其特征在于,获取所述句子的标注语料的过程具体包括:
根据搜索点击操作,选择与所述搜索点击操作对应的日志;
基于所述搜索点击操作对应的日志获取所述搜索点击操作对应的文章;
从所述点击操作对应的文章中选择与所述句子中相应的词作为第一候选标注;
对所述待分析文章泛化处理,基于泛化后的所述待分析文章得到与所述句子中相应的词作为第二候选标注;
将所述第一候选标注和第二候选标注取交集得到候选标注集合;
基于预设的同义词词典,对所述候选标注集合中的词做同义词泛化,得到所述句子的标注语料。
4.根据权利要求3所述的方法,其特征在于,从所述点击操作对应的文章中选择与所述句子中相应的词作为第一候选标注,包括:
基于所述搜索点击操作对应的文章构建第一列表,所述第一列表中包含所述搜索点击操作对应的文章中的所有词;
从所述第一列表中选择与所述句子中相应的词作为第一候选标注。
5.根据权利要求3所述的方法,其特征在于,所述基于泛化后的所述待分析文章得到与所述句子中相应的词作为第二候选标注,包括:
对所述待分析文章进行泛化处理,得到与所述待分析文章中所述句子满足相似条件的泛化后句子;
从系统日志中选择与泛化后句子相应的日志,根据泛化后句子相应的日志获取泛化后文章,依据所述泛化后文章构建第二列表,所述第二列表中包含所述泛化文章中与所述待分析文章相应的词;
从所述第二列表中选择与所述句子中相应的词作为第二候选标注。
6.根据权利要求1所述的方法,其特征在于,根据所述词的初始词权重、所述待分析文章中句子间的相似度以及句子与词的对应关系进行迭代收敛处理,得到所述待分析文章中词的最终词权重,包括:
以所述待分析文章中的词为词节点、所述待分析文章中正文句子为句子节点、所述待分析文章的标题为标题节点,将所述词节点分别与其所属的句子节点/标题节点相连,句子节点与标题节点相连,构建词权重图,其中,词节点与句子节点/标题节点相连的边的权重取所述词的初始词权重,所述句子节点与标题节点相连的边的权重取所述正文句子与所述标题的相似度值;
基于所述词权重图中进行迭代收敛计算,得到所述词节点中词的最终词权重。
7.根据权利要求6所述的方法,其特征在于所述对所述词权重图中的节点的权重值进行迭代收敛计算,包括:
采用预设的网页级别算法对所述词权重图中的词节点权重值进行迭代收敛计算,得到所述词节点中词的最终词权重。
8.一种分析文章中词的装置,其特征在于,包括:
获取模块,用于获取待分析文章,所述待分析文章包含至少一个句子;
初始词权重分析模块,用于分析计算所述待分析文章的句子中词的初始词权重,所述句子至少包括文章的标题和至少一个文章的正文句子;
相似度分析模块,用于分析计算所述待分析文章中正文句子与标题的相似度;
最终词权重分析模块,根据所述词的初始词权重、所述相似度以及句子与词的对应关系进行迭代收敛处理,得到所述待分析文章中词的最终词权重,所述最终词权重的取值不大于1且不小于0。
9.一种存储介质,其特征在于,包括:至少一条指令用以使得终端设备执行如权利要求1-7所述的方法。
10.一种电子设备,其特征在于,包括:存储介质;
所述存储介质,包括至少一条指令用以使得终端设备执行如权利要求1-7所述的方法。
CN201910549712.1A 2019-06-24 2019-06-24 一种分析文章中词的方法和装置、存储介质以及电子设备 Active CN110287280B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910549712.1A CN110287280B (zh) 2019-06-24 2019-06-24 一种分析文章中词的方法和装置、存储介质以及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910549712.1A CN110287280B (zh) 2019-06-24 2019-06-24 一种分析文章中词的方法和装置、存储介质以及电子设备

Publications (2)

Publication Number Publication Date
CN110287280A true CN110287280A (zh) 2019-09-27
CN110287280B CN110287280B (zh) 2023-09-29

Family

ID=68004710

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910549712.1A Active CN110287280B (zh) 2019-06-24 2019-06-24 一种分析文章中词的方法和装置、存储介质以及电子设备

Country Status (1)

Country Link
CN (1) CN110287280B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113449078A (zh) * 2021-06-25 2021-09-28 完美世界控股集团有限公司 相似新闻识别方法、设备、系统及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105589847A (zh) * 2015-12-22 2016-05-18 北京奇虎科技有限公司 带权重的文章标识方法和装置
CN105653704A (zh) * 2015-12-31 2016-06-08 南京财经大学 自动摘要生成方法及装置
US20160335234A1 (en) * 2014-05-23 2016-11-17 Codeq Llc Systems and Methods for Generating Summaries of Documents
CN106897267A (zh) * 2017-02-27 2017-06-27 广州阿里巴巴文学信息技术有限公司 文章缩略文意生成方法、装置及服务器
CN107133213A (zh) * 2017-05-06 2017-09-05 广东药科大学 一种基于算法的文本摘要自动提取方法与系统
CN107832299A (zh) * 2017-11-17 2018-03-23 北京百度网讯科技有限公司 基于人工智能的标题的改写处理方法、装置及可读介质
CN109325235A (zh) * 2018-10-17 2019-02-12 武汉斗鱼网络科技有限公司 一种基于词权的文本摘要提取方法及计算装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160335234A1 (en) * 2014-05-23 2016-11-17 Codeq Llc Systems and Methods for Generating Summaries of Documents
CN105589847A (zh) * 2015-12-22 2016-05-18 北京奇虎科技有限公司 带权重的文章标识方法和装置
CN105653704A (zh) * 2015-12-31 2016-06-08 南京财经大学 自动摘要生成方法及装置
CN106897267A (zh) * 2017-02-27 2017-06-27 广州阿里巴巴文学信息技术有限公司 文章缩略文意生成方法、装置及服务器
CN107133213A (zh) * 2017-05-06 2017-09-05 广东药科大学 一种基于算法的文本摘要自动提取方法与系统
CN107832299A (zh) * 2017-11-17 2018-03-23 北京百度网讯科技有限公司 基于人工智能的标题的改写处理方法、装置及可读介质
CN109325235A (zh) * 2018-10-17 2019-02-12 武汉斗鱼网络科技有限公司 一种基于词权的文本摘要提取方法及计算装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113449078A (zh) * 2021-06-25 2021-09-28 完美世界控股集团有限公司 相似新闻识别方法、设备、系统及存储介质

Also Published As

Publication number Publication date
CN110287280B (zh) 2023-09-29

Similar Documents

Publication Publication Date Title
CN108829822B (zh) 媒体内容的推荐方法和装置、存储介质、电子装置
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN107229668B (zh) 一种基于关键词匹配的正文抽取方法
CN105302810B (zh) 一种信息搜索方法和装置
CN108280114B (zh) 一种基于深度学习的用户文献阅读兴趣分析方法
JP5216063B2 (ja) 未登録語のカテゴリを決定する方法と装置
CN109388743B (zh) 语言模型的确定方法和装置
CN111291188B (zh) 一种智能信息抽取方法及系统
CN106294733B (zh) 基于文本分析的网页检测方法
CN108419094A (zh) 视频处理方法、视频检索方法、装置、介质及服务器
CN110162630A (zh) 一种文本去重的方法、装置及设备
CN105740448B (zh) 面向话题的多微博时序文摘方法
CN109829045A (zh) 一种问答方法和装置
CN112115716A (zh) 一种基于多维词向量下文本匹配的服务发现方法、系统及设备
CN116304066B (zh) 一种基于提示学习的异质信息网络节点分类方法
CN112084435A (zh) 搜索排序模型训练方法及装置、搜索排序方法及装置
CN114201683A (zh) 一种基于多级匹配的兴趣激活新闻推荐方法及系统
KR102091633B1 (ko) 연관법령 제공 방법
CN113806554A (zh) 面向海量会议文本的知识图谱构建方法
Celikyilmaz et al. Leveraging web query logs to learn user intent via bayesian latent variable model
CN113806483B (zh) 数据处理方法、装置、电子设备及计算机程序产品
CN104021202B (zh) 一种知识共享平台的词条处理装置和方法
CN108345694B (zh) 一种基于主题数据库的文献检索方法及系统
CN106294295B (zh) 基于词频的文章相似度识别方法
CN110287280A (zh) 一种分析文章中词的方法和装置、存储介质以及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant