CN105243053A - 提取文档关键句的方法及装置 - Google Patents

提取文档关键句的方法及装置 Download PDF

Info

Publication number
CN105243053A
CN105243053A CN201510587652.4A CN201510587652A CN105243053A CN 105243053 A CN105243053 A CN 105243053A CN 201510587652 A CN201510587652 A CN 201510587652A CN 105243053 A CN105243053 A CN 105243053A
Authority
CN
China
Prior art keywords
vector
sentence
document
critical
new formula
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510587652.4A
Other languages
English (en)
Other versions
CN105243053B (zh
Inventor
姜迪
石磊
连荣忠
殷瑞
蒋佳军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201510587652.4A priority Critical patent/CN105243053B/zh
Publication of CN105243053A publication Critical patent/CN105243053A/zh
Application granted granted Critical
Publication of CN105243053B publication Critical patent/CN105243053B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种提取文档关键句的方法及装置,其中所述方法包括:根据层级语义向量模型训练得到与文档相关的句子向量和文档向量,所述层级语义向量模型包含预先根据文档训练资料库训练得到的句子向量更新公式和文档向量更新公式;计算所述句子向量和所述文档向量之间的相关性;选取所述相关性满足预设条件的句子向量对应的句子作为所述文档的第一关键句。本发明实施例能够提取出的精确表达文档信息的关键句。

Description

提取文档关键句的方法及装置
技术领域
本发明实施例涉及信息技术领域,尤其涉及一种提取文档关键句的方法及装置。
背景技术
在互联网快速发展的今天,信息获取已不再是一个难题,而如何从成千上万的信息中快速筛选出有效信息才是我们面临的挑战。而文档关键句可以简明扼要地归纳文档信息,不仅可以使用户快速获取文档的主要信息,而且显著降低了用户获取信息的时间成本。然而,如何从包含大量信息的文档中自动提取出关键句仍然存在巨大的挑战。
目前,文档关键句抽取的方法,主要是利用了词频、位置和关键词等统计信息对文档信息进行抽取,得到关键句。主要包括以下步骤:A、统计文档中出现的高频词汇;B、定位高频词汇所在的句子;C、根据句子在文档中的出现位置及句子中包含的关键词,对每个句子进行评分;D、将评分最高的句子作为文档的关键句。
但是,上述关键词提取方法只利用到了词频和位置等信息,忽略了语义上的信息,生成的关键句并不能精确反应文档的信息。
发明内容
本发明实施例提供一种提取文档关键句的方法及装置,能够精确提取出表达文档信息的关键句。
第一方面,本发明实施例提供了一种提取文档关键句的方法,包括:
根据层级语义向量模型训练得到与文档相关的句子向量和文档向量,所述层级语义向量模型包含预先根据文档训练资料库训练得到的句子向量更新公式和文档向量更新公式;
计算所述句子向量和所述文档向量之间的相关性;
选取所述相关性满足预设条件的句子向量对应的句子作为所述文档的第一关键句。
第二方面,本发明实施例还提供一种提取文档关键句的装置,包括:
向量训练模块,用于根据层级语义向量模型训练得到与文档相关的句子向量和文档向量,所述层级语义向量模型包含预先根据文档训练资料库训练得到的句子向量更新公式和文档向量更新公式;
相关性计算模块,用于计算所述句子向量和所述文档向量之间的相关性;
关键句选取模块,用于选取所述相关性满足预设条件的句子向量对应的句子作为所述文档的第一关键句。
本发明实施例通过根据层级语义向量模型训练得到与文档相关的句子向量和文档向量,所述层级语义向量模型包含预先根据文档训练资料库训练得到的句子向量更新公式和文档向量更新公式;计算所述句子向量和所述文档向量之间的相关性;选取所述相关性满足预设条件的句子向量对应的句子作为所述文档的第一关键句。本发明实施例能够提取出的精确表达文档信息的关键词信息。
附图说明
图1为本发明实施例一提供的提取文档关键句的方法的流程示意图;
图2为本发明实施例二提供的提取文档关键句的装置的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
本发明实施例提供的提取文档关键句的方法的执行主体,可为本发明实施例提供的提取文档关键句的装置,或者集成了提取文档关键句的装置的终端设备(例如,智能手机、平板电脑等),该提取文档关键句的装置可以采用硬件或软件实现。
实施例一
图1为本发明实施例一提供的提取文档关键句的方法的流程示意图,如图1所示,具体包括:
S11、根据层级语义向量模型训练得到与文档相关的句子向量和文档向量,所述层级语义向量模型包含预先根据文档训练资料库训练得到的句子向量更新公式和文档向量更新公式;
其中,句子向量和文档向量的维数可自定义设置。
具体的,根据文档中的词、句子信息采用所述层级语义向量模型中包含的句子向量更新公式训练得到句子向量,进一步根据句子向量采用所述层级语义向量模型中包含的文档向量更新公式训练得到文档向量。
S12、计算所述句子向量和所述文档向量之间的相关性;
其中,相关性表述了所述句子向量和所述文档向量之间关联,当相关性越高时,则表明所述句子向量能够准确的表示所述文档的重要内容。
S13、选取所述相关性满足预设条件的句子向量对应的句子作为所述文档的第一关键句。
其中,预设条件可设为获取的关键句的数量上限,或者相关性下限。所述相关性可采用计算所述句子向量与所述文档向量之间的余弦距离、欧式距离或正选距离来进行衡量。
具体的,当所述预设条件为获取的关键句的数量上限时,则将计算得到的各句子向量与文档向量的相关性按照由高到低的顺序进行排序,按照相关性从高到低选取满足数量的关键句作为第一关键句。当所述预设条件为相关性下限时,则将计算得到的各句子向量与文档向量的相关性按照由高到低的顺序进行排序,按照相关性从高到低选取相关性超过下限的关键句作为第一关键句。
本实施例通过根据层级语义向量模型训练得到与文档相关的句子向量和文档向量,所述层级语义向量模型包含预先根据文档训练资料库训练得到的句子向量更新公式和文档向量更新公式;计算所述句子向量和所述文档向量之间的相关性;选取所述相关性满足预设条件的句子向量对应的句子作为所述文档的第一关键句。本实施例能够提取出的精确表达文档信息的关键词信息。
示例性的,在上述实施例的基础上,本发明实施例还提供了层级语义向量模型的建立过程,具体的主要包括:
根据所述文档训练资料库,为所述训练资料库中的每个文档分别构建初始词向量、初始句子向量和初始文档向量;
根据所述文档训练资料库的初始词向量、初始句子向量和初始文档向量建立所述文档训练资料库中所有文档的联合似然函数;
对所述联合似然函数进行参数估计得到所述词向量更新公式、句子向量更新公式和文档向量更新公式。
具体的,将文档训练资料库中的文档作为输入语料,并为所述训练资料库中的每个文档分别构建初始词向量、初始句子向量和初始文档向量,建立所述初始词向量、初始句子向量和初始文档向量建立所述文档训练资料库中所有文档的联合似然函数。其中,所述联合似然函数如下述公式一所示:
其中,xW表示当前词w的上下文向量,u为当前词w的词向量v的辅助向量,v为当前词w所在句子s的句子向量,v为文档向量,为损失函数。
通过对上述联合似然函数进行参数估计,可得到所述词向量更新公式、句子向量更新公式和文档向量更新公式。
其中,所述词向量更新公式如下述公式二所示:
v w : = v w + η v s v w · v w v s · v s - ( v w · v s ) v s · v s 1 v w · v w v w ( v s · v s ) * ( v w · v w )
具体的,为了验证本发明实施例提供的采用层级语义向量模型训练得到的词相关的有效性,分别在不同规模的实验数据集上进行了多组词相关性的对比实验,实验效果均超过了传统基于主题模型的方法的最佳结果:
实验目的:人工标注的具有相似性的词在词向量空间同样具有相似性。
训练数据:从网页中抓取的1G文档
测试数据:word240和word279,分别包含240对、279对词,每组词包含一个人工对其相似性的打分。
评估方法:分别使用层级语义向量模型、CBOW和skipGram模型训练得到的词向量,计算上述数据集中每对词的cosin距离,每个数据集可以得到一个包含cosin距离的向量以及包含人工打分的向量,通过计算两者的spearman相关系数来判断模型的优劣。
实验设置:分别考虑了文档内句子向量依赖、独立两种情况,层级语义向量模型分别表示为MLSM-d、MLSM-i,并且将上述两种模型与CBOW和skipGram模型进行比较。
实验结果:
实验结果分析:从上述实验结果可以看出,无论是否考虑句子向量间的依赖性,本发明实施例提出的基于层级化向量语义模型的词相关性的结果都优于仅考虑词向量的语义模型。同时当考虑了文档间词向量的依赖性时,能进一步提升模型的语义表达力。
其中,所述句子向量更新公式如下述公式三所示:
v s : = v s + η v w v s · v s v w · v w - ( v w · v s ) v w · v w 1 v s · v s v s ( v s · v s ) * ( v w · v w )
所述文档更新公式如下述公式四所示:
v d : = v d + η v s v s · v s v d · v d - ( v d · v s ) v s · v s 1 v d · v d v d ( v s · v s ) * ( v d · v d )
示例性的,在上述层级语义向量模型的基础上,根据层级语义向量模型训练得到与文档信息相关的句子向量和文档向量进一步包括:
获取所述文档中包含的词和句子,为每个词分别定义初始词向量、为每个句子分别定义初始句子向量,为所述文档定义初始文档向量;
采用所述层级语义向量模型的词向量更新公式更新所述初始词向量,得到所述文档中每个词对应的词向量;
将所述词向量作为已知向量,根据所述词向量采用所述句子向量更新公式更新所述初始句子向量,得到所述文档中每个句子对应的句子向量;
将所述句子向量作为已知向量,根据所述句子向量采用所述文档向量更新公式更新所述初始文档向量,得到所述文档对应的文档向量。
具体的,在更新所述词向量时,采用上述公式二进行更新。在更新所述句子向量时,针对所述句子中包含的每个词对应的词向量,将所述词向量作为已知向量,依次采用上述公式三对所述初始句子向量进行更新,得到所述文档中每个句子对应的句子向量。同理,在更新所述文档向量时,针对所述文档中包含的每个句子对应的句子向量,将所述句子向量作为已知向量,依次采用上述公式四对所述初始文档向量进行更新,得到所述文档的文档向量。
示例性的,为使选取出的第一关键句更为精确,所述选取所述相关性满足预设条件的句子向量对应的句子作为所述文档的第一关键句进一步包括:
选取与所述文档向量相关性最高的句子向量对应的句子作为所述文档的第一关键句。
相应的,本发明实施例还包括根据选取的关键句组成文档摘要的相关操作,具体的,选取与所述文档向量相关性最高的句子向量对应的句子作为所述文档的第一关键句之后还包括:
计算所述第一关键句与其它句子向量的冗余距离;
计算其它各句子向量和所述文档向量之间的距离与对应的冗余距离之间的差值;
用所述差值表示其它各句子向量和所述文档向量之间的相关性;
从其它各句子向量中选取与所述文档向量相关性最高的句子向量作为所述第一关键句,返回执行计算冗余距离操作,直至达到结束条件;
将每次循环计算得到的所述第一关键句作为所述文档的摘要返回用户。
具体的,为了验证根据本发明实施例提供的层级语义向量模型训练得到的关键句组成的摘要的有效性,进行了如下实验,实验效果均超过了传统基于主题模型的方法的最佳结果:
实验目的:验证层级化语义模型表示的文档关键句组成的摘要的效果
训练数据:从网页中抓取的1G文档
测试数据:人为概括摘要的118个文档,含摘要
评估方法:Rouge-1评估
R O U G E - N = Σ S ∈ { Re f S u m m a r i e s } Σ n - g r a m ∈ S Count m a t c h ( n - g r a m ) Σ S ∈ { Re f S u m m a r i e s } Σ n - g r a m ∈ S C o u n t ( n - g r a m )
其中,RefSummaries表示人为概括摘要,N取1,按单个字进行匹配,n-gram表示n元词,Countmatch(n-gram)表示本发明实施例提供的摘要和人为概括摘要中同时出现n-gram的个数,Count(n-gram)则表示人为概括摘要中出现的n-gram个数。
实验设置:按照上文的步骤,计算rouge-1得分,跟传统的方法进行比较。
实验结果:
News-test Web-test
传统方法 46.96 52.10
层级语义模型 47.25 52.31
其中,News-test和Web-test为两种不同的测试机。
实验结果分析:加入了语义信息之后,效果得到了0.2-0.3的提升,证明融合层级化语义向量表示的文档关键句抽取方法具有很好的效果。
上述各实施例同样通过根据层级语义向量模型训练得到与文档相关的句子向量和文档向量,所述层级语义向量模型包含预先根据文档训练资料库训练得到的句子向量更新公式和文档向量更新公式;计算所述句子向量和所述文档向量之间的相关性;选取所述相关性满足预设条件的句子向量对应的句子作为所述文档的第一关键句,能够提取出的精确表达文档信息的关键词信息。
实施例三
图2为本发明实施例二提供的提取文档关键句的装置的结构示意图,如图2所示,具体包括:向量训练模块21、相关性计算模块22和关键句选取模块23;
所述向量训练模块21用于根据层级语义向量模型训练得到与文档相关的句子向量和文档向量,所述层级语义向量模型包含预先根据文档训练资料库训练得到的句子向量更新公式和文档向量更新公式;
所述相关性计算模块22用于计算所述句子向量和所述文档向量之间的相关性;
所述关键句选取模块23用于选取所述相关性满足预设条件的句子向量对应的句子作为所述文档的第一关键句。
本实施例所述的提取文档关键句的装置同样用于执行上述各实施例所述的提取文档关键句的方法,其技术原理和产生的技术效果类似,这里不再累述。
示例性的,在上述实施例的基础上,所述向量训练模块21具体用于:
获取所述文档中包含的词和句子,为每个词分别定义初始词向量、为每个句子分别定义初始句子向量,为所述文档定义初始文档向量;采用所述层级语义向量模型的词向量更新公式更新所述初始词向量,得到所述文档中每个词对应的词向量;将所述词向量作为已知向量,根据所述词向量采用所述句子向量更新公式更新所述初始句子向量,得到所述文档中每个句子对应的句子向量;将所述句子向量作为已知向量,根据所述句子向量采用所述文档向量更新公式更新所述初始文档向量,得到所述文档对应的文档向量。
示例性的,在上述实施例的基础上,所述关键句选取模块23具体用于:
选取与所述文档向量相关性最高的句子向量对应的句子作为所述文档的第一关键句。
示例性的,在上述实施例的基础上,所述装置还包括:冗余距离计算模块24和摘要生成模块25;
所述冗余距离计算模块24用于在所述关键句选取模块23选取与所述文档向量相关性最高的句子向量对应的句子作为所述文档的第一关键句之后,计算所述第一关键句与其它句子向量的冗余距离;
所述相关性计算模块22具体用于计算其它各句子向量和所述文档向量之间的距离与对应的冗余距离之间的差值,用所述差值表示其它各句子向量和所述文档向量之间的相关性;
所述关键句选取模块23具体用于从其它各句子向量中选取与所述文档向量相关性最高的句子向量作为所述第一关键句,返回所述冗余距离计算模块执行计算冗余距离操作,直至达到结束条件;
所述摘要生成模块25用于将每次循环计算得到的所述第一关键句作为所述文档的摘要返回用户。
示例性的,在上述实施例的基础上,所述装置还包括:层级语义向量模型训练模块26;
所述层级语义向量模型训练模块26用于根据所述文档训练资料库,为所述训练资料库中的每个文档分别构建初始词向量、初始句子向量和初始文档向量;根据所述文档训练资料库的初始词向量、初始句子向量和初始文档向量建立所述文档训练资料库中所有文档的联合似然函数;对所述联合似然函数进行参数估计得到所述词向量更新公式、句子向量更新公式和文档向量更新公式。
示例性的,在上述实施例的基础上,所述相关性为所述句子向量与所述文档向量之间的余弦距离。
上述各实施例所述的提取文档关键句的装置同样用于执行上述各实施例所述的提取文档关键句的方法,其技术原理和产生的技术效果类似,这里不再累述。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (12)

1.一种提取文档关键句的方法,其特征在于,包括:
根据层级语义向量模型训练得到与文档相关的句子向量和文档向量,所述层级语义向量模型包含预先根据文档训练资料库训练得到的句子向量更新公式和文档向量更新公式;
计算所述句子向量和所述文档向量之间的相关性;
选取所述相关性满足预设条件的句子向量对应的句子作为所述文档的第一关键句。
2.根据权利要求1所述的方法,其特征在于,根据层级语义向量模型训练得到与文档信息相关的句子向量和文档向量,包括:
获取所述文档中包含的词和句子,为每个词分别定义初始词向量、为每个句子分别定义初始句子向量,为所述文档定义初始文档向量;
采用所述层级语义向量模型的词向量更新公式更新所述初始词向量,得到所述文档中每个词对应的词向量;
将所述词向量作为已知向量,根据所述词向量采用所述句子向量更新公式更新所述初始句子向量,得到所述文档中每个句子对应的句子向量;
将所述句子向量作为已知向量,根据所述句子向量采用所述文档向量更新公式更新所述初始文档向量,得到所述文档对应的文档向量。
3.根据权利要求1所述的方法,其特征在于,选取所述相关性满足预设条件的句子向量对应的句子作为所述文档的第一关键句,包括:
选取与所述文档向量相关性最高的句子向量对应的句子作为所述文档的第一关键句。
4.根据权利要求3所述的方法,其特征在于,选取与所述文档向量相关性最高的句子向量对应的句子作为所述文档的第一关键句之后还包括:
计算所述第一关键句与其它句子向量的冗余距离;
计算其它各句子向量和所述文档向量之间的距离与对应的冗余距离之间的差值;
用所述差值表示其它各句子向量和所述文档向量之间的相关性;
从其它各句子向量中选取与所述文档向量相关性最高的句子向量作为所述第一关键句,返回执行计算冗余距离操作,直至达到结束条件;
将每次循环计算得到的所述第一关键句作为所述文档的摘要返回用户。
5.根据权利要求1~4任一项所述的方法,其特征在于,建立所述层级语义向量模型包括:
根据所述文档训练资料库,为所述训练资料库中的每个文档分别构建初始词向量、初始句子向量和初始文档向量;
根据所述文档训练资料库的初始词向量、初始句子向量和初始文档向量建立所述文档训练资料库中所有文档的联合似然函数;
对所述联合似然函数进行参数估计得到所述词向量更新公式、句子向量更新公式和文档向量更新公式。
6.根据权利要求1~4任一项所述的方法,其特征在于,所述相关性为所述句子向量与所述文档向量之间的余弦距离。
7.一种提取文档关键句的装置,其特征在于,包括:
向量训练模块,用于根据层级语义向量模型训练得到与文档相关的句子向量和文档向量,所述层级语义向量模型包含预先根据文档训练资料库训练得到的句子向量更新公式和文档向量更新公式;
相关性计算模块,用于计算所述句子向量和所述文档向量之间的相关性;
关键句选取模块,用于选取所述相关性满足预设条件的句子向量对应的句子作为所述文档的第一关键句。
8.根据权利要求7所述的装置,其特征在于,所述向量训练模块具体用于:
获取所述文档中包含的词和句子,为每个词分别定义初始词向量、为每个句子分别定义初始句子向量,为所述文档定义初始文档向量;采用所述层级语义向量模型的词向量更新公式更新所述初始词向量,得到所述文档中每个词对应的词向量;将所述词向量作为已知向量,根据所述词向量采用所述句子向量更新公式更新所述初始句子向量,得到所述文档中每个句子对应的句子向量;将所述句子向量作为已知向量,根据所述句子向量采用所述文档向量更新公式更新所述初始文档向量,得到所述文档对应的文档向量。
9.根据权利要求7所述的装置,其特征在于,所述关键句选取模块具体用于:
选取与所述文档向量相关性最高的句子向量对应的句子作为所述文档的第一关键句。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
冗余距离计算模块,用于在所述关键句选取模块选取与所述文档向量相关性最高的句子向量对应的句子作为所述文档的第一关键句之后,计算所述第一关键句与其它句子向量的冗余距离;
所述相关性计算模块,具体用于计算其它各句子向量和所述文档向量之间的距离与对应的冗余距离之间的差值,用所述差值表示其它各句子向量和所述文档向量之间的相关性;
所述关键句选取模块,具体用于从其它各句子向量中选取与所述文档向量相关性最高的句子向量作为所述第一关键句,返回所述冗余距离计算模块执行计算冗余距离操作,直至达到结束条件;
摘要生成模块,用于将每次循环计算得到的所述第一关键句作为所述文档的摘要返回用户。
11.根据权利要求7~10任一项所述的装置,其特征在于,还包括:
层级语义向量模型训练模块,用于根据所述文档训练资料库,为所述训练资料库中的每个文档分别构建初始词向量、初始句子向量和初始文档向量;根据所述文档训练资料库的初始词向量、初始句子向量和初始文档向量建立所述文档训练资料库中所有文档的联合似然函数;对所述联合似然函数进行参数估计得到所述词向量更新公式、句子向量更新公式和文档向量更新公式。
12.根据权利要求7~10任一项所述的装置,其特征在于,所述相关性为所述句子向量与所述文档向量之间的余弦距离。
CN201510587652.4A 2015-09-15 2015-09-15 提取文档关键句的方法及装置 Active CN105243053B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510587652.4A CN105243053B (zh) 2015-09-15 2015-09-15 提取文档关键句的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510587652.4A CN105243053B (zh) 2015-09-15 2015-09-15 提取文档关键句的方法及装置

Publications (2)

Publication Number Publication Date
CN105243053A true CN105243053A (zh) 2016-01-13
CN105243053B CN105243053B (zh) 2018-02-09

Family

ID=55040705

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510587652.4A Active CN105243053B (zh) 2015-09-15 2015-09-15 提取文档关键句的方法及装置

Country Status (1)

Country Link
CN (1) CN105243053B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108319581A (zh) * 2017-01-17 2018-07-24 科大讯飞股份有限公司 一种自然语言语句评价方法及装置
CN108733682A (zh) * 2017-04-14 2018-11-02 华为技术有限公司 一种生成多文档摘要的方法及装置
CN108810446A (zh) * 2018-06-07 2018-11-13 北京智能管家科技有限公司 一种视频会议的标签生成方法、装置、设备和介质
CN109241525A (zh) * 2018-08-20 2019-01-18 深圳追科技有限公司 关键词的提取方法、装置和系统
CN110597976A (zh) * 2019-09-16 2019-12-20 北京金山数字娱乐科技有限公司 一种关键句提取方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101408883A (zh) * 2008-11-24 2009-04-15 电子科技大学 一种网络舆情观点收集方法
US20110231430A1 (en) * 2010-03-18 2011-09-22 Konica Minolta Business Technologies, Inc. Content collecting apparatus, content collecting method, and non-transitory computer-readable recording medium encoded with content collecting program
JP2015088064A (ja) * 2013-10-31 2015-05-07 日本電信電話株式会社 テキスト要約装置、方法、及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101408883A (zh) * 2008-11-24 2009-04-15 电子科技大学 一种网络舆情观点收集方法
US20110231430A1 (en) * 2010-03-18 2011-09-22 Konica Minolta Business Technologies, Inc. Content collecting apparatus, content collecting method, and non-transitory computer-readable recording medium encoded with content collecting program
JP2015088064A (ja) * 2013-10-31 2015-05-07 日本電信電話株式会社 テキスト要約装置、方法、及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张明慧 等: "基于LDA主题特征的自动文摘方法", 《计算机应用与软件》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108319581A (zh) * 2017-01-17 2018-07-24 科大讯飞股份有限公司 一种自然语言语句评价方法及装置
CN108319581B (zh) * 2017-01-17 2021-10-08 科大讯飞股份有限公司 一种自然语言语句评价方法及装置
CN108733682A (zh) * 2017-04-14 2018-11-02 华为技术有限公司 一种生成多文档摘要的方法及装置
CN108810446A (zh) * 2018-06-07 2018-11-13 北京智能管家科技有限公司 一种视频会议的标签生成方法、装置、设备和介质
CN109241525A (zh) * 2018-08-20 2019-01-18 深圳追科技有限公司 关键词的提取方法、装置和系统
CN109241525B (zh) * 2018-08-20 2022-05-06 深圳追一科技有限公司 关键词的提取方法、装置和系统
CN110597976A (zh) * 2019-09-16 2019-12-20 北京金山数字娱乐科技有限公司 一种关键句提取方法及装置
CN110597976B (zh) * 2019-09-16 2022-11-15 北京金山数字娱乐科技有限公司 一种关键句提取方法及装置

Also Published As

Publication number Publication date
CN105243053B (zh) 2018-02-09

Similar Documents

Publication Publication Date Title
CN104408093B (zh) 一种新闻事件要素抽取方法与装置
CN106055538B (zh) 主题模型和语义分析相结合的文本标签自动抽取方法
CN105243053A (zh) 提取文档关键句的方法及装置
CN105069143B (zh) 提取文档中关键词的方法及装置
CN103150405B (zh) 一种分类模型建模方法、中文跨文本指代消解方法和系统
CN104199972A (zh) 一种基于深度学习的命名实体关系抽取与构建方法
CN105844424A (zh) 基于网络评论的产品质量问题发现及风险评估方法
CN101127042A (zh) 一种基于语言模型的情感分类方法
CN104239554A (zh) 跨领域跨类别的新闻评论情绪预测方法
CN104756100A (zh) 意图估计装置以及意图估计方法
CN103473380B (zh) 一种计算机文本情感分类方法
CN103377239A (zh) 计算文本间相似度的方法和装置
CN105843796A (zh) 一种微博情感倾向分析方法及装置
CN105677857B (zh) 一种关键词与营销落地页的精准匹配方法和装置
CN104063502A (zh) 一种基于语义模型的wsdl半结构化文档相似性分析及分类方法
CN103577989A (zh) 一种基于产品识别的信息分类方法及信息分类系统
CN102693279A (zh) 一种快速计算评论相似度的方法、装置及系统
US11132389B2 (en) Method and apparatus with latent keyword generation
CN106874258A (zh) 一种基于汉字属性向量表示的文本相似性计算方法及系统
CN105550170A (zh) 一种中文分词方法及装置
CN112818093A (zh) 基于语义匹配的证据文档检索方法、系统及存储介质
CN111694937A (zh) 基于人工智能的面试方法、装置、计算机设备及存储介质
CN104794108A (zh) 网页标题抽取方法及其装置
CN112100365A (zh) 双阶段文本摘要方法
CN108363688A (zh) 一种融合先验信息的命名实体链接方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant