CN110781669A - 文本关键信息提取方法与装置、电子设备、存储介质 - Google Patents
文本关键信息提取方法与装置、电子设备、存储介质 Download PDFInfo
- Publication number
- CN110781669A CN110781669A CN201911016045.7A CN201911016045A CN110781669A CN 110781669 A CN110781669 A CN 110781669A CN 201911016045 A CN201911016045 A CN 201911016045A CN 110781669 A CN110781669 A CN 110781669A
- Authority
- CN
- China
- Prior art keywords
- participle
- clause
- weight
- participles
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开涉及一种文本关键信息提取方法及装置、电子设备、计算机可读存储介质,属于自然语言处理技术领域。该方法包括:对所获取的文本进行分句,从得到的多个子句中选取包含预设数量个目标分词的子句,所述目标分词是从所述文本中选取的关键词;针对所选取的每个子句,根据该子句中包含的目标分词的数量和权重,确定该子句的权重;对所选取的子句的权重进行从大到小排序,选取前N个子句作为所述文本的关键信息,N为正整数。本公开可以提高关键信息提取的准确性,并减小关键信息提取时的计算量。
Description
技术领域
本公开涉及自然语言处理技术领域,尤其涉及一种文本关键信息提取方法、文本关键信息提取装置、电子设备及计算机可读存储介质。
背景技术
关键信息提取是自然语言处理领域的基础技术,它为诸如情感分析、文本分类、智能问答系统等许多文本分析业务场景提供支撑。根据粒度不同,关键信息提取可以包括:关键词提取和摘要提取。关键信息提取是自然语言处理中较为底层的技术,其准确性和性能将直接影响着上层文本分析任务的准确率和执行效率。
相关技术中,可以通过TextRank算法提取关键信息,TextRank基于Google的PageRank算法改进而来,关键词提取任务中应用较多,其优点是不需要分析全部语料,就可以提取出效果较好的关键信息。然而,通过TextRank算法提取关键词时,容易受词频影响;在短文本中应用效果不佳;并且短文本无法通过TextRank算法提取摘要。通过TextRank算法提取长文摘要时,计算量大、容易丢失关键信息。可见,现有方法提取关键信息时准确性低,计算量大。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种文本关键信息提取方法、文本关键信息提取装置、电子设备及计算机可读存储介质,进而至少在一定程度上克服由于现有技术的限制和缺陷而导致的提取文本关键信息时准确性低及计算量大的问题。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的一个方面,提供一种文本关键信息提取方法,所述方法包括:
对所获取的文本进行分句,从得到的多个子句中选取包含预设数量个目标分词的子句,所述目标分词是从所述文本中选取的关键词;
针对所选取的每个子句,根据该子句中包含的目标分词的数量和权重,确定该子句的权重;
对所选取的子句的权重进行从大到小排序,选取前N个子句作为所述文本的关键信息,N为正整数。
在本公开的一种示例性实施例中,所述目标分词的选取方法,包括:
对所述文本进行分词处理得到多个分词,针对每个分词,根据共现窗口确定所述多个分词中与该分词相关联的分词;
针对每个分词,确定该分词和与该分词相关联的分词之间的关联度;根据所述多个分词中相关联的分词之间的关联度,确定每个分词的权重;
对所述多个分词的权重进行从大到小排序,选取前M个分词作为所述目标分词,M为正整数。
在本公开的一种示例性实施例中,所述根据该子句中包含的目标分词的数量和权重,确定该子句的权重,包括:
将该子句中包含的目标分词的权重的平方之和与该子句中包含的目标分词的数量的乘积,作为该子句的权重。
在本公开的一种示例性实施例中,所述根据该子句中包含的目标分词的数量和权重,确定该子句的权重,包括:
对该子句中包含的目标分词的权重进行归一化处理,得到归一化权重;
将该子句中包含的目标分词的归一化权重的平方之和与该子句中包含的目标分词的数量的乘积,作为该子句的权重。
在本公开的一种示例性实施例中,所述确定该分词和与该分词相关联的分词之间的关联度,包括:
将该分词输入Word2vec模型,得到第一词向量;
将与该分词相关联的分词输入所述Word2vec模型,得到第二词向量;
将所述第一词向量和所述第二词向量之间的相似度,作为该分词和与该分词相关联的分词之间的关联度。
在本公开的一种示例性实施例中,所述根据所述多个分词中相关联的分词之间的关联度,确定每个分词的权重,包括:
其中,d表示阻尼系数,ωji表示分词Vj和分词Vi之间的关联度,ωjk表示分词Vj和分词Vk之间的关联度,WS(Vj)表示分词Vj的权重,In(Vi)表示与分词Vi相关联,且位于分词Vi之前的分词的集合,Out(Vj)表示与分词Vj相关联,且位于分词Vj之后的分词的集合。
在本公开的一种示例性实施例中,所述针对每个分词,根据共现窗口确定所述多个分词中与该分词相关联的分词,包括:
针对每个分词,将所述多个分词中与该分词出现在同一共现窗口的分词,作为与该分词相关联的分词。
根据本公开的一个方面,提供一种文本关键信息提取装置,所述装置包括:
子句选取模块,用于对所获取的文本进行分句,从得到的多个子句中选取包含预设数量个目标分词的子句,所述目标分词是从所述文本中选取的关键词;
子句权重确定模块,用于针对所选取的每个子句,根据该子句中包含的目标分词的数量和权重,确定该子句的权重;
关键信息确定模块,用于对所选取的子句的权重进行从大到小排序,选取前N个子句作为所述文本的关键信息,N为正整数。
在本公开的一种示例性实施例中,所述装置,还包括:
关联分词确定模块,用于对所述文本进行分词处理得到多个分词,针对每个分词,根据共现窗口确定所述多个分词中与该分词相关联的分词;
关联度确定模块,用于针对每个分词,确定该分词和与该分词相关联的分词之间的关联度;
分词权重确定模块,用于根据所述多个分词中相关联的分词之间的关联度,确定每个分词的权重;
目标分词确定模块,用于对所述多个分词的权重进行从大到小排序,选取前M个分词作为所述目标分词,M为正整数。
在本公开的一种示例性实施例中,所述子句权重确定模块,具体用于将该子句中包含的目标分词的权重的平方之和与该子句中包含的目标分词的数量的乘积,作为该子句的权重。
在本公开的一种示例性实施例中,所述子句权重确定模块,具体用于对该子句中包含的目标分词的权重进行归一化处理,得到归一化权重;将该子句中包含的目标分词的归一化权重的平方之和与该子句中包含的目标分词的数量的乘积,作为该子句的权重。
在本公开的一种示例性实施例中,所述关联度确定模块,具体用于将该分词输入Word2vec模型,得到第一词向量;将与该分词相关联的分词输入所述Word2vec模型,得到第二词向量;将所述第一词向量和所述第二词向量之间的相似度,作为该分词和与该分词相关联的分词之间的关联度。
在本公开的一种示例性实施例中,所述分词权重确定模块,具体用于根据公式:确定分词Vi的权重WS(Vi),
其中,d表示阻尼系数,ωji表示分词Vj和分词Vi之间的关联度,ωjk表示分词Vj和分词Vk之间的关联度,WS(Vj)表示分词Vj的权重,In(Vi)表示与分词Vi相关联,且位于分词Vi之前的分词的集合,Out(Vj)表示与分词Vj相关联,且位于分词Vj之后的分词的集合。
在本公开的一种示例性实施例中,所述关联分词确定模块通过以下步骤实现针对每个分词,根据共现窗口确定所述多个分词中与该分词相关联的分词:
针对每个分词,将所述多个分词中与该分词出现在同一共现窗口的分词,作为与该分词相关联的分词。
根据本公开的一个方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的方法。
根据本公开的一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的方法。
本公开的示例性实施例具有以下有益效果:
本公开的示例性实施例提供的方法及装置中,由于目标分词是从所述文本中选取的关键词,子句的权重是根据子句中包含的目标分词的数量和权重确定的,因此通过选取权重较大的N个子句作为所述文本的关键信息,可以提高关键信息提取的准确性。另外,由于本公开不需要计算子句之间的关联度即可提取关键信息,简化了关键信息提取的过程,减小了计算量。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了可以应用本公开实施例的文本关键信息提取方法及装置的示例性系统架构图;
图2示意性示出本公开示例性实施例中文本关键信息提取方法的一种流程图;
图3示意性示出本公开示例性实施例中文本关键信息提取方法的又一种流程图;
图4示意性示出本公开示例性实施例中文本关键信息提取装置的一种结构图;
图5示出了用于实现本公开实施例的电子设备的计算机系统的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
需要说明的是,本公开中,用语“包括”、“配置有”、“设置于”用以表示开放式的包括在内的意思,并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等;用语“第一”、“第二”等仅作为标记使用,不是对其对象数量或次序的限制。
图1示出了可以应用本公开实施例的一种文本关键信息提取方法及装置的示例性应用环境的系统架构的示意图。
如图1所示,系统架构100可以包括终端设备101、102、103中的一个或多个,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。终端设备101、102、103可以是具有显示屏的各种电子设备,包括但不限于台式计算机、便携式计算机、智能手机和平板电脑等等。应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的,根据实现需要,可以具有任意数目的终端设备、网络和服务器。比如服务器105可以是多个服务器组成的服务器集群等。
本公开实施例所提供的文本关键信息提取方法一般由服务器105执行,相应地,文本关键信息提取装置一般设置于服务器105中。但本领域技术人员容易理解的是,本公开实施例所提供的文本关键信息提取方法也可以由终端设备101、102、103执行,相应地,文本关键信息提取装置也可以设置于终端设备101、102、103中,本示例性实施例中对此不做特殊限定。举例而言,在一种示例性实施例中,可以是用户通过终端设备101、102、103将文本(例如,新闻信息、日志信息等)上传至服务器105,服务器通过本公开实施例所提供的文本关键信息提取方法提取文本中的关键信息,并将提取的关键信息显示给终端设备101、102、103等。
以下对本公开实施例的技术方案进行详细阐述:
相关技术中,在提取文本关键信息时,可以基于单一因素抽取,即抽取文档中前N句话作为摘要;也可以基于启发规则抽取,即考虑词语权重、句子位置、句子与首句相似度;还可以通过某种算法计算文本中子句的权重,选择权重高的一句或者几句来作为文本的关键信息,该方法实现过程简单,提取的关键信息可读性强。
其中,PageRank(网页排名)算法是一种由根据网页之间相互的超链接计算的技术,而作为网页排名的要素之一。Google用该算法来体现网页的相关性和重要性,在搜索引擎优化操作中是经常被用来评估网页优化的成效因素之一。其公式表示如下:
Wi表示第i个网页,Wj表示第j个网页,S(Wi)表示第i个网页的排名权重,S(Wj)表示第j个网页的排名权重,d为阻尼系数,表示用户随机点击网页链接的概率,一般取值为0.85;|Out(Wj)|表示第j个网页的出链数量。
相对于PageRank算法中以网页为单位,在此以子句为单位进行计算,得到基于TextRank算法的文本关键信息提取方法,包括以下步骤:
1)对文本进行分词、分句;
2)通过计算两个子句的相似度来得到两个子句之间的关联度,简单的计算方法是可以通过累积子句中词向量再取其平均值作为子句向量计算关联度;
3)根据TextRank算法计算子句在文本中的权重。
然而,该方法存在以下几个问题:
1)无法处理短文本:对于单个子句的短文本,该方法显然无法处理;
2)长文本计算量大:窗口内的每一对子句都需要计算其相互之间的相似度,上述简单的计算方法很难准确表达子句中隐含的多方面的语义信息,有可能造成关键信息的丢失;复杂的计算方法(如神经网络模型)不一定提升准确性,并且容易损失性能。
以子句为单位提取的关键信息,虽然具有很好的可读性,但是一个子句有可能包含多方面的重要信息,在计算子句相似度时,很容易丢失其中的部分关键信息。可见,子句之间关联度的计算容易出现偏差,导致提取的文本关键信息的准确性较低,并且在计算子句之间关联度时计算量较大。为了解决上述问题,本公开实施例提供了一种文本关键信息提取方法、文本关键信息提取装置、电子设备及计算机可读存储介质,以提高文本关键信息提取的准确性,减小计算量。
本公开实施例的文本关键信息提取方法可以应用于图1中的服务器105,参见图2所示,该文本关键信息提取方法可以包括以下步骤:
S210,对所获取的文本进行分句,从得到的多个子句中选取包含预设数量个目标分词的子句,所述目标分词是从所述文本中选取的关键词。
S220,针对所选取的每个子句,根据该子句中包含的目标分词的数量和权重,确定该子句的权重。
S230,对所选取的子句的权重进行从大到小排序,选取前N个子句作为所述文本的关键信息,N为正整数。
图2所示实施例的有益效果在于,由于目标分词是从所述文本中选取的关键词,子句的权重是根据子句中包含的目标分词的数量和权重确定的,因此选取权重较大的N个子句作为所述文本的关键信息,可以提高关键信息提取的准确性。另外,由于本公开不需要计算子句之间的关联度即可提取关键信息,简化了关键信息提取的过程,减小了计算量。
本公开实施例中,关键信息提取还包括关键词提取,目前,关键词提取的方法包括以下几种:
1)有监督的二分类模型:通过标注大量训练语料,训练出一个关键词判别的二分类模型来进行关键词识别;
2)无监督的TF-IDF(词频-逆文本频率):综合全部语料考虑词频和逆文本频率,来判别是否为关键词;
3)TextRank算法:只依赖当前的文本信息,根据文本中词与词之间的关系,计算权重,再根据权重大小来决定是否将其用作关键词。
其中,基于TextRank算法提取关键词时,容易受词频影响,即两个词的词频相同时,即认为两个词的权重相同,对关键词的区分度较低,得到的关键词的准确性较低。有鉴于此,本公开实施例还提供了一种文本关键信息提取方法,该文本关键信息提取方法包括关键词的提取。参见图3,图3示意性示出本公开示例性实施例中文本关键信息提取方法的又一种流程图,可以包括以下步骤:
S310,对所获取的文本进行分词处理得到多个分词,针对每个分词,根据共现窗口确定所述多个分词中与该分词相关联的分词。
本公开实施例中,文本可以是文档信息、互联网中的新闻信息、日志信息等。分词是将文本按照一定的规范重新组合成词序列的过程,另外,在分词时还可以进行词性标注,词性标注是指为分词结果中的每个单词标注一个正确的词性,也即确定每个词是名词、动词、形容词或其他词性的过程。在进行分词和词性标注之后,还可以根据标注的词性保留信息量大的分词,过滤停用词。
在本公开的一示例性实施例中,针对每个分词,可以将所述多个分词中与该分词出现在同一共现窗口的分词,作为与该分词相关联的分词。举例而言,若文本信息为“今天天气不错,我的心情很好”,经过分词之后,可以得到多个分词:“今天”、“天气”、“不错”、“我”、“的”、“心情”、“很好”。若共现窗口为3,当共现窗口滑动时,可以得到:[“今天”、“天气”、“不错”],[“天气”、“不错”、“我”],[“不错”、“我”、“的”],[“我”、“的”、“心情”],[“的”、“心情”、“很好”]。可以根据共现窗口确定每个分词相关联的分词,例如,与分词“今天”相关联的分词包括:“天气”和“不错”,与分词“天气”相关联的分词包括:“今天”和“不错”。
S320,针对每个分词,确定该分词和与该分词相关联的分词之间的关联度;根据所述多个分词中相关联的分词之间的关联度,确定每个分词的权重。
需要说明的是,TF-IDF、One-Hot和Word2vec(词向量)都可以将文本数值化(向量化),以便支撑后续的各种文本分析任务。Word2vec与TF-IDF和One-Hot相比,优点主要体现在2个方面:能够用低维向量来表示词,节约存储空间、减少计算量;隐含一定的语义信息:意义相近的词,具有相近的向量特征,也就是在一定程度上能够体现出词与词之间的语义相似性。因此,Word2vec模型广泛应用于各类文本分析任务中。
Word2vec模型又分为CBOW(Continue Bag of Words,词袋)模型和Skip-Gram模型。CBOW模型用于根据周边词预测中心词;Skip-Gram模型相反,根据当前词预测下一个词。本公开中的Word2vec模型指Skip-Gram模型,它是一个三层网络模型:输入层(One-Hot)、隐藏层(实际的词向量)和输出层。Word2vec模型的训练是无监督的,即不需要标注大量训练语料,且训练好的Word2vec模型具有很强的通用性,能够应用于多种不同的文本分析任务中。
在本公开的一种示例性实施例中,所述确定该分词和与该分词相关联的分词之间的关联度,可以包括以下步骤:
第一步,将该分词输入Word2vec模型,得到第一词向量。
第二步,将与该分词相关联的分词输入所述Word2vec模型,得到第二词向量。
本公开实施例中,分词与分词之间的关联度可以通过对应的向量之间的关联度进行计算。Word2vec模型可以将具有相近语义的词表示在近似的向量空间中,可以将分词映射为第一词向量,将与该分词相关联的分词映射为第二词向量,进而计算第一词向量和第二词向量之间的相似度。
第三步,将所述第一词向量和所述第二词向量之间的相似度,作为该分词和与该分词相关联的分词之间的关联度。
其中,向量之间的相似度的计算方法可以有很多种,例如,可以通过余弦夹角进行计算,也可以通过欧式距离、曼哈顿距离等方法进行计算。在计算第一词向量和第二词向量之间的相似度之后,可以将得到的相似度作为分词之间的关联度。
举例而言,通过上述方法,可以得到以下分词的关联度:
Similarity(“高兴”,“开心”)=0.85;
Similarity(“高兴”,“悲愤”)=0.31;
Similarity(“开心”,“悲愤”)=0.36。
可以看出,得到的分词之间的关联度准确性较高。在得到各分词之间的关联度之后,可以根据所述多个分词中相关联的分词之间的关联度,确定每个分词的权重,在本公开的一种示例性实施例中,可以根据公式:确定分词Vi的权重WS(Vi),
其中,d表示阻尼系数,ωji表示分词Vj和分词Vi之间的关联度,也就是,通过上述步骤计算得到的关联度;ωjk表示分词Vj和分词Vk之间的关联度,WS(Vj)表示分词Vj的权重,In(Vi)表示与分词Vi相关联,且位于分词Vi之前的分词的集合,Out(Vj)表示与分词Vj相关联,且位于分词Vj之后的分词的集合。
上述计算分词权重的方法是基于TextRank算法,现有TextRank算法中,分词之间的关联度均为1。而本公开实施例中,分词之间的关联度是通过Word2vec模型计算得到的,将分词之间的语义相似性与TextRank算法相结合,可以提高关键词提取的准确性。
S330,对所述多个分词的权重进行从大到小排序,选取前M个分词作为目标分词,M为正整数。
可以理解的是,分词的权重越大,表示该分词越重要。因此,在得到多个分词的权重之后,可以对多个分词的权重进行从大到小排序,选取前M个分词作为目标分词。M可以根据文本的长度进行选取,文本的长度越长,M的值越大。
实施例一
若短文本为“今天天气不错,我的心情很好”,通过现有的TextRank算法提取的关键词及权重如下:
天气:0.9994334078112805;
不错:0.9994334078112805;
心情:0.9994334078112805;
很好:0.9994334078112805;
可以看出,4个关键词在文本中出现的次数相同,因此4个关键词的权重均相等,4个关键词并不具有区分度。
通过本公开实施例的关键词提取方法,提取的关键词及权重如下:
不错:1.2303971219051717;
很好:1.2002896421829512;
心情:1.0515552938758603;
天气:0.5161204906106174;
可以看出,较为重要的关键词能够得到相对较高的权重。因此,本公开的关键词提取方法,具有很好的区分度。
实施例二
若长文本为“2018年12月30日凌晨5时许,谭某驾驶一辆两轮电动车在柳州市柳江大桥桥面由北往南行驶时,适遇沈某推行自行车在前方行走,电动车与自行车相碰翻倒,造成沈某和谭某不同程度受伤。”
通过现有的TextRank算法,提取12个关键词及权重如下:
电动车:1.5074498146920348;
自行车:1.2783437997533202;
翻倒:1.0846554633507401;
桥面:1.043719622042228;
北往:1.0290810797620682;
行驶:1.0290810797620682;
造成:0.9708656780397704;
相碰:0.9499785577956523;
大桥:0.9415135562970351;
行走:0.9153575820928908;
推行:0.9105623662883535;
不同:0.8601335754562645;
通过本公开实施例的关键词提取方法,提取12个关键词及权重如下:
电动车:1.588729804004412;
自行车:1.3071004184236201;
行驶:1.2562065735586727;
翻倒:1.086415059890796;
桥面:1.0768216395718868;
造成:1.0345753625764769;
行走:0.9958151707199903;
大桥:0.9559346926142996;
北往:0.9152020572748824;
相碰:0.8390851043411346;
程度:0.7429848156941837;
不同:0.6119963526661527;
从前面5个关键词来看,两种关键词提取方法中,均能够猜到该新闻片段描述的事件是“电动车和自行车翻倒在桥面”。而本公开实施例的关键词提取方法,能够获得更多的事件信息,即该事件很大可能是在“行驶”中发生的,而不是在静止状态下发生的。如果需要得到更多的信息,可以通过保留更多的关键词来实现。
在新闻片段中,“北往”和“行驶”均出现了1次,在现有的关键词提取方法中,这两个词具有相同的权重(1.0291),而本公开实施例的关键词提取方法,能够更加准确区分不同关键词的重要程度,例如,“行驶”的权重1.2562>“北往”的权重1.0291。
可见,本公开实施例的关键词提取方法,具有更好的关键词区分度,可以提高关键词提取的准确性。
S340,对所述文本进行分句,从得到的多个子句中选取包含预设数量个目标分词的子句。
本公开实施例中,对所述文本进行分句,也就是将文本划分为多个子句,具体的,可以根据标点符号对文本进行分句,例如,当检测到句号、感叹号、省略号或分号等符号时,可以确定为一个子句的结束位置。在得到多个子句之后,根据S330得到的目标分词,可以选取包含预设数量个目标分词的子句,包含预设数量个目标分词指的是包含的目标分词的数量大于或等于预设数量。其中,预设数量可以小于目标分词的总数量M。例如,如果M为6,预设数量可以是3、4或者5等,在此不做限定。
S350,针对所选取的每个子句,根据该子句中包含的目标分词的数量和权重,确定该子句的权重。
可以理解的是,子句中包含的目标分词的数量越多,子句中包含的目标分词的权重越大,得到的子句的权重就越大。在本公开的一种示例性实施例中,可以将该子句中包含的目标分词的权重的平方之和与该子句中包含的目标分词的数量的乘积,作为该子句的权重。即,若该子句中包含的目标分词的数量为K,Wi表示第i个目标分词的权重,i为1~K的整数,根据公式:计算该子句的权重。
在本公开的又一种示例性实施例中,还可以对该子句中包含的目标分词的权重进行归一化处理,得到归一化权重;将该子句中包含的目标分词的归一化权重的平方之和与该子句中包含的目标分词的数量的乘积,作为该子句的权重。即,若该子句中包含的目标分词的数量为K,Wi表示第i个目标分词的权重,i为1~K的整数;对K个目标分词的权重进行归一化处理,若Ui表示第i个目标分词的归一化权重,根据公式:计算该子句的权重。
本公开实施例还可以对各目标分词的权重进行归一化处理,使得各目标分词的归一化权重小于或等于1。这样,归一化权重的平方之和与权重的平方之和相比,区分度更加明显,得到的各子句的权重的区分度更明显。并且,通过归一化处理可以降低计算的复杂度。
S360,对所选取的子句的权重进行从大到小排序,选取前N个子句作为所述文本的关键信息,N为正整数。
类似地,子句的权重越大,表示该子句越重要,可以选取前N个子句作为关键信息。在此,得到的文本的关键信息可以是文本摘要。
以上述实施例二中的新闻信息为例,其分词及词性标注结果如下:
2018/m年/q12/m月/q30/m日/j凌晨/t5/m时许/nr,/w谭某/nr驾驶/v一/m辆/q两/m轮/q电动车/n在/p柳州市/ns柳江/n大桥/n桥面/n由/p北往/nz南/f行驶/v时/ng,/w适/ag遇沈某/nr推行/v自行车/n在/p前方/f行走/v,/w电动车/n与/p自行车/n相碰/v翻倒/nz,/w造成/v沈某/nr和/c谭某/nr不同/a程度/n受伤/v。
通过本公开实施例的方法提取关键词信息如下:
电动车、自行车、行驶、翻倒、桥面、造成、行走、大桥、北往、相碰、程度、不同。
在分词结果中标注关键词信息([]内为关键词),其结果如下:
2018/m年/q12/m月/q30/m日/j凌晨/t5/m时许/nr,/w谭某/nr驾驶/v一/m辆/q两/m轮/q[电动车/n]在/p柳州市/ns柳江/n[大桥/n][桥面/n]由/p[北往/nz]南/f[行驶/v]时/ng,/w适/ag遇沈某/nr推行/v[自行车/n]在/p前方/f[行走/v],/w[电动车/n]与/p[自行车/n][相碰/v][翻倒/nz],/w[造成/v]沈某/nr和/c谭某/nr[不同/a][程度/n]受伤/v。
本公开实施例的文本关键信息提取方法,提取的子句及权重如下:
谭某 驾驶 一 辆 两 轮 电动车 在 柳州市 柳江 大桥 桥面 由 北往 南 行驶时 2.579
电动车 与 自行车 相碰 翻倒 1.800
造成 沈某 和 谭某 不同 程度 受伤 0.441
适 遇沈某 推行 自行车 在 前方 行走 0.397
之后,可以根据原始文本的长短,选取一定数量的子句作为文本关键信息。例如,可以选取权重较高的2个子句作为上述新闻信息的摘要。
从上述结果可以看出,本公开实施例的文本关键信息提取方法,可以很好地将文本中的重要信息提取出来,并且具有一定的可读性。并且文本摘要的提取过程简单,计算量与S310~S330中描述的关键词提取方法计算量相当,与现有的基于TextRank算法提取文本摘要相比,降低了计算量。
本公开实施例的文本关键信息提取方法,基于Word2vec和TextRank算法提取目标分词,可以提高目标分词提取的准确性。在计算子句的权重时,根据子句中包含的目标分词的权重和数量确定子句的权重,从而可以提高文本摘要提取的准确性。本公开实施例的关键信息提取方法可以应用于情感分析、文本质检、工单分类等自然语言处理任务中,可以提高准确性和执行性能,进而提升业务系统的智能化水平和效率,挖掘出更多有益于业务发展的信息。
相应于上述方法实施例,本公开实施例还公开了一种文本关键信息提取装置,参见图4,图4示意性示出本公开示例性实施例中文本关键信息提取装置的一种结构图400,包括:
子句选取模块410,用于对所获取的文本进行分句,从得到的多个子句中选取包含预设数量个目标分词的子句,所述目标分词是从所述文本中选取的关键词;
子句权重确定模块420,用于针对所选取的每个子句,根据该子句中包含的目标分词的数量和权重,确定该子句的权重;
关键信息确定模块430,用于对所选取的子句的权重进行从大到小排序,选取前N个子句作为所述文本的关键信息,N为正整数。
在本公开的一种示例性实施例中,所述装置,还包括:
关联分词确定模块,用于对所述文本进行分词处理得到多个分词,针对每个分词,根据共现窗口确定所述多个分词中与该分词相关联的分词;
关联度确定模块,用于针对每个分词,确定该分词和与该分词相关联的分词之间的关联度;
分词权重确定模块,用于根据所述多个分词中相关联的分词之间的关联度,确定每个分词的权重;
目标分词确定模块,用于对所述多个分词的权重进行从大到小排序,选取前M个分词作为所述目标分词,M为正整数。
在本公开的一种示例性实施例中,所述子句权重确定模块,具体用于将该子句中包含的目标分词的权重的平方之和与该子句中包含的目标分词的数量的乘积,作为该子句的权重。
在本公开的一种示例性实施例中,所述子句权重确定模块,具体用于对该子句中包含的目标分词的权重进行归一化处理,得到归一化权重;将该子句中包含的目标分词的归一化权重的平方之和与该子句中包含的目标分词的数量的乘积,作为该子句的权重。
在本公开的一种示例性实施例中,所述关联度确定模块,具体用于将该分词输入Word2vec模型,得到第一词向量;将与该分词相关联的分词输入所述Word2vec模型,得到第二词向量;将所述第一词向量和所述第二词向量之间的相似度,作为该分词和与该分词相关联的分词之间的关联度。
其中,d表示阻尼系数,ωji表示分词Vj和分词Vi之间的关联度,ωjk表示分词Vj和分词Vk之间的关联度,WS(Vj)表示分词Vj的权重,In(Vi)表示与分词Vi相关联,且位于分词Vi之前的分词的集合,Out(Vj)表示与分词Vj相关联,且位于分词Vj之后的分词的集合。
在本公开的一种示例性实施例中,所述关联分词确定模块通过以下步骤实现针对每个分词,根据共现窗口确定所述多个分词中与该分词相关联的分词:
针对每个分词,将所述多个分词中与该分词出现在同一共现窗口的分词,作为与该分词相关联的分词。
上述装置中各模块的具体细节在方法部分的实施例中已经详细说明,因此不再赘述。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
在本公开的示例性实施例中,还提供一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为执行本示例实施方式中的文本关键信息提取方法的全部或者部分步骤。
图5示出了用于实现本公开实施例的电子设备的计算机系统的结构示意图。需要说明的是,图5示出的电子设备的计算机系统500仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图5所示,计算机系统500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有系统操作所需的各种程序和数据。CPU501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如局域网(LAN)卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时,执行本申请的装置中限定的各种功能。
本公开实施例中,还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的方法。
需要说明的是,本公开所示的计算机可读存储介质例如可以是—但不限于—电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、射频等等,或者上述的任意合适的组合。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。
Claims (10)
1.一种文本关键信息提取方法,其特征在于,所述方法包括:
对所获取的文本进行分句,从得到的多个子句中选取包含预设数量个目标分词的子句,所述目标分词是从所述文本中选取的关键词;
针对所选取的每个子句,根据该子句中包含的目标分词的数量和权重,确定该子句的权重;
对所选取的子句的权重进行从大到小排序,选取前N个子句作为所述文本的关键信息,N为正整数。
2.根据权利要求1所述的方法,其特征在于,所述目标分词的选取方法,包括:
对所述文本进行分词处理得到多个分词,针对每个分词,根据共现窗口确定所述多个分词中与该分词相关联的分词;
针对每个分词,确定该分词和与该分词相关联的分词之间的关联度;根据所述多个分词中相关联的分词之间的关联度,确定每个分词的权重;
对所述多个分词的权重进行从大到小排序,选取前M个分词作为所述目标分词,M为正整数。
3.根据权利要求1所述的方法,其特征在于,所述根据该子句中包含的目标分词的数量和权重,确定该子句的权重,包括:
将该子句中包含的目标分词的权重的平方之和与该子句中包含的目标分词的数量的乘积,作为该子句的权重。
4.根据权利要求1所述的方法,其特征在于,所述根据该子句中包含的目标分词的数量和权重,确定该子句的权重,包括:
对该子句中包含的目标分词的权重进行归一化处理,得到归一化权重;
将该子句中包含的目标分词的归一化权重的平方之和与该子句中包含的目标分词的数量的乘积,作为该子句的权重。
5.根据权利要求2所述的方法,其特征在于,所述确定该分词和与该分词相关联的分词之间的关联度,包括:
将该分词输入Word2vec模型,得到第一词向量;
将与该分词相关联的分词输入所述Word2vec模型,得到第二词向量;
将所述第一词向量和所述第二词向量之间的相似度,作为该分词和与该分词相关联的分词之间的关联度。
7.根据权利要求2所述的方法,其特征在于,所述针对每个分词,根据共现窗口确定所述多个分词中与该分词相关联的分词,包括:
针对每个分词,将所述多个分词中与该分词出现在同一共现窗口的分词,作为与该分词相关联的分词。
8.一种文本关键信息提取装置,其特征在于,所述装置包括:
子句选取模块,用于对所获取的文本进行分句,从得到的多个子句中选取包含预设数量个目标分词的子句,所述目标分词是从所述文本中选取的关键词;
子句权重确定模块,用于针对所选取的每个子句,根据该子句中包含的目标分词的数量和权重,确定该子句的权重;
关键信息确定模块,用于对所选取的子句的权重进行从大到小排序,选取前N个子句作为所述文本的关键信息,N为正整数。
9.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911016045.7A CN110781669A (zh) | 2019-10-24 | 2019-10-24 | 文本关键信息提取方法与装置、电子设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911016045.7A CN110781669A (zh) | 2019-10-24 | 2019-10-24 | 文本关键信息提取方法与装置、电子设备、存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110781669A true CN110781669A (zh) | 2020-02-11 |
Family
ID=69386974
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911016045.7A Pending CN110781669A (zh) | 2019-10-24 | 2019-10-24 | 文本关键信息提取方法与装置、电子设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110781669A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111783424A (zh) * | 2020-06-17 | 2020-10-16 | 泰康保险集团股份有限公司 | 一种文本分句方法和装置 |
CN112288548A (zh) * | 2020-11-13 | 2021-01-29 | 北京沃东天骏信息技术有限公司 | 目标对象的关键信息的提取方法、装置、介质及电子设备 |
CN112732896A (zh) * | 2020-12-31 | 2021-04-30 | 天津开心生活科技有限公司 | 目标信息显示方法、装置、电子设备和介质 |
CN114510566A (zh) * | 2021-11-29 | 2022-05-17 | 上海市黄浦区城市运行管理中心(上海市黄浦区城市网格化综合管理中心、上海市黄浦区大数据中心) | 基于工单的热词挖掘、分类和分析的方法和系统 |
CN116431930A (zh) * | 2023-06-13 | 2023-07-14 | 天津联创科技发展有限公司 | 科技成果转化数据查询方法、系统、终端及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103699525A (zh) * | 2014-01-03 | 2014-04-02 | 江苏金智教育信息技术有限公司 | 一种基于文本多维度特征自动生成摘要的方法和装置 |
CN105574092A (zh) * | 2015-12-10 | 2016-05-11 | 百度在线网络技术(北京)有限公司 | 信息挖掘方法和装置 |
CN106599148A (zh) * | 2016-12-02 | 2017-04-26 | 东软集团股份有限公司 | 一种文摘生成方法及装置 |
CN108920466A (zh) * | 2018-07-27 | 2018-11-30 | 杭州电子科技大学 | 一种基于word2vec和TextRank的科技文本关键词提取方法 |
CN109408826A (zh) * | 2018-11-07 | 2019-03-01 | 北京锐安科技有限公司 | 一种文本信息提取方法、装置、服务器及存储介质 |
US10387575B1 (en) * | 2019-01-30 | 2019-08-20 | Babylon Partners Limited | Semantic graph traversal for recognition of inferred clauses within natural language inputs |
CN110334192A (zh) * | 2019-07-15 | 2019-10-15 | 河北科技师范学院 | 文本摘要生成方法及系统、电子设备及存储介质 |
-
2019
- 2019-10-24 CN CN201911016045.7A patent/CN110781669A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103699525A (zh) * | 2014-01-03 | 2014-04-02 | 江苏金智教育信息技术有限公司 | 一种基于文本多维度特征自动生成摘要的方法和装置 |
CN105574092A (zh) * | 2015-12-10 | 2016-05-11 | 百度在线网络技术(北京)有限公司 | 信息挖掘方法和装置 |
CN106599148A (zh) * | 2016-12-02 | 2017-04-26 | 东软集团股份有限公司 | 一种文摘生成方法及装置 |
CN108920466A (zh) * | 2018-07-27 | 2018-11-30 | 杭州电子科技大学 | 一种基于word2vec和TextRank的科技文本关键词提取方法 |
CN109408826A (zh) * | 2018-11-07 | 2019-03-01 | 北京锐安科技有限公司 | 一种文本信息提取方法、装置、服务器及存储介质 |
US10387575B1 (en) * | 2019-01-30 | 2019-08-20 | Babylon Partners Limited | Semantic graph traversal for recognition of inferred clauses within natural language inputs |
CN110334192A (zh) * | 2019-07-15 | 2019-10-15 | 河北科技师范学院 | 文本摘要生成方法及系统、电子设备及存储介质 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111783424A (zh) * | 2020-06-17 | 2020-10-16 | 泰康保险集团股份有限公司 | 一种文本分句方法和装置 |
CN111783424B (zh) * | 2020-06-17 | 2024-02-13 | 泰康保险集团股份有限公司 | 一种文本分句方法和装置 |
CN112288548A (zh) * | 2020-11-13 | 2021-01-29 | 北京沃东天骏信息技术有限公司 | 目标对象的关键信息的提取方法、装置、介质及电子设备 |
CN112732896A (zh) * | 2020-12-31 | 2021-04-30 | 天津开心生活科技有限公司 | 目标信息显示方法、装置、电子设备和介质 |
CN114510566A (zh) * | 2021-11-29 | 2022-05-17 | 上海市黄浦区城市运行管理中心(上海市黄浦区城市网格化综合管理中心、上海市黄浦区大数据中心) | 基于工单的热词挖掘、分类和分析的方法和系统 |
CN114510566B (zh) * | 2021-11-29 | 2023-07-07 | 上海市黄浦区城市运行管理中心(上海市黄浦区城市网格化综合管理中心、上海市黄浦区大数据中心) | 基于工单的热词挖掘、分类和分析的方法和系统 |
CN116431930A (zh) * | 2023-06-13 | 2023-07-14 | 天津联创科技发展有限公司 | 科技成果转化数据查询方法、系统、终端及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107679039B (zh) | 用于确定语句意图的方法和装置 | |
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
CN107491547B (zh) | 基于人工智能的搜索方法和装置 | |
CN110781669A (zh) | 文本关键信息提取方法与装置、电子设备、存储介质 | |
CN109657054B (zh) | 摘要生成方法、装置、服务器及存储介质 | |
CN109086265B (zh) | 一种语义训练方法、短文本中多语义词消歧方法 | |
CN103309862B (zh) | 一种网页类型识别方法和系统 | |
CN111160019B (zh) | 一种舆情监测的方法、装置及系统 | |
CN113392209B (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
CN111353044B (zh) | 一种基于评论的情感分析方法及系统 | |
CN112926308B (zh) | 匹配正文的方法、装置、设备、存储介质以及程序产品 | |
CN111538931A (zh) | 基于大数据的舆情监控方法、装置、计算机设备及介质 | |
CN111753082A (zh) | 基于评论数据的文本分类方法及装置、设备和介质 | |
CN113282711A (zh) | 一种车联网文本匹配方法、装置、电子设备及存储介质 | |
CN111325018A (zh) | 一种基于web检索和新词发现的领域词典构建方法 | |
CN112818200A (zh) | 基于静态网站的数据爬取及事件分析方法及系统 | |
CN110688540B (zh) | 一种作弊账户筛选方法、装置、设备及介质 | |
CN111428011B (zh) | 词语的推荐方法、装置、设备及存储介质 | |
CN112905753A (zh) | 一种判别文本信息的方法和装置 | |
CN110610003A (zh) | 用于辅助文本标注的方法和系统 | |
Bu et al. | An FAR-SW based approach for webpage information extraction | |
CN113626704A (zh) | 基于word2vec模型的推荐信息方法、装置及设备 | |
CN113569118A (zh) | 自媒体推送方法、装置、计算机设备及存储介质 | |
CN113220999A (zh) | 用户特征的生成方法、装置、电子设备和存储介质 | |
CN117278675A (zh) | 一种基于意图分类的外呼方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |