CN108052500B

CN108052500B - 一种基于语义分析的文本关键信息提取方法及装置

Info

Publication number: CN108052500B
Application number: CN201711332910.XA
Authority: CN
Inventors: 任东英; 朱瑾鹏
Original assignee: Beijing Dataocean Smart Technology Co ltd
Current assignee: Beijing Dataocean Smart Technology Co ltd
Priority date: 2017-12-13
Filing date: 2017-12-13
Publication date: 2021-06-22
Anticipated expiration: 2037-12-13
Also published as: CN108052500A

Abstract

本发明公开了一种基于语义分析的文本关键信息提取方法及装置，不限制搭配成词的原词语数目，用以发现文本中可表征明确含义的候选字符串，解决了词典依赖及只能提取词语的问题。相对于传统的权重计算方法，通过分析文本特点，发现上下文语义信息丰富度可以反映出字符串表达意图能力的强弱，因此，在字符串权重计算公式中加入外部丰富度影响因子，不仅考虑了字符串本身特点，也考虑了字符串外部上下文的环境，有效地补充了指标体系，提高了结果准确性。

Description

一种基于语义分析的文本关键信息提取方法及装置

技术领域

本公开涉及文本信息提取技术领域，具体涉及一种基于语义分析的文本关键信息提取方法及装置。

背景技术

目前，全球数据量以平均每年50％的增长率呈现爆炸式增长，每个人都置身于信息的海洋，面对如此大量的数据，如何准确、快速地定位真正想要的内容成为人们日益迫切的需求，文本关键信息提取技术应运而生。

传统的文本关键信息提取多为提取关键词，首先依据词典进行文本分词，然后利用TF-IDF方法计算词语权重，取排名靠前的若干个词作为关键词。

现有技术中的方法存在如下弊端：1)词语粒度过小，无法有效表征完整含义；2)强烈依赖于分词词典，而不同领域常用词千差万别，词典维护成本高，准确性及全面性均不能保证；3)权重计算仅从词语本身特点出发，只考虑了词频及文档频率，没有充分考虑词语所在的上下文环境。

发明内容

鉴于上述问题，提出了本公开以便提供一种克服上述问题或者至少部分地解决上述问题的基于语义分析的文本关键信息提取方法及装置。

根据本公开的一个方面，提供了一种基于语义分析的文本关键信息提取方法，其包括：

将待处理文本以字为单位进行分割，形成字串c₁，c₂，...，c_i，c_i+1，...，c_n，其中，c_i表征一个汉字，n为所述文本中汉字总数；

计算相邻的任意两个所述汉字c_i，c_i+1的点间互信息、左邻信息熵和右邻信息熵；若所述点间互信息、左邻信息熵和右邻信息熵均满足第一预设阈值，则合并两个汉字为一个字符串；

直到无法对所述文本中相邻汉字进行合并为止，所述文本的划分结果为T：t₁，t₂，...，t_k，...，t_m，其中，t_k为字、词、短语或短句的字符串，m为所述文本中字、词、短语或短句的字符串的总数；

取所述t_k中长度大于1且不属于停止词的字、词、短语或短句的字符串，作为候选字符串，计算各个候选字符串的权重；

将所述权重大于第二预设阈值的若干个所述候选字符串作为所述文本的关键信息。

所述计算相邻的任意两个所述汉字c_i，c_i+1的点间互信息、左邻信息熵和右邻信息熵；若所述点间互信息、左邻信息熵和右邻信息熵均满足第一预设阈值，则合并两个汉字为一个字符串，包括：

计算相邻的任意两个所述字、词、短语或短句的字符串的点间互信息、左邻信息熵和右邻信息熵；若所述点间互信息、左邻信息熵和右邻信息熵均满足预设阈值，则合并两个字、词、短语或短句的字符串为一个字符串。

所述点间互信息、左邻信息熵和右邻信息熵根据如下公式计算：

点间互信息PMI，左邻信息熵LE，右邻信息熵RE，具体公式如下：

其中，P(c_i，c_i+1)为c_i，c_i+1共同出现的概率，P(c_i)为c_i出现的概率，L为c_i，c_i+1左邻元素的集合，R为c_i，c_i+1右邻元素的集合。

所述点间互信息、左邻信息熵和右邻信息熵均满足第一预设阈值，包括：

设置预设阈值ε₁，ε₂，当PMI＞ε₁且min(LE，RE)＞ε₂时，即合并两个汉字c_i，c_i+1为一个字符串；所述PMI为点间互信息，LE为左邻信息熵，RE为右邻信息熵。

所述计算各个候选字符串权重，包括：

针对文本划分结果T：t₁，t₂，...，t_k，...，t_m，取长度大于2且出现频率大于设定值f的字符串作为候选字符串；

计算候选字符串t_k外部丰富度ec(t_k)，公式如下：

其中，m为所述文本中包含t_k的句子数，w_i为第i个句子的字符串总数，C为将所有句子中相同字符串进行合并后，得到的互不相同的字符串类型数；

统计计算t_k的出现频次tf和逆文档频率idf；

计算候选字符串t_k的权重weigth(t_k)，公式如下：

其中：D为文本集合中的文本总数，D_w为包含t_k的文本数。

所述针对文本划分结果T：t₁，t₂，...，t_k，...，t_m，首先过滤掉其中的停止词。

根据本公开的另一个方面，提供了一种基于语义分析的文本关键信息提取系统，包括：

分割单元，用于将待处理文本以字为单位进行分割，形成字串c₁，c₂，...，c_i，c_i+1，...，c_n，其中，c_i表征一个汉字，n为所述文本中汉字总数；

计算单元，用于计算相邻的任意两个所述汉字c_i，c_i+1的点间互信息、左邻信息熵和右邻信息熵；若所述点间互信息、左邻信息熵和右邻信息熵均满足第一预设阈值，则合并两个汉字为一个字符串；

合并单元，用于直到无法对所述文本中相邻汉字进行合并为止，所述文本的划分结果为T：t₁，t₂，...，t_k，...，t_m，其中，t_k为字、词、短语或短句的字符串，m为所述文本中字、词、短语或短句的字符串的总数；

权重计算单元，用于取所述t_k中长度大于1且不属于停止词的字、词、短语或短句的字符串，作为候选字符串，计算各个候选字符串的权重；

关键信息提取单元，用于将所述权重大于第二预设阈值的若干个所述候选字符串作为所述文本的关键信息。

所述计算单元，还用于：

所述点间互信息、左邻信息熵和右邻信息熵根据如下方式获取：

点间互信息PMI，左邻信息熵LE，右邻信息熵RE，具体计算公式如下：

所述权重计算单元，具体用于：

计算候选字符串t_k外部丰富度ec(t_k)，公式如下：

统计计算t_k的出现频次tf和逆文档频率idf；

计算候选字符串t_k的权重weigth(t_k)，公式如下：

其中：D为文本集合中的文本总数，D_w为包含t_k的文本数。

根据本公开上述的一个或多个技术方案，其提供了一种基于语义分析的文本关键信息提取的方案，不限制搭配成词的原词语数目，用以发现文本中可表征明确含义的候选字符串(可能是词、短语、短句)，解决了词典依赖及只能提取词语的问题；一般而言，字符串单独出现的频次越高，与其它字符串搭配出现的机会越少，则该字符串表达意图的能力越强。因此，在计算候选字符串权重时，考虑其外部的语义信息，增加字符串外部复杂度因子，使权重计算指标体系更加全面，提取效果更加准确。

本公开各个实施例的方案，相对于传统的权重计算方法，通过分析文本特点，发现上下文语义信息丰富度可以反映出字符串表达意图能力的强弱，因此，在字符串权重计算公式中加入外部丰富度影响因子，不仅考虑了字符串本身特点，也考虑了字符串外部上下文的环境，有效地补充了指标体系，提高了结果准确性。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本公开的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本公开一个实施例的基于语义分析的文本关键信息提取方法的流程图；

图2示出了根据本公开一个实施例的基于语义分析的文本关键信息提取装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本申请的方案，不限制搭配成词的原词语数目，用以发现文本中可表征明确含义的候选字符串(可能是词、短语、短句)，解决了词典依赖及只能提取词语的问题；一般而言，字符串单独出现的频次越高，与其它字符串搭配出现的机会越少，则该字符串表达意图的能力越强。因此，在计算候选字符串权重时，考虑其外部的语义信息，增加字符串外部复杂度因子ec，使权重计算指标体系更加全面，提取效果更加准确。

实施例一

图1示出了本实施例的基于语义分析的文本关键信息提取方法流程图，参照图1，所述方法可以包括：

步骤11，将待处理文本以汉字为单位进行分割，形成字串c₁，c₂，...，c_i，c_i+1，...，c_n，其中，c_i表征一个汉字，n为所述文本中汉字总数。

为了消除对分词词典的依赖，避免因词典不同导致的结果差异，将文本以字为单位进行分割。这里的字可以是汉字，也可以是英文单词或其它字符，也可以是任何语种的文字单词。本实施例以汉字为例，说明具体的实施方式，并不限定本实施例方案的应用范围。

具体来说，设定文本D，共含有n个汉字，分割后形成文本串c₁，c₂，...，c_i，c_i+1，...，c_n，其中，c_i表征一个汉字，n为所述文本D中汉字总数。

步骤12，计算相邻的任意两个所述汉字c_i，c_i+1的点间互信息、左邻信息熵和右邻信息熵；若所述点间互信息、左邻信息熵和右邻信息熵均满足第一预设阈值，则合并两个汉字为一个字符串。

计算任意两个相邻汉字c_i，c_i+1的点间互信息PMI、左邻信息熵LE及右邻信息熵RE。PMI值越大，表明c_i与c_i+1越经常搭配出现，而非独立出现，则c_i与c_i+1组成短语的可能性越大，反之则越小；LE与RE值越大，说明c_i，c_i+1左(右)邻字越丰富，自由运用程度越高，组成短语的可能性越大，反之则越小。三者计算公式如下：

当然，这里的c_i与c_i+1并不限定为汉字字符，还可以是分割之后的字、词、短语或短句的字符串。因为本步骤需要重复执行，直到所有的字符串再无法再次合并为止。

具体的第一预设阈值，可以是设置阈值ε₁，ε₂，当PMI＞ε₁且min(LE，RE)＞ε₂时，即认为c_i，c_i+1合并后是一个有明确意义的字符串，可以合并。

步骤13，直到无法对所述文本中相邻汉字进行合并为止，所述文本的划分结果为T：t₁，t₂，...，t_k，...，t_m，其中，t_k为字、词、短语或短句的字符串，m为所述文本中字、词、短语或短句的字符串的总数。

将所有符合条件的字串合并后，形成新的文本串c′₁，c′₂，...，c′_i，c′_i+1，...，c′_n′，其中，c′_i表征一个字或一个词。

针对步骤12产生的文本串，重复步骤12，直到所有相邻字符串间都不能满足要求，不能进行合并为止，最终文档D的划分结果为T：t₁，t₂，...，t_k，...，t_m，其中，t_k可能为字、词、短语或短句，为了避免引起混淆，统称为字符串。

这里，所有可以合并的字符串都得到了合并，得到的t_k应该是具有实际意义的字、词、短语或短句，这些字、词、短语或短句可以作为候选关键词的字符串。

步骤14，取所述t_k中长度大于1且不属于停止词的字、词、短语或短句的字符串，作为候选字符串，计算各个候选字符串的权重。

这里的长度大于1，可以是长度大于等于2。针对上述的T，依据停止词典，过滤停止词。

取长度大于2且出现频率大于f的字符串作为候选字符串；以候选字符串t_k为例，计算其外部丰富度ec，ec值越大，表明t_k的上下文语义信息越不丰富，t_k表征意图的能力越强。计算公式如下：

其中，M为文本D中包含t_k的句子数，w_i为第i个句子的字符串总数，C为将所有句子中相同字符串进行合并后，得到的互不相同的字符串类型数。

统计计算t_k的出现频次tf，逆文档频率idf。tf越高，表明t_k在文本中越被经常提及，重要性越高；idf越高，表明t_k出现的文本广泛性越低，即具有较高的区分度。

计算候选字符串t_k的权重，公式如下：

其中：D为文本集合中的文本总数，D_w为包含t_k的文本数。

步骤15，将所述权重大于第二预设阈值的若干个所述候选字符串作为所述文本的关键信息。

按字符串的权重降序排序，根据需要，取排名靠前的若干字符串作为文本的关键信息。

这里的第二预设阈值，根据需要设定，可以随时调整。

本实施例的方案，相对于传统的权重计算方法，通过分析文本特点，发现上下文语义信息丰富度可以反映出字符串表达意图能力的强弱，因此，在字符串权重计算公式中加入外部丰富度影响因子，不仅考虑了字符串本身特点，也考虑了字符串外部上下文的环境，有效地补充了指标体系，提高了结果准确性。

实施例二

如图2所示，其中公开了一种基于语义分析的文本关键信息提取装置，其中，

分割单元21，用于将待处理文本以字为单位进行分割，形成字串c₁，c₂，...，c_i，c_i+1，...，c_n，其中，c_i表征一个汉字，n为所述文本中汉字总数；

计算单元22，用于计算相邻的任意两个所述汉字c_i，c_i+1的点间互信息、左邻信息熵和右邻信息熵；若所述点间互信息、左邻信息熵和右邻信息熵均满足第一预设阈值，则合并两个汉字为一个字符串；

合并单元23，用于直到无法对所述文本中相邻汉字进行合并为止，所述文本的划分结果为T：t₁，t₂，...，t_k，...，t_m，其中，t_k为字、词、短语或短句的字符串，m为所述文本中字、词、短语或短句的字符串的总数；

权重计算单元24，用于取所述t_k中长度大于1且不属于停止词的字、词、短语或短句的字符串，作为候选字符串，计算各个候选字符串的权重；

关键信息提取单元25，用于将所述权重大于第二预设阈值的若干个所述候选字符串作为所述文本的关键信息。

所述计算单元22，还用于：

所述权重计算单元24，具体用于：

计算候选字符串t_k外部丰富度ec(t_k)，公式如下：

统计计算t_k的出现频次tf和逆文档频率idf；

计算候选字符串t_k的权重weigth(t_k)，公式如下：

其中：D为文本集合中的文本总数，D_w为包含t_k的文本数。

根据本公开上述的一个或多个技术方案，不限制搭配成词的原词语数目，用以发现文本中可表征明确含义的候选字符串(可能是词、短语、短句)，解决了词典依赖及只能提取词语的问题；一般而言，字符串单独出现的频次越高，与其它字符串搭配出现的机会越少，则该字符串表达意图的能力越强。因此，在计算候选字符串权重时，考虑其外部的语义信息，增加字符串外部复杂度因子，使权重计算指标体系更加全面，提取效果更加准确。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本公开的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本公开的示例性实施例的描述中，本公开的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本公开要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本公开的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本公开的范围之内并且形成不同的实施例。例如，在权利要求书中所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本公开的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本公开还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本公开的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本公开进行说明而不是对本公开进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本公开可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。

以上所述仅是本公开的具体实施方式，应当指出的是，对于本领域的普通技术人员来说，在不脱离本公开精神的前提下，可以作出若干改进、修改、和变形，这些改进、修改、和变形都应视为落在本申请的保护范围内。