CN111310467A

CN111310467A - 一种在长文本中结合语义推断的主题提取方法及系统

Info

Publication number: CN111310467A
Application number: CN202010208433.1A
Authority: CN
Inventors: 应豪
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-03-23
Filing date: 2020-03-23
Publication date: 2020-06-19
Anticipated expiration: 2040-03-23
Also published as: CN111310467B

Abstract

本发明提供的主题提取方法，对待处理长文本进行预处理获得若干个文字单元，对所述文字单元进行词频统计，以获得文档‑词汇权重矩阵；根据该待处理长文本中文字单元的上下文结构特征构建概念词典；利用所述概念词典对文档‑词汇权重矩阵进行一次降维，使得文档‑词汇权重矩阵降维至文档‑概念权重矩阵；对文档‑概念权重矩阵进行二次降维，使得文档‑概念权重矩阵降维至文档‑主题权重矩阵；根据文档‑主题权重矩阵确定待处理长文本的主题，以及对主题的重视程度。该方法能够应用于长文本中，提高长文本主题识别的精度。

Description

一种在长文本中结合语义推断的主题提取方法及系统

技术领域

本发明属于技术领域，具体涉及一种在长文本中结合语义推断的主题提取方法及系统。

背景技术

常见的长文本包括商务文本，其是在特定商业场景下，专业人员为了特定的工作目标撰写的工作文本(如：招/投标书、信贷报告、企业社会责任报告等)。这类商务文本是企业在生产经营管理活动中产生的，按照严格的、既定的生效程序和规范的格式制定的，具有传递信息和记录作用的载体。它是企业经营运作的信息载体，是贯彻企业执行力的重要保障性因素。商务文本的特点为：属于长文本，内容多；明确的撰写目的，同一类商务文本内容相似度高；专业人员撰写，整体格式标准化；重复的词汇较多。

自动化文本分析是一系列旨在量化文本信息的分析过程。分析过程中，人们会利用自然语言处理，信息检索，文本挖掘和机器学习中开发的技术。自动化文本分析最常见的用途是将文本内容分配给概念类别。归类后，可以基于归类的总数对文本进行量化。例如，为了调查风险披露的影响，可以对公司年度报告中披露的风险内容进行类型分类。在此示例中，目标是将每个年度报告的每个单元(词组或句子)分类为若干种风险类型，并计算各个类别的权重以量化每个文档。

所以现有的文本分析方法往往是依据文档级别的词和词的共现来推测潜在的主题。当被用用于分析商务文本中的长文本时，识别出来的主题基本上都是高频出现的重复词，识别精度低，无法直观理解分析结果中各主题的含义。

发明内容

针对现有技术中的缺陷，本发明提供一种在长文本中结合语义推断的主题提取方法及系统，能够应用于长文本中，提高长文本主题识别的精度。

第一方面，一种在长文本中结合语义推断的主题提取方法，包括以下步骤：

接收待处理长文本，对待处理长文本进行预处理获得若干个文字单元，对所述文字单元进行词频统计，以获得文档-词汇权重矩阵；

根据该待处理长文本中文字单元的上下文结构特征构建概念词典；

利用所述概念词典对所述文档-词汇权重矩阵进行一次降维，使得文档-词汇权重矩阵降维至文档-概念权重矩阵；

对所述文档-概念权重矩阵进行二次降维，使得文档-概念权重矩阵降维至文档-主题权重矩阵；

根据所述文档-主题权重矩阵确定待处理长文本的主题，以及对主题的重视程度。

优选地，所述对待处理长文本进行预处理获得若干个文字单元，对所述文字单元进行词频统计，以获得文档-词汇权重矩阵具体包括：

根据预设的文本格式删除待处理长文本中非正文部分，以获得待处理长文本的正文部分；

使用预设的分词词库对该正文部分进行分词，获得该正文部分包含的若干个文字单元；

运用TF-IDF模型计算待处理文本的正文部分与不同文字单元的相似性，获得文档-词汇权重矩阵。

优选地，所述根据该待处理长文本中文字单元的上下文结构特征构建概念词典具体包括：

将所述待处理长文本中正文部分进行分词，去除中文、英文以及数字之外的符号，获得由若干个文字单元组成的正文文字单元序列；

运用word2vec方法，对所述文字单元序列中每个文字单元在前后窗口范围内出现的文字单元进行基于神经网络的词义归纳，获得每个文字单元的词向量；

对所述文字单元的词向量进行聚类，以形成所述概念词典。

优选地，所述对文字单元的词向量进行聚类，以形成所述概念词典具体包括：

执行聚类步骤：运用余弦相似度聚类方法，将所有词向量分成K个簇，计算词向量簇整体的轮廓系数；

改变K值，重复执行所述聚类步骤，直到计算得到的轮廓系数最大；

计算每一个词向量簇的中心向量；

在每个词向量簇内，分别计算每个词向量与中心向量的欧式距离；

按照预设的过滤比例删除欧式距离最大的词向量；

根据剩余的词向量构建所述概念词典。

优选地，所述利用所述概念词典对所述文档-词汇权重矩阵进行一次降维，使得文档-词汇权重矩阵降维至文档-概念权重矩阵具体包括：

利用所述概念词典对该文档-词汇权重矩阵中文字单元的相似度进行定义，得到每个文字单元的概念；

运用余弦组合公式，计算待处理文本的正文部分与不同概念的相似性，获得所述文档-概念权重矩阵。

优选地，所述对所述文档-概念权重矩阵进行二次降维，使得文档-概念权重矩阵降维至文档-主题权重矩阵具体包括：

运用因子分析，依据所述文档-概念权重矩阵，确定不同概念的最优组合方式和维度数量；

将在同一维度上因子载荷高的概念合并作为一个主题维度，以获得因子载荷矩阵；

对所述因子载荷矩阵进行正交旋转，对概念进行加权汇总后获得文本在各个主题上的权重，得到所述文档-主题权重矩阵。

第二方面，一种在长文本中结合语义推断的主题提取系统，包括：

解析单元：用于接收待处理长文本，对待处理长文本进行预处理获得若干个文字单元，对所述文字单元进行词频统计，以获得文档-词汇权重矩阵；

词典单元：用于根据该待处理长文本中文字单元的上下文结构特征构建概念词典；

降维单元：用于利用所述概念词典对所述文档-词汇权重矩阵进行一次降维，使得文档-词汇权重矩阵降维至文档-概念权重矩阵；对所述文档-概念权重矩阵进行二次降维，使得文档-概念权重矩阵降维至文档-主题权重矩阵；

提取单元：用于根据所述文档-主题权重矩阵确定待处理长文本的主题，以及对主题的重视程度。

优选地，所述解析单元具体用于：

优选地，所述词典单元具体用于：

计算每一个词向量簇的中心向量；

按照预设的过滤比例删除欧式距离最大的词向量；

根据剩余的词向量构建所述概念词典。

优选地，所述降维单元具体用于：

运用余弦组合公式，计算待处理文本的正文部分与不同概念的相似性，获得所述文档-概念权重矩阵；

由上述技术方案可知，本发明提供的一种在长文本中结合语义推断的主题提取方法及系统，结合字典构建方法和无监督性机器学习方法，利用无监督机器学习对隐含主题的挖掘能力，自动地构建一个能够完全覆盖所有文本内容的概念词典，这样在提高文本分类结果的可控性和精度的同时，还可以减轻了人工建立词典的工作量，且在不同场景的分析中具有较高的可复用性。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中，类似的元件或部分一般由类似的附图标记标识。附图中，各元件或部分并不一定按照实际的比例绘制。

图1为本发明实施例一提供的方法流程图。

图2为本发明实施例二提供的系统的模块框图。

具体实施方式

下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案，因此只作为示例，而不能以此来限制本发明的保护范围。需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

如在本说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

由于长文本中往往包含了很多隐含的概念类别，如果这些隐含的概念类别能够被识别出来，就能够通过量化这些隐含的概念类别，估计出此类长文本中表达的不同类型的信息对实现既定目标的效果，并对未来同类型文本的撰写提供有效的指导。

实施例一：

一种在长文本中结合语义推断的主题提取方法，参见图1，包括以下步骤：

S1：接收待处理长文本，对待处理长文本进行预处理获得若干个文字单元，对所述文字单元进行词频统计，以获得文档-词汇权重矩阵，具体包括：

具体地，由于不同类型的长文本的格式不同，所以该方法中文本格式与待处理长文本的类型一一对应。文本格式中指出哪些部分属于正文部分，哪些部分属于非正文部分。

具体地，文字单元为文本分析时定义的最小单元，如词组、句子等。分词词库包括现有词汇库(例如搜狗中文词库)和自建词汇库，在进行分词时，可以采用Jieba中文分词组件进行分词和分割。由于同一类型的长文本是为了一个共同的目的，或者在同一个商业场景下撰写完成的。所以同一个文字单元在不同文本中的含义大多数情况下是相同的。但是由于同一个文字单元在不同应用场景中可能具有不同的含义，所以必要时还可以在进行词组的分词和分割时，基于文本的上下文特征进行词语的歧义消除。

具体地，文档-词汇权重矩阵中包括每个文字单元的相似度。如果待处理长文本是非文本格式(例如PDF格式)，还需要采用转换器将待处理长文本转换为文本格式(例如DOC格式)。

S2：根据该待处理长文本中文字单元的上下文结构特征构建概念词典，具体包括：

具体地，步骤S1和步骤S2没有严格的前后顺序关系，先执行步骤S1后执行步骤S2和先执行步骤S2后执行步骤S1这两种方案都属于本申请的保护范围，都能达到一样的技术效果。

正文文字单元序列中各个文字单元之间用空格表示。word2vec方法是基于神经网络模型学习文字单元在高维空间中的向量表示方法，可以用来提取文字单元之间的深层语义关系。word2vec方法与大多数传统的主题提取方法不同，word2vec重点是文字单元之间的语义特征，而不是简单的词汇或句法特征。该方法采用word2vec方法进行向量表达，文字单元出现次数的多少不影响相关概念的提取结果。用户可以根据自身需求设置词义归纳中前后窗口范围，例如如果设置前后一个窗口，即表示采集前后间隔一个文字单元距离的文字单元进行词义归纳。如果设置前后两个窗口，即表示采集前后间隔两个文字单元距离的文字单元进行词义归纳。

词向量的表达维度依据文本内容的复杂程度确定，例如内容简单的文本(如邮件，通知等)设置的表达维度为100维；内容中等的文本(如内部工作报告等)设置的表达维度为200维；内容复杂的文本(如项目方案等)设置的表达维度为300维。

对所述文字单元的词向量进行聚类，以形成所述概念词典。

计算每一个词向量簇的中心向量；

按照预设的过滤比例删除欧式距离最大的词向量；

根据剩余的词向量构建所述概念词典。

具体地，聚类用于合并上下文相似的词汇，表达相近的意思(即同义词)，这样就可以识别出同义词组合(即概念或类)。轮廓系数越大说明分类效果越好，轮廓系数越小说明分类效果越差。每个词向量簇内，词向量与中心向量的欧式距离越大，说明词向量存在歧义的可能性越大，所以该步骤需要删除不能明确主题含义的文字单元。这样就不再依赖人工主观判断。在删除词向量时，可以将欧式距离最大的前10％的词向量删除。

S3：利用所述概念词典对所述文档-词汇权重矩阵进行一次降维，使得文档-词汇权重矩阵降维至文档-概念权重矩阵，具体包括：

具体地，余弦组合公式为

其中，S_q,d为概念q在文档d中的相似性；w_q,t为词汇t在概念q中的权重；w_d,t为词汇t在文档d中的权重(即文档-词汇权重矩阵中词汇在文档中的权重)；W_q为概念q中的词汇总数占总词数的比例(建议取对数ln)；W_d为文档d中的词汇总数占总词数的比例。文档-概念权重矩阵中包括不同概念的相似度。

S4：对所述文档-概念权重矩阵进行二次降维，使得文档-概念权重矩阵降维至文档-主题权重矩阵，具体包括：

具体地，运用因子分析，依据所述文档-词汇权重矩阵和文档-概念权重矩阵，确定不同类中最优的组合方式和组合数量，将共现率高的类合并为一个主题，实现对概念向量的降维，得到包含各个主体权重的文档-主题权重矩阵。

S5：根据所述文档-主题权重矩阵确定待处理长文本的主题，以及对主题的重视程度。

具体地，在确定待处理长文本的主题时，可以罗列出待处理长文本涉及的主题，以及每个主题的权重。

该方法结合字典构建方法和无监督性机器学习方法，利用无监督机器学习对隐含主题的挖掘能力，自动地构建一个能够完全覆盖所有文本内容的概念词典，这样在提高文本分类结果的可控性和精度的同时，还可以减轻了人工建立词典的工作量，且在不同场景的分析中具有较高的可复用性。

为了进一步地验证该方法对于长文本主题识别的精准度，以下列出采用该方法与传统的无监督性方法(主题生成模型，LDA)针对公开披露的社会责任报告的主题识别结果。识别过程中，以单词作为文字单元，通过本申请的分析结果可以获得50个主题和各主题中的相关词汇，识别结果参见表1。同样的词汇库，使用LDA方法分析，将目标类别数量设定为50，识别结果参见表2。

表1：

表2：

可以看到，采用传统的无监督性方法对长文本进行识别时，识别出的类别主要由高频词组成，丢失了大量非高频词，识别精度不高。而采用本申请方法识别长文本的主题，可以在相同的文本中可以提取出更多非高频词形成的主题。

实施例二：

一种在长文本中结合语义推断的主题提取系统，参见图2，包括：

优选地，所述解析单元具体用于：

优选地，所述词典单元具体用于：

计算每一个词向量簇的中心向量；

按照预设的过滤比例删除欧式距离最大的词向量；

根据剩余的词向量构建所述概念词典。

优选地，所述降维单元具体用于：

该系统结合字典构建方法和无监督性机器学习方法，利用无监督机器学习对隐含主题的挖掘能力，自动地构建一个能够完全覆盖所有文本内容的概念词典，这样在提高文本分类结果的可控性和精度的同时，还可以减轻了人工建立词典的工作量，且在不同场景的分析中具有较高的可复用性。

本发明实施例所提供的系统，为简要描述，实施例部分未提及之处，可参考前述系方法实施例中相应内容。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种在长文本中结合语义推断的主题提取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述在长文本中结合语义推断的主题提取方法，其特征在于，所述对待处理长文本进行预处理获得若干个文字单元，对所述文字单元进行词频统计，以获得文档-词汇权重矩阵具体包括：

3.根据权利要求2所述在长文本中结合语义推断的主题提取方法，其特征在于，所述根据该待处理长文本中文字单元的上下文结构特征构建概念词典具体包括：

对所述文字单元的词向量进行聚类，以形成所述概念词典。

4.根据权利要求3所述在长文本中结合语义推断的主题提取方法，其特征在于，所述对文字单元的词向量进行聚类，以形成所述概念词典具体包括：

计算每一个词向量簇的中心向量；

按照预设的过滤比例删除欧式距离最大的词向量；

根据剩余的词向量构建所述概念词典。

5.根据权利要求2所述在长文本中结合语义推断的主题提取方法，其特征在于，所述利用所述概念词典对所述文档-词汇权重矩阵进行一次降维，使得文档-词汇权重矩阵降维至文档-概念权重矩阵具体包括：

6.根据权利要求2所述在长文本中结合语义推断的主题提取方法，其特征在于，所述对所述文档-概念权重矩阵进行二次降维，使得文档-概念权重矩阵降维至文档-主题权重矩阵具体包括：

7.一种在长文本中结合语义推断的主题提取系统，其特征在于，包括：

8.根据权利要求7所述在长文本中结合语义推断的主题提取系统，其特征在于，所述解析单元具体用于：

9.根据权利要求7所述在长文本中结合语义推断的主题提取系统，其特征在于，所述词典单元具体用于：

计算每一个词向量簇的中心向量；

按照预设的过滤比例删除欧式距离最大的词向量；

根据剩余的词向量构建所述概念词典。

10.根据权利要求8所述在长文本中结合语义推断的主题提取系统，其特征在于，所述降维单元具体用于：