CN111814486A

CN111814486A - 一种基于语义分析的企业客户标签生成方法、系统及装置

Info

Publication number: CN111814486A
Application number: CN202010660279.1A
Authority: CN
Inventors: 杜治国; 吴敏; 高航
Original assignee: Neusoft Group Shanghai Co ltd; Neusoft Corp
Current assignee: Neusoft Group Shanghai Co ltd; Neusoft Corp
Priority date: 2020-07-10
Filing date: 2020-07-10
Publication date: 2020-10-23

Abstract

本发明公开了一种基于语义分析的企业客户标签生成方法，所述方法包括：采用HMM算法对输入文档进行分词；计算文档中每个词的词频‑逆文档频率；根据所述词频‑逆文档频率进行关键词提取；将分词结果和关键词结果组成待摘要内容；计算待摘要内容中每个词的条件概率P(分词和关键词|待摘要内容)；根据每个词的条件概率选择所需的词，生成标签。本发明有助于企业标签图谱中快速生成主营商品标签、经营状况标签、财务指标等，便于企业管理人员把握经营活动要素，也便于企业客户快速检索。

Description

一种基于语义分析的企业客户标签生成方法、系统及装置

技术领域

本发明属于大数据处理技术领域，特别涉及一种基于语义分析的企业客户标签生成方法、系统及装置。

背景技术

目前，企业中90％的数据都是以非结构化的形式存在，从而导致文本数据管理困难，不能有效的识别非结构化文本，影响了企业形象以及企业业务展示的直观形象。

因此，亟需一种通过非结构化文本识别构建企业标签图谱的方法来解决上述问题。

发明内容

针对上述问题，本发明提供了一种基于语义分析的企业客户标签生成方法，所述方法包括：

采用HMM算法对输入文档进行分词；

计算文档中每个词的词频-逆文档频率；

根据所述词频-逆文档频率进行关键词提取；

将分词结果和关键词结果组成待摘要内容；

计算待摘要内容中每个词的条件概率P(分词和关键词|待摘要内容)；

根据每个词的条件概率选择所需的词，生成标签。

进一步地，所述采用HMM算法对输入文档进行分词包括：

对专业词汇及命名实体进行词典收录，用统计学知识结合词典进行分词。

进一步地，所述采用HMM算法对输入文档进行分词还包括：

以“BEMS”组成的序列串作为输出，然后进行切词，得到输入文档的划分结果；

其中，B代表该字是词中的起始字，M代表该字是词中的中间字，E代表该字是词中的结束字，S代表该字是单字成词。

进一步地，所述计算文档中每个词的词频-逆文档频率，包括：

统计文档内的高词语频率，以及所述词在整个文档集合中的逆文档频率，得出高权重的词频-逆文档频率；

其中，词频＝所述词在文档中的出现次数/所述文档的总词数；

逆文档频率＝log(文档总数/(出现所述词的文档数+1))；

词频-逆文档频率＝词频*逆文档频率。

进一步地，所述词频的数学公式表示如下：

所述逆文档频率的数学公式表示如下：

所述词频-逆文档频率的数学公式表示如下：

TF-IDF_i，j＝TF_i，j*IDF_i

其中，TF代表词频，IDF代表逆文档频率，TF-IDF代表词频-逆文档频率，D代表预料库中文档总数，J代表包含该词的文档数。

进一步地，所述根据所述词频-逆文档频率进行关键词提取，具体为：

计算文档中每个词的所述词频-逆文档频率，按照降序排序，选择前N个作为关键词。

进一步地，所述根据每个词的条件概率选择所需的词，生成标签，具体为：

预先设定阈值；

选择概率大于所述阈值的词；

按概率值从大到小依次选择所需的词，生成标签。

本发明还提供了一种基于语义分析的企业客户标签生成系统，所述系统包括：

分词单元，用于采用HMM算法对输入文档进行分词；

第一计算单元，用于计算文档中每个词的词频-逆文档频率；

关键词提取单元，用于根据所述词频-逆文档频率进行关键词提取；

组合单元，用于将分词结果和关键词结果组成待摘要内容；

第二计算单元，用于计算待摘要内容中每个词的条件概率P(分词和关键词|待摘要内容)；

标签单元，用于根据每个词的条件概率选择所需的词，生成标签。

本发明还提供了一种基于语义分析的企业客户标签生成装置，所述装置包括至少一个处理器以及至少一个存储器；

所述存储器存储执行上述方法的计算机程序，所述处理器调用存储器中的所述计算机程序以执行上述方法。

本发明通过对原始文档分别进行分词和关键词提取，然后将分词结果和关键词结果进行合并，形成待摘要，缩小了数据的处理范围，最后通过计算待摘要中每个词的概率，按照概率从大到小的顺序依次排列生成标签，按照本发明实施例对企业大数据进行处理，有助于企业标签图谱中快速生成主营商品标签、经营状况标签、财务指标等，便于企业管理人员把握经营活动要素，也便于企业客户快速检索。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明实施例的基于语义分析的企业客户标签生成方法流程图；

图2示出了本发明实施例的基于语义分析的企业客户标签生成系统示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地说明，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供了一种基于语义分析的企业客户标签生成方法，示例性的，图1示出了本发明实施例的基于语义分析的企业客户标签生成方法流程图，如图1所示，所述方法包括如下步骤：

步骤一：采用HMM算法对输入文档进行分词。

具体的，对专业词汇及命名实体进行词典收录，用统计学知识结合词典进行分词。以“BEMS”组成的序列串作为输出，然后进行切词，得到输入文档的划分结果，其中，B代表该字是词中的起始字，M代表该字是词中的中间字，E代表该字是词中的结束字，S代表该字是单字成词。

示例性的，原始文档为“这本介绍深度学习的书，内容很丰富，讲解的也很有深度，物流也非常给力”，采用HMM算法，以“BEMS”字符对该原始文档进行标注，标注的结果为“S/S/BE/BE/BE/S/S/，/BE/S/BE/，/BE/S/S/S/S/BE，/BE/S/BE/S/S”。

当引用IT词典后，“深度”和“学习”这两个单独的词将被组合为一个词“深度学习”；

当引用常用短语词典后，“给”和“力”这两个单独的字将被组合为一个词“给力”。

步骤二：计算文档中每个词的词频-逆文档频率。

具体的，统计文档内的高词语频率，以及所述词在整个文档集合中的逆文档频率，得出高权重的词频-逆文档频率(TF-IDF)，从而过滤掉常见的词语，保留重要的词语；

其中，词频(TF)＝所述词在文档中的出现次数/所述文档的总词数，数学公式如下：

逆文档频率(IDF)＝log(文档总数/(出现所述词的文档数+1))(此处加1是为了防止除数为零)，数学公式如下：

词频-逆文档频率(TF-IDF)＝词频*逆文档频率，数学公式如下：

TF-IDF_i，j＝TF_i，j*IDF_i

步骤三：根据所述词频-逆文档频率进行关键词提取。

具体的，计算文档中每个词的所述词频-逆文档频率，按照降序排序，选择前N个作为关键词。

步骤四：将分词结果和关键词结果组成待摘要内容。

步骤五：计算待摘要内容中每个词的条件概率P(分词和关键词|待摘要内容)。

步骤六：根据每个词的条件概率选择所需的词，生成标签。

具体的，在待摘要内容里，将词表中每一个词的概率值都算出来，根据预先设定的阈值，比如阈值为10，则取出概率大于10的词，按概率值从大到小的顺序依次生成摘要中的所有词，形成标签。

示例性的，原始文本为“中新网2月20日电综合消息，今日起，全国多地将迎大范围雨雪降温天气，气温将‘跳崖式’下跌。其中，新疆、西北地区东部、西南地区东部、华北中南部、黄淮、江淮、江汉、江南、华南北部等地气温将下降8℃以上，部分地区超过12℃”，进行分词，得到分词文本“中新网综合消息今日全国多地将迎大范围雨雪降温天气气温跳崖式下跌其中新疆西北地区东部西南地区东部华北中南黄淮江淮江汉江南华南北部等地气温下降部分地区超过”，进行关键词提取，得到关键词文本“今日全国多地将迎大范围雨雪降温天气气温跳崖式下跌”。最后，将分词文本和关键词文本组成待摘要内容，计算待摘要内容中每个词的条件概率，按概率值从大到小依次选择所需的词，形成标签文本“全国多地将迎大范围雨雪降温天气”。

本发明还提供了一种基于语义分析的企业客户标签生成系统，如图2所示，所述系统包括分词单元、第一计算单元、关键词提取单元、组合单元、第二计算单元和标签单元。其中，分词单元采用HMM算法对输入文档进行分词，得到分词结果，并将分词结果发送给组合单元；第一计算单元计算文档中每个词的词频-逆文档频率；关键词提取单元根据所述词频-逆文档频率进行关键词提取，得到关键词结果，并将关键词结果发送给组合单元；组合单元将分词结果和关键词结果组成待摘要内容；第二计算单元计算待摘要内容中每个词的条件概率P(分词和关键词|待摘要内容)；最后，标签单元根据每个词的条件概率选择所需的词，生成标签。

本发明还提供了一种基于语义分析的企业客户标签生成装置，所述装置包括至少一个处理器以及至少一个存储器；所述存储器存储执行上述方法的计算机程序，所述处理器调用存储器中的所述计算机程序以执行上述方法。

尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于语义分析的企业客户标签生成方法,其特征在于，所述方法包括：

采用HMM算法对输入文档进行分词；

计算文档中每个词的词频-逆文档频率；

根据所述词频-逆文档频率进行关键词提取；

将分词结果和关键词结果组成待摘要内容；

根据每个词的条件概率选择所需的词，生成标签。

2.根据权利要求1所述的基于语义分析的企业客户标签生成方法，其特征在于，所述采用HMM算法对输入文档进行分词包括：

3.根据权利要求2所述的基于语义分析的企业客户标签生成方法，其特征在于，所述采用HMM算法对输入文档进行分词还包括：

4.根据权利要求1所述的基于语义分析的企业客户标签生成方法，其特征在于，所述计算文档中每个词的词频-逆文档频率，包括：

逆文档频率＝log(文档总数/(出现所述词的文档数+1))；

词频-逆文档频率＝词频*逆文档频率。

5.根据权利要求4所述的基于语义分析的企业客户标签生成方法，其特征在于，所述词频的数学公式表示如下：

所述逆文档频率的数学公式表示如下：

所述词频-逆文档频率的数学公式表示如下：

TF-IDF_i，j＝TF_i，j*IDF_i

6.根据权利要求1所述的基于语义分析的企业客户标签生成方法，其特征在于，所述根据所述词频-逆文档频率进行关键词提取，具体为：

7.根据权利要求1所述的基于语义分析的企业客户标签生成方法，其特征在于，所述根据每个词的条件概率选择所需的词，生成标签，具体为：

预先设定阈值；

选择概率大于所述阈值的词；

按概率值从大到小依次选择所需的词，生成标签。

8.一种基于语义分析的企业客户标签生成系统，其特征在于，所述系统包括：

分词单元，用于采用HMM算法对输入文档进行分词；

第一计算单元，用于计算文档中每个词的词频-逆文档频率；

组合单元，用于将分词结果和关键词结果组成待摘要内容；

9.一种基于语义分析的企业客户标签生成装置，其特征在于，所述装置包括至少一个处理器以及至少一个存储器；

所述存储器存储执行权利要求1-7任一项所述方法的计算机程序，所述处理器调用存储器中的所述计算机程序以执行权利要求1-7任一项所述方法。