CN107679144B

CN107679144B - 基于语义相似度的新闻语句聚类方法、装置及存储介质

Info

Publication number: CN107679144B
Application number: CN201710874624.XA
Authority: CN
Inventors: 徐冰; 汪伟; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2017-09-25
Filing date: 2017-09-25
Publication date: 2021-07-16
Anticipated expiration: 2037-09-25
Also published as: CN107679144A; WO2019056692A1

Abstract

本发明提供了一种基于语义相似度的新闻语句聚类方法，该方法包括以下步骤：对语料库的新闻语句进行预处理，提取出可用词；利用所述可用词对连续词袋模型进行训练，得到每个可用词的初始词向量；利用每个新闻语句的初始句子向量和该新闻语句中某个可用词的左、右邻接可用词的初始词向量迭代训练所述连续词袋模型，得到该新闻语句中每个可用词的当前词向量和该新闻语句的最终句子向量；将每个新闻语句的所有可用词的词向量的平均值、高频词的one‑hot向量及最终句子向量合并，得到该新闻语句的语义向量；计算语义向量之间的距离，得到不同新闻语句间的语义相似度，依此对所述语料库的新闻语句聚类。本发明还提供一种电子装置以及一种计算机可读存储介质。

Description

基于语义相似度的新闻语句聚类方法、装置及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种基于语义相似度的新闻语句聚类方法、装置及存储介质。

背景技术

随着互联网技术的发展，人类拥有的信息量呈现爆炸式增长，新闻文本数据量也在急速增加。面对数量庞大的新闻语料，对语句进行聚类，可方便对同类新闻进行归纳分析，实现对新闻数据的综合利用。

当前常用的新闻聚类方法在计算并比较语句相似性时往往忽略字词元素的重要性，大量多义词的存在使得此等聚类方法容易将不同类的信息聚集在一起。也有些新闻聚类方法考虑到了关键词表面文本信息背后的语义信息的作用，利用具有丰富语义概念的知识平台作为中间参考空间计算新闻语句的相似度，但难以克服聚类质量与效率之间存在的矛盾。

发明内容

鉴于以上原因，有必要提供一种基于语义相似度的新闻语句聚类方法、装置及存储介质，可以根据新闻语句的语义向量计算新闻语句之间的语义相似度，实现对新闻语句准确高效的聚类。

为实现上述目的，本发明提供一种基于语义相似度的新闻语句聚类方法，该方法包括：

预处理步骤：对语料库的新闻语句进行预处理，包括分词和去停用词处理，提取出所述新闻语句的可用词；

词向量训练步骤：利用所述可用词对连续词袋模型进行训练，得到每个可用词的初始词向量；

句子向量训练步骤：为每个新闻语句标注句子ID，将句子ID映射为对应新闻语句的初始句子向量，将该初始句子向量和该新闻语句中某个可用词的左、右邻接可用词的初始词向量输入所述连续词袋模型，预测得到该可用词的当前词向量，每次预测更新该新闻语句的句子向量，直至预测得到该新闻语句中每个可用词的当前词向量，以最后一次更新后的句子向量作为该新闻语句的最终句子向量；

向量合并步骤：从所述可用词中统计出高频词，将所述高频词以one-hot向量的形式表示，计算每个新闻语句中所有可用词的词向量的平均值，将所述新闻语句中所有可用词的词向量的平均值、高频词的one-hot向量以及最终句子向量合并，得到该新闻语句的语义向量；

相似度计算步骤：计算新闻语句的语义向量之间的距离，得到新闻语句之间的语义相似度；及

聚类步骤：将语义相似度大于预设阈值的新闻语句归为同一类别。

优选地，所述预处理还包括对所述新闻语句进行去除广告噪声和统一编码格式的处理。

优选地，所述预处理步骤中的分词处理可以采用基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法中的一种或几种。

可选地，所述向量合并步骤中所述可用词的词向量为初始词向量，或当前词向量。

优选地，所述可用词的词向量采取分布式的编码方式。

可选地，所述相似度计算步骤中的语义向量之间的距离为欧氏距离或余弦距离。

为实现上述目的，本发明还提供一种电子装置，该电子装置包括存储器和处理器，所述存储器中包括新闻语句聚类程序，该新闻语句聚类程序被所述处理器执行时实现如下步骤：

优选地，所述可用词的词向量采取分布式的编码方式。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中包括新闻语句聚类程序，该新闻语句聚类程序被处理器执行时，实现如上所述的基于语义相似度的新闻语句聚类方法的任意步骤。

本发明提出的基于语义相似度的新闻语句聚类方法、电子装置及计算机可读存储介质，通过大量语料训练连续词袋模型，根据新闻语句中各个可用词的左、右邻接可用词的初始词向量和该新闻语句的初始句子向量预测该可用词的当前词向量并更新该新闻语句的句子向量，以最后一次更新后的句子向量作为该新闻语句的最终句子向量。将该语句的最终句子向量、所有词向量的平均值和高频词的one-hot向量合并，得到该新闻语句的语义向量，通过计算新闻语句的语义向量之间的距离得到新闻语句之间的语义相似度。由于训练所述连续词袋模型时综合考虑了语句因素和字词因素，而且所用语料库的数据量可随实际需要灵活调整，使得本发明能够对新闻语句准确、高效地聚类。

附图说明

图1为本发明电子装置较佳实施例的运行环境示意图；

图2为图1中新闻语句聚类程序的程序模块图；

图3为连续词袋模型的框架示意图；

图4为本发明基于语义相似度的新闻语句聚类方法较佳实施例的流程图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将参考若干具体实施例来描述本发明的原理和精神。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本领域的技术人员知道，本发明的实施方式可以实现为一种方法、装置、设备、系统或计算机程序产品。因此，本发明可以具体实现为完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本发明的实施例，提出了一种基于语义相似性的新闻语句分类方法、装置及存储介质。

参照图1所示，为本发明电子装置较佳实施例的运行环境示意图。

该电子装置1可以是服务器、智能手机、平板电脑、便携计算机、桌上型计算机等具有存储和运算功能的终端设备。

该电子装置1包括存储器11、处理器12、网络接口13及通信总线14。所述网络接口13可选地可以包括标准的有线接口和无线接口(如WI-FI接口)。通信总线14用于实现上述组件之间的连接通信。

存储器11包括至少一种类型的可读存储介质。所述至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器等的非易失性存储介质。在一些实施例中，所述可读存储介质可以是所述电子装置1的内部存储单元，例如该电子装置1的硬盘。在另一些实施例中，所述可读存储介质也可以是所述电子装置1的外部存储器11，例如所述电子装置1上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。

在本实施例中，所述存储器11的可读存储介质通常用于存储安装于所述电子装置1的新闻语句聚类程序10及连续词袋模型等。所述存储器11还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)，微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行新闻语句聚类程序10等。

图1仅示出了具有组件11-14以及新闻语句聚类程序10的电子装置1，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

可选地，该电子装置1还可以包括用户接口，用户接口可以包括输入单元比如键盘(Keyboard)、语音输入装置比如麦克风(microphone)等具有语音识别功能的设备、语音输出装置比如音响、耳机等。可选地，用户接口还可以包括标准的有线接口、无线接口。

可选地，该电子装置1还可以包括显示器，显示器也可以称为显示屏或显示单元。在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode，OLED)显示器等。显示器用于显示在电子装置1中处理的信息以及用于显示可视化的用户界面。

可选地，该电子装置1还包括触摸传感器。所述触摸传感器所提供的供用户进行触摸操作的区域称为触控区域。此外，这里所述的触摸传感器可以为电阻式触摸传感器、电容式触摸传感器等。而且，所述触摸传感器不仅包括接触式的触摸传感器，也可包括接近式的触摸传感器等。此外，所述触摸传感器可以为单个传感器，也可以为例如阵列布置的多个传感器。用户可以通过触摸所述触控区域启动新闻语句聚类程序10。

此外，该电子装置1的显示器的面积可以与所述触摸传感器的面积相同，也可以不同。可选地，将显示器与所述触摸传感器层叠设置，以形成触摸显示屏。该装置基于触摸显示屏侦测用户触发的触控操作。

该电子装置1还可以包括射频(Radio Frequency，RF)电路、传感器和音频电路等等，在此不再赘述。

在图1所示的电子装置1较佳实施例的运行环境示意图中，包含可读存储介质的存储器11中可以包括操作系统、新闻语句聚类程序10、连续词袋模型及一个或多个语料库。处理器12执行存储器11中存储的新闻语句聚类程序10时实现如下步骤：

预处理步骤：对语料库的新闻语句进行预处理，包括分词和去停用词处理，以从所述新闻语句中提取用于模型训练的词，即新闻语句的可用词；

具体原理请参照下述图2关于新闻语句聚类程序10的程序模块图及图4关于基于语义相似度的新闻语句聚类方法较佳实施例的流程图的介绍。

参照图2所示，为图1中新闻语句聚类程序10的程序模块图。在本实施例中，新闻语句聚类程序10被分割为多个模块，该多个模块被存储于存储器11中，并由处理器12执行，以完成本发明。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。

所述新闻语句聚类程序10可以被分割为：获取模块110、预处理模块120、训练模块130及聚类模块140。

获取模块110，用于获取大量新闻语句。所述新闻语句可以是从线下的新闻文本语料库中直接获取的，也可以是从网络信息中通过爬虫等工具爬取到的。所述网络信息可以是原始文本数据信息，也可以是由语音信息通过转换工具转换成的文本信息。根据实际需要，为爬取到的新闻语句建立一个或多个语料库。

预处理模块120，用于对所述新闻语句进行预处理，提取出可用词。所述预处理包括分词和去停用词处理，还可以包括去除广告噪声和统一编码格式的处理。

其中，分词是文本处理的基础，所述分词处理可以采用基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法中的一种或几种。停用词主要包括功能词，可以是连词、介词、助词、语气词等，有时也可以是代词、数次等，这些功能词通常自身并无明确的意义，只有将其放入一个完整的句子中才有一定作用，例如“那么”、“所以”、“在”、“的”、“啊”、“这”、“那”等等。所述统一编码格式包括统一文本格式、统一转换全角半角、统一中文繁体简体等等。

训练模块130，用于通过迭代训练得到新闻语句的语义向量表示。本实施例采用的非监督学习聚类模型为连续词袋模型，参照图3所示，为连续词袋模型的框架示意图，该连续词袋模型包括输入层、映射层和输出层。

首先，利用预处理模块120得到的新闻语句的可用词对所述连续词袋模型进行训练，得到每个可用词的初始词向量。在本实施例中，可用词的词向量采用分布式表示，分布式词向量是一种低维实数向量，将所述可用词与低维空间中的点形成对应关系，这种向量的表示并不是唯一的，只为实现一定的区分性。分布式词向量之间的距离可以用传统的欧氏距离来衡量，也可以用余弦距离来衡量。用这种方式表示的向量，“麦克”和“话筒”的距离会远远小于“麦克”和“天气”的距离。

然后，为每个新闻语句标注句子ID，将句子ID映射为对应新闻语句的初始句子向量。将该初始句子向量和该新闻语句中某个可用词的左、右邻接可用词的初始词向量输入所述连续词袋模型，预测得到该可用词的当前词向量，将所述初始句子向量更新替换为第一更新句子向量，将该第一更新句子向量和该新闻语句中另一可用词的左、右邻接可用词的初始词向量输入所述连续词袋模型，预测得到该另一可用词的当前词向量，将所述第一更新句子向量更新替换为第二更新句子向量，如此迭代训练，每次训练更新该新闻语句的句子向量，直至预测得到该新闻语句中每个可用词的当前词向量，将最后一次训练更新后的句子向量作为该新闻语句的最终句子向量。

下面以新闻语句“百度是全球最大的中文搜索引擎”为例做具体说明。利用预处理模块120得到的可用词“百度”、“是”、“全球”、“最大”、“中文”、“搜索”、“引擎”对连续词袋模型进行训练，得到上述可用词的初始词向量。将该新闻语句的句子ID映射为该新闻语句的初始句子向量，然后从上述可用词中提取部分可用词，根据初始句子向量和提取的部分可用词的初始词向量，预测得到该部分可用词的相邻可用词的词向量，每次预测对句子向量进行一次更新。例如，参照图3所示，将“是”的左邻接可用词“百度”、右邻接可用词“全球”的初始词向量以及初始句子向量输入连续词袋模型，预测得到“是”的当前词向量，对初始句子向量进行一次更新，得到第一更新句子向量；将“全球”的左邻接可用词“是”的当前词向量、右邻接可用词“最大”的初始词向量和第一更新句子向量输入连续词袋模型，预测得到“全球”的当前词向量，对第一更新句子向量进行更新，得到第二更新句子向量……如此迭代训练，直至预测得到上述所有可用词的当前词向量，更新得到该新闻语句的最终句子向量。在此过程中，每个新闻语句的句子ID始终保持不变，连续词袋模型利用新闻语句的句子向量和待预测可用词的邻接可用词的初始词向量，得到更新句子向量和可用词的当前词向量。

最终句子的语义向量是综合多种信息得到的合并的向量表示。计算每个新闻语句中所有可用词的词向量的平均值，统计语料库可用词中的高频词，并将高频词以one-hot向量的形式表示，将每个新闻语句所有可用词的词向量的平均值、高频词的one-hot向量以及最终句子向量合并，得到该新闻语句的语义向量。所述词向量和句子向量的维数一样，但来自于两个不同的向量空间。

所述高频词为在语料库中出现的次数超过预设阈值的可用词。词向量的编码方式有多种，one-hot编码为不同于分布式编码的词向量的另一种编码方式。以one-hot向量形式表示的每个高频词都会占据对应向量空间的一个维度。如果语料库中有n个高频词，则one-hot向量对应的向量空间为n维空间，每个one-hot向量的某个索引项取值为1，其余索引项取值全为0。

聚类模块140，用于将语义相似度大于预定阈值的新闻语句聚集在一起归为同一类别。训练模块130将新闻语句用语义向量的形式来表示，计算语义向量之间的距离，例如欧氏距离或余弦距离，即可得到新闻语句之间的语义相似度，将语义相似度大于预定阈值(例如0.5)的新闻语句聚集在一起，即实现对新闻语句的聚类。

参照图4所示，为本发明基于语义相似度的新闻语句聚类方法的较佳实施例的流程图。电子装置1的处理器12执行存储器11中存储的新闻语句聚类程序10时实现基于语义相似度的新闻语句聚类方法的如下步骤：

步骤S10，对获取模块110获取的新闻语句进行预处理，提取出新闻语句的可用词。获取模块110从预先建立或在网络爬取得到的语料库中获取大量新闻语句，预处理模块120对所述语句进行包括分词和去停用词的预处理，得到新闻语句的可用词。可选地，所述分词处理可以采用基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法中的一种或几种。在本实施例中，所述预处理还可以包括对所述新闻语句进行去除广告噪声和统一编码格式的处理。

步骤S20，训练模块130利用所述可用词训练连续词袋模型，得到可用词的初始词向量。利用连续词袋模型将所述可用词映射为初始词向量，该初始词向量的编码方式为分布式。

步骤S30，训练模块130利用新闻语句的初始句子向量和该新闻语句中某可用词的左、右邻接可用词的初始词向量对所述连续词袋模型进行训练，预测得到该可用词的当前词向量。

步骤S40，训练模块130每次预测可用词的当前词向量，更新新闻语句的句子向量，迭代训练，直至预测得到该新闻语句每个可用词的当前词向量，以最后一次更新后的句子向量作为该新闻语句的最终句子向量。

步骤S50，训练模块130将新闻语句中所有可用词的词向量的平均值、高频词的one-hot向量和最终句子向量合并为该新闻语句的语义向量。

步骤S60，聚类模块140通过计算语义向量之间的距离衡量新闻语句间的语义相似度，并依照该语义相似度对所述语料库的新闻语句进行聚类，将语义相似度大于预设阈值的新闻语句归为同一类别。所述向量距离可以为余弦距离或欧氏距离。

本实施例提出的新闻语句聚类方法，通过迭代训练连续词袋模型，将得到的新闻语句中所有可用词的词向量的平均值、最终句子向量及高频词的one-hot向量合并，得到新闻语句的语义向量，根据语义向量之间的距离将语料库中语义相似度大于预设阈值的新闻语句聚集到一起归为同一类别。由于训练连续词袋模型时综合考虑了语句因素和字词因素，本发明能够实现对新闻语句更精确地聚类。另外，本发明所用语料库的大小可随实际情况灵活调整，因此聚类效率也可以得到保证。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质可以是硬盘、多媒体卡、SD卡、闪存卡、SMC、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器等等中的任意一种或者几种的任意组合。所述计算机可读存储介质中包括新闻语句预料库、连续词袋模型及新闻语句聚类程序10等，所述新闻语句聚类程序10被所述处理器12执行时实现如下操作：

相似度计算步骤：计算新闻语句的语义向量之间的距离，得到新闻语句之间的语义相似度；

本发明之计算机可读存储介质的具体实施方式与上述基于语义相似度的新闻语句聚类方法以及电子装置1的具体实施方式大致相同，在此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于语义相似度的新闻语句聚类方法，其特征在于，该方法包括：

获取步骤：从线下的新闻文本语料库中获取新闻语句，或从网络信息中通过爬虫等工具爬取新闻语句，为获取或爬取到的新闻语句建立一个或多个语料库；

词向量训练步骤：利用所述可用词对连续词袋模型进行训练，得到每个可用词的初始词向量，所述可用词的词向量采取分布式的编码方式；

向量合并步骤：从所述可用词中统计出高频词，所述高频词为在语料库中出现的次数超过预设阈值的可用词，将所述高频词以one-hot向量的形式表示，计算每个新闻语句中所有可用词的词向量的平均值，将所述新闻语句中所有可用词的词向量的平均值、高频词的one-hot向量以及最终句子向量合并，得到该新闻语句的语义向量；

2.根据权利要求1所述的新闻语句聚类方法，其特征在于，所述预处理还包括对所述新闻语句进行去除广告噪声和统一编码格式的处理。

3.根据权利要求1所述的新闻语句聚类方法，其特征在于，所述预处理步骤中的分词处理可以采用基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法中的一种或几种。

4.根据权利要求1所述的新闻语句聚类方法，其特征在于，所述向量合并步骤中所述可用词的词向量为初始词向量或当前词向量。

5.根据权利要求1所述的新闻语句聚类方法，其特征在于，所述相似度计算步骤中的语义向量之间的距离为欧氏距离或余弦距离。

6.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中包括新闻语句聚类程序，该新闻语句聚类程序被所述处理器执行时实现如下步骤：

7.根据权利要求6所述的电子装置，其特征在于，所述向量合并步骤中所述可用词的词向量为初始词向量或当前词向量。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中包括新闻语句聚类程序，所述新闻语句聚类程序被处理器执行时，实现如权利要求1至5中任一项所述的基于语义相似度的新闻语句聚类方法的步骤。