CN107679144B - 基于语义相似度的新闻语句聚类方法、装置及存储介质 - Google Patents

基于语义相似度的新闻语句聚类方法、装置及存储介质 Download PDF

Info

Publication number
CN107679144B
CN107679144B CN201710874624.XA CN201710874624A CN107679144B CN 107679144 B CN107679144 B CN 107679144B CN 201710874624 A CN201710874624 A CN 201710874624A CN 107679144 B CN107679144 B CN 107679144B
Authority
CN
China
Prior art keywords
sentence
news
word
vector
available
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710874624.XA
Other languages
English (en)
Other versions
CN107679144A (zh
Inventor
徐冰
汪伟
肖京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201710874624.XA priority Critical patent/CN107679144B/zh
Publication of CN107679144A publication Critical patent/CN107679144A/zh
Priority to PCT/CN2018/076128 priority patent/WO2019056692A1/zh
Application granted granted Critical
Publication of CN107679144B publication Critical patent/CN107679144B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/358Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于语义相似度的新闻语句聚类方法,该方法包括以下步骤:对语料库的新闻语句进行预处理,提取出可用词;利用所述可用词对连续词袋模型进行训练,得到每个可用词的初始词向量;利用每个新闻语句的初始句子向量和该新闻语句中某个可用词的左、右邻接可用词的初始词向量迭代训练所述连续词袋模型,得到该新闻语句中每个可用词的当前词向量和该新闻语句的最终句子向量;将每个新闻语句的所有可用词的词向量的平均值、高频词的one‑hot向量及最终句子向量合并,得到该新闻语句的语义向量;计算语义向量之间的距离,得到不同新闻语句间的语义相似度,依此对所述语料库的新闻语句聚类。本发明还提供一种电子装置以及一种计算机可读存储介质。

Description

基于语义相似度的新闻语句聚类方法、装置及存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于语义相似度的新闻语句聚类方法、装置及存储介质。
背景技术
随着互联网技术的发展,人类拥有的信息量呈现爆炸式增长,新闻文本数据量也在急速增加。面对数量庞大的新闻语料,对语句进行聚类,可方便对同类新闻进行归纳分析,实现对新闻数据的综合利用。
当前常用的新闻聚类方法在计算并比较语句相似性时往往忽略字词元素的重要性,大量多义词的存在使得此等聚类方法容易将不同类的信息聚集在一起。也有些新闻聚类方法考虑到了关键词表面文本信息背后的语义信息的作用,利用具有丰富语义概念的知识平台作为中间参考空间计算新闻语句的相似度,但难以克服聚类质量与效率之间存在的矛盾。
发明内容
鉴于以上原因,有必要提供一种基于语义相似度的新闻语句聚类方法、装置及存储介质,可以根据新闻语句的语义向量计算新闻语句之间的语义相似度,实现对新闻语句准确高效的聚类。
为实现上述目的,本发明提供一种基于语义相似度的新闻语句聚类方法,该方法包括:
预处理步骤:对语料库的新闻语句进行预处理,包括分词和去停用词处理,提取出所述新闻语句的可用词;
词向量训练步骤:利用所述可用词对连续词袋模型进行训练,得到每个可用词的初始词向量;
句子向量训练步骤:为每个新闻语句标注句子ID,将句子ID映射为对应新闻语句的初始句子向量,将该初始句子向量和该新闻语句中某个可用词的左、右邻接可用词的初始词向量输入所述连续词袋模型,预测得到该可用词的当前词向量,每次预测更新该新闻语句的句子向量,直至预测得到该新闻语句中每个可用词的当前词向量,以最后一次更新后的句子向量作为该新闻语句的最终句子向量;
向量合并步骤:从所述可用词中统计出高频词,将所述高频词以one-hot向量的形式表示,计算每个新闻语句中所有可用词的词向量的平均值,将所述新闻语句中所有可用词的词向量的平均值、高频词的one-hot向量以及最终句子向量合并,得到该新闻语句的语义向量;
相似度计算步骤:计算新闻语句的语义向量之间的距离,得到新闻语句之间的语义相似度;及
聚类步骤:将语义相似度大于预设阈值的新闻语句归为同一类别。
优选地,所述预处理还包括对所述新闻语句进行去除广告噪声和统一编码格式的处理。
优选地,所述预处理步骤中的分词处理可以采用基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法中的一种或几种。
可选地,所述向量合并步骤中所述可用词的词向量为初始词向量,或当前词向量。
优选地,所述可用词的词向量采取分布式的编码方式。
可选地,所述相似度计算步骤中的语义向量之间的距离为欧氏距离或余弦距离。
为实现上述目的,本发明还提供一种电子装置,该电子装置包括存储器和处理器,所述存储器中包括新闻语句聚类程序,该新闻语句聚类程序被所述处理器执行时实现如下步骤:
预处理步骤:对语料库的新闻语句进行预处理,包括分词和去停用词处理,提取出所述新闻语句的可用词;
词向量训练步骤:利用所述可用词对连续词袋模型进行训练,得到每个可用词的初始词向量;
句子向量训练步骤:为每个新闻语句标注句子ID,将句子ID映射为对应新闻语句的初始句子向量,将该初始句子向量和该新闻语句中某个可用词的左、右邻接可用词的初始词向量输入所述连续词袋模型,预测得到该可用词的当前词向量,每次预测更新该新闻语句的句子向量,直至预测得到该新闻语句中每个可用词的当前词向量,以最后一次更新后的句子向量作为该新闻语句的最终句子向量;
向量合并步骤:从所述可用词中统计出高频词,将所述高频词以one-hot向量的形式表示,计算每个新闻语句中所有可用词的词向量的平均值,将所述新闻语句中所有可用词的词向量的平均值、高频词的one-hot向量以及最终句子向量合并,得到该新闻语句的语义向量;
相似度计算步骤:计算新闻语句的语义向量之间的距离,得到新闻语句之间的语义相似度;及
聚类步骤:将语义相似度大于预设阈值的新闻语句归为同一类别。
优选地,所述预处理还包括对所述新闻语句进行去除广告噪声和统一编码格式的处理。
优选地,所述预处理步骤中的分词处理可以采用基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法中的一种或几种。
可选地,所述向量合并步骤中所述可用词的词向量为初始词向量,或当前词向量。
优选地,所述可用词的词向量采取分布式的编码方式。
可选地,所述相似度计算步骤中的语义向量之间的距离为欧氏距离或余弦距离。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中包括新闻语句聚类程序,该新闻语句聚类程序被处理器执行时,实现如上所述的基于语义相似度的新闻语句聚类方法的任意步骤。
本发明提出的基于语义相似度的新闻语句聚类方法、电子装置及计算机可读存储介质,通过大量语料训练连续词袋模型,根据新闻语句中各个可用词的左、右邻接可用词的初始词向量和该新闻语句的初始句子向量预测该可用词的当前词向量并更新该新闻语句的句子向量,以最后一次更新后的句子向量作为该新闻语句的最终句子向量。将该语句的最终句子向量、所有词向量的平均值和高频词的one-hot向量合并,得到该新闻语句的语义向量,通过计算新闻语句的语义向量之间的距离得到新闻语句之间的语义相似度。由于训练所述连续词袋模型时综合考虑了语句因素和字词因素,而且所用语料库的数据量可随实际需要灵活调整,使得本发明能够对新闻语句准确、高效地聚类。
附图说明
图1为本发明电子装置较佳实施例的运行环境示意图;
图2为图1中新闻语句聚类程序的程序模块图;
图3为连续词袋模型的框架示意图;
图4为本发明基于语义相似度的新闻语句聚类方法较佳实施例的流程图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将参考若干具体实施例来描述本发明的原理和精神。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本领域的技术人员知道,本发明的实施方式可以实现为一种方法、装置、设备、系统或计算机程序产品。因此,本发明可以具体实现为完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本发明的实施例,提出了一种基于语义相似性的新闻语句分类方法、装置及存储介质。
参照图1所示,为本发明电子装置较佳实施例的运行环境示意图。
该电子装置1可以是服务器、智能手机、平板电脑、便携计算机、桌上型计算机等具有存储和运算功能的终端设备。
该电子装置1包括存储器11、处理器12、网络接口13及通信总线14。所述网络接口13可选地可以包括标准的有线接口和无线接口(如WI-FI接口)。通信总线14用于实现上述组件之间的连接通信。
存储器11包括至少一种类型的可读存储介质。所述至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器等的非易失性存储介质。在一些实施例中,所述可读存储介质可以是所述电子装置1的内部存储单元,例如该电子装置1的硬盘。在另一些实施例中,所述可读存储介质也可以是所述电子装置1的外部存储器11,例如所述电子装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
在本实施例中,所述存储器11的可读存储介质通常用于存储安装于所述电子装置1的新闻语句聚类程序10及连续词袋模型等。所述存储器11还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行新闻语句聚类程序10等。
图1仅示出了具有组件11-14以及新闻语句聚类程序10的电子装置1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
可选地,该电子装置1还可以包括用户接口,用户接口可以包括输入单元比如键盘(Keyboard)、语音输入装置比如麦克风(microphone)等具有语音识别功能的设备、语音输出装置比如音响、耳机等。可选地,用户接口还可以包括标准的有线接口、无线接口。
可选地,该电子装置1还可以包括显示器,显示器也可以称为显示屏或显示单元。在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode,OLED)显示器等。显示器用于显示在电子装置1中处理的信息以及用于显示可视化的用户界面。
可选地,该电子装置1还包括触摸传感器。所述触摸传感器所提供的供用户进行触摸操作的区域称为触控区域。此外,这里所述的触摸传感器可以为电阻式触摸传感器、电容式触摸传感器等。而且,所述触摸传感器不仅包括接触式的触摸传感器,也可包括接近式的触摸传感器等。此外,所述触摸传感器可以为单个传感器,也可以为例如阵列布置的多个传感器。用户可以通过触摸所述触控区域启动新闻语句聚类程序10。
此外,该电子装置1的显示器的面积可以与所述触摸传感器的面积相同,也可以不同。可选地,将显示器与所述触摸传感器层叠设置,以形成触摸显示屏。该装置基于触摸显示屏侦测用户触发的触控操作。
该电子装置1还可以包括射频(Radio Frequency,RF)电路、传感器和音频电路等等,在此不再赘述。
在图1所示的电子装置1较佳实施例的运行环境示意图中,包含可读存储介质的存储器11中可以包括操作系统、新闻语句聚类程序10、连续词袋模型及一个或多个语料库。处理器12执行存储器11中存储的新闻语句聚类程序10时实现如下步骤:
预处理步骤:对语料库的新闻语句进行预处理,包括分词和去停用词处理,以从所述新闻语句中提取用于模型训练的词,即新闻语句的可用词;
词向量训练步骤:利用所述可用词对连续词袋模型进行训练,得到每个可用词的初始词向量;
句子向量训练步骤:为每个新闻语句标注句子ID,将句子ID映射为对应新闻语句的初始句子向量,将该初始句子向量和该新闻语句中某个可用词的左、右邻接可用词的初始词向量输入所述连续词袋模型,预测得到该可用词的当前词向量,每次预测更新该新闻语句的句子向量,直至预测得到该新闻语句中每个可用词的当前词向量,以最后一次更新后的句子向量作为该新闻语句的最终句子向量;
向量合并步骤:从所述可用词中统计出高频词,将所述高频词以one-hot向量的形式表示,计算每个新闻语句中所有可用词的词向量的平均值,将所述新闻语句中所有可用词的词向量的平均值、高频词的one-hot向量以及最终句子向量合并,得到该新闻语句的语义向量;
相似度计算步骤:计算新闻语句的语义向量之间的距离,得到新闻语句之间的语义相似度;及
聚类步骤:将语义相似度大于预设阈值的新闻语句归为同一类别。
具体原理请参照下述图2关于新闻语句聚类程序10的程序模块图及图4关于基于语义相似度的新闻语句聚类方法较佳实施例的流程图的介绍。
参照图2所示,为图1中新闻语句聚类程序10的程序模块图。在本实施例中,新闻语句聚类程序10被分割为多个模块,该多个模块被存储于存储器11中,并由处理器12执行,以完成本发明。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。
所述新闻语句聚类程序10可以被分割为:获取模块110、预处理模块120、训练模块130及聚类模块140。
获取模块110,用于获取大量新闻语句。所述新闻语句可以是从线下的新闻文本语料库中直接获取的,也可以是从网络信息中通过爬虫等工具爬取到的。所述网络信息可以是原始文本数据信息,也可以是由语音信息通过转换工具转换成的文本信息。根据实际需要,为爬取到的新闻语句建立一个或多个语料库。
预处理模块120,用于对所述新闻语句进行预处理,提取出可用词。所述预处理包括分词和去停用词处理,还可以包括去除广告噪声和统一编码格式的处理。
其中,分词是文本处理的基础,所述分词处理可以采用基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法中的一种或几种。停用词主要包括功能词,可以是连词、介词、助词、语气词等,有时也可以是代词、数次等,这些功能词通常自身并无明确的意义,只有将其放入一个完整的句子中才有一定作用,例如“那么”、“所以”、“在”、“的”、“啊”、“这”、“那”等等。所述统一编码格式包括统一文本格式、统一转换全角半角、统一中文繁体简体等等。
训练模块130,用于通过迭代训练得到新闻语句的语义向量表示。本实施例采用的非监督学习聚类模型为连续词袋模型,参照图3所示,为连续词袋模型的框架示意图,该连续词袋模型包括输入层、映射层和输出层。
首先,利用预处理模块120得到的新闻语句的可用词对所述连续词袋模型进行训练,得到每个可用词的初始词向量。在本实施例中,可用词的词向量采用分布式表示,分布式词向量是一种低维实数向量,将所述可用词与低维空间中的点形成对应关系,这种向量的表示并不是唯一的,只为实现一定的区分性。分布式词向量之间的距离可以用传统的欧氏距离来衡量,也可以用余弦距离来衡量。用这种方式表示的向量,“麦克”和“话筒”的距离会远远小于“麦克”和“天气”的距离。
然后,为每个新闻语句标注句子ID,将句子ID映射为对应新闻语句的初始句子向量。将该初始句子向量和该新闻语句中某个可用词的左、右邻接可用词的初始词向量输入所述连续词袋模型,预测得到该可用词的当前词向量,将所述初始句子向量更新替换为第一更新句子向量,将该第一更新句子向量和该新闻语句中另一可用词的左、右邻接可用词的初始词向量输入所述连续词袋模型,预测得到该另一可用词的当前词向量,将所述第一更新句子向量更新替换为第二更新句子向量,如此迭代训练,每次训练更新该新闻语句的句子向量,直至预测得到该新闻语句中每个可用词的当前词向量,将最后一次训练更新后的句子向量作为该新闻语句的最终句子向量。
下面以新闻语句“百度是全球最大的中文搜索引擎”为例做具体说明。利用预处理模块120得到的可用词“百度”、“是”、“全球”、“最大”、“中文”、“搜索”、“引擎”对连续词袋模型进行训练,得到上述可用词的初始词向量。将该新闻语句的句子ID映射为该新闻语句的初始句子向量,然后从上述可用词中提取部分可用词,根据初始句子向量和提取的部分可用词的初始词向量,预测得到该部分可用词的相邻可用词的词向量,每次预测对句子向量进行一次更新。例如,参照图3所示,将“是”的左邻接可用词“百度”、右邻接可用词“全球”的初始词向量以及初始句子向量输入连续词袋模型,预测得到“是”的当前词向量,对初始句子向量进行一次更新,得到第一更新句子向量;将“全球”的左邻接可用词“是”的当前词向量、右邻接可用词“最大”的初始词向量和第一更新句子向量输入连续词袋模型,预测得到“全球”的当前词向量,对第一更新句子向量进行更新,得到第二更新句子向量……如此迭代训练,直至预测得到上述所有可用词的当前词向量,更新得到该新闻语句的最终句子向量。在此过程中,每个新闻语句的句子ID始终保持不变,连续词袋模型利用新闻语句的句子向量和待预测可用词的邻接可用词的初始词向量,得到更新句子向量和可用词的当前词向量。
最终句子的语义向量是综合多种信息得到的合并的向量表示。计算每个新闻语句中所有可用词的词向量的平均值,统计语料库可用词中的高频词,并将高频词以one-hot向量的形式表示,将每个新闻语句所有可用词的词向量的平均值、高频词的one-hot向量以及最终句子向量合并,得到该新闻语句的语义向量。所述词向量和句子向量的维数一样,但来自于两个不同的向量空间。
所述高频词为在语料库中出现的次数超过预设阈值的可用词。词向量的编码方式有多种,one-hot编码为不同于分布式编码的词向量的另一种编码方式。以one-hot向量形式表示的每个高频词都会占据对应向量空间的一个维度。如果语料库中有n个高频词,则one-hot向量对应的向量空间为n维空间,每个one-hot向量的某个索引项取值为1,其余索引项取值全为0。
聚类模块140,用于将语义相似度大于预定阈值的新闻语句聚集在一起归为同一类别。训练模块130将新闻语句用语义向量的形式来表示,计算语义向量之间的距离,例如欧氏距离或余弦距离,即可得到新闻语句之间的语义相似度,将语义相似度大于预定阈值(例如0.5)的新闻语句聚集在一起,即实现对新闻语句的聚类。
参照图4所示,为本发明基于语义相似度的新闻语句聚类方法的较佳实施例的流程图。电子装置1的处理器12执行存储器11中存储的新闻语句聚类程序10时实现基于语义相似度的新闻语句聚类方法的如下步骤:
步骤S10,对获取模块110获取的新闻语句进行预处理,提取出新闻语句的可用词。获取模块110从预先建立或在网络爬取得到的语料库中获取大量新闻语句,预处理模块120对所述语句进行包括分词和去停用词的预处理,得到新闻语句的可用词。可选地,所述分词处理可以采用基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法中的一种或几种。在本实施例中,所述预处理还可以包括对所述新闻语句进行去除广告噪声和统一编码格式的处理。
步骤S20,训练模块130利用所述可用词训练连续词袋模型,得到可用词的初始词向量。利用连续词袋模型将所述可用词映射为初始词向量,该初始词向量的编码方式为分布式。
步骤S30,训练模块130利用新闻语句的初始句子向量和该新闻语句中某可用词的左、右邻接可用词的初始词向量对所述连续词袋模型进行训练,预测得到该可用词的当前词向量。
步骤S40,训练模块130每次预测可用词的当前词向量,更新新闻语句的句子向量,迭代训练,直至预测得到该新闻语句每个可用词的当前词向量,以最后一次更新后的句子向量作为该新闻语句的最终句子向量。
步骤S50,训练模块130将新闻语句中所有可用词的词向量的平均值、高频词的one-hot向量和最终句子向量合并为该新闻语句的语义向量。
步骤S60,聚类模块140通过计算语义向量之间的距离衡量新闻语句间的语义相似度,并依照该语义相似度对所述语料库的新闻语句进行聚类,将语义相似度大于预设阈值的新闻语句归为同一类别。所述向量距离可以为余弦距离或欧氏距离。
本实施例提出的新闻语句聚类方法,通过迭代训练连续词袋模型,将得到的新闻语句中所有可用词的词向量的平均值、最终句子向量及高频词的one-hot向量合并,得到新闻语句的语义向量,根据语义向量之间的距离将语料库中语义相似度大于预设阈值的新闻语句聚集到一起归为同一类别。由于训练连续词袋模型时综合考虑了语句因素和字词因素,本发明能够实现对新闻语句更精确地聚类。另外,本发明所用语料库的大小可随实际情况灵活调整,因此聚类效率也可以得到保证。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质可以是硬盘、多媒体卡、SD卡、闪存卡、SMC、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器等等中的任意一种或者几种的任意组合。所述计算机可读存储介质中包括新闻语句预料库、连续词袋模型及新闻语句聚类程序10等,所述新闻语句聚类程序10被所述处理器12执行时实现如下操作:
预处理步骤:对语料库的新闻语句进行预处理,包括分词和去停用词处理,提取出所述新闻语句的可用词;
词向量训练步骤:利用所述可用词对连续词袋模型进行训练,得到每个可用词的初始词向量;
句子向量训练步骤:为每个新闻语句标注句子ID,将句子ID映射为对应新闻语句的初始句子向量,将该初始句子向量和该新闻语句中某个可用词的左、右邻接可用词的初始词向量输入所述连续词袋模型,预测得到该可用词的当前词向量,每次预测更新该新闻语句的句子向量,直至预测得到该新闻语句中每个可用词的当前词向量,以最后一次更新后的句子向量作为该新闻语句的最终句子向量;
向量合并步骤:从所述可用词中统计出高频词,将所述高频词以one-hot向量的形式表示,计算每个新闻语句中所有可用词的词向量的平均值,将所述新闻语句中所有可用词的词向量的平均值、高频词的one-hot向量以及最终句子向量合并,得到该新闻语句的语义向量;
相似度计算步骤:计算新闻语句的语义向量之间的距离,得到新闻语句之间的语义相似度;
聚类步骤:将语义相似度大于预设阈值的新闻语句归为同一类别。
本发明之计算机可读存储介质的具体实施方式与上述基于语义相似度的新闻语句聚类方法以及电子装置1的具体实施方式大致相同,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (8)

1.一种基于语义相似度的新闻语句聚类方法,其特征在于,该方法包括:
获取步骤:从线下的新闻文本语料库中获取新闻语句,或从网络信息中通过爬虫等工具爬取新闻语句,为获取或爬取到的新闻语句建立一个或多个语料库;
预处理步骤:对语料库的新闻语句进行预处理,包括分词和去停用词处理,提取出所述新闻语句的可用词;
词向量训练步骤:利用所述可用词对连续词袋模型进行训练,得到每个可用词的初始词向量,所述可用词的词向量采取分布式的编码方式;
句子向量训练步骤:为每个新闻语句标注句子ID,将句子ID映射为对应新闻语句的初始句子向量,将该初始句子向量和该新闻语句中某个可用词的左、右邻接可用词的初始词向量输入所述连续词袋模型,预测得到该可用词的当前词向量,每次预测更新该新闻语句的句子向量,直至预测得到该新闻语句中每个可用词的当前词向量,以最后一次更新后的句子向量作为该新闻语句的最终句子向量;
向量合并步骤:从所述可用词中统计出高频词,所述高频词为在语料库中出现的次数超过预设阈值的可用词,将所述高频词以one-hot向量的形式表示,计算每个新闻语句中所有可用词的词向量的平均值,将所述新闻语句中所有可用词的词向量的平均值、高频词的one-hot向量以及最终句子向量合并,得到该新闻语句的语义向量;
相似度计算步骤:计算新闻语句的语义向量之间的距离,得到新闻语句之间的语义相似度;及
聚类步骤:将语义相似度大于预设阈值的新闻语句归为同一类别。
2.根据权利要求1所述的新闻语句聚类方法,其特征在于,所述预处理还包括对所述新闻语句进行去除广告噪声和统一编码格式的处理。
3.根据权利要求1所述的新闻语句聚类方法,其特征在于,所述预处理步骤中的分词处理可以采用基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法中的一种或几种。
4.根据权利要求1所述的新闻语句聚类方法,其特征在于,所述向量合并步骤中所述可用词的词向量为初始词向量或当前词向量。
5.根据权利要求1所述的新闻语句聚类方法,其特征在于,所述相似度计算步骤中的语义向量之间的距离为欧氏距离或余弦距离。
6.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中包括新闻语句聚类程序,该新闻语句聚类程序被所述处理器执行时实现如下步骤:
预处理步骤:对语料库的新闻语句进行预处理,包括分词和去停用词处理,提取出所述新闻语句的可用词;
词向量训练步骤:利用所述可用词对连续词袋模型进行训练,得到每个可用词的初始词向量;
句子向量训练步骤:为每个新闻语句标注句子ID,将句子ID映射为对应新闻语句的初始句子向量,将该初始句子向量和该新闻语句中某个可用词的左、右邻接可用词的初始词向量输入所述连续词袋模型,预测得到该可用词的当前词向量,每次预测更新该新闻语句的句子向量,直至预测得到该新闻语句中每个可用词的当前词向量,以最后一次更新后的句子向量作为该新闻语句的最终句子向量;
向量合并步骤:从所述可用词中统计出高频词,将所述高频词以one-hot向量的形式表示,计算每个新闻语句中所有可用词的词向量的平均值,将所述新闻语句中所有可用词的词向量的平均值、高频词的one-hot向量以及最终句子向量合并,得到该新闻语句的语义向量;
相似度计算步骤:计算新闻语句的语义向量之间的距离,得到新闻语句之间的语义相似度;及
聚类步骤:将语义相似度大于预设阈值的新闻语句归为同一类别。
7.根据权利要求6所述的电子装置,其特征在于,所述向量合并步骤中所述可用词的词向量为初始词向量或当前词向量。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括新闻语句聚类程序,所述新闻语句聚类程序被处理器执行时,实现如权利要求1至5中任一项所述的基于语义相似度的新闻语句聚类方法的步骤。
CN201710874624.XA 2017-09-25 2017-09-25 基于语义相似度的新闻语句聚类方法、装置及存储介质 Active CN107679144B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710874624.XA CN107679144B (zh) 2017-09-25 2017-09-25 基于语义相似度的新闻语句聚类方法、装置及存储介质
PCT/CN2018/076128 WO2019056692A1 (zh) 2017-09-25 2018-02-10 基于语义相似度的新闻语句聚类方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710874624.XA CN107679144B (zh) 2017-09-25 2017-09-25 基于语义相似度的新闻语句聚类方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN107679144A CN107679144A (zh) 2018-02-09
CN107679144B true CN107679144B (zh) 2021-07-16

Family

ID=61136023

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710874624.XA Active CN107679144B (zh) 2017-09-25 2017-09-25 基于语义相似度的新闻语句聚类方法、装置及存储介质

Country Status (2)

Country Link
CN (1) CN107679144B (zh)
WO (1) WO2019056692A1 (zh)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107679144B (zh) * 2017-09-25 2021-07-16 平安科技(深圳)有限公司 基于语义相似度的新闻语句聚类方法、装置及存储介质
CN108829699B (zh) * 2018-04-19 2021-05-25 北京奇艺世纪科技有限公司 一种热点事件的聚合方法和装置
CN108829661B (zh) * 2018-05-09 2020-03-27 成都信息工程大学 一种基于模糊匹配的新闻主体名称提取方法
CN110489531B (zh) * 2018-05-11 2023-05-30 阿里巴巴集团控股有限公司 高频问题的确定方法和装置
CN108804423B (zh) * 2018-05-30 2023-09-08 深圳平安医疗健康科技服务有限公司 医疗文本特征提取与自动匹配方法和系统
CN109101479B (zh) * 2018-06-07 2023-12-05 苏宁易购集团股份有限公司 一种用于中文语句的聚类方法及装置
CN109086265B (zh) * 2018-06-29 2022-10-25 厦门快商通信息技术有限公司 一种语义训练方法、短文本中多语义词消歧方法
CN109284372B (zh) * 2018-09-03 2023-07-25 平安证券股份有限公司 用户操作行为分析方法、电子装置及计算机可读存储介质
CN111191024B (zh) * 2018-11-13 2023-06-23 零氪科技(天津)有限公司 一种计算句子语义向量的方法
CN109272262B (zh) * 2018-11-26 2022-04-01 广州努比互联网科技有限公司 一种自然语言特征的分析方法
CN109698823B (zh) * 2018-11-29 2021-05-07 广东电网有限责任公司信息中心 一种网络威胁发现方法
CN109657071B (zh) * 2018-12-13 2020-12-01 北京锐安科技有限公司 词汇预测方法、装置、设备和计算机可读存储介质
CN110569498B (zh) * 2018-12-26 2022-12-09 东软集团股份有限公司 一种复合词识别方法及相关装置
CN109935242A (zh) * 2019-01-10 2019-06-25 上海言通网络科技有限公司 可打断式语音处理系统和方法
CN110096591A (zh) * 2019-04-04 2019-08-06 平安科技(深圳)有限公司 基于词袋模型的长文本分类方法、装置、计算机设备及存储介质
CN110287312B (zh) * 2019-05-10 2023-08-25 平安科技(深圳)有限公司 文本相似度的计算方法、装置、计算机设备及计算机存储介质
CN110442873A (zh) * 2019-08-07 2019-11-12 云南电网有限责任公司信息中心 一种基于cbow模型的热点工单获取方法及装置
CN111104799B (zh) * 2019-10-16 2023-07-21 中国平安人寿保险股份有限公司 文本信息表征方法、系统及计算机设备、存储介质
CN110990451B (zh) * 2019-11-15 2023-05-12 浙江大华技术股份有限公司 基于句子嵌入的数据挖掘方法、装置、设备及存储装置
CN111241847A (zh) * 2020-01-15 2020-06-05 深圳前海微众银行股份有限公司 一种识别对话情感原因的方法及装置
CN111259649A (zh) * 2020-01-19 2020-06-09 深圳壹账通智能科技有限公司 信息交互平台的交互数据分类方法、装置及存储介质
CN112016309B (zh) * 2020-09-04 2024-03-08 平安科技(深圳)有限公司 抽取药物组合方法、设备、装置及存储介质
CN112183111A (zh) * 2020-09-28 2021-01-05 亚信科技(中国)有限公司 长文本语义相似度匹配方法、装置、电子设备及存储介质
US11436287B2 (en) 2020-12-07 2022-09-06 International Business Machines Corporation Computerized grouping of news articles by activity and associated phase of focus
CN112765950A (zh) * 2021-01-08 2021-05-07 首都师范大学 一种基于余弦相似度的模板库生成方法、系统及存储介质
CN114201956A (zh) * 2021-12-02 2022-03-18 北京智美互联科技有限公司 工业互联网的安全防护方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106326212A (zh) * 2016-08-26 2017-01-11 北京理工大学 一种基于层次深度语义的隐式篇章关系分析方法
CN107229610A (zh) * 2017-03-17 2017-10-03 咪咕数字传媒有限公司 一种情感数据的分析方法及装置
CN105955951B (zh) * 2016-04-29 2018-12-11 中山大学 一种消息过滤的方法及装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9430563B2 (en) * 2012-02-02 2016-08-30 Xerox Corporation Document processing employing probabilistic topic modeling of documents represented as text words transformed to a continuous space
US10366108B2 (en) * 2015-06-26 2019-07-30 Sri International Distributional alignment of sets
CN106294684A (zh) * 2016-08-06 2017-01-04 上海高欣计算机系统有限公司 词向量的文本分类方法及终端设备
CN106610951A (zh) * 2016-09-29 2017-05-03 四川用联信息技术有限公司 改进的基于语义分析的文本相似度求解算法
CN106897371B (zh) * 2017-01-18 2020-04-21 南京云思创智信息科技有限公司 中文文本分类系统及方法
CN107679144B (zh) * 2017-09-25 2021-07-16 平安科技(深圳)有限公司 基于语义相似度的新闻语句聚类方法、装置及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105955951B (zh) * 2016-04-29 2018-12-11 中山大学 一种消息过滤的方法及装置
CN106326212A (zh) * 2016-08-26 2017-01-11 北京理工大学 一种基于层次深度语义的隐式篇章关系分析方法
CN107229610A (zh) * 2017-03-17 2017-10-03 咪咕数字传媒有限公司 一种情感数据的分析方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"基于机器学习的汉语短文本分类方法研究与实现";黄旭;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170215(第2期);正文第15-54页 *
"基于深度学习与主题模型的问句相似度计算";周强;《中国优秀硕士学位论文全文数据库 信息科技辑》;20161115(第11期);正文第13-20页 *

Also Published As

Publication number Publication date
CN107679144A (zh) 2018-02-09
WO2019056692A1 (zh) 2019-03-28

Similar Documents

Publication Publication Date Title
CN107679144B (zh) 基于语义相似度的新闻语句聚类方法、装置及存储介质
CN108491433B (zh) 聊天应答方法、电子装置及存储介质
CN108629043B (zh) 网页目标信息的提取方法、装置及存储介质
WO2019153607A1 (zh) 智能应答方法、电子装置及存储介质
WO2020000717A1 (zh) 网页分类方法、装置及计算机可读存储介质
WO2020237856A1 (zh) 基于知识图谱的智能问答方法、装置及计算机存储介质
WO2021135469A1 (zh) 基于机器学习的信息抽取方法、装置、计算机设备及介质
WO2019041521A1 (zh) 用户关键词提取装置、方法及计算机可读存储介质
CN107145571B (zh) 一种搜索方法及装置
CN110851598B (zh) 文本分类方法、装置、终端设备及存储介质
WO2022083094A1 (zh) 文本语义识别方法、装置、电子设备及存储介质
CN108090068B (zh) 医院数据库中的表的分类方法及装置
CN108804423B (zh) 医疗文本特征提取与自动匹配方法和系统
CN106708929B (zh) 视频节目的搜索方法和装置
CN110866098B (zh) 基于transformer和lstm的机器阅读方法、装置及可读存储介质
CN111460090A (zh) 基于向量的文档检索方法、装置、计算机设备及存储介质
CN110738049B (zh) 相似文本的处理方法、装置及计算机可读存储介质
WO2020056977A1 (zh) 知识点推送方法、装置及计算机可读存储介质
CN111475603A (zh) 企业标识识别方法、装置、计算机设备及存储介质
CN112784009B (zh) 一种主题词挖掘方法、装置、电子设备及存储介质
CN114780746A (zh) 基于知识图谱的文档检索方法及其相关设备
CN114416998A (zh) 文本标签的识别方法、装置、电子设备及存储介质
CN106570196B (zh) 视频节目的搜索方法和装置
WO2021027149A1 (zh) 基于画像相似性的信息检索推荐方法、装置及存储介质
CN112417875B (zh) 配置信息的更新方法、装置、计算机设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant