CN111104518A

CN111104518A - 用于从用户生成的内容建立演化本体的系统和方法

Info

Publication number: CN111104518A
Application number: CN201911031161.6A
Authority: CN
Inventors: 刘石竹; 黄凯琳; 陈力; 孙建勋; 许宁; 张程冲; 周辉
Original assignee: Beijing Jingdong Shangke Information Technology Co Ltd; JD com American Technologies Corp
Current assignee: Beijing Jingdong Shangke Information Technology Co Ltd; JD com American Technologies Corp
Priority date: 2018-10-29
Filing date: 2019-10-28
Publication date: 2020-05-05
Also published as: US11003638B2; US20200134058A1

Abstract

一种用于构建演化本体数据库的方法和系统。该方法包括：接收多个数据条目；计算任何两个数据条目之间的语义相似度得分；基于语义相似度得分来将数据条目集群为多个当前主题；通过将当前主题与使用先前数据条目准备的多个先前主题进行比较来从当前主题中选择新概念；以及使用新概念来更新演化本体数据库。通过下式计算任何两个数据条目之间的语义相似度得分，

其中s_i是特征源的权重，f_j是两个数据条目之间的特征相似度，w_j是f_j的权重，j、k和n是正整数。

Description

用于从用户生成的内容建立演化本体的系统和方法

交叉引用

在本公开的描述中引用和讨论了包括专利、专利申请和各种出版物的一些参考文献。提供这样的参考文献的引用和/或讨论仅是为了阐明本公开的描述，而不是承认任何这样的参考文献是本文描述的公开的“现有技术”。在本说明书中引用和讨论的所有参考文献均通过引用以其整体并入本文，其程度与每个参考文献通过引用独立地并入本文的程度相同。

技术领域

本公开总体上涉及从复杂和动态数据建立演化本体，更具体地，涉及用于从电子商务网站上用户生成的内容建立演化本体的系统和方法。

背景技术

本文提供的背景描述是为了总体上呈现本公开内容的目的。在此背景技术部分中所描述的范围内，目前命名的发明人的工作，以及申请时可能无法视为现有技术的说明书中的某些方面，均未明确地或暗示地承认本公开为现有技术。

计算机中介通信正在成为当今社会共享和交换信息的最便捷、最重要的方式。人们可以直接将他们的反馈意见提交给特定的商家或制造商，并通过读取其他用户的评论，来在做出许多常规消费者购买决定之前进行在线研究。然而，仅通过检查单个评论得分或多个正面或负面评论，很难有效利用网络上大量且多样的用户生成的内容。

因此，在本领域中存在解决前述缺陷和不足的未解决的需求。

发明内容

在某些方面，本公开涉及一种用于构建演化本体数据库的方法。在某些实施例中，该方法包括：

计算设备接收多个数据条目；

计算设备基于数据条目的特征源和特征相似度来计算任何两个数据条目之间的语义相似度得分；

计算设备基于语义相似度得分将数据条目集群为多个当前主题；

计算设备通过将当前主题与使用先前数据条目准备的多个先前主题进行比较来从当前主题中选择新概念；以及

计算设备使用新概念来更新演化本体数据库。

在某些实施例中，任何两个数据条目之间的语义得分通过下式计算：

其中s_i是特征源的权重，f_j是两个数据条目之间的特征相似度之一，w_j是f_j的权重，j、k和n是正整数。

在某些实施例中，数据条目是用户生成的反馈，并且计算语义相似度得分的步骤包括：通过情绪分析器预测情绪相似度值，情绪相似度值表示两个数据条目之间关于正面反馈、负面反馈、中性反馈、非常负面反馈以及互联网滥用的相似度；通过相似度计算器预测文本相似度值，文本相似度值表示从两个数据条目中提取的文本的语义之间的相似度；通过中性语言解析器预测句法相似度值，句法相似度值表示两个数据条目的文本的句法复杂度。

在某些实施例中，集群数据条目的步骤还包括：使用情绪相似度值、文本相似度值和句法相似度值计算两个数据条目的语义相似度得分。

在某些实施例中，从当前主题中选择新概念的步骤包括：检索当前主题和先前主题；从当前主题和以前的主题中识别近似重复主题；从当前主题中去除近似重复主题以获得非重复主题；比较非重复主题与本体数据库中的概念，以获得新颖概念候选，其中，新颖概念候选为与本体数据库中任何概念的相似度都低的非重复主题；根据本体数据库管理员的指令来验证新颖概念候选，以获得新概念。

在某些实施例中，更新演化本体数据库的步骤包括：通过将至少一个经验证的概念与本体中的概念进行比较来检测最相关的父概念；计算至少一个经验证的概念与兄弟概念之间的相似度，以获得最相似的兄弟概念，其中，兄弟概念是最相关的父概念的子概念；基于最相关的父概念和最相似的兄弟概念提出本体调整；并使用所提出的本体调整中的最佳调整来更新本体。

在某些实施例中，所提出的调整包括插入调整，并且在插入调整中，新概念被定义为最相关的父概念的子节点。

在某些实施例中，所提出的调整包括提升调整，并且在提升调整中，新概念被定义为最相关的父概念的兄弟节点。

在某些实施例中，所提出的调整包括移位调整，并且在移位调整中，新概念被定义为最相似的兄弟概念的子节点。

在某些实施例中，所提出的调整包括合并调整，并且在合并调整中，新主题与最相似的兄弟概念组合以形成组合概念，组合概念被定义为最相关的父概念的子节点，并且新主题和最相似的兄弟概念被定义为组合概念的子节点。

在某些实施例中，本体数据库中的每个概念由分类模型定义，分类模型包括逻辑递归模型和梯度提升分类器。

在某些实施例中，方法还包括：根据更新的本体来调节分类模型。

在某些实施例中，方法还包括：在计算语义相似度得分的步骤之前，清洗并标记化数据条目。

在某些方面，本公开涉及一种用于构建演化本体数据库的系统。在某些实施例中，系统包括计算设备。计算设备具有处理器和存储计算机可执行代码的存储设备。当在处理器处执行计算机可执行代码时，计算机可执行代码被配置为执行上述方法。

在某些方面，本公开涉及一种存储计算机可执行代码的非暂时性计算机可读介质。当在计算设备的处理器处执行计算机可执行代码时，计算机可执行代码被配置为执行上述方法。

从以下结合附图及其说明文字对优选实施例的描述中，本公开的这些以及其他方面将变得显而易见，尽管可以在不脱离本公开的新颖构思的精神和范围的情况下进行变型和修改。

附图说明

附图示出了本公开的一个或多个实施例，并且与书面描述一起用于解释本公开的原理。贯穿附图，尽可能使用相同的附图标记指代实施例的相同或相似元件。

图1示意性地示出了根据本公开某些实施例的演化本体系统。

图2A示意性地示出了根据本公开某些实施例的新兴主题检测器。

图2B示意性地示出了根据本公开某些实施例的新概念验证器。

图2C示意性地示出了根据本公开某些实施例的本体调整模块。

图2D示意性地示出了根据本公开某些实施例的本体更新模块。

图3A示意性地示出了根据本公开某些实施例的当前本体(部分)。

图3B示意性地示出了根据本公开某些实施例的调整本体的提升操作。

图3C示意性地示出了根据本公开某些实施例的调整本体的移位操作。

图3D示意性地示出了根据本公开某些实施例的调整本体的合并操作。

图4示意性地示出了根据本公开某些实施例的从用户生成的内容建立和更新演化本体的流程图。

图5示意性地示出了根据本公开某些实施例的用于检测新兴主题的方法。

图6示意性地示出了根据本公开某些实施例的用于验证新主题以获得新概念的方法。

图7示意性地示出了根据本公开某些实施例的用于基于经验证的新概念来提出本体调整并使用最佳调整来更新本体的方法。

具体实施方式

在以下的实施例中更具体地描述本公开，这些实施例仅旨在举例说明，因为其中的许多修改和变化对本领域技术人员而言是显而易见的。现在详细描述本公开的各种实施例。参考附图，在整个视图中，相同的数字表示相同的组件。如本说明书和随后的整个权利要求书中所使用的，除非上下文另外明确指出，否则“一个”，“一种”和“”的含义包括复数形式。而且，如本说明书和随后的整个权利要求书中所使用的，除非上下文另外明确指出，否则“在...中”的含义包括“在...中”和“在...上”。而且，为了方便读者，可以在说明书中使用标题或副标题，这将不影响本公开的范围。另外，本说明书中使用的一些术语在下文中更具体地定义。

在本说明书中，在本公开的上下文中以及在使用每个术语的特定上下文中，本说明书中使用的术语通常具有其本领域的普通含义。在下文或说明书的其他地方讨论了用于描述本公开的某些术语，以向从业者提供关于本公开的描述的附加指导。应当理解的是，可以以一种以上的方式说同一件事。因此，替代的语言和同义词可以用于本文讨论的任何一个或多个术语，关于是否在此阐述或讨论术语也没有任何特殊意义。提供了某些术语的同义词。一个或多个同义词的列举不排除使用其他同义词。在本说明书中任何地方使用示例，包括在此讨论的任何术语的示例，仅是说明性的，绝不限制本公开或任何示例性术语的范围和含义。同样，本公开不限于本说明书中给出的各种实施例。

除非另外定义，否则这里使用的所有术语(包括技术和科学术语)具有与本公开所属领域的普通技术人员通常所理解的含义相同的含义。还将理解的是，诸如在常用词典中定义的术语应被解释为其含义与在相关技术和本公开的上下文中的含义相同，而不应将其解释为理想的或过于正式的含义，除非本文明确如此定义。

如本文所用，“左右”、“大约”、“基本上”或“近似”应通常是指给定值或范围的百分之二十以内，优选地为百分之十以内，更优选地为百分之五以内。这里给出的数值是近似的，意味着如果没有明确说明，则可以推断出术语“左右”、“大约”、“基本上”或“近似”。

如本文所用，“多个”是指两个或更多个。

如本文所用，术语“含有”，“包括”，“携带”、“具有”、“包含”、“涉及”等应被理解为开放式的，即意指包括但不限于。

如本文中所用，短语A、B和C中的至少一个应被解释为表示使用非排他性逻辑或的逻辑(A或B或C)。应当理解，在不改变本公开的原理的情况下，可以以不同的顺序(或同时)执行方法内的一个或多个步骤。如本文中所使用的术语“和/或”包括相关列出项目中的一个或多个的任何和所有组合。

如本文所用，术语“模块”可以指代一部分或包括：专用集成电路(ASIC)；电子电路；组合逻辑电路；现场可编程门阵列(FPGA)；执行代码的处理器(共享、专用或组合)；提供上述功能的其他合适的硬件组件；或上述某些或全部的组合，例如在单片系统中。术语“模块”可以包括存储由处理器执行的代码的存储器(共享、专用或组合)。

如本文所用，术语“代码”可以包括软件、固件和/或微代码，并且可以指代程序、例程、功能、类和/或对象。如上所用，术语“共享”是指可以使用单个(共享)处理器来执行来自多个模块的一些或全部代码。另外，来自多个模块的一些或全部代码可以由单个(共享)存储器存储。如上所用，术语“组合”是指可以使用一组处理器来执行来自单个模块的一些或全部代码。另外，可以使用一组存储器来存储来自单个模块的一些或全部代码。

如本文所用，术语“接口”通常是指在组件之间的交互点处用于在组件之间执行数据通信的通信工具或装置。通常，接口可以在硬件和软件两者上适用，并且可以是单向或双向接口。物理硬件接口的示例可以包括：电连接器、总线、端口、电缆、终端和其他I/O设备或组件。与接口通信的组件可以是例如计算机系统的多个组件或外围设备。

本公开涉及计算机系统。如图中所示，计算机组件可以包括物理硬件组件和虚拟软件组件，物理硬件组件显示为实线框，虚拟软件组件显示为虚线框。本领域普通技术人员应理解，除非另外指出，否则可以以但不限于软件、固件或硬件组件或其组合的形式来实现这些计算机组件。

本文描述的装置、系统和方法可以由一个或多个处理器执行的一个或多个计算机程序来实现。计算机程序包括存储在非暂时性有形计算机可读介质上的处理器可执行指令。计算机程序还可以包括存储的数据。非暂时性有形计算机可读介质的非限制性示例是非易失性存储器、磁性存储器和光学存储器。

现在将在下文中参考附图更全面地描述本公开，在附图中示出了本公开的实施例。然而，本公开可以以许多不同的形式来体现，并且不应当被解释为受限于本文中所阐述的实施例；相反，提供这些实施例，使得本公开将是全面且完整的，并且将把本公开的范围完全传达给本领域的技术人员。

在某些方面，为了利用网络上的大量且多样的用户生成的内容，本公开提供了用于这种数据集的本体结构，从而提高了许多下游语义分析工作的效率。在此类数据上构建本体的挑战可以源于用户生成的内容的两个特征。首先，领域知识非常有限或难以获得。人工从如此大量的数据中总结概念和语义关系是低效且无用的。其次，这种本体的基本结构随着时间的推移而演化。新兴主题不断发生。因此，需要创建新概念，并且需要相关的本体结构来对应地进行调整和优化。

在某些实施例中，手动地组织层次结构，并且训练分层机器学习分类器以进行语义分析。然而，这种方法在很大程度上依赖于人类的努力来对内容进行理解和给训练数据加标签，并且该方法无法自动跟踪数据的改变。

在某些实施例中，将数据流分割为时间段，对每个段应用语义分析，然后在段内识别新兴主题。尽管这种方法可以检测到热点事件和新颖概念，但无法捕捉概念之间的层次结构。

在某些实施例中，从数据集中提取实体，并将它们链接到良好建立的通用知识图。可以基于知识图进行进一步的语义分析和推断。该方法的局限性在于，通用知识图是稳定的，因此无法跟上用户生成数据的语义结构快速改变的步伐。而且，其是高成本的，因为通用知识图需要由大批专家进行维护。此外，该方法不能发现现有知识图中不存在的概念。

为了克服这些挑战和缺点，在某些方面，本公开提供了一种语义分析框架以从大规模的、不断演化的数据流中检测新兴主题，并且进一步提供了一组方法用来验证新概念并优化相关本体结构。在某些实施例中，本公开提供了一种使用自然语言处理、主动学习、半监督学习技术以及有原则的人机交互的系统。

在某些实施例中，该系统由两部分组成：1)实时语义分析管道，其自动地从用户生成数据中挖掘和检测新兴主题和新概念；以及2)管理界面，用于展示分析结果，并方便系统管理员搜索、验证和调整本体结构。

语义分析管道包含三个模块：

1、语义分析器将数据流中属于相同话题的项目集群。在整个管道的第一步，我们利用自然语言解析器提取文本的事实部分，基于词嵌入和句子嵌入计算两个项目之间的语义相似度得分，并预测给定文本的情绪极性。

2、时间分析模块负责预测发现的新兴主题是关于已知主题还是新概念。

3、设计了一个本体优化模块，用于维持和调整概念之间的语义关系，并根据分析结果和验证开始机器学习模型的训练过程。

管理界面提供了以下用途：

1、可视化界面演示检测到的主题，以及有关的统计信息、生成的概要、情绪分布以及建议的与现有概念的语义关系。

2、管理界面验证检测到的概念的有效性，编辑本体结构内部的语义关系，控制机器模型的训练过程以及监督模型预测结果。

图1示意性地示出了根据本公开某些实施例的演化本体系统。如图1所示，系统100包括计算设备110。在某些实施例中，计算设备110可以是服务器计算机、集群、云计算机、通用计算机、移动设备、平板电脑或专用计算机，其基于历史数据或/和当前数据构造本体，并基于数据的新输入来更新本体，从而使本体模型在最小监督下随更新的数据自动演化。在某些实施例中，计算设备110可以与其他计算设备或服务通信，以便从那些计算设备获得用户生成数据以更新本体，并将该本体提供给那些计算设备。在某些实施例中，经由网络来执行通信，该网络可以是有线或无线网络，并且可以为各种形式，例如公共网络和私有网络。

如图1所示，计算设备110可以包括但不限于处理器112、存储器114和存储设备116。在某些实施例中，计算设备110可以包括其他硬件组件和软件组件(未示出)以执行其对应的任务。这些硬件和软件组件的示例可以包括但不限于其他所需的存储器、接口、总线、输入/输出(I/O)模块或设备、网络接口和外围设备。

处理器112可以是被配置为控制计算设备110的操作的中央处理单元(CPU)。处理器112可以执行操作系统(OS)或计算设备110的其他应用。在一些实施例中，计算设备110可以具有一个以上的CPU作为处理器，例如两个CPU、四个CPU、八个CPU或任何合适数量的CPU。存储器114可以是易失性存储器，例如随机存取存储器(RAM)，用于在计算设备110的操作期间存储数据和信息。在某些实施例中，存储器114可以是易失性存储器阵列。在某些实施例中，计算设备110可以在一个以上的存储器114上运行。存储设备116是用于存储计算设备110的OS(未示出)和其他应用的非易失性数据存储介质。存储设备116的示例可以包括非易失性存储器，例如闪存、存储器卡、USB驱动器、硬盘驱动器、软盘、光盘驱动器、固态驱动器(SSD)或任何其他类型的数据存储设备。在某些实施例中，存储设备116可以是本地存储、远程存储或云存储。在某些实施例中，计算设备110可以具有多个存储设备116，其可以是相同的存储设备或不同类型的存储设备，并且计算设备110的应用可以存储在计算设备110的一个或多个存储设备116中。在某些实施例中，计算设备110是云计算机，并且处理器112、存储器114和存储设备116是通过互联网按需提供的共享资源。

如图1所示，存储设备116包括本体应用118，以及用户生成数据190、训练数据192、新主题数据库194和本体196中的至少一个。本体应用118被配置为构造本体以及使用数据来更新本体。

本体应用118另外还包括：新兴主题检测器120、新概念验证器140、本体调整模块160、本体更新模块170、调节模块180和管理接口185。在某些实施例中，本体应用118可以包括本体应用118的操作所必需的其他应用或模块。应当注意，模块各自由共同形成一个应用的计算机可执行代码或指令，或数据表或数据库来实现。在某些实施例中，每个模块还可以包括子模块。备选地，一些模块可以组合为一个堆栈。在其他实施例中，某些模块可以被实现为电路而不是可执行代码。在某些实施例中，本体应用118的一些或全部模块可以位于远程计算设备处或分布在云中。

新兴主题检测器120被配置为在从用户生成数据190接收或检索数据条目时，基于话题对每对数据条目和集群条目之间的语义距离进行评分，以便生成用户生成数据190的主题。新兴主题检测器120可以检索指定时间范围内的数据条目，例如上周、上个月或最后一个季度(季)，或者可以是某个数量的最新数据条目，例如最后1,000个数据条目、最后10,000个数据条目、或最后100,000个数据条目。在一个示例中，新兴主题检测器120检索最后一周的数据条目，这被称为第周0。参考图2A，新兴主题检测器120包括数据清洗和标记器122、情绪分析器124、相似度计算器126、自然语言解析器(NLP)128、语义评分器130和集群分类器132。

来自用户生成数据190的数据条目(例如，电子商务平台上的反馈)可能包括噪声。数据清洗和标记器122被配置为从用户生成数据190中检索数据条目，清洗并标记化那些数据条目，并将那些标记化数据条目发送给情绪分析器124、相似度计算器126和NLP 128。在某些实施例中，清洗过程指代去除与下游工作无关的某些符号或词。在某些实施例中，可以使用scikit-learn来执行清洗。具体地，数据清洗和标记器122可以使用在此链接中列出的类：http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html。例如，上述类的属性之一是“停用词stop_words”，数据清洗和标记器122提供停用词的列表，并且在对stop_words的操作中，从数据条目中去除列出的停用词。在一个示例中，用户1提交了一个反馈，“这件Under Armor T恤的这个颜色很酷”，并且词“这个”、“的”和“这件”包括在停用词列表中，然后输出可以是：标识符“用户1，反馈号123”、清洗文本“颜色，Under，Armor，T恤，酷”。

数据清洗和标记器122还被配置为在清洗了数据条目之后，基于字典对经清洗的数据条目进行标记化。例如，如果将串与其ID之间的映射标记化为{Armor：0；颜色：1，酷：2，T恤：3，Under：4}，然后清洗文本“颜色，Under，Armor，T恤，酷”在标记化之后提供具有标记化ID的列表输出[1，4，0，3，2]。通过数据清洗和标记化，每个标记化数据条目由用户标识符、反馈标识符和标记化清洗文本表示。数据清洗和标记模块122还被配置为在清洗和标记化之后，将标记化数据条目发送给情绪分析器124、相似度计算器126和NLP 128。

情绪分析器124被配置为在接收到标记化数据条目时，预测每个数据条目的经清洗的文本的情绪极性。在某些实施例中，情绪由向量表示，向量的每个维度定义情绪。在某些实施例中，定义了五个不同的情绪：正面、中性、负面、非常负面和互联网滥用。标记化数据条目与情绪之间的相关性由0到1之间的数字表示。1指示高相关性，0指示不相关。在某些实施例中，将情绪的表示值归一化，使得所有情绪的表示值的和为1。在一个示例中，通过情绪分析器124分析标记化数据条目的结果是[0.7，0.2，0.1，0.0，0.0]，即，正面0.7、中性0.2、负面0.1、非常负面0.0和互联网滥用0.0。因此，数据条目极有可能是正面反馈，可能是中性，而负面的可能性非常小。在某些实施例中，情绪分析器124使用由Pang，Bo等人描述的某些技术。(Pang，Bo和Lee，Lillian，Opinion mining and sentiment analysis,Foundations and Trends in Information Retrieval,2008,Vol.2:No.1-2,pp 1-135)，其全部内容通过引用并入本文。在某些实施例中，情绪分析器124是卷积神经网络分类器。在某些实施例中，使用包括在训练数据192中的训练数据集合来预先训练情绪分析器124，其中该训练数据集合中的每个数据条目包括标记化值并用其对应的情绪属性给它们加标签。在某些实施例中，训练数据条目的标签可以是，情绪之一是1，而其他情绪是0。然而，在训练之后，情绪分析器124可以为每个数据条目的一个或多个情绪分配0到1之间的数字，以便更准确地表示关于五个不同情绪的数据条目。情绪分析器124还被配置为在获得数据条目的情绪向量后，将情绪向量发送给语义评分器130。

相似度计算器126被配置为在接收到标记化数据条目时，基于句子嵌入来确定每对经清洗的文本之间的相似度。这里，来自任何两个数据条目的清洗文本形成一对。每个数据条目的清洗文本由向量表示。在某些实施例中，向量空间中的词表示使用由Mikolov、Thomas等人描述的方法(Mikolove,Tomas et al,efficient estimation of wordrepresentation in vector space,2013,arxiv:1301.3781v3)，其全部内容通过引用并入本文。通过词嵌入，将经清洗的文本中的词映射到实数向量。比较该对中一个数据条目文本的向量与该对中其他数据条目文本的向量，以确定它们之间的相似度或距离。在某些实施例中，相似度计算器126使用在Kusner等人(Kusner et al.From word embedding todocument distances,Proceedings of Machine Learning Research,2015,V37,pp.957-966)中描述的方法，其全部内容通过引用并入本文。在某些实施例中，每对数据条目之间的相似度得分被归一为0-1，其中0指示没有相似度，而1指示基本上相同。在一个示例中，来自两个数据条目的清洗文本之间的相似度为0.7，指示两个数据条目之间的高度相似度或两个数据条目在向量空间中的接近距离。相似度计算器126还被配置为，在获得任意两个数据条目之间的相似度得分之后，将相似度得分发送给语义评分器130。

NLP 128被配置为在接收到标记化数据条目时，通过基于基础语法分析文本的组成词来确定文本的句法结构。在某些实施例中，句法特征是词性标注。在某些实施例中，使用了预训练模型，例如，斯坦福解析器(https://nlp.stanford.edu/software/lex-parser.shtml)，其全部内容通过引用并入本文。在某些实施例中，NLP 128还被配置为处理初始解析器输出以提供某个统计结果。例如，在句法解析之后，NLP解析器128可以进一步计算输出中的名词数量和动词数量。当数据条目的结果为3和1时，数据条目的文本包括3个名词和1个动词。文本的这种简单而新颖的特征对于下面准确的本体构建和更新是有用的。在某些实施例中，NLP 128还被配置为评估数据条目的句法或语法复杂度，并将该复杂度表示为实数。在某些实施例中，NLP 128被配置为使用唯一词的数量、动词的数量、名词的数量、动词短语的数量和名词短语的数量来计算复杂度。例如，假设所有数据集(例如所有训练数据集)中文本的唯一词的最大数量为C₀(例如100)，所有数据集中文本的动词短语的最大数量为V₀(例如10)，所有数据集中文本的名词短语的最大数量为N₀(例如20)。对于给定的文本t，它包含c₁个唯一词(例如20个)，v₁个动词短语(例如2个)，n₁个名词短语(例如5个)，可以使用以下公式计算文本t的复杂度：((c₁+1)×(v₁+1)×(n₁+1))/((C₀+1)×(V₀+1)×(N₀+1))。在某些实施例中，复杂度的值，即实数，被用作NLP 128的结果。NLP 128还被配置为在获得结果之后，将结果发送给语义评分器130。

语义评分器130被配置为在从情绪分析器124、相似度计算器126、NLP解析器128接收到语义信息的不同方面时，即接收到数据条目的文本的情绪向量、每对数据条目的文本之间的相似度得分，以及数据条目的文本的解析结果时，计算每对(任何两个)文本之间的语义相似度得分。每对文本之间的语义相似度得分由以下公式计算：

n对应于特征的主要类型或特征源。这里n是2，其中i＝0、1或2分别对应于来自于情绪分析器124的情绪特征、来自于相似度计算器126的文本相似度特征和来自于NLP解析器128的句法特征。s_i是特征源的权重。在某些实施例中，s_i∈[0,1.0]并且

换句话说，每个s_i等于0到1之间的数字(包括0和1)，并且所有s_i的和为1。在某些实施例中，用于情绪特征、文本相似度特征和句法特征的s_i分别为0.10、0.85和0.05。f_j是测量两个数据条目之间的相似度的特征函数。特征源、情绪、文本相似度、句法中的每一个可以包括一个或多个特征函数，并且特征函数的总数为k。例如，f_sentiment可以是两个条目的情绪分布的交叉熵，f_fact可以是两个条目的名词短语Tf-idf向量的余弦相似度，并且该方法是可扩展的，其中新的特征函数可以通过添加新的f_j和对应的新w_j来容易地合并在上述公式中。w_j是f_j的权重。两个数据条目之间的语义相似度得分越高，则两个数据条目越相似。在某些实施例中，权重w_j可以被设置为任意值，并且将在训练期间自动优化。在获得每对数据条目之间的语义相似度得分之后，语义评分器130被配置为将语义相似度得分发送给集群分类器132。在某些实施例中，使用从训练数据192检索的训练数据条目来学习参数s_i、f_j和w_j，其中记录每对训练数据条目的语义得分以表示两个训练数据条目之间的关系。换句话说，特征函数是非监督模型，并使用训练数据进行训练。在某些实施例中，在训练模型之前用对应的特征给训练数据加标签。在其他实施例中，可以在未给数据加任何标签的情况下训练一些模型。在某些实施例中，诸如情绪预测模型之类的特征函数需要人工注释以进行训练。在某些实施例中，诸如文本相似度模型之类的特征函数不需要用于训练的加标签的数据。

集群分类器132被配置为在接收到每对两个数据条目的文本之间的语义相似度得分时，将那些数据条目分类为集群。在某些实施例中，对于属于一个集群的数据条目{e1，e2，…，em}的集合，在该给定集合中的任何一对数据条目的语义得分都大于预定阈值t。阈值可以根据系统要求选择。在某些实施例中，如果系统在新颖主题检测上需要高召回率，则它可以使用较小的数字(例如2)作为阈值。然后，将检测大多数可能的新颖主题。相反，如果系统需要高精度，则可以使用相对较大的数字。例如，假设历史记录中一周内的主题大小平均数为50，则可以使用60作为阈值。那么所有检测到的集群都是非常可能的主题。在集群之后，将每个集群定义为新主题(概念候选)，并将集群存储在新主题数据库194中。在某些实施例中，新主题数据库194按批次或时间间隔存储新主题，例如一周、两周、一个月或一个季度。例如，系统可以每周处理一批数据条目，并且每周存储新主题。因此，我们具有当前周的新主题、当前周之前一周的新主题、前一周之前一周的新主题等……这些存储的新主题可供新概念验证器140访问。在某些实施例中，集群分类器132除了存储新主题之外，还可以向新概念验证器140发送消息，通知新概念验证器140在新主题数据库194中可获得新一批主题，以便新概念验证器140可以立即验证任何新检测到的主题是否符合新概念的条件。

新概念验证器140被配置为从新主题数据库194检索新主题，并验证任何新主题是否是新概念。这里，我们将新主题定义为从最近的数据流中检测到的公认的话题，即，由集群分类器132检测到的集群，同时将新概念定义为经验证的新主题。换句话说，新主题是新概念的候选，新概念是经验证的新主题。经验证的新主题随后可以用于更新本体。如图2B所示，新概念验证器140包括新主题检索模块142、近似重复识别模块144、概念比较模块146、概念提出模块148和概念验证模块150。

新主题检索模块142被配置为从新主题数据库194检索新主题。新主题检索模块142可以在预定的时间间隔(例如每周或每月)中，或者响应于来自集群分类器132的新主题存储在新主题数据库194中的消息，或者响应于来自管理系统100的系统管理员的指令，来检索那些新主题。在某些实施例中，主题数据库194按周存储新主题，并且新主题检索模块142检索最近四周的新主题，并将检索到的新主题发送给近似重复识别模块144。最近四周的新主题包括当前周的新主题和前三周的新主题，分别命名为第0周、第-1周、第-2周、第-3周。

近似重复识别模块144在从新主题检索模块142接收到新主题时，从检索到的主题中去除重复的主题，从而获得最具代表性的新主题。在某些实施例中，当比较第一主题与第二主题是否重复时：近似重复识别模块144将第一主题中的每个数据条目与第二主题中的每个数据条目进行比较以计算语义相似度得分；使用语义相似度得分来确定第一主题中的数据条目是否属于第二主题；然后计算属于第二主题的第一主题中的数据条目的百分比；并基于百分比来确定第一主题与第二主题是否重复。近似重复识别模块144可以如与语义评分器130相关描述的那样计算语义相似度得分，或者调用语义评分器130来计算语义得分。近似重复识别模块144可以使用第一主题中的每个数据条目与第二主题中的数据条目之间的平均语义相似度得分来确定第一主题中的数据条目是否属于第二主题。平均语义得分的阈值可以设置在0.6-1.0的范围内，或者优选地高于0.7，或者更优选地高于0.8或0.9。当属于第二主题的第一主题中的数据条目的百分比大于预定阈值时，近似重复识别模块144可以确定第一主题是对第二主题的重复。在某些实施例中，阈值被设置为约0.6，优选地为约0.7，并且更优选地为约0.8或0.9。

在某些实施例中，近似重复识别模块144被配置为将当前周中的主题与前一周中的主题进行比较，以通过上述方法确定重复。在一个示例中，当前第0周包括多个T₀主题，第-1周包括多个T₁主题，第-2周包括多个T₂主题，第-3周包括多个T₃主题。将T₀主题中的每个主题与T₁、T₂和T₃主题中的主题进行比较，并将T₀主题中的重复主题定义为T₀重复主题。近似重复识别模块144从主题T₀中去除T₀重复主题，并通过去除或删除那些重复主题来获得非重复主题，即T₀-非重复(T₀-非重复＝T₀-T₀重复)。在某些实施例中，将T₀、T₁、T₂和T₃主题组合在一起，并且将这些主题彼此进行比较以确定并去除重复的主题；T₀主题或所有T₀、T₁、T₂和T₃主题中的非重复主题被用于进一步处理。在又一实施例中，将T₁、T₂和T₃主题组合在一起，将T₀主题与组合主题进行比较，并且从T₀主题中去除T₀主题与组合主题之间的重复主题。在某些实施例中，可以将新主题作为新概念直接添加到本体以初始化本体。在某些实施例中，初始本体也可以手动定义。在获得非重复主题之后，近似重复识别模块144还被配置为将那些代表性新主题发送给概念比较模块146。

概念比较模块146被配置为在接收到非重复主题时，计算代表性新主题是否属于现有概念的概率。在某些实施例中，概念比较模块146使用本体中现有概念的分类模型来确定新主题何时属于概念。在某些实施例中，针对本体中的每个概念，提供二进制文本分类器并训练。换句话说，本体196中的每个概念具有其文本分类器模型。在某些实施例中，这些分类器的机器学习模型可以是二进制分类器，例如逻辑递归、梯度提升分类器和卷积神经网络等。(在某些实施例中，当概念被创建并添加到本体中时，收集文本文档，并且可以例如由系统管理员进行验证。这些文档在语义上相似，并且被用作该概念模型的正样本。可以从其他现有类别或概念中随机选择的其他一些文档被用作负样本。然后，将根据正样本和负样本的组合对新概念的对应文本分类器进行训练。当概念比较模块146执行代表性新主题(即，非重复主题)是否属于本体中的概念的预测时，概念比较模块146将一个代表性新主题中的数据条目的每个文本内容输入到二进制文本分类器中，并获得该文本内容的布尔值。布尔值指示给定的反馈(数据条目)是否属于该概念。当确定一个代表性新主题中的所有文本内容是否都属于该概念时，属于该概念的文本内容的百分比指示该代表性新主题属于该概念的概率。例如，如果代表性新主题T包含100个数据条目，并且二进制文本分类器预测90％的数据条目属于概念C，则代表性新主题T属于概念C的概率为90％。在计算了概率并且获得了每个代表性新主题属于可用概念的概率之后，概念比较模块146还被配置为将概率发送给概念提出模块148。

概念提出模块148被配置为在接收到属于可用概念之一的每个代表性新主题的概率时，确定代表性新主题是否为新概念候选。例如，如果代表性新主题T包含100个数据条目，并且二进制文本分类器预测90％的数据条目属于概念C，则代表性新主题T属于概念C的概率为90％。确定代表性新主题T属于每个概念的概率，并且认为代表性新主题T属于其中一个概念的最高概率是代表性新主题T属于本体中的概念的概率。如果一个概念的最高概率大于预定数字，例如大约90％，则确定新主题T属于现有概念。在一个示例中，对于新主题T最可能属于的前5个概念C₁、C₂、C₃、C₄和C₅，概率可以分别是91％、85％、81％、80％和70％，然后，因为最高百分比91％大于阈值90％，所以确定新主题T属于C₁。在另一个示例中，对于新主题T'最可能属于的前5个概念C₁'、C₂'、C₃'、C₄'和C₅'，概率分别为89％、83％、69％、69％和65％，则新主题T不属于现有概念，因为最高概率89％低于预定阈值90％。在某些实施例中，阈值可以基于数据条目的特征和工程的目的而变化。在基于概率挑选了新概念候选之后，概念提出模块148还被配置为将新概念候选发送给概念验证模块150。

概念验证模块150被配置为在接收到新概念候选时，验证新概念候选以获得经验证的概念。在某些实施例中，概念验证模块150基于某些准则自动验证新概念候选。在某些实施例中，概念验证模块150提供接口以向系统管理员显示新概念候选，并根据经由接口的来自系统管理员的指令来验证新概念候选。在验证之后，概念验证模块150丢弃没有通过验证的新概念候选，并且将经验证的新概念发送给本体调整模块160。经验证的新概念也简称为经验证的概念。

本体调整模块160被配置为在接收到经验证的概念时，提出对本体的调整。参考图2C，本体调整模块160包括本体和新概念检索模块162、父概念检测模块164、兄弟概念相似度模块166和调整提出模块168。

本体和新概念检索模块162被配置为从本体196中检索本体，并从新概念验证器140的概念验证模块150中检索或接收经验证的概念，并将检索或接收到的本体和经验证的概念发送给父概念检测模块164。

父概念检测模块164被配置为在接收到本体和经验证的概念时，为每个经验证的概念检测本体中的父概念。在某些实施例中，该确定类似于概念比较模块146和概念提出模块148的功能。具体地，针对每个经验证的概念，父概念检测模块164将经验证的概念中的每个文本内容输入到本体的一个概念的分类器，并获得该输入的文本内容的值。一旦获得了经验证的概念的所有文本内容相对于本体的一个概念的值，就可以获得本体的概念是否为经验证的概念的父概念的概率。当计算了经验证的概念相对于本体中的每个概念的概率时，将具有最高概率值的本体中的概念确定为经验证的概念的父概念。父概念检测模块164还被配置为在获得经验证的概念与本体中的其父概念之间的对应关系后，将经验证的概念及其父概念发送给兄弟概念相似度模块166。在某些实施例中，父概念检测模块164还被配置为分析每个新概念以获得它们相应的父概念。

兄弟概念相似度模块166被配置为在接收到经验证的概念及其父概念时，确定经验证的概念的最密切相关的兄弟概念。具体地，本体中的父概念可以包括一个以上的低级概念或直接在本体中的父概念之下的子概念。父概念的那些子概念称为经验证的概念的兄弟概念。与父概念检测模块164的功能类似，兄弟概念相似度模块166被配置为确定经验证的概念是否属于任何兄弟概念的概率。即，兄弟概念相似度模块166使用经验证的概念中的文本内容作为对每个兄弟概念的分类器模型的输入，以便获得经验证的候选概念属于兄弟概念的概率。当获得了每个兄弟概念的所有概率时，将具有与经验证的概念最高概率的兄弟概念确定为兄弟概念中最相似的一个。兄弟概念相似度模块166还被配置为将父概念和兄弟概念中最相似的一个发送给调整提出模块168。

调整提出模块168被配置为在接收到父概念和经验证的概念的最相似的兄弟概念时，基于该信息提出对本体的调整。在某些实施例中，调整提出模块168被配置为通过执行插入、提升、移位和合并来提出对本体的调整。图3A示意性地示出了根据本公开某些实施例的当前本体(部分)。如图3A所示，节点是本体的概念。节点A11、A12和A13具有公共父节点A1，节点A111、A112和A113具有公共父节点A11，节点A121和A122具有公共父节点A12，以及节点A131、A132、A133和A134具有公共父节点A13。当添加新的经验证的概念时，计算出新主题属于节点A11的概率最高，即A11是新主题的父节点。当将新主题与兄弟节点A111、A112、A113比较时，新主题与兄弟节点A112最相似。当执行插入操作时，将新主题添加为A11的子概念以及A111、A112和A113的兄弟概念。换句话说，概念A111、A112、A113和新概念是节点A11的子概念。

如图3B所示，调整提出模块168被配置为通过执行提升来提出调整。具体地，新主题的节点指向节点A1。换句话说，在调整之后，节点A11和新主题节点具有共同的父节点A1，并且节点A11和新概念节点是兄弟节点。如图3C所示，调整提出模块168被配置为通过执行移位来提出调整。具体地，新概念节点指向节点A112。换句话说，在调整之后，新概念节点是节点A112的子节点，并且节点A112是新概念节点的父节点。如图3D所示，调整提出模块168被配置为通过执行合并来提出调整。具体地，将新概念节点和A112节点组合以形成新节点A112/新概念，并且新节点A112/新概念具有父节点A11。现在，节点A111、A112/新概念和A113是节点A11的子节点。此外，为新节点A112/新概念定义了两个子节点，并且两个子节点分别是A112和新主题。即，节点A112/新概念是节点A112和新概念节点的父节点。在提出三种类型的调整之后，调整提出模块168还被配置为将提出的调整发送给本体更新模块170。

本体更新模块170被配置为在从本体调整模块160的调整提出模块168接收到所提出的调整时，验证所提出的调整，并选择最优提议来更新本体。参考图2D，本体更新模块170包括修改验证模块172和更新模块174。

修改验证模块172被配置为在从调整提出模块168接收到所提出的调整时，验证哪个提出的调整是最优调整，并且将该最优调整发送给更新模块174。在某些实施例中，修改验证模块172被配置为通过寻找最优层次调整来验证调整。对于给定的本体层次结构H，存在一系列相关调整的层次结构Q＝{H₁,H₂,…,H_n}和相关数据集D(例如，用来训练和测试对应概念分类器的所有文本语料库)，最优层次结构H_opt是以下层次结构：

p(D|H)指示给定层次结构H的数据D的似然性。在某些实施例中，修改验证模块172利用层次模型的分类性能来估计似然性。特别地，修改验证模块172使用整个分类系统的宏观平均召回率来估计条件似然性。系统的宏观平均召回率是测试集上所有概念分类器的召回率的平均值。

例如，层次结构H包括M个概念。对于每个概念，存在训练集A_i和一个测试集E_i。修改验证模块180在A_i上训练二进制概念分类器，在E_i上对其进行评估并获得其召回率r_i。这里，召回率＝(真阳性)/(真阳性+假阴性)。宏观平均召回率是

通过比较每个层次结构的召回率，可以确定最优层次结构。修改验证模块172还被配置为将最优层次结构发送给更新模块174。

更新模块174被配置为在接收到调整的最优提议时，使用最优提议来更新存储在本体196中的本体。

调整模块180被配置为，当由更新模块174更新本体时，使用更新的本体和对应的数据集来调节本体概念的分类器。调节可以在每次本体更新之后执行，或者以预定时间间隔(例如一个月)执行，或者在系统管理员的指令下执行。

管理界面185被配置为在操作中提供用于向系统管理员呈现结果和参数，以及从系统管理员接收指令和经修订的参数的交互式界面。管理界面185包括上述验证和参数，除此之外，可以包括集群分类器132的阈值参数、近似重复识别模块144的语义得分阈值、用于预测概念提出模块148的阈值、新概念验证、所提出的调整验证等。

用户生成数据190包括历史用户生成数据，例如电子商务平台上的用户反馈。用户生成数据190可以按预定的时间间隔布置，例如按周或按月布置。

训练数据192包括用于训练系统100中的分类器的数据。训练数据192中的每个数据集可以对应于特定的分类器或其他类型的模型，并利用对应的特征将其加标签。例如，利用情绪将具有文本的数据条目集加标签，并将该数据集用于训练情绪分析器124。

新主题数据库194存储由新兴主题检测器120检测到的新主题。在某些实施例中，新主题被分批存储。每一批新主题可以对应于从例如一周、一个月或一个季度等的数据条目中检测到的新主题。

本体196存储系统的本体，其可以自动更新或在系统管理员的最小监督下更新。除此之外，本体196包括概念、概念之间的关系以及与每个概念相对应的分类器。

在某些实施例中，系统管理员可以手动初始化本体196，并且在接收更多数据之后以及在执行了本体应用118的功能之后更新和扩展初始化的本体196。

在某些实施例中，本体应用118可以使用第一批数据条目，使用新兴主题检测器120检测新兴主题，并且使用分类的新兴主题作为初始本体196。

图4示意性地示出了根据本公开某些实施例的从用户生成的内容建立和更新演化本体的流程图。在某些实施例中，通过图1中所示的服务器计算设备110来实现建立和更新演化本体。

如图4所示，将用户生成数据190提供给新兴主题检测器120或由新兴主题检测器120对其进行检索。用户生成数据190可以包括大量的历史数据，并且新兴主题检测器120可以一次仅处理一批数据，例如过去一周中电子商务网站中的用户反馈。然后，新兴主题检测器120处理包括许多数据条目的一批用户生成数据，以获得任何两个数据条目之间的关系。该关系可以由语义相似度得分表示，其中得分越高，两个数据条目越相似。基于语义相似度得分，新兴主题检测器120将数据条目集群为不同的组。相同组中的数据条目彼此之间具有高语义相似度得分。这些组被视为新兴主题。在某些实施例中，新兴主题检测器120还可以使用阈值来过滤组，并且仅数据条目的数量大于阈值数量(例如50或60)的组才被视为新兴主题。在某些实施例中，新兴主题检测器120还将检测到的新主题与在过去时间(例如，过去的一周之前的三周中)检测到的新主题进行比较，并仅保持在那之前的三周中未显示的新主题。然后，新兴主题检测器120将检测到的新主题发送给新概念验证器140。

新概念验证器140在接收到新主题时，将新主题与本体中的节点进行比较，其中本体中的每个节点代表一个概念。新概念验证器140通过比较每个新主题与每个概念之间的相似度来计算每个新主题的新颖得分。可以使用分类模型的集合来计算该新颖得分。新概念验证器140将具有高新颖得分的新主题定义为经验证的新概念或简单验证的概念。然后，新概念验证器140将经验证的概念发送给本体调整模块160。

本体调整模块160在接收到每个经验证的概念时，计算经验证的新概念与本体中的节点之间的相似度，并将相似度最高的节点定义为经验证的概念的父节点。父节点可以具有多个子节点。然后，本体调整模块160对经验证的概念与父节点的所有子节点(也称为经验证的概念的兄弟节点)之间的相似度进行比较，并确定在那些兄弟节点中具有与经验证的概念最高相似度得分的兄弟节点。该兄弟节点被称为所确定的兄弟节点。有了父节点和所确定的兄弟节点，本体调整模块160然后提出若干不同的调整。在某些实施例中，通过执行插入，本体调整模块160将经验证的概念插入为父节点的子节点。在某些实施例中，通过执行提升，本体调整模块160将经验证的新概念插入为父节点的兄弟节点。在某些实施例中，通过执行移位，本体调整模块160将经验证的新概念插入为所确定的兄弟节点的子节点。在某些实施例中，通过执行合并，本体调整模块160将经验证的概念和所确定的兄弟节点合并为合并的节点。合并的节点是父节点的子节点，并且合并的节点是经验证的概念和所确定的兄弟节点的父节点。然后本体调整模块160将那些提出的调整发送给本体更新模块170。

本体更新模块170在接收到所提出的调整时，评估哪个调整是最优的，并且使用最优调整提议来更新本体。

在某些实施例中，在更新本体196之后，调节模块180可以进一步调节整个系统，并根据本体改变来保持相关模型。信誉度高的模型保持有高权重或以高权重定义，而信誉度低的模型将被丢弃或以低权重定义。

在某些实施例中，系统还包括管理界面185。管理界面185向系统管理员提供诸如图形用户界面(GUI)之类的界面，使得管理员可以在处理期间与应用进行交互。例如，系统管理员可以使用管理界面185来可视化和演示新概念的关键字、新颖阈值、出现频率和概要，调整新颖得分阈值，验证新概念等。

在某些实施例中，系统还可以包括初始化步骤以从头开始构建本体196。在某些实施例中，初始本体196是由系统管理员手动准备的。在某些实施例中，通过以下方式自动构建本体196：使用一定数量的用户生成数据来检测新兴主题，对那些新兴主题进行分类，以及使用检测到的新兴主题作为本体的概念来构建初始本体196。在某些实施例中，通过系统管理员监督和修订上述自动方法的结果来执行本体196的初始化。

图5示意性地示出了根据本公开某些实施例的用于检测新兴主题的方法。在某些实施例中，该方法由图1所示的计算设备110实现。在某些实施例中，图5所示的方法对应于新兴主题检测器120的功能。应当特别注意的是，除非在本公开中另有说明，否则该方法的步骤可以以不同的顺序排列，因此不限于图5所示的顺序。

如图5所示，在过程502处，数据清洗和标记器122从用户生成数据190中检索或接收一批数据条目。该批数据条目可以是例如上周在电子商务网站上的用户反馈。数据条目的数量可以不同，例如10,000个数据条目。

在检索到数据条目之后，在过程504处，数据清洗和标记器122清洗数据条目，并将经清洗的数据条目标记化为数字。数据条目(例如反馈)通常是文本。在某些实施例中，当图像包括在数据条目中时，数据清洗和标记器可以从数据条目中去除图像或将图像转换为文本。然后，数据清洗和标记器122将文本分离成词，并通过去除某些不相关的符号或词来对词进行清洗。在获得经清洗的词之后，数据清洗和标记器122将每个数据条目标记化为数字表示，并将数据条目的标记化文本发送给情绪分析器124、相似度计算器126和NLP 128。

在过程506处，情绪分析器124在接收到数据条目的标记化文本时，预测每个标记化文本的情绪极性。在某些实施例中，情绪分析器124定义了五个情绪，并使用预训练模型给出每个数据条目的五个对应的值。五个情绪包括正面、中性、负面、非常负面和互联网滥用。在某些实施例中，预训练模型是分类模型，例如梯度递归分类器，并且从训练数据192中检索训练数据。训练数据可以是带有情绪标签的数据条目集合，即，数据条目的正面、中性、负面、非常负面和互联网滥用特征。当目标数据条目不同时，也可以相应地改变情绪标签。例如，如果数据条目不包含任何互联网滥用数据，则标签可以不需要包括该特征。在一个示例中，由情绪分析器124分析的一个数据条目的结果可以是[0.7、0.2、0.1、0.0、0.0]，即，正面0.7、中性0.2、负面0.1、非常负面0.0和互联网滥用0.0。因此，数据条目极有可能是正面反馈，可能是中性，而负面的概率很小。在预测该批数据条目的情绪极性之后，情绪分析器124将结果发送给语义评分器130。

在过程508处，相似度计算器126在接收到标记化数据条目之后，基于句子嵌入来计算任何两个标记化数据条目之间的文本相似度。具体地，相似度计算器126通过n维向量空间来表示每个文本(即，每个经清洗和标记化的数据条目)中的词，其中根据训练模型，语义相似或语义相关的词更接近。在通过向量对文本进行表示之后，相似度计算器126计算任何两个文本之间的相似度。在某些实施例中，为了计算相似度，相似度计算器126不仅考虑文本中词的含义，而且还考虑文本中词的关系，尤其是文本中词的顺序。在某些实施例中，相似度得分由0和1之间的数字表示，其中0指示两个数据条目在向量空间中相距远并且根本没有相似性，而1指示两个数据条目在向量空间中接近或重叠，并且基本相同。在一个示例中，如果相似度得分大于大约0.6-0.8，则认为这两个文本非常相似，如果相似度得分小于大约0.6，则认为这两个文本不相似。在某些实施例中，两个标记化文本之间的比较导致多个得分，每个得分对应于一个词或具有相似特征的多个词。例如，选择文本中与颜色有关的词进行比较，以便比较的结果包括与颜色相对应的相似度得分。在计算了经清洗和标记化的数据条目中的任何两个数据条目之间的相似度得分之后，相似度计算器126将相似度得分发送给语义评分器130。

在过程510处，NLP 128在接收到经清洗和标记化的数据条目(文本)之后，通过基于基础语法分析文本的组成词来确定文本的句法结构。在某些实施例中，NLP 128使用词性标注。在某些实施例中，NLP128评估数据条目的句法或语法复杂度，并将该复杂度表示为实数。在获得了每个经清洗和标记化的数据条目的数字之后，NLP 128将这些数字发送给语义评分器130。

在某些实施例中，过程506、508和510并行执行或独立执行。

在过程512处，语义评分器130在接收到来自情绪分析器124的每个数据条目的情绪极性，来自相似度计算器126的任何两个数据条目之间的相似度得分，以及每个数据条目的NLP得分时，计算每对数据条目(即任何两个数据条目)的语义相似度得分。语义评分器130使用以下公式基于上述三种类型的特征来计算语义相似度得分：

其中，n对应于主要类型的特征或特征源：情绪特征、文本相似度特征和句法特征；s_i是特征来源的权重；f_j是测量两个数据条目之间的相似度的特征函数，并且特征源、情绪、文本相似度、句法中每一个可以包括一个或多个特征函数；k是特征函数的总数；w_j是f_j的权重。在某些实施例中，可以利用训练模型使用训练数据集来获得公式中的参数，或者该参数是由系统管理员输入的预定值。在某些实施例中，语义相似度得分是正数。在使用上述公式获得每对数据条目(清洗文本和标记化文本)之间的语义相似度得分之后，语义评分器130将语义相似度得分发送给集群分类器132。

在过程514处，集群分类器132在接收到每对(任何两个)数据条目之间的语义相似度得分时，基于语义相似度得分对数据条目进行分类。具体地，集群分类器132将数据条目分组为集群，相同集群中的数据条目具有较高的语义相似度得分。在某些实施例中，为集群定义阈值，这意味着相同集群中的任何两个数据条目的语义相似度得分大于阈值得分。可以基于数据条目的主题、所需的召回率和所需的精度来确定阈值得分的值。在某些实施例中，当需要高召回率时，给定小阈值。在某些实施例中，当需要高精度时，给定大阈值。在获得了集群之后，集群分类器132将集群存储到新主题数据库194中。在某些实施例中，每个集群包括一个或多个数据条目，并且集群分类器132可以仅存储具有大量数据条目的集群。集群中的数据条目的阈值数量可以设置为大约5-500。在某些实施例中，阈值数量被设置在25-120的范围内。在某些实施例中，阈值数量被设置在大约50-60的范围内。在一个示例中，一周内的平均集群大小约为50，阈值数量设置为60，并且所存储的集群很有可能是真实主题或话题。所存储的集群也称为新兴主题。

通过以上步骤502-514，新兴主题检测器120获得了一定数量的新主题，每个新主题包括一些数据条目。可以以预定时间间隔(例如每周或每月)分批重复地执行这些步骤。换句话说，按周收集和存储用户生成的条目，并且当数据条目可用时，新兴主题检测器120在一周内处理数据条目。因此，新主题数据库194包括不同的新主题集合，每个集合对应于来自特定星期或特定月份的数据条目。

图6示意性地示出了根据本公开某些实施例的用于验证新主题以获得新概念的方法。新概念是经验证的新主题。在某些实施例中，该方法由图1所示的计算设备110实现。在某些实施例中，图6所示的方法对应于新概念验证器140的功能。应当特别注意的是，除非在本公开中另有说明，否则该方法的步骤可以以不同的顺序布置，因此不限于图6所示的顺序。在某些实施例中，图6所示的过程在图5所示的过程之后顺序执行。

在过程602处，新主题检索模块142从新主题数据库190检索新主题。检索到的新主题包括用于分析的当前批新主题和之前已经分析的若干先前批新主题。例如，新主题检索模块142从最近一周(在下文中称为第0周)检索新主题，从最近一周之前三周(在下文中称为第-1周，第-2周，第-3周)检索新主题。第0周、第-1周、第-2周和第-3周的批次分别包括例如120、130、11和140个新主题。通过图5所示的过程分析一周的数据条目来获得每个批次的新主题。在下文中，主题的批次和数量仅用于清楚地描述图6中所示的过程，而不旨在限制本公开的范围。在检索到新主题之后，新主题检索模块142将新主题发送给近似重复识别模块144。

在检索到四批新主题之后，在过程604处，近似重复识别模块144在第0周主题中识别重复的主题。具体地，为了比较第0周中的一个主题是否与第-1周、第-2周或第-3周中的任何主题中的一个主题(在下文中称为目标主题)重复，近似重复识别模块144执行以下操作：首先计算第0周主题中每个数据条目与目标主题中的数据条目之间的语义相似度得分，并基于语义相似度得分来确定第0周数据条目是否属于目标主题；然后重复该过程并确定每个第0周数据条目属于目标主题的概率；然后，计算属于目标主题的第0周数据条目的百分比。如果百分比高于预定值，则近似重复识别模块144确定第0周主题是目标主题的重复。如果百分比低于预定值，则近似重复识别模块144继续比较第0周主题与所有其他第-1周、第-2周和第-3周主题。如果第0周主题不是第-1周、第-2周和第-3周主题中任何一个主题的重复主题，则近似重复识别模块144确定第0周主题是非重复主题。近似重复识别模块144针对每个第0周主题重复上述过程，从第0周主题中获得非重复主题，并将非重复主题发送给概念比较模块146。在一个示例中，在120个第0周新主题中，其中90个在第-1周、第-2周或第-3周中具有一个或多个重复主题，其中30个是非重复主题。

在过程606处，概念比较模块146计算非重复主题是否属于现有概念。具体地，针对本体中的每个概念，构建并训练二进制文本分类器。即，本体数据库中的每个概念都有其文本分类器模型。在某些实施例中，分类器模型是逻辑递归或梯度提升分类器。对于非重复主题的每个主题(例如30个非重复主题)，非重复主题都包括许多数据条目。使用非重复主题中的每个数据条目作为一个概念的分类器的输入(在下文中称为目标概念)，以获得指示该数据条目是否属于目标概念的布尔值。在计算出非重复主题中的每个数据条目以确定其是否属于目标概念之后，可以计算非重复主题中属于目标概念的数据条目的百分比。例如，如果非重复主题T包含100个数据条目，并且其中90个数据条目属于给定的目标概念C，则该非重复主题T属于目标概念C的概率为90％。在某些实施例中，在将非重复主题中的数据条目与所有概念进行比较之后，记录与概念之一相对应的最高概率。结果是，给出30个非重复主题中的每个主题相对于概念之一的概率得分(与所有概念进行比较时的最高得分)。然后，概念比较模块146将这30个概率得分发送给概念提出模块148，这30个概率得分各自对应于概念之一。

在过程608处，概念提出模块148基于其概率得分对30个非重复主题进行排名，并且提出将具有低概率得分的新主题作为提出的概念。在某些实施例中，低概率得分被定义为小于约0.4。在某些实施例中，低概率被定义为小于0.25。新主题的数量可以是8个，并且概念提出模块148将所提出的概念(例如来自30个非重复新主题的8个提出的概念)发送给概念验证模块150。

在过程610处，在接收到所提出的概念时，概念验证模块150向系统管理员呈现所提出的概念，例如8个提出的概念，并且系统管理员验证所提出的概念，例如可以选择8个提出的概念中的5个作为真实概念候选。

然后在过程612处，概念验证模块150可以在新主题数据库194中进一步用“重复的数据条目”、“未验证的概念”或“经验证的概念”来给120个第0周新主题加标签，并将5个经验证的概念发送给本体调整模块160。在某些实施例中，可以不需要概念验证，并且概念提出模块148将提出的概念(例如8个提出的概念)直接发送给本体调整模块160。在某些实施例中，还可以使用某些标准(例如主题词的特征)来自动执行验证。

图7示意性地示出了根据本公开某些实施例的用于基于经验证的概念提出本体调整，并使用最优调整来更新本体的方法。在某些实施例中，该方法由图1所示的计算设备110实现。在某些实施例中，图7所示的方法对应于本体调整模块160和本体更新模块170的功能。应当特别注意的是，除非在本公开中另有说明，否则该方法的步骤可以以不同的顺序布置，因此不限于图7所示的顺序。在某些实施例中，图7所示的过程在图6所示的过程之后顺序执行。

在过程702处，本体和新概念检索模块162检索本体196，并检索(或接收)来自概念验证模块150的经验证的概念，并将检索到的数据发送给父概念检测模块164。以下与一个经验证的概念相关地描述过程，每个新的经验证的概念应进行类似处理。

在过程704处，响应于接收检索到的数据，父概念模块164从本体中为每个经验证的概念检测父概念。在某些实施例中，来自本体的每个现有概念具有分类器，并且经验证的概念包括多个数据条目。当将经验证的概念与现有概念进行比较时，父级概念模块164将经验证的概念的每个文本内容输入到现有概念的分类器以获得值。该值指示新概念的文本是否属于本体概念。当分析所有数据条目时，计算属于现有概念的数据条目的百分比，并将其视为经验证的概念是否属于现有概念的概率。父概念模块164将经验证的概念的数据条目与本体中的每个现有概念(节点)进行比较，并获得经验证的概念是否属于任何现有概念的概率。然后，父概念模块164选择与最高概率相对应的现有概念作为经验证的概念的父概念。然后，父概念模块164将本体、父概念的选择以及经验证的概念(或其特定标识)发送给兄弟概念相似度模块166。在某些实施例中，父概念模块164不仅可以提供最相关的父概念，而且可以提供具有对应概率值的经验证的概念的相关父概念的列表。可以通过管理界面185呈现和选择结果。

在过程706处，在接收到本体、父概念和经验证的概念时，兄弟概念相似度模块166确定父概念的所有子概念，也称为经验证的概念的兄弟概念；使用兄弟概念的分类器计算属于兄弟概念之一的经验证的概念中的数据条目的概率；计算属于兄弟概念的数据条目的百分比；重复该过程以计算相对于每个兄弟概念的数据条目的百分比；并选择百分比最高的兄弟概念。然后，兄弟概念相似度模块166将父概念和关系最密切的兄弟概念(具有最高百分比)发送给调整提出模块168。在某些实施例中，兄弟概念相似度模块166不仅可以提供密切相关的兄弟概念，而且可以提供具有对应概率值的经验证的概念的相关兄弟概念的列表。在某些实施例中，兄弟概念相似度模块166可以包括一个以上兄弟概念列表，每个列表对应于一个相关的父概念，并且系统管理员通过管理界面185查看并选择经验证的概念的父概念和兄弟概念。

在过程708处，在接收到最相关的父概念和最密切相关的兄弟概念时，调整提出模块168提出若干调整本体的层次结构的方式。在某些实施例中，调整提出模块168可以将新概念候选插入为父概念的子节点。在某些实施例中，调整提出模块168可以提出如图3B至图3D所示的提升、移位和合并的基本操作。在某些实施例中，调整提出模块168将所提出的调整发送给修改验证模块172。

在过程710处，修改验证模块172在接收到所提出的调整时，验证该调整。具体地，对于数据集D，每个提出的调整都具有对应的层次结构。可以通过以下方式确定多个层次结构的最优层次结构：

然后，将最优层次结构定义为经验证的层次结构。在某些实施例中，管理界面185可以为系统管理员提供改变参数的手段(例如取消)以改变最优层次结构的结果，并优化该结果。在验证之后，修改验证模块172通过管理界面185呈现验证结果，其可以包括所提出的调整的列表和指示所提出的调整是否最优的数值。

在过程712处，系统管理员可以通过管理界面185选择所提出的调整之一来验证经验证的调整，并且如果验证选择为是，则管理界面185将验证发送给更新模块174。如果系统管理员确定调整无效，则其可以经由管理界面185向父概念模块164提供指令，以使得父概念模块164检测用于另一经验证概念的父概念。在某些实施例中，系统管理员可以经由管理界面185向调整提出模块168提供指令，使得调整提出模块168使用不同的参数提出层次结构的不同调整。在某些实施例中，验证步骤不是必需的，并且经验证的调整被直接发送给更新模块174。

在过程714处，在接收到有效调整或经验证的调整后，更新模块174使用该有效调整来更新本体。

在某些实施例中，该方法还包括调节机制，其中调节模块180分析更新的本体，并根据更新的本体重新训练相关模型。

总之，本公开的某些实施例提供了一种语义分析管道，以自动挖掘和检测来自用户生成数据的新兴主题和新概念。此外，提供了管理界面来呈现检测到的主题以及统计信息、生成的概要、情绪分布，并从系统管理员接收指令以调整系统参数。

仅出于说明和描述的目的给出了对本公开的示例性实施例的前述描述，而无意于穷举本公开或将本公开限制为所公开的精确形式。鉴于以上教导，许多修改和变化是可能的。

选择和描述实施例是为了解释本公开的原理及其实际应用，以便使本领域的其他技术人员能够利用本公开和各种实施例并进行各种修改，以适合于预期的特定用途。在不脱离本发明的精神和范围的情况下，替代实施例对于本公开所属领域的技术人员将变得显而易见。因此，本公开的范围由所附权利要求书而不是前述说明书和其中描述的示例性实施例限定。

参考文献：

1、Tomas Mikolov,Ilya Sutskever et al,Distributed representations ofwords and phrases and their compositionality,2013,arXiv:1310.4546[cs.CL]。

2、Quoc Le,Tomas Mikolov,Distributed representations of sentences anddocuments,Proceedings of the 31st International Conference on MachineLearning,Beijing,China,2014,JMLR 32(2):1188-1196。

3、Yoon Kim,Convolutional Neural Networks for Sentence Classification,arXiv:1408.5882[cs.CL]。

4、Lei Tang,Jianping Zhang,Huan Liu,Automatically adjusting contenttaxonomies for hierarchical classification,Proceedings,2006。

5、Bo Pang and Lillian Lee,Opinion mining and sentiment analysis,Foundations and Trends in Information Retrieval,2008V2(1-2):1–135。

6、David M Blei,Probabilistic topic models,Communications of the ACM,2012,V55(4):77–84。

7、Kunal Punera,Suju Rajan,Joydeep Ghosh,Automatically learningdocument taxonomies for hierarchical classification,Special interest tracksand posters of the 14th international conference on World Wide Web,2005,pp.1010-1011。

8、Mikolov,Tomas；et al.Efficient estimation of word representations invector space,2013,CoRR,abs/1301.3781。

9、Sanjeev Arora,Yingyu Liang,Tengyu Ma,A simple but tough-to-beatbaseline for sentence embeddings,ICLR 2017。

10、Yiming Yang,Thomas Ault,Thomas Pierce and Charles W Lattimer,Improving text categorization methods for event tracking,SIGIR'00 Proceedingsof the 23rd annual international ACM SIGIR conference on Research anddevelopment in information retrieval,2000,pp.65-72。

11、Jian Zhang,Zoubin Ghahramani and Yiming Yang,A probabilistic modelfor online document clustering with application to novelty detection,NIPS'04Proceedings of the 17th International Conference on Neural InformationProcessing Systems,2004,pp1617-1624。

12、Matt J.Kusner,Yu Sun,Nicholas I.Kolkin,Kilian Q.Weinberger,Fromword embeddings to document distances,Proceedings of the 32nd InternationalConference on Machine Learning,Lille,France,JMLR:W&CP,2015,v37:857-966。

13、Dingquan Wang,Weinan Zhang,Gui-Rong Xue,and Yong Yu,Deepclassifier for large scale hierarchical text classification,Proceedings,2009。

14、David M.Blei,John D.Lafferty,Dynamic topic models,Proceedings ofthe 23rd International Conference on Machine Learning,Pittsburgh,PA,2006,pp113-120。

15、Wilas Chamlertwat,Pattarasinee Bhattarakosol,Tippakorn Rungkasiri,Discovering consumer insight from twitter via sentiment analysis,Journal ofUniversal Computer Science,2012,V18(8):973-992。

16、https://github.com/dmlc/xgboost

17、Nagaraju Bandaru,Eric D.Moyer,Shrisha Radhakrishna,Method andsystem for analyzing user-generated content,U.S.Published Patent ApplicationNo.2008/0133488 A1,2008。

18、Rui Cai,Qiang Hao,Changhu Wang,Rong Xiao,Lei Zhang,Mining topic-related aspects from user generated content,U.S.Patent No.8,458,115 B2,2013。

19、Rajeev Dadia,Vidya Sagar,Anisingaraju,Prashanth Talanki,Systemsand methods for analyzing consumer sentiment with social perspective insight,U.S.Published Patent Application No.2016/0196564A1,2016。

Claims

1.一种用于构建演化本体数据库的方法，包括：

计算设备接收多个数据条目；

所述计算设备基于所述数据条目的特征源和特征相似度来计算所述数据条目中的任何两个数据条目之间的语义相似度得分；

所述计算设备基于所述语义相似度得分来将所述数据条目集群为多个当前主题；

所述计算设备通过将所述当前主题与使用先前数据条目准备的多个先前主题进行比较来从所述当前主题中选择新概念；以及

所述计算设备使用所述新概念来更新所述演化本体数据库。

2.根据权利要求1所述的方法，其中，通过下式计算所述数据条目中的任何两个数据条目之间的语义相似度得分：

其中，s_i是所述特征源的权重，f_j是所述数据条目中的所述两个数据条目之间的特征相似度之一，w_j是f_j的权重，并且j、k和n是正整数。

3.根据权利要求2所述的方法，其中，所述数据条目是用户生成的反馈，并且计算语义相似度得分的步骤包括：

通过情绪分析器预测情绪相似度值，所述情绪相似度值表示所述两个数据条目之间在正面反馈、负面反馈、中性反馈、非常负面反馈和互联网滥用方面的相似度；

通过相似度计算器预测文本相似度值，所述文本相似度值表示从所述两个数据条目中提取的文本的语义之间的相似度；以及

通过中性语言解析器预测句法相似度值，所述句法相似度值表示所述两个数据条目的文本的句法复杂度。

4.根据权利要求3所述的方法，其中，将所述数据条目集群的步骤还包括：

使用所述情绪相似度值、所述文本相似度值和所述句法相似度值来计算所述两个数据条目的语义相似度得分。

5.根据权利要求2所述的方法，其中，从所述当前主题中选择新概念的步骤包括：

检索所述当前主题和所述先前主题；

从所述当前主题和所述先前主题中识别近似重复主题；

从所述当前主题中去除所述近似重复主题以获得非重复主题；

将所述非重复主题与所述本体数据库中的概念进行比较，以获得新颖概念候选，其中，所述新颖概念候选是与所述本体数据库中的任何概念的相似度低的非重复主题；以及

根据来自所述本体数据库的管理员的指令来验证所述新颖概念候选，以获得所述新概念。

6.根据权利要求5所述的方法，其中，更新所述演化本体数据库的步骤包括：

通过将至少一个经验证的概念与所述本体中的概念进行比较来检测最相关的父概念；

计算所述至少一个经验证的概念与兄弟概念之间的相似度以获得最相似的兄弟概念，其中，所述兄弟概念是所述最相关的父概念的子概念；

基于所述最相关的父概念和所述最相似的兄弟概念来提出本体调整；以及

使用所提出的本体调整中的最优调整来更新所述本体。

7.根据权利要求6所述的方法，其中，所提出的调整包括插入调整，在所述插入调整中，所述新概念被定义为所述最相关的父概念的子节点。

8.根据权利要求6所述的方法，其中，所提出的调整包括提升调整，在所述提升调整中，所述新概念被定义为所述最相关的父概念的兄弟节点。

9.根据权利要求6所述的方法，其中，所提出的调整包括移位调整，在所述移位调整中，所述新概念被定义为所述最相似的兄弟概念的子节点。

10.根据权利要求6所述的方法，其中，所提出的调整包括合并调整，在所述合并调整中，将所述新主题与所述最相似的兄弟概念进行组合以形成组合概念，所述组合概念被定义为所述最相关的父概念的子节点，并且所述新主题和所述最相似的兄弟概念被定义为所述组合概念的子节点。

11.根据权利要求2所述的方法，其中，所述本体数据库中的每个概念由分类模型定义，所述分类模型包括逻辑递归模型和梯度提升分类器。

12.根据权利要求11所述的方法，其中，更新所述演化本体数据库的步骤包括更新所述多个数据条目的标签，并且所述方法还包括：使用更新的数据条目来调节所述分类模型。

13.一种用于构建演化本体数据库的系统，所述系统包括计算设备，所述计算设备包括处理器和存储计算机可执行代码的存储设备，其中，当在所述处理器处执行时，所述计算机可执行代码被配置为：

接收多个数据条目；

基于所述数据条目的特征源和特征相似度来计算所述数据条目中的任何两个数据条目之间的语义相似度得分；

基于所述语义相似度得分来将所述数据条目集群为多个当前主题；

通过将所述当前主题与使用先前数据条目准备的多个先前主题进行比较来从所述当前主题中选择新概念；以及

使用所述新概念来更新所述演化本体数据库。

14.根据权利要求13所述的系统，其中，通过下式计算所述数据条目中的任何两个数据条目之间的语义相似度得分：

其中，s_i是特征源的权重，f_j是所述数据条目中的所述两个数据条目之间的特征相似度，w_j是f_j的权重，并且j、k和n是正整数。

15.根据权利要求14所述的系统，其中，所述数据条目是用户生成的反馈，所述计算机可执行代码被配置为通过以下操作来计算语义相似度得分：

16.根据权利要求14所述的系统，其中，所述计算机可执行代码被配置为通过以下操作来从所述当前主题中选择新概念：

检索所述当前主题和所述先前主题；

从所述当前主题和所述先前主题中识别近似重复主题；

17.根据权利要求14所述的系统，其中，所述计算机可执行代码被配置为通过以下操作来更新所述演化本体数据库：

使用所提出的本体调整中的最优调整来更新所述本体。

18.根据权利要求17所述的系统，其中，所提出的调整包括插入调整、提升调整、移位调整和合并调整，所述计算机可执行代码被配置为：

在所述插入调整中，将所述新概念定义为所述最相关的父概念的子节点；

在所述提升调整中，将所述新概念定义为所述最相关的父概念的兄弟节点；

在所述移位调整中，将所述新概念定义为所述最相似的兄弟概念的子节点；以及

在所述合并调整中，将所述新主题与所述最相似的兄弟概念进行组合以形成组合概念，将所述组合概念定义为所述最相关的父概念的子节点，并且将所述新主题和所述最相似的兄弟概念定义为所述组合概念的子节点。

19.一种存储计算机可执行代码的非暂时性计算机可读介质，其中，当在计算设备的处理器处执行时，所述计算机可执行代码被配置为：

接收多个数据条目；

计算所述数据条目中的任何两个数据条目之间的语义相似度得分；

使用所述新概念来更新演化本体数据库。

20.根据权利要求19所述的非暂时性计算机可读介质，其中，通过下式计算所述数据条目中的任何两个数据条目之间的语义相似度得分：