CN111797633A

CN111797633A - 特征提交重复数据删除引擎

Info

Publication number: CN111797633A
Application number: CN202010209130.1A
Authority: CN
Inventors: B·梅塔; M·塞克哈; J·斯瓦米; R·伊耶; S·贾因; J·A·古普塔; C·A·德什潘德; A·哈特; S·拉克什米纳拉西姆翰; A·斯里瓦斯塔瓦; S·帕德玛瓦
Original assignee: Accenture Global Solutions Ltd
Current assignee: Accenture Global Solutions Ltd
Priority date: 2019-04-02
Filing date: 2020-03-23
Publication date: 2020-10-20
Also published as: US10719736B1; PH12020050055A1

Abstract

本公开的实施例涉及特征提交重复数据删除引擎。一种设备可以接收标识针对软件应用的候选特征的特征提交。设备可以对特征提交进行预处理以使与候选特征相关联的数据重新格式化，以与关联于所存储的有关过往特征提交的信息的数据格式相匹配。设备可以对与候选特征相关联的数据执行自然语言处理以确定候选特征的语义含义。设备可以将候选特征的语义含义与过往特征提交的索引进行比较。设备可以提供指示候选特征是否与过往特征提交相匹配的响应，其中响应包括候选特征与任何过往特征提交不相匹配的指示或者标识关联于与候选特征的阈值语义相似性的一个或者多个过往特征提交的信息。

Description

特征提交重复数据删除引擎

技术领域

本公开的实施例涉及软件开发领域，更具体地涉及特征提交。

背景技术

在开发和/或维护复杂系统期间，多个利益相关者可以负责特征构想、特征实现和特征监测。例如，当软件应用被部署以供在组织中使用时，组织的许多成员可以使用软件应用来完成任务。进一步地，组织的许多成员可以向软件开发人员团队提供特征提交以建议针对软件应用的新特征。软件开发人员团队可以选择特征提交的子集，将资源(例如，时间资源、计算资源等)用于该子集以进行开发。

发明内容

根据一些实现，一种方法可以包括：从设备接收标识针对软件应用的候选特征的特征提交；由设备对特征提交进行预处理以使与候选特征相关联的数据重新格式化，以与关联于所存储的有关过往特征提交的信息的数据格式相匹配；由设备对与候选特征相关联的数据执行自然语言处理以确定候选特征的语义含义；由设备将候选特征的语义含义与过往特征提交的索引进行比较，以确定候选特征是否与过往特征提交中的任何过往特征提交相匹配；以及由设备提供指示在阈值语义相似性内候选特征是否与过往特征提交中的任何过往特征提交相匹配的响应，其中响应包括候选特征与任何过往特征提交不相匹配的指示或者标识关联于与候选特征的阈值语义相似性的一个或者多个过往特征提交的信息。

根据一些实现，一种设备可以包括：一个或者多个存储器；以及一个或者多个处理器，该一个或者多个处理器被通信地耦合至一个或者多个存储器，该一个或者多个处理器被配置为：训练二进制机器学习分类器以基于对过往特征提交的描述的一个或者多个特征来总结该描述；使用二进制机器学习分类器来执行文本总结过程以标识关键短语的集合；接收标识针对应用的候选特征的特征提交；对特征提交进行预处理以使与候选特征相关联的数据重新格式化，以与关联于所存储的有关过往特征提交的信息的数据格式相匹配；对与候选特征相关联的数据执行自然语言处理以确定候选特征的语义含义；将候选特征的语义含义与过往特征提交的索引进行比较并且与该关键短语的集合相关联，以确定候选特征是否与过往特征提交中的任何过往特征提交相匹配；以及提供指示候选特征是否与过往特征提交中的任何过往特征提交相匹配的响应，其中响应包括候选特征与任何过往特征提交不相匹配的指示或者标识关联于与候选特征的阈值语义相似性的一个或者多个过往特征提交的信息。

根据一些实现，一种非瞬态计算机可读介质可以存储一个或者多个指令。该一个或者多个指令在由设备的一个或者多个处理器执行时可以使一个或者多个处理器：接收标识针对应用的候选特征的特征提交；对与候选特征相关联的数据执行自然语言处理以确定候选特征的语义含义；将候选特征的语义含义与过往特征提交的索引进行比较，以确定候选特征是否与过往特征提交中的任何过往特征提交相匹配；以及提供指示候选特征是否与过往特征提交相匹配的响应，其中响应包括候选特征与任何过往特征提交不相匹配的指示或者标识关联于与候选特征的阈值语义相似性的一个或者多个过往特征提交的信息。

附图说明

图1A至图1E是本文所描述的示例实现的示意图。

图2是可以实现本文所描述的系统和/或方法的示例环境的示意图。

图3是图2中的一个或者多个设备的示例组件的示意图。

图4是针对特征提交重复数据删除和基于区块链的特征管理的示例过程的流程图。

图5是针对特征提交重复数据删除和基于区块链的特征管理的示例过程的流程图。

图6是针对特征提交重复数据删除和基于区块链的特征管理的示例过程的流程图。

具体实施方式

以下对示例实现的详细描述参考附图。不同附图中的相同附图标号可以标识相同或者相似的元件。

在越来越复杂的组织中，构想是分布式过程。例如，组织可能具有数千、数万、数十万或者甚至数百万名员工或者相关联的人员。结果，在使用不同的软件应用、工具等时的专业知识可能分布在全球的许多员工团队。组织可以部署特征提交平台以接收标识用于改进软件应用、工具等的不同想法的特征提交。特征提交平台可以接收特征提交，并且可以自动生成用于创建针对软件应用的新特征的代码，或者可以自动分配软件开发人员以尝试开发针对软件应用、与软件应用相关联的工具、软件应用的新版本等的代码。

然而，许多特征提交可能与由其他员工提交的其他特征提交重复。例如，第一名员工可以标识在软件应用中的缺陷，诸如，错误、缺失的特征、低效率等，并且可以提交用于标识针对缺陷的解决方案的第一特征提交。在缺陷被纠正之前，第二名员工可以标识同一软件应用中的相同缺陷，并且提交标识相同或者不同解决方案的第二特征提交。结果，多种不同的工具、多个版本的软件应用等可以被开发。这种开发可能是重复的，可能浪费计算资源，可能导致由于在被分配相同新特征的多个不同软件开发人员团队之间的不协调的工作引起的过量时间等。

本文所描述的一些实现提供了特征提交重复数据删除，从而减少了对与开发重复的、并行的和/或冲突的解决方案相关联的计算资源的利用。例如，一些实现可以使用自然语言处理和/或机器学习来检测重复的特征提交，提供有关重复的特征提交的通知，合并重复的特征提交等。此外，本文所描述的一些实现可以提供基于区块链的特征管理，从而实现安全的特征提交赞助和特征开发管理。

图1A至图1E是本文所描述的示例实现100的示意图。如在图1A中示出的，示例实现100可以包括特征分析平台102。

如在图1A中进一步示出的，特征分析平台102可以包括预处理模块104，特征分析平台102可以使用预处理模块104来预处理特征分析平台102的输入数据。如由附图标号122示出的，特征分析平台102可以接收标识特征提交集合的输入数据以便使用预处理模块104来进行预处理。例如，特征分析平台102可以接收标识已经被提交至特征管理平台的一个或者多个候选特征的信息。在这种情况下，一个或者多个候选特征可以包括一个或者多个软件特征、一个或者多个硬件特征、一个或者多个方法特征等。在一些实现中，特征分析平台102可以建立用于获得输入数据的模型流水线。例如，特征分析平台102可以标识存储有关特征提交集合的信息的目录，并且可以从目录获得数据以便进行预处理。

在一些实现中，特征分析平台102可以接收标识特征的特征提交。例如，当生成要进行重复数据删除的特征的特征语料库时，如本文更详细地描述的，特征分析平台102可以接收标识在先前时间被提交至特征管理平台的一个或者多个先前特征提交的信息。在这种情况下，特征分析平台102可以对一个或者多个先前特征提交执行重复数据删除，如本文更详细地描述的，并且可以更改一个或者多个现有的任务分配以合并与重复的先前特征提交相关联的、重复的任务分配。

附加地，或者备选地，特征分析平台102可以接收标识问题陈述的特征提交。例如，特征分析平台102可以接收对关于软件应用的问题的自然语言描述。在这种情况下，特征提交可以是故障单、论坛提交、聊天消息、与信息技术(IT)员工的交互记录等。在一些实现中，特征分析平台102可以接收对创新主题的描述。例如，特征分析平台102可以接收标识对与组织相关联的创新竞赛、创新挑战等的描述的信息。在这种情况下，当执行特征重复数据删除时，特征分析平台102可以将新特征提交分类为与创新主题相关，并且可以使新特征提交被自动包括在创新竞赛、创新挑战等中以用于针对开发进行选择。

如在图1A中并且由附图标号124进一步示出的，特征分析平台102可以接收标识工具描述集合的输入数据。例如，特征分析平台102可以接收标识针对特征提交的一个或者多个软件应用、一个或者多个工具等的信息。在这种情况下，一个或者多个软件应用、一个或者多个工具等可以是为其部署了特征分析平台102的特定组织所使用的软件应用和/或工具。在一些实现中，工具描述集合可以包括程序代码文档、市场营销信息等。在一些实现中，当特征分析平台102被部署以与特定软件应用一起使用时，特征分析平台102可以接收标识对特定软件应用的描述的输入数据以供在标识来自特定软件应用的用户的特征提交时使用，特定软件应用的用户可以与或者与共同的组织不相关联。

如在图1A中并且由附图标号152至160进一步示出的，使用预处理模块104，特征分析平台102可以对输入数据执行预处理过程的集合以生成用于确定特征提交相似性的模型数据。例如，特征分析平台102可以执行大小写(case)标准化过程。在这种情况下，特征分析平台102可以对输入数据进行预处理以移除大小写差异(例如，以将特征提交描述转换为全部是小写字母)。附加地，或者备选地，特征分析平台102可以执行标记化(tokenization)过程。例如，特征分析平台102可以将对特征提交的自然语言描述划分成与单独的单词、句子、段落等相对应的序列(例如，标记(token))。附加地，或者备选地，特征分析平台102可以执行停用词移除过程。例如，特征分析平台102可以滤除缺少语义含义的一个或者多个单词，诸如，冠词(例如，“一”、“该”等)、代词(例如，“我(I)”、“我(me)”等)等，从而减少与自然语言处理相关联的处理利用和/或存储器利用。附加地，或者备选地，特征分析平台102可以执行字符剥离过程。例如，特征分析平台102可以移除可能缺少语义含义的一个或者多个字符(诸如，数字、特殊字符等)，从而减少与自然语言处理相关联的处理利用和/或存储器利用。附加地，或者备选地，特征分析平台102可以执行词形还原过程。例如，特征分析平台102可以基于单词的词目(lemma)来将单词的有词尾变化的形式分组在一起作以便作为单个项进行分析。按照这种方式，特征分析平台102可以对与特征提交相关的数据进行预处理以供在确定新特征提交与过往特征提交的相似性时使用。

如在图1B中并且由附图标号162示出的，特征分析平台102可以使用单词袋(BOW)模型生成器106来处理模型数据126并且生成单词袋类型的模型。例如，特征分析平台102可以生成将单词映射至标识符的字典对象，并且可以将字典对象变换为单词袋模型。在这种情况下，单词袋模型可以表示对过往特征提交中的候选特征的描述中的每个在语义上不同的单词(例如，每个词目)的出现次数的计数，每个在语义上不同的单词与每个整数型单词标识符相对应并且被表示为稀疏向量。

如在图1C中并且由附图标号164进一步示出的，特征分析平台102可以使用潜在语义索引(LSI)变换器108来进一步处理模型数据126。例如，特征分析平台102可以对单词袋模型执行矩阵分解(例如，奇异值分解(SVD)过程)以生成稀疏向量集。在这种情况下，特征分析平台102可以使用LSI过程来确定相对于项频率矩阵的奇异值分解，并且可以生成LSI向量并且将LSI向量聚集到LSI语料库中。

如在图1D中并且由附图标号166进一步示出的，特征分析平台102可以使用索引器110来进一步处理模型数据126以生成特征语料库128以供在执行特征重复数据删除时使用。例如，特征分析平台102可以生成与特征语料库的维度的数量相对应的索引。在这种情况下，当接收到新特征提交时，如本文描述的，可以使用预处理模块104来处理新特征提交，并且可以将其表示为LSI向量，这可以使特征分析平台102能够使用索引基于LSI向量与特征语料库中的其他LSI向量的相似性来确定相似性得分。在一些实现中，特征分析平台102可以执行降维过程以减少特征语料库的维度的数量。

在一些实现中，特征分析平台102可以使用特征语料库128来执行文本总结过程。例如，特征分析平台102可以缩短文本分段以生成对文本的总结。在这种情况下，对文本的总结可以表示文本的标识以下子分段的连贯并且流畅的版本(例如，表示文本的主要点)：这些子分段相对于其他子分段具有最高所确定的语义含义水平。在这种情况下，特征分析平台102可以使用总结的文本作为在索引中的标签，可以提供总结的文本作为针对搜索索引的响应等。在一些实现中，特征分析平台102可以执行词性标注、单词序列分析、语言模式识别等，以标识可以被分类为具有最高语义含义的子分段的关键短语。在一些实现中，特征分析平台102可以训练二进制机器学习分类器并且使用二进制机器学习分类器来生成总结的文本和/或标识其中的关键短语。相比之下，特征分析平台102可以否定地标注具有最低语义含义的非关键短语以便从总结中省略。在一些实现中，特征分析平台102可以使用机器学习技术(诸如，二进制机器学习分类器技术)来基于可以被称为特征的特性集(例如，关键短语的长度、关键短语的频率、关键短语中最经常出现的单词、关键短语中的字符的数量等)执行文本总结。

如在图1E中并且由附图标号168示出的，在生成了特征语料库128之后，特征分析平台102可以从客户端设备112接收新特征提交。例如，特征分析平台102可以接收对新特征、关于软件应用的问题、针对特征创新的主题等的自然语言描述。在一些实现中，特征分析平台102可以接收在新特征提交中的其他信息。例如，特征分析平台102可以接收在其中检测到错误的程序代码、针对特征提交的分类或者标签的集合等，并且可以将其他信息用于特征重复数据删除。

在一些实现中，特征分析平台102可以提供利用其来接收新特征提交的用户界面。例如，特征分析平台102可以生成用户界面并且经由客户端设备112来提供用户界面。在这种情况下，客户端设备112可以检测与标识新特征相关联的用户交互，诸如，接收对新特征的自然语言描述，并且可以将新特征提交提供至特征分析平台102以便进行处理。

在一些实现中，特征分析平台102可以向客户端设备112提供馈源，并且可以接收新特征提交作为针对提供馈源的响应。例如，基于配置的简档，特征分析平台102可以标识与配置的简档相关联的用户感兴趣的特征提交(例如，基于用户兴趣、用户角色、用户教育等)。在这种情况下，特征分析平台102可以将所标识的感兴趣的特征提交提供至客户端设备112以便进行显示，以实现用户的构想，并且可以基于感兴趣的特征提交来接收新特征提交。在一些实现中，特征分析平台102可以接收和/或提供馈源作为一个或者多个简易联合供稿(RSS)馈源。例如，特征分析平台102可以标识与有关软件应用所属的特定行业的更新相关联的数据馈源，可以订阅数据馈源，可以定期将从数据馈源标识的新特征添加至特征语料库，可以定期向用户提供有关新特征的更新，并且可以使用特征语料库来进行特征重复数据删除。附加地，或者备选地，特征分析平台102可以生成数据馈源，并且可以将数据馈源提供至客户端设备112以更新有关新特征的用户。

在一些实现中，特征分析平台102可以提供与竞赛或者挑战相关联的通知以利于接收新特征提交。例如，特征分析平台102可以接收对创新主题的指示(例如，从客户端设备112)，可以标识与创新主题相关的先前特征提交的提交者的集合，并且可以将对创新主题的通知传输至该提交者的集合所使用的客户端设备。按照这种方式，特征分析平台102可以利于创新竞赛或者竞争。在一些实现中，特征分析平台102可以针对特定客户端、开发人员的特定子集、公共团体等以创新竞赛为目标。例如，特征分析平台102可以发布标识创新竞赛的网站，并且可以经由网站来接收特征提交。

在一些实现中，特征分析平台102可以提供聊天机器人功能性以在提供与新特征提交相关联的信息时指导用户。例如，特征分析平台102可以使用自然语言处理(NLP)功能性来分析人类语言，并且通过使用文本通信、音频通信(例如，通过使用文本到语音生成器和/或语音到文本生成器)、视频通信等与用户通信来提供答案、获得信息等。在这种情况下，特征分析平台102可以处理用户的自然语言问题以确定意图、语义含义等，并且以在存储与可能的问题的集合相对应的响应的数据结构中检测对应的响应。按照这种方式，特征分析平台102可以提供自然语言响应，从而在使用特征分析平台102来提交有关针对软件应用的特征的想法时降低技术难度，并且减少提供大型的帮助文件的需要，这可能浪费用于进行存储的存储器资源和/或用于进行传输的网络资源。

在一些实现中，特征分析平台102可以从多个客户端设备112接收多个新特征提交。例如，当在分布在全球的组织中进行操作时，特征分析平台102可以如在本文中更详细地描述的那样使用云计算环境来支持使用数百、数千或者甚至数十万个并发用户和/或提交。按照这种方式，特征分析平台102使得能够对大量重复的特征提交执行相似性分析，该相似性分析的执行如要分配给单独的开发人员以进行开发可能是不切实际的。此外，通过执行特征重复数据删除和/或合并重复的特征提交，特征分析平台102可以使用可用计算资源来将用于开发的特征的数量减少到可开发的数量，从而解决针对特征开发的有限计算资源的技术问题。

在一些实现中，特征分析平台102可以定义角色的集合，并且可以使该角色的集合中的一些角色能够提交新特征。例如，特征分析平台102可以被部署用于组织，并且可以具有为组织客户定义的角色，从而允许客户组织中的成员提交特征提交以供组织进行开发。在这种情况下，特征分析平台102可以利用相关联的组织来标注新特征提交以实施防止在多组织部署中出现组织间特征可见性的安全策略。在一些实现中，特征分析平台102可以基于该角色的集合来针对特征提交定义用户级可见性。例如，特征分析平台102可以使具有第一种角色的用户能够查看特征提交集合(例如，经理可以查看所有特征提交)，并且可以使具有第二种角色的用户能够查看特征提交集合的子集(例如，与特定地理位置相关联的开发人员只可以查看被标注到特定地理位置的特征提交，从而利于基于地理的知识共享限制策略)。

如在图1E中并且由附图标号170进一步示出的，特征分析平台102可以使用相似性处理模块114来基于特征语料库128确定针对新特征的相似性得分。例如，特征分析平台102可以使用自然语言处理技术来处理新特征提交，并且可以使用机器学习技术来确定新特征提交是否与特征语料库128中的先前特征提交重复。

在一些实现中，特征分析平台102可以执行有指导的机器学习过程以利于相似性得分生成。例如，特征分析平台102可以将新特征提交提交至主题专家(例如，经理、开发人员等)以便进行分类，并且可以使用分类来生成相似性得分并且训练随后的自动分类。按照这种方式，相对于在没有主题专家指导的情况下进行机器学习，特征分析平台102使得能够在减少使用处理资源的情况下和/或在减少的时间段内产生自动分类和生成相似性得分生成模型。

在一些实现中，特征分析平台102可以使用文本排名分析来在索引内搜索与新特征提交相匹配的特征提交。在这种情况下，特征分析平台102可以连接语料库的文本(例如，特征提交中的所有文本)，将文本划分成分段集合(例如，句子)，确定该分段集合的单词嵌入(例如，向量表示)，并且确定句子之间的相似性以计算相似性矩阵。在这种情况下，如本文描述的，相似性矩阵可以是以分段(例如，句子)为顶点并且以相似性得分为边的图(graph)，从而使得能够进行句子排名计算并且根据语义相似性来确定排名最高的句子。按照这种方式，通过使用索引，相对于在不使用索引来标识特征语料库128的相似的先前特征提交的子集的情况下确定新特征提交相对于特征语料库128中的每个先前特征提交的相似性得分，特征分析平台102可以减少对处理资源的利用。在这种情况下，特征分析平台102可以基于新特征提交的文本与排名最高的句子或者特征语料库128中的其他特征提交索引的句子的语义相似性来确定相似性得分。

在一些实现中，特征分析平台102可以使用基于队列的架构来确定相似性得分。例如，特征分析平台102可以接收数百、数千或者甚至数百万个报告请求(例如，新特征提交请求、特征开发状态查询等)，并且可以在基于队列的架构中对每个报告请求进行排队以便进行后台处理。按照这种方式，特征分析平台102可以使得能够在对报告请求进行后台处理的同时使用特征分析平台102(例如，以提交新特征提交和/或使新的报告请求实例化)。

在一些实现中，特征分析平台102可以生成多个相似性得分。例如，特征分析平台102可以生成表示新特征提交与在特征语料库128中索引到的每个特征提交之间的相似性的相似性得分。在这种情况下，特征分析平台102可以利用阈值来比较最高的相似性得分、最高的相似性得分的集合等，以确定新特征提交是否与过往特征提交相匹配。

如在图1E中并且由附图标号172进一步示出的，特征分析平台102可以在基于区块链的特征管理系统中选择性地使新特征提交中的新特征实例化。例如，特征分析平台102可以基于相似性得分是否满足阈值来确定新特征提交是否与先前特征提交相匹配，并且可以基于新特征提交是否与先前特征提交相匹配来确定是否使新特征实例化。在这种情况下，特征分析平台102可以自动生成区块链交易以存储对新特征的记录，并且使得能够管理新特征的状态、对新特征的赞助等。按照这种方式，特征分析平台102降低了使以下用于开发的新特征实例化的可能性：这些新特征与已经在开发中的其他特征重复。

在一些实现中，特征分析平台102可以基于相似性得分来确定针对新特征提交的元得分(meta-score)，并且可以基于元得分来确定是否使新特征实例化。例如，特征分析平台102可以对新特征提交执行利益量化过程以确定是否接受新特征提交。在这种情况下，特征分析平台102可以分析特征提交以量化与特征提交相关联的计算资源节省、存储器资源节省、功能性改进、用户体验改进等。附加地，或者备选地，特征分析平台102可以基于想法的新颖性(例如，相似性得分)、想法是否与趋势话题(例如，具有阈值数量的提交的话题、想法产生竞赛的话题等)有关等来确定元得分。

在一些实现中，特征分析平台102可以确定不使新特征实例化。例如，特征分析平台102可以确定相似性得分满足指示与先前特征提交相匹配的阈值，并且可以向客户端设备112提供指示新特征提交与先前特征提交相匹配的警告。在这种情况下，特征分析平台102可以提供标识先前特征提交的信息，从而使用户能够修改新特征提交以与先前特征提交区别开来。在一些实现中，特征分析平台102可以提供标识相似性得分满足阈值的多个先前特征提交的信息，并且用户可以与客户端设备112的用户界面交互以选择将新特征提交合并到其中的多个先前特征提交中的一个或者多个先前特征提交。在这种情况下，特征分析平台102可以分配用户作为被分配给多个先前特征提交中的一个或者多个先前特征提交的开发人员的协作者，并且可以向开发人员提供有关合并新特征提交的通知。附加地，或者备选地，特征分析平台102可以自动将新特征提交与相似的过往特征提交合并，并且基于相似的过往特征提交来将有关合并的特征提交的信息提供给开发特征的开发人员。

在一些实现中，特征分析平台102可以将新特征添加至报告。例如，基于在基于区块链的特征管理系统中使新特征实例化，特征分析平台102可以将新特征添加至有效的特征的报告，并且可以向客户端设备的集合(例如，客户端设备112)提供指示更新了有效的特征的报告的通知。在一些实现中，特征分析平台102可以基于将新特征添加至有效的特征的报告来对有效的特征执行分析。

在一些实现中，特征分析平台102可以在使新特征提交中的新特征实例化之前向新特征提交应用投票过程。例如，特征分析平台102可以确定相似性得分满足指示新特征不是重复的另一阈值，并且可以将新特征提交发布到投票系统以获得有关是否开发新特征的投票。在这种情况下，特征分析平台102可以将新特征提交分配给主持人(moderator)，可以将新特征提交分配给评论者的集合，可以从该评论者的集合和/或该主持人收集投票得分和/或反馈，并且可以确定是否使新特征实例化。在这种情况下，基于使新特征实例化，特征分析平台102可以自动将新特征分配给开发人员以便进行开发，分配用于开发新特征的资源，分配用于执行新特征的资源，生成通告新特征的通告等。

在一些实现中，特征分析平台102可以基于使新特征实例化来将游戏化技术应用于管理新特征。例如，特征分析平台102可以向(例如，特征提交的)赞助者发行标记化虚拟货币，并且赞助者可以使用标记化虚拟货币来赞助用于开发的非重复特征(例如，新特征)。在这种情况下，特征分析平台102可以跟踪对赞助的特征(例如，新特征提交中的新特征)的开发，并且可以基于跟踪开发(例如，批准开发、成功开发、对开发的特征的评级)、基于社交协作等来发布评级点。

在一些实现中，特征分析平台102可以使用基于区块链的超级账本来跟踪标记化虚拟货币，以确定(例如，特征提交的顶级开发人员、特征的顶级提交者、特征的顶级赞助商等的)开发通栏广告。例如，特征分析平台102可以分配标记化虚拟货币，接收有关用于开发哪些新特征的投票，消费被分配给被选择用于开发的新特征的标记化虚拟货币，基于开发的状态来向新特征的赞助者分配附加的标记化虚拟货币，并且使用基于区块链的超级账本网络来跟踪对标记化虚拟货币的分配和消费。

在一些实现中，特征分析平台102可以在并发开发周期内分配用于开发的新特征。例如，特征分析平台102可以将软件开发人员的集合划分成团队的集合，并且可以向每个团队分配不同的开发任务以实现并发的特征开发。按照这种方式，特征分析平台102使得能够在相对较短的时间跨度内部署软件应用的多个版本。此外，特征分析平台102可以向多个开发人员团队分配单个开发任务以实现有竞争力的、独立的开发过程，从而利用竞争来确保对新特征的最佳开发。基于使用特征重复数据删除，特征分析平台102可以确保有竞争力的、独立的开发过程是可监测的以确定要部署特征的多个版本中的哪个版本，从而相对于特征的多个版本提供开发过程的改进以选择要部署的单个版本，该特征是无意间被开发的并且因此在开发期间不被监测和比较。

在一些实现中，特征分析平台102可以自动分配指导者以协助开发与特征提交相关的新特征。例如，特征分析平台102可以标识与对过往特征提交进行工作相关联的一个或者多个软件开发人员和/或一个或者多个管理者，这些过往特征提交与新特征提交具有阈值相似性，并且特征分析平台102可以分配用于开发新特征提交中的新特征的一个或者多个软件开发人员和用于管理对新特征的开发的一个或多个管理者。按照这种方式，特征分析平台102确保正确地向与员工已经对其进行了工作的先前任务相似的任务分配具有在特征开发中所开发的专业知识的员工。

在一些实现中，特征分析平台102可以将对新特征提交中的新特征的开发分配给提交了新特征提交的用户。例如，当开发人员提交了新特征提交时，特征分析平台102可以基于新特征提交不满足阈值相似性得分来批准新特征提交，并且可以分配开发人员以开发新特征。在这种情况下，开发人员可以经由客户端设备112来提供标识其他开发人员的信息，并且特征分析平台102可以自动将与对新特征的开发相关联的任务分配给其他开发人员。

按照这种方式，特征分析平台102实现了特征提交重复数据删除，从而减少了对与开发重复的、并行的和/或冲突的解决方案相关联的计算资源的利用。

如上面指示的，仅作为一个或者多个示例而提供图1A至图1E。其他示例可以与针对图1A至图1E所描述的内容不同。

图2是可以实现本文所描述的系统和/或方法的示例环境200的示意图。如在图2中示出的，环境200可以包括客户端设备210、特征分析平台220、计算资源225、云计算环境230和网络240。环境200中的设备可以经由有线连接、无线连接或者有线连接和无线连接的组合来互连。

客户端设备210包括能够接收、生成、存储、处理和/或提供与特征提交重复数据删除和基于区块链的特征管理相关联的信息的一个或者多个设备。例如，客户端设备210可以包括通信设备和/或计算设备(诸如，移动电话(例如，智能电话、无线电话等)、膝上型计算机、平板计算机、手持式计算机、台式计算机、游戏设备、可穿戴通信设备(例如，智能手表、一副智能眼镜等)或者相似类型的设备。

特征分析平台220包括被分配用于执行特征提交重复数据删除和基于区块链的特征管理的一个或者多个计算资源。例如，特征分析平台220可以是由云计算环境230实现的平台，该云计算环境230可以进行特征提交重复数据删除和基于区块链的特征管理。在一些实现中，特征分析平台220由云计算环境230的计算资源225实现。

特征分析平台220可以包括服务器设备或者一组服务器设备。在一些实现中，特征分析平台220可以被托管在云计算环境230中。值得注意的是：虽然本文所描述的实现将特征分析平台220描述为被托管在云计算环境230中，但是在一些实现中，特征分析平台220可以是非基于云的或者可以是部分基于云的。

云计算环境230包括递送计算作为服务的环境，由此，可以提供共享资源、共享服务等以执行特征提交重复数据删除和基于区块链的特征管理。云计算环境230可以提供不需要终端用户了解递送服务的系统和/或设备的物理位置和配置的计算、软件、数据访问、存储和/或其他服务。如图所示，云计算环境230可以包括特征分析平台220和计算资源225。

计算资源225包括一个或者多个个人计算机、工作站计算机、服务器设备或者另一类型的计算设备和/或通信设备。在一些实现中，计算资源225可以托管特征分析平台220。云资源可以包括在计算资源225中执行的计算实例、被设置在计算资源225中的存储设备、由计算资源225提供的数据传输设备等。在一些实现中，计算资源225可以经由有线连接、无线连接或者有线连接和无线连接的组合来与其他计算资源225通信。

如在图2中进一步示出的，计算资源225可以包括一组云资源，诸如，一个或者多个应用(“APP”)225-1、一个或者多个虚拟机(“VM”)225-2、虚拟化存储装置(“VS”)225-3、一个或者多个管理程序(“HYP”)225-4等。

应用225-1包括可以被提供至客户端设备210或者可以由客户端设备210访问的一个或者多个软件应用。应用225-1可以消除在客户端设备210上安装并且执行软件应用的需要。例如，应用225-1可以包括与特征分析平台220相关联的软件和/或能够经由云计算环境230来提供的任何其他软件。在一些实现中，一个应用225-1可以经由虚拟机225-2向/从一个或者多个其他应用225-1发送/接收信息。

虚拟机225-2包括像物理机一样执行程序的机器(例如，计算机)的软件实现。虚拟机225-2可以是系统虚拟机或者过程虚拟机，这取决于虚拟机225-2对任何真实机器的使用和虚拟机225-2与任何真实机器的对应程度。系统虚拟机可以提供支持执行完整的操作系统(“OS”)的完整的系统平台。过程虚拟机可以执行单个程序，并且可以支持单个过程。在一些实现中，虚拟机225-2可以代表用户(例如，客户端设备210)而执行，并且可以管理云计算环境230的基础架构，诸如，数据管理、同步或者长持续时间数据传输。

虚拟化存储装置225-3包括在计算资源225的存储系统或者设备内使用虚拟化技术的一个或者多个存储系统和/或一个或者多个设备。在一些实现中，在存储系统的上下文中，虚拟化的类型可以包括块虚拟化和文件虚拟化。块虚拟化可以是指逻辑存储装置与物理存储装置的抽象(或者分离)，使得可以在不考虑物理存储装置或者异构结构的情况下访问存储系统。该分离可以允许存储系统的管理员在管理员管理针对终端用户的存储的方式下具有灵活性。文件虚拟化可以消除在文件级下访问的数据与物理地存储文件的位置之间的依赖性。这可以实现优化存储使用、服务器整合和/或对非破坏性文件迁移的执行。

管理程序225-4提供允许多个操作系统(例如，“访客操作系统”)在主机计算机(诸如，计算资源225)上同时执行的硬件虚拟化技术。管理程序225-4可以向访客操作系统呈现虚拟操作平台，并且可以管理访客操作系统的执行。各种操作系统的多个实例可以共享虚拟化硬件资源。

网络240包括一个或者多个有线网络和/或无线网络。例如，网络240可以包括：蜂窝网络(例如，长期演进(LTE)网络、码分多址(CDMA)网络、3G网络、4G网络、5G网络、另一类型的下一代网络等)、公共陆地移动网络(PLMN)、局域网(LAN)、广域网(WAN)、城域网(MAN)、电话网络(例如，公共交换电话网(PSTN))、专用网络、自组织网络、内联网、互联网、基于光纤的网络、云计算网络等和/或这些或者其他类型的网络的组合。

在图2中所示出的设备和网络的数目和布置被提供作为一个或者多个示例。实际上，与在图2中所示出的那些设备和/或网络相比，可能存在附加设备和/或网络、更少的设备和/或网络、不同的设备和/或网络或者不同地布置的设备和/或网络。此外，在图2中所示出的两个或者更多个设备可以被实现在单个设备内，或者在图2中所示出的单个设备可以被实现为多个分布式设备。附加地，或者备选地，环境200中的设备的集合(例如，一个或者多个设备)可以执行被描述为由环境200中的另一设备的集合执行的一个或者多个功能。

图3是设备300的示例组件的示意图。设备300可以与客户端设备210、特征分析平台220和/或计算资源225相对应。在一些实现中，客户端设备210、特征分析平台220和/或计算资源225可以包括一个或者多个设备300和/或设备300的一个或者多个组件。如在图3中示出的，设备300可以包括总线310、处理器320、存储器330、存储组件340、输入组件350、输出组件360和/或通信接口370。

总线310包括允许设备300的多个组件之间的通信的组件。处理器320被实现在硬件、固件或者硬件和软件的组合中。处理器320采取中央处理单元(CPU)、图形处理单元(GPU)、加速处理单元(APU)、微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)或者另一类型的处理组件的形式。在一些实现中，处理器320包括能够被编程为执行功能的一个或者多个处理器。存储器330包括随机存取存储器(RAM)、只读存储器(ROM)和/或存储信息和/或指令以供处理器320使用的另一类型的动态或者静态存储设备(例如，闪速存储器、磁存储器和/或光学存储器)。

存储组件340存储与设备300的操作和使用相关的信息和/或软件。例如，存储组件340可以包括：硬盘(例如，磁盘、光盘和/或磁光盘)、固态驱动器(SSD)、压缩盘(CD)、数字多功能盘(DVD)、软盘、磁带盒、磁带和/或另一类型的非瞬态计算机可读介质以及对应的驱动器。

输入组件350包括允许设备300接收信息的组件，诸如，经由用户输入(例如，触摸屏显示器、键盘、小键盘、鼠标、按钮、开关和/或麦克风)。附加地，或者备选地，输入组件350可以包括用于确定位置的组件(例如，全球定位系统(GPS)组件)和/或传感器(例如，加速度计、陀螺仪、致动器、另一类型的位置传感器或者环境传感器等)。输出组件360包括提供来自设备300的输出信息的组件(例如，经由显示器、扬声器、触觉反馈组件、音频或者视觉指示器等)。

通信接口370包括使设备300能够与其他设备通信(诸如，经由有线连接、无线连接或者有线连接和无线连接的组合)的类收发器的组件(例如，收发器、分离的接收器、分离的发送器等)。通信接口370可以允许设备300从另一设备接收信息和/或向另一设备提供信息。例如，通信接口370可以包括以太网接口、光学接口、同轴接口、红外接口、射频(RF)接口、通用串行总线(USB)接口、Wi-Fi接口、蜂窝网络接口等。

设备300可以执行本文所描述的一个或者多个过程。设备300可以基于处理器320执行由非瞬态计算机可读介质(诸如，存储器330和/或存储组件340)存储的软件指令来执行这些过程。如本文使用的，术语“计算机可读介质”是指非瞬态存储器设备。存储器设备包括在单个物理存储设备内的存储器空间或者在多个物理存储设备之间扩展的存储器空间。

软件指令可以经由通信接口370从另一计算机可读介质或者从另一设备被读取到存储器330和/或存储组件340中。被存储在存储器330和/或存储组件340中的软件指令在被执行时可以使处理器320执行本文所描述的一个或者多个过程。附加地，或者备选地，代替用于执行本文所描述的一个或者多个过程的软件指令或者结合这些软件指令，可以使用硬件电路装置。因此，本文所描述的实现不限于硬件电路装置和软件的任何特定组合。

在图3中所示出的组件的数目和布置被提供作为示例。实际上，与在图3中所示出的那些组件相比，设备300可以包括附加组件、更少的组件、不同组件或者不同地布置的组件。附加地，或者备选地，设备300的组件集合(例如，一个或者多个组件)可以执行被描述为由设备300的另一组件集合执行的一个或者多个功能。

图4是用于特征提交重复数据删除和基于区块链的特征管理的示例过程400的流程图。在一些实现中，图4中的一个或者多个过程框可以由特征分析平台(例如，特征分析平台220)执行。在一些实现中，图4中的一个或者多个过程框可以由与特征分析平台分离或者包括特征分析平台的另一设备或者一组设备执行，诸如，客户端设备(例如，客户端设备210)等。

如在图4中示出的，过程400可以包括：接收标识针对软件应用的候选特征的特征提交(框410)。例如，如上所述，特征分析平台(例如，使用处理器320、存储器330、存储组件340、输入组件350、输出组件360、通信接口370等)可以接收标识针对软件应用的候选特征的特征提交。

如在图4中进一步示出的，过程400可以包括：对特征提交进行预处理以使与候选特征相关联的数据重新格式化，以与关联于所存储的有关过往特征提交的信息的数据格式相匹配(框420)。例如，如上所述，特征分析平台(例如，使用处理器320、存储器330、存储组件340、输入组件350、输出组件360、通信接口370等)可以对特征提交进行预处理以使与候选特征相关联的数据重新格式化，以与关联于所存储的有关过往特征提交的信息的数据格式相匹配。

如在图4中进一步示出的，过程400可以包括：对与候选特征相关联的数据执行自然语言处理以确定候选特征的语义含义(框430)。例如，如上所述，特征分析平台(例如，使用处理器320、存储器330、存储组件340、输入组件350、输出组件360、通信接口370等)可以对与候选特征相关联的数据执行自然语言处理以确定候选特征的语义含义。

如在图4中进一步示出的，过程400可以包括：将候选特征的语义含义与过往特征提交的索引进行比较，以确定候选特征是否与过往特征提交中的任何过往特征提交相匹配(框440)。例如，如上所述，特征分析平台(例如，使用处理器320、存储器330、存储组件340、输入组件350、输出组件360、通信接口370等)可以将候选特征的语义含义与过往特征提交的索引进行比较，以确定候选特征是否与过往特征提交中的任何过往特征提交相匹配。

如在图4中进一步示出的，过程400可以包括：提供指示候选特征是否与过往特征提交中的任何过往特征提交相匹配的响应，其中响应包括候选特征与任何过往特征提交不相匹配的指示或者标识关联于与候选特征的阈值语义相似性的一个或者多个过往特征提交的信息(框450)。例如，如上所述，特征分析平台(例如，使用处理器320、存储器330、存储组件340、输入组件350、输出组件360、通信接口370等)可以提供指示候选特征是否与过往特征提交中的任何过往特征提交相匹配的响应。在一些方面中，响应包括候选特征与任何过往特征提交不相匹配的指示或者标识关联于与候选特征的阈值语义相似性的一个或者多个过往特征提交的信息。

过程400可以包括另外的实现，诸如，任何单种实现或者下面所描述的和/或结合本文在别处所描述的一个或者多个其他过程的实现的任何组合。

在一些实现中，执行自然语言处理包括：确定对候选特征的描述中的每个在语义上不同的单词的出现次数；基于出现次数来将对候选特征的描述中的每个在语义上不同的单词转换为对应的整数型单词标识符；以及生成对应的整数型单词标识符的稀疏向量。在一些实现中，比较语义含义包括：使用稀疏向量来比较语义含义。在一些实现中，执行自然语言处理包括：对与对候选特征的描述相关的信息执行潜在语义索引过程；以及执行降维过程以将潜在语义索引过程的结果的维度减少到在配置的维度范围内。在一些实现中，比较语义含义包括：使用降维过程的结果来比较语义含义。在一些实现中，过程400包括：标识与软件应用所属的特定行业相关联的数据馈源；订阅数据馈源；通过数据馈源来向过往特征提交添加特征集合；以及在添加了该特征集合之后比较语义含义。在一些实现中，过程400包括：生成过往特征提交的索引，以及在生成了索引之后比较语义含义。

在一些实现中，生成索引包括：训练二进制机器学习分类器以基于描述的一个或者多个特征来总结对过往特征提交的描述，以及使用二进制机器学习分类器来执行文本总结过程以标识关键短语的集合。在一些实现中，一个或者多个特征包括以下中的至少一个：关键短语的长度、关键短语的频率、关键短语中的重复单词的数量或者关键短语中的字符的数量。在一些实现中，生成索引进一步包括：连接对过往特征提交的描述以生成语料库；将语料库分成分段集合；生成该分段集合的向量表示；确定向量表示之间的相似性；基于相似性来生成相似性矩阵；以及将相似性矩阵转换成图。

虽然图4示出了过程400的示例框，但是在一些实现中，与在图4中所描绘的那些框相比，过程400可以包括附加的框、更少的框、不同的框或者不同地布置的框。附加地，或者备选地，可以并行执行过程400的两个或者更多个框。

图5是用于特征提交重复数据删除和基于区块链的特征管理的示例过程500的流程图。在一些实现中，图5中的一个或者多个过程框可以由特征分析平台(例如，特征分析平台220)执行。在一些实现中，图5中的一个或者多个过程框可以由与特征分析平台分离或者包括特征分析平台的另一设备或者一组设备执行，诸如，客户端设备(例如，客户端设备210)等。

如在图5中示出的，过程500可以包括：训练二进制机器学习分类器以基于描述的一个或者多个特性来总结对过往特征提交的描述(框510)。例如，如上所述，特征分析平台(例如，使用处理器320、存储器330、存储组件340、输入组件350、输出组件360、通信接口370等)可以训练二进制机器学习分类器以基于描述的一个或者多个特性来总结对过往特征提交的描述。

如在图5中进一步示出的，过程500可以包括：使用二进制机器学习分类器来执行文本总结过程以标识关键短语的集合(框520)。例如，如上所述，特征分析平台(例如，使用处理器320、存储器330、存储组件340、输入组件350、输出组件360、通信接口370等)可以使用二进制机器学习分类器来执行文本总结过程以标识关键短语的集合。

如在图5中进一步示出的，过程500可以包括：接收标识针对应用的候选特征的特征提交(框530)。例如，如上所述，特征分析平台(例如，使用处理器320、存储器330、存储组件340、输入组件350、输出组件360、通信接口370等)可以接收标识针对应用的候选特征的特征提交。

如在图5中进一步示出的，过程500可以包括：对特征提交进行预处理以使与候选特征相关联的数据重新格式化，以与关联于所存储的有关过往特征提交的信息的数据格式相匹配(框540)。例如，如上所述，特征分析平台(例如，使用处理器320、存储器330、存储组件340、输入组件350、输出组件360、通信接口370等)可以对特征提交进行预处理以使与候选特征相关联的数据重新格式化，以与关联于所存储的有关过往特征提交的信息的数据格式相匹配。

如在图5中进一步示出的，过程500可以包括：对与候选特征相关联的数据执行自然语言处理以确定候选特征的语义含义(框550)。例如，如上所述，特征分析平台(例如，使用处理器320、存储器330、存储组件340、输入组件350、输出组件360、通信接口370等)可以对与候选特征相关联的数据执行自然语言处理以确定候选特征的语义含义。

如在图5中进一步示出的，过程500可以包括：将候选特征的语义含义与过往特征提交的索引进行比较并且与该关键短语的集合相关联，以确定候选特征是否与过往特征提交中的任何过往特征提交相匹配(框560)。例如，如上所述，特征分析平台(例如，使用处理器320、存储器330、存储组件340、输入组件350、输出组件360、通信接口370等)可以将候选特征的语义含义与过往特征提交的索引进行比较并且与该关键短语的集合相关联，以确定候选特征是否与过往特征提交中的任何过往特征提交相匹配。

如在图5中进一步示出的，过程500可以包括：提供指示候选特征是否与过往特征提交中的任何过往特征提交相匹配的响应，其中响应包括候选特征与任何过往特征提交不相匹配的指示或者标识关联于与候选特征的阈值语义相似性的一个或者多个过往特征提交的信息(框570)。例如，如上所述，特征分析平台(例如，使用处理器320、存储器330、存储组件340、输入组件350、输出组件360、通信接口370等)可以提供指示候选特征是否与过往特征提交中的任何过往特征提交相匹配的响应。在一些方面中，响应包括候选特征与任何过往特征提交不相匹配的指示或者标识关联于与候选特征的阈值语义相似性的一个或者多个过往特征提交的信息。

过程500可以包括另外的实现，诸如，任何单种实现或者下面所描述的和/或结合本文在别处所描述的一个或者多个其他过程的实现的任何组合。

在一些实现中，过程500可以包括：基于确定候选特征与过往特征提交相匹配，将候选特征的特征提交与对过往特征提交的描述合并；以及基于将特征提交与对过往特征提交的描述合并来提供标识合并的特征提交的信息。在一些实现中，过程500可以包括：基于索引来确定趋势特征话题；以及提供标识趋势特征话题的输出。在一些实现中，过程500可以包括：基于确定候选特征与任何过往特征提交不相匹配，将候选特征存储在区块链超级账本网络中。

在一些实现中，过程500可以包括：接收针对在与候选特征相对应的区块链超级账本网络中的条目的赞助指示；基于接收到赞助指示来注册用于开发的候选特征；基于注册了用于开发的候选特征来跟踪对候选特征的开发；以及基于跟踪开发的结果来向与赞助指示相关联的赞助者分配一个或者多个标记。在一些实现中，赞助指示包括对标记集合的支付，并且发起针对一个或者多个标记的合约。在一些实现中，过程500可以包括：基于接收到赞助指示来确定赞助阈值被满足；以及基于确定赞助阈值被满足来注册用于开发的候选特征。

在一些实现中，超级账本区块链网络由与多个不同角色相关联的用户可访问；并且多个不同角色包括以下中的至少一项：创新者角色、共同创新者角色、实现者角色、指导者角色或者评论者角色。在一些实现中，过程500可以包括：在多个不同角色中确定针对用户的角色；以及基于针对用户的角色来提供超级账本区块链网络中的一个或者多个特征的访问。

虽然图5示出了过程500的示例框，但是在一些实现中，与在图5中所描绘的那些框相比，过程500可以包括附加的框、更少的框、不同的框或者不同地布置的框。附加地，或者备选地，可以并行执行过程500的两个或者更多个框。

图6是针对特征提交重复数据删除和基于区块链的特征管理的示例过程600的流程图。在一些实现中，图6中的一个或者多个过程框可以由特征分析平台(例如，特征分析平台220)执行。在一些实现中，图6中的一个或者多个过程框可以由与特征分析平台分离或者包括特征分析平台的另一设备或者一组设备执行，诸如，客户端设备(例如，客户端设备210)等。

如在图6中示出的，过程600可以包括：接收标识针对应用的候选特征的特征提交(框610)。例如，如上所述，特征分析平台(例如，使用处理器320、存储器330、存储组件340、输入组件350、输出组件360、通信接口370等)可以接收标识针对应用的候选特征的特征提交。

如在图6中进一步示出的，过程600可以包括：对与候选特征相关联的数据执行自然语言处理以确定候选特征的语义含义(框620)。例如，如上所述，特征分析平台(例如，使用处理器320、存储器330、存储组件340、输入组件350、输出组件360、通信接口370等)可以对与候选特征相关联的数据执行自然语言处理以确定候选特征的语义含义。

如在图6中进一步示出的，过程600可以包括：将候选特征的语义含义与过往特征提交的索引进行比较，以确定候选特征是否与过往特征提交中的任何过往特征提交相匹配(框630)。例如，如上所述，特征分析平台(例如，使用处理器320、存储器330、存储组件340、输入组件350、输出组件360、通信接口370等)可以将候选特征的语义含义与过往特征提交的索引进行比较，以确定候选特征是否与过往特征提交中的任何过往特征提交相匹配。

如在图6中进一步示出的，过程600可以包括：提供指示候选特征是否与过往特征提交中的任何过往特征提交相匹配的响应，其中响应包括候选特征与任何过往特征提交不相匹配的指示或者标识关联于与候选特征的阈值语义相似性的一个或者多个过往特征提交的信息(框640)。例如，如上所述，特征分析平台(例如，使用处理器320、存储器330、存储组件340、输入组件350、输出组件360、通信接口370等)可以提供指示候选特征是否与过往特征提交中的任何过往特征提交相匹配的响应。在一些方面中，响应包括候选特征与任何过往特征提交不相匹配的指示或者标识关联于与候选特征的阈值语义相似性的一个或者多个过往特征提交的信息。

过程600可以包括另外的实现，诸如，任何单种实现或者下面所描述的和/或结合本文在别处所描述的一个或者多个其他过程的实现的任何组合。

在一些实现中，过程600包括：执行自然语言处理；确定对候选特征的描述中的每个在语义上不同的单词的出现次数；基于出现次数来将对候选特征的描述中的每个在语义上不同的单词转换为对应的整数型单词标识符；生成对应的整数型单词标识符的稀疏向量；以及使用稀疏向量来比较语义含义。在一些实现中，过程600包括：对与对候选特征的描述相关的信息执行潜在语义索引过程；执行降维过程以将潜在语义索引过程的结果的维度减少到在配置的维度范围内；以及使用降维过程的结果来比较语义含义。

虽然图6示出了过程600的示例框，但是在一些实现中，与在图6中所描绘的那些框相比，过程600可以包括附加的框、更少的框、不同的框或者不同地布置的框。附加地，或者备选地，可以并行执行过程600的两个或者更多个框。

前述公开内容提供了说明和描述，但是不旨在是详尽的或者将实现限于所公开的精确形式。可以鉴于上述公开内容来进行修改和变型，或者可以从实现的实践中获得修改和变型。

如本文使用的，术语“组件”旨在被广泛地解释为硬件、固件和/或硬件和软件的组合。

本文结合阈值描述了一些实现。如本文使用的，根据上下文，满足阈值可以是指值大于阈值、多于阈值、高于阈值、大于或者等于阈值、小于阈值、少于阈值、低于阈值、小于或者等于阈值、等于阈值等。

本文已经描述了和/或在附图中示出了某些用户界面。用户界面可以包括图形用户界面、非图形用户界面、基于文本的用户界面等。用户界面可以提供要显示的信息。在一些实现中，用户可以与信息进行交互，诸如，通过经由提供用户界面以便进行显示的设备的输入组件提供输入。在一些实现中，用户界面可以由设备和/或用户配置(例如，用户可以改变用户界面的大小、经由用户界面而提供的信息、经由用户界面而提供的信息的位置等)。附加地，或者备选地，用户界面可以被预先配置为标准配置、基于显示用户界面的设备的类型的特定配置和/或基于与显示用户界面的设备相关联的能力和/或规范的配置的集合。

将明显的是：可以在不同形式的硬件、固件或者硬件和软件的组合中实现本文所描述的系统和/或方法。被用于实现这些系统和/或方法的实际专用控制硬件或者软件代码不是对实现的限制。因此，本文描述了系统和/或方法的操作和行为，而无需参照特定软件代码—应该理解，软件和硬件可以被设计为基于本文中的描述来实现系统和/或方法。

虽然在权利要求书中叙述了和/或在本说明书中公开了特征的特定组合，但是这些组合不旨在限制各种实现的公开内容。实际上，这些特征中的许多特征可以按照未在权利要求书中具体叙述和/或未在本说明书中公开的方式被组合。虽然下面所列出的每项从属权利要求会仅直接依赖于一项权利要求，但是各种实现的公开内容包括每项从属权利要求以及权利要求集合中的每项其他权利要求。

本文所使用的元件、动作或者指令都不应该被解释为是关键的或者必要的，除非明确地如此描述。同样，如本文使用的，冠词“一”和“一个”旨在包括一个或者多个项，并且可以与“一个或者多个”互换使用。此外，如本文使用的，术语“集合”旨在包括一个或者多个项(例如，相关项、不相关项、相关项和不相关项的组合等)，并且可以与“一个或者多个”互换使用。在预期仅一个项的情况下，使用短语“仅一个”或者相似的语言。同样，如本文使用的，术语“具有(has)”、“具有(have)”、“具有(having)”等旨在是开放式术语。进一步地，短语“基于”旨在表示“至少部分地基于”，除非另有明确说明。

Claims

1.一种方法，包括：

从设备接收标识针对软件应用的候选特征的特征提交；

由所述设备对所述特征提交进行预处理以使与所述候选特征相关联的数据重新格式化，以与关联于所存储的有关过往特征提交的信息的数据格式相匹配；

由所述设备对与所述候选特征相关联的所述数据执行自然语言处理以确定所述候选特征的语义含义；

由所述设备将所述候选特征的所述语义含义与过往特征提交的索引进行比较，以确定所述候选特征是否与所述过往特征提交中的任何过往特征提交相匹配；以及

由所述设备提供指示所述候选特征是否与所述过往特征提交相匹配的响应，

其中所述响应包括所述候选特征与任何过往特征提交不相匹配的指示、或者标识关联于与所述候选特征的阈值语义相似性的一个或者多个过往特征提交的信息。

2.根据权利要求1所述的方法，其中执行所述自然语言处理包括：

确定对所述候选特征的描述中的每个在语义上不同的单词的出现次数；

基于所述出现次数来将对所述候选特征的所述描述中的每个在语义上不同的单词转换为对应的整数型单词标识符；

生成所述对应的整数型单词标识符的稀疏向量；并且

其中比较所述语义含义包括：

使用所述稀疏向量来比较所述语义含义。

3.根据权利要求1所述的方法，其中执行所述自然语言处理包括：

对与对所述候选特征的描述相关的信息执行潜在语义索引过程；

执行降维过程以将所述潜在语义索引过程的结果的维度减少到在配置的维度范围内；并且

其中比较所述语义含义包括：

使用所述降维过程的结果来比较所述语义含义。

4.根据权利要求1所述的方法，还包括：

标识与所述软件应用所属的特定行业相关联的数据馈源；

订阅所述数据馈源；

从所述数据馈源向所述过往特征提交添加特征集合；并且

其中比较所述语义含义包括：

在添加所述特征集合之后，比较所述语义含义。

5.根据权利要求1所述的方法，还包括：

生成过往特征提交的所述索引；并且

其中比较所述语义含义包括：

在生成所述索引之后，比较所述语义含义。

6.根据权利要求5所述的方法，其中生成所述索引还包括：

训练二进制机器学习分类器，以基于所述描述的一个或者多个特征来总结对所述过往特征提交的描述；以及

使用所述二进制机器学习分类器来执行文本总结过程以标识关键短语的集合。

7.根据权利要求6所述的方法，其中所述一个或者多个特征包括以下中的至少一项：

关键短语的长度，

关键短语的频率，

关键短语中的重复单词的数量，或者

关键短语中的字符的数量。

8.根据权利要求5所述的方法，其中生成所述索引还包括：

连接对所述过往特征提交的描述以生成语料库；

将所述语料库分成分段集合；

生成所述分段集合的向量表示；

确定所述向量表示之间的相似性；

基于所述相似性来生成相似性矩阵；以及

将所述相似性矩阵转换成图，

其中所述分段集合表示所述图的顶点，并且所述相似性表示所述图的边。

9.一种设备，包括：

一个或者多个存储器；以及

一个或者多个处理器，被通信地耦合至所述一个或者多个存储器，所述一个或者多个处理器被配置为：

训练二进制机器学习分类器以基于对过往特征提交的描述的一个或者多个特性来总结所述描述；

使用所述二进制机器学习分类器来执行文本总结过程以标识关键短语的集合；

接收标识针对应用的候选特征的特征提交；

对所述特征提交进行预处理以使与所述候选特征相关联的数据重新格式化，以与关联于所存储的有关所述过往特征提交的信息的数据格式相匹配；

对与所述候选特征相关联的所述数据执行自然语言处理以确定所述候选特征的语义含义；

将所述候选特征的所述语义含义与过往特征提交的索引进行比较并且与所述关键短语的集合相关联，以确定所述候选特征是否与所述过往特征提交中的任何过往特征提交相匹配；以及

提供指示所述候选特征是否与所述过往特征提交相匹配的响应，

10.根据权利要求9所述的设备，其中所述一个或者多个处理器还用以：

基于确定所述候选特征与过往特征提交相匹配，将所述候选特征的所述特征提交与对所述过往特征提交的描述合并；以及

基于将所述特征提交与对所述过往特征提交的所述描述合并来提供标识合并的特征提交的信息。

11.根据权利要求9所述的设备，其中所述一个或者多个处理器还被配置为：

基于所述索引来确定趋势特征话题；以及

提供标识所述趋势特征话题的输出。

12.根据权利要求9所述的设备，其中所述一个或者多个处理器还被配置为：

基于确定所述候选特征与任何过往特征提交不相匹配，将所述候选特征存储在区块链超级账本网络中。

13.根据权利要求12所述的设备，其中所述一个或者多个处理器还被配置为：

接收针对在所述区块链超级账本网络中与所述候选特征相对应的条目的赞助指示；

基于接收到所述赞助指示来注册用于开发的所述候选特征；

基于注册用于开发的所述候选特征来跟踪对所述候选特征的开发；以及

基于跟踪所述开发的结果来向与所述赞助指示相关联的赞助者分配一个或者多个标记。

14.根据权利要求13所述的设备，其中所述赞助指示包括对标记集合的支付，并且发起针对所述一个或者多个标记的合约。

15.根据权利要求13所述的设备，其中所述一个或者多个处理器还被配置为：

基于接收到所述赞助指示来确定赞助阈值被满足；并且

其中当注册用于开发的所述候选特征时，所述一个或者多个处理器被配置为：

基于确定所述赞助阈值被满足来注册用于开发的所述候选特征。

16.根据权利要求12所述的设备，其中所述超级账本区块链网络由与多个不同角色相关联的用户可访问，并且

其中所述多个不同角色包括以下中的至少一项：

创新者角色，

共同创新者角色，

实现者角色，

指导者角色，或者

评论者角色。

17.根据权利要求16所述的设备，其中所述一个或者多个处理器还被配置为：

在所述多个不同角色中确定针对用户的角色；以及

基于针对所述用户的所述角色来提供所述超级账本区块链网络中的一个或者多个特征的访问。

18.一种存储指令的非瞬态计算机可读介质，所述指令包括：

一个或者多个指令，所述一个或者多个指令在由一个或者多个处理器执行时使所述一个或者多个处理器：

接收标识针对应用的候选特征的特征提交；

对与所述候选特征相关联的数据执行自然语言处理以确定所述候选特征的语义含义；

将所述候选特征的所述语义含义与过往特征提交的索引进行比较，以确定所述候选特征是否与所述过往特征提交中的任何过往特征提交相匹配；以及

19.根据权利要求18所述的非瞬态计算机可读介质，其中使所述一个或者多个处理器执行所述自然语言处理的所述一个或者多个指令使所述一个或者多个处理器：

生成所述对应的整数型单词标识符的稀疏向量；并且

其中使所述一个或者多个处理器比较所述语义含义的所述一个或者多个指令使所述一个或者多个处理器：

使用所述稀疏向量来比较所述语义含义。

20.根据权利要求18所述的非瞬态计算机可读介质，其中使所述一个或者多个处理器执行所述自然语言处理的所述一个或者多个指令使所述一个或者多个处理器：

使用所述降维过程的结果来比较所述语义含义。