CN111310436A

CN111310436A - 基于人工智能的文本处理方法、装置及电子设备

Info

Publication number: CN111310436A
Application number: CN202010085881.7A
Authority: CN
Inventors: 费志辉; 李超; 马连洋; 衡阵
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-02-11
Filing date: 2020-02-11
Publication date: 2020-06-19
Anticipated expiration: 2040-02-11
Also published as: CN111310436B

Abstract

本发明提供了一种基于人工智能的文本处理方法、装置、电子设备及存储介质；方法包括：对目标文本进行语义表征处理，得到所述目标文本的文本语义向量；提取所述目标文本中的关键词，并确定所述关键词的向量表示；根据所述关键词的向量表示，确定所述目标文本的文本关键向量；将所述文本语义向量和所述文本关键向量进行融合处理，得到用于表示所述目标文本的文本向量。通过本发明，能够提升得到的文本向量的准确性，并提升对目标文本进行相关处理的准确性。

Description

基于人工智能的文本处理方法、装置及电子设备

技术领域

本发明涉及人工智能技术，尤其涉及一种基于人工智能的文本处理方法、装置、电子设备及存储介质。

背景技术

人工智能(AI，Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。自然语言处理(NLP，Nature Language Processing)是人工智能的一个重要方向，主要研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。

文本处理是自然语言处理的一个研究热点，具体通过有监督学习或无监督学习，将文本中包括的信息以向量形式来表示。由于有监督学习需要大量标注数据，难以收集，故在相关技术提供的方案中，通常是以无监督的方式构建语言模型，并通过语言模型将文本转换为文本向量。但是，相关技术提供的语言模型较为简单，导致得到的文本向量的准确性差，无法有效地表示文本中的信息。

发明内容

本发明实施例提供一种基于人工智能的文本处理方法、装置、电子设备及存储介质，能够提升转换出的文本向量的准确性和有效性。

本发明实施例的技术方案是这样实现的：

本发明实施例提供一种基于人工智能的文本处理方法，包括：

对目标文本进行语义表征处理，得到所述目标文本的文本语义向量；

提取所述目标文本中的关键词，并确定所述关键词的向量表示；

根据所述关键词的向量表示，确定所述目标文本的文本关键向量；

将所述文本语义向量和所述文本关键向量进行融合处理，得到用于表示所述目标文本的文本向量。

本发明实施例提供一种基于人工智能的文本处理装置，包括：

第一向量确定模块，用于对目标文本进行语义表征处理，得到所述目标文本的文本语义向量；

提取模块，用于提取所述目标文本中的关键词，并确定所述关键词的向量表示；

第二向量确定模块，用于根据所述关键词的向量表示，确定所述目标文本的文本关键向量；

融合模块，用于将所述文本语义向量和所述文本关键向量进行融合处理，得到用于表示所述目标文本的文本向量。

本发明实施例提供一种电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本发明实施例提供的基于人工智能的文本处理方法。

本发明实施例提供一种存储介质，存储有可执行指令，用于引起处理器执行时，实现本发明实施例提供的基于人工智能的文本处理方法。

本发明实施例具有以下有益效果：

本发明实施例通过确定用于表示深层语义信息的文本语义向量，确定用于表示浅层关键词信息的文本关键向量，并融合文本语义向量和文本关键向量，得到表示目标文本的文本向量，提升了得到的文本向量的准确性和有效性，当设备在各种场景中使用文本向量进行对目标文本的相关处理时，能够实现处理准确性的显著提升。

附图说明

图1是本发明实施例提供的基于人工智能的文本处理系统的一个可选的架构示意图；

图2是本发明实施例提供的结合区块链的基于人工智能的文本处理系统的一个可选的架构示意图；

图3是本发明实施例提供的电子设备的一个可选的架构示意图；

图4是本发明实施例提供的基于人工智能的文本处理装置的一个可选的架构示意图；

图5A是本发明实施例提供的基于人工智能的文本处理方法的一个可选的流程示意图；

图5B是本发明实施例提供的基于人工智能的文本处理方法的一个可选的流程示意图；

图5C是本发明实施例提供的基于人工智能的文本处理方法的一个可选的流程示意图；

图6是本发明实施例提供的序列到序列模型的一个可选的架构示意图；

图7是本发明实施例提供的共现网络图的一个可选的示意图；

图8是本发明实施例提供的确定文本关键向量的一个可选的示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1)共现网络图：共现指共同出现，共现网络图即以共现的词为节点构成的图，共现网络图中的边表示对应的两个词之间的共现关系，例如两个词在某文章的一句话中共现。

2)上下文预测模型：即Skip-Gram模型，一种基于无监督学习的语言模型，用于对给定的输入词进行预测，得到位于输入词上下文的输出词。

3)独热(One-Hot)编码：使用N位状态寄存器来对N个状态进行编码，每个状态都对应独立的寄存器位，并且在任意时候，N位状态寄存器中只有一位有效，其中，N为大于0的整数，例如，存在男性和女性两种状态，则男性状态的独热编码可为[0，1]，女性状态的独热编码可为[1，0]。

4)嵌入(Embedding)处理：将文本映射为低维空间的向量，同时保留文本中的语义关系。

5)序列到序列(seq2seq)模型：用于将一个文本序列转换为另一个文本序列。seq2seq模型通常由编码器和解码器构成，编码器用于将文本编码为能够映射出文本大致内容的固定长度的向量，解码器用于根据固定长度的向量，逐步映射出另一个文本。

6)区块链(Blockchain)：由区块(Block)形成的加密的、链式的交易的存储结构。

7)区块链网络(Blockchain Network)：通过共识的方式将新区块纳入区块链的一系列的节点的集合。

本发明实施例提供一种基于人工智能的文本处理方法、装置、电子设备及存储介质，能够提升得到的文本向量的准确性和有效性，并提升根据文本向量进行对目标文本的相关处理的准确性。

下面说明本发明实施例提供的电子设备的示例性应用，本发明实施例提供的电子设备可以是服务器，例如部署在云端的服务器，根据用户提交的目标文本，向用户提供远程的向量转换功能，以及基于得到的文本向量的更多功能，例如相似文本推荐功能或者标题确定功能等；也可以是终端设备，例如相似文本检索设备，通过比对两个文本对应的文本向量，判断两个文本是否相似；甚至可以是手持终端等设备。电子设备通过运行本发明实施例提供的文本处理的方案，可以提升文本处理的准确性，即提高电子设备自身的性能，适用于文本处理的多种应用场景。

参见图1，图1是本发明实施例提供的基于人工智能的文本处理系统100的一个可选的架构示意图，为实现支撑一个基于人工智能的文本处理应用，终端设备400(示例性示出了终端设备400-1和终端设备400-2)通过网络300连接服务器200，服务器200连接数据库500，其中，网络300可以是广域网或者局域网，又或者是二者的组合。为了便于理解，以相似文本推荐的应用场景说明图1所示架构。

在一些实施例中，终端设备400在获取到用户输入或选定的目标文本后，可在本地执行本发明实施例提供的基于人工智能的文本处理方法，得到与目标文本的文本向量。同时，终端设备400在本地确定至少两个候选文本的文本向量，并将目标文本的文本向量与候选文本的文本向量进行比对处理，得到向量相似度。终端设备400将满足文本筛选条件的向量相似度对应的候选文本，确定为目标文本对应的相似文本，并执行对相似文本的推荐操作。值得说明的是，终端设备400可从本地获取候选文本，也可通过网络300向服务器200发送请求，从而从数据库500中获取候选文本。

在一些实施例中，服务器200也可以执行本发明实施例提供的基于人工智能的文本处理方法，具体从终端设备400中获取目标文本，从而确定目标文本的文本向量。同时，服务器200从数据库500中获取至少两个候选文本，并确定每个候选文本的文本向量。服务器200基于文本向量，从至少两个候选文本中筛选出目标文本的相似文本，并执行对相似文本的推荐操作，如将相似文本发送至终端设备400。

终端设备400可以在图形界面410(示例性示出了图形界面410-1和图形界面410-2)中显示文本处理过程中的各种结果，例如目标文本的文本向量及筛选出的相似文本等，在图1中仅以相似文本为例，示出了相似文本1及相似文本2。

本发明实施例也可结合区块链技术实现，区块链(Blockchain)是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。

区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中，用户管理模块负责所有区块链参与者的身份信息管理，包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等，并且在授权的情况下，监管和审计某些真实身份的交易情况，提供风险控制的规则配置(风控审计)；基础服务模块部署在所有区块链节点设备上，用来验证业务请求的有效性，并对有效请求完成共识后记录到存储上，对于一个新的业务请求，基础服务先对接口适配解析和鉴权处理(接口适配)，然后通过共识算法将业务信息加密(共识管理)，在加密之后完整一致的传输至共享账本上(网络通信)，并进行记录存储；智能合约模块负责合约的注册发行以及合约触发和合约执行，开发人员可以通过某种编程语言定义合约逻辑，发布到区块链上(合约注册)，根据合约条款的逻辑，调用密钥或者其它的事件触发执行，完成合约逻辑，同时还提供对合约升级注销的功能；运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出，例如：告警、监控网络情况、监控节点设备健康状态等。

参见图2，图2是本发明实施例提供的基于人工智能的文本处理系统110的一个可选的架构示意图，包括区块链网络600(示例性地示出了节点610-1至节点610-3)、认证中心700、业务系统800(示例性地示出了归属于业务系统800的电子设备810，电子设备810可以是图1中的服务器200或终端设备400)，下面分别进行说明。

区块链网络600的类型是灵活多样的，例如可以为公有链、私有链或联盟链中的任意一种。以公有链为例，任何业务系统的电子设备例如终端设备和服务器，都可以在不需要授权的情况下接入区块链网络600；以联盟链为例，业务系统在获得授权后其下辖的电子设备(例如终端设备/服务器)可以接入区块链网络600，此时，成为区块链网络600中的一类特殊的节点即客户端节点。

需要指出地，客户端节点可以只提供支持业务系统发起交易(例如，用于上链存储数据或查询链上数据)功能，对于区块链网络600的原生节点的功能，例如下文的排序功能、共识服务和账本功能等，客户端节点可以缺省或者有选择性(例如，取决于业务系统的具体业务需求)地实现。从而，可以将业务系统的数据和业务处理逻辑最大程度迁移到区块链网络600中，通过区块链网络600实现数据和业务处理过程的可信和可追溯。

区块链网络600接收来自业务系统(例如图2中示出的业务系统800)的客户端节点(例如，图2中示出的归属于业务系统800的电子设备810)提交的交易，执行交易以更新账本或者查询账本。

下面以业务系统接入区块链网络以实现文本标识及文本向量的上链为例，说明区块链网络的示例性应用。

业务系统800的电子设备810接入区块链网络600，成为区块链网络600的客户端节点。电子设备810在得到文本对应的文本向量后，生成提交文本的文本标识及文本向量的交易，在交易中指定了实现提交操作需要调用的智能合约以及向智能合约传递的参数，交易还携带了业务系统800签署的数字签名(例如，使用业务系统800的数字证书中的私钥，对交易的摘要进行加密得到)，并将交易广播到区块链网络600。其中，数字证书可由业务系统800向认证中心700进行登记注册得到。值得说明的是，这里的文本可以是目标文本，也可以是候选文本，文本标识用于表示文本，例如当文本是数据库中的论文时，文本标识可以是论文编号；当文本属于图书类型时，文本标识可以是该文本的国际标准书号(ISBN，International Standard Book Number)。

区块链网络600中的节点610在接收到交易时，对交易携带的数字签名进行验证，数字签名验证成功后，根据交易中携带的业务系统800的身份标识，确认业务系统800是否是具有交易权限，数字签名和权限验证中的任何一个验证判断都将导致交易失败。验证成功后签署节点610自己的数字签名，并继续在区块链网络600中广播。

区块链网络600中具有排序功能的节点610接收到验证成功的交易后，将交易填充到新的区块中，并广播到区块链网络中600提供共识服务的节点。

区块链网络600中的提供共识服务的节点610对新区块进行共识过程以达成一致，提供账本功能的节点将新区块追加到区块链的尾部，并执行新区块中的交易：对于提交文本标识及文本向量的交易，将文本标识及文本向量以键值对的形式存储至状态数据库，存储的同时，也建立了文本标识及文本向量之间的索引关系。

下面以业务系统接入区块链网络以实现文本向量的查询为例，说明区块链网络的示例性应用。

电子设备810在需要获取文本对应的文本向量时，生成查询文本向量的交易，同时在交易中指定了实现查询操作需要调用的智能合约以及向智能合约传递的参数，交易还携带了该文本的文本标识及业务系统800签署的数字签名。然后，电子设备810将交易广播到区块链网络600，区块链网络的节点610经验证、区块填充及共识一致后，提供账本功能的节点610将形成的新区块追加到区块链的尾部，并执行新区块中的交易：对于查询文本向量的交易，根据交易携带的文本标识，从状态数据库中查询与该文本标识对应的文本向量，并将其发送至电子设备810。值得说明的是，状态数据库中存储的数据通常与区块链存储的数据相同，在响应查询交易时，优先根据状态数据库中的数据进行响应，从而提升响应效率。

下面继续说明本发明实施例提供的电子设备的示例性应用。电子设备可以实施为笔记本电脑，平板电脑，台式计算机，机顶盒，移动设备(例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备)等各种类型的终端设备，也可以实施为服务器。

参见图3，图3是本发明实施例提供的电子设备900(例如，可以是图1所示的服务器200或终端设备400)的架构示意图，图3所示的电子设备900包括：至少一个处理器910、存储器950、至少一个网络接口920和用户接口930。电子设备900中的各个组件通过总线系统940耦合在一起。可理解，总线系统940用于实现这些组件之间的连接通信。总线系统940除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图3中将各种总线都标为总线系统940。

处理器910可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口930包括使得能够呈现媒体内容的一个或多个输出装置931，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口930还包括一个或多个输入装置932，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器950可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器950可选地包括在物理位置上远离处理器910的一个或多个存储设备。

存储器950包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Me mory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memor y)。本发明实施例描述的存储器950旨在包括任意适合类型的存储器。

在一些实施例中，存储器950能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统951，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块952，用于经由一个或多个(有线或无线)网络接口920到达其他计算设备，示例性的网络接口920包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

呈现模块953，用于经由一个或多个与用户接口930相关联的输出装置931(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块954，用于对一个或多个来自一个或多个输入装置932之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本发明实施例提供的基于人工智能的文本处理装置可以采用软件方式实现，图3示出了存储在存储器950中的基于人工智能的文本处理装置955，其可以是程序和插件等形式的软件，包括以下软件模块：第一向量确定模块9551、提取模块9552、第二向量确定模块9553及融合模块9554，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

在另一些实施例中，本发明实施例提供的基于人工智能的文本处理装置可以采用硬件方式实现，作为示例，本发明实施例提供的基于人工智能的文本处理装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的基于人工智能的文本处理方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable LogicDevice)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

上述的执行基于人工智能的文本处理方法的电子设备的可以是各种类型的设备，例如，本发明实施例提供的基于人工智能的文本处理方法可以由上述的服务器执行，也可以由终端设备(例如，可以是图1所示的终端设备400-1和终端设备400-2)执行，或者由服务器和终端设备共同执行。

下面将结合上文记载的电子设备的示例性应用和结构，说明电子设备中通过嵌入的基于人工智能的文本处理装置，而实现基于人工智能的文本处理方法的过程。

参见图4和图5A，图4是本发明实施例提供的基于人工智能的文本处理装置955的一个可选的架构示意图，示出了通过一系列模块确定文本向量的流程，图5A是本发明实施例提供的基于人工智能的文本处理方法的流程示意图，将结合图4对图5A示出的步骤进行说明。

在步骤101中，对目标文本进行语义表征处理，得到目标文本的文本语义向量。

作为示例，参见图4，在第一向量确定模块9551中，获取目标文本，这里的目标文本可以是用户实时输入的，也可以是根据用户的选取操作，在数据库或本地存储中获取的。另外，本发明实施例对文本的类型不做限定，例如文本可以是文章、评论或产品说明等。在获取到目标文本时，提取目标文本中深层的语义信息，具体对目标文本进行语义表征处理，得到目标文本的文本语义向量。

在一些实施例中，可以通过这样的方式来实现上述的对目标文本进行语义表征处理，得到目标文本的文本语义向量：对目标文本进行嵌入处理，得到词嵌入矩阵；通过双向长短时记忆网络模型，对词嵌入矩阵进行编码处理，得到目标文本的文本语义向量；

步骤101之后，还包括：将文本语义向量确定为单向长短时记忆网络模型的初始状态；通过单向长短时记忆网络模型，对初始状态进行解码处理，得到目标文本的文本标题。

在语义表征处理的过程中，首先对目标文本进行嵌入处理，得到向量形式的词嵌入矩阵，例如，通过神经网络模型中的嵌入层，对目标文本进行嵌入处理。然后，通过seq2seq模型中的编码器，对词嵌入矩阵进行编码处理，得到目标文本的文本语义向量。

对于得到的文本语义向量，本发明实施例还可将其用于确定标题的任务，具体地，将文本语义向量作为seq2seq模型中的解码器的初始状态，并通过解码器对该初始状态进行解码处理，从而生成目标文本的文本标题。在本发明实施例中，编码器可为双向长短时记忆网络(LSTM，Long Short-Term Memory)模型，解码器可为单向LSTM模型。通过seq2seq模型确定文本语义向量，能够更好地提取目标文本中的序列化语义信息，提升得到的文本语义向量的准确性，同时，还可通过seq2seq模型生成目标文本的文本标题，实现智能化的标题生成。

在步骤102中，提取目标文本中的关键词，并确定关键词的向量表示。

作为示例，参见图4，在提取模块9552中，获取到目标文本时，对目标文本进行分词处理，并将分词处理得到的词与候选关键词集合进行匹配，匹配成功的词即为目标文本中的关键词。其中，候选关键词集合可以预先设定，也可以根据其他方式得到。然后，确定得到的关键词的向量表示，便于后续处理。

在步骤103中，根据关键词的向量表示，确定目标文本的文本关键向量。

这里，可以对从目标文本中提取出的所有关键词的向量表示进行池化处理，得到目标文本的文本关键向量，文本关键向量表示目标文本中的浅层关键词信息。

在步骤104中，将文本语义向量和文本关键向量进行融合处理，得到用于表示目标文本的文本向量。

作为示例，参见图4，在融合模块9554中，将文本语义向量和文本关键向量进行融合处理，得到目标文本的文本向量，如此，该文本向量既表示了目标文本的语义信息，同时也表示了目标文本的关键词信息。值得说明的是，融合处理的方式可以是向量拼接，也可以是向量加和。

在一些实施例中，步骤104之后，还包括：将目标文本的文本标识及文本向量发送至区块链网络，以使区块链网络的节点将目标文本的文本标识及文本向量填充至新区块，并在对新区块共识一致后，将新区块追加至区块链的尾部；响应于包括文本标识的向量请求，将文本标识发送至区块链网络，以获取区块链存储的、且与文本标识对应的文本向量。

在确定出目标文本的文本向量后，可将目标文本的文本标识及文本向量，以交易形式发送至区块链网络，其中，该文本标识用于表示目标文本，例如文本标识可以是目标文本的文本编号，如ISBN编号。区块链网络的节点在接收到交易后，对交易进行验证、区块填充及共识，在共识一致后，将包括文本标识及文本向量的新区块追加至区块链的尾部，完成上链。

当获取到包括文本标识的向量请求时，可向区块链网络发起包括该文本标识的查询交易，以获取区块链存储的、且与该文本标识对应的文本向量。值得说明的是，在存在状态数据库时，区块链网络的节点可将文本标识及文本向量同时存储至状态数据库，并优先根据状态数据库中的数据响应查询交易，以加快反馈效率。另外，上述上链及查询的方式并不仅限于目标文本，同样适用于其他文本。由于区块链具有不可篡改的特性，故通过上述方式，有效保证了链上的文本向量的准确性。

在一些实施例中，步骤104之后，还包括：获取至少两个候选文本，并确定用于表示候选文本的文本向量；将目标文本的文本向量与候选文本的文本向量进行比对处理，得到向量相似度；将向量相似度满足文本筛选条件的候选文本，确定为目标文本对应的相似文本，并执行对相似文本的推荐操作。

本发明实施例可应用于相似文本推荐的场景，具体地，在确定与目标文本相似的文本时，首先获取至少两个候选文本，并按照步骤101～104的方式，确定每个候选文本的文本向量。将目标文本的文本向量与每个候选文本的文本向量进行比对处理，得到向量相似度，其中，向量相似度可以是余弦相似度，也可以是其他类型的相似度。值得说明的是，在文本存储于数据库的情况下，可以将数据库中除目标文本之外的所有文本，确定为候选文本，也可以将除目标文本之外、且与目标文本属于同一文本类型的所有文本，确定为候选文本，以减少待处理的数据量，提升后续推荐的准确性。例如，目标文本为新闻，则将数据库中除目标文本之外的所有新闻，确定为候选文本，又例如，目标文本为某领域的论文，则将数据库中除目标文本之外的、且属于该领域的所有论文，确定为候选文本。上述获取候选文本的方式也适用于文本位于本地存储或区块链中的情况。

确定出候选文本后，根据文本筛选条件对候选文本进行筛选，具体将满足文本筛选条件的向量相似度对应的候选文本，确定为目标文本对应的相似文本，文本筛选条件如数值最大的K个向量相似度，K为大于0的整数。对于确定出的相似文本，执行推荐操作，例如在前端界面呈现相似文本的标题及跳转链接，或者直接呈现相似文本，对推荐操作的具体方式不做限定。通过上述方式，实现了相似文本的智能推荐，提升了推荐的准确性。

在一些实施例中，步骤104之后，还包括：获取至少两个候选文本标题，并确定用于表示候选文本标题的文本向量；将目标文本的文本向量与候选文本标题的文本向量进行比对处理，得到向量相似度；将向量相似度满足标题筛选条件的候选文本标题，确定为目标文本的文本标题。

本发明实施例还可应用于确定标题的场景，除了上文的生成标题的方式外，还可将已有的候选文本标题作为目标文本的文本标题。具体地，获取至少两个候选文本标题，并根据步骤101～104，确定用于表示候选文本标题的文本向量，其中，可以将预先设定的候选标题集中的标题确定为候选文本标题，也可以将目标文本的相似文本的标题，确定为候选文本标题。

将目标文本的文本向量与每个候选文本标题的文本向量进行比对处理，得到向量相似度，同样地，这里的向量相似度可以是余弦相似度。然后，将满足标题筛选条件的向量相似度对应的候选文本标题，确定为目标文本的文本标题，标题筛选条件如数值最大的M个向量相似度，M为大于0的整数。通过上述方式，提升了确定标题的准确性和灵活性。

通过发明实施例对于图5A的上述示例性实施可知，本发明实施例通过确定目标文本的文本语义向量和文本关键向量，并融合两个向量得到表示目标文本的文本向量，提升了得到的文本向量的准确性和有效性，也提升了根据文本向量对目标文本进行相关处理的准确性。

在一些实施例中，参见图5B，图5B是本发明实施例提供的基于人工智能的文本处理方法的一个可选的流程示意图，图5A示出的步骤102可以通过步骤201至步骤204实现，将结合各步骤进行说明。

在步骤201中，提取目标文本中的关键词，并根据从目标文本中提取出的关键词，构建共现网络图。

作为示例，参见图4，在提取模块9552中，根据目标文本中的关键词，构建共现网络图，该共现网络图中的节点即为关键词，共现网络图中的边表示对应的两个关键词之间的共现关系。

在一些实施例中，可以通过这样的方式来实现上述的根据从目标文本中提取出的关键词，构建共现网络图：将从目标文本中提取出的关键词确定为节点；对从目标文本中提取出的关键词进行第一次遍历处理，得到第一关键词，并对第一关键词之外的关键词进行第二次遍历处理，得到第二关键词；当第一关键词在目标文本的共现窗口包括第二关键词时，建立第一关键词对应节点与第二关键词对应节点之间的边，并根据第一关键词与第二关键词的共现次数，确定建立的边的权重；其中，共现窗口包括至少两个关键词。

在构建共现网络图时，首先将从目标文本中提取出的关键词，确定为共现网络图的节点，此时，建立的共现网络图仅包括一些离散的节点。然后，对从目标文本中提取出的关键词进行第一次遍历处理，得到第一关键词，并对第一关键词之外的关键词进行第二次遍历处理，得到第二关键词。对于得到的包括第一关键词和第二关键词的词组，确定第一关键词与第二关键词之间是否存在共现关系。当第一关键词在目标文本的共现窗口包括第二关键词时，确定第一关键词与第二关键词之间存在共现关系，在共现网络图中建立第一关键词对应节点与第二关键词对应节点之间的边，并根据第一关键词与第二关键词的共现次数，确定建立的边的权重，例如，直接将共现次数作为边的权重。其中，共现窗口包括至少两个关键词。值得说明的是，包括第一关键词和第二关键词的词组不区分关键词的顺序，在已对包括关键词A和关键词B的词组进行处理，如建立了相应的边之后，若遍历得到包括关键词B和关键词A的词组，则可跳过该词组，继续进行遍历。

举例来说，共现窗口可以是目标文本中的一句话，当第一关键词与第二关键词出现在目标文本中的同一句话时，即可确定第一关键词在目标文本的共现窗口包括第二关键词。在此基础上，第一关键词与第二关键词出现在目标文本中的同一句话的次数，即为第一关键词与第二关键词的共现次数。通过上述方式构建共现网络图，使得共现网络图的边能够体现对应的两个关键词之间的正向相关性，同时，边的权重能够进一步体现正向相关性的强弱。

在步骤202中，将共现网络图中的任意一个关键词作为起点关键词，并根据起点关键词在共现网络图中进行游走处理，直至游走得到的关键词序列满足游走停止条件。

作为示例，参见图4，在提取模块9552中，将共现网络图中的任意一个关键词作为起点关键词，并根据起点关键词在共现网络图中进行游走处理，并将游走过的关键词添加至关键词序列，直到关键词序列满足游走停止条件。其中，游走停止条件如关键词序列包括设定个数的关键词，或关键词序列包括共现网络图中所有的关键词。根据实际应用场景的不同，可通过游走处理，得到一个或至少两个关键词序列。

在一些实施例中，可以通过这样的方式来实现上述的根据起点关键词在共现网络图中进行游走处理：当起点关键词在共现网络图中仅存在一个邻接的关键词时，将邻接的关键词确定为新的起点关键词，并将新的起点关键词添加至关键词序列；当起点关键词在共现网络图中存在至少两个邻接的关键词时，根据起点关键词与邻接的关键词之间的边的权重，确定游走概率，并根据游走概率从至少两个邻接的关键词中，确定新的起点关键词，将新的起点关键词添加至关键词序列。

在本发明实施例中，可应用随机游走的方式进行游走处理，根据连接起点关键词的边的数量，可分为两种情况。第一种情况是，起点关键词在共现网络图中仅存在一个邻接的关键词(即仅有一条边与起点关键词连接)，此时，将邻接的关键词确定为新的起点关键词，并将新的起点关键词添加至关键词序列。

第二种情况是，起点关键词在共现网络图中存在至少两个邻接的关键词，此时，根据起点关键词与邻接的关键词之间的边的权重，确定下一步游走至该边的游走概率，权重越大，则游走概率越高，举例来说，起点关键词仅与关键词A和关键词B存在连接，起点关键词与关键词A之间的边的权重为4，起点关键词与关键词B之间的边的权重为3，则将关键词A确定为新的起点关键词的游走概率为4/7，将关键词B确定为新的起点关键词的游走概率为3/7。在确定出新的起点关键词时，同样将新的起点关键词添加至关键词序列。通过上述方式，根据起点关键词的边连接情况，执行不同的游走处理方式，提升了游走处理的适应性。

在步骤203中，根据关键词序列更新上下文预测模型的权重参数。

作为示例，参见图4，在提取模块9552中，根据关键词序列更新上下文预测模型，即Skip-Gram模型的权重参数。

在一些实施例中，可以通过这样的方式来实现上述的根据关键词序列更新上下文预测模型的权重参数：遍历关键词序列中的关键词，并将遍历到的关键词确定为样本输入词；确定样本输入词在关键词序列中对应的上下文窗口，并将上下文窗口中除样本输入词外的关键词，确定为样本输出词；通过上下文预测模型，对样本输入词进行预测处理，得到预测输出词；根据样本输出词与预测输出词之间的差异，在上下文预测模型中进行反向传播，并在反向传播的过程中，更新上下文预测模型的权重参数。

更新上下文预测模型的权重参数即为训练上下文预测模型的过程，在训练过程中，首先构建模型的训练样本。具体地，遍历关键词序列中的关键词，并将遍历到的关键词确定为样本输入词，对于每一个样本输入词，根据窗口大小确定样本输入词在关键词序列中对应的上下文窗口，其中，上下文窗口包括样本输入词本身，窗口大小指关键词序列中样本输入词之前或之后的关键词的数量，可根据实际应用场景进行设定。举例来说，关键词序列为“关键词1，关键词3，关键词2，关键词4，关键词5”，窗口大小为2，则当样本输入词为关键词3时，对应的上下文窗口为“关键词1，关键词3，关键词2，关键词4”；当样本输入词为关键词2时，对应的上下文窗口为“关键词1，关键词3，关键词2，关键词4，关键词5”。

确定出上下文窗口后，将上下文窗口中除样本输入词外的关键词，确定为样本输出词，并根据样本输入词及每一个样本输出词，构建训练样本。以上述例子中样本输入词为关键词3的情况再举例，则构建的训练样本包括“关键词3，关键词1”、“关键词3，关键词2”及“关键词3，关键词4”。将训练样本中的样本输入词输入至上下文预测模型，以使上下文预测模型进行预测处理，得到预测输出词。然后，根据上下文预测模型的损失函数，确定预测输出词与训练样本中的样本输出词之间的差异，根据该差异在上下文预测模型中进行反向传播，并在反向传播的过程中，沿梯度下降方向更新上下文预测模型的权重参数。通过上述的上下文窗口截取的方式，有效地构建出了训练样本，提升了对模型的训练效果。

在步骤204中，根据更新后的上下文预测模型的隐藏层的权重参数，确定关键词的向量表示。

作为示例，参见图4，在提取模块9552中，对上下文预测模型更新完成后，根据其中的隐藏层的权重参数，确定目标文本中每个关键词的向量表示。

在一些实施例中，步骤203之前，还包括：确定关键词序列中各关键词的独热编码；

可以通过这样的方式来实现上述的根据更新后的上下文预测模型的隐藏层的权重参数，确定关键词的向量表示：在关键词的独热编码中，确定设定数值所在的维度；确定更新后的上下文预测模型的隐藏层的权重矩阵；将权重矩阵中与维度对应的权重参数，确定为关键词的向量表示。

为了便于处理，可对关键词序列中的各关键词进行独热编码处理，得到各关键词的独热编码，并在后续根据各关键词的独热编码，训练上下文预测模型。如此，在完成对上下文预测模型的更新后，对于每个关键词，可根据关键词的独热编码和上下文预测模型中位于隐藏层的权重矩阵，确定关键词的向量表示。本发明实施例提供了确定关键词的向量表示的两种方式，在第一种方式中，将关键词的独热编码与权重矩阵进行点积运算，将得到的结果确定为该关键词的向量表示。

在第二种方式中，确定关键词的独热编码中设定数值所在的维度，设定数值通常为1，设定数值所在的维度即有效的寄存器位所在的维度，例如关键词的独热编码为[0，0，0，1]，则设定数值所在的维度为第3个维度(以第0个维度起算)。然后，将权重矩阵中与维度对应的行的权重参数，确定为关键词的向量表示，例如维度为第3个维度，则将权重矩阵中第3行(以第0行起算)的权重参数，确定为关键词的向量表示。通过上述方式，提升了确定向量表示的灵活性，特别地，第二种方式以维度为索引，从权重矩阵中查找关键词对应的向量表示，能够减少计算量，提升确定向量表示的效率。

通过发明实施例对于图5B的上述示例性实施可知，本发明实施例通过构建关键词序列及训练上下文预测模型，提升了得到的向量表示的准确性。

在一些实施例中，参见图5C，图5C是本发明实施例提供的基于人工智能的文本处理方法的一个可选的流程示意图，图5A示出的步骤102可以通过步骤301至步骤303实现，将结合各步骤进行说明。

在步骤301中，对候选文本进行关键词抽取处理，得到候选关键词。

这里，将数据库中的所有文本均确定为候选文本，或者将数据库中与目标文本属于同一类型的所有文本均确定为候选文本。对于每一个候选文本，进行关键词抽取处理，得到候选关键词。

在一些实施例中，可以通过这样的方式来实现上述的对候选文本进行关键词抽取处理，得到候选关键词：对候选文本进行分词处理，并对得到的词进行词性标注处理；将候选文本中符合词性条件的词，确定为初始候选关键词；确定各初始候选关键词的排名值；将符合排名条件的排名值对应的初始候选关键词，确定为候选关键词。

在进行关键词抽取处理时，首先对候选文本进行分词处理，并对得到的词进行词性标注处理，本发明实施例对词性标注处理的方式不做限定。然后，根据词性条件对抽取的词进行筛选，将筛选后的词确定为初始候选关键词，举例来说，去除抽取的词中的标点符号、连词、助词、副词、介词、停用词、时间语素、‘的’、数词、方位词及代词，将去除后仍保留的词，确定为初始候选关键词。

对初始候选关键词进行进一步筛选，具体确定各初始候选关键词的排名(R ank)值，并将符合排名条件的排名值对应的初始候选关键词，确定为候选关键词，其中，排名值表示对应的初始候选关键词的关键程度，排名条件如数值最大的L个排名值，L为大于0的整数。通过上述方式，筛选掉无意义及不重要的词，并通过排名值进行进一步筛选，提升了得到的候选关键词的有效性。

在一些实施例中，可以通过这样的方式来实现上述的确定各初始候选关键词的排名值：对初始候选关键词进行排序处理，得到初始候选序列；对初始候选序列中各初始候选关键词的排名值进行初始化处理；重复遍历初始候选序列，确定遍历到的初始候选关键词在初始候选序列中对应的投票窗口，并将遍历到的初始候选关键词的排名值，分配至投票窗口中的、除遍历到的初始候选关键词外的初始候选关键词，直至满足迭代停止条件；其中，投票窗口包括至少两个初始候选关键词。

在本发明实施例中，根据初始候选关键词在候选文本中的位置，将至少两个初始候选关键词进行排序处理，得到初始候选序列，其中，可按照位置从前到后的顺序进行排序。对初始候选序列中的各初始候选关键词的排名值进行初始化处理，如将排名值均初始化为1。然后，重复遍历初始候选序列，在每一次遍历中，根据窗口大小确定遍历到的初始候选关键词在初始候选序列中对应的投票窗口，并将遍历到的初始候选关键词的排名值，分配至投票窗口中的其他初始候选关键词，直至满足迭代停止条件。其中，窗口大小至少为1，即投票窗口包括至少两个初始候选关键词。

举例来说，初始候选序列为“关键词1，关键词2，关键词3，关键词4，关键词5”，窗口大小为2，则当遍历到关键词1时，对应的投票窗口为“关键词1，关键词2，关键词3”，则将关键词1的排名值平均分配至关键词2和关键词3；当遍历到关键词2时，对应的投票窗口为“关键词1，关键词2，关键词3，关键词4”，则将关键词2的排名值平均分配至关键词1、关键词3和关键词4。

根据不同的实际应用场景，可设定对应的迭代停止条件，例如可设定为遍历初始候选序列的次数达到设定次数，还可设定为两次遍历得到的两个排名值之间的差异小于设定的差异阈值等。通过上述的迭代方式，提升了确定出的排名值的准确性。

在步骤302中，将候选文本对应的候选关键词，添加至候选关键词集合。

这里，可将所有候选文本对应的候选关键词，添加至候选关键词集合。在此基础上，还可对候选关键词集合进行去重处理，即当候选关键词集合中存在至少两个相同的候选关键词时，仅保留其中一个候选关键词，从而提升候选关键词集合的精简性，也减少后续匹配的工作量。

在步骤303中，将目标文本中与候选关键词集合匹配的词，确定为提取出的关键词，并确定关键词的向量表示。

作为示例，参见图4，在提取模块9552中，对目标文本进行分词处理，并将得到的词与候选关键词集合进行匹配，当目标文本中的词与候选关键词集合中的候选关键词相同时，将该词作为从目标文本中提取出的关键词。完成对目标文本的关键词的提取后，确定提取出的关键词的向量表示。

在图5C中，图5A示出的步骤103可以更新为步骤304，在步骤304中，对从目标文本中提取出的关键词的向量表示进行平均池化处理，得到目标文本的文本关键向量。

作为示例，参见图4，在第二向量确定模块9553中，对从目标文本中提取出的所有关键词的向量表示进行平均池化(average pooling)处理，得到表示目标文本的关键词信息的文本关键向量。

通过发明实施例对于图5C的上述示例性实施可知，本发明实施例借助候选文本的候选关键词，实现对目标文本的关键词提取，提升了得到的关键词的可靠性。

下面，将说明本发明实施例在一个实际的应用场景中的示例性应用。

本发明实施例提供了如图6所示的seq2seq模型的架构示意图，在图6中，根据包括文本及文本标题的数据集建立seq2seq模型，使得seq2seq模型能够有效地表示文本与文本标题之间的对应关系，其中，seq2seq模型基于LSTM模型搭建，且seq2seq模型的编码器为双向LSTM模型，解码器为单向LSTM模型。在本发明实施例中，对目标文本进行嵌入处理，得到词嵌入矩阵，并根据双向LSTM模型对词嵌入矩阵进行编码处理，得到目标文本的文本语义向量，该文本语义向量用于表示目标文本的深层语义信息。除此之外，还可将文本语义向量作为单向LSTM模型的初始状态，并通过单向LSTM模型对初始状态进行解码处理，得到目标文本的文本标题，实现文本标题的智能生成。

在另一层面，本发明实施例还提取目标文本的浅层关键词信息，得到文本关键向量。具体地，获取数据库中的所有候选文本，对每个候选文本进行分词处理，并对分词处理得到的词进行词性标注处理，其中，词性标注处理可通过StanfordCoreNLP工具实现。将候选文本中符合词性条件的词，确定为初始候选关键词，词性条件如除标点符号、连词、助词、副词、介词、停用词、时间语素、‘的’、数词、方位词及代词之外的词性。对于得到的初始候选关键词，通过TextRank算法，将其中排名(Rank)值最高的L个初始候选关键词，确定为候选关键词，并将所有候选文本对应的候选关键词，添加至候选关键词集合，其中，L为大于0的整数。

在已建立候选关键词集合的情况下，对目标文本进行分词处理，将得到的词与候选关键词集合进行匹配，得到目标文本中的关键词。然后，根据目标文本中的关键词，构建共现网络图，其中，当任意两个关键词出现在目标文本中的同一句话时，在共现网络图中建立这两个关键词对应节点之间的边，并对该边的权重执行加一操作(边的权重的初始值为0)。本发明实施例提供了如图7所示的共现网络图的一个可选的示意图，在图7中，每一条边代表了对应的两个关键词之间的正向相关性，其中，图7所示的i为大于4的整数。

将共现网络图中的任意一个关键词作为起点关键词，并根据起点关键词在共现网络图中进行游走处理，得到关键词序列，例如，根据图7所示的共现网络图得到的关键词序列可为关键词1-关键词3-关键词i-关键词4-关键词1-关键词2。根据关键词序列，更新Skip-Gram模型的权重参数，例如将关键词3确定为样本输入词，确定对应的上下文窗口为“关键词1，关键词3，关键词i”，则可将关键词1和关键词i分别作为样本输出词，构建“关键词3(样本输入词)，关键词1(样本输出词)”和“关键词3(样本输入词)，关键词i(样本输出词)”的训练样本，从而训练Skip-Gram模型。

完成对Skip-Gram模型的训练后，根据Skip-Gram模型的隐藏层的权重矩阵，确定目标文本中各关键词的向量表示，并进一步确定目标文本的文本关键向量。本发明实施例提供了如图8所示的确定文本关键向量的示意图，在图8中，对目标文本中所有关键词的向量表示进行平均池化处理，得到目标文本的文本关键向量，该文本关键向量即表示目标文本的浅层关键词信息，其中，图8中的长方形空白方框表示向量。

在得到文本语义向量和文本关键向量后，可以采取拼接或者加和的方式，将两者融合为表示目标文本的文本向量，该文本向量可用于进行对目标文本的相关处理。举例来说，文本向量可应用于相似文本推荐场景，在包括20万个候选文本的数据集中，确定每个候选文本的文本向量，将目标文本的文本向量与每个候选文本的文本向量进行比对处理，得到第一向量相似度，然后将其中数值最大的100个第一向量相似度对应的候选文本，确定为目标文本对应的相似文本，并执行对相似文本的推荐操作。

文本向量还可应用于确定标题的场景，例如在上文确定出100个相似文本后，获取每个相似文本的标题，为了便于区分，将相似文本的标题命名为候选文本标题。同样地，确定表示候选文本标题的文本向量，将目标文本的文本向量与每个候选文本标题的文本向量进行比对处理，得到第二向量相似度。将数值最大的M个第二向量相似度对应的候选文本标题，确定为目标文本的文本标题，其中，M为大于0的整数。

下面继续说明本发明实施例提供的基于人工智能的文本处理装置955实施为软件模块的示例性结构，在一些实施例中，如图3所示，存储在存储器950的基于人工智能的文本处理装置955中的软件模块可以包括：第一向量确定模块9551，用于对目标文本进行语义表征处理，得到目标文本的文本语义向量；提取模块9552，用于提取目标文本中的关键词，并确定关键词的向量表示；第二向量确定模块9553，用于根据关键词的向量表示，确定目标文本的文本关键向量；融合模块9554，用于将文本语义向量和文本关键向量进行融合处理，得到用于表示目标文本的文本向量。

在一些实施例中，提取模块9552，还用于：根据从目标文本中提取出的关键词，构建共现网络图；将共现网络图中的任意一个关键词作为起点关键词，并根据起点关键词在共现网络图中进行游走处理，直至游走得到的关键词序列满足游走停止条件；根据关键词序列更新上下文预测模型的权重参数；根据更新后的上下文预测模型的隐藏层的权重参数，确定关键词的向量表示。

在一些实施例中，提取模块9552，还用于：将从目标文本中提取出的关键词确定为节点；对从目标文本中提取出的关键词进行第一次遍历处理，得到第一关键词，并对第一关键词之外的关键词进行第二次遍历处理，得到第二关键词；当第一关键词在目标文本的共现窗口包括第二关键词时，建立第一关键词对应节点与第二关键词对应节点之间的边，并根据第一关键词与第二关键词的共现次数，确定建立的边的权重；其中，共现窗口包括至少两个关键词。

在一些实施例中，提取模块9552，还用于：当起点关键词在共现网络图中仅存在一个邻接的关键词时，将邻接的关键词确定为新的起点关键词，并将新的起点关键词添加至关键词序列；当起点关键词在共现网络图中存在至少两个邻接的关键词时，根据起点关键词与邻接的关键词之间的边的权重，确定游走概率，并根据游走概率从至少两个邻接的关键词中，确定新的起点关键词，将新的起点关键词添加至关键词序列。

在一些实施例中，提取模块9552，还用于：遍历关键词序列中的关键词，并将遍历到的关键词确定为样本输入词；确定样本输入词在关键词序列中对应的上下文窗口，并将上下文窗口中除样本输入词外的关键词，确定为样本输出词；通过上下文预测模型，对样本输入词进行预测处理，得到预测输出词；根据样本输出词与预测输出词之间的差异，在上下文预测模型中进行反向传播，并在反向传播的过程中，更新上下文预测模型的权重参数。

在一些实施例中，提取模块9552，还用于：确定关键词序列中各关键词的独热编码；

提取模块9552，还用于：在关键词的独热编码中，确定设定数值所在的维度；确定更新后的上下文预测模型的隐藏层的权重矩阵；将权重矩阵中与维度对应的权重参数，确定为关键词的向量表示。

在一些实施例中，提取模块9552，还用于：对候选文本进行关键词抽取处理，得到候选关键词；将候选文本对应的候选关键词，添加至候选关键词集合；将目标文本中与候选关键词集合匹配的词，确定为提取出的关键词；

第二向量确定模块9553，还用于：对从目标文本中提取出的关键词的向量表示进行平均池化处理，得到目标文本的文本关键向量。

在一些实施例中，提取模块9552，还用于：对候选文本进行分词处理，并对分词处理得到的词进行词性标注处理；将候选文本中符合词性条件的词，确定为初始候选关键词；确定各初始候选关键词的排名值；将排名值符合排名条件的初始候选关键词，确定为候选关键词。

在一些实施例中，提取模块9552，还用于：对初始候选关键词进行排序处理，得到初始候选序列；对初始候选序列各初始候选关键词的排名值进行初始化处理；重复遍历初始候选序列，确定遍历到的初始候选关键词在初始候选序列中对应的投票窗口，并将遍历到的初始候选关键词的排名值，分配至投票窗口中的、除遍历到的初始候选关键词外的初始候选关键词，直至满足迭代停止条件；其中，投票窗口包括至少两个初始候选关键词。

在一些实施例中，基于人工智能的文本处理装置955还包括：标题获取模块，用于获取至少两个候选文本标题，并确定用于表示候选文本标题的文本向量；第一比对模块，用于将目标文本的文本向量与候选文本标题的文本向量进行比对处理，得到向量相似度；标题确定模块，用于将向量相似度满足标题筛选条件的候选文本标题，确定为目标文本的文本标题。

在一些实施例中，第一向量确定模块9551，还用于：对目标文本进行嵌入处理，得到词嵌入矩阵；通过双向长短时记忆网络模型，对词嵌入矩阵进行编码处理，得到目标文本的文本语义向量；

基于人工智能的文本处理装置955还包括：状态确定模块，用于将文本语义向量确定为单向长短时记忆网络模型的初始状态；解码模块，用于通过单向长短时记忆网络模型，对初始状态进行解码处理，得到目标文本的文本标题。

在一些实施例中，基于人工智能的文本处理装置955还包括：文本获取模块，用于获取至少两个候选文本，并确定用于表示候选文本的文本向量；第二比对模块，用于将目标文本的文本向量与候选文本的文本向量进行比对处理，得到向量相似度；推荐模块，用于将向量相似度满足文本筛选条件的候选文本，确定为目标文本对应的相似文本，并执行对相似文本的推荐操作。

在一些实施例中，基于人工智能的文本处理装置955还包括：上链模块，用于将目标文本的文本标识及文本向量发送至区块链网络，以使区块链网络的节点将目标文本的文本标识及文本向量填充至新区块，并在对新区块共识一致后，将新区块追加至区块链的尾部；响应模块，用于响应于包括文本标识的向量请求，将文本标识发送至区块链网络，以获取区块链存储的、且与文本标识对应的文本向量。

本发明实施例提供一种存储有可执行指令的存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本发明实施例提供的基于人工智能的文本处理方法，例如，如图5A、5B或5C示出的基于人工智能的文本处理方法。

在一些实施例中，存储介质可以是FRAM、ROM、PROM、EPROM、EE PROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(H TML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

综上，通过本发明实施例能够实现以下技术效果：

1)本发明实施例采用无监督学习的方式得到文本向量，无需针对特定的样本进行训练，对文本的长度及文本类型等信息不敏感，对于各种文本，均能得到较为准确的文本向量，提升了对不同应用场景的适用性。

2)本发明实施例得到的文本向量既表示了文本的深层语义信息，同时也表示了文本的浅层关键词信息，提升了特征表达的丰富性。

3)相较于其他深度的神经网络模型，本发明实施例能够提升确定文本向量的效率，即能够更快地将文本映射为文本向量。

4)通过将文本标识及文本向量上链，能够保证文本向量的准确性，防止文本向量被恶意篡改。

以上，仅为本发明的实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本发明的保护范围之内。

Claims

1.一种基于人工智能的文本处理方法，其特征在于，包括：

2.根据权利要求1所述的文本处理方法，其特征在于，所述确定所述关键词的向量表示，包括：

根据从所述目标文本中提取出的关键词，构建共现网络图；

将所述共现网络图中的任意一个关键词作为起点关键词，并根据所述起点关键词在所述共现网络图中进行游走处理，直至游走得到的关键词序列满足游走停止条件；

根据所述关键词序列更新上下文预测模型的权重参数；

根据更新后的所述上下文预测模型的隐藏层的权重参数，确定所述关键词的向量表示。

3.根据权利要求2所述的文本处理方法，其特征在于，所述根据从所述目标文本中提取出的关键词，构建共现网络图，包括：

将从所述目标文本中提取出的关键词确定为节点；

对从所述目标文本中提取出的关键词进行第一次遍历处理，得到第一关键词，并

对所述第一关键词之外的关键词进行第二次遍历处理，得到第二关键词；

当所述第一关键词在所述目标文本的共现窗口包括所述第二关键词时，建立所述第一关键词对应节点与所述第二关键词对应节点之间的边；

根据所述第一关键词与所述第二关键词的共现次数，确定建立的所述边的权重；

其中，所述共现窗口包括至少两个关键词。

4.根据权利要求2所述的文本处理方法，其特征在于，所述根据所述起点关键词在所述共现网络图中进行游走处理，包括：

当所述起点关键词在所述共现网络图中仅存在一个邻接的关键词时，将邻接的关键词确定为新的起点关键词，并

将所述新的起点关键词添加至关键词序列；

当所述起点关键词在所述共现网络图中存在至少两个邻接的关键词时，根据所述起点关键词与邻接的关键词之间的边的权重，确定游走概率，并

根据所述游走概率从至少两个所述邻接的关键词中，确定新的起点关键词，将所述新的起点关键词添加至所述关键词序列。

5.根据权利要求2所述的文本处理方法，其特征在于，所述根据所述关键词序列更新上下文预测模型的权重参数，包括：

遍历所述关键词序列中的所述关键词，并将遍历到的所述关键词确定为样本输入词；

确定所述样本输入词在所述关键词序列中对应的上下文窗口，并将所述上下文窗口中除所述样本输入词外的关键词，确定为样本输出词；

通过所述上下文预测模型，对所述样本输入词进行预测处理，得到预测输出词；

根据所述样本输出词与所述预测输出词之间的差异，在所述上下文预测模型中进行反向传播，并在反向传播的过程中，更新所述上下文预测模型的权重参数。

6.根据权利要求2所述的文本处理方法，其特征在于，

所述根据所述关键词序列更新上下文预测模型的权重参数之前，还包括：

确定所述关键词序列中各所述关键词的独热编码；

所述根据更新后的所述上下文预测模型的隐藏层的权重参数，确定所述关键词的向量表示，包括：

在所述关键词的所述独热编码中，确定设定数值所在的维度；

确定更新后的所述上下文预测模型的隐藏层的权重矩阵；

将所述权重矩阵中与所述维度对应的权重参数，确定为所述关键词的向量表示。

7.根据权利要求1所述的文本处理方法，其特征在于，

所述提取所述目标文本中的关键词，包括：

对候选文本进行关键词抽取处理，得到所述候选文本对应的候选关键词；

将所述候选文本对应的候选关键词，添加至候选关键词集合；

将所述目标文本中与所述候选关键词集合匹配的词，确定为提取出的关键词；

所述根据所述关键词的向量表示，确定所述目标文本的文本关键向量，包括：

对所述提取出的关键词的向量表示进行平均池化处理，得到所述目标文本的文本关键向量。

8.根据权利要求7所述的文本处理方法，其特征在于，所述对候选文本进行关键词抽取处理，得到候选关键词，包括：

对候选文本进行分词处理，并对分词处理得到的词进行词性标注处理；

将所述候选文本中符合词性条件的词，确定为初始候选关键词；

确定各所述初始候选关键词的排名值；

将排名值符合排名条件的初始候选关键词，确定为候选关键词。

9.根据权利要求8所述的文本处理方法，其特征在于，所述确定各所述初始候选关键词的排名值，包括：

对所述初始候选关键词进行排序处理，得到初始候选序列；

对所述初始候选序列中各所述初始候选关键词的排名值进行初始化处理；

重复遍历所述初始候选序列，确定遍历到的所述初始候选关键词在所述初始候选序列中对应的投票窗口，并

将遍历到的所述初始候选关键词的排名值，分配至所述投票窗口中的、除遍历到的所述初始候选关键词外的初始候选关键词，直至满足迭代停止条件；

其中，所述投票窗口包括至少两个所述初始候选关键词。

10.根据权利要求1至9任一项所述的文本处理方法，其特征在于，还包括：

获取至少两个候选文本标题，并确定用于表示所述候选文本标题的文本向量；

将所述目标文本的文本向量与所述候选文本标题的文本向量进行比对处理，得到向量相似度；

将向量相似度满足标题筛选条件的候选文本标题，确定为所述目标文本的文本标题。

11.根据权利要求1至9任一项所述的文本处理方法，其特征在于，

所述对目标文本进行语义表征处理，得到所述目标文本的文本语义向量，包括：

对所述目标文本进行嵌入处理，得到词嵌入矩阵；

通过双向长短时记忆网络模型，对所述词嵌入矩阵进行编码处理，得到所述目标文本的文本语义向量；

所述文本处理方法还包括：

将所述文本语义向量确定为单向长短时记忆网络模型的初始状态；

通过所述单向长短时记忆网络模型，对所述初始状态进行解码处理，得到所述目标文本的文本标题。

12.根据权利要求1至9任一项所述的文本处理方法，其特征在于，还包括：

获取至少两个候选文本，并确定用于表示所述候选文本的文本向量；

将所述目标文本的文本向量与所述候选文本的文本向量进行比对处理，得到向量相似度；

将向量相似度满足文本筛选条件的候选文本，确定为所述目标文本对应的相似文本，并执行对所述相似文本的推荐操作。

13.根据权利要求1至9任一项所述的文本处理方法，其特征在于，还包括：

将所述目标文本的文本标识及文本向量发送至区块链网络，以使

所述区块链网络的节点将所述目标文本的文本标识及文本向量填充至新区块，并在对所述新区块共识一致后，将所述新区块追加至区块链的尾部；

响应于包括所述文本标识的向量请求，将所述文本标识发送至所述区块链网络，以获取所述区块链存储的、且与所述文本标识对应的文本向量。

14.一种基于人工智能的文本处理装置，其特征在于，包括：

15.一种电子设备，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至13任一项所述的基于人工智能的文本处理方法。