CN111198949A - 一种文本标签确定方法和系统 - Google Patents
一种文本标签确定方法和系统 Download PDFInfo
- Publication number
- CN111198949A CN111198949A CN202010276658.0A CN202010276658A CN111198949A CN 111198949 A CN111198949 A CN 111198949A CN 202010276658 A CN202010276658 A CN 202010276658A CN 111198949 A CN111198949 A CN 111198949A
- Authority
- CN
- China
- Prior art keywords
- text
- vector
- label
- analyzed
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本说明书实施例提供一种文本标签确定方法和系统。该方法包括:获取待分析文本;将所述待分析文本向量化后得到文本向量,并存入记忆组件;将候选标签向量化以确定查询向量;基于所述查询向量和所述记忆组件中的文本向量确定关系向量;基于所述关系向量通过分类模型判断所述候选标签是否为所述待分析文本的标签。
Description
技术领域
本说明书涉及自然语言处理技术领域,特别涉及一种文本标签确定方法和系统。
背景技术
文本标签的抽取可以帮助从海量文本数据中快速获取真正需要的关键性信息,以及给知识资源打标签,建立知识多维度分类体系,从而支撑于各种智能化的应用,如:自动问答、智能搜索、个性化推荐等。一般地,海量文本数据中蕴含着大量知识的同时也存在着一定的冗余信息,导致文本标签抽取时可能会受到冗余信息的噪声干扰。
因此,期望提供一种可以降低噪声干扰的文本标签确定方法。
发明内容
本说明书的一个方面提供一种基于记忆网络的文本标签确定方法,所述方法包括:获取待分析文本;将候选标签和所述待分析文本输入标签判定模型,所述标签判定模型包含通过训练得到的记忆网络,所述记忆网络包含一层或多层记忆组件。所述标签判定模型进行的处理包括:将所述待分析文本向量化后得到文本向量,并存入所述记忆组件;将所述候选标签向量化以确定查询向量;基于所述查询向量和所述记忆组件中的文本向量确定关系向量;基于所述关系向量通过分类模型判断所述候选标签是否为所述待分析文本的标签,所述分类模型为所述标签判定模型的一部分。
在一些实施例中,所述将所述待分析文本向量化后得到文本向量包括:通过双向长短时记忆网络将所述待分析文本向量化后得到文本向量。
在一些实施例中,所述将所述候选标签向量化以确定查询向量包括:通过双向长短时记忆网络将所述候选标签向量化以确定查询向量。
在一些实施例中,所述方法还包括:基于所述待分析文本,通过多分类模型确定候选标签集合;对所述候选标签集合中每一候选标签,将所述候选标签和所述待分析文本输入所述标签判定模型,判断所述候选标签是否为所述待分析文本的标签。
在一些实施例中,所述记忆网络包含两层记忆组件。
在一些实施例中,所述记忆组件包括访问单元和内容单元,所述方法还包括:将所述待分析文本用第一算法向量化后得到对应的第一文本向量,并存入所述访问单元;将所述待分析文本用第二算法向量化后得到对应的第二文本向量,并存入所述内容单元;基于所述查询向量和所述访问单元中的第一文本向量确定注意力向量,所述注意力向量反映所述访问单元中不同文本内容对于所述候选标签的重要性;以所述注意力向量为权重,基于所述内容单元中的第二文本向量获取所述记忆组件的输出向量。
本说明书的另一方面提供一种文本标签确定系统,所述系统包括:获取模块,所述获取模块用于获取待分析文本;模型处理模块,所述模型处理模块用于将候选标签和所述待分析文本输入标签判定模型,所述标签判定模型包含通过训练得到的记忆网络,所述记忆网络包含一层或多层记忆组件。所述标签判定模型进行的处理包括:将所述待分析文本向量化后得到文本向量,并存入所述记忆组件;将所述候选标签向量化以确定查询向量;基于所述查询向量和所述记忆组件中的文本向量确定关系向量;基于所述关系向量通过分类模型判断所述候选标签是否为所述待分析文本的标签,所述分类模型为所述标签判定模型的一部分。
本说明书的另一方面提供一种文本标签确定系统,包括处理器,所述处理器用于执行如前所述的文本标签确定方法。
本说明书的另一方面提供一种计算机可读存储介质,所述存储介质存储计算机指令,当计算机读取存储介质中的计算机指令后,计算机执行如前所述的文本标签确定方法。
附图说明
本说明书将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:
图1是根据本说明书的一些实施例所示的文本标签确定系统的应用场景示意图;
图2是根据本说明书的一些实施例所示的文本标签确定方法的示意图;
图3是根据本说明书的另一些实施例所示的文本标签确定方法的示意图;以及
图4是根据本说明书的一些实施例所示的候选标签确定方法的示意图。
具体实施方式
为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本说明书的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。
应当理解,本文使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。
如本说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。
虽然本说明书对根据本说明书的实施例的系统中的某些模块或单元做出了各种引用,然而,任何数量的不同模块或单元可以被使用并运行在客户端和/或服务器上。所述模块仅是说明性的,并且所述系统和方法的不同方面可以使用不同模块。
本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
本说明书实施例提供一种基于记忆网络的文本标签确定方法。该方法可以将文本标签确定视为多任务二分类阅读理解问题,将每个标签转换为查询语句,利用查询语句在记忆网络中的记忆模块中进行多跳读取,通过充分理解查询语句和输入文本组成的阅读理解题目确定输入文本对应的标签类型。在一些实施例中,该文本标签确定方法可以应用于智能交互、文本理解、文本管理等。例如,通过该方法可以获取文本中包含的语义标签,进而辅助人和/或机器管理和理解长文本。又例如,通过该方法可以给知识文档打标签,基于标签建立知识多维度分类体系。在一些实施例中,文本标签确定可以包括开放文本标签抽取和/或闭合文本标签抽取。开放标签抽取不需要预先定义标签集合,而闭合标签抽取需要预先定义标签集合。在一些实施例中,本说明书提供的文本标签确定方法可以适用于闭合标签抽取。
在一些实施例中,可以通过将待分析文本和候选标签输入标签判定模型,来判断候选标签是否为待分析文本的标签。在一些实施例中,标签判定模型可以包括训练好的记忆网络。在一些实施例中,记忆网络可以包括一层或多层记忆组件。例如,所述训练好的记忆网络可以包括两层记忆组件。在一些实施例中,标签判定模型可以利用双向长短时记忆网络将输入数据(如待分析文本、候选标签等)向量化。在一些实施例中,标签判定模型可以基于向量化后的待分析文本和候选标签确定关系向量,并通过将关系向量输入分类模型判断候选标签是否为待分析文本的标签。与传统的直接基于记忆组件的输出利用softmax函数确定最终输出结果相比,通过将关系向量输入分类模型可以提高文本标签确定的准确性和计算效率。应当理解,本说明书揭示的文本标签确定方法包含两层记忆组件,同时记忆组件的数量也可以为其他任意合理的层数(例如,1层、3层等)。
图1是根据本说明书的一些实施例所示的文本标签确定系统的应用场景示意图。
文本标签确定系统100可以是一个线上平台,其可以包括服务器110、网络120、用户终端130、数据库140以及其他数据源150。
服务器110可以用于管理资源以及处理来自本系统至少一个组件或外部数据源(例如,云数据中心)的数据和/或信息。在一些实施例中,服务器110可以是一个单个的服务器或者一个服务器群。服务器群可以是集中式的或分布式的(例如,服务器110可以是一分布式的系统)。在一些实施例中,服务器110可以是本地的或远程的。在一些实施例中,服务器110可以在一个云端平台上实现,或者以虚拟方式提供。仅仅作为示例,云端平台可以包括私有云、公共云、混合云、社区云、分布云、跨云、多云等或上述举例的任意组合。在一些实施例中,服务器110可以在一个计算设备上实现,该计算设备可以包括一个或多个部件。
在一些实施例中,服务器110可以包括处理设备112。处理设备112可以处理与文本标签确定相关的信息和/或数据以执行本说明书中描述的一个或多个功能。例如,处理设备112可以基于从用户终端130获取的用户输入的待分析文本确定文本中包含的标签。在一些实施例中,处理设备112可以包括一个或多个处理器(例如,单晶片处理器或多晶片处理器)。仅仅作为示例,处理设备112可以包括一个或多个硬件处理器,例如中央处理器(CPU)、专用积体电路(ASIC)、专用指令集处理器(ASIP)、图像处理单元(GPU)、物理运算处理单元(PPU)、数位讯号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑装置(PLD)、控制器、微控制器单元、精简指令集电脑(RISC)、微处理器等或上述举例的任意组合。
网络120可以连接系统100的各组成部分和/或连接系统100与外部资源部分。网络120使得各组成部分之间,以及与系统100之外其他部分之间可以进行通讯,促进数据和/或信息的交换。在一些实施例中,网络120可以是有线网络或无线网络中的任意一种,或其组合。仅仅作为示例,网络120可以包括电缆网络、有线网络、光纤网络、远端通信网络、内联网、互联网、局域网(LAN)、广域网(WAN)、无线局域网(WLAN)、城域网(MAN)、广域网(WAN)、公共开关电话网络(PSTN)、蓝牙网络、ZigBee网络、近场通信(NFC)网络等或上述举例的任意组合。在一些实施例中,网络120可以包括一个或多个网络交换点。例如,网络120可以包括有线或无线网络交换点,如基站和/或互联网交换点120-1、120-2、……,通过交换点,文本标签确定系统100的一个或多个部件可以连接到网络120以交换数据和/或信息。
用户终端130可以用于输入文本和/或接收系统输出。在一些实施例中,用户可以是用户终端130的使用者。例如,用户可以使用用户终端130输入待分析文本。又例如,用户可以通过用户终端130接收系统100的输出结果。在一些实施例中,用户终端130可以包括移动装置130-1、平板电脑130-2、膝上型电脑130-3等或上述举例的任意组合。
数据库140可以用于储存数据和/或指令。在一些实施例中,数据库140可以在单个中央服务器、通过通信链路连接的多个服务器或多个个人设备中实现。在一些实施例中,数据库140可以包括大容量存储器、可以移动存储器、挥发性读写存储器(例如,随机存取存储器RAM)、只读存储器(ROM)等或上述举例的任意组合。示例性的大容量存储器可以包括磁盘、光盘、固态磁盘等。在一些实施例中,数据库140可以在一个云端平台上实现。仅仅作为示例,云端平台可以包括私有云、公共云、混合云、社区云、分布云、跨云、多云等或上述举例的任意组合。
其他数据源150可以用于为系统100提供其他信息的一个或多个来源。在一些实施例中,其他数据源150可以包括一个或多个设备、一个或多个应用程序接口、一个或多个数据库查询接口、一个或多个基于协议的信息获取接口、或其他可获取信息的方式等,或上述方式两种或多种的组合。在一些实施例中,数据源提供的信息可以包括在提取信息时已存在的、在提取信息时临时生成的,或上述方式的组合。在一些实施例中,其他数据源150可以用于为系统100提供待分析文本、候选标签、样本数据等。
在一些实施例中,服务器110、用户终端130以及其他可能的系统组成部分中可以包括数据库140。在一些实施例中,服务器110、用户终端130以及其他可能的系统组成部分中可以包括处理设备112。
在一些实施例中,服务器110可以通过网络120与文本标签确定系统100的其他组件(如用户终端130、数据库140和/或其他数据源150等)通信,以获取其中的信息和/或数据。例如,服务器110可以通过网络120获取储存于数据库140中的待分析文本。在一些实施例中,数据库140可以与网络120连接以与文本标签确定系统100中的一个或多个部件(例如,服务器110、用户终端130等)通信。在一些实施例中,文本标签确定系统100中的一个或多个部件可以通过网络120访问储存于数据库140和/或其他数据源150中的数据或指令。在一些实施例中,数据库140和/或其他数据源150可以直接与文本标签确定系统100中的一个或多个部件(例如,服务器110、用户终端130)连接或通信。在一些实施例中,数据库140可以是服务器110的一部分。在一些实施例中,文本标签确定系统100的一个或多个部件(例如,服务器110、用户终端130等)可以拥有存取数据库140的许可。
文本标签确定系统100可以通过实施本说明书中披露的方法和/或过程来进行待分析文本的标签抽取。在一些实施例中,所述待分析文本可以是从各个渠道获取的文本,所述渠道可以包括但不限于网页、杂志、期刊、应用程序、图书馆、书店、用户终端等。在一些实施例中,文本标签确定系统100可以通过分析待分析文本与候选标签的相关性确定待分析文本中包含的标签。
图2是根据本说明书的一些实施例所示的示例性文本标签确定方法的示意图。
如图2所示,文本标签确定系统200可以在处理设备112实现。处理设备112可以将获得的待分析文本和候选标签作为输入数据输入标签判定模型,以确定待分析文本是否包含该候选标签。具体地:
步骤210,获取待分析文本。
在一些实施例中,待分析文本可以包括文章、段落、句子、词组、字、单词等中的一种或其任意组合。在一些实施例中,待分析文本可以包括从用户终端130、数据库140、其他数据源150等文本标签确定系统的组件中获得的文本。在一些实施例中,待分析文本可以包括从网页、应用程序、开源数据库、网络平台、期刊、杂志等其他渠道获取的文本。例如,从网页中获取的新闻时事、社科论文、小说/文章等。
在一些实施例中,处理设备可以对待分析文本进行预处理,将其转换为多个字和/或字符对应的一维向量。例如,可以通过编码将由N个字符组成的待分析文本转换为x=(x1,x2,…,xn)形式的一维向量。其中,xi为待分析文本中的第i个字符。例如,对于待分析文本“信用卡还款失败”,可以通过分词算法将其划分为“信用卡/还款/失败”,进而将其转换为x=(x1,x2,x3)形式的向量,其中,x1可以对应于“信用卡”,x2可以对应于“还款”,x3可以对应于“失败”。在一些实施例中,预处理方式可以包括但不限于正向最大匹配法(FMM)、逆向最大匹配法(BMM)、N-最短路径方法、基于N-gram语言模型的分词方法等中的一种或其任意组合。
步骤220,获取候选标签。
在一些实施例中,标签可以反映待分析文本的语义信息。例如,对于用户输入的待分析文本“信用卡还款失败”,其标签可以为“还款”、“信用卡”、“失败”中的一个或多个。在一些实施例中,候选标签可以为待判定的标签。在一些实施例中,处理设备可以基于待分析文本获取候选标签。在一些实施例中,处理设备可以从互联网中获取候选标签。更多关于候选标签的内容可以参见本说明书其他部分(如图4及其相关描述),在此不再赘述。
步骤230,确定待分析文本的标签。
标签判定模型可以通过对待分析文本和候选标签进行分析,确定待分析文本中是否包含该候选标签。例如,图2中标号233所示,可以将待分析文本和候选标签输入标签判定模型。在一些实施例中,标签判定模型的输入可以为文本和标签对。例如,标签判定模型的输入可以为预处理后的待分析文本和候选标签对{x,q}。在一些实施例中,标签判定模型的输出可以为0或1。其中,0表示待分析文本不包含当前候选标签,1表示待分析文本包含当前候选标签。在一些替代性实施例中,标签判定模型的输出可以为其他形式,例如,待分析文本包含当前候选标签的概率值,本说明书对此不作限制。
在一些实施例中,标签判定模型可以包括训练好的记忆网络。记忆网络可以通过引入外部存储来记忆信息,进而可以避免文本内容中语义信息的丢失。记忆网络的输入可以为向量化后的待分析文本和候选标签,输出可以为反映待分析文本与候选标签相关性的关系向量。
在一些实施例中,记忆网络可以包括一层或多层记忆组件。例如,图2中所示,记忆网络可以包括记忆组件1、记忆组件2、…、记忆组件N等,其中,记忆组件N表示第N层记忆组件。在一些实施例中,标签判定模型可以将向量化后获得的文本向量存入记忆组件。更多关于记忆组件的内容可以参见本说明书其他部分(如图3及其相关描述),在此不再赘述。
在一些实施例中,标签判定模型可以将预处理后的待分析文本向量化,得到对应的文本向量。在一些实施例中,文本向量可以为多维向量。不同于预处理后的一维文本向量,通过将预处理后的待分析文本向量化,可以帮助计算设备更好的获取输入文本中的语义信息。在一些实施例中,向量化方式可以包括但不限于矩阵计算方式、双向长短时记忆网络(BiLSTM)方式等。
在一些实施例中,标签判定模型可以通过双向长短时记忆网络将预处理后的待分析文本向量化,确定对应的文本向量。LSTM的全称是Long Short-Term Memory,前向的LSTM与后向的LSTM结合即为BiLSTM。使用LSTM模型可以更好的捕捉到较长距离的依赖关系,使用BiLSTM模型则可以更好的捕捉双向的语义依赖,使得计算结果更加准确。
在一些实施例中,BiLSTM的输入可以为预处理后的待分析文本。例如,BiLSTM的输入可以为待分析文本对应的一维向量x=(x1,x2,…,xn)。BiLSTM的输出可以为待分析文本中每个字符对应的前向向量和后向向量。例如,对于一维向量x中的第k个字符,对应的输出可以为:
在一些实施例中,标签判定模型可以将向量化后的待分析文本存入记忆组件。例如,可以将第k个字符对应的前向向量和后向向量存入记忆组件,对应的存入记忆组件的向量表示可以为。其中,A对应访问单元,对应记忆网络中第层记忆组件。
在一些实施例中,记忆网络可以包括两层记忆组件。相对于包含一层记忆组件,包含两层记忆组件的记忆网络可以在分析输入数据过程中更具有逻辑性,从而提高输出结果的准确性。此外,相对于包含三层或三层以上记忆组件的深层网络结构,包含两层记忆组件的记忆网络结构较浅,可以提高记忆网络的训练效率。关于记忆组件以及访问单元的更多内容可以参见本说明书其他部分(如图3及其相关描述),在此不再赘述。
在一些实施例中,标签判定模型中的记忆网络可以通过以下方式获得:收集样本文本与样本标签,将样本文本与样本标签输入初始记忆网络进行训练,获得训练好的记忆网络。
在一些实施例中,标签判定模型可以将预处理后的候选标签向量化,以确定查询向量。在一些实施例中,向量化方式可以包括但不限于矩阵计算方式、双向长短时记忆网络(BiLSTM)方式等。在一些替代性实施例中,标签判定模型可以利用其它任意可行的方式实现将候选标签向量化,本说明书对此不作限制。
在一些实施例中,标签判定模型可以通过BiLSTM将候选标签向量化以确定查询向量。在一些实施例中,BiLSTM的输入可以为预处理后的候选标签。例如,BiLSTM的输入可以为候选标签对应的一维向量。在一些实施例中,BiLSTM的输出可以为候选标签中每个字符对应的前向向量和后向向量。例如,对于一维向量q,对应的输出可以为:。其中,分别是q的前向LSTM最后一个字符的输出,和后向LSTM的第一个字符的输出,q对应查询向量。
在一些实施例中,标签判定模型可以基于查询向量和记忆组件中的文本向量确定关系向量。在一些实施例中,标签判定模型可以通过计算查询向量和文本向量的相关性确定关系向量。例如,标签判定模型可以通过计算查询向量与记忆组件中文本向量的相关性,确定关系向量。其中,C对应记忆组件中的内容单元,表示第层记忆组件,T表示矩阵转置,表示第层记忆组件对应的查询向量,如,对于第1层记忆组件,其对应的查询向量。记忆网络包含两层或两层以上记忆组件时,当前记忆组件的输出可以用于更新查询向量,以作为下一层记忆组件的输入,关系向量可以为最后一层记忆组件的输出向量。例如,记忆网络包含两层记忆组件时,可以基于第一层记忆组件的输出,获得更新后的查询向量,将其作为第二层记忆组件的输入后,获得关系向量。
关于记忆组件以及内容单元、访问单元的更多内容可以参见本说明书其他部分(例如,图3及其相关描述),在此不再赘述。
在一些实施例中,关系向量可以反映查询向量与文本向量的关系。在一些替代性实施例中,标签判定模型可以通过其他任意可行的方式获得关系向量,本说明书对此不作限制。
在一些实施例中,标签判定模型可以将关系向量输入分类模型,以判断候选标签是否为待分析文本的标签。在一些实施例中,分类模型可以为标签判定模型的一部分。分类模型的输入可以为关系向量。例如,图2中标号235所示,标签判定模型可以将基于记忆组件的输出确定的关系向量输入分类模型。分类模型的输出可以反映待分析文本与候选标签的关系。例如,分类模型的输出可以为0或1,其中,1表示待分析文本中包含候选标签,0表示待分析文本中不包含候选标签。
在一些实施例中,分类模型可以包括但不限于BERT模型、神经网络(NeuralNetwork)模型、Fasttext模型等中的一种或其任意组合。优选地,分类模型可以为神经网络模型。在一些替代性实施例中,分类模型可以通过任意合适的方式实现,本说明书对此不做限制。
通过将获得的关系向量输入分类模型中判断候选标签是否为待分析文本的标签,可以获得更准确的输出结果。
在一些实施例中,标签判定模型可以通过以下方式获得:获取样本文本,该样本文本可以包括多个由句子和/或段落组成的文本。获取样本标签,该样本标签可以包括样本文本中包含的标签和不包含的标签。将样本文本和样本标签作为训练数据输入标签判定模型,获得训练好的标签判定模型。在一些实施例中,可以设置模型的学习目标,以提高模型输出结果的准确性。例如,可以将loss(y,y')=y'*logy+(1-y')*log(1-y)设定为模型的学习目标。其中,y表示模型预测结果为1的概率,y'指示输入文本是否包含输入标签,如果包含取值为1,否则取值为0。
关于标签判定模型的更多内容可以参见本说明书其他地方,在此不再赘述。
图3是根据本说明书的另一些实施例所示的示例性文本标签确定方法的示意图。
如图3所示,标签判定模型中的记忆组件可以包括访问单元A和内容单元C。在一些实施例中,标签判定模型可以将待分析文本向量化后分别存入记忆组件的访问单元和内容单元,并基于文本向量和查询向量确定记忆组件的输出向量。具体地:
在一些实施例中,标签判定模型可以通过第一算法将待分析文本向量化得到对应的第一文本向量,并存入记忆组件的访问单元A。在一些实施例中,第一算法可以包括但不限于矩阵算法、BiLSTM算法等。
在一些实施例中,标签判定模型可以将通过BiLSTM方式得到的第一文本向量存入记忆组件的访问单元A。例如,标签判定模型通过BiLSTM获得待分析文本第k个字符的前向向量和后向向量后,可以存入访问单元A,A中第k个字符的向量可以表示为。其中,中表示第层访问单元。
在一些实施例中,标签判定模型可以通过第二算法将待分析文本向量化得到对应的第二文本向量,并存入记忆组件的内容单元C。在一些实施例中,第二算法可以包括但不限于矩阵算法、BiLSTM算法等。
在一些实施例中,第一算法和第二算法可以为相同或不同的算法,当使用相同算法时,第一算法和第二算法的参数优选为不需要相同。例如,第一算法和第二算法可以均为使用矩阵相乘,两个矩阵不要求相同。
在一些实施例中,第一算法、第二算法可以均为双向长短时记忆网络算法(BiLSTM)。例如,标签判定模型可以通过BiLSTM获得待分析文本第k个字符的前向向量和后向向量后,将其存入记忆组件的内容单元C,C中第k个字符对应的向量可以表示为。其中,中表示第层内容单元。
在一些实施例中,访问单元可以用于将第一文本向量与候选标签对应的查询向量进行匹配,以判断待分析文本中的某个字符是否为与候选标签相关;内容单元可以用于基于字符与候选标签的相关性获取对应的第二文本向量,以确定记忆组件的输出结果。
在一些实施例中,标签判定模型可以基于查询向量和访问单元中的第一文本向量确定注意力向量,以注意力向量为权重基于内容单元中的第二文本向量获取记忆组件的输出向量(例如,图3中标号320)。所述注意力向量反映访问单元中不同文本内容对于所述候选标签的重要性。
记忆组件的输出向量可以反映文本向量与查询向量的相关性。通过使用注意力机制可以使得系统更关注待分析文本中的关键信息,以获得更加准确的输出结果。
在一些实施例中,处理设备可以利用任意可行的方式获得记忆组件的输出结果,本说明书对此不做限制。
在一些实施例中,记忆组件的输入可以为查询向量和文本向量(第一文本向量、第二文本向量),输出可以为反映第一文本向量、第二文本向量和查询向量关系的表示向量。在一些实施例中,记忆组件的输入可以为查询向量、上层记忆组件的输出向量和文本向量。例如,第二层记忆组件的输入可以为查询向量、文本向量和第一层记忆组件的输出向量,输出可以为综合查询向量、文本向量和第一层记忆组件的输出向量的表示向量。
图4是根据本说明书的一些实施例所示的示例性候选标签确定方法的示意图。
候选标签集合可以为供标签判定模型进行判定的标签的集合。候选标签集合可以包括一个或多个候选标签。对于候选标签集合中每一个候选标签,处理设备可以将其与待分析文本输入上述标签判定模型,以判断候选标签是否为待分析文本的标签。
在一些实施例中,处理设备可以基于待分析文本,通过训练好的多分类模型确定候选标签。在一些实施例中,多分类模型可以包括BERT、神经网络(Neural Network)模型、Fasttext模型等中的一种或其任意组合。多分类模型可以用于判断待分析文本中所有可能包含的标签。
在一些实施例中,处理设备可以通过训练好的Fasttext模型确定候选标签。如图4中410所示,Fasttext模型的输入可以为待分析文本。在一些实施例中,Fasttext模型的输出可以包括待分析文本可能包含的标签、待分析文本包含标签的概率、待分析文本是否包含该标签等。
Fasttext模型具有结构简单、训练速度快、精度高等特点,使用Fasttext模型可以提高获取候选标签的效率。
在一些实施例中,处理设备可以通过对多个样本文本数据进行分词以及标记得到训练数据,将训练数据输入初始fasttext模型中进行训练,获得训练好的fasttext分类模型。
在一些实施例中,处理设备可以通过对多分类模型的输出结果进行排序获得候选标签集合。例如,处理设备可以通过对多分类模型输出的待分析文本包含的一个或多个标签的概率值进行排序,选取topN的标签作为候选标签集合。其中,N可以为任意正整数,例如,N的取值可以为3、5、7、10等。在一些实施例中,候选标签结合可以为所有可用标签的闭合集合。在一些替代性实施例中,处理设备可以通过其他可行的方式获得候选标签集合,本说明书对此不做限制。例如,处理设备可以选取网络中的热点标签作为候选标签。
如图4中420所示,对于候选标签集合中的每一个,处理设备可以将其与待分析文本一起作为输入数据输入标签判定模型,标签判定模型可以判断待分析文本中是否包含当前输入的候选标签。
需要注意的是,以上对于方法200、方法300和方法400的描述,仅为描述方便,并不能把本说明书限制在所举实施例范围之内。可以理解,对于本领域的技术人员来说,在了解该系统的原理后,可能在不背离这一原理的情况下,对其进行各种修正和改变。然而,这些修正和改变仍在本说明书的范围之内。
在一些实施例中,文本标签确定系统(如文本标签确定系统100)可以包括获取模块、候选标签确定模块和模型处理模块等。
获取模块可以用于获取待分析文本。例如,获取用户通过用户终端130输入的文本。
候选标签确定模块可以用于确定候选标签集合。在一些实施例中,候选标签确定模块可以基于待分析文本,利用多分类模型确定候选标签集合。
模型处理模块可以用于判断待分析文本是否包含对应的标签。在一些实施例中,模型处理模块可以将候选标签和待分析文本输入标签判定模型,通过标签判定模型确定待分析文本是否包含对应的标签。
需要注意的是,以上对于文本标签确定系统及其模块的描述,仅为描述方便,并不能把本说明书限制在所举实施例范围之内。可以理解,对于本领域的技术人员来说,在了解该系统的原理后,可能在不背离这一原理的情况下,对各个模块进行任意组合,或者构成子系统与其他模块连接。例如,在一些实施例中,上述披露的模块可以是一个系统中的不同模块,也可以是一个模块实现上述的两个或两个以上模块的功能。诸如此类的变形,均在本说明书的保护范围之内。
本说明书实施例可能带来的有益效果包括但不限于:(1)通过使用包含两层记忆组件的记忆网络结构,可以使得标签确定过程更具有逻辑性,从而提高文本标签确定的准确性;(2)使用双向长短时记忆网络(BiLSTM)对输入数据进行向量化,使得更关注文本上下文语义关系,从而提高文本标签确定的准确性;(3)通过使用注意力机制,可以更关注文本中的关键信息,进而可以提高文本标签确定的精确度。需要说明的是,不同实施例可能产生的有益效果不同,在不同的实施例里,可能产生的有益效果可以是以上任意一种或几种的组合,也可以是其他任何可能获得的有益效果。
上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅仅作为示例,而并不构成对本说明书的限定。虽然此处并没有明确说明,本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议,所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。
同时,本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外,本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
此外,本领域技术人员可以理解,本说明书的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本说明书的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外,本说明书的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。
计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号,例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式,包括电磁形式、光形式等,或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质,该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播,包括无线电、电缆、光纤电缆、RF、或类似介质,或任何上述介质的组合。
本说明书各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写,包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等,常规程序化编程语言如C语言、VisualBasic、Fortran2003、Perl、COBOL2002、PHP、ABAP,动态编程语言如Python、Ruby和Groovy,或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或处理设备上运行。在后种情况下,远程计算机可以通过任何网络形式与用户计算机连接,比如局域网(LAN)或广域网(WAN),或连接至外部计算机(例如通过因特网),或在云计算环境中,或作为服务使用如软件即服务(SaaS)。
此外,除非权利要求中明确说明,本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的处理设备或移动设备上安装所描述的系统。
同理,应当注意的是,为了简化本说明书披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本说明书实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
一些实施例中使用了描述成分、属性数量的数字,应当理解的是,此类用于实施例描述的数字,在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明,“大约”、“近似”或“大体上”表明所述数字允许有±20%的变化。相应地,在一些实施例中,说明书和权利要求中使用的数值参数均为近似值,该近似值根据个别实施例所需特点可以发生改变。在一些实施例中,数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本说明书一些实施例中用于确认其范围广度的数值域和参数为近似值,在具体实施例中,此类数值的设定在可行范围内尽可能精确。
针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料,如文章、书籍、说明书、出版物、文档等,特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外,对本说明书权利要求最广范围有限制的文件(当前或之后附加于本说明书中的)也除外。需要说明的是,如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方,以本说明书的描述、定义和/或术语的使用为准。
最后,应当理解的是,本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此,作为示例而非限制,本说明书实施例的替代配置可视为与本说明书的教导一致。相应地,本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。
Claims (14)
1.一种文本标签确定方法,所述方法包括:
获取待分析文本;
将候选标签和所述待分析文本输入标签判定模型,所述标签判定模型包含通过训练得到的记忆网络,所述记忆网络包含一层或多层记忆组件;
所述标签判定模型进行的处理包括:
将所述待分析文本向量化后得到文本向量,并存入所述记忆组件;
将所述候选标签向量化以确定查询向量;
基于所述查询向量和所述记忆组件中的文本向量确定关系向量;
基于所述关系向量通过分类模型判断所述候选标签是否为所述待分析文本的标签,所述分类模型为所述标签判定模型的一部分。
2.根据权利要求1所述的方法,所述将所述待分析文本向量化后得到文本向量包括:
通过双向长短时记忆网络将所述待分析文本向量化后得到文本向量。
3.根据权利要求1所述的方法,所述将所述候选标签向量化以确定查询向量包括:
通过双向长短时记忆网络将所述候选标签向量化以确定查询向量。
4.根据权利要求1所述的方法,还包括:
基于所述待分析文本,通过多分类模型确定候选标签集合;
对所述候选标签集合中每一候选标签,将所述候选标签和所述待分析文本输入所述标签判定模型,判断所述候选标签是否为所述待分析文本的标签。
5.根据权利要求1所述的方法,所述记忆网络包含两层记忆组件。
6.根据权利要求1所述的方法,所述记忆组件包括访问单元和内容单元,所述方法还包括:
将所述待分析文本用第一算法向量化后得到对应的第一文本向量,并存入所述访问单元;将所述待分析文本用第二算法向量化后得到对应的第二文本向量,并存入所述内容单元;
基于所述查询向量和所述访问单元中的第一文本向量确定注意力向量,所述注意力向量反映所述访问单元中不同文本内容对于所述候选标签的重要性;
以所述注意力向量为权重,基于所述内容单元中的第二文本向量获取所述记忆组件的输出向量。
7.一种文本标签确定系统,所述系统包括:
获取模块,所述获取模块用于获取待分析文本;
模型处理模块,所述模型处理模块用于将候选标签和所述待分析文本输入标签判定模型,所述标签判定模型包含通过训练得到的记忆网络,所述记忆网络包含一层或多层记忆组件;
所述标签判定模型进行的处理包括:
将所述待分析文本向量化后得到文本向量,并存入所述记忆组件;
将所述候选标签向量化以确定查询向量;
基于所述查询向量和所述记忆组件中的文本向量确定关系向量;
基于所述关系向量通过分类模型判断所述候选标签是否为所述待分析文本的标签,所述分类模型为所述标签判定模型的一部分。
8.根据权利要求7所述的系统,所述模型处理模块还用于:
通过双向长短时记忆网络将所述待分析文本向量化后得到文本向量。
9.根据权利要求7所述的系统,所述模型处理模块还用于:
通过双向长短时记忆网络将所述候选标签向量化以确定查询向量。
10.根据权利要求7所述的系统,还包括候选标签确定模块,所述候选标签确定模块用于:
基于所述待分析文本,通过多分类模型确定候选标签集合;以及
对所述候选标签集合中每一候选标签,将所述候选标签和所述待分析文本输入标签判定模型,以判断所述候选标签是否为所述待分析文本的标签。
11.根据权利要求7所述的系统,所述记忆网络包含两层记忆组件。
12.根据权利要求7所述的系统,所述记忆组件包括访问单元和内容单元,所述模型处理模块还用于:
将所述待分析文本用第一算法向量化后得到对应的第一文本向量,并存入所述访问单元;将所述待分析文本用第二算法向量化后得到对应的第二文本向量,并存入所述内容单元;
基于所述查询向量和所述访问单元中的第一文本向量确定注意力向量,所述注意力向量反映所述访问单元中不同文本内容对于所述候选标签的重要性;
以所述注意力向量为权重,基于所述内容单元中的第二文本向量获取所述记忆组件的输出向量。
13.一种文本标签确定系统,包括处理器,所述处理器用于执行如权利要求1~6中任一项所述的文本标签确定方法。
14.一种计算机可读存储介质,所述存储介质存储计算机指令,当计算机读取存储介质中的计算机指令后,计算机执行如权利要求1~6中任一项所述的文本标签确定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010276658.0A CN111198949B (zh) | 2020-04-10 | 2020-04-10 | 一种文本标签确定方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010276658.0A CN111198949B (zh) | 2020-04-10 | 2020-04-10 | 一种文本标签确定方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111198949A true CN111198949A (zh) | 2020-05-26 |
CN111198949B CN111198949B (zh) | 2020-07-31 |
Family
ID=70746935
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010276658.0A Active CN111198949B (zh) | 2020-04-10 | 2020-04-10 | 一种文本标签确定方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111198949B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112579735A (zh) * | 2020-12-09 | 2021-03-30 | 北京字节跳动网络技术有限公司 | 一种题目生成方法、装置、计算机设备及存储介质 |
CN114357990A (zh) * | 2022-03-18 | 2022-04-15 | 北京创新乐知网络技术有限公司 | 文本数据标注方法、装置、电子设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299262A (zh) * | 2018-10-09 | 2019-02-01 | 中山大学 | 一种融合多粒度信息的文本蕴含关系识别方法 |
CN110209823A (zh) * | 2019-06-12 | 2019-09-06 | 齐鲁工业大学 | 一种多标签文本分类方法及系统 |
CN110362684A (zh) * | 2019-06-27 | 2019-10-22 | 腾讯科技(深圳)有限公司 | 一种文本分类方法、装置及计算机设备 |
US20190370332A1 (en) * | 2018-05-31 | 2019-12-05 | Siemens Aktiengesellschaft | Semantic textual similarity system |
-
2020
- 2020-04-10 CN CN202010276658.0A patent/CN111198949B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190370332A1 (en) * | 2018-05-31 | 2019-12-05 | Siemens Aktiengesellschaft | Semantic textual similarity system |
CN109299262A (zh) * | 2018-10-09 | 2019-02-01 | 中山大学 | 一种融合多粒度信息的文本蕴含关系识别方法 |
CN110209823A (zh) * | 2019-06-12 | 2019-09-06 | 齐鲁工业大学 | 一种多标签文本分类方法及系统 |
CN110362684A (zh) * | 2019-06-27 | 2019-10-22 | 腾讯科技(深圳)有限公司 | 一种文本分类方法、装置及计算机设备 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112579735A (zh) * | 2020-12-09 | 2021-03-30 | 北京字节跳动网络技术有限公司 | 一种题目生成方法、装置、计算机设备及存储介质 |
CN112579735B (zh) * | 2020-12-09 | 2023-04-28 | 北京字节跳动网络技术有限公司 | 一种题目生成方法、装置、计算机设备及存储介质 |
CN114357990A (zh) * | 2022-03-18 | 2022-04-15 | 北京创新乐知网络技术有限公司 | 文本数据标注方法、装置、电子设备和存储介质 |
CN114357990B (zh) * | 2022-03-18 | 2022-05-31 | 北京创新乐知网络技术有限公司 | 文本数据标注方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111198949B (zh) | 2020-07-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10534863B2 (en) | Systems and methods for automatic semantic token tagging | |
CN108920654B (zh) | 一种问答文本语义匹配的方法和装置 | |
US20230222353A1 (en) | Method and system for training a neural network model using adversarial learning and knowledge distillation | |
US11551026B2 (en) | Dynamic reconfiguration training computer architecture | |
CN112732871B (zh) | 一种机器人催收获取客户意向标签的多标签分类方法 | |
CN111177325B (zh) | 一种自动生成答案的方法和系统 | |
CN107463935A (zh) | 应用分类方法和应用分类装置 | |
CN111198949B (zh) | 一种文本标签确定方法和系统 | |
CN112100377A (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN113222022A (zh) | 一种网页分类识别方法及装置 | |
Kiyak et al. | Comparison of image-based and text-based source code classification using deep learning | |
CN111324722B (zh) | 一种训练词语权重模型的方法和系统 | |
CN115577080A (zh) | 一种问题回复匹配方法、系统、服务器及存储介质 | |
CN115203206A (zh) | 数据内容搜索方法、装置、计算机设备及可读存储介质 | |
CN111400413B (zh) | 一种确定知识库中知识点类目的方法及系统 | |
CN113011689B (zh) | 软件开发工作量的评估方法、装置及计算设备 | |
CN114398482A (zh) | 一种词典构造方法、装置、电子设备及存储介质 | |
CN114969253A (zh) | 市场主体与政策的匹配方法、装置、计算设备及介质 | |
CN113139382A (zh) | 命名实体识别方法及装置 | |
CN113536790A (zh) | 基于自然语言处理的模型训练方法及装置 | |
CN111400484A (zh) | 一种关键词提取方法和系统 | |
CN116383390B (zh) | 一种用于经营管理信息的非结构化数据存储方法及云平台 | |
US20230222290A1 (en) | Active Learning for Matching Heterogeneous Entity Representations with Language Models | |
CN117574981B (zh) | 一种信息分析模型的训练方法及信息分析方法 | |
CN116992874B (zh) | 一种文本引用审核溯源方法、系统、装置和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |