CN113919344A - 文本处理方法和装置 - Google Patents
文本处理方法和装置 Download PDFInfo
- Publication number
- CN113919344A CN113919344A CN202111130296.5A CN202111130296A CN113919344A CN 113919344 A CN113919344 A CN 113919344A CN 202111130296 A CN202111130296 A CN 202111130296A CN 113919344 A CN113919344 A CN 113919344A
- Authority
- CN
- China
- Prior art keywords
- text
- word segmentation
- word
- target
- recognized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
本申请提供了一种文本处理方法和装置,涉及互联网技术领域,可以应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景,方法包括:获取目标文本对应的文本分词序列和多个待识别词;分别获取文本分词序列对应的文本特征向量和多个待识别词各自对应的分词特征向量;基于低秩参数矩阵分别将各分词特征向量与文本特征向量进行特征融合处理,得到多个待识别词各自对应的目标特征向量;根据目标特征向量从多个待识别词中识别出目标文本对应的目标词。基于上述方案,本申请能够有效提高训练效率和文本分析效率,以及目标词识别的准确性。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种文本处理方法和装置。
背景技术
随计算机技术的发展,基于人工智能的文本分析处理技术在语义理解、文本检索、网络监管和推荐任务等场景中得到了广泛应用。文本分析处理的核心在于识别句子中的核心成分,并去除冗余成分的影响,从而在业务应用中减少句子中非主成分对句子整体语义的影响。现有技术中通常采用统计或分类的方式进行文本分析处理,但存在文本主成分提取准确率低,语义理解偏差大,以及分析效率低等缺陷。
因此,需提供一种改进的文本处理方案,以提高文本分析的准确率和效率。
发明内容
本申请提供了一种文本处理方法和装置,可以有效提高文本分析的准确率和效率。
一方面,本申请提供了一种文本处理方法,所述方法包括:
获取目标文本对应的文本分词序列和多个待识别词;
分别获取所述文本分词序列对应的文本特征向量和所述多个待识别词各自对应的分词特征向量;
基于低秩参数矩阵分别将各分词特征向量与所述文本特征向量进行特征融合处理,得到所述多个待识别词各自对应的目标特征向量;
根据所述目标特征向量从所述多个待识别词中识别出所述目标文本对应的目标词。
另一方面提供了一种文本处理装置,所述装置包括:
第一获取模块:用于获取目标文本对应的文本分词序列和多个待识别词;
第二获取模块:用于分别获取所述文本分词序列对应的文本特征向量和所述多个待识别词各自对应的分词特征向量;
特征融合模块:用于基于低秩参数矩阵分别将各分词特征向量与所述文本特征向量进行特征融合处理,得到所述多个待识别词各自对应的目标特征向量;
分词识别模块:用于根据所述目标特征向量从所述多个待识别词中识别出所述目标文本对应的目标词。
另一方面提供了一种文本处理设备,所述设备包括处理器和存储器,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上述的文本处理方法。
另一方面提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如上述的文本处理方法。
另一方面提供了一种文本处理终端,所述终端包括处理器和存储器,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上述的文本处理方法。
另一方面提供了一种服务器,所述服务器包括处理器和存储器,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如上述的文本处理方法。
另一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令被处理器执行时实现如上述的文本处理方法。
本申请提供的文本处理方法、装置、设备、存储介质、终端、服务器和计算机程序产品,具有如下技术效果:
本申请在获取目标文本对应的文本分词序列和多个待识别词后,分别获取文本分词序列对应的文本特征向量和所述多个待识别词各自对应的分词特征向量,并基于低秩参数矩阵分别将各分词特征向量与文本特征向量进行特征融合处理,得到多个待识别词各自对应的目标特征向量;然后根据目标特征向量从多个待识别词中识别出目标文本对应的目标词。基于上述方案,本申请以待识别词为单位进行目标词识别,能够增加识别范围,有利于后续应用过程中的目标词匹配的筛选和准确性,且基于低秩参数矩阵进行特征融合,能够降低引入的参数量,提高训练效率和文本分析效率,以及目标词识别的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本申请实施例提供的一种应用环境的示意图;
图2是本申请实施例提供的一种文本处理方法的流程示意图;
图3本申请实施例提供的一种文本分析模型的结构示意图;
图4是本申请实施例提供的一种获取目标文本对应的文本分词序列和多个待识别词的方法的流程示意图;
图5是本申请实施例提供的一种文本特征向量的生成方法的流程示意图;
图6是本申请实施例提供的一个文本分词的特征矩阵的示意图;
图7是对图6中的特征矩阵进行分割的示意图;
图8是本申请实施例提供的一种分词特征向量的生成方法的流程示意图;
图9是本申请实施例提供的一种文本处理装置的结构示意图;
图10是本申请实施例提供的一种文本处理方法的电子设备的硬件结构框图;
图11是本申请实施例提供的一个区块链系统的结构示意图。
具体实施方式
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
其中,机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。本申请主要涉及文本处理、语义理解、机器学习和深度学习等技术,具体通过下述实施例进行说明。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或子模块的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或子模块,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或子模块。
请参阅图1,图1是本申请实施例提供的一种应用环境的示意图,如图1所示,该应用环境可以至少包括服务器01和终端02。在实际应用中,服务器01和终端02可以通过有线或无线通信方式进行直接或间接地连接,以实现终端02与服务器01间的交互,本申请在此不做限制。
本申请实施例中,服务器01可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。具体地,服务器可以包括实体设备,可以具体包括有网络通信子模块、处理器和存储器等等,也可以包括运行于实体设备中的软体,可以具体包括有应用程序等。此外,多个服务器也可组成为一区块链,进而可以为文本处理方法或装置提供数据存储等服务,如本申请的文本分析模型的模型参数、模型配置信息和训练数据等可以存储与上述区块链中,而服务器为区块链上的节点。
具体的,云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。提供资源的网络被称为“云”。其中,人工智能云服务,一般也被称作是AIaaS(AI as a Service,中文为“AI即服务”)。这是目前主流的一种人工智能平台的服务方式,具体来说AIaaS平台会把几类常见的AI服务进行拆分,并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城:所有的开发者都可以通过API接口的方式来接入使用平台提供的一种或者是多种人工智能服务,部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自已专属的云人工智能服务。
具体的,请参考图11,图11是本申请实施例提供的一个区块链系统的结构示意图。服务器01可以为分布式系统100中的一个节点,其中该分布式系统可以为区块链系统,该区块链系统可以是由多个节点通过网络通信的形式连接形成的分布式系统,节点之间可以组成点对点(P2P,Peer To Peer)网络,任意形式的计算机设备,比如服务器01、终端02等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点,其中区块链包括一系列按照产生的先后时间顺序相互接续的区块(Block),新区块一旦加入到区块链中就不会再被移除,区块中记录了区块链系统中节点提交的记录数据。
其中,区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新兴应用模式,本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中,用户管理模块负责所有区块链参与者的身份信息管理,包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等,并且在授权的情况下,监管和审计某些真实身份的交易情况,提供风险控制的规则配置(风控审计);基础服务模块部署在所有区块链节点设备上,用来验证业务请求的有效性,并对有效请求完成共识后记录到存储上,对于一个新的业务请求,基础服务先对接口适配解析和鉴权处理(接口适配),然后通过共识算法将业务信息加密(共识管理),在加密之后完整一致的传输至共享账本上(网络通信),并进行记录存储;智能合约模块负责合约的注册发行以及合约触发和合约执行,开发人员可以通过某种编程语言定义合约逻辑,发布到区块链上(合约注册),根据合约条款的逻辑,调用密钥或者其它的事件触发执行,完成合约逻辑,同时还提供对合约升级注销的功能;运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出,例如:告警、监控网络情况、监控节点设备健康状态等。平台产品服务层提供典型应用的基本能力和实现框架,开发人员可以基于这些基本能力,叠加业务的特性,完成业务逻辑的区块链实现。应用服务层提供基于区块链方案的应用服务给业务参与方进行使用。
本申请实施例中,服务器01可以用于接收终端发送的文本处理请求,响应于文本处理请求,对其携带的目标文本进行分析处理,以确定目标文本对应的目标词,进而还可以基于目标词进行内容筛选、推荐和监管识别,以将对应的目标内容发送至终端02。也可以用于对接收到的目标文本进行自动文本分析服务,并存储目标文本与目标词间的关联关系。具体地,服务器01还可以用于提供文本分析模型的训练服务。
本申请实施例中,终端02可以包括智能手机、台式电脑、平板电脑、笔记本电脑、数字助理、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、智能语音交互设备、智能家电、智能可穿戴设备、车载终端设备等类型的实体设备,也可以包括运行于实体设备中的软体,例如应用程序等。具体地,终端02可以用于基于用户提交的搜索内容触发文本分析请求,并发送至服务器01。具体地,终端02也可以实现文本分析模型的训练服务,或用于向服务器01发送用于文本分析模型训练的样本数据。
此外,可以理解的是,图1所示的仅仅是一种文本处理方法的应用环境,该应用环境可以包括更多或更少的节点,本申请在此不做限制。
以下基于上述应用环境介绍本申请的一种文本处理方法,应用于服务器端或终端,本申请实施例可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。请参考图2,图2是本申请实施例提供的一种文本处理方法的流程示意图,本说明书提供了如实施例或流程图的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或服务器产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图2所示,方法可以包括:
S201:获取目标文本对应的文本分词序列和多个待识别词。
本申请实施例中,目标文本可以为标题或文章段落,可以是用户提交的搜索内容,也可以是待存储和/或待推荐的内容,还可以是从日志数据中提取的文本内容等。文本分词序列是由目标文本中的各分词基于其在目标文本中的位置顺序组成的序列。具体的,可以采用同一分词方式对目标文本进行分词处理,得到各文本分词和由各文本分词基于文本位置顺序形成的文本分词序列;也可以采用一种分词方式对目标文本进行分词处理,得到文本分词序列,采用另一种分词方式对目标文本进行分词处理,得到多个待识别词。
具体的,本申请的文本分析方法可以基于文本分析模型实现。请参考图3,图3示出了一些实施例中文本分析模型的结构,文本分析模型包括文本编码子模型、分词编码子模型、特征融合网络和分类器。具体的,文本编码子模型包括第一嵌入网络和文本编码网络,分词编码子模型包括第二嵌入网络和分词编码网络。文本分析模型的输入层接收文本分词序列和多个待识别词,以执行下述的步骤S203至S207。
具体的,分词处理可以基于现有自然语言处理中的分词方式或分词工具进行处理,也可以采用文本分析模型中预设的分词网络进行分词。将目标文本拆分为更小粒度,例如基于词粒度、字粒度或子词粒度等分词方式。如字符匹配法、理解法、统计法或WordPieceTokenization等。在一些情况下,可以采用同一分词网络对目标文本进行分词处理,得到各文本分词和由各文本分词基于分词位置形成的文本分词序列。在另一些情况下,可以采用第一分词网络得到文本分词序列,采用第二分网络得到各文本分词。
在一些实施例中,对目标文本分词处理得到的各文本分词即为多个待识别词。示例性的,以目标文本为“炸了陈某某高调表白古某某,古某某甜蜜回应恋情?”为例,对该文本进行分词处理后得到的各文本分词分别为“炸”、“陈某某”、“高调”、“表白”、“古某某”、“甜蜜”、“回应”和“恋情”,文本分词序列为“炸/陈某某/高调/表白/古某某/甜蜜/回应/恋情”。
在另一些实施例中,多个待识别词除了上述各文本分词外,还包括组合分词,相应的,请参考图4,步骤S201可以包括以下步骤。
S301:对目标文本进行分词处理,得到文本分词序列和各文本分词。
具体的,步骤S301与前述的分词处理方式相类似,不在赘述。
S302:基于各文本分词在目标文本中的位置顺序,对各文本分词进行组合处理,得到至少一个组合分词。
S303:将各文本分词和至少一个组合分词确定为目标文本对应的多个待识别词。
具体的,将各文本分词进行组合,得到组合分词,可以基于目标文本的阅读顺序对分词进行组合,也可以基于逆序对分词进行组合。可以理解的,可以将至少两个分词进行组合,得到组合分词。组合分词可以是至少两个分词基于位序组合而成的词,如“古某某回应”,也可以是由至少两个分词基于位序拼接而成但相互独立的词序列,如“古某某/回应”,能够分别对其中的分词进行特征提取。
在一些情况下,可以基于位置顺序将统计次数较高的词汇进行组合,也可以基于位置顺序将各分词进行排列组合,得到多个组合分词。以“炸了陈某某高调表白古某某,古某某甜蜜回应恋情?”为例,待识别词中除了各文本分词“炸”、“陈某某”、“高调”、“表白”、“古某某”、“甜蜜”、“回应”和“恋情”,还可以包括组合分词“陈某某表白”、“陈某某高调”、“古某某甜蜜”、“古某某回应”和“古某某恋情”等中的至少一个,或者可以包括组合分词“陈某某/表白”、“陈某某/高调”、“古某某/甜蜜”、“古某某/回应”和“古某某/恋情”等中的至少一个。
S203:分别获取文本分词序列对应的文本特征向量和多个待识别词各自对应的分词特征向量。
本申请实施例中,对文本分词序列进行语义编码处理,得到对应的文本特征向量。分别对多个待识别词进行语义编码处理,得到多个待识别词各自对应的分词特征向量。通过语义编码处理对文本分词序列和多个待识别词进行,以得到对应的文本特征向量和分词特征向量。
在实际应用中,文本分析模型可以包括文本编码子模型和分词编码子模型。可以基于文本编码子模型实现文本分词序列的语义编码处理,文本编码子模型可以包括第一嵌入网络和文本编码网络,相应的,请参考图5,对文本分词序列进行语义编码处理,得到对应的文本特征向量可以包括下述步骤。
S401:采用第一嵌入网络对文本分词序列进行编码处理,得到对应的分词向量序列。
在实际应用中,将文本分词序列输入第一嵌入网络,通过对其进行编码处理实现向量化表征。步骤S401可以具体包括:利用第一嵌入网络对文本分词序列中的各文本分词进行词嵌入处理,得到各词向量。利用第一嵌入网络,基于各文本分词在文本分词序列中的位置对各文本分词进行位置嵌入处理,得到各文本分词的位置向量。对各文本分词的词向量和位置向量进行拼接处理,得到分词向量序列。分词向量序列包括各文本分词各自对应的分词向量。
具体的,第一嵌入网络可以包括词嵌入层、位置嵌入层和连接层。词嵌入层用于利用神经网络模拟文本分词序列中的各文本分词在高维向量中的映射,实现各文本分词的词嵌入处理,得到相应的词向量。位置嵌入层用于对每个文本分词在文本分词序列中的位置进行向量化表征,得到位置向量。连接层用于在得到词向量和位置向量后,对其进行拼接处理,所得到的分词向量序列既保留了目标文本本来的含义,又保留了文本分词在文本中的位置信息,能够完整理解文本的整体语义。上述拼接处理可以包括但不限于简单相加处理或加权相加处理等。
在一个实施例中,文本编码子模型可以基于BERT(Bidirectional EncoderRepresentations from Transformers,基于变换器的双向编码器表示技术)模型构建,BERT模型可以为利用与目标文本类似的文本预料进行预训练得到的预训练模型,也可以为基于其它中/英文语料预训练的得到的预训练模型。BERT模型采用了多层Transformer对文本进行双向学习,能够一次性读取文本并实现特征提取,进而能够更准确地理解分词间的关联关系,提高语义理解程度。
相应的,第一嵌入网络为BERT模型的Embedding网络,词嵌入层为Embedding网络的word embedding层,位置嵌入层为Embedding网络的position embedding层。本申请的文本编码子模型不需要对文本分词序列进行类型嵌入处理,如BERT模型中不设置segmentation embedding层,即无需对文本分词序列进行类型的向量化表征。能够简化模型构建、参数量和预训练过程,以及简化文本分词序列的特征提取流程,并降低文本特征向量的维度,提高模型训练和文本处理效率。此外,还能够有效降低模型的不确定性和对外依赖。
S402:采用文本编码网络基于自注意力机制对分词向量序列进行特征提取,得到文本特征向量。
在实际应用中,将分词向量序列输入文本编码网络进行自注意力处理,以实现其特征提取。文本编码网络包括矩阵转换层和特征提取层,矩阵转换层用于对分词向量序列中的各分词向量进行权重矩阵转换,得到特征矩阵序列。特征提取层用于基于自注意力机制对特征矩阵序列进行自注意力处理,得到文本特征向量。在一些实施例中,矩阵转换层引入Queries,Keys,Values三个权重矩阵,分别与各分词向量相乘得到对应的特征矩阵,并基于各分词向量对应的特征矩阵生成特征矩阵序列。特征提取层可以基于缩放的点积注意力机制或多头自注意力机制等注意力机制构建。在基于多头自注意力机制构建的情况下,特征提取层能够对特征矩阵序列中的各特征矩阵进行分割处理,以将其拆分为预设数量的子矩阵,并基于多头自注意力机制对各子矩阵进行多头自注意力计算,得到各子矩阵的自注意力值,然后根据各子矩阵的自注意力值生成文本特征向量。
在一个实施例中,在文本编码子模型为BERT模型的情况下,文本编码网络为BERT模型的的特征编码器,矩阵转换层为特征编码器的Transformer Encoder层;特征提取层为特征编码器的Multi Head Attention层。请参考图6和7,图6示出了一个文本分词的特征矩阵,图7示出了对图6中特征矩阵的进行分割的示意图,图中的横线表征矩阵分割位置。可以理解的,根据实际需求可以设置预设数量值和子矩阵的长度。
在实际应用中,可以基于分词编码子模型实现多个待识别词的语义编码处理,分词编码子模型可以包括第二嵌入网络和分词编码网络,相应的,请参考图8,分别对多个待识别词进行语义编码处理,得到多个待识别词各自对应的分词特征向量可以包括下述步骤。
S501:采用第二嵌入网络分别对多个待识别词进行特征嵌入处理,得到多个待识别词各自对应的初始分词向量。
具体实施例中,分别将多个待识别词输入第二嵌入网络,通过对其进行特征嵌入处理实现向量化表征。在一些实施例中,多个待识别词由各文本分词组成,第二嵌入网络分别对每个文本分词进行嵌入处理,以得到每个文本分词对应的初始分词向量。在另一些实施例中,多个待识别词包括各文本分词和至少一个组合分词,在组合分词为至少两个分词基于位序组合而成的词的情况下,如“古某某回应”,除分别对各文本分词进行嵌入处理外,还将每个组合分词作为一个整体进行嵌入处理,直接得到对应的初始分词向量;在组合分词是由至少两个分词基于位序拼接而成但相互独立的词序列的情况下,如“古某某/回应”,利用第二嵌入网络分别对组合分词中的各序列词做嵌入处理,再基于分别得到的词向量得到初始分词向量,例如直接将分别得到的词向量作为该待识别词的初始分词向量,或对分别得到的词向量做融合处理,得到初始分词向量。以“古某某/回应”为例,分别对“古某某”和“回应”做特征嵌入处理,得到两个分词各自对应的词向量,可以将两个词向量做融合处理,得到对应的初始分词向量。这里的融合处理可以为拼接、叠加或池化等处理方式。具体的,例如加和、加权加和或点乘等处理方式。
具体的,每个初始分词向量可以包括多个初始子向量。在一些情况下,第二嵌入网络可以包括特征编码层和特征嵌入层,特征编码层用于将输入的待识别词编码为多个分词特征,特征嵌入层用于以每个分词特征作为一个输入域,对输入的各个域进行嵌入处理,进而将多个分词特征映射为多个初始子向量,以得到每个待识别词的初始分词向量。如此,将高维离散的各分词特征进行映射,得到低维稠密的各初始子向量。
在一些实施例中,特征编码层可以用于基于通用的编码技术将分词编码为分词特征;特征嵌入层可以为基于通用的词嵌入神经网络构建的、用于对待识别词进行初始化向量表征的网络。在一个实施例中,特征编码层基于独热编码(One-Hot Encoding)进行待识别词的编码处理,基于One-Hot Encoding方式将每个待识别词编码为多个二元特征。One-Hot Encoding是一位有效编码,是使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效。对于每一个特征,如果它有L个可能值,那么经过独热编码后,就变成了L个二元特征。并且,这些特征互斥,每次只有一个激活。特征嵌入层基于Word2vec构建,以将每个输入的二元特征向量化为初始子向量,以得到初始子向量。在组合分词是由至少两个分词基于位序拼接而成但相互独立的词序列的情况下,以“古某某/回应”为例,特征编码层将“古某某”和“回应”分别编码为各自的二元特征,然后通过特征嵌入层将二元特征映射为向量X1,X2,X3,X4,X5和Y1,Y2,Y3,Y4,则待识别词“古某某/回应”的初始分词向量包括X1,X2,X3,X4,X5,Y1,Y2,Y3和Y4。
S502:采用分词编码网络分别对各初始分词向量进行特征交叉处理,得到多个待识别词各自对应的分词特征向量。
具体实施例中,分词编码网络用于对每个初始分词向量进行特征交叉处理,以实现特征映射和特征提取。例如,输入200维的初始分词向量,经特征映射和提取后得到100维的分词特征向量。如此,能够增加网络的非线性变化,抽象高纬度特征,并通过映射来对齐分词特征向量和文本特征向量的语义空间。具体的,分词编码网络对每个初始分词向量的分词子向量进行特征交叉处理。
一个实施例中,分词编码网络将输入层输入的各分词子向量进行交叉运算,挖掘各分词子向量间的关联,然后将交叉运算得到的交叉特征向量进行全连接处理,进而得到待识别词的分词特征向量。该交叉运算可以包括对各分词子向量进行乘积运算,得到向量积,向量积可以包括外积或内积。如此,能够通过交叉处理挖掘各分词子向量间的关联,进而使得到分词特征向量所携带的信息更加准确和完整,从而能够更准确的确定待识别词对目标文本语义的影响程度。
在一些实施例中,分词编码子模型可以基于DNN或PNN等构建。
S205:基于低秩参数矩阵分别将各分词特征向量与文本特征向量进行特征融合处理,得到多个待识别词各自对应的目标特征向量。
本申请实施例中,在得到文本特征向量和各分词特征向量后,需要分别将每个分词特征向量与文本特征向量进行融合,得到对应的目标特征向量。目标特征向量携带有待识别词对目标文本的语义的影响程度的信息。具体的,上述文本分析模型还可以包括特征融合网络,利用特征融合网络执行上述的特征融合处理。
在一些实施例中,步骤S205可以具体包括:利用低秩参数矩阵分别对各分词特征向量和文本特征向量进行语义空间映射处理,以分别将各分词特征向量与文本特征向量映射至同一语义空间,得到各自对应的目标特征向量。基于低秩参数矩阵对特征向量进行空间映射,能够提高向量融合效果,进而提高目标词的识别准确率。
在一些实施例中,低秩参数矩阵包括第一参数矩阵和第二参数矩阵,上述将各分词特征向量与文本特征向量映射至同一语义空间可以具体包括:分别将各分词特征向量,与第一参数矩阵、第二参数矩阵和文本特征向量相乘,以分别将各分词特征向量与文本特征向量映射至同一语义空间。
在一个实施例中,上述特征融合网络可以基于张量分解的方式对输入的文本特征向量和分词特征向量进行特征融合。相应的,特征融合网络的表达式如下述公式一所示,其中P为目标特征向量,sen_emb表征文本特征向量,word_emb表征分词特征向量,U和V为低秩参数矩阵,U表征m×k的第一参数矩阵,V表征n×k第二参数矩阵。
P=sen_emb*(U*VT)*word_embT (一)
进一步地,其中,Ui∈Rm*k,Vi∈Rn*k,k<<min(m,n),由于k比m,n都小,通过第一参数矩阵和第二参数矩阵来近似高维张量,其引入的参数量远小于高维张量引入的参数量,从而减少参数量,提高模型训练效率和文本分析效率。
S207:根据目标特征向量从多个待识别词中识别出目标文本对应的目标词。
本申请实施例中,目标词为对目标文本的语义的影响程度大于等于预设程度的词,既为目标文本中的核心词。在一些实施例中,S207可以包括下述步骤。
S601:根据目标特征向量确定多个待识别词各自的分词权重信息,分词权重信息表征待识别词对目标文本的语义的影响程度。
S602:将满足预设识别条件的分词权重信息对应的待识别词确定为目标词。
在实际应用中,预设识别条件包括分词权重信息确定出对应的待识别词的分词权重大于或等于权重阈值,或文本分析模型根据分词权重信息输出的模型结果表征对应的待识别词为目标词,如1表征是目标词,0表征不是目标词。可以理解的,权重阈值可以基于实际需求确定,例如在最高权重值为100%的情况下,设定权重阈值为60%。
以前述的目标文本“炸了陈某某高调表白古某某,古某某甜蜜回应恋情?”为例,在待识别词为各文本分词的情况下,其多个待识别词和分词权重信息分别为,“陈某某:0.95”,“古某某:0.90”,“表白:0.87”,“恋情:0.82”,“甜蜜:0.14”,“回应:0.36”,“高调:0.01”和“炸:0.01”。当词权重大于等于0.5的待识别词为目标词时,“陈某某”,“古某某”,“表白”和“恋情”为目标词。在待识别词还包括组合分词的情况下,除上述文本分词的词权重信息外,还包括组合分词的词权重信息,“陈某某表白:0.81”,“陈某某高调:0.23”,“古某某甜蜜:0.27”,“古某某恋情:0.82”和“古某某回应:0.62”等,也就是说,除上述目标词外,“陈某某表白”,“古某某恋情”和“古某某回应”也是目标词。如此,通过组合分词能够扩展和泛化待识别词的范围,而基于位序确定组合分词在扩展待识别词范围的同时,能够避免引入无效分词,然后通过对组合分词进行特征提取和分类识别,能够提高语义理解的准确性和完整性,进而在后续的文本检索、网络监管和推荐任务等应用中,能够通过组合分词进行内容筛选和匹配,提高匹配效率、准确性且避免内容漏筛。
在一些实施例中,可以基于文本分析模型的分类器执行上述步骤S207。具体的,将目标特征向量输入分类器进行分类,以识别对应的待识别词是否为目标词。在一个实施例中,分类器可以进行二分类运算,直接输出目标特征向量对应的分类结果,示例性的,分类结果可以用0和1表征,0表征非目标词,1表征目标词。
综上,本申请以待识别词为单位进行目标词识别,能够增加识别范围,有利于后续应用过程中的目标词匹配的筛选和准确性,且基于低秩参数矩阵进行特征融合,能够降低引入的参数量,提高训练效率和文本分析效率,以及目标词识别的准确性。
基于上述实施方式,本申请还提供一种文本分析模型训练方法。以下结合图和图中的文本分析模型的结构介绍文本分析模型的训练方法。
S701:获取训练数据集,训练数据集包括多个样本文本和样本文本对应的词标签。
在实际应用中,样本文本可以为与目标文本同类别或相类似的语料,也可以为其它普适性的训练语料。词标签表征对应的样本词是否为样本文本的核心词,每条样本文本可以泛化出多条正训练样本和负训练样本,在二分类中,词标签可以以1或0来表征。或者,词标签可以为对应的样本词在样本文本中词权重。示例性的,样本文本为“跳一跳,包你跳上500分的高级全套攻略”,其中各样本词和权重值分别为“跳一跳:0.97#攻略:0.93#全套:0.81#高级:0.16#跳上:0.03#跳一跳跳上:0.32#跳一跳攻略:0.96#高级攻略:0.66#跳上攻略0.58”。训练数据由样本文本和正负样本词构成,例如{“跳一跳,包你跳上500分的高级全套攻略”,“跳一跳”}即为正样本,若其中的“跳一跳”换为“高级”,则为负样本。训练数据的输入格式可以为{“文本”:“跳一跳,包你跳上500分的高级全套攻略”,“当前词”:“跳一跳”,“label”:1},{“文本”:“跳一跳,包你跳上500分的高级全套攻略”,“当前词”:“高级”,“label”:0},上述两条分别为文本分析模型的正负输入样本格式。可以理解的,词标签和输入样本格式不限于上述描述,可以根据实际需求更改和设定,本申请不做限制。
在实际应用中,在将训练数据输入文本分析模型前,将样本文本进行分词处理,得到样本文本分词序列,该过程与前述的分词处理过程相类似,不再赘述。
S703:以训练数据作为初始分析模型的输入,以词标签作为初始分析模型的期望输出,对初始分析模型进行样本词类别识别的约束训练,得到文本分析模型。
具体的,初始分析模型的结构与前述的文本分析模型的结构相类似。初始分析模型对训练数据的处理过程与前述步骤S203-S205相类似,得到训练数据对应的样本特征向量,然后基于初始分析模型的分类器确定样本特征向量对应的词权重或词分类;基于预设损失函数对词权重和词标签进行计算,或对词分类和词标签进行计算,得到当前的损失值;进而判断损失值是否满足训练收敛条件,若满足,将当前的模型参数作为最终的模型参数,得到文本分析模型;若不满足,基于梯度下降法等进行模型的迭代训练,至得到的损失值满足训练收敛条件。其中,模型参数包括前述的低秩参数矩阵。在一些实施例中,初始分析模型的损失函数如下述公式二所示,其中,其中yi取值0或者1,表征第i条训练数据的词标签,表征当前词是否为核心词。ai为第i条训练数据的预测值,表征当前词的预测的词权重。
需要说明的是,损失函数也可以根据实际需求设定为其它形式,本申请不做限制。
本申请实施例还提供了一种文本处理装置800,如图9所示,图9示出了本申请实施例提供的一种文本处理装置的结构示意图,装置可以包括:
第一获取模块10:用于获取目标文本对应的文本分词序列和多个待识别词。
第二获取模块20:用于分别获取文本分词序列对应的文本特征向量和多个待识别词各自对应的分词特征向量。
特征融合模块30:用于基于低秩参数矩阵分别将各分词特征向量与文本特征向量进行特征融合处理,得到多个待识别词各自对应的目标特征向量。
分词识别模块40:用于根据目标特征向量从多个待识别词中识别出目标文本对应的目标词。
在一些实施例中,特征融合模块30可以具体用于:利用低秩参数矩阵分别对各分词特征向量和文本特征向量进行语义空间映射处理,以分别将各分词特征向量与文本特征向量映射至同一语义空间,得到各自对应的目标特征向量。
在一些实施例中,低秩参数矩阵包括第一参数矩阵和第二参数矩阵,特征融合模块30可以进一步具体用于:分别将各分词特征向量,与第一参数矩阵、第二参数矩阵和文本特征向量相乘,以分别将各分词特征向量与文本特征向量映射至同一语义空间。
在一些实施例中,第二获取模块20可以包括:
第一编码子模块:用于对文本分词序列进行语义编码处理,得到对应的文本特征向量。
第二编码子模块:用于分别对多个待识别词进行语义编码处理,得到所述多个待识别词各自对应的分词特征向量。
在一些实施例中,第一编码子模块可以包括:
分词序列编码单元:用于采用第一嵌入网络对文本分词序列进行编码处理,得到对应的分词向量序列。
特征提取单元:用于采用文本编码网络基于自注意力机制对分词向量序列进行特征提取,得到文本特征向量。
在一些实施例中,第二编码子模块可以包括:
特征嵌入单元:用于采用第二嵌入网络分别对多个待识别词进行特征嵌入处理,得到多个待识别词各自对应的初始分词向量。
特征交叉单元:用于采用分词编码网络分别对各初始分词向量进行特征交叉处理,得到所述多个待识别词各自对应的分词特征向量。
在一些实施例中,分词序列编码单元可以包括:
词嵌入子单元:用于利用第一嵌入网络对文本分词序列中的各文本分词进行词嵌入处理,得到各词向量。
位置嵌入子单元:用于利用第一嵌入网络,基于各文本分词在文本分词序列中的位置对各文本分词进行位置嵌入处理,得到各文本分词的位置向量。
拼接子单元:用于对各文本分词的词向量和位置向量进行拼接处理,得到分词向量序列。
在一些实施例中,第一获取模块10可以包括:
分词处理子模块:用于对目标文本进行分词处理,得到文本分词序列和各文本分词。
分词组合子模块:用于基于各文本分词在目标文本中的位置顺序,对各文本分词进行组合处理,得到至少一个组合分词。
待识别词确定子模块:用于将各文本分词和至少一个组合分词确定为目标文本对应的多个待识别词。
在一些实施例中,分词识别模块40可以包括:
分词权重确定子模块:用于根据目标特征向量确定多个待识别词各自的分词权重信息,分词权重信息表征待识别词对目标文本的语义的影响程度。
目标词确定子模块:用于将满足预设识别时条件的分词权重信息对应的待识别词确定为目标词。
上述装置实施例与方法实施例基于相同的实施方式。
本申请实施例提供了一种文本处理设备,该文本处理设备包括处理器和存储器,该存储器中存储有至少一条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并执行以实现如上述方法实施例所提供的文本处理方法。
存储器可用于存储软件程序以及模块,处理器通过运行存储在存储器的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、功能所需的应用程序等;存储数据区可存储根据设备的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器还可以包括存储器控制器,以提供处理器对存储器的访问。
本申请实施例所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的运算装置等电子设备中执行。图10是本申请实施例提供的一种文本处理方法的电子设备的硬件结构框图。如图10所示,该电子设备900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central Processing Units,CPU)910(处理器910可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器930,一个或一个以上存储应用程序923或数据922的存储介质920(例如一个或一个以上海量存储设备)。其中,存储器930和存储介质920可以是短暂存储或持久存储。存储在存储介质920的程序可以包括一个或一个以上模块,每个模块可以包括对电子设备中的一系列指令操作。更进一步地,中央处理器910可以设置为与存储介质920通信,在电子设备900上执行存储介质920中的一系列指令操作。电子设备900还可以包括一个或一个以上电源960,一个或一个以上有线或无线网络接口950,一个或一个以上输入输出接口940,和/或,一个或一个以上操作系统921,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
输入输出接口940可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括电子设备900的通信供应商提供的无线网络。在一个实例中,输入输出接口940包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,输入输出接口940可以为射频(RadioFrequency,RF)模块,其用于通过无线方式与互联网进行通讯。
本领域普通技术人员可以理解,图10所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,电子设备900还可包括比图10中所示更多或者更少的组件,或者具有与图10所示不同的配置。
本申请的实施例还提供了一种计算机可读存储介质,存储介质可设置于电子设备之中以保存用于实现方法实施例中一种文本处理方法相关的至少一条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述方法实施例提供的文本处理方法。
可选地,在本实施例中,上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选实现方式中提供的方法。
由上述本申请提供的文本处理方法、装置、设备、服务器或存储介质的实施例可见,本申请在获取目标文本对应的文本分词序列和多个待识别词后,分别获取文本分词序列对应的文本特征向量和所述多个待识别词各自对应的分词特征向量,并基于低秩参数矩阵分别将各分词特征向量与文本特征向量进行特征融合处理,得到多个待识别词各自对应的目标特征向量;然后根据目标特征向量从多个待识别词中识别出目标文本对应的目标词。基于上述方案,本申请以待识别词为单位进行目标词识别,能够增加识别范围,有利于后续应用过程中的目标词匹配的筛选和准确性,且基于低秩参数矩阵进行特征融合,能够降低引入的参数量,提高训练效率和文本分析效率,以及目标词识别的准确性。
需要说明的是:上述本申请实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、设备和存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指示相关的硬件完成,的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种文本处理方法,其特征在于,所述方法包括:
获取目标文本对应的文本分词序列和多个待识别词;
分别获取所述文本分词序列对应的文本特征向量和所述多个待识别词各自对应的分词特征向量;
基于低秩参数矩阵分别将各分词特征向量与所述文本特征向量进行特征融合处理,得到所述多个待识别词各自对应的目标特征向量;
根据所述目标特征向量从所述多个待识别词中识别出所述目标文本对应的目标词。
2.根据权利要求1所述的方法,其特征在于,所述基于低秩参数矩阵分别将各分词特征向量与所述文本特征向量进行特征融合处理,得到所述多个待识别词各自对应的目标特征向量包括:
利用所述低秩参数矩阵分别对所述各分词特征向量和所述文本特征向量进行语义空间映射处理,以分别将所述各分词特征向量与所述文本特征向量映射至同一语义空间,得到所述各自对应的目标特征向量。
3.根据权利要求2所述的方法,其特征在于,所述低秩参数矩阵包括第一参数矩阵和第二参数矩阵,所述利用所述低秩参数矩阵分别对所述各分词特征向量和所述文本特征向量进行语义空间映射处理,以分别将所述各分词特征向量与所述文本特征向量映射至同一语义空间包括:
分别将所述各分词特征向量,与所述第一参数矩阵、第二参数矩阵和所述文本特征向量相乘,以分别将所述各分词特征向量与所述文本特征向量映射至同一语义空间。
4.根据权利要求1所述的方法,其特征在于,分别获取所述文本分词序列对应的文本特征向量和所述多个待识别词各自对应的分词特征向量包括:
对所述文本分词序列进行语义编码处理,得到对应的文本特征向量;
分别对所述多个待识别词进行语义编码处理,得到所述所述多个待识别词各自对应的分词特征向量。
5.根据权利要求4所述的方法,其特征在于,所述对所述文本分词序列进行语义编码处理,得到对应的文本特征向量包括:
采用第一嵌入网络对所述文本分词序列进行编码处理,得到对应的分词向量序列;
采用文本编码网络基于自注意力机制对所述分词向量序列进行特征提取,得到所述文本特征向量。
6.根据权利要求4所述的方法,其特征在于,所述分别对所述多个待识别词进行语义编码处理,得到所述所述多个待识别词各自对应的分词特征向量包括:
采用第二嵌入网络分别对所述多个待识别词进行特征嵌入处理,得到多个待识别词各自对应的初始分词向量;
采用分词编码网络分别对各所述初始分词向量进行特征交叉处理,得到所述所述多个待识别词各自对应的分词特征向量。
7.根据权利要求5所述的方法,其特征在于,所述采用第一嵌入网络对所述文本分词序列进行编码处理,得到对应的分词向量序列包括:
利用所述第一嵌入网络对所述文本分词序列中的各文本分词进行词嵌入处理,得到所述各词向量;
利用所述第一嵌入网络,基于所述各文本分词在所述文本分词序列中的位置对所述各文本分词进行位置嵌入处理,得到所述各文本分词的位置向量;
对所述各文本分词的词向量和位置向量进行拼接处理,得到所述分词向量序列。
8.根据权利要求1所述的方法,其特征在于,所述获取目标文本对应的文本分词序列和多个待识别词包括:
对目标文本进行分词处理,得到所述文本分词序列和各文本分词;
基于所述各文本分词在所述目标文本中的位置顺序,对所述各文本分词进行组合处理,得到至少一个组合分词;
将所述各文本分词和所述至少一个组合分词确定为所述目标文本对应的多个待识别词。
9.根据权利要求1所述的方法,其特征在于,所述根据所述目标特征向量从所述多个待识别词中识别出所述目标文本对应的目标词包括:
根据所述目标特征向量确定所述多个待识别词各自的分词权重信息,所述分词权重信息表征所述待识别词对所述目标文本的语义的影响程度;
将满足预设识别条件的分词权重信息对应的待识别词确定为所述目标词。
10.一种文本处理装置,其特征在于,所述装置包括:
第一获取模块:用于获取目标文本对应的文本分词序列和多个待识别词;
第二获取模块:用于分别获取所述文本分词序列对应的文本特征向量和所述多个待识别词各自对应的分词特征向量;
特征融合模块:用于基于低秩参数矩阵分别将各分词特征向量与所述文本特征向量进行特征融合处理,得到所述多个待识别词各自对应的目标特征向量;
分词识别模块:用于根据所述目标特征向量从所述多个待识别词中识别出所述目标文本对应的目标词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111130296.5A CN113919344B (zh) | 2021-09-26 | 2021-09-26 | 文本处理方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111130296.5A CN113919344B (zh) | 2021-09-26 | 2021-09-26 | 文本处理方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113919344A true CN113919344A (zh) | 2022-01-11 |
CN113919344B CN113919344B (zh) | 2022-09-23 |
Family
ID=79236273
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111130296.5A Active CN113919344B (zh) | 2021-09-26 | 2021-09-26 | 文本处理方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113919344B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114334159A (zh) * | 2022-03-16 | 2022-04-12 | 四川大学华西医院 | 一种术后风险预测自然语言数据增强模型及方法 |
CN114358210A (zh) * | 2022-01-14 | 2022-04-15 | 平安科技(深圳)有限公司 | 文本相似度计算方法、装置、计算机设备及存储介质 |
CN115292620A (zh) * | 2022-08-09 | 2022-11-04 | 腾讯科技(深圳)有限公司 | 地域信息识别方法、装置、电子设备和存储介质 |
CN115600646A (zh) * | 2022-10-19 | 2023-01-13 | 北京百度网讯科技有限公司(Cn) | 语言模型的训练方法、装置、介质及设备 |
CN116757204A (zh) * | 2023-08-22 | 2023-09-15 | 北京亚信数据有限公司 | 一种医疗名称的映射方法、训练方法、装置、介质及设备 |
CN117076596A (zh) * | 2023-10-16 | 2023-11-17 | 微网优联科技(成都)有限公司 | 应用人工智能的数据存储方法、装置及服务器 |
CN117743838A (zh) * | 2024-02-20 | 2024-03-22 | 卓世智星(成都)科技有限公司 | 用于大语言模型的数据知识提取方法 |
WO2024067471A1 (zh) * | 2022-09-26 | 2024-04-04 | 广州小鹏汽车科技有限公司 | 语音识别方法、服务器、语音识别系统和可读存储介质 |
WO2024087298A1 (zh) * | 2022-10-27 | 2024-05-02 | 苏州思萃人工智能研究所有限公司 | 文本处理方法、装置、电子设备及存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103870575A (zh) * | 2014-03-19 | 2014-06-18 | 北京百度网讯科技有限公司 | 一种提取领域关键词的方法及装置 |
CN105912524A (zh) * | 2016-04-09 | 2016-08-31 | 北京交通大学 | 基于低秩矩阵分解的文章话题关键词提取方法和装置 |
US20170192958A1 (en) * | 2015-12-31 | 2017-07-06 | Accenture Global Solutions Limited | Input entity identification from natural language text information |
CN109784163A (zh) * | 2018-12-12 | 2019-05-21 | 中国科学院深圳先进技术研究院 | 一种轻量视觉问答系统及方法 |
CN112580352A (zh) * | 2021-03-01 | 2021-03-30 | 腾讯科技(深圳)有限公司 | 关键词提取方法、装置和设备及计算机存储介质 |
CN112818213A (zh) * | 2020-10-14 | 2021-05-18 | 腾讯科技(上海)有限公司 | 多媒体业务数据推送方法、装置、设备及存储介质 |
CN113157927A (zh) * | 2021-05-27 | 2021-07-23 | 中国平安人寿保险股份有限公司 | 文本分类方法、装置、电子设备及可读存储介质 |
-
2021
- 2021-09-26 CN CN202111130296.5A patent/CN113919344B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103870575A (zh) * | 2014-03-19 | 2014-06-18 | 北京百度网讯科技有限公司 | 一种提取领域关键词的方法及装置 |
US20170192958A1 (en) * | 2015-12-31 | 2017-07-06 | Accenture Global Solutions Limited | Input entity identification from natural language text information |
CN105912524A (zh) * | 2016-04-09 | 2016-08-31 | 北京交通大学 | 基于低秩矩阵分解的文章话题关键词提取方法和装置 |
CN109784163A (zh) * | 2018-12-12 | 2019-05-21 | 中国科学院深圳先进技术研究院 | 一种轻量视觉问答系统及方法 |
CN112818213A (zh) * | 2020-10-14 | 2021-05-18 | 腾讯科技(上海)有限公司 | 多媒体业务数据推送方法、装置、设备及存储介质 |
CN112580352A (zh) * | 2021-03-01 | 2021-03-30 | 腾讯科技(深圳)有限公司 | 关键词提取方法、装置和设备及计算机存储介质 |
CN113157927A (zh) * | 2021-05-27 | 2021-07-23 | 中国平安人寿保险股份有限公司 | 文本分类方法、装置、电子设备及可读存储介质 |
Non-Patent Citations (1)
Title |
---|
邬启为: "基于向量空间的文本聚类方法与实现", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114358210A (zh) * | 2022-01-14 | 2022-04-15 | 平安科技(深圳)有限公司 | 文本相似度计算方法、装置、计算机设备及存储介质 |
CN114334159A (zh) * | 2022-03-16 | 2022-04-12 | 四川大学华西医院 | 一种术后风险预测自然语言数据增强模型及方法 |
CN114334159B (zh) * | 2022-03-16 | 2022-06-17 | 四川大学华西医院 | 一种术后风险预测自然语言数据增强模型及方法 |
CN115292620A (zh) * | 2022-08-09 | 2022-11-04 | 腾讯科技(深圳)有限公司 | 地域信息识别方法、装置、电子设备和存储介质 |
WO2024067471A1 (zh) * | 2022-09-26 | 2024-04-04 | 广州小鹏汽车科技有限公司 | 语音识别方法、服务器、语音识别系统和可读存储介质 |
CN115600646B (zh) * | 2022-10-19 | 2023-10-03 | 北京百度网讯科技有限公司 | 语言模型的训练方法、装置、介质及设备 |
CN115600646A (zh) * | 2022-10-19 | 2023-01-13 | 北京百度网讯科技有限公司(Cn) | 语言模型的训练方法、装置、介质及设备 |
WO2024087298A1 (zh) * | 2022-10-27 | 2024-05-02 | 苏州思萃人工智能研究所有限公司 | 文本处理方法、装置、电子设备及存储介质 |
CN116757204A (zh) * | 2023-08-22 | 2023-09-15 | 北京亚信数据有限公司 | 一种医疗名称的映射方法、训练方法、装置、介质及设备 |
CN116757204B (zh) * | 2023-08-22 | 2023-10-31 | 北京亚信数据有限公司 | 一种医疗名称的映射方法、训练方法、装置、介质及设备 |
CN117076596A (zh) * | 2023-10-16 | 2023-11-17 | 微网优联科技(成都)有限公司 | 应用人工智能的数据存储方法、装置及服务器 |
CN117076596B (zh) * | 2023-10-16 | 2023-12-26 | 微网优联科技(成都)有限公司 | 应用人工智能的数据存储方法、装置及服务器 |
CN117743838A (zh) * | 2024-02-20 | 2024-03-22 | 卓世智星(成都)科技有限公司 | 用于大语言模型的数据知识提取方法 |
CN117743838B (zh) * | 2024-02-20 | 2024-04-30 | 卓世智星(成都)科技有限公司 | 用于大语言模型的数据知识提取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113919344B (zh) | 2022-09-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113919344B (zh) | 文本处理方法和装置 | |
CN113094200B (zh) | 一种应用程序的故障预测方法和装置 | |
CN111859960B (zh) | 基于知识蒸馏的语义匹配方法、装置、计算机设备和介质 | |
CN110597991B (zh) | 文本分类方法、装置、计算机设备及存储介质 | |
CN111241851A (zh) | 语义相似度确定方法、装置及处理设备 | |
CN112800234B (zh) | 信息处理方法、装置、电子设备和存储介质 | |
CN113327279B (zh) | 一种点云数据处理方法、装置、计算机设备及存储介质 | |
CN113268609A (zh) | 基于知识图谱的对话内容推荐方法、装置、设备及介质 | |
CN114330312A (zh) | 标题文本处理方法、装置、存储介质和程序 | |
CN114298121A (zh) | 基于多模态的文本生成方法、模型训练方法和装置 | |
CN112597984B (zh) | 图像数据处理方法、装置、计算机设备和存储介质 | |
CN112749556B (zh) | 多语言模型的训练方法和装置、存储介质和电子设备 | |
CN113298197A (zh) | 数据聚类方法、装置、设备及可读存储介质 | |
CN113822315A (zh) | 属性图的处理方法、装置、电子设备及可读存储介质 | |
CN114297338B (zh) | 文本匹配方法、装置、存储介质和程序产品 | |
CN113836866B (zh) | 文本编码方法、装置、计算机可读介质及电子设备 | |
CN115391499A (zh) | 生成多任务生成模型的方法、问答对生成方法和相关装置 | |
CN114330966A (zh) | 一种风险预测方法、装置、设备以及可读存储介质 | |
CN110866119A (zh) | 一种文章质量的确定方法、装置、电子设备及存储介质 | |
CN113887237A (zh) | 多意图文本的槽位预测方法、装置及计算机设备 | |
CN114357151A (zh) | 文本类目识别模型的处理方法、装置、设备及存储介质 | |
CN113128196A (zh) | 文本信息处理方法及其装置、存储介质 | |
CN114282055A (zh) | 视频特征提取方法、装置、设备及计算机存储介质 | |
CN113641797A (zh) | 数据处理方法、装置、设备、存储介质及计算机程序产品 | |
CN113536784A (zh) | 文本处理方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |