CN112559732A - 文本处理方法、装置和系统 - Google Patents

文本处理方法、装置和系统 Download PDF

Info

Publication number
CN112559732A
CN112559732A CN201910911916.5A CN201910911916A CN112559732A CN 112559732 A CN112559732 A CN 112559732A CN 201910911916 A CN201910911916 A CN 201910911916A CN 112559732 A CN112559732 A CN 112559732A
Authority
CN
China
Prior art keywords
word
text
recognized
processed
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910911916.5A
Other languages
English (en)
Inventor
郝琪
温伟高
李东
柯力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910911916.5A priority Critical patent/CN112559732A/zh
Publication of CN112559732A publication Critical patent/CN112559732A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Character Discrimination (AREA)

Abstract

本申请公开了一种文本处理方法、装置和系统。其中,该方法包括:获取待处理文本中的待识别词;在检测到预设向量表中不存在待识别词对应的词向量的情况下,从待处理文本中获取与待识别词的位置关联的候选词;将候选词与待识别词进行组合,得到组合词;从预设向量表中查询与组合词对应的目标词向量,基于目标词向量对待处理文本进行分类处理。本申请解决了相关技术在对文本进行分类处理时,采用默认词向量作为所有在词向量表中查询不到词向量的词的词向量,导致文本分类准确率低的技术问题。

Description

文本处理方法、装置和系统
技术领域
本申请涉及文本处理领域,具体而言,涉及一种文本处理方法、装置和系统。
背景技术
随着科学技术的发展,人么获取到的信息也越来越多,为了使人们能够从大量信息中获取到更有价值的信息,通常需要对信息进行分类处理,其中,对于文本信息通常需要进行文本分类。
在对文本进行文本分类,尤其是对中文文本进行中文文本分类的过程中,通常使用深度学习模型来进行文本分类,文本对应的句子中的每个词可以使用K维向量表示,则句子可以表示为N*K的矩阵,以作为深度学习模型的输入,其中,N为句子中词的个数。
另外,词向量通常是通过语料库内的数据训练得到的,对于同音字变异后的字词,例如,“生气”变异后的字词为“升旗”、“升起”等,在词向量对应的表中无法查找到对应的K维向量,现有技术中通常采用默认向量来代替该字词的向量。然而,将所有查询不到向量的词的向量均统一为默认向量,无疑会丢失文本中的重要信息,进而导致文本分类不准确,例如,在对网购中的评论进行分类的场景中,对于文本“我很生气”,一些电商将“生气”变异为“升旗”,而词向量对应的表中不存在“升旗”对应的词向量,此时采用默认的向量来代替,在对文本“我很生气”进行分类的过程中,由于词向量对应的表中查询不到“升旗”对应的词向量,系统无法识别对文本进行准确识别,从而导致评论分类错误。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种文本处理方法、装置和系统,以至少解决相关技术在对文本进行分类处理时,采用默认词向量作为所有在词向量表中查询不到词向量的词的词向量,导致文本分类准确率低的技术问题。
根据本申请实施例的一个方面,提供了一种文本处理方法,包括:获取待处理文本中的待识别词;在检测到预设向量表中不存在待识别词对应的词向量的情况下,从待处理文本中获取与待识别词的位置关联的候选词;将候选词与待识别词进行组合,得到组合词;从预设向量表中查询与组合词对应的目标词向量,基于目标词向量对待处理文本进行分类处理。
根据本申请实施例的另一方面,还提供了一种文本处理方法,包括:获取待处理文本中的待识别词;从待处理文本中获取与待识别词的位置关联的候选词;根据候选词以及待识别词从预设向量表中得到目标词向量;基于目标词向量对待处理文本进行分类处理。
根据本申请实施例的另一方面,还提供了一种文本处理方法,包括:获取待处理文本中的待识别词;在检测到预设向量表中不存在待识别词对应的词向量的情况下,从待处理文本中获取与待识别词的位置关联的候选词;将候选词与待识别词进行组合,得到组合词;从预设向量表中查询与组合词对应的目标词向量,基于目标词向量确定推荐信息。
根据本申请实施例的另一方面,还提供了一种文本处理方法,包括:获取待处理文本中的待识别词;从待处理文本中获取与待识别词的位置关联的候选词;根据候选词以及待识别词从预设向量表中得到目标词向量;基于目标词向量确定推荐信息。
根据本申请实施例的另一方面,还提供了一种文本处理方法,包括:获取待处理文本中的待识别词;在检测到预设向量表中不存在待识别词的情况下,获取待识别词在待处理文本中的上下文;基于待识别词在待处理文本中的上下文,从预设向量表中查询与待识别词对应的替换词;使用替换词替换待识别词,并基于替换后的待处理文本进行分类处理。
根据本申请实施例的另一方面,还提供了一种文本处理方法,包括:获取待处理文本中的待识别词;在检测到预设向量表中不存在待识别词的情况下,获取待识别词在待处理文本中的上下文;基于待识别词在待处理文本中的上下文,从预设向量表中查询与待识别词对应的替换词;使用替换词替换待识别词,并基于替换后的待处理文本确定推荐信息。
根据本申请实施例的另一方面,还提供了一种文本处理装置,包括:第一获取模块,用于获取待处理文本中的待识别词;第二获取模块,用于在检测到预设向量表中不存在待识别词对应的词向量的情况下,从待处理文本中获取与待识别词的位置关联的候选词;组合模块,用于将候选词与待识别词进行组合,得到组合词;处理模块,用于从预设向量表中查询与组合词对应的目标词向量,基于目标词向量对待处理文本进行分类处理。
根据本申请实施例的另一方面,还提供了一种文本处理系统,包括:输入单元,用于输入待处理文本;处理单元,用于从待处理文本中获取待识别词,并在检测到预设向量表中不存在待识别词对应的词向量的情况下,从待处理文本中获取与待识别词的位置关联的候选词,然后将候选词与待识别词进行组合,得到组合词,并从预设向量表中查询与组合词对应的目标词向量,最后基于目标词向量对待处理文本进行分类处理;输出单元,用于输出处理单元对待处理文本进行分类处理的处理结果。
根据本申请实施例的另一方面,还提供了一种存储介质,该存储介质包括存储的程序,其中,在程序运行时控制存储介质所在设备执行文本处理方法。
根据本申请实施例的另一方面,还提供了一种处理器,该处理器用于运行程序,其中,程序运行时执行文本处理方法。
在本申请实施例中,采用查询待识别词的组合词的词向量的方式,在获取到待处理文本中的待识别词,并在检测到预设向量表中不存在待识别词对应的词向量的情况下,从待处理文本中获取与待识别词的位置关联的候选词,然后将候选词与待识别词进行组合,得到组合词,最后从预设向量表中查询与组合词对应的目标词向量,并基于目标词向量对待处理文本进行分类处理。
在上述过程中,在预设向量表中不存在待识别词对应的词向量时,在预设向量表中查询待识别词对应的组合词对应的词向量,充分利用了文本中各个字词之间的关联,使用组合词对应的词向量来对文本进行分类处理,避免了采用统一的默认词向量代替在词向量表中查询不到词向量的词的向量所导致的文本信息丢失的问题,弥补了分词不准确所导致的降低文本分类的准确率的影响,达到了文本进行分类的目的,从而实现了提高文本分类准确率的技术效果,进而解决了相关技术在对文本进行分类处理时,采用默认词向量作为所有在词向量表中查询不到词向量的词的词向量,导致文本分类准确率低的技术问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的一种实现文本处理方法的计算设备的示意图;
图2是根据本申请实施例的一种文本处理方法的流程图;
图3是根据本申请实施例的一种可选的文本处理方法的流程图;
图4是根据本申请实施例的一种可选的评论界面示意图;
图5是根据本申请实施例的一种可选的评论界面示意图;
图6是根据本申请实施例的一种可选的分词示意图;
图7是根据本申请实施例的一种可选的分词示意图;
图8是根据本申请实施例的一种可选的商品推荐示意图;
图9是根据本申请实施例的一种文本处理方法的流程图;
图10是根据本申请实施例的一种文本处理装置的示意图;
图11是根据本申请实施例的一种计算设备的结构框图;
图12是根据本申请实施例的一种文本处理方法的流程图;
图13是根据本申请实施例的一种文本处理方法的流程图;
图14是根据本申请实施例的一种文本处理方法的流程图;
图15是根据本申请实施例的一种可选的商品推荐示意图;以及
图16是根据本申请实施例的一种文本处理方法的流程图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本申请实施例,还提供了一种文本处理方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例一所提供的方法实施例可以在移动终端、计算设备或者类似的运算装置中执行。图1示出了一种用于实现文本处理方法的计算设备(或移动设备)的硬件结构框图。如图1所示,计算设备10(或移动设备10)可以包括一个或多个(图中采用102a、102b,……,102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(BUS总线)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算设备10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算设备10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器104可用于存储应用软件的软件程序以及模块,如本申请实施例中的文本处理方法对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的文本处理方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算设备10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算设备10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算设备10(或移动设备)的用户界面进行交互。
此处需要说明的是,在一些可选实施例中,上述图1所示的计算机设备(或移动设备)可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是,图1仅为特定具体实例的一个实例,并且旨在示出可存在于上述计算机设备(或移动设备)中的部件的类型。
在上述运行环境下,本申请提供了如图2所示的文本处理方法。图2是根据本申请实施例一的文本处理方法的流程图,如图2所示,该方法包括如下步骤:
步骤S202,获取待处理文本中的待识别词。
在步骤202中,文本处理系统可以获取到待处理文本,并从待处理文本中得到待识别词,其中,待处理文本可以为用户主动向文本处理系统输入的文本,也可以是文本处理系统从预设位置读取到的文本,优选的,在本申请中,待处理文本为中文文本,例如,在电商领域,在对商品评论进行分类的场景中,文本处理系统可以获取电商平台上某个商家的某个商品中的评论,其中,商品的评论通常为文本形式,文本处理系统可以对商品的评论进行分类,例如,在图4所示的评论界面示意图中,将用户11的评论“物流太迅速了”、用户14的评论“物流很快,第二天就收到了”等评论归类为电商平台的“物流很快”属性中,例如,在图5所示的评论界面示意图中,仅展示与物流相关的评论。
在一种可选的实施例中,在得到待处理文本之后,文本处理系统对待处理文本进行预处理,得到处理后的待处理文本,然后对处理后的待处理文本进行分词处理,得到多个分词,最后从多个分词中确定待识别词。其中,在对待处理文本进行预处理的过程中,文本处理系统主要是去除待处理文本的噪声信息,噪声信息包括但不限于无效字符、HTML标签等,同时文本处理系统还对待处理文本进行格式转换,将其转换为文本处理系统能够处理的格式。在对待处理文本进行预处理之后,文本处理系统可以采用现有的分词算法对预处理后的待处理文本进行分词处理,得到待识别词,其中,待识别词为待处理文本中的任意一个词,例如,如图6所示的分词示意图,可以将“物流太迅速了”进行分词处理,得到“物流”、“太”、“迅速”、“了”等词,待识别词可以为“物流”、“太”、“迅速”、“了”中的任意一个。
可选的,文本处理系统可以按照分词顺序来确定待识别词,例如,在待处理文本“物流太迅速了”中,首先将“物流”作为待识别词,在确定了待识别词对应的词向量之后,再将“太”作为待识别词来确定其对应的词向量。
步骤S204,在检测到预设向量表中不存在待识别词对应的词向量的情况下,从待处理文本中获取与待识别词的位置关联的候选词。
在步骤S204中,预设向量表为通过预训练得到的向量表,该预设向量表中存储有词对应的词向量。需要说明的是,由于预设向量表通过预训练得到的,因此,预设向量表中不可能存储有所有词对应的词向量,例如,预设向量表中存储有“吃饭”对应的词向量,但没有存储“池饭”对应的词向量。
另外,在步骤S204中,待识别词的位置为待识别词在待处理文本中的位置,其中,位置包括如下之一:待处理文本的句首、待处理文本的句中,以及待处理文本的句尾。与待识别词的位置关联的候选词为待处理文本中的词,其中,待识别词的位置不同,候选词所在的位置也不同,例如,当待识别词为待处理文本的句首时,候选词为待识别词的位置之后的词;当待识别词为待处理文本的句中时,候选词为待识别词的位置之后的词,或之前的词;当待识别词为待处理文本的句尾时,候选词为待识别词的位置之前的词。另外,在待处理文本为中文的情况下,候选词中所包含的字词的个数为大于等于1的整数,例如,候选词中所包含的字词的个数可以为1个,也可以为2个,还可以为3个。
步骤S206,将候选词与待识别词进行组合,得到组合词。
在步骤S206中,文本处理系统可以按照候选词与待识别词在待处理文本中的位置关系来进行组合,得到组合词,例如,图7所示,在待处理文本“物流太迅速了”中,待识别词为“太”,候选词为“迅速”,待识别词在候选词之前,因此,组合词为“太迅速”。
步骤S208,从预设向量表中查询与组合词对应的目标词向量,基于目标词向量对待处理文本进行分类处理。
在步骤S208中,在得到组合词之后,从预设向量表中查询组合词对应的目标向量,其中,在从预设向量表中查询到与组合词的同音词对应的目标词向量的情况下,将组合词对应的候选词的词向量置为空,例如,在待处理文本“物流太迅速了”中,将待识别词为“太”与候选词为“迅速”进行组合,得到组合词“太迅速”,文本处理系统在预设向量表中查询与“太迅速”对应的目标词向量,并基于目标词向量对待处理文本进行分类。由于候选词“迅速”已经与待识别词“太”进行了组合,因此,文本处理系统无需再确定候选词“迅速”的词向量,因此,在进行文本分类时,将候选词“迅速”对应的词向量设置为空。
可选的,文本处理系统可以采用Text-CNN、Word2Vec、Keras、RNN、NLP等文本分类算法对待处理文本进行分类处理,其中,文本处理系统采用的文本分类算法不限于本申请所提供的算法,其他可进行文本分类的算法也可应用在本申请中。
基于上述步骤S202至步骤S208所限定的方案,可以获知,采用查询待识别词的组合词的词向量的方式,在获取到待处理文本中的待识别词,并在检测到预设向量表中不存在待识别词对应的词向量的情况下,从待处理文本中获取与待识别词的位置关联的候选词,然后将候选词与待识别词进行组合,得到组合词,最后从预设向量表中查询与组合词对应的目标词向量,并基于目标词向量对待处理文本进行分类处理。
容易注意到的是,在预设向量表中不存在待识别词对应的词向量时,在预设向量表中查询待识别词对应的组合词对应的词向量,充分利用了文本中各个字词之间的关联,使用组合词对应的词向量来对文本进行分类处理,避免了采用统一的默认词向量代替在词向量表中查询不到词向量的词的向量所导致的文本信息丢失的问题,弥补了分词不准确所导致的降低文本分类的准确率的影响,达到了对文本进行分类的目的,从而实现了提高文本分类准确率的技术效果,进而解决了相关技术在对文本进行分类处理时,采用默认词向量作为所有在词向量表中查询不到词向量的词的词向量,导致文本分类准确率低的技术问题。
在一种可选的实施例中,图3示出了一种可选的文本处理方法的流程图,如图3所示,在得到待处理文本之后,文本处理系统首先去除待处理文本中的无效字符,然后再对预处理后的待处理文本进行分词处理,得到多个分词,进而再从多个分词中确定待识别词。进一步地,文本处理系统检测预设向量表中是否存在与待识别词对应的词向量,其中,在检测到预设向量表中存在待识别词对应的词向量的情况下,基于待识别词对应的词向量对待处理文本进行分类处理。在检测到预设向量表中不存在待识别词对应的词向量的情况下,查询组合词对应的词向量。
可选的,文本处理系统首先确定待识别词在待处理文本中的位置,然后从待处理文本中确定位于位置之前的第一数量的字词和/或,位于位置之后的第一数量的字词作为第一候选词,并将第一候选词与待识别词进行组合,得到第一组合词。其中,第一数量优选为2。
具体的,文本处理系统首先检测待识别词在待处理文本中的位置,如果待识别词在待处理文本的句首,则文本处理系统将待识别词之后的2个字词作为候选词,例如,在待处理文本“物流太迅速了”中,待识别词为“物流”位于句首,此时,文本处理系统将“太”“迅速”两个词作为候选词,与待识别词进行组合。
如果待识别词在待处理文本的句中,则文本处理系统将待识别词之后的2个字词,或者之前的2个词作为候选词,其中,文本处理系统可以根据待识别词的词性和/或语义来确定选择待识别词之前的第一数量的字词作为候选词,还是选择待识别词之后的第一数量的字词作为候选词,例如,在待处理文本“物流太迅速了”中,待识别词为“太”位于句中,文本处理系统检测到“太”为副词,因此,选择待识别词之后的词“迅速”“了”作为候选词。
另外,在待识别词在待处理文本的句中的情况下,待处理系统还可检测待识别词之前或之后的词的个数来确定是否选择待识别词之前或之后的词作为候选词,例如,在待处理文本“物流太迅速了”中,待识别词为“太”位于句中,文本处理系统检测到“太”之前只有一个词,而在“太”之后有两个词,则文本处理系统选择待识别词之后的词“迅速”“了”作为候选词。
还存在一种可选的实施例,在待识别词之前或之后的词的个数均小于第一数量的情况下,文本处理系可同时将待识别词的位置之前的词以及待识别词的位置之后的词作为候选词。
如果待识别词在待处理文本的句尾,则文本处理系统将待识别词之前的2个字词作为候选词,例如,在待处理文本“物流太迅速了”中,待识别词为“了”位于句尾,此时,文本处理系统将“太”“迅速”两个词作为候选词,与待识别词进行组合。
需要说明的是,在检测到预设向量表中存在与第一组合词的同音词对应的第一目标词向量的情况下,文本处理系统基于第一目标词向量对待处理文本进行分类处理。其中,在检测到预设向量表中存在多个与第一组合词的同音词对应的第一目标词向量的情况下,文本处理系统基于语料库获取每个第一目标词向量的词频,并确定词频最高的第一目标词向量作为第一组合词的同音词对应的目标词向量。
可选的,如图3所示,在检测到预设向量表中存在多个与第一组合词的同音词匹配的词向量时,选择使用频率最高的词对应的词向量,并将该词对应的候选词的词向量设置为空,例如,图4中的用户12的评论对应的文本为“真好此”,其中,第一组合词为“好此”,“好吃”、“好迟”、“皓齿”等词对应的词向量均与第一组合词相匹配,此时,文本处理系统检测上述几个词对应的词频,其中,“好吃”对应的词频最高,则将“好吃”对应的词向量作为第一组合词的同音词的词向量。在第一组合词“好此”中,“此”为待识别词,“好”为候选词,在从预设向量表中查询到第一组合词“好此”对应的词向量之后,将候选词“好”对应的词向量置为空。
进一步地,如图3所示,在检测到预设向量表中不存在与第一组合词的同音词对应的第一目标词向量的情况下,文本处理系统从待处理文本中确定位于位置之前的第二数量的字词和/或,位于位置之后的第二数量的字词作为第二候选词,其中,第一数量大于第二数量,例如,在图3中,第一数量为2,第二数量为1。然后,文本处理系统将第二候选词与待识别词进行组合,得到第二组合词,并从预设向量表中查询与第二组合词的同音词对应的第二目标词向量,基于第二目标词向量对待处理文本进行分类处理。例如,在图4中,用户13的评论为“物流很快,价格很合神,好评!”,待识别词为“合神”,第一组合词为“价格很合神”,文本处理系统在预设向量表中未检测到与第一组合词的同音词对应的词向量,则文本处理系统继续在预设向量表中检测“很合神”对应的词向量,即在检测第二组合词的同音词对应的词向量。
需要说明的是,确定第二候选词的方法与确定第一候选词的方法相同,在此不再赘述。
可选的,如图3所示,在检测到预设向量表中存在与第二组合词的同音词对应的第二目标词向量的情况下,文本处理系统基于第二目标词向量对待处理文本进行分类处理。其中,在检测到预设向量表中存在多个与第二组合词的同音词对应的第二目标词向量的情况下,文本处理系统基于语料库获取每个第二目标词向量的词频,然后确定词频最高的第二目标词向量作为第二组合词的同音词对应的目标词向量。需要说明的是,该过程与确定第一组合词的同音词对应的目标词向量的过程相同,在此也不再赘述。
另外,在图3中,在检测到预设向量表中不存在与第二组合词的同音词对应的第二目标词向量的情况下,文本处理系统确定默认目标词向量为待识别词的目标词向量,并基于默认目标词向量对待处理文本进行分类处理,其中,默认目标词向量为与待识别词具有相同或相近拼音的词的词向量。具体的,文本处理系统获取待识别词对应的拼音,然后根据拼音确定与待识别词具有相同或相近拼音的词,最后确定与待识别词具有相同或相近拼音的词的词向量作为待识别词的目标词向量,例如,与待识别词“好此”具有相同或相近拼音的词为“好吃”,并且预设向量库中也存在与“好吃”对应的词向量,则将待识别词“好此”对应的词向量默认为“好吃”对应的词向量。
在检测到预设向量表中不存在与第二组合词的同音词对应的第二目标词向量的情况下,如果检测到预设向量表中存在多个与待识别词具有相同或相近拼音的词的词向量,则文本处理系统基于语料库获取每个词向量的词频,然后确定词频最高的词向量作为待识别词对应的默认目标词向量。例如,与待识别词“好此”具有相同或相近拼音的词包括“好吃”、“好词”、“好迟”、“皓齿”、“好次”等,其中,“好吃”的词频最高,则将“好吃”对应的词向量作为“好此”的默认目标向量。
需要说明的是,本实施例主要说明了文本处理方法在电商评论中的应用,此外,本申请所提供的文本处理方法还可应用在商品推荐、风控领域等。例如,图8示出了商品推荐场景对应的示意图,用户在电商平台的搜索框中输入了待处理文本“夏季女装联谊群”,相当于将待处理文本输入至文本处理系统(如图8中的虚线框所示),文本处理系统在接收到待处理文本之后,通过对待处理文本进行分词处理,得到多个待识别词,然后对待识别词进行检索,首先检测是否能够从预设向量表中查询到与待识别词对应的目标词向量,如果能查询到目标词向量,则文本处理系统将目标词向量反馈给电商平台(如图8中的反馈检索结果),电商平台根据目标词向量搜索与目标词向量相关的商品,并将商品推荐给用户,例如,如果用户在图8的输入框中输入的待处理文本为“夏季女装连衣裙”,则文本处理系统对“夏季女装连衣裙”进行分词处理后,得到“连衣裙”的待识别词,并能够从预设向量表中查询到与“连衣裙”对应的词向量,则文本处理系统将与“连衣裙”对应的词向量推送给电商平台,从而电商平台能够为用户推送有关“连衣裙”的商品。
另外,如果预设向量表中查询不到与待识别词对应的词向量,则文本处理系统基于预设数据库确定待识别词对应的候选词,然后将待识别词与候选词进行组合得到组合词,最后再从预设向量表中查询组合词对应的词向量,并向电商平台反馈检索结果。仍以图8为例进行说明,用户向文本输入框中输入待处理文本“夏季女装联谊群”,文本处理系统对“夏季女装联谊群”进行分词处理后,得到“联谊群”的待识别词,但从预设向量表中未查询到与“联谊群”对应的词向量,此时,文本处理系统基于预设数据库从多个待识别词中选出候选词,例如,对于待识别词“联谊群”,将“女装”作为候选词,并将“女装”与“联谊群”进行组合,得到组合词,通过预设向量表可以确定组合词“女装联谊群”对应的目标词向量为“女装连衣裙”对应的词向量,此时,电商平台基于“女装连衣裙”对应的词向量获取有关女装连衣裙的商品,并推荐给用户。
可选的,预设数据库可以为存储有候选词选择规则的数据库,在检测到预设向量表中不存在与待识别词对应的词向量之后,文本处理系统可以基于待识别词的属性(例如,待识别词在待处理文本中的位置、待识别词的词性等)从预设数据库中查询到候选词在待处理文本中的位置,此时,文本处理系统根据从预设数据库中查询到的候选词在待处理文本中的位置即可确定在待处理文本中的候选词。
需要说明的是,候选词选择规则可以由电商平台的管理人员进行自行设定,例如,预设数据库中可以存储有以下候选词选择规则:待识别词在待处理文本中的位置为句末,词性为名词,则将待识别词的前一个词作为候选词,即候选词的位置为待识别词的前一个词;待识别词在待处理文本中的位置为句中,词性为形容词,则将待识别词的后一个词作为候选词,即候选词的位置为待识别词的后一个词;待识别词在待处理文本中的位置为句中,词性为形容词,则将待识别词的后一个词作为候选词,即候选词的位置为待识别词的后一个词;待识别词在待处理文本中的位置为句中,词性为名词,则将待识别词的前一个词作为候选词,即候选词的位置为待识别词的前一个词。
此外,还需要说明的是,上述候选词选择规则仅为示例,在实际应用中不限于上述所提及的候选词选择规则,还可以为其他的候选词选择规则,在本申请中不对其进行具体的限定。
由上述内容可知,本申请充分的利用了文本中各字词的信息,首先选用第一数量(例如,3个)的字词组合寻找词向量,再考虑第二数量(例如,2个)的字词组合,最后考虑单个字词寻找词向量,这样的顺序可以在一定程度上弥补分词不准确所带来的影响,使用本方案后,同音字变异后均能查找到正确的词向量,从而避免了现有技术中采用统一默认的词向量所导致的文本信息丢失较多的问题,进而保证了文本分类的正确性。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的文本处理方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
实施例2
根据本申请实施例,还提供了一种文本处理方法,如图9所示,该方法包括:
步骤S402,获取待处理文本中的待识别词。
在步骤S402中,文本处理系统可以获取到待处理文本,并从待处理文本中得到待识别词,其中,待处理文本可以为用户主动向文本处理系统输入的文本,也可以是文本处理系统从预设位置读取到的文本,优选的,在本申请中,待处理文本为中文文本。
在一种可选的实施例中,在得到待处理文本之后,文本处理系统对待处理文本进行预处理,得到处理后的待处理文本,然后对处理后的待处理文本进行分词处理,得到多个分词,最后从多个分词中确定待识别词。
步骤S404,从待处理文本中获取与待识别词的位置关联的候选词。
在一种可选的实施例中,在步骤S404中,在文本处理系统在得到待识别词之后,直接根据待识别词在待处理文本中的位置来确定候选词,其中,待识别词的位置为待识别词在待处理文本中的位置,位置包括如下之一:待处理文本的句首、待处理文本的句中,以及待处理文本的句尾。与待识别词的位置关联的候选词为待处理文本中的词,其中,待识别词的位置不同,候选词所在的位置也不同。
在另一种可选的实施例中,在从待处理文本中获取与待识别词的位置关联的候选词之前,文本处理系统首先检测预设向量表中是否存在待识别词对应的词向量,如果检测到预设向量表中存在待识别词对应的词向量,则基于待识别词对应的词向量对待处理文本进行分类处理;如果检测到预设向量表中不存在待识别词对应的词向量,再从待处理文本中获取与待识别词的位置关联的候选词。
步骤S406,根据候选词以及待识别词从预设向量表中得到目标词向量。
在步骤S406中,文本处理系统可以按照候选词与待识别词在待处理文本中的位置关系来进行组合,得到组合词,然后从预设向量表中查询组合词对应的目标向量,其中,在从预设向量表中查询到与组合词对应的目标词向量的情况下,将组合词对应的候选词的词向量置为空。
步骤S408,基于目标词向量对待处理文本进行分类处理。
在步骤S408中,文本处理系统可以采用Text-CNN、Word2Vec、Keras、RNN、NLP等文本分类算法对待处理文本进行分类处理,其中,文本处理系统采用的文本分类算法不限于本申请所提供的算法,其他可进行文本分类的算法也可应用在本申请中。
基于上述步骤S402至步骤S408所限定的方案,可以获知,采用查询待识别词的组合词的词向量的方式,在获取到待处理文本中的待识别词之后,从待处理文本中获取与待识别词的位置关联的候选词,然后根据候选词以及待识别词从预设向量表中得到目标词向量,最后基于目标词向量对待处理文本进行分类处理。
容易注意到的是,在预设向量表中查询待识别词对应的组合词对应的词向量,充分利用了文本中各个字词之间的关联,使用组合词对应的词向量来对文本进行分类处理,避免了采用统一的默认词向量代替在词向量表中查询不到词向量的词的向量所导致的文本信息丢失的问题,弥补了分词不准确所导致的降低文本分类的准确率的影响,达到了对文本进行分类的目的,从而实现了提高文本分类准确率的技术效果,进而解决了相关技术在对文本进行分类处理时,采用默认词向量作为所有在词向量表中查询不到词向量的词的词向量,导致文本分类准确率低的技术问题。
在一种可选的实施例中,文本处理系统可根据候选词以及待识别词的拼音从预设向量表中得到目标词向量,其中,目标词向量的拼音与待识别词的拼音的相似度达到预设相似度。可选的,文本处理系统可以将预设向量表中,拼音的相似度大于预设相似度,并且,拼音相似度最大的词向量作为上述目标词向量。优先的,文本处理系统还可将预设向量表中与待识别词的拼音相同的词向量作为目标词向量。
在根据候选词以及待识别词从预设向量表中得到目标词向量的过程中,文本处理系统首先确定待识别词在待处理文本中的位置,并从待处理文本中确定位于位置之前的第一数量的字词和/或,位于位置之后的第一数量的字词作为第一候选词,然后将第一候选词与待识别词进行组合,得到第一组合词。如果检测到预设向量表中存在与第一组合词的同音词对应的第一目标词向量,则基于第一目标词向量对待处理文本进行分类处理,其中,在检测到预设向量表中存在多个与第一组合词的同音词对应的第一目标词向量的情况下,基于语料库获取每个第一目标词向量的词频,并确定词频最高的第一目标词向量作为第一组合词的同音词对应的目标词向量。
另外,在检测到预设向量表中不存在与第一组合词的同音词对应的第一目标词向量的情况下,从待处理文本中确定位于位置之前的第二数量的字词和/或,位于位置之后的第二数量的字词作为第二候选词,其中,第一数量大于第二数量。然后将第二候选词与待识别词进行组合,得到第二组合词,并从预设向量表中查询与第二组合词的同音词对应的第二目标词向量,基于第二目标词向量对待处理文本进行分类处理。
其中,在检测到预设向量表中存在与第二组合词的同音词对应的第二目标词向量的情况下,基于第二目标词向量对待处理文本进行分类处理;如果预设向量表中存在多个与第二组合词的同音词对应的第二目标词向量,则基于语料库获取每个第二目标词向量的词频,并确定词频最高的第二目标词向量作为第二组合词的同音词对应的目标词向量。
在检测到预设向量表中不存在与第二组合词的同音词对应的第二目标词向量的情况下,确定默认目标词向量为待识别词的目标词向量,并基于默认目标词向量对待处理文本进行分类处理,其中,默认目标词向量为与待识别词具有相同或相近拼音的词的词向量。如果检测到预设向量表中存在多个与待识别词具有相同或相近拼音的词的词向量,则基于语料库获取每个词向量的词频,并确定词频最高的词向量作为待识别词对应的默认目标词向量。
实施例3
根据本申请实施例,还提供了一种文本处理方法,如图12所示,该方法包括:
步骤S1202,获取待处理文本中的待识别词。
在步骤1202中,文本处理系统可以获取到待处理文本,并从待处理文本中得到待识别词,其中,待处理文本可以为用户主动向文本处理系统输入的文本,也可以是文本处理系统从预设位置读取到的文本。优选的,在本申请中,待处理文本为中文文本。例如,在商品推荐场景中,文本处理系统可以从用户在电商平台中输入的搜索词或搜索语句中得到待处理文本,例如,在图8所示的示意图中,用户在电商平台的输入框中输入“夏季女装联谊群”,则文本处理系统可获取待处理文本“夏季女装联谊群”。
在得到待处理文本之后,文本处理系统对待处理文本进行预处理,得到处理后的待处理文本,然后对处理后的待处理文本进行分词处理,得到多个分词,最后从多个分词中确定待识别词。其中,在对待处理文本进行预处理的过程中,文本处理系统主要是去除待处理文本的噪声信息,噪声信息包括但不限于无效字符、HTML标签等,同时文本处理系统还对待处理文本进行格式转换,将其转换为文本处理系统能够处理的格式。在对待处理文本进行预处理之后,文本处理系统可以采用现有的分词算法对预处理后的待处理文本进行分词处理,得到待识别词。例如,对“夏季女装联谊群”进行分词处理,可以得到“夏季”、“女装”、“联谊”、“群”等词,其中,待识别词可以为“夏季”、“女装”、“联谊”、“群”中的任意一个。
可选的,文本处理系统可以根据分词的词性和/或分词在待处理文本中的位置来确定待识别词,例如,将位于居中的名词作为待识别词;又例如,将第一个形容词后的名词作为待识别词。
步骤S1204,在检测到预设向量表中不存在待识别词对应的词向量的情况下,从待处理文本中获取与待识别词的位置关联的候选词。
在步骤S1204中,预设向量表为通过预训练得到的向量表,该预设向量表中存储有词对应的词向量。需要说明的是,由于预设向量表通过预训练得到的,因此,预设向量表中不可能存储有所有词对应的词向量,例如,预设向量表中存储有“吃饭”对应的词向量,但没有存储“池饭”对应的词向量。
另外,待识别词的位置为待识别词在待处理文本中的位置,其中,位置包括如下之一:待处理文本的句首、待处理文本的句中,以及待处理文本的句尾。与待识别词的位置关联的候选词为待处理文本中的词,其中,待识别词的位置不同,候选词所在的位置也不同,例如,当待识别词为待处理文本的句首时,候选词为待识别词的位置之后的词。
步骤S1206,将候选词与待识别词进行组合,得到组合词。
以待处理文本为“夏季女装联谊群”进行说明,例如,待识别词为“联谊”,候选词为“女装”,则组合词为“女装联谊”。在得到组合词之后,再从预设向量表中查询组合词“女装联谊”对应的词向量,即执行步骤S1208。
步骤S1208,从预设向量表中查询与组合词对应的目标词向量,基于目标词向量确定推荐信息。
在步骤S1208中,在得到组合词之后,从预设向量表中查询组合词对应的目标向量,其中,在从预设向量表中查询到与组合词的同音词对应的目标词向量的情况下,将组合词对应的候选词的词向量置为空,例如,在待处理文本“夏季女装联谊群”中,将待识别词为“女装”与候选词为“联谊”进行组合,得到组合词“女装联谊”,文本处理系统在预设向量表中查询与“女装联谊”对应的目标词向量,并基于目标词向量确定推荐信息。由于候选词“女装”已经与待识别词“联谊”进行了组合,因此,文本处理系统无需再确定候选词“女装”的词向量,因此,在进行文本分类时,将候选词“女装”对应的词向量设置为空。
需要说明的是,在步骤S1208中,推荐信息可以为对产品进行推荐的信息,该推荐信息可以为产品对应的标识信息,例如,通过对待处理文本“夏季女装联谊群”进行分析处理后,可确定用户正在查询女装连衣裙的相关产品,则电商平台获取女装连衣裙对应的标识,并获取与推荐信息对应的产品信息,并推送产品信息,如图8所示,在用户显示界面中显示与女装连衣裙相关的产品信息(例如,图片、款式、价格等)。
基于上述步骤S1202至步骤S1208所限定的方案,可以获知,采用查询待识别词的组合词的词向量的方式,在获取到待处理文本中的待识别词,并在检测到预设向量表中不存在待识别词对应的词向量的情况下,从待处理文本中获取与待识别词的位置关联的候选词,然后将候选词与待识别词进行组合,得到组合词,最后从预设向量表中查询与组合词对应的目标词向量,并确定推荐信息。
容易注意到的是,在预设向量表中不存在待识别词对应的词向量时,在预设向量表中查询待识别词对应的组合词对应的词向量,充分利用了文本中各个字词之间的关联,使用组合词对应的词向量来对文本进行分类处理,避免了采用统一的默认词向量代替在词向量表中查询不到词向量的词的向量所导致的文本信息丢失的问题,弥补了分词不准确所导致的降低信息推送的准确率的影响,从而实现了准确推送消息的技术效果,进而解决了相关技术在对文本进行分类处理时,采用默认词向量作为所有在词向量表中查询不到词向量的词的词向量,降低信息推送的准确率的技术问题。
需要说明的是,本实施例所提供的文本处理方法,与实施例1的应用场景不同,其他内容一致,相关内容已在实施例1中进行说明,在此不再赘述。
实施例4
根据本申请实施例,还提供了一种文本处理方法,如图13所示,该方法包括:
步骤S1302,获取待处理文本中的待识别词。
在步骤S1302中,文本处理系统可以获取到待处理文本,并从待处理文本中得到待识别词,其中,待处理文本可以为用户主动向文本处理系统输入的文本,也可以是文本处理系统从预设位置读取到的文本,优选的,在本申请中,待处理文本为中文文本。
在一种可选的实施例中,在得到待处理文本之后,文本处理系统对待处理文本进行预处理,得到处理后的待处理文本,然后对处理后的待处理文本进行分词处理,得到多个分词,最后从多个分词中确定待识别词。其中,文本处理系统可根据每个分词在待处理文本中的位置和/或词性来从多个分词中确定待识别词。
步骤S1304,从待处理文本中获取与待识别词的位置关联的候选词。
在一种可选的实施例中,在文本处理系统在得到待识别词之后,直接根据待识别词在待处理文本中的位置来确定候选词,其中,待识别词的位置为待识别词在待处理文本中的位置,位置包括如下之一:待处理文本的句首、待处理文本的句中,以及待处理文本的句尾。与待识别词的位置关联的候选词为待处理文本中的词,其中,待识别词的位置不同,候选词所在的位置也不同。
在另一种可选的实施例中,在从待处理文本中获取与待识别词的位置关联的候选词之前,文本处理系统首先检测预设向量表中是否存在待识别词对应的词向量,如果检测到预设向量表中存在待识别词对应的词向量,则基于待识别词对应的词向量对待处理文本进行分类处理;如果检测到预设向量表中不存在待识别词对应的词向量,再从待处理文本中获取与待识别词的位置关联的候选词。
步骤S1306,根据候选词以及待识别词从预设向量表中得到目标词向量。
在步骤S1306中,文本处理系统可以按照候选词与待识别词在待处理文本中的位置关系来进行组合,得到组合词,然后从预设向量表中查询组合词对应的目标向量,其中,在从预设向量表中查询到与组合词对应的目标词向量的情况下,将组合词对应的候选词的词向量置为空。
步骤S1308,基于目标词向量确定推荐信息。
需要说明的是,在步骤S1308中,推荐信息可以为对产品进行推荐的信息,该推荐信息可以为产品对应的标识信息,例如,通过对待处理文本“夏季女装联谊群”进行分析处理后,可确定用户正在查询女装连衣裙的相关产品,则电商平台获取女装连衣裙对应的标识,并获取与推荐信息对应的产品信息,并推送产品信息,如图8所示,在用户显示界面中显示与女装连衣裙相关的产品信息(例如,图片、款式、价格等)。
基于上述步骤S1302至步骤S1308所限定的方案,可以获知,采用查询待识别词的组合词的词向量的方式,在获取到待处理文本中的待识别词之后,从待处理文本中获取与待识别词的位置关联的候选词,然后根据候选词以及待识别词从预设向量表中得到目标词向量,最后基于目标词向量确定推荐信息。
容易注意到的是,在预设向量表中不存在待识别词对应的词向量时,在预设向量表中查询待识别词对应的组合词对应的词向量,充分利用了文本中各个字词之间的关联,使用组合词对应的词向量来对文本进行分类处理,避免了采用统一的默认词向量代替在词向量表中查询不到词向量的词的向量所导致的文本信息丢失的问题,弥补了分词不准确所导致的降低信息推送的准确率的影响,从而实现了准确推送消息的技术效果,进而解决了相关技术在对文本进行分类处理时,采用默认词向量作为所有在词向量表中查询不到词向量的词的词向量,降低信息推送的准确率的技术问题。
需要说明的是,本实施例所提供的文本处理方法,与实施例2的应用场景不同,其他内容一致,相关内容已在实施例2中进行说明,在此不再赘述。
实施例5
根据本申请实施例,还提供了一种文本处理方法,如图14所示,该方法包括:
步骤S1402,获取待处理文本中的待识别词。
在步骤1402中,文本处理系统可以获取到待处理文本,并从待处理文本中得到待识别词,其中,待处理文本可以为用户主动向文本处理系统输入的文本,也可以是文本处理系统从预设位置读取到的文本。优选的,在本申请中,待处理文本为中文文本。例如,在商品推荐场景中,文本处理系统可以从用户在电商平台中输入的搜索词或搜索语句中得到待处理文本,例如,在图15所示的示意图中,用户在电商平台的输入框中输入“夏季女装联谊群”,则文本处理系统可获取待处理文本“夏季女装联谊群”。
在得到待处理文本之后,文本处理系统对待处理文本进行预处理,得到处理后的待处理文本,然后对处理后的待处理文本进行分词处理,得到多个分词,最后从多个分词中确定待识别词。其中,在对待处理文本进行预处理的过程中,文本处理系统主要是去除待处理文本的噪声信息,噪声信息包括但不限于无效字符、HTML标签等,同时文本处理系统还对待处理文本进行格式转换,将其转换为文本处理系统能够处理的格式。在对待处理文本进行预处理之后,文本处理系统可以采用现有的分词算法对预处理后的待处理文本进行分词处理,得到待识别词。例如,对“夏季女装联谊群”进行分词处理,可以得到“夏季”、“女装”、“联谊”、“群”等词,其中,待识别词可以为“夏季”、“女装”、“联谊”、“群”中的任意一个。
可选的,文本处理系统可以根据分词的词性和/或分词在待处理文本中的位置来确定待识别词,例如,将位于居中的名词作为待识别词;又例如,将第一个形容词后的名词作为待识别词。
在一种可选的实施例中,如图15所示的示意图,当用户在输入框中输入“夏季女装联谊群”之后,文本处理系统(如图15中的虚线框所示),接收待处理文本,并对待处理文本进行分词处理,得到多个待识别词,然后对待识别词进行检索,首先检测是否能够从预设向量表中查询到与待识别词对应的目标词向量(如图15中的检索1),如果能查询到目标词向量,则文本处理系统从商品数据库中查询到与目标词向量对应的商品信息(如图15中的检索3),并将商品推荐给用户,例如,如果用户在图15的输入框中输入的待处理文本为“夏季女装连衣裙”,则文本处理系统对“夏季女装连衣裙”进行分词处理后,得到“连衣裙”的待识别词,并能够从预设向量表中查询到与“连衣裙”对应的词向量,则文本处理系统将与“连衣裙”对应的词向量推送给电商平台,从而电商平台能够为用户推送有关“连衣裙”的商品。
步骤S1404,在检测到预设向量表中不存在待识别词的情况下,获取待识别词在待处理文本中的上下文。
需要说明的是,待识别词在待处理文本中的上下文可以是与待识别词在待处理文本中的位置相关联的词语,具体的,文本处理系统首先确定待识别词在待处理文本中的位置,然后根据位置确定待识别词在待处理文本中的上下文。例如,对于待处理文本“夏季女装联谊群”,待识别词为“联谊”,则待识别词“联谊”的上下文至少包括“女装”、“群”。
在一种可选的实施例中,在确定了待识别词在待处理文本中的位置之后,文本处理系统对文本输入框中的待识别词进行突出显示,以提示用户该词可能输入错误,例如,将待识别词的颜色设置为与其他分词不同的颜色,或者放大、加粗待识别词的字体等。另外,在确定了待识别词之后,文本处理系统检测是否能够从预设向量表中查询到与待识别词对应的目标词向量,如果查询不到,则文本处理系统生成第一提示信息,并将该第一提示信息推送给用户。其中,第一提示信息用于提示用户输入的待识别词可能存在错误,请用户确认是否对该待识别词进行修改。
需要说明的是,对待识别词进行突出显示,并在预设向量表中查询不到待识别词对应的目标词向量时提示用户,可以使用户注意到文本中输入错误的词汇,并对错误词汇进行修改,从而保证电商平台能够推送出符合用户搜索要求的商品。
步骤S1406,基于待识别词在待处理文本中的上下文,从候选词数据库中查询与待识别词对应的替换词。
在通过步骤S1404得到待识别词的上下文之后,将待识别词与待识别词的上下文进行组合,得到组合词,然后再从候选词数据库中查询与组合词的语义相同的词组,并通过词组与组合词进行比较,即可确定待识别词对应的替换词。例如,对于待识别词“联谊”,其对应的上下文为“女装”、“群”,则待识别词与对应的上下文进行组合得到的组合词为“女装联谊群”。然后文本处理系统基于“女装联谊群”所对应的语义在从候选词数据库中查询到词组“女装连衣裙”,并通过比对组合词“女装联谊群”与词组“女装连衣裙”,则可确定与待识别词对应的替换词为“连衣”(如图15中的基于位置的替换词检索)。
需要说明的是,在确定待识别词对应的替换词的过程中,采用待识别词在待处理文本中的上下文,考虑待识别词在待处理文本中的具体含义,进而可以准确确定待识别词与对应的上下文进行组合所得到的组合词所表达的真正含义,进而可以推算出待识别词在该含义下应该对应的词,由此可见,通过步骤S1406可以提高文本处理的准确度。
步骤S1408,使用替换词替换待识别词,并基于替换后的待处理文本进行分类处理。
在一种可选的实施例中,在查询到多个替换词的情况下,文本处理系统可基于语料库获取每个替换词的词频,然后使用词频最高的替换词替换待识别词。进一步地,在将待识别词替换为替换词之后,文本处理系统基于替换后的待处理文本从预设向量表中查找对应的目标词向量(如图15中的检索2),如果能查询到,则基于该目标词向量从商品数据库中查询到对应的商品信息(即如图15中的检索3),并将商品推荐给用户。
可选的,在使用替换词替换待识别词之前,文本处理系统还生成第二提示信息,其中,第二提示信息用于提示用户是否将替换词替换待识别词。需要说明的是,在实际应用中,用户输入的文本中的词汇可能是比较新颖的词汇,预设向量表中还未存储该新词汇对应的目标词向量,因此,如果此时直接将替换词替换待识别词可能会使得文本处理系统基于替换词搜索到的商品并不符合用户的搜索需求。而本申请在使用替换词替换待识别词之前,首先提示用户是否进行替换可以有效避免上述问题的发生,进而可以提高用户体验。
进一步的,在对待识别词进行替换时,文本处理系统还可向用户推送所要替换的词汇的数量以及替换的待识别词,以使用户知晓哪些词输入错误,进而用户可以避免下次再输入错误的词汇。
需要说明的是,在实际应用中,预设向量表中可能未存储一些新的流行词汇对应的词向量,因此,从预设向量表中查询这些新的流行词汇对应的词向量是查询不到的,本申请可通过对预设向量表进行更新来避免上述问题。具体的,文本处理系统在接收到用户根据第二提示信息反馈的不替换待识别词的指令后,通过互联网确定该待识别词对应的目标词向量,并将待识别词以及待识别词对应的目标词向量存储至预设向量表中,以实现对预设向量表的更新。
另外,本实施例除可应用在图15所示的商品推送场景中,还可应用在文本分类场景中,例如,对商品评论“这个太好此了”(即待处理文本),通过上述步骤S1402至步骤S1406之后,可以得到待识别词“好此”对应的替换词为“好吃”,进而确定替换后的待处理文本为“这个太好吃了”,然后文本处理系统可查询文本数据库(图15中未示出)来确定待处理文本所对应的文本类别,例如,可以确定替换后的待处理文本“这个太好吃了”的评论属性为好评,则将待处理文本“这个太好此了”归类为好评。
基于上述步骤S1402至步骤S1408所限定的方案,可以获知,采用查询待识别词的组合词的词向量的方式,在获取到待处理文本中的待识别词,并在检测到预设向量表中不存在待识别词的情况下,获取待识别词在待处理文本中的上下文,然后基于待识别词在待处理文本中的上下文,从候选词数据库中查询与待识别词对应的替换词,最后使用替换词替换待识别词,并基于替换后的待处理文本进行分类处理。
容易注意到的是,在预设向量表中不存在待识别词对应的词向量时,在预设向量表中查询待识别词对应的组合词对应的词向量,充分利用了文本中各个字词之间的关联,使用组合词对应的词向量来对文本进行分类处理,避免了采用统一的默认词向量代替在词向量表中查询不到词向量的词的向量所导致的文本信息丢失的问题,弥补了分词不准确所导致的降低文本分类的准确率的影响,达到了对文本进行分类的目的,从而实现了提高文本分类准确率的技术效果,进而解决了相关技术在对文本进行分类处理时,采用默认词向量作为所有在词向量表中查询不到词向量的词的词向量,导致文本分类准确率低的技术问题。
实施例6
根据本申请实施例,还提供了一种文本处理方法,如图16所示,该方法包括:
步骤S1602,获取待处理文本中的待识别词。
在步骤1602中,文本处理系统可以获取到待处理文本,并从待处理文本中得到待识别词,其中,待处理文本可以为用户主动向文本处理系统输入的文本,也可以是文本处理系统从预设位置读取到的文本。优选的,在本申请中,待处理文本为中文文本。例如,在商品推荐场景中,文本处理系统可以从用户在电商平台中输入的搜索词或搜索语句中得到待处理文本,例如,在图15所示的示意图中,用户在电商平台的输入框中输入“夏季女装联谊群”,则文本处理系统可获取待处理文本“夏季女装联谊群”。
在得到待处理文本之后,文本处理系统对待处理文本进行预处理,得到处理后的待处理文本,然后对处理后的待处理文本进行分词处理,得到多个分词,最后从多个分词中确定待识别词。其中,在对待处理文本进行预处理的过程中,文本处理系统主要是去除待处理文本的噪声信息,噪声信息包括但不限于无效字符、HTML标签等,同时文本处理系统还对待处理文本进行格式转换,将其转换为文本处理系统能够处理的格式。在对待处理文本进行预处理之后,文本处理系统可以采用现有的分词算法对预处理后的待处理文本进行分词处理,得到待识别词。例如,对“夏季女装联谊群”进行分词处理,可以得到“夏季”、“女装”、“联谊”、“群”等词,其中,待识别词可以为“夏季”、“女装”、“联谊”、“群”中的任意一个。
可选的,文本处理系统可以根据分词的词性和/或分词在待处理文本中的位置来确定待识别词,例如,将位于居中的名词作为待识别词;又例如,将第一个形容词后的名词作为待识别词。
在一种可选的实施例中,如图15所示的示意图,当用户在输入框中输入“夏季女装联谊群”之后,文本处理系统(如图15中的虚线框所示),接收待处理文本,并对待处理文本进行分词处理,得到多个待识别词,然后对待识别词进行检索,首先检测是否能够从预设向量表中查询到与待识别词对应的目标词向量(如图15中的检索1),如果能查询到目标词向量,则文本处理系统从商品数据库中查询到与目标词向量对应的商品信息(如图15中的检索3),并将商品推荐给用户,例如,如果用户在图15的输入框中输入的待处理文本为“夏季女装连衣裙”,则文本处理系统对“夏季女装连衣裙”进行分词处理后,得到“连衣裙”的待识别词,并能够从预设向量表中查询到与“连衣裙”对应的词向量,则文本处理系统将与“连衣裙”对应的词向量推送给电商平台,从而电商平台能够为用户推送有关“连衣裙”的商品。
步骤S1604,在检测到预设向量表中不存在待识别词的情况下,获取待识别词在待处理文本中的上下文。
需要说明的是,待识别词在待处理文本中的上下文可以是与待识别词在待处理文本中的位置相关联的词语,具体的,文本处理系统首先确定待识别词在待处理文本中的位置,然后根据位置确定待识别词在待处理文本中的上下文。例如,对于待处理文本“夏季女装联谊群”,待识别词为“联谊”,则待识别词“联谊”的上下文至少包括“女装”、“群”。
在一种可选的实施例中,在确定了待识别词在待处理文本中的位置之后,文本处理系统对文本输入框中的待识别词进行突出显示,以提示用户该词可能输入错误,例如,将待识别词的颜色设置为与其他分词不同的颜色,或者放大、加粗待识别词的字体等。另外,在确定了待识别词之后,文本处理系统检测是否能够从预设向量表中查询到与待识别词对应的目标词向量,如果查询不到,则文本处理系统生成第一提示信息,并将该第一提示信息推送给用户。其中,第一提示信息用于提示用户输入的待识别词可能存在错误,请用户确认是否对该待识别词进行修改。
需要说明的是,对待识别词进行突出显示,并在预设向量表中查询不到待识别词对应的目标词向量时提示用户,可以使用户注意到文本中输入错误的词汇,并对错误词汇进行修改,从而保证电商平台能够推送出符合用户搜索要求的商品。
步骤S1606,基于待识别词在待处理文本中的上下文,从候选词数据库中查询与待识别词对应的替换词。
在通过步骤S1604得到待识别词的上下文之后,将待识别词与待识别词的上下文进行组合,得到组合词,然后再从候选词数据库中查询与组合词的语义相同的词组,并通过词组与组合词进行比较,即可确定待识别词对应的替换词。例如,对于待识别词“联谊”,其对应的上下文为“女装”、“群”,则待识别词与对应的上下文进行组合得到的组合词为“女装联谊群”。然后文本处理系统基于“女装联谊群”所对应的语义在从候选词数据库中查询到词组“女装连衣裙”,并通过比对组合词“女装联谊群”与词组“女装连衣裙”,则可确定与待识别词对应的替换词为“连衣”(如图15中的基于位置的替换词检索)。
需要说明的是,在确定待识别词对应的替换词的过程中,采用待识别词在待处理文本中的上下文,考虑待识别词在待处理文本中的具体含义,进而可以准确确定待识别词与对应的上下文进行组合所得到的组合词所表达的真正含义,进而可以推算出待识别词在该含义下应该对应的词,由此可见,通过步骤S1406可以提高文本处理的准确度。
步骤S1608,使用替换词替换待识别词,并基于替换后的待处理文本确定推荐信息。
在一种可选的实施例中,在查询到多个替换词的情况下,文本处理系统可基于语料库获取每个替换词的词频,然后使用词频最高的替换词替换待识别词。进一步地,在将待识别词替换为替换词之后,文本处理系统基于替换后的待处理文本从预设向量表中查找对应的目标词向量(如图15中的检索2),如果能查询到,则基于该目标词向量从商品数据库中查询到对应的商品信息(即如图15中的检索3),并将商品推荐给用户。
可选的,在使用替换词替换待识别词之前,文本处理系统还生成第二提示信息,其中,第二提示信息用于提示用户是否将替换词替换待识别词。需要说明的是,在实际应用中,用户输入的文本中的词汇可能是比较新颖的词汇,预设向量表中还未存储该新词汇对应的目标词向量,因此,如果此时直接将替换词替换待识别词可能会使得文本处理系统基于替换词搜索到的商品并不符合用户的搜索需求。而本申请在使用替换词替换待识别词之前,首先提示用户是否进行替换可以有效避免上述问题的发生,进而可以提高用户体验。
进一步的,在对待识别词进行替换时,文本处理系统还可向用户推送所要替换的词汇的数量以及替换的待识别词,以使用户知晓哪些词输入错误,进而用户可以避免下次再输入错误的词汇。
需要说明的是,在实际应用中,预设向量表中可能未存储一些新的流行词汇对应的词向量,因此,从预设向量表中查询这些新的流行词汇对应的词向量是查询不到的,本申请可通过对预设向量表进行更新来避免上述问题。具体的,文本处理系统在接收到用户根据第二提示信息反馈的不替换待识别词的指令后,通过互联网确定该待识别词对应的目标词向量,并将待识别词以及待识别词对应的目标词向量存储至预设向量表中,以实现对预设向量表的更新。
基于上述步骤S1602至步骤S1608所限定的方案,可以获知,采用查询待识别词的组合词的词向量的方式,在获取到待处理文本中的待识别词,并在检测到预设向量表中不存在待识别词的情况下,获取待识别词在待处理文本中的上下文,然后基于待识别词在待处理文本中的上下文,从候选词数据库中查询与待识别词对应的替换词,最后使用替换词替换待识别词,并基于替换后的待处理文本确定推荐信息。
容易注意到的是,在预设向量表中不存在待识别词对应的词向量时,在预设向量表中查询待识别词对应的组合词对应的词向量,充分利用了文本中各个字词之间的关联,使用组合词对应的词向量来对文本进行分类处理,避免了采用统一的默认词向量代替在词向量表中查询不到词向量的词的向量所导致的文本信息丢失的问题,弥补了分词不准确所导致的降低信息推送的准确率的影响,从而实现了准确推送消息的技术效果,进而解决了相关技术在对文本进行分类处理时,采用默认词向量作为所有在词向量表中查询不到词向量的词的词向量,降低信息推送的准确率的技术问题。
需要说明的是,本实施例所提供的文本处理方法,与实施例5的应用场景不同,其他内容一致,相关内容已在实施例5中进行说明,在此不再赘述。
实施例7
根据本申请实施例,还提供了一种用于实施上述文本处理方法的文本处理装置,如图10所示,该装置50包括:第一获取模块501、第二获取模块503、组合模块505以及处理模块507。
其中,第一获取模块501,用于获取待处理文本中的待识别词;第二获取模块503,用于在检测到预设向量表中不存在待识别词对应的词向量的情况下,从待处理文本中获取与待识别词的位置关联的候选词;组合模块505,用于将候选词与待识别词进行组合,得到组合词;处理模块507,用于从预设向量表中查询与组合词对应的目标词向量,基于目标词向量对待处理文本进行分类处理。
此处需要说明的是,上述第一获取模块501、第二获取模块503、组合模块505以及处理模块507对应于实施例1中的步骤S202至步骤S206,四个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例一提供的计算设备10中。
在一种可选的实施例中,第二获取模块包括:第一确定模块以及第二确定模块。其中,第一确定模块,用于确定待识别词在待处理文本中的位置,其中,位置包括如下之一:待处理文本的句首、待处理文本的句中,以及待处理文本的句尾;第二确定模块,用于从待处理文本中确定位于位置之前的第一数量的字词和/或,位于位置之后的第一数量的字词作为第一候选词;组合模块包括:第一组合模块,用于将第一候选词与待识别词进行组合,得到第一组合词。
在一种可选的实施例中,处理模块包括:第一处理模块。其中,第一处理模块,用于在检测到预设向量表中存在与第一组合词的同音词对应的第一目标词向量的情况下,基于第一目标词向量对待处理文本进行分类处理。
在一种可选的实施例中,文本处理装置还包括:第三获取模块以及第三确定模块。其中,第三获取模块,用于在检测到预设向量表中存在多个与第一组合词的同音词对应的第一目标词向量的情况下,基于语料库获取每个第一目标词向量的词频;第三确定模块,用于确定词频最高的第一目标词向量作为第一组合词的同音词对应的目标词向量。
在一种可选的实施例中,文本处理装置还包括:第四确定模块、第二组合模块以及第二处理模块。其中,第四确定模块,用于在检测到预设向量表中不存在与第一组合词的同音词对应的第一目标词向量的情况下,从待处理文本中确定位于位置之前的第二数量的字词和/或,位于位置之后的第二数量的字词作为第二候选词;第二组合模块,用于将第二候选词与待识别词进行组合,得到第二组合词,其中,第一数量大于第二数量;第二处理模块,用于从预设向量表中查询与第二组合词的同音词对应的第二目标词向量,基于第二目标词向量对待处理文本进行分类处理。
在一种可选的实施例中,第二处理模块包括:第三处理模块以及第五确定模块。其中,第三处理模块,用于在检测到预设向量表中存在与第二组合词的同音词对应的第二目标词向量的情况下,基于第二目标词向量对待处理文本进行分类处理;第五确定模块,用于在检测到预设向量表中不存在与第二组合词的同音词对应的第二目标词向量的情况下,确定默认目标词向量为待识别词的目标词向量,并基于默认目标词向量对待处理文本进行分类处理,其中,默认目标词向量为与待识别词具有相同或相近拼音的词的词向量。
在一种可选的实施例中,文本处理装置还包括:第四获取模块以及第六确定模块。其中,第四获取模块,用于在检测到预设向量表中存在多个与第二组合词的同音词对应的第二目标词向量的情况下,基于语料库获取每个第二目标词向量的词频;第六确定模块,用于确定词频最高的第二目标词向量作为第二组合词的同音词对应的目标词向量。
在一种可选的实施例中,文本处理装置还包括:第四处理模块,用于在检测到预设向量表中存在待识别词对应的词向量的情况下,基于待识别词对应的词向量对待处理文本进行分类处理。
在一种可选的实施例中,文本处理装置还包括:第五获取模块以及第七确定模块。其中,第五获取模块,用于在检测到预设向量表中存在多个与待识别词具有相同或相近拼音的词的词向量的情况下,基于语料库获取每个词向量的词频;第七确定模块,用于确定词频最高的词向量作为待识别词对应的默认目标词向量。
在一种可选的实施例中,文本处理装置还包括:第五处理模块。其中,第五处理模块,用于在从预设向量表中查询到与组合词对应的目标词向量的情况下,将组合词对应的候选词的词向量置为空。
在一种可选的实施例中,第一获取模块包括:第六处理模块、分词模块以及第八确定模块。其中,第六处理模块,用于对待处理文本进行预处理,得到处理后的待处理文本;分词模块,用于对处理后的待处理文本进行分词处理,得到多个分词;第八确定模块,用于从多个分词中确定待识别词。
实施例8
根据本申请实施例,还提供了一种用于实施上述文本处理方法的文本处理系统,该系统包括:输入单元、处理单元以及输出单元。
其中,输入单元,用于输入待处理文本;处理单元,用于从待处理文本中获取待识别词,并在检测到预设向量表中不存在待识别词对应的词向量的情况下,从待处理文本中获取与待识别词的位置关联的候选词,然后将候选词与待识别词进行组合,得到组合词,并从预设向量表中查询与组合词对应的目标词向量,最后基于目标词向量对待处理文本进行分类处理;输出单元,用于输出处理单元对待处理文本进行分类处理的处理结果。
由上可知,采用查询待识别词的组合词的词向量的方式,在获取到待处理文本中的待识别词,并在检测到预设向量表中不存在待识别词对应的词向量的情况下,从待处理文本中获取与待识别词的位置关联的候选词,然后将候选词与待识别词进行组合,得到组合词,最后从预设向量表中查询与组合词对应的目标词向量,并基于目标词向量对待处理文本进行分类处理。
容易注意到的是,在预设向量表中不存在待识别词对应的词向量时,在预设向量表中查询待识别词对应的组合词对应的词向量,充分利用了文本中各个字词之间的关联,使用组合词对应的词向量来对文本进行分类处理,避免了采用统一的默认词向量代替在词向量表中查询不到词向量的词的向量所导致的文本信息丢失的问题,弥补了分词不准确所导致的降低文本分类的准确率的影响,达到了文本进行分类的目的,从而实现了提高文本分类准确率的技术效果,进而解决了相关技术在对文本进行分类处理时,采用默认词向量作为所有在词向量表中查询不到词向量的词的词向量,导致文本分类准确率低的技术问题。
需要说明的是,本实施中的处理单元可以执行实施例1中的文本处理方法,相关内容已在实施例1中进行说明,在此不再赘述。
实施例9
本申请的实施例可以提供一种计算设备,该计算设备可以是计算设备群中的任意一个计算设备。可选地,在本实施例中,上述计算设备也可以替换为移动终端等终端设备。
可选地,在本实施例中,上述计算设备可以位于计算机网络的多个网络设备中的至少一个网络设备。
在本实施例中,上述计算设备可以执行文本处理方法中以下步骤的程序代码:获取待处理文本中的待识别词;在检测到预设向量表中不存在待识别词对应的词向量的情况下,从待处理文本中获取与待识别词的位置关联的候选词;将候选词与待识别词进行组合,得到组合词;从预设向量表中查询与组合词对应的目标词向量,基于目标词向量对待处理文本进行分类处理。
可选地,图11是根据本申请实施例的一种计算设备的结构框图。如图11所示,该计算设备10可以包括:一个或多个(图中仅示出一个)处理器602、存储器604以及外设接口606。
其中,存储器可用于存储软件程序以及模块,如本申请实施例中的文本处理方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的文本处理方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至计算设备10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取待处理文本中的待识别词;在检测到预设向量表中不存在待识别词对应的词向量的情况下,从待处理文本中获取与待识别词的位置关联的候选词;将候选词与待识别词进行组合,得到组合词;从预设向量表中查询与组合词对应的目标词向量,基于目标词向量对待处理文本进行分类处理。
可选的,上述处理器还可以执行如下步骤的程序代码:确定待识别词在待处理文本中的位置,其中,位置包括如下之一:待处理文本的句首、待处理文本的句中,以及待处理文本的句尾;从待处理文本中确定位于位置之前的第一数量的字词和/或,位于位置之后的第一数量的字词作为第一候选词;将第一候选词与待识别词进行组合,得到第一组合词。
可选的,上述处理器还可以执行如下步骤的程序代码:在检测到预设向量表中存在与第一组合词的同音词对应的第一目标词向量的情况下,基于第一目标词向量对待处理文本进行分类处理。
可选的,上述处理器还可以执行如下步骤的程序代码:在检测到预设向量表中存在多个与第一组合词的同音词对应的第一目标词向量的情况下,基于语料库获取每个第一目标词向量的词频;确定词频最高的第一目标词向量作为第一组合词的同音词对应的目标词向量。
可选的,上述处理器还可以执行如下步骤的程序代码:在检测到预设向量表中不存在与第一组合词的同音词对应的第一目标词向量的情况下,从待处理文本中确定位于位置之前的第二数量的字词和/或,位于位置之后的第二数量的字词作为第二候选词;将第二候选词与待识别词进行组合,得到第二组合词,其中,第一数量大于第二数量;从预设向量表中查询与第二组合词的同音词对应的第二目标词向量,基于第二目标词向量对待处理文本进行分类处理。
可选的,上述处理器还可以执行如下步骤的程序代码:在检测到预设向量表中存在与第二组合词的同音词对应的第二目标词向量的情况下,基于第二目标词向量对待处理文本进行分类处理;在检测到预设向量表中不存在与第二组合词的同音词对应的第二目标词向量的情况下,确定默认目标词向量为待识别词的目标词向量,并基于默认目标词向量对待处理文本进行分类处理,其中,默认目标词向量为与待识别词具有相同或相近拼音的词的词向量。
可选的,上述处理器还可以执行如下步骤的程序代码:在检测到预设向量表中存在多个与第二组合词的同音词对应的第二目标词向量的情况下,基于语料库获取每个第二目标词向量的词频;确定词频最高的第二目标词向量作为第二组合词的同音词对应的目标词向量。
可选的,上述处理器还可以执行如下步骤的程序代码:在检测到预设向量表中存在待识别词对应的词向量的情况下,基于待识别词对应的词向量对待处理文本进行分类处理。
可选的,上述处理器还可以执行如下步骤的程序代码:在检测到预设向量表中不存在与第二组合词的同音词对应的第二目标词向量的情况下,如果检测到预设向量表中存在多个与待识别词具有相同或相近拼音的词的词向量,则基于语料库获取每个词向量的词频;确定词频最高的词向量作为待识别词对应的默认目标词向量。
可选的,上述处理器还可以执行如下步骤的程序代码:在从预设向量表中查询到与组合词对应的目标词向量的情况下,将组合词对应的候选词的词向量置为空。
可选的,上述处理器还可以执行如下步骤的程序代码:对待处理文本进行预处理,得到处理后的待处理文本;对处理后的待处理文本进行分词处理,得到多个分词;从多个分词中确定待识别词。
本领域普通技术人员可以理解,图11所示的结构仅为示意,计算设备也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices,MID)、PAD等终端设备。图11其并不对上述电子装置的结构造成限定。例如,计算设备10还可包括比图11中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图11所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
实施例10
本申请的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于保存上述实施例一所提供的文本处理方法所执行的程序代码。
可选地,在本实施例中,上述存储介质可以位于计算机网络中计算设备群中的任意一个计算设备中,或者位于移动终端群中的任意一个移动终端中。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:获取待处理文本中的待识别词;在检测到预设向量表中不存在待识别词对应的词向量的情况下,从待处理文本中获取与待识别词的位置关联的候选词;将候选词与待识别词进行组合,得到组合词;从预设向量表中查询与组合词对应的目标词向量,基于目标词向量对待处理文本进行分类处理。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:确定待识别词在待处理文本中的位置,其中,位置包括如下之一:待处理文本的句首、待处理文本的句中,以及待处理文本的句尾;从待处理文本中确定位于位置之前的第一数量的字词和/或,位于位置之后的第一数量的字词作为第一候选词;将第一候选词与待识别词进行组合,得到第一组合词。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:在检测到预设向量表中存在与第一组合词的同音词对应的第一目标词向量的情况下,基于第一目标词向量对待处理文本进行分类处理。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:在检测到预设向量表中存在多个与第一组合词的同音词对应的第一目标词向量的情况下,基于语料库获取每个第一目标词向量的词频;确定词频最高的第一目标词向量作为第一组合词的同音词对应的目标词向量。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:在检测到预设向量表中不存在与第一组合词的同音词对应的第一目标词向量的情况下,从待处理文本中确定位于位置之前的第二数量的字词和/或,位于位置之后的第二数量的字词作为第二候选词;将第二候选词与待识别词进行组合,得到第二组合词,其中,第一数量大于第二数量;从预设向量表中查询与第二组合词的同音词对应的第二目标词向量,基于第二目标词向量对待处理文本进行分类处理。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:在检测到预设向量表中存在与第二组合词的同音词对应的第二目标词向量的情况下,基于第二目标词向量对待处理文本进行分类处理;在检测到预设向量表中不存在与第二组合词的同音词对应的第二目标词向量的情况下,确定默认目标词向量为待识别词的目标词向量,并基于默认目标词向量对待处理文本进行分类处理,其中,默认目标词向量为与待识别词具有相同或相近拼音的词的词向量。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:在检测到预设向量表中存在多个与第二组合词的同音词对应的第二目标词向量的情况下,基于语料库获取每个第二目标词向量的词频;确定词频最高的第二目标词向量作为第二组合词的同音词对应的目标词向量。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:在检测到预设向量表中存在待识别词对应的词向量的情况下,基于待识别词对应的词向量对待处理文本进行分类处理。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:在检测到预设向量表中不存在与第二组合词的同音词对应的第二目标词向量的情况下,如果检测到预设向量表中存在多个与待识别词具有相同或相近拼音的词的词向量,则基于语料库获取每个词向量的词频;确定词频最高的词向量作为待识别词对应的默认目标词向量。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:在从预设向量表中查询到与组合词对应的目标词向量的情况下,将组合词对应的候选词的词向量置为空。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:对待处理文本进行预处理,得到处理后的待处理文本;对处理后的待处理文本进行分词处理,得到多个分词;从多个分词中确定待识别词。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (24)

1.一种文本处理方法,其特征在于,包括:
获取待处理文本中的待识别词;
在检测到预设向量表中不存在所述待识别词对应的词向量的情况下,从所述待处理文本中获取与所述待识别词的位置关联的候选词;
将所述候选词与所述待识别词进行组合,得到组合词;
从所述预设向量表中查询与所述组合词对应的目标词向量,基于所述目标词向量对所述待处理文本进行分类处理。
2.根据权利要求1所述的方法,其特征在于,
从所述待处理文本中获取与所述待识别词的位置关联的候选词,包括:确定所述待识别词在所述待处理文本中的位置,其中,所述位置包括如下之一:所述待处理文本的句首、所述待处理文本的句中,以及所述待处理文本的句尾;从所述待处理文本中确定位于所述位置之前的第一数量的字词和/或,位于所述位置之后的第一数量的字词作为第一候选词;
将所述候选词与所述待识别词进行组合,得到组合词,包括:将所述第一候选词与所述待识别词进行组合,得到第一组合词。
3.根据权利要求2所述的方法,其特征在于,从所述预设向量表中查询与所述组合词对应的目标词向量,基于所述目标词向量对所述待处理文本进行分类处理,包括:
在检测到所述预设向量表中存在与所述第一组合词的同音词对应的第一目标词向量的情况下,基于所述第一目标词向量对所述待处理文本进行分类处理。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
在检测到所述预设向量表中存在多个与所述第一组合词的同音词对应的所述第一目标词向量的情况下,基于语料库获取每个所述第一目标词向量的词频;
确定所述词频最高的第一目标词向量作为所述第一组合词的同音词对应的目标词向量。
5.根据权利要求3所述的方法,其特征在于,所述方法还包括:
在检测到所述预设向量表中不存在与所述第一组合词的同音词对应的第一目标词向量的情况下,从所述待处理文本中确定位于所述位置之前的第二数量的字词和/或,位于所述位置之后的第二数量的字词作为第二候选词;
将所述第二候选词与所述待识别词进行组合,得到第二组合词,其中,所述第一数量大于所述第二数量;
从所述预设向量表中查询与所述第二组合词的同音词对应的第二目标词向量,基于所述第二目标词向量对所述待处理文本进行分类处理。
6.根据权利要求5所述的方法,其特征在于,从所述预设向量表中查询与所述第二组合词的同音词对应的第二目标词向量,基于所述第二目标词向量对所述待处理文本进行分类处理,包括:
在检测到所述预设向量表中存在与所述第二组合词的同音词对应的第二目标词向量的情况下,基于所述第二目标词向量对所述待处理文本进行分类处理;
在检测到所述预设向量表中不存在与所述第二组合词的同音词对应的第二目标词向量的情况下,确定默认目标词向量为所述待识别词的目标词向量,并基于所述默认目标词向量对所述待处理文本进行分类处理,其中,所述默认目标词向量为与所述待识别词具有相同或相近拼音的词的词向量。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
在检测到所述预设向量表中存在多个与所述第二组合词的同音词对应的所述第二目标词向量的情况下,基于语料库获取每个所述第二目标词向量的词频;
确定所述词频最高的第二目标词向量作为所述第二组合词的同音词对应的目标词向量。
8.根据权利要求1所述的方法,其特征在于,在检测到所述预设向量表中存在所述待识别词对应的词向量的情况下,基于所述待识别词对应的词向量对所述待处理文本进行分类处理。
9.根据权利要求6所述的方法,其特征在于,所述方法还包括:
在检测到所述预设向量表中不存在与所述第二组合词的同音词对应的第二目标词向量的情况下,如果检测到所述预设向量表中存在多个与所述待识别词具有相同或相近拼音的词的词向量,则基于语料库获取每个所述词向量的词频;
确定所述词频最高的词向量作为所述待识别词对应的默认目标词向量。
10.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在从所述预设向量表中查询到与所述组合词对应的目标词向量的情况下,将所述组合词对应的候选词的词向量置为空。
11.根据权利要求1所述的方法,其特征在于,获取待处理文本中的待识别词,包括:
对所述待处理文本进行预处理,得到处理后的待处理文本;
对所述处理后的待处理文本进行分词处理,得到多个分词;
从所述多个分词中确定所述待识别词。
12.一种文本处理方法,其特征在于,包括:
获取待处理文本中的待识别词;
从所述待处理文本中获取与所述待识别词的位置关联的候选词;
根据所述候选词以及所述待识别词从预设向量表中得到目标词向量;
基于所述目标词向量对所述待处理文本进行分类处理。
13.根据权利要求12所述的方法,其特征在于,根据所述候选词以及所述待识别词从预设向量表中得到目标词向量,包括:
根据所述候选词以及所述待识别词的拼音从所述预设向量表中得到所述目标词向量,其中,所述目标词向量的拼音与所述待识别词的拼音的相似度达到预设相似度。
14.一种文本处理方法,其特征在于,包括:
获取待处理文本中的待识别词;
在检测到预设向量表中不存在所述待识别词对应的词向量的情况下,从所述待处理文本中获取与所述待识别词的位置关联的候选词;
将所述候选词与所述待识别词进行组合,得到组合词;
从所述预设向量表中查询与所述组合词对应的目标词向量,基于所述目标词向量确定推荐信息。
15.根据权利要求14所述的方法,其特征在于,在基于所述目标词向量确定推荐信息之后,所述方法还包括:
获取与所述推荐信息对应的产品信息;
推送所述产品信息。
16.一种文本处理方法,其特征在于,包括:
获取待处理文本中的待识别词;
从所述待处理文本中获取与所述待识别词的位置关联的候选词;
根据所述候选词以及所述待识别词从预设向量表中得到目标词向量;
基于所述目标词向量确定推荐信息。
17.一种文本处理方法,其特征在于,包括:
获取待处理文本中的待识别词;
在检测到预设向量表中不存在所述待识别词的情况下,获取所述待识别词在所述待处理文本中的上下文;
基于所述待识别词在所述待处理文本中的上下文,从候选词数据库中查询与所述待识别词对应的替换词;
使用所述替换词替换所述待识别词,并基于替换后的所述待处理文本进行分类处理。
18.根据权利要求17所述的方法,其特征在于,获取所述待识别词在所述待处理文本中的上下文,包括:
确定所述待识别词在所述待处理文本中的位置;
根据所述位置确定待识别词在所述待处理文本中的上下文。
19.根据权利要求17所述的方法,其特征在于,使用所述替换词替换所述待识别词,包括:
在查询到多个所述替换词的情况下,基于语料库获取每个所述替换词的词频;
使用所述词频最高的替换词替换所述待识别词。
20.一种文本处理方法,其特征在于,包括:
获取待处理文本中的待识别词;
在检测到预设向量表中不存在所述待识别词的情况下,获取所述待识别词在所述待处理文本中的上下文;
基于所述待识别词在所述待处理文本中的上下文,从候选词数据库中查询与所述待识别词对应的替换词;
使用所述替换词替换所述待识别词,并基于替换后的所述待处理文本确定推荐信息。
21.一种文本处理装置,其特征在于,包括:
第一获取模块,用于获取待处理文本中的待识别词;
第二获取模块,用于在检测到预设向量表中不存在所述待识别词对应的词向量的情况下,从所述待处理文本中获取与所述待识别词的位置关联的候选词;
组合模块,用于将所述候选词与所述待识别词进行组合,得到组合词;
处理模块,用于从所述预设向量表中查询与所述组合词对应的目标词向量,基于所述目标词向量对所述待处理文本进行分类处理。
22.一种文本处理系统,其特征在于,包括:
输入单元,用于输入待处理文本;
处理单元,用于从所述待处理文本中获取待识别词,并在检测到预设向量表中不存在所述待识别词对应的词向量的情况下,从所述待处理文本中获取与所述待识别词的位置关联的候选词,然后将所述候选词与所述待识别词进行组合,得到组合词,并从所述预设向量表中查询与所述组合词对应的目标词向量,最后基于所述目标词向量对所述待处理文本进行分类处理;
输出单元,用于输出所述处理单元对所述待处理文本进行分类处理的处理结果。
23.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至11中任意一项所述的文本处理方法。
24.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至11中任意一项所述的文本处理方法。
CN201910911916.5A 2019-09-25 2019-09-25 文本处理方法、装置和系统 Pending CN112559732A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910911916.5A CN112559732A (zh) 2019-09-25 2019-09-25 文本处理方法、装置和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910911916.5A CN112559732A (zh) 2019-09-25 2019-09-25 文本处理方法、装置和系统

Publications (1)

Publication Number Publication Date
CN112559732A true CN112559732A (zh) 2021-03-26

Family

ID=75029355

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910911916.5A Pending CN112559732A (zh) 2019-09-25 2019-09-25 文本处理方法、装置和系统

Country Status (1)

Country Link
CN (1) CN112559732A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113946392A (zh) * 2021-09-24 2022-01-18 北京达佳互联信息技术有限公司 一种对象描述信息的处理方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101859294A (zh) * 2009-04-07 2010-10-13 英业达股份有限公司 中文字串的词汇切分系统及其方法
WO2017020011A1 (en) * 2015-07-30 2017-02-02 Dolby Laboratories Licensing Corporation Searching the results of an automatic speech recognition process
CN109145294A (zh) * 2018-08-07 2019-01-04 北京三快在线科技有限公司 文本实体识别方法及装置、电子设备、存储介质
CN110020420A (zh) * 2018-01-10 2019-07-16 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机设备和存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101859294A (zh) * 2009-04-07 2010-10-13 英业达股份有限公司 中文字串的词汇切分系统及其方法
WO2017020011A1 (en) * 2015-07-30 2017-02-02 Dolby Laboratories Licensing Corporation Searching the results of an automatic speech recognition process
CN110020420A (zh) * 2018-01-10 2019-07-16 腾讯科技(深圳)有限公司 文本处理方法、装置、计算机设备和存储介质
CN109145294A (zh) * 2018-08-07 2019-01-04 北京三快在线科技有限公司 文本实体识别方法及装置、电子设备、存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113946392A (zh) * 2021-09-24 2022-01-18 北京达佳互联信息技术有限公司 一种对象描述信息的处理方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
US10268766B2 (en) Systems and methods for computation of a semantic representation
CN110196904B (zh) 一种获取推荐信息的方法、装置及计算机可读存储介质
CN109801119B (zh) 界面展示、信息提供、用户行为内容信息处理方法及设备
US11741094B2 (en) Method and system for identifying core product terms
CN111831911A (zh) 查询信息的处理方法、装置、存储介质和电子装置
WO2018035164A1 (en) Description information generation and presentation systems, methods, and devices
CN108319888B (zh) 视频类型的识别方法及装置、计算机终端
KR101647087B1 (ko) 자연어 처리에 기반한 재화 제공 서버 및 방법
CN111241842A (zh) 文本的分析方法、装置和系统
CN111078842A (zh) 查询结果的确定方法、装置、服务器及存储介质
CN111125491A (zh) 商品信息的搜索方法和装置、存储介质及电子装置
CN117350825A (zh) 基于大语言模型的导购方法和系统
CN110717312A (zh) 一种文本标注方法及装置
CN112559732A (zh) 文本处理方法、装置和系统
CN111597296A (zh) 商品数据的处理方法、装置和系统
CN113495987A (zh) 数据搜索方法、装置、设备和存储介质
CN115861606B (zh) 一种针对长尾分布文档的分类方法、装置及存储介质
CN111787042A (zh) 用于推送信息的方法和装置
CN108694171B (zh) 信息推送的方法及装置
US20210056149A1 (en) Search system, search method, and program
CN111723566B (zh) 产品信息的重构方法和装置
CN110956034B (zh) 词语的获取方法及装置、商品搜索方法
CN112836057B (zh) 知识图谱的生成方法、装置、终端以及存储介质
CN109978645B (zh) 一种数据推荐方法和装置
CN112860860A (zh) 一种答复问题的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination