CN112528624A - 文本处理方法、装置、搜索方法以及处理器 - Google Patents

文本处理方法、装置、搜索方法以及处理器 Download PDF

Info

Publication number
CN112528624A
CN112528624A CN201910829455.7A CN201910829455A CN112528624A CN 112528624 A CN112528624 A CN 112528624A CN 201910829455 A CN201910829455 A CN 201910829455A CN 112528624 A CN112528624 A CN 112528624A
Authority
CN
China
Prior art keywords
character
target
characters
text
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910829455.7A
Other languages
English (en)
Other versions
CN112528624B (zh
Inventor
高喆
蒋卓人
康杨杨
孙常龙
张琼
司罗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910829455.7A priority Critical patent/CN112528624B/zh
Publication of CN112528624A publication Critical patent/CN112528624A/zh
Application granted granted Critical
Publication of CN112528624B publication Critical patent/CN112528624B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本处理方法、装置、搜索方法以及处理器。其中,该方法包括:获取待检测文本中的目标字符;确定目标字符在字符异构图中对应的目标节点,其中,字符异构图中包括节点以及连接节点的边,节点用于表征字符,连接节点的边用于表征字符之间在不同维度的相似度;确定目标节点关联的变异字符集合,其中,变异字符集合由字符异构图中包含相似特征的多个节点,以及多个节点之间的边构成;基于目标节点以及目标节点关联的变异字符集合,确定目标字符的向量表示。本发明解决了相关技术中字符向量在同时度量文字之间在多个维度上的相似度时度量结果不准确的技术问题。

Description

文本处理方法、装置、搜索方法以及处理器
技术领域
本发明涉及文字识别技术领域,具体而言,涉及一种文本处理方法、装置、搜索方法以及处理器。
背景技术
为了维护健康文明的通讯交流环境,需要进行反垃圾文本操作,具体地,识别垃圾文本并进行过滤以及屏蔽,为了规避反垃圾文本操作,部分垃圾文本的产生者会对文本进行变异操作,因而,在中文的文本反垃圾操作中,解决文本变异问题是一个关键的环节。
通常文本变异可分为如下四种:音变,如“兼职”变异为“简职”;字形变异,如“兼职”变异为“谦职”;拆字变异,如“兼职”变异为“兼耳只";干扰变异,如"兼职"变异为“兼--职”。对于音变和字形变异,需要确定合适的度量来表示汉字间在字音和字形间的相似度,例如,表示“兼”和“简”字音上的相似度,表示“兼”和“谦”字形上的相似度。
相关技术中存在一些利用编码的方式度量汉字之间的相似度的方法,例如,通过字音编码表示字,再根据预定义的编码间的距离计算方式推导汉字间字音上的相似度,通过字形编码表示字,再根据预定义的编码间的距离计算方式推导汉字间字形上的相似度。以上方法均只使用了一种编码方式来度量汉字之间的相似度,无法同时表征汉字的音变和形变,而且容易带来较大的噪声,例如,在笔顺编码下,“风”和“欠”两个字编码一致,但并不形似,而“未”和“末”的郑码差异较大,而笔顺一致。此外,这类方法无法刻画复杂的音变/形变传递,例如,由“原味内衣”变异为“原未内衣”,再由“原未内衣”变异为“原末内衣”,从而影响反垃圾操作的效果。
相关技术中还存在一些根据汉字构建图形,并求图中节点的向量表示来捕捉汉字的音变形变信息的方法。具体地,有基于同构图的度量方法,例如line、deepwalk、node2vec等,该类方法没有充分利用汉字异构图中不同类型边的信息。也有基于异构图的度量方法,如metapath2vec,该方法需要人为预定义元路径,汉字向量的表示效果依赖于元路径的定义。此外还有基于异构图的嵌入方法,例如,heer,通过不同类型边的视角下分别计算节点距离,但该方法限制较大,且度量效果不佳。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种文本处理方法、装置、搜索方法以及处理器,以至少解决相关技术中字符向量在同时度量文字之间在多个维度上的相似度时度量结果不准确的技术问题。
根据本发明实施例的一个方面,提供了一种文本处理方法,包括:获取待检测文本中的目标字符;确定目标字符在字符异构图中对应的目标节点,其中,字符异构图中包括节点以及连接节点的边,节点用于表征字符,连接节点的边用于表征字符之间在不同维度的相似度;确定目标节点关联的变异字符集合,其中,变异字符集合由字符异构图中包含相似特征的多个节点,以及多个节点之间的边构成;基于目标节点以及目标节点关联的变异字符集合,确定目标字符的向量表示。
根据本发明实施例的另一个方面,提供了一种搜索方法,包括:获取用户输入的搜索文本;在接收到搜索纠错指令的情况下,采用上述文本处理方法,确定搜索文本中各个字符的向量表示;在搜索文本和第三目标文本中确定目标搜索文本;基于目标搜索文本获取搜索信息。
根据本发明实施例的另一方面,还提供了一种文字处理装置,包括:获取单元,用于获取待检测文本中的目标字符;第一确定单元,用于确定目标字符在字符异构图中对应的目标节点,其中,字符异构图中包括节点以及连接节点的边,节点用于表征字符,连接节点的边用于表征字符之间在不同维度的相似度;第二确定单元,用于确定目标节点关联的变异字符集合,其中,变异字符集合由字符异构图中包含相似特征的多个节点,以及多个节点之间的边构成;第三确定单元,用于基于所述目标节点以及所述目标节点关联的变异字符集合,确定所述目标字符的向量表示。
在本发明实施例中,采用基于字符异构图确定待检测文本中的字符的向量表示的方式,通过确定目标字符在包含多个字符和多个字符之间的不同维度的相似度的字符异构图中的对应节点,并确定节点关联的变异字符结合,从而确定目标字符的向量表示,需要说明的是,目标字符的向量表示既包含目标字符本身的特征,又包含目标字符的变异字符的特征,达到了通过一个向量度量文字之间在多个维度上的相似度的目的,从而实现了准确度量文字之间在多个维度上的相似度的技术效果,进而解决了相关技术中字符向量在同时度量文字之间在多个维度上的相似度时度量结果不准确的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的文本处理方法的计算机终端的硬件结构框图;
图2是根据本发明实施例的文本处理方法的流程图;
图3是根据本发明实施例的文本处理方法中字符异构图的示意图;
图4是根据本发明实施例的文本处理方法中确定目标节点关联的变异字符集合的示意图;
图5是根据本发明实施例的搜索方法的流程图;
图6是根据本发明实施例的一种文字处理装置的示意图;
图7是根据本发明实施例的一种搜索装置的示意图;以及
图8是根据本申请实施例的一种计算机终端的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先,在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释:
汉字嵌入:把汉字表示成一个稠密的实数向量。
异构图:又称异构信息网络,是一种图结构,通常异构图包含一种以上的节点类型,以及一种以上的边类型,相对的,同构图只包含一种类型的节点,一种类型的边。
郑码:一种汉字形码,与五笔类似,编码上更有规律和逻辑。
CNN:卷积神经网络,是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,用于大型图像的处理工作以及文本的分类任务。
实施例1
根据本发明实施例,提供了一种文本处理方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现文本处理方法的计算机终端(或移动设备)的硬件结构框图。如图1所示,计算机终端10(或移动设备10)可以包括一个或多个(图中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储应用软件的软件程序以及模块,如本发明实施例中的文本处理方法对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的应用程序的文本处理方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。
在上述运行环境下,本申请提供了如图2所示的文本处理方法。图2是根据本发明实施例一的文本处理方法的流程图。
S21,获取待检测文本中的目标字符。
需要说明的是,待检测文本可以为待检测是否满足预设条件的文本,例如,可以为待检测是否为不满足文明用语要求的文本,具体地,可以为短信,可以为用户对某件商品的评论,还可以为用户针对某个话题的评论。
目标字符可以为待检测文本中对文本的含义起决定性作用的字符,可以为多个,获取多个目标字符,并确定目标字符的相似字符,从而基于多个目标字符的含义以及多个字符的相似字符的含义准确识别出待检测文本的含义,进而判断其是否满足预设条件。
S22,确定目标字符在字符异构图中对应的目标节点,其中,字符异构图中包括节点以及连接节点的边,节点用于表征字符,连接节点的边用于表征字符之间在不同维度的相似度。
需要说明的是,字符异构图中的一个节点对应一个字符。字符异构图中的节点的个数由同一种语言中的所有的字符决定,例如,汉字的字符异构图中包含3万多个节点。由于目标字符对应的字符异构图中已包含与该目标字符同种语言的所有字符对应的节点,获取目标字符后即可确定其在字符异构图中对应的目标节点。
进一步地,字符异构图中除了节点,还包含连接节点的边,连接节点的边由节点之间的关联关系确定,由于存在同一个字符与多个字符在不同的维度上相似的情况,所以一个节点可以伸出多条边与多个不同的节点连接。例如,汉字“未”与汉字“末”在字形上相似,则在汉字“未”对应的节点与汉字“末”对应的节点之间连接一条边,该条边表征两个汉字在字形上的相似度,汉字“未”与汉字“喂”在字音上相似,则在汉字“未”对应的节点与汉字“喂”对应的节点之间连接一条边,该条边表征两个汉字在字音上的相似度。
根据本申请上述实施例,不同维度的相似度至少包括以下之一:字音相似度、字形相似度和笔顺相似度。
具体的,字音相似度,是两个字符在读音上的相似度,对于汉字,字音相似度可以是拼音相似度;字形相似度,是两个字符在形状上的相似度;笔顺相似度,则是两个字符在笔画顺序上的相似度。
如图3所示,为本申请实施例中的汉字异构图,连接节点的边由字符的字音相似度、字形相似度和笔顺相似度决定,同一个节点可能与多条边相连,例如,汉字“未”与汉字“喂”具有字音相似度,在“未”对应的节点和“微”对应的节点之间构建一条边,用于表征二者之间的字音相似度,汉字“未”与汉字“味”具有字形相似度,在“末”对应的节点和“味”对应的节点之间构建一条边,用于表征二者之间的字形相似度,汉字“未”与汉字“末”具有笔顺相似度,在“未”对应的节点和“末”对应的节点之间构建一条边,用于表征二者之间的笔顺相似度。
通过本申请实施例,构建的字符异构图同时融合了字符的字音、字形和笔顺信息,且字形和笔顺同时对字符的形状进行了不同粒度的刻画,从而有效的建模了字符之间的音和形上的相似度。
S23,确定目标节点关联的变异字符集合,其中,变异字符集合由字符异构图中包含相似特征的多个节点,以及多个节点之间的边构成。
需要说明的是,定义字符异构图上存在若干个变异字符集合,每个变异字符集合即为一个家族,每个变异字符家族可看作由字符的分布构成,具体的,对于汉字“未”对应的节点,其连接的节点存在多个,其连接的多个节点也分别连接多个节点,在分布上呈现区域相近的特征,每个包含相近的特征的区域内的节点和边构成一个变异字符家族,而包含相近的特征的区域存在重叠的情况,目标节点关联的变异字符家族为目标节点所属的变异字符家族,因而,目标节点关联的变异字符家族可以为一个,也可以为多个。
根据本申请上述实施例,确定目标节点关联的变异字符集合包括:确定字符异构图中的目标节点以及目标节点所属的路径,其中,目标节点所属的路径由字符异构图中的至少一条边构成;计算目标节点与目标节点所属的路径共同属于目标变异字符集合的概率;在概率大于预设概率值的情况下,将目标变异字符集合确定为目标节点关联的变异字符集合。
具体地,在字符异构图中随机游走生成多条路径,并确定目标节点和目标节点所属的路径,如图4所示,通过下式计算目标节点及其路径属于某一个变异字符家族的概率:
Pr(Fi|Ci,path)∝Pr(Ci,Fi,path)
Pr(Ci,Fi,path)=Pr(path)Pr(Fi|path)Pr(Ci|Fi)
式中,Pr(Fi|Ci,path)表示节点Ci及其路径属于变异字符集合Fi的概率,正比于Pr(Ci,Fi,path),将Pr(Ci,Fi,path)展开,可以得知,Pr(Fi|Ci,path)由每条路径所属的变异字符集合的狄式先验分布的参数Pr(path)、每条路径属于变异字符集合Fi的概率Pr(Fi|path)、节点Ci属于变异字符集合Fi的概率Pr(Ci|Fi)确定。
S24,基于目标节点以及目标节点关联的变异字符集合,确定目标字符的向量表示。
具体地,通过图嵌入算法计算字符异构图中的目标节点的向量表示,并计算出目标节点所属的变异字符集合的向量表示,由二者综合确定目标字符的向量表示,使得目标字符的向量表示既包含字符本身的信息,还包含字符可能变异得到变异字符的信息。
根据本申请上述实施例,文本处理方法还包括:在基于目标节点以及目标节点关联的变异字符集合,确定目标字符的向量表示之前,基于目标函数对第一函数和第二函数进行优化,其中,第一函数用于基于节点计算该节点的向量表示,第二函数用于基于变异字符集合计算该变异字符集合的向量表示;基于优化后的第一函数计算目标节点的向量表示;基于优化后的第二函数计算目标节点关联的变异字符集合的向量表示。
需要说明的是,第一函数和第二函数均为图嵌入函数,用于将图形转化为向量表示,由初始的第一函数计算节点的向量表示,以及由初始的第二函数计算变异字符集合的向量表示,并非最准确的向量表示,因而需要采用目标函数优化初始的第一函数中的参数和初始的第二函数中的参数,从而优化初始的第一函数和初始的第二函数,使得第一函数和第二函数的计算结果更准确。
具体地,目标函数的定义如下式:
Figure BDA0002190179870000071
式中,f代表嵌入函数,Ci=f(Ci),代表节点的图嵌入算法,Fi=f(Fi),代表变异字符集合的图嵌入算法,
Figure BDA0002190179870000072
代表Ci和Fi的并置,C代表节点的字符异构图综中所有节点的集合,N(Ci)代表Ci的邻居,Cj为N(Ci)中的节点,<Ci,Fi>代表节点Ci与变异字符集合Fi的子对,用于封装局部(节点)和全局(集合)的信息,
Figure BDA0002190179870000073
代表归一化函数的模型,展开如下:
Figure BDA0002190179870000081
其中,〈Cj,Fj〉代表节点Cj与变异字符集合Fj的子对,
Figure BDA0002190179870000082
代表Cj和Fj的并置,
Figure BDA0002190179870000083
代表Ck和Fk的并置,
Figure BDA0002190179870000084
代表i和j两个节点的向量的乘积的指数表示,
Figure BDA0002190179870000085
代表所有字符与字符i的向量乘积指数之和,该归一化函数的模型参数的优化采用随机梯度上升法,每个节点嵌入算法的参数和家族嵌入算法的参数在所有节点家族对上是共享的,从而解决了训练数据稀疏的问题。
根据本申请上述实施例,基于目标节点以及目标节点关联的变异字符集合,确定目标字符的向量表示包括:确定目标节点的向量表示;确定目标节点关联的至少一个变异字符集合的向量表示;对目标节点的向量表示,以及目标节点关联的至少一个变异字符集合的向量表示进行并置运算,得到目标字符的向量表示。
需要说明的是,一个字符可属于多个变异字符集合,也可以限制为只属于一个变异字符集合,定义每个节点包含两个向量表示,一个是自身的向量表示C,一个是所属变异字符集合的向量表示F,在VFGE算法中,每个节点的最终表达如下,即通过并置运算组合了自身的向量表示C和按一定的分布组合所属的变异家族的变异字符集合的向量表示F:
Figure BDA0002190179870000086
需要说明的是,Gi表示Ci的增强家族图嵌入,[·,·]表示并置算符,F代表所有变异字符集合所在的集合,
Figure BDA0002190179870000087
代表由字符i属于的各个变异族的概率作为权重,对各变异族的向量进行加权平均得到的参数,可以从家族分配分类中推断出来。
如表1所示,展示了通过本实施例的方法挖掘到的与“运”和“惊”相似度较高的汉字:
表1
通过本申请实施例,在字符异构图的基础上提出变异家族增强图嵌入方法,相对于其他的图嵌入方法,如line、deepwalk等方法,不仅考虑了节点自身的信息,也包含了节点所属变异字符集合的信息,得到的节点的向量表示包含的特征更丰富。
根据本申请上述实施例,文本处理方法还包括:分别确定目标字典中各个字符的字音编码、字形编码和笔顺编码,其中,字形编码至少包括郑码编码和五笔编码之一;分别根据字音编码计算字符之间的字音相似度、根据字形编码计算字符之间的字形相似度、根据笔顺编码计算字符之间的笔顺相似度。
需要说明的是,目标字典中包含目标字符所述语言中的所有字符,例如,在目标字符为汉字的情况下,目标字典为汉字字典,其中包括3万多个汉字。由于每个汉字的特征由其字音、字形和笔顺表征,为了度量两个汉字之间的相似度,需要度量两个汉字之间的字音相似度、字形相似度和笔顺相似度。
具体地,在度量两个汉字之间的字音相似度时,可以用拼音编码进行度量,例如,拼音编码可以按照pypinyin工具包中的TONE3 style来定义;度量两个汉字之间的笔顺相似度时,可以用笔顺编码进行度量,例如,笔顺编码可以按照“横”&rarr;“1”,“竖”&rarr;“2”,“撇”&rarr;“3”,“捺”&rarr;“4”,“勾”&rarr;“5”来定义;此外,郑码可以替换为五笔编码等其他形码。如表2所示,分别为汉字“微”、“裸”、“票”的拼音编码、笔顺编码和郑码编码:
表2
汉字 拼音 笔顺 郑码
Wei1 3322521353134 OIQM
Luo3 4523425111234 WTKF
Piao4 12522111234 FJBK
通过本实施例,获取目标字典中各个字符的字音编码、字形编码和笔顺编码,从而方便地对各个字符之间的字音相似度、字形相似度和笔顺相似度进行度量。
根据本申请上述实施例,在目标字典中的字符为汉字的情况下,根据字音编码计算字符之间的字音相似度包括:在两个字符之间的声母、韵母和声调均相同的情况下,确定字符之间的字音相似度为第一字音相似度;在两个字符之间的声母和韵母相同、两个字符之间的声调不同的情况下,确定字符之间的字音相似度为第二字音相似度;在两个字符之间的声母或韵母之一相同的情况下,确定字符之间的字音相似度为第三字音相似度;在两个字符之间的声母、韵母和声调均不同的情况下,确定字符之间的字音相似度为第四字音相似度。
需要说明的是,汉字的字音可以用声母、韵母和声调来表征,根据字音编码计算汉字之间的字音相似度具体可以为,声母、韵母和声调完全相同,则定义字音相似度为1;声母、韵母相同,声调不同则定义字音相似度为alpha,声母、韵母其中一个相同,则定义字音相似度为beta;声母、韵母均不同,则定义字音相似度为0。
根据本申请上述实施例,根据笔顺编码计算字符之间的笔顺相似度包括:基于两个字符的笔顺编码确定共用的编码序列,并在共用的编码序列包含多个的情况下,确定最长共用编码的长度;基于两个字符的笔顺编码确定目标编码,并获取目标编码的长度,其中,目标编码为两个字符的笔顺编码中较长的编码;基于最长共用编码的长度以及目标编码的长度确定字符之间的笔顺相似度值。
具体地,基于两个字符的笔顺编码确定共用的编码序列包括确定两个字符的笔顺的最长公共字串和最长公共子序列,笔顺相似度定义如下:计算两个字符笔顺编码的最长公共子串,计长度为s1,例如,两个汉字的笔顺编码分别为“ABC”和“ADC”,其公共子串为“AC”,长度s1为2;计算两个字符笔顺编码的最长公共子序列,计长度为s2,例如,两个汉字的笔顺编码分别为“ABC”和“ABD”,其公共子串为“AB”,长度s2为2;两个字符笔顺编码中较长的那个长度为s3;在计算笔顺相似度值时,可以计算a=s1/s3,和b=s2/s3,最终取a和b的加权平均数为笔顺相似度值。
通过本实施例,综合两个字符的笔顺编码,以及两个字符的笔顺编码的最长共用编码的长度确定字符之间的笔顺相似度值,笔顺相似度的度量更为准确。
此外,在以郑码相似度计算字形相似度时,郑码相似度可以定义为两汉字编码的jaccard相似度。
根据本申请上述实施例,文本处理方法还包括:判断字符之间在不同维度的相似度是否大于预设相似度值;在字符之间在目标维度的相似度大于预设相似度值的情况下,基于目标维度下的相似度构建字符异构图中连接节点的边。
需要说明的是,字符之间的相似度有大小之分,例如,汉字“未”和汉字“味”之间的相似度大于汉字“未”和汉字“沫”之间的相似度,在字符异构图的构建中,连接节点的边的权重即两个汉字之间的相似度,连接节点的边的类型即为计算权重时的相似度类型,为了保证字符异构图的稀疏性,减少噪声,删除所有权重小于预设阈值的边,保留节点以及权重大于预设阈值的边,从而得到字符异构图。
将字符表示为字符的向量表示是为了为下游任务奠定数据基础,根据本申请上述实施例,文本处理方法还包括:将待检测文本中多个字符的向量表示输入目标卷积神经网络模型;基于目标卷积神经网络模型对待检测文本的分类结果,确定待检测文本是否属于指定类型的文本。
具体地,在垃圾文本分类实验中,对相关技术中的图嵌入方法得到的汉字向量表示和本实施例方法得到的汉字向量表示的结果进行对比,具体的,分别用相关技术中的图嵌入方法和本实施例方法将待检测文本中的各个汉字转化为向量表示,将向量表示输入卷积神经网络模型中,基于分类的正确率和F1值评判向量表示的方法对垃圾文本分类的效果。
例如,获取多条待检测短信,分别用相关技术中的图嵌入方法(Deepwalk、Line、Node2vec、Metapath2Vec和HEER)和本实施例方法(VFGE)将待检测短信中的各个汉字转化为向量表示,输入卷积模型中进行处理,得到的分类实验效果如表3所示:
表3
模型 正确率 F1值
Deepwalk 0.836 0.804
Line 0.821 0.783
Node2vec 0.835 0.802
Metapath2Vec 0.838 0.807
HEER 0.723 0.617
VFGE 0.839 0.827
由上表可知,基于本实施中的方法得到的向量表示进行垃圾分类,分类的正确率为0.839,比相关技术中的图嵌入方法正确率高,得到的F1值为0.827,也比相关技术中的图嵌入方法高。
例如,获取多条待检测评论,分别用相关技术中的图嵌入方法(Deepwalk、Line、Node2vec、Metapath2Vec和HEER)和本实施例方法(VFGE)将待检测评论中的各个汉字转化为向量表示,输入卷积模型中进行处理,得到的分类实验效果如表4所示:
表4
Figure BDA0002190179870000111
Figure BDA0002190179870000121
由上表可知,基于本实施中的方法得到的向量表示进行垃圾分类,分类的正确率为0.812,比相关技术中的图嵌入方法正确率高,得到的F1值为0.756,也比相关技术中的图嵌入方法高。
通过本实施例,对字符异构图中的节点挖掘变异字符家族,最终将节点表示成下游任务需要的向量,该向量包含该字符及其所在变异字符家族中可能的音变、形变信息,在垃圾文本分类任务上,本实施例的方法的分类效果明显优于相关技术中的图嵌入方法。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
根据本申请上述实施例,该文本处理方法还包括:确定目标推广领域;基于待检测文本中多个字符的向量表示确定第一目标文本,其中,第一目标文本为目标推广领域下的广告文本;将第一目标文本推送至目标推广对象。
需要说明的是,在广告领域,可以根据具体的推广领域对常规词汇进行变异,从而产生变异广告词,用于对推广领域的产品进行宣传推广。具体地,将待检测文本中的各个字进行向量表示,从而便于获取与待检测文本中的各个字相似度较高的字,进而确定合适的变异广告词,也即,第一目标文本,如,对于驱蚊产品的推广,基于“默默无闻”确定第一目标文本“默默无蚊”,变异的广告词可以给用户耳目一新的体验,从而提高推广的效果。
根据本申请上述实施例,待检测文本为搜索文本,该文本处理方法还包括:基于搜索文本中多个字符的向量表示确定第二目标文本;在搜索文本和第二目标文本中确定目标搜索文本;基于目标搜索文本获取搜索信息。
需要说明的是,在搜索领域,用户输入搜索词后,存在搜索词有误,无法搜索出有效信息的情况,需要对搜索词进行纠错,具体地,将搜索文本中多个字符进行向量表示,根据向量表示获取各个字符的相似字符,从而得到新的搜索词,展示新的搜索词,由用户选择采用原本的检索词或新的检索词进行搜索,从而提高检索的准确性。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
根据本发明实施例,还提供了另一种文本处理方法,如图5所示,包括以下步骤:
S51,获取用户输入的搜索文本。
具体的,可以通过网页或客户端的搜索栏目框中获取用户输入的搜索文本。
S52,在接收到搜索纠错指令的情况下,采用实施例中任意一项的文本处理方法,确定搜索文本中各个字符的向量表示。
S53,基于搜索文本中多个字符的向量表示确定第三目标文本。
需要说明的是,在搜索领域,用户输入搜索词后,存在搜索词有误,无法搜索出有效信息的情况,需要对搜索词进行纠错,具体地,将搜索文本中多个字符进行向量表示,根据向量表示获取各个字符的相似字符,从而得到新的搜索词,也即第三目标文本。
S54,在搜索文本和第三目标文本中确定目标搜索文本。
具体的,第三目标文本可以为多个,可以在搜索栏目框下方设置下拉菜单,在下拉菜单中显示第三目标文本。
S55,基于目标搜索文本获取搜索信息。
具体的,展示新的搜索词,由用户选择采用原本的检索词或新的检索词进行搜索,从而提高检索的准确性。
实施例3
根据本发明实施例,还提供了一种用于实施上述文本处理方法的装置,如图6所示,该装置包括:第一获取单元61、第一确定单元62、第二确定单元63和第三确定单元64。
具体地,第一获取单元61,用于获取待检测文本中的目标字符。
需要说明的是,待检测文本可以为待检测是否满足预设条件的文本,例如,可以为待检测是否为不满足文明用语要求的文本,具体地,可以为短信,可以为用户对某件商品的评论,还可以为用户针对某个话题的评论。
目标字符可以为待检测文本中对文本的含义起决定性作用的字符,可以为多个,获取多个目标字符,并确定目标字符的相似字符,从而基于多个目标字符的含义以及多个字符的相似字符的含义准确识别出待检测文本的含义,进而判断其是否满足预设条件。
第一确定单元62,用于确定目标字符在字符异构图中对应的目标节点,其中,字符异构图中包括节点以及连接节点的边,节点用于表征字符,连接节点的边用于表征字符之间在不同维度的相似度。
需要说明的是,字符异构图中的一个节点对应一个字符。字符异构图中的节点的个数由同一种语言中的所有的字符决定,例如,汉字的字符异构图中包含3万多个节点。由于目标字符对应的字符异构图中已包含与该目标字符同种语言的所有字符对应的节点,获取目标字符后即可确定其在字符异构图中对应的目标节点。
进一步地,字符异构图中除了节点,还包含连接节点的边,连接节点的边由节点之间的关联关系确定,由于存在同一个字符与多个字符在不同的维度上相似的情况,所以一个节点可以伸出多条边与多个不同的节点连接。例如,汉字“未”与汉字“末”在字形上相似,则在汉字“未”对应的节点与汉字“末”对应的节点之间连接一条边,该条边表征两个汉字在字形上的相似度,汉字“未”与汉字“喂”在字音上相似,则在汉字“未”对应的节点与汉字“喂”对应的节点之间连接一条边,该条边表征两个汉字在字音上的相似度。
第二确定单元63,用于确定目标节点关联的变异字符集合,其中,变异字符集合由字符异构图中包含相似特征的多个节点,以及多个节点之间的边构成。
需要说明的是,定义字符异构图上存在若干个变异字符集合,每个变异字符集合即为一个家族,每个变异字符家族可看作由字符的分布构成,具体的,对于汉字“未”对应的节点,其连接的节点存在多个,其连接的多个节点也分别连接多个节点,在分布上呈现区域相近的特征,每个包含相近的特征的区域内的节点和边构成一个变异字符家族,而包含相近的特征的区域存在重叠的情况,目标节点关联的变异字符家族为目标节点所属的变异字符家族,因而,目标节点关联的变异字符家族可以为一个,也可以为多个。
第三确定单元64,用于基于目标节点以及目标节点关联的变异字符集合,确定目标字符的向量表示。
具体地,通过图嵌入算法计算字符异构图中的目标节点的向量表示,并计算出目标节点所属的变异字符集合的向量表示,由二者综合确定目标字符的向量表示,使得目标字符的向量表示既包含字符本身的信息,还包含字符可能变异得到变异字符的信息。
此处需要说明的是,上述第一获取单元61、第一确定单元62、第二确定单元63和第三确定单元64对应于实施例1中的步骤S21至步骤S24,四个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。
根据本申请上述实施例,不同维度的相似度至少包括以下之一:字音相似度、字形相似度和笔顺相似度。
具体的,字音相似度,是两个字符在读音上的相似度,对于汉字,字音相似度可以是拼音相似度;字形相似度,是两个字符在形状上的相似度;笔顺相似度,则是两个字符在笔画顺序上的相似度。
如图3所示,为本申请实施例中的汉字异构图,连接节点的边由字符的字音相似度、字形相似度和笔顺相似度决定,同一个节点可能与多条边相连,例如,汉字“未”与汉字“喂”具有字音相似度,在“未”对应的节点和“微”对应的节点之间构建一条边,用于表征二者之间的字音相似度,汉字“未”与汉字“味”具有字形相似度,在“末”对应的节点和“味”对应的节点之间构建一条边,用于表征二者之间的字形相似度,汉字“未”与汉字“末”具有笔顺相似度,在“未”对应的节点和“末”对应的节点之间构建一条边,用于表征二者之间的笔顺相似度。
通过本申请实施例,构建的字符异构图同时融合了字符的字音、字形和笔顺信息,且字形和笔顺同时对字符的形状进行了不同粒度的刻画,从而有效的建模了字符之间的音和形上的相似度。
根据本申请上述实施例,文字处理装置还包括:第四确定单元和第一计算单元。
具体地,第四确定单元,用于分别确定目标字典中各个字符的字音编码、字形编码和笔顺编码,其中,字形编码至少包括郑码编码和五笔编码之一;
第一计算单元,用于分别根据字音编码计算字符之间的字音相似度、根据字形编码计算字符之间的字形相似度、根据笔顺编码计算字符之间的笔顺相似度。
需要说明的是,目标字典中包含目标字符所述语言中的所有字符,例如,在目标字符为汉字的情况下,目标字典为汉字字典,其中包括3万多个汉字。由于每个汉字的特征由其字音、字形和笔顺表征,为了度量两个汉字之间的相似度,需要度量两个汉字之间的字音相似度、字形相似度和笔顺相似度。
具体地,在度量两个汉字之间的字音相似度时,可以用拼音编码进行度量,例如,拼音编码可以按照pypinyin工具包中的TONE3 style来定义;度量两个汉字之间的笔顺相似度时,可以用笔顺编码进行度量,例如,笔顺编码可以按照“横”&rarr;“1”,“竖”&rarr;“2”,“撇”&rarr;“3”,“捺”&rarr;“4”,“勾”&rarr;“5”来定义;此外,郑码可以替换为五笔编码等其他形码。如表1所示,分别为汉字“微”、“裸”、“票”的拼音编码、笔顺编码和郑码编码:
表2
汉字 拼音 笔顺 郑码
Wei1 3322521353134 OIQM
Luo3 4523425111234 WTKF
Piao4 12522111234 FJBK
通过本实施例,获取目标字典中各个字符的字音编码、字形编码和笔顺编码,从而方便地对各个字符之间的字音相似度、字形相似度和笔顺相似度进行度量。
此处需要说明的是,上述第四确定单元和第一计算单元对应于实施例1中的步骤,两个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。
根据本申请上述实施例,在目标字典中的字符为汉字的情况下,第一计算单元包括第一计算模块,第一计算模块用于根据字音编码计算字符之间的字音相似度,第一计算模块包括:
第一计算字模块,用于在两个字符之间的声母、韵母和声调均相同的情况下,确定字符之间的字音相似度为第一字音相似度;
第二计算字模块,用于在两个字符之间的声母和韵母相同、两个字符之间的声调不同的情况下,确定字符之间的字音相似度为第二字音相似度;
第三计算字模块,用于在两个字符之间的声母或韵母之一相同的情况下,确定字符之间的字音相似度为第三字音相似度;
第四计算字模块,用于在两个字符之间的声母、韵母和声调均不同的情况下,确定字符之间的字音相似度为第四字音相似度。
需要说明的是,汉字的字音可以用声母、韵母和声调来表征,根据字音编码计算汉字之间的字音相似度具体可以为,声母、韵母和声调完全相同,则定义字音相似度为1;声母、韵母相同,声调不同则定义字音相似度为alpha,声母、韵母其中一个相同,则定义字音相似度为beta;声母、韵母均不同,则定义字音相似度为0。
此处需要说明的是,上述第一计算模块对应于实施例1中的步骤,该模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。
根据本申请上述实施例,第一计算单元包括第二计算模块,第二计算模块用于根据笔顺编码计算字符之间的笔顺相似度,第二计算模块包括:
第五计算字模块,用于基于两个字符的笔顺编码确定共用的编码序列,并在共用的编码序列包含多个的情况下,确定最长共用编码的长度;
第六计算字模块,用于基于两个字符的笔顺编码确定目标编码,并获取目标编码的长度,其中,目标编码为两个字符的笔顺编码中较长的编码;
第七计算字模块,用于基于最长共用编码的长度以及目标编码的长度确定字符之间的笔顺相似度值。
具体地,基于两个字符的笔顺编码确定共用的编码序列包括确定两个字符的笔顺的最长公共字串和最长公共子序列,笔顺相似度定义如下:计算两个字符笔顺编码的最长公共子串,计长度为s1,例如,两个汉字的笔顺编码分别为“ABC”和“ADC”,其公共子串为“AC”,长度s1为2;计算两个字符笔顺编码的最长公共子序列,计长度为s2,例如,两个汉字的笔顺编码分别为“ABC”和“ABD”,其公共子串为“AB”,长度s2为2;两个字符笔顺编码中较长的那个长度为s3;在计算笔顺相似度值时,可以计算a=s1/s3,和b=s2/s3,最终取a和b的加权平均数为笔顺相似度值。
通过本实施例,综合两个字符的笔顺编码,以及两个字符的笔顺编码的最长共用编码的长度确定字符之间的笔顺相似度值,笔顺相似度的度量更为准确。
此外,在以郑码相似度计算字形相似度时,郑码相似度可以定义为两汉字编码的jaccard相似度。
此处需要说明的是,上述第二计算模块对应于实施例1中的步骤,该模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。
根据本申请上述实施例,文字处理装置还包括:判断单元和构建单元。
具体地,判断单元,用于判断字符之间在不同维度的相似度是否大于预设相似度值;
构建单元,用于在字符之间在目标维度的相似度大于预设相似度值的情况下,基于目标维度下的相似度构建字符异构图中连接节点的边。
需要说明的是,字符之间的相似度有大小之分,例如,汉字“未”和汉字“味”之间的相似度大于汉字“未”和汉字“沫”之间的相似度,在字符异构图的构建中,连接节点的边的权重即两个汉字之间的相似度,连接节点的边的类型即为计算权重时的相似度类型,为了保证字符异构图的稀疏性,减少噪声,删除所有权重小于预设阈值的边,保留节点以及权重大于预设阈值的边,从而得到字符异构图。
此处需要说明的是,上述判断单元和构建单元对应于实施例1中的步骤,两个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。
根据本申请上述实施例,第二确定单元包括:第一确定模块、第三计算模块和第二确定模块。
具体地,第一确定模块,用于确定字符异构图中的目标节点以及目标节点所属的路径,其中,目标节点所属的路径由字符异构图中的至少一条边构成;
第三计算模块,用于计算目标节点与目标节点所属的路径共同属于目标变异字符集合的概率;
第二确定模块,用于在概率大于预设概率值的情况下,将目标变异字符集合确定为目标节点关联的变异字符集合。
具体地,在字符异构图中随机游走生成多条路径,并确定目标节点和目标节点所属的路径,如图4所示,通过下式计算目标节点及其路径属于某一个变异字符家族的概率:
Pr(Fi|Ci,path)∝Pr(Ci,Fi,path)
Pr(Ci,Fi,path)=Pr(path)Pr(Fi|path)Pr(Ci|Fi)
式中,Pr(Fi|Ci,path)表示节点Ci及其路径属于变异字符集合Fi的概率,正比于Pr(Ci,Fi,path),将Pr(Ci,Fi,path)展开,可以得知,Pr(Fi|Ci,path)由每条路径所属的变异字符集合的狄式先验分布的参数Pr(path)、每条路径属于变异字符集合Fi的概率Pr(Fi|path)、节点Ci属于变异字符集合Fi的概率Pr(Ci|Fi)。
此处需要说明的是,上述第一确定模块、第三计算模块和第二确定模块对应于实施例1中的步骤,三个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。
根据本申请上述实施例,第三确定单元包括:第三确定模块、第四确定模块和第四计算模块。
第三确定模块,用于确定目标节点的向量表示;
第四确定模块,用于确定目标节点关联的至少一个变异字符集合的向量表示;
第四计算模块,用于对目标节点的向量表示,以及目标节点关联的至少一个变异字符集合的向量表示进行并置运算,得到目标字符的向量表示。
需要说明的是,一个字符可属于多个变异字符集合,也可以限制为只属于一个变异字符集合,定义每个节点包含两个向量表示,一个是自身的向量表示C,一个是所属变异字符集合的向量表示F,在VFGE算法中,每个节点的最终表达如下,即通过并置运算组合了自身的向量表示C和按一定的分布组合所属的变异家族的变异字符集合的向量表示F:
Figure BDA0002190179870000191
需要说明的是,Gi表示Ci的增强家族图嵌入,[·,·]表示并置算符,F代表所有变异字符集合所在的集合,
Figure BDA0002190179870000192
代表由字符i属于的各个变异族的概率作为权重,对各变异族的向量进行加权平均得到的参数,可以从家族分配分类中推断出来。
如表1所示,展示了通过本实施例的方法挖掘到的与“运”和“惊”相似度较高的汉字:
表1
通过本申请实施例,在字符异构图的基础上提出变异家族增强图嵌入方法,相对于其他的图嵌入方法,如line、deepwalk等方法,不仅考虑了节点自身的信息,也包含了节点所属变异字符集合的信息,得到的节点的向量表示包含的特征更丰富。
此处需要说明的是,上述第三确定模块、第四确定模块和第四计算模块对应于实施例1中的步骤,三个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。
根据本申请上述实施例,文字处理装置还包括:优化单元、第二计算单元和第三计算单元。
具体地,优化单元,用于在基于目标节点以及目标节点关联的变异字符集合,确定目标字符的向量表示之前,基于目标函数对第一函数和第二函数进行优化,其中,第一函数用于基于节点计算该节点的向量表示,第二函数用于基于变异字符集合计算该变异字符集合的向量表示;
第二计算单元,用于基于优化后的第一函数计算目标节点的向量表示;
第三计算单元,用于基于优化后的第二函数计算目标节点关联的变异字符集合的向量表示。
需要说明的是,第一函数和第二函数均为图嵌入函数,用于将图形转化为向量表示,由初始的第一函数计算节点的向量表示,以及由初始的第二函数计算变异字符集合的向量表示,并非最准确的向量表示,因而需要采用目标函数优化初始的第一函数中的参数和初始的第二函数中的参数,从而优化初始的第一函数和初始的第二函数,使得第一函数和第二函数的计算结果更准确。
具体地,目标函数的定义如下式:
Figure BDA0002190179870000211
式中,f代表嵌入函数,Ci=f(Ci),代表节点的图嵌入算法,Fi=f(Fi),代表变异字符集合的图嵌入算法,
Figure BDA0002190179870000212
代表Ci和Fi的并置,C代表节点的字符异构图综中所有节点的集合,N(Ci)代表Ci的邻居,Cj为N(Ci)中的节点,<Ci,Fi>代表节点Ci与变异字符集合Fi的子对,用于封装局部(节点)和全局(集合)的信息,
Figure BDA0002190179870000213
代表归一化函数的模型,展开如下:
Figure BDA0002190179870000214
其中,〈Cj,Fj>代表节点Cj与变异字符集合Fj的子对,
Figure BDA0002190179870000215
代表Cj和Fj的并置,
Figure BDA0002190179870000216
代表Ck和Fk的并置,
Figure BDA0002190179870000217
代表i和j两个节点的向量的乘积的指数表示,
Figure BDA0002190179870000218
代表所有字符与字符i的向量乘积指数之和,该归一化函数的模型参数的优化采用随机梯度上升法,每个节点嵌入算法的参数和家族嵌入算法的参数在所有节点家族对上是共享的,从而解决了训练数据稀疏的问题。
此处需要说明的是,上述优化单元、第二计算单元和第三计算单元对应于实施例1中的步骤,三个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。
根据本申请上述实施例,文字处理装置还包括:输入单元和第五确定单元。
具体地,输入单元,用于将待检测文本中多个字符的向量表示输入目标卷积神经网络模型;
第五确定单元,用于基于目标卷积神经网络模型对待检测文本的分类结果,确定待检测文本是否属于指定类型的文本。
具体地,在垃圾文本分类实验中,对相关技术中的图嵌入方法得到的汉字向量表示和本实施例方法得到的汉字向量表示的结果进行对比,具体的,分别用相关技术中的图嵌入方法和本实施例方法将待检测文本中的各个汉字转化为向量表示,将向量表示输入卷积神经网络模型中,基于分类的正确率和F1值评判向量表示的方法对垃圾文本分类的效果。
例如,获取多条待检测短信,分别用相关技术中的图嵌入方法(Deepwalk、Line、Node2vec、Metapath2Vec和HEER)和本实施例方法(VFGE)将待检测短信中的各个汉字转化为向量表示,输入卷积模型中进行处理,得到的分类实验效果如表3所示:
表3
模型 正确率 F1值
Deepwalk 0.836 0.804
Line 0.821 0.783
Node2vec 0.835 0.802
Metapath2Vec 0.838 0.807
HEER 0.723 0.617
VFGE 0.839 0.827
由上表可知,基于本实施中的方法得到的向量表示进行垃圾分类,分类的正确率为0.839,比相关技术中的图嵌入方法正确率高,得到的F1值为0.827,也比相关技术中的图嵌入方法高。
例如,获取多条待检测评论,分别用相关技术中的图嵌入方法(Deepwalk、Line、Node2vec、Metapath2Vec和HEER)和本实施例方法(VFGE)将待检测评论中的各个汉字转化为向量表示,输入卷积模型中进行处理,得到的分类实验效果如表4所示:
表4
Figure BDA0002190179870000221
Figure BDA0002190179870000231
由上表可知,基于本实施中的方法得到的向量表示进行垃圾分类,分类的正确率为0.812,比相关技术中的图嵌入方法正确率高,得到的F1值为0.756,也比相关技术中的图嵌入方法高。
通过本实施例,对字符异构图中的节点挖掘变异字符家族,最终将节点表示成下游任务需要的向量,该向量包含该字符及其所在变异字符家族中可能的音变、形变信息,在垃圾文本分类任务上,本实施例的方法的分类效果明显优于相关技术中的图嵌入方法。
此处需要说明的是,上述输入单元和第五确定单元对应于实施例1中的步骤,两个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。
根据本申请上述实施例,文字处理装置还包括:第六确定单元、第七确定单元和推广单元。
具体地,第六确定单元,用于确定目标推广领域。
第七确定单元,用于基于待检测文本中多个字符的向量表示确定第一目标文本,其中,第一目标文本为目标推广领域下的广告文本。
推广单元,用于将第一目标文本推送至目标推广对象。
需要说明的是,在广告领域,可以根据具体的推广领域对常规词汇进行变异,从而产生变异广告词,用于对推广领域的产品进行宣传推广。具体地,将待检测文本中的各个字进行向量表示,从而便于获取与待检测文本中的各个字相似度较高的字,进而确定合适的变异广告词,也即,第一目标文本,如,对于驱蚊产品的推广,基于“默默无闻”确定第一目标文本“默默无蚊”,变异的广告词可以给用户耳目一新的体验,从而提高推广的效果。
此处需要说明的是,上述第六确定单元、第七确定单元和推广单元对应于实施例1中的步骤,三个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。
根据本申请上述实施例,待检测文本为搜索文本,该文字处理装置还包括:第八确定单元、第九确定单元和第二获取单元。
具体地,第八确定单元,用于基于搜索文本中多个字符的向量表示确定第二目标文本。
第九确定单元,用于在搜索文本和第二目标文本中确定目标搜索文本。
第二获取单元,用于基于目标搜索文本获取搜索信息。
需要说明的是,在搜索领域,用户输入搜索词后,存在搜索词有误,无法搜索出有效信息的情况,需要对搜索词进行纠错,具体地,将搜索文本中多个字符进行向量表示,根据向量表示获取各个字符的相似字符,从而得到新的搜索词,展示新的搜索词,由用户选择采用原本的检索词或新的检索词进行搜索,从而提高检索的准确性。
此处需要说明的是,上述第八确定单元、第九确定单元和第二获取单元对应于实施例1中的步骤,三个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。
实施例4
根据本发明实施例,还提供了一种用于实施上述搜索方法的装置,如图7所示,该装置包括:第三获取单元71、第十确定单元72、第十一确定单元73、第十二确定单元74和第四获取单元75。
具体地,第三获取单元71,用于获取用户输入的搜索文本。
具体的,可以通过网页或客户端的搜索栏目框中获取用户输入的搜索文本。
第十确定单元72,用于在接收到搜索纠错指令的情况下,采用实施例中任意一项的文本处理方法,确定搜索文本中各个字符的向量表示。
第十一确定单元73,用于基于搜索文本中多个字符的向量表示确定第三目标文本
需要说明的是,在搜索领域,用户输入搜索词后,存在搜索词有误,无法搜索出有效信息的情况,需要对搜索词进行纠错,具体地,将搜索文本中多个字符进行向量表示,根据向量表示获取各个字符的相似字符,从而得到新的搜索词,也即第三目标文本。
第十二确定单元74,用于在搜索文本和第三目标文本中确定目标搜索文本。
具体的,第三目标文本可以为多个,可以在搜索栏目框下方设置下拉菜单,在下拉菜单中显示第三目标文本。
第四获取单元75,用于基于目标搜索文本获取搜索信息。
具体的,展示新的搜索词,由用户选择采用原本的检索词或新的检索词进行搜索,从而提高检索的准确性。
此处需要说明的是,上述第三获取单元71、第十确定单元72、第十一确定单元73、第十二确定单元74和第四获取单元75对应于实施例2中的步骤,五个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例二所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。
实施例5
本发明的实施例可以提供一种计算机终端,该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地,在本实施例中,上述计算机终端也可以替换为移动终端等终端设备。
可选地,在本实施例中,上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
在本实施例中,上述计算机终端可以执行应用程序的文本处理方法中以下步骤的程序代码:获取待检测文本中的目标字符;确定目标字符在字符异构图中对应的目标节点,其中,字符异构图中包括节点以及连接节点的边,节点用于表征字符,连接节点的边用于表征字符之间在不同维度的相似度;确定目标节点关联的变异字符集合,其中,变异字符集合由字符异构图中包含相似特征的多个节点,以及多个节点之间的边构成;基于目标节点以及目标节点关联的变异字符集合,确定目标字符的向量表示。
可选地,图8是根据本发明实施例的一种计算机终端的结构框图。如图8所示,该计算机终端A可以包括:一个或多个(图中仅示出一个)处理器、存储器。
其中,存储器可用于存储软件程序以及模块,如本发明实施例中的文本处理方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的文本处理方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:获取待检测文本中的目标字符;确定目标字符在字符异构图中对应的目标节点,其中,字符异构图中包括节点以及连接节点的边,节点用于表征字符,连接节点的边用于表征字符之间在不同维度的相似度;确定目标节点关联的变异字符集合,其中,变异字符集合由字符异构图中包含相似特征的多个节点,以及多个节点之间的边构成;基于目标节点以及目标节点关联的变异字符集合,确定目标字符的向量表示。
可选的,上述处理器还可以执行如下步骤的程序代码:不同维度的相似度至少包括以下之一:字音相似度、字形相似度和笔顺相似度。
可选的,上述处理器还可以执行如下步骤的程序代码:分别确定目标字典中各个字符的字音编码、字形编码和笔顺编码,其中,字形编码至少包括郑码编码和五笔编码之一;分别根据字音编码计算字符之间的字音相似度、根据字形编码计算字符之间的字形相似度、根据笔顺编码计算字符之间的笔顺相似度。
可选的,上述处理器还可以执行如下步骤的程序代码:在目标字典中的字符为汉字的情况下,根据字音编码计算字符之间的字音相似度包括:在两个字符之间的声母、韵母和声调均相同的情况下,确定字符之间的字音相似度为第一字音相似度;在两个字符之间的声母和韵母相同、两个字符之间的声调不同的情况下,确定字符之间的字音相似度为第二字音相似度;在两个字符之间的声母或韵母之一相同的情况下,确定字符之间的字音相似度为第三字音相似度;在两个字符之间的声母、韵母和声调均不同的情况下,确定字符之间的字音相似度为第四字音相似度。
可选的,上述处理器还可以执行如下步骤的程序代码:根据笔顺编码计算字符之间的笔顺相似度包括:基于两个字符的笔顺编码确定共用的编码序列,并在共用的编码序列包含多个的情况下,确定最长共用编码的长度;基于两个字符的笔顺编码确定目标编码,并获取目标编码的长度,其中,目标编码为两个字符的笔顺编码中较长的编码;基于最长共用编码的长度以及目标编码的长度确定字符之间的笔顺相似度值。
可选的,上述处理器还可以执行如下步骤的程序代码:判断字符之间在不同维度的相似度是否大于预设相似度值;在字符之间在目标维度的相似度大于预设相似度值的情况下,基于目标维度下的相似度构建字符异构图中连接节点的边。
可选的,上述处理器还可以执行如下步骤的程序代码:确定目标节点关联的变异字符集合包括:确定字符异构图中的目标节点以及目标节点所属的路径,其中,目标节点所属的路径由字符异构图中的至少一条边构成;计算目标节点与目标节点所属的路径共同属于目标变异字符集合的概率;在概率大于预设概率值的情况下,将目标变异字符集合确定为目标节点关联的变异字符集合。
可选的,上述处理器还可以执行如下步骤的程序代码:基于目标节点以及目标节点关联的变异字符集合,确定目标字符的向量表示包括:确定目标节点的向量表示;确定目标节点关联的至少一个变异字符集合的向量表示;对目标节点的向量表示,以及目标节点关联的至少一个变异字符集合的向量表示进行并置运算,得到目标字符的向量表示。
可选的,上述处理器还可以执行如下步骤的程序代码:在基于目标节点以及目标节点关联的变异字符集合,确定目标字符的向量表示之前,基于目标函数对第一函数和第二函数进行优化,其中,第一函数用于基于节点计算该节点的向量表示,第二函数用于基于变异字符集合计算该变异字符集合的向量表示;基于优化后的第一函数计算目标节点的向量表示;基于优化后的第二函数计算目标节点关联的变异字符集合的向量表示。
可选的,上述处理器还可以执行如下步骤的程序代码:将待检测文本中多个字符的向量表示输入目标卷积神经网络模型;基于目标卷积神经网络模型对待检测文本的分类结果,确定待检测文本是否属于指定类型的文本。
可选的,上述处理器还可以执行如下步骤的程序代码:确定目标推广领域;基于待检测文本中多个字符的向量表示确定第一目标文本,其中,第一目标文本为目标推广领域下的广告文本;将第一目标文本推送至目标推广对象。
可选的,上述处理器还可以执行如下步骤的程序代码:在待检测文本为搜索文本的情况下,基于搜索文本中多个字符的向量表示确定第二目标文本;在搜索文本和第二目标文本中确定目标搜索文本;基于目标搜索文本获取搜索信息。
采用本发明实施例,提供了一种文本处理方法。采用基于字符异构图确定待检测文本中的字符的向量表示的方式,通过确定目标字符在包含多个字符和多个字符之间的不同维度的相似度的字符异构图中的对应节点,并确定节点关联的变异字符结合,从而确定目标字符的向量表示,需要说明的是,目标字符的向量表示既包含目标字符本身的特征,又包含目标字符的变异字符的特征,达到了通过一个向量度量文字之间在多个维度上的相似度的目的,进而解决了相关技术中字符向量在同时度量文字之间在多个维度上的相似度时度量结果不准确的技术问题。
本领域普通技术人员可以理解,图8所示的结构仅为示意,计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(Mobi leInternet Devices,MID)、PAD等终端设备。图8其并不对上述电子装置的结构造成限定。例如,计算机终端还可包括比图8中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图8所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
实施例6
本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于保存上述实施例一所提供的文本处理方法所执行的程序代码。
可选地,在本实施例中,上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:获取待检测文本中的目标字符;确定目标字符在字符异构图中对应的目标节点,其中,字符异构图中包括节点以及连接节点的边,节点用于表征字符,连接节点的边用于表征字符之间在不同维度的相似度;确定目标节点关联的变异字符集合,其中,变异字符集合由字符异构图中包含相似特征的多个节点,以及多个节点之间的边构成;基于目标节点以及目标节点关联的变异字符集合,确定目标字符的向量表示
不同维度的相似度至少包括以下之一:字音相似度、字形相似度和笔顺相似度。
分别确定目标字典中各个字符的字音编码、字形编码和笔顺编码,其中,字形编码至少包括郑码编码和五笔编码之一;分别根据字音编码计算字符之间的字音相似度、根据字形编码计算字符之间的字形相似度、根据笔顺编码计算字符之间的笔顺相似度。
在目标字典中的字符为汉字的情况下,根据字音编码计算字符之间的字音相似度包括:在两个字符之间的声母、韵母和声调均相同的情况下,确定字符之间的字音相似度为第一字音相似度;在两个字符之间的声母和韵母相同、两个字符之间的声调不同的情况下,确定字符之间的字音相似度为第二字音相似度;在两个字符之间的声母或韵母之一相同的情况下,确定字符之间的字音相似度为第三字音相似度;在两个字符之间的声母、韵母和声调均不同的情况下,确定字符之间的字音相似度为第四字音相似度。
根据笔顺编码计算字符之间的笔顺相似度包括:基于两个字符的笔顺编码确定共用的编码序列,并在共用的编码序列包含多个的情况下,确定最长共用编码的长度;基于两个字符的笔顺编码确定目标编码,并获取目标编码的长度,其中,目标编码为两个字符的笔顺编码中较长的编码;基于最长共用编码的长度以及目标编码的长度确定字符之间的笔顺相似度值。
判断字符之间在不同维度的相似度是否大于预设相似度值;在字符之间在目标维度的相似度大于预设相似度值的情况下,基于目标维度下的相似度构建字符异构图中连接节点的边。
确定目标节点关联的变异字符集合包括:确定字符异构图中的目标节点以及目标节点所属的路径,其中,目标节点所属的路径由字符异构图中的至少一条边构成;计算目标节点与目标节点所属的路径共同属于目标变异字符集合的概率;在概率大于预设概率值的情况下,将目标变异字符集合确定为目标节点关联的变异字符集合。
基于目标节点以及目标节点关联的变异字符集合,确定目标字符的向量表示包括:确定目标节点的向量表示;确定目标节点关联的至少一个变异字符集合的向量表示;对目标节点的向量表示,以及目标节点关联的至少一个变异字符集合的向量表示进行并置运算,得到目标字符的向量表示。
在基于目标节点以及目标节点关联的变异字符集合,确定目标字符的向量表示之前,基于目标函数对第一函数和第二函数进行优化,其中,第一函数用于基于节点计算该节点的向量表示,第二函数用于基于变异字符集合计算该变异字符集合的向量表示;基于优化后的第一函数计算目标节点的向量表示;基于优化后的第二函数计算目标节点关联的变异字符集合的向量表示。
将待检测文本中多个字符的向量表示输入目标卷积神经网络模型;基于目标卷积神经网络模型对待检测文本的分类结果,确定待检测文本是否属于指定类型的文本。
确定目标推广领域;基于待检测文本中多个字符的向量表示确定第一目标文本,其中,第一目标文本为目标推广领域下的广告文本;将第一目标文本推送至目标推广对象。
在待检测文本为搜索文本的情况下,基于搜索文本中多个字符的向量表示确定第二目标文本;在搜索文本和第二目标文本中确定目标搜索文本;基于目标搜索文本获取搜索信息。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (15)

1.一种文本处理方法,其中,包括:
获取待检测文本中的目标字符;
确定所述目标字符在字符异构图中对应的目标节点,其中,所述字符异构图中包括节点以及连接节点的边,所述节点用于表征字符,连接所述节点的边用于表征字符之间在不同维度的相似度;
确定所述目标节点关联的变异字符集合,其中,所述变异字符集合由所述字符异构图中包含相似特征的多个节点,以及所述多个节点之间的边构成;
基于所述目标节点以及所述目标节点关联的变异字符集合,确定所述目标字符的向量表示。
2.根据权利要求1所述的文本处理方法,其中,所述不同维度的相似度至少包括以下之一:字音相似度、字形相似度和笔顺相似度。
3.根据权利要求2所述的文本处理方法,其中,所述文本处理方法还包括:
分别确定目标字典中各个字符的字音编码、字形编码和笔顺编码,其中,所述字形编码至少包括郑码编码和五笔编码之一;
分别根据所述字音编码计算字符之间的字音相似度、根据所述字形编码计算字符之间的字形相似度、根据所述笔顺编码计算字符之间的笔顺相似度。
4.根据权利要求3所述的文本处理方法,其中,在所述目标字典中的字符为汉字的情况下,根据所述字音编码计算字符之间的字音相似度包括:
在两个字符之间的声母、韵母和声调均相同的情况下,确定字符之间的字音相似度为第一字音相似度;
在两个字符之间的声母和韵母相同、两个字符之间的声调不同的情况下,确定字符之间的字音相似度为第二字音相似度;
在两个字符之间的声母或韵母之一相同的情况下,确定字符之间的字音相似度为第三字音相似度;
在两个字符之间的声母、韵母和声调均不同的情况下,确定字符之间的字音相似度为第四字音相似度。
5.根据权利要求3所述的文本处理方法,其中,根据所述笔顺编码计算字符之间的笔顺相似度包括:
基于两个字符的笔顺编码确定共用的编码序列,并在所述共用的编码序列包含多个的情况下,确定最长共用编码的长度;
基于两个字符的笔顺编码确定目标编码,并获取所述目标编码的长度,其中,所述目标编码为两个字符的笔顺编码中较长的编码;
基于所述最长共用编码的长度以及所述目标编码的长度确定字符之间的笔顺相似度值。
6.根据权利要求1所述的文本处理方法,其中,所述文本处理方法还包括:
判断字符之间在不同维度的相似度是否大于预设相似度值;
在字符之间在目标维度的相似度大于预设相似度值的情况下,基于所述目标维度下的相似度构建所述字符异构图中连接节点的边。
7.根据权利要求1所述的文本处理方法,其中,确定所述目标节点关联的变异字符集合包括:
确定所述字符异构图中的目标节点以及所述目标节点所属的路径,其中,所述目标节点所属的路径由所述字符异构图中的至少一条边构成;
计算所述目标节点与所述目标节点所属的路径共同属于目标变异字符集合的概率;
在所述概率大于预设概率值的情况下,将所述目标变异字符集合确定为所述目标节点关联的变异字符集合。
8.根据权利要求1所述的文本处理方法,其中,基于所述目标节点以及所述目标节点关联的变异字符集合,确定所述目标字符的向量表示包括:
确定所述目标节点的向量表示;
确定所述目标节点关联的至少一个变异字符集合的向量表示;
对所述目标节点的向量表示,以及所述目标节点关联的至少一个变异字符集合的向量表示进行并置运算,得到所述目标字符的向量表示。
9.根据权利要求8所述的文本处理方法,其中,所述文本处理方法还包括:
在基于所述目标节点以及所述目标节点关联的变异字符集合,确定所述目标字符的向量表示之前,基于目标函数对第一函数和第二函数进行优化,其中,所述第一函数用于基于节点计算该节点的向量表示,所述第二函数用于基于变异字符集合计算该变异字符集合的向量表示;
基于优化后的第一函数计算所述目标节点的向量表示;
基于优化后的第二函数计算所述目标节点关联的变异字符集合的向量表示。
10.根据权利要求1所述的文本处理方法,其中,所述文本处理方法还包括:
将所述待检测文本中多个字符的向量表示输入目标卷积神经网络模型;
基于所述目标卷积神经网络模型对所述待检测文本的分类结果,确定所述待检测文本是否属于指定类型的文本。
11.根据权利要求1所述的文本处理方法,其中,所述文本处理方法还包括:
确定目标推广领域;
基于所述待检测文本中多个字符的向量表示确定第一目标文本,其中,所述第一目标文本为所述目标推广领域下的广告文本;
将所述第一目标文本推送至目标推广对象。
12.根据权利要求1所述的文本处理方法,其中,所述待检测文本为搜索文本,所述文本处理方法还包括:
基于所述搜索文本中多个字符的向量表示确定第二目标文本;
在所述搜索文本和所述第二目标文本中确定目标搜索文本;
基于所述目标搜索文本获取搜索信息。
13.一种搜索方法,包括:
获取用户输入的搜索文本;
在接收到搜索纠错指令的情况下,采用权利要求1-9中任意一项所述的文本处理方法,确定所述搜索文本中各个字符的向量表示;
基于所述搜索文本中多个字符的向量表示确定第三目标文本;
在所述搜索文本和所述第三目标文本中确定目标搜索文本;
基于所述目标搜索文本获取搜索信息。
14.一种文字处理装置,其中,包括:
获取单元,用于获取待检测文本中的目标字符;
第一确定单元,用于确定所述目标字符在字符异构图中对应的目标节点,其中,所述字符异构图中包括节点以及连接节点的边,所述节点用于表征字符,连接所述节点的边用于表征字符之间在不同维度的相似度;
第二确定单元,用于确定所述目标节点关联的变异字符集合,其中,所述变异字符集合由所述字符异构图中包含相似特征的多个节点,以及所述多个节点之间的边构成;
第三确定单元,用于基于所述目标节点以及所述目标节点关联的变异字符集合,确定所述目标字符的向量表示。
15.一种处理器,其中,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至12中任意一项所述的文本处理方法。
CN201910829455.7A 2019-09-03 2019-09-03 文本处理方法、装置、搜索方法以及处理器 Active CN112528624B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910829455.7A CN112528624B (zh) 2019-09-03 2019-09-03 文本处理方法、装置、搜索方法以及处理器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910829455.7A CN112528624B (zh) 2019-09-03 2019-09-03 文本处理方法、装置、搜索方法以及处理器

Publications (2)

Publication Number Publication Date
CN112528624A true CN112528624A (zh) 2021-03-19
CN112528624B CN112528624B (zh) 2024-05-14

Family

ID=74974848

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910829455.7A Active CN112528624B (zh) 2019-09-03 2019-09-03 文本处理方法、装置、搜索方法以及处理器

Country Status (1)

Country Link
CN (1) CN112528624B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112990353A (zh) * 2021-04-14 2021-06-18 中南大学 一种基于多模态模型的汉字易混淆集构建方法
CN113642392A (zh) * 2021-07-07 2021-11-12 上海交通大学 一种目标搜索方法及装置
CN113837118A (zh) * 2021-09-28 2021-12-24 支付宝(杭州)信息技术有限公司 文本变异关系的获取方法和装置

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101727579A (zh) * 2008-10-15 2010-06-09 北大方正集团有限公司 变形字的检测方法、变形字中水印信息的确定方法及装置
CN102122298A (zh) * 2011-03-07 2011-07-13 清华大学 一种中文相似性匹配方法
US20140214401A1 (en) * 2013-01-29 2014-07-31 Tencent Technology (Shenzhen) Company Limited Method and device for error correction model training and text error correction
CN104239872A (zh) * 2014-09-26 2014-12-24 南开大学 异态汉字识别方法
CN104268526A (zh) * 2014-09-25 2015-01-07 北京航空航天大学 一种汉字图片匹配与变形方法
CN104462068A (zh) * 2013-09-12 2015-03-25 北大方正集团有限公司 字符转换系统和字符转换方法
CN108288067A (zh) * 2017-09-12 2018-07-17 腾讯科技(深圳)有限公司 图像文本匹配模型的训练方法、双向搜索方法及相关装置
CN109359227A (zh) * 2018-09-10 2019-02-19 平安科技(深圳)有限公司 近似商标的获取方法、装置、计算机设备和存储介质
CN109840326A (zh) * 2019-01-31 2019-06-04 浪潮软件集团有限公司 一种汉字字义、字音、字形的相似度比对系统及方法
US20190205393A1 (en) * 2016-07-11 2019-07-04 Peking University Shenzhen Graduate School A cross-media search method
CN110069753A (zh) * 2018-01-24 2019-07-30 北京京东尚科信息技术有限公司 一种生成相似度信息的方法和装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101727579A (zh) * 2008-10-15 2010-06-09 北大方正集团有限公司 变形字的检测方法、变形字中水印信息的确定方法及装置
CN102122298A (zh) * 2011-03-07 2011-07-13 清华大学 一种中文相似性匹配方法
US20140214401A1 (en) * 2013-01-29 2014-07-31 Tencent Technology (Shenzhen) Company Limited Method and device for error correction model training and text error correction
CN104462068A (zh) * 2013-09-12 2015-03-25 北大方正集团有限公司 字符转换系统和字符转换方法
CN104268526A (zh) * 2014-09-25 2015-01-07 北京航空航天大学 一种汉字图片匹配与变形方法
CN104239872A (zh) * 2014-09-26 2014-12-24 南开大学 异态汉字识别方法
US20190205393A1 (en) * 2016-07-11 2019-07-04 Peking University Shenzhen Graduate School A cross-media search method
CN108288067A (zh) * 2017-09-12 2018-07-17 腾讯科技(深圳)有限公司 图像文本匹配模型的训练方法、双向搜索方法及相关装置
CN110069753A (zh) * 2018-01-24 2019-07-30 北京京东尚科信息技术有限公司 一种生成相似度信息的方法和装置
CN109359227A (zh) * 2018-09-10 2019-02-19 平安科技(深圳)有限公司 近似商标的获取方法、装置、计算机设备和存储介质
CN109840326A (zh) * 2019-01-31 2019-06-04 浪潮软件集团有限公司 一种汉字字义、字音、字形的相似度比对系统及方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112990353A (zh) * 2021-04-14 2021-06-18 中南大学 一种基于多模态模型的汉字易混淆集构建方法
CN113642392A (zh) * 2021-07-07 2021-11-12 上海交通大学 一种目标搜索方法及装置
CN113642392B (zh) * 2021-07-07 2023-11-28 上海交通大学 一种目标搜索方法及装置
CN113837118A (zh) * 2021-09-28 2021-12-24 支付宝(杭州)信息技术有限公司 文本变异关系的获取方法和装置
CN113837118B (zh) * 2021-09-28 2024-04-26 支付宝(杭州)信息技术有限公司 文本变异关系的获取方法和装置

Also Published As

Publication number Publication date
CN112528624B (zh) 2024-05-14

Similar Documents

Publication Publication Date Title
US20160162467A1 (en) Methods and systems for language-agnostic machine learning in natural language processing using feature extraction
CN104008203B (zh) 一种融入本体情境的用户兴趣挖掘方法
CN108108426B (zh) 自然语言提问的理解方法、装置及电子设备
CN112528624A (zh) 文本处理方法、装置、搜索方法以及处理器
CN107273349B (zh) 一种基于多种语言的实体关系抽取方法及服务器
US20180365594A1 (en) Systems and methods for generative learning
CN109492217B (zh) 一种基于机器学习的分词方法及终端设备
TWI567569B (zh) Natural language processing systems, natural language processing methods, and natural language processing programs
CN111753082A (zh) 基于评论数据的文本分类方法及装置、设备和介质
CN107688630B (zh) 一种基于语义的弱监督微博多情感词典扩充方法
CN111488732B (zh) 一种变形关键词检测方法、系统及相关设备
US11526674B2 (en) Sentence extraction system, sentence extraction method, and information storage medium
CN113255331B (zh) 文本纠错方法、装置及存储介质
CN107111607A (zh) 用于语言检测的系统和方法
CN113688232B (zh) 招标文本分类方法、装置、存储介质及终端
CN111737961A (zh) 一种故事生成的方法、装置、计算机设备和介质
Mishra et al. Twitter sentiment analysis using naive bayes algorithm
CN114036921A (zh) 一种政策信息匹配方法和装置
US20230306196A1 (en) System and method for spelling correction
US20230288990A1 (en) Artificial intelligence based hybrid system and method for generation of word predictions based on language modelling
JP2020149119A (ja) レコメンド文生成装置、レコメンド文生成方法、及びレコメンド文生成プログラム
CN112270201B (zh) 古籍汉字繁简转换方法和装置
CN115495636A (zh) 网页搜索方法、装置及存储介质
CN112417851A (zh) 文本纠错分词方法、系统及电子设备
CN110807118A (zh) 图像评论的生成方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant