CN115455944A - 文本处理方法、装置及电子设备 - Google Patents

文本处理方法、装置及电子设备 Download PDF

Info

Publication number
CN115455944A
CN115455944A CN202211117320.6A CN202211117320A CN115455944A CN 115455944 A CN115455944 A CN 115455944A CN 202211117320 A CN202211117320 A CN 202211117320A CN 115455944 A CN115455944 A CN 115455944A
Authority
CN
China
Prior art keywords
word
vector
text
target
word vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211117320.6A
Other languages
English (en)
Inventor
刘恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202211117320.6A priority Critical patent/CN115455944A/zh
Publication of CN115455944A publication Critical patent/CN115455944A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/226Validation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种文本处理方法、装置及电子设备,涉及人工智能领域。其中,该方法包括:对终端设备上传的文本进行预处理,得到第一单词组;对第一单词组进行向量化处理,得到词向量;计算第一单词组中每个单词的权重值,并基于权重值对词向量进行压缩,得到第一词向量;确定第一词向量与向量库中的每个预设词向量之间的相似度,并根据相似度从向量库中确定目标词向量以及与目标词向量相对应的目标文本;将目标文本发送至终端设备中。本申请解决了现有技术中文本内容核对效率低的技术问题。

Description

文本处理方法、装置及电子设备
技术领域
本申请涉及人工智能领域,具体而言,涉及一种文本处理方法、装置及电子设备。
背景技术
随着移动互联网的发展,银行用户的交易行为逐渐由线下转变为线上,其中,汇款业务为多种线上交易业务的一种重要场景。出于资金交易安全的考虑,当前银行的在线交易系统需要对银行用户填写的收款方名称进行严格的校验,如果用户填写不规范或存在错字、少字将导致交易失败。
但是,在现有技术中,在由于收款方名称错误导致交易失败时,通常是采用人工核对的方式,由银行工作人员与银行用户人工核对已填写的收款方名称,并在确定错误原因之后对收款方名称进行修改。这种核对方式会浪费大量的人力成本,并且导致核对效率较低的问题。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种文本处理方法、装置及电子设备,以至少解决现有技术中文本内容核对效率低的技术问题。
根据本申请实施例的一个方面,提供了一种文本处理方法,包括:对终端设备上传的文本进行预处理,得到第一单词组,其中,第一单词组由文本中的至少一个单词组成,文本中记录了导致交易失败的异常信息;对第一单词组进行向量化处理,得到词向量,其中,词向量包含多个向量维度,每个向量维度与一个单词相对应;计算第一单词组中每个单词的权重值,并基于权重值对词向量进行压缩,得到第一词向量,其中,第一词向量的向量维度数量少于词向量的向量维度数量,权重值用于表征每个单词对于文本的重要程度;确定第一词向量与向量库中的每个预设词向量之间的相似度,并根据相似度从向量库中确定目标词向量以及与目标词向量相对应的目标文本,其中,向量库用于存储多个预设词向量以及每个预设词向量所对应的预设文本;将目标文本发送至终端设备中,其中,目标文本用于协助目标对象核对出文本中的异常信息,目标对象为在终端设备中上传文本的对象。
进一步地,文本处理方法还包括:获取终端设备上传的文本;对文本进行分词处理,得到单词组,其中,单词组包含文本的每一个单词;过滤单词组中的干扰单词,得到第一单词组,其中,干扰单词为以下至少之一:预设单词、预设符号。
进一步地,文本处理方法还包括:依据word2vec模型对第一单词组进行向量化处理,得到词向量,其中,词向量由数值1和数值0组成。
进一步地,文本处理方法还包括:计算第一单词组中每个单词的权重值;将词向量中的数值1替换为每个单词的权重值,得到第二词向量;统计第二词向量中数值0的数量;根据数值0的数量对第二词向量进行压缩,得到第一词向量。
进一步地,文本处理方法还包括:步骤一:确定第一单词组中的任意一个单词为目标单词;步骤二;获取目标单词在第一单词组中出现的次数以及第一单词组中单词的总数量;步骤三:根据次数与第一单词组中单词的总数量确定目标比值;步骤四:获取语料库中第二单词组的数量以及语料库中所有词组的总数量,其中,第二单词组为包含目标单词的单词组,语料库用于存储根据向量库中的预设文本生成的多个单词组;步骤五:根据第二单词组的数量以及所有单词组的总数量确定目标对数值;步骤六:计算目标对数值与目标比值的乘积,得到目标单词的权重值;步骤七:重复执行步骤一至步骤六的过程,直至得到第一单词组中每个单词的权重值。
进一步地,文本处理方法还包括:获取数值0的数量所对应的数量值;根据数量值以及每个单词的权重值生成第一词向量,其中,第一词向量由数量值以及每个单词的权重值组成。
进一步地,文本处理方法还包括:根据余弦相似度算法计算第一词向量与预设词向量之间的余弦相似度;确定余弦相似度为相似度;根据每个预设词向量对应的相似度对向量库中的多个预设词向量进行排序,得到排序结果,其中,相似度高的预设词向量在相似度低的预设词向量之前;根据排序结果从多个预设词向量中确定至少一个目标词向量;将每个目标词向量对应的预设文本作为与目标词向量相对应的目标文本。
进一步地,文本处理方法还包括:确定目标文本与文本中的差异内容,并将差异内容作为异常信息;将异常信息与目标文本发送至终端设备中。
根据本申请实施例的另一方面,还提供了一种文本处理装置,包括:预处理模块,用于对终端设备上传的文本进行预处理,得到第一单词组,其中,第一单词组由文本中的至少一个单词组成,文本中记录了导致交易失败的异常信息;向量化处理模块,用于对第一单词组进行向量化处理,得到词向量,其中,词向量包含多个向量维度,每个向量维度与一个单词相对应;计算模块,用于计算第一单词组中每个单词的权重值,并基于权重值对词向量进行压缩,得到第一词向量,其中,第一词向量的向量维度数量少于词向量的向量维度数量,权重值用于表征每个单词对于文本的重要程度;确定模块,用于确定第一词向量与向量库中的每个预设词向量之间的相似度,并根据相似度从向量库中确定目标词向量以及与目标词向量相对应的目标文本,其中,向量库用于存储多个预设词向量以及每个预设词向量所对应的预设文本;发送模块,用于将目标文本发送至终端设备中,其中,目标文本用于协助目标对象核对出文本中的异常信息,目标对象为在终端设备中上传文本的对象。
根据本申请实施例的另一方面,还提供了一种电子设备,包括一个或多个处理器和存储器,存储器用于存储一个或多个程序,其中,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现上述的文本处理方法。
在本申请中,采用将文本转换为词向量,并根据词向量与预设词向量的相似度确定目标文本的方式,通过对终端设备上传的文本进行预处理,得到第一单词组,并对第一单词组进行向量化处理,得到词向量,然后计算第一单词组中每个单词的权重值,并基于权重值对词向量进行压缩,得到第一词向量,随后确定第一词向量与向量库中的每个预设词向量之间的相似度,并根据相似度从向量库中确定目标词向量以及与目标词向量相对应的目标文本,最后将目标文本发送至终端设备中。其中,第一单词组由文本中的至少一个单词组成,文本中记录了导致交易失败的异常信息;词向量包含多个向量维度,每个向量维度与一个单词相对应;第一词向量的向量维度数量少于词向量的向量维度数量,权重值用于表征每个单词对于文本的重要程度;向量库用于存储多个预设词向量以及每个预设词向量所对应的预设文本;目标文本用于协助目标对象核对出文本中的异常信息,目标对象为在终端设备中上传文本的对象。
由上述内容可知,首先本申请将用户通过终端设备上传的文本转化为词向量,并根据每个单词在第一单词组中的权重值对词向量进行压缩处理,得到第一词向量,从而减少了词向量的向量维度数量,并且由于向量维度数量的减少,可以降低后续确定第一词向量与预设词向量之间的相似度时的计算难度,提高相似度的计算效率。另外,本申请通过词向量与预设词向量之间的相似度,能够从向量库中确定目标文本,并将目标文本返回至终端设备中,从而实现了对用户上传的文本的自动纠正,进而提高了对文本的校验效率。
由此可见,通过本申请的技术方案,达到了对文本进行自动校验的目的,从而实现了降低对文本校验过程中的检验成本,进而解决了现有技术中文本内容核对效率低的技术问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的一种可选的文本处理方法的流程图;
图2是根据本申请实施例的一种可选的预处理过程的流程图;
图3是根据本申请实施例的一种可选的计算第一单词组中单词的权重值的流程图;
图4是根据本申请实施例的一种可选的文本处理方法的流程图;
图5是根据本申请实施例的一种可选的文本处理装置的示意图;
图6是根据本申请实施例的一种可选的电子设备的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
另外,还需要说明的是,本公开所涉及的相关信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等),均为经用户授权或者经过各方充分授权的信息和数据。例如,本系统和相关用户或机构间设置有接口,在获取相关信息之前,需要通过接口向前述的用户或机构发送获取请求,并在接收到前述的用户或机构反馈的同意信息后,获取相关信息。
实施例1
根据本申请实施例,提供了一种文本处理方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本申请实施例的一种可选的文本处理方法的流程图,如图1所示,该方法包括如下步骤:
步骤S101,对终端设备上传的文本进行预处理,得到第一单词组。
在步骤S101中,第一单词组由文本中的至少一个单词组成,文本中记录了导致交易失败的异常信息。另外,上述的终端设备可以是智能手机、智能平板、笔记本电脑、台式电脑、自助存取款机等可提供线上交易业务的设备。上述的文本包括但不限于付款用户在终端设备上填写的收款方名称、收款账户以及付款账户等。上述的异常信息可以是文本中的错误字符、多余字符或者缺失字符等。
容易注意到的是,在线上交易过程中,尤其是对公汇款交易的过程中,出于资金交易安全的考虑,银行的在线交易系统会对用户填写的收款方名称、收款账户等各类文本信息进行严格的校验,如果用户填写不规范或存在错字、少字,都会导致交易失败。举例而言,用户A想要向机构B进行汇款,假设机构B的正确名称为“机构B责任有限公司C地区分公司”,在此基础上,如果用户A将机构B的名称填写为了“机构B责任有限公司D地区分公司”,则其中的“D”即为异常信息,由于与正确名称不符,会导致这一笔用户A向机构B的汇款交易失败。
需要说明的是,一种文本处理系统可作为本申请实施例的文本处理方法的执行主体,其中,文本处理系统与上述银行的在线交易系统之间可进行数据通讯,在银行的在线交易系统检测到某笔交易由于用户在终端设备上填写的文本出现异常导致交易失败时,会将该文本转发至文本处理系统中。
进一步地,文本处理系统在接收到文本之后,会对文本进行分词处理以及干扰单词过滤处理的预处理操作,并在预处理之后得到第一单词组。
步骤S102,对第一单词组进行向量化处理,得到词向量。
在步骤S102中,词向量包含多个向量维度,每个向量维度与一个单词相对应。具体的,在得到第一单词组之后,文本处理系统通过word2vec模型对第一单词组进行向量化处理,得到词向量,其中,词向量由数值1和数值0组成。例如,假设第一单词组为词组1[银行、街道、支行、分行、办事处、城市],通过对词组1进行向量化处理,得到词向量[1,1,1,0,0,0],该词向量有6个维度。
步骤S103,计算第一单词组中每个单词的权重值,并基于权重值对词向量进行压缩,得到第一词向量。
在步骤S103中,第一词向量的向量维度数量少于词向量的向量维度数量,权重值用于表征每个单词对于文本的重要程度。
可选的,在得到词向量之后,文本处理系统还会采用TF-IDF算法,对词向量进行优化。具体的,文本处理系统会计算第一单词组中每个单词的TF-IDF值,并将TF-IDF值作为该单词的权重值。最后,文本处理系统会根据每个单词的权重值对词向量进行优化,并对优化后的词向量进行压缩,以便提高后续确定目标词向量的效率。
步骤S104,确定第一词向量与向量库中的每个预设词向量之间的相似度,并根据相似度从向量库中确定目标词向量以及与目标词向量相对应的目标文本。
在步骤S104中,向量库用于存储多个预设词向量以及每个预设词向量所对应的预设文本。具体的,向量库预先部署在文本处理系统中,文本处理系统可以访问在线交易系统的数据库,并从数据库中获取成功交易所对应的交易日志,根据日志解析得到正确文本,由于交易日志的数量很多,因此,根据交易日志,文本处理系统可以很容易的获取得到大量的正确文本(即预设文本),最后,文本处理系统基于这些正确文本可以预先生成大量的预设词向量,其中,一个正确文本对应一个预设词向量。
可选的,在得到第一词向量之后,文本处理系统通过余弦相似度算法计算第一词向量与每个预设词向量之间的相似度,并且选取相似度高的一个或者几个预设词向量作为目标词向量,同时将目标词向量对应的预设文本作为目标文本。
步骤S105,将目标文本发送至终端设备中。
在步骤S105中,目标文本用于协助目标对象核对出文本中的异常信息,目标对象为在终端设备中上传文本的对象。
具体的,在得到目标文本之后,文本处理系统可以确定目标文本与文本之间的差异内容,并将差异内容作为异常信息,然后将异常信息与目标文本发送至终端设备中。
举例而言,仍以用户A填写的文本为上述步骤S101介绍内容中的“机构B责任有限公司D地区分公司”为例,文本处理系统所确定的目标文本为上述的“机构B责任有限公司C地区分公司”,文本处理系统通过比对目标文本和用户A填写的文本,确定用户A填写的文本中的异常信息为“D”,因此,在文本处理系统将异常信息“D”以及目标文本发送至终端设备之后,用户A可以很清楚的知晓自己所填写的文本的错误之处为“D”,并根据目标文本将“D”修改为“C”。由此可见,通过本申请的技术方案,不仅可以自动校验出文本中的异常信息,还可以协助用户将异常信息修改为正确信息,从而在提高了校验效率的同时,还提升了用户的使用体验。
基于上述步骤S101至步骤S105的内容可知,在本申请中,采用将文本转换为词向量,并根据词向量与预设词向量的相似度确定目标文本的方式,通过对终端设备上传的文本进行预处理,得到第一单词组,并对第一单词组进行向量化处理,得到词向量,然后计算第一单词组中每个单词的权重值,并基于权重值对词向量进行压缩,得到第一词向量,随后确定第一词向量与向量库中的每个预设词向量之间的相似度,并根据相似度从向量库中确定目标词向量以及与目标词向量相对应的目标文本,最后将目标文本发送至终端设备中。其中,第一单词组由文本中的至少一个单词组成,文本中记录了导致交易失败的异常信息;词向量包含多个向量维度,每个向量维度与一个单词相对应;第一词向量的向量维度数量少于词向量的向量维度数量,权重值用于表征每个单词对于文本的重要程度;向量库用于存储多个预设词向量以及每个预设词向量所对应的预设文本;目标文本用于协助目标对象核对出文本中的异常信息,目标对象为在终端设备中上传文本的对象。
由上述内容可知,首先本申请将用户通过终端设备上传的文本转化为词向量,并根据每个单词在第一单词组中的权重值对词向量进行压缩处理,得到第一词向量,从而减少了词向量的向量维度数量,并且由于向量维度数量的减少,可以降低后续确定第一词向量与预设词向量之间的相似度时的计算难度,提高相似度的计算效率。另外,本申请通过词向量与预设词向量之间的相似度,能够从向量库中确定目标文本,并将目标文本返回至终端设备中,从而实现了对用户上传的文本的自动纠正,进而提高了对文本的校验效率。
由此可见,通过本申请的技术方案,达到了对文本进行自动校验的目的,从而实现了降低对文本校验过程中的检验成本,进而解决了现有技术中文本内容核对效率低的技术问题。
在一种可选的实施例中,为了提高将文本转换为词向量的效率,文本处理系统会对文本进行预处理,具体包括图2中如下步骤:
步骤S201,获取终端设备上传的文本。
步骤S202,对文本进行分词处理,得到单词组。
在步骤S202中,单词组包含文本的每一个单词。具体的,文本处理系统使用SnowNLP算法对文本进行分词处理,得到单词组,例如,文本为“机构B责任有限公司D地区分公司”,经过分词处理之后,得到单词组[机构B、责任、有限公司、D地区、分公司]。
步骤S203,过滤单词组中的干扰单词,得到第一单词组。
在步骤S203中,干扰单词为以下至少之一:预设单词、预设符号。具体的,预设单词为一些无意义的单词,例如“有限”、“责任”、“股份”、“公司”等单词。预设符号为一些特殊符号,例如“()”、“-”、“/”、“&”等符号。需要注意到的是,预设单词以及预设符号可以存储于文本处理系统中的一个词库中,预设单词以及预设符号可以自定义确定,本申请不对此进行特别限定。
在对上述组[机构B、责任、有限公司、D地区、分公司]进行干扰单词过滤之后,得到第一单词组[机构B、D地区]。另外,预处理过程中还可以将单词组中的单词进行大小写转换。
容易注意到的是,通过对文本进行预处理,既可以对文件进行分词,还可以过滤一些不必要的单词,从而可以提高向量化处理效率,节约计算资源。
在一种可选的实施例中,在得到第一单词组之后,文本处理系统依据word2vec模型对第一单词组进行向量化处理,得到词向量,其中,词向量由数值1和数值0组成。例如,假设第一单词组为词组1[银行、街道、支行、分行、办事处、城市],通过对词组1进行向量化处理,得到词向量[1,1,1,0,0,0],该词向量有6个维度。
在一种可选的实施例中,本申请在得到词向量之后,还会对词向量进行优化以及压缩。具体的,文本处理系统首先计算第一单词组中每个单词的权重值,并将词向量中的数值1替换为每个单词的权重值,得到第二词向量,然后,文本处理系统统计第二词向量中数值0的数量,并根据数值0的数量对第二词向量进行压缩,得到第一词向量。
可选的,上述的权重值为每个单词的TF-IDF值,文本处理系统会采用TF-IDF算法计算每个单词的TF-IDF值。具体的,计算每个单词的权重值包括图3中的如下步骤:
步骤一:确定第一单词组中的任意一个单词为目标单词;
步骤二;获取目标单词在第一单词组中出现的次数以及第一单词组中单词的总数量;
步骤三:根据次数与第一单词组中单词的总数量确定目标比值;
步骤四:获取语料库中第二单词组的数量以及语料库中所有单词组的总数量,其中,第二单词组为包含目标单词的单词组,语料库用于存储根据向量库中的预设文本生成的多个单词组;
步骤五:根据第二单词组的数量以及所有单词组的总数量确定目标对数值;
步骤六:计算目标对数值与目标比值的乘积,得到目标单词的权重值;
步骤七:重复执行步骤一至步骤六的过程,直至得到第一单词组中每个单词的权重值。
具体的,在上述步骤一至步骤三的过程中,可以参考如下公式:
TFw=Nw/N
其中,Nw为单词w在第一单词组中出现的次数,N为第一单词组中单词的总数量,TFw即为单词w对应的目标比值。
另外,在上述步骤四至步骤六的过程中,可以参考如下公式:
IDFw=lg(K/(Kw+1))
其中,K是语料库中所有单词组的总数量,Kw是包含单词w的单词组(即第二单词组)的数量。IDFw即为单词w对应的目标对数值。最后,单词w的TF_IDF值(即权重值)可表示为:TFw*IDFw
由于第一单词组中可能包含有多个单词,因此通过循环上述步骤一至步骤六的过程,可以计算得到第一单词组中每个单词的权重值。
另外,在得到每个单词的权重值之后,文本处理系统会将词向量中的数值1替换为每个单词的权重值,得到第二向量。例如,以上述基于词组1[银行、街道、支行、分行、办事处、城市]得到的词向量[1,1,1,0,0,0]为例,通过计算单词“银行”的权重值为TF_IDFw1,“街道”的权重值为TF_IDFw2,“支行”对应的权重值为“TF_IDFw3”,在此基础上,词向量[1,1,1,0,0,0]转换后的第二词向量为[TF_IDFw1,TF_IDFw2,TF_IDFw3,0,0,0]。
最后,在得到第二词向量之后,文本处理系统还会统计第二词向量中数值0的数量,并根据数值0的数量对第二词向量进行压缩,得到第一词向量。具体的,文本处理系统获取数值0的数量所对应的数量值,并根据数量值以及每个单词的权重值生成第一词向量,其中,第一词向量由数量值以及每个单词的权重值组成。
可选的,文本处理系统使用数组映射的方式对第二词向量进行压缩,得到第一词向量,其中,第一词向量的第一个向量维度对应的值为第二词向量中数值0的个数(即数量值),其余的向量维度对应的值则依次为每个单词的权重值。例如,在第二词向量为[TF_IDFw1,TF_IDFw2,TF_IDFw3,0,0,0]时,该第二词向量转换后的第一词向量为[3,TF_IDFw1,TF_IDFw2,TF_IDFw3],其中,第一词向量中的数值3表征的是第二词向量[TF_IDFw1,TF_IDFw2,TF_IDFw3,0,0,0]中数值“0”的个数。由此可见,在本申请中,词向量[1,1,1,0,0,0]先转换为第二词向量[TF_IDFw1,TF_IDFw2,TF_IDFw2,0,0,0],再转换为第一词向量[3,TF_IDFw1,TF_IDFw2,TF_IDFw2],由6维变成了4维,实现了对词向量的压缩。
容易注意到的是,当向量维度的数量较多时,计算过程比较复杂,所消耗的计算资源也较多,本申请通过减少向量维度的数量,可以提高对词向量的计算效率。
在一种可选的实施例中,文本处理系统还会根据余弦相似度算法计算第一词向量与预设词向量之间的余弦相似度,并确定余弦相似度为相似度,然后文本处理系统根据每个预设词向量对应的相似度对向量库中的多个预设词向量进行排序,得到排序结果,其中,相似度高的预设词向量在相似度低的预设词向量之前。最后,文本处理系统根据排序结果从多个预设词向量中确定至少一个目标词向量,并将每个目标词向量对应的预设文本作为与目标词向量相对应的目标文本。
可选的,文本处理系统使用余弦相似度算法计算第一词向量每一个预设词向量之间的余弦相似度。计算公式如下:
Figure BDA0003846088700000101
其中,X为第一词向量,Y为一个预设词向量,xi为X中的一个向量维度,yi为Y中的一个向量维度。当cos(θ)绝对值越接近于1时,X与Y之间的相似度越高。
在一种可选的实施例中,图4示出了根据本申请实施例的一种可选的文本处理方法的流程图,如图4所示,假设文本为一个用户在终端设备中填写的收款方名称,当由于该收款方名称存在错误导致交易失败时,本申请中的文本处理系统会获取到该收款方名称,并通过SnowNLP算法对该收款方名称进行分词处理,得到单词组,随后,文本处理系统根据词库中存储的干扰单词将单词组中的干扰单词进行过滤,得到第一单词组。进一步地,在得到第一单词组之后,文本处理系统依据word2vec模型将第一单词组转换为词向量,并利用TF-IDF算法计算第一单词组中每个单词的权重值,以及根据权重值对词向量进行更新,得到第二词向量。为了减少第二词向量的向量维度数量,文件处理系统根据第二词向量中数值0的数量对第二词向量进行压缩,得到第一词向量。最后,文本处理系统通过计算第一词向量与向量库中的每个预设词向量之间的余弦相似度,从向量库中确定目标词向量以及与目标词向量相对应的目标文本,进而根据目标文本对收款方名称进行校验。
由此可见,通过本申请的技术方案,能够在由于收款方名称填写不规范或存在错字、少字导致交易失败时,自动地对收款方名称进行核验和纠正,并为用户提供相关提示文本(即目标文本),从而不仅提高了对收款方名称的校验效率,还提升了用户使用体验。
实施例2
根据本申请实施例,还提供了一种文本处理装置,其中,图5是根据本申请实施例的一种可选的文本处理装置的示意图,如图5所示,该装置包括:预处理模块501,用于对终端设备上传的文本进行预处理,得到第一单词组,其中,第一单词组由文本中的至少一个单词组成,文本中记录了导致交易失败的异常信息;向量化处理模块502,用于对第一单词组进行向量化处理,得到词向量,其中,词向量包含多个向量维度,每个向量维度与一个单词相对应;计算模块503,用于计算第一单词组中每个单词的权重值,并基于权重值对词向量进行压缩,得到第一词向量,其中,第一词向量的向量维度数量少于词向量的向量维度数量,权重值用于表征每个单词对于文本的重要程度;确定模块504,用于确定第一词向量与向量库中的每个预设词向量之间的相似度,并根据相似度从向量库中确定目标词向量以及与目标词向量相对应的目标文本,其中,向量库用于存储多个预设词向量以及每个预设词向量所对应的预设文本;发送模块505,用于将目标文本发送至终端设备中,其中,目标文本用于协助目标对象核对出文本中的异常信息,目标对象为在终端设备中上传文本的对象。
需要说明的是,上述预处理模块501、向量化处理模块502、计算模块503、确定模块504以及发送模块505对应于上述实施例1中的步骤S101至步骤S105,五个模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。
可选的,上述预处理模块还包括:第一获取单元、分词处理单元以及过滤单元。其中,第一获取单元,用于获取终端设备上传的文本;分词处理单元,用于对文本进行分词处理,得到单词组,其中,单词组包含文本的每一个单词;过滤单元,用于过滤单词组中的干扰单词,得到第一单词组,其中,干扰单词为以下至少之一:预设单词、预设符号。
可选的,上述向量化处理模块还包括:向量化处理单元,用于依据word2vec模型对第一单词组进行向量化处理,得到词向量,其中,词向量由数值1和数值0组成。
可选的,上述计算模块还包括:第一计算单元、替换单元、统计单元以及压缩单元。其中,第一计算单元,用于计算第一单词组中每个单词的权重值;替换单元,用于将词向量中的数值1替换为每个单词的权重值,得到第二词向量;统计单元,用于统计第二词向量中数值0的数量;压缩单元,用于根据数值0的数量对第二词向量进行压缩,得到第一词向量。
可选的,上述的第一计算单元还包括:第一执行子单元、第二执行子单元、第三执行子单元、第四执行子单元、第五执行子单元、第六执行子单元以及第七执行子单元。第一执行子单元,用于执行步骤一:确定第一单词组中的任意一个单词为目标单词;第二执行子单元,用于执行步骤二;获取目标单词在第一单词组中出现的次数以及第一单词组中单词的总数量;第三执行子单元,用于执行步骤三:根据次数与第一单词组中单词的总数量确定目标比值;第四执行子单元,用于执行步骤四:获取语料库中第二单词组的数量以及语料库中所有单词组的总数量,其中,第二单词组为包含目标单词的单词组,语料库用于存储根据向量库中的预设文本生成的多个单词组;第五执行子单元,用于执行步骤五:根据第二单词组的数量以及所有单词组的总数量确定目标对数值;第六执行子单元,用于执行步骤六:计算目标对数值与目标比值的乘积,得到目标单词的权重值;第七执行子单元,用于执行步骤七:重复执行步骤一至步骤六的过程,直至得到第一单词组中每个单词的权重值。
可选的,上述的压缩单元还包括:第一获取子单元以及生成子单元。其中,第一获取子单元,用于获取数值0的数量所对应的数量值;生成子单元,用于根据数量值以及每个单词的权重值生成第一词向量,其中,第一词向量由数量值以及每个单词的权重值组成。
可选的,上述的确定模块还包括:第二计算单元、第一确定单元、排序单元、第二确定单元以及第三确定单元。其中,第二计算单元,用于根据余弦相似度算法计算第一词向量与预设词向量之间的余弦相似度;第一确定单元,用于确定余弦相似度为相似度;排序单元,用于根据每个预设词向量对应的相似度对向量库中的多个预设词向量进行排序,得到排序结果,其中,相似度高的预设词向量在相似度低的预设词向量之前;第二确定单元,用于根据排序结果从多个预设词向量中确定至少一个目标词向量;第三确定单元,用于将每个目标词向量对应的预设文本作为与目标词向量相对应的目标文本。
可选的,上述发送模块还包括:第四确定单元以及发送单元。第四确定单元,用于确定目标文本与文本之间的差异内容,并将差异内容作为异常信息;发送单元,用于将异常信息与目标文本发送至终端设备中。
实施例3
根据本申请实施例,还提供了一种电子设备实施例,其中,图6是根据本申请实施例的一种可选的电子设备的示意图,如图6所示,电子设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:
对终端设备上传的文本进行预处理,得到第一单词组,其中,第一单词组由文本中的至少一个单词组成,文本中记录了导致交易失败的异常信息;对第一单词组进行向量化处理,得到词向量,其中,词向量包含多个向量维度,每个向量维度与一个单词相对应;计算第一单词组中每个单词的权重值,并基于权重值对词向量进行压缩,得到第一词向量,其中,第一词向量的向量维度数量少于词向量的向量维度数量,权重值用于表征每个单词对于文本的重要程度;确定第一词向量与向量库中的每个预设词向量之间的相似度,并根据相似度从向量库中确定目标词向量以及与目标词向量相对应的目标文本,其中,向量库用于存储多个预设词向量以及每个预设词向量所对应的预设文本;将目标文本发送至终端设备中,其中,目标文本用于协助目标对象核对出文本中的异常信息,目标对象为在终端设备中上传文本的对象。
可选的,处理器执行程序时还实现以下步骤:获取终端设备上传的文本;对文本进行分词处理,得到单词组,其中,单词组包含文本的每一个单词;过滤单词组中的干扰单词,得到第一单词组,其中,干扰单词为以下至少之一:预设单词、预设符号。
可选的,处理器执行程序时还实现以下步骤:依据word2vec模型对第一单词组进行向量化处理,得到词向量,其中,词向量由数值1和数值0组成。
可选的,处理器执行程序时还实现以下步骤:计算第一单词组中每个单词的权重值;将词向量中的数值1替换为每个单词的权重值,得到第二词向量;统计第二词向量中数值0的数量;根据数值0的数量对第二词向量进行压缩,得到第一词向量。
可选的,处理器执行程序时还实现以下步骤:步骤一:确定第一单词组中的任意一个单词为目标单词;步骤二;获取目标单词在第一单词组中出现的次数以及第一单词组中单词的总数量;步骤三:根据次数与第一单词组中单词的总数量确定目标比值;步骤四:获取语料库中第二单词组的数量以及语料库中所有词组的总数量,其中,第二单词组为包含目标单词的单词组,语料库用于存储根据向量库中的预设文本生成的多个单词组;步骤五:根据第二单词组的数量以及所有单词组的总数量确定目标对数值;步骤六:计算目标对数值与目标比值的乘积,得到目标单词的权重值;步骤七:重复执行步骤一至步骤六的过程,直至得到第一单词组中每个单词的权重值。
可选的,处理器执行程序时还实现以下步骤:获取数值0的数量所对应的数量值;根据数量值以及每个单词的权重值生成第一词向量,其中,第一词向量由数量值以及每个单词的权重值组成。
可选的,处理器执行程序时还实现以下步骤:根据余弦相似度算法计算第一词向量与预设词向量之间的余弦相似度;确定余弦相似度为相似度;根据每个预设词向量对应的相似度对向量库中的多个预设词向量进行排序,得到排序结果,其中,相似度高的预设词向量在相似度低的预设词向量之前;根据排序结果从多个预设词向量中确定至少一个目标词向量;将每个目标词向量对应的预设文本作为与目标词向量相对应的目标文本。
可选的,处理器执行程序时还实现以下步骤:确定目标文本与文本中的差异内容,并将差异内容作为异常信息;将异常信息与目标文本发送至终端设备中。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种文本处理方法,其特征在于,包括:
对终端设备上传的文本进行预处理,得到第一单词组,其中,所述第一单词组由所述文本中的至少一个单词组成,所述文本中记录了导致交易失败的异常信息;
对所述第一单词组进行向量化处理,得到词向量,其中,所述词向量包含多个向量维度,每个向量维度与一个单词相对应;
计算所述第一单词组中每个单词的权重值,并基于所述权重值对所述词向量进行压缩,得到第一词向量,其中,所述第一词向量的向量维度数量少于所述词向量的向量维度数量,所述权重值用于表征每个单词对于所述文本的重要程度;
确定所述第一词向量与向量库中的每个预设词向量之间的相似度,并根据所述相似度从所述向量库中确定目标词向量以及与所述目标词向量相对应的目标文本,其中,所述向量库用于存储多个预设词向量以及每个预设词向量所对应的预设文本;
将所述目标文本发送至所述终端设备中,其中,所述目标文本用于协助目标对象核对出所述文本中的异常信息,所述目标对象为在所述终端设备中上传所述文本的对象。
2.根据权利要求1所述的方法,其特征在于,对终端设备上传的文本进行预处理,得到第一单词组,包括:
获取所述终端设备上传的文本;
对所述文本进行分词处理,得到单词组,其中,所述单词组包含所述文本的每一个单词;
过滤所述单词组中的干扰单词,得到所述第一单词组,其中,所述干扰单词为以下至少之一:预设单词、预设符号。
3.根据权利要求1所述的方法,其特征在于,对所述第一单词组进行向量化处理,得到词向量,包括:
依据word2vec模型对所述第一单词组进行向量化处理,得到所述词向量,其中,所述词向量由数值1和数值0组成。
4.根据权利要求3所述的方法,其特征在于,计算所述第一单词组中每个单词的权重值,并基于所述权重值对所述词向量进行压缩,得到第一词向量,包括:
计算所述第一单词组中每个单词的权重值;
将所述词向量中的数值1替换为所述每个单词的权重值,得到第二词向量;
统计所述第二词向量中数值0的数量;
根据所述数值0的数量对所述第二词向量进行压缩,得到所述第一词向量。
5.根据权利要求4所述的方法,其特征在于,计算所述第一单词组中每个单词的权重值,包括:
步骤一:确定所述第一单词组中的任意一个单词为目标单词;
步骤二;获取所述目标单词在所述第一单词组中出现的次数以及所述第一单词组中单词的总数量;
步骤三:根据所述次数与所述第一单词组中单词的总数量确定目标比值;
步骤四:获取语料库中第二单词组的数量以及所述语料库中所有单词组的总数量,其中,所述第二单词组为包含所述目标单词的单词组,所述语料库用于存储根据所述向量库中的预设文本生成的多个单词组;
步骤五:根据所述第二单词组的数量以及所述所有单词组的总数量确定目标对数值;
步骤六:计算所述目标对数值与所述目标比值的乘积,得到所述目标单词的权重值;
步骤七:重复执行所述步骤一至所述步骤六的过程,直至得到所述第一单词组中每个单词的权重值。
6.根据权利要求4所述的方法,其特征在于,根据所述数值0的数量对所述第二词向量进行压缩,得到所述第一词向量,包括:
获取所述数值0的数量所对应的数量值;
根据所述数量值以及所述每个单词的权重值生成所述第一词向量,其中,所述第一词向量由所述数量值以及所述每个单词的权重值组成。
7.根据权利要求1所述的方法,其特征在于,确定所述第一词向量与向量库中的每个预设词向量之间的相似度,并根据所述相似度从所述向量库中确定目标词向量以及与所述目标词向量相对应的目标文本,包括:
根据余弦相似度算法计算所述第一词向量与所述预设词向量之间的余弦相似度;
确定所述余弦相似度为所述相似度;
根据每个预设词向量对应的相似度对所述向量库中的多个预设词向量进行排序,得到排序结果,其中,所述相似度高的预设词向量在所述相似度低的预设词向量之前;
根据所述排序结果从所述多个预设词向量中确定至少一个目标词向量;
将每个目标词向量对应的预设文本作为与所述目标词向量相对应的目标文本。
8.根据权利要求1所述的方法,其特征在于,将所述目标文本发送至所述终端设备中,包括:
确定所述目标文本与所述文本之间的差异内容,并将所述差异内容作为所述异常信息;
将所述异常信息与所述目标文本发送至所述终端设备中。
9.一种文本处理装置,其特征在于,包括:
预处理模块,用于对终端设备上传的文本进行预处理,得到第一单词组,其中,所述第一单词组由所述文本中的至少一个单词组成,所述文本中记录了导致交易失败的异常信息;
向量化处理模块,用于对所述第一单词组进行向量化处理,得到词向量,其中,所述词向量包含多个向量维度,每个向量维度与一个单词相对应;
计算模块,用于计算所述第一单词组中每个单词的权重值,并基于所述权重值对所述词向量进行压缩,得到第一词向量,其中,所述第一词向量的向量维度数量少于所述词向量的向量维度数量,所述权重值用于表征每个单词对于所述文本的重要程度;
确定模块,用于确定所述第一词向量与向量库中的每个预设词向量之间的相似度,并根据所述相似度从所述向量库中确定目标词向量以及与所述目标词向量相对应的目标文本,其中,所述向量库用于存储多个预设词向量以及每个预设词向量所对应的预设文本;
发送模块,用于将所述目标文本发送至所述终端设备中,其中,所述目标文本用于协助目标对象核对出所述文本中的异常信息,所述目标对象为在所述终端设备中上传所述文本的对象。
10.一种电子设备,其特征在于,包括一个或多个处理器和存储器,所述存储器用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1至8中任意一项所述的文本处理方法。
CN202211117320.6A 2022-09-14 2022-09-14 文本处理方法、装置及电子设备 Pending CN115455944A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211117320.6A CN115455944A (zh) 2022-09-14 2022-09-14 文本处理方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211117320.6A CN115455944A (zh) 2022-09-14 2022-09-14 文本处理方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN115455944A true CN115455944A (zh) 2022-12-09

Family

ID=84303615

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211117320.6A Pending CN115455944A (zh) 2022-09-14 2022-09-14 文本处理方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN115455944A (zh)

Similar Documents

Publication Publication Date Title
CN107767152B (zh) 产品购买倾向分析方法及服务器
CN106557971A (zh) 基于语音识别技术的财务数据处理方法、系统及终端
CN107705036A (zh) 基于多维度数据的动态信用评估方法及系统
CN110489423B (zh) 一种信息抽取的方法、装置、存储介质及电子设备
CN112116436A (zh) 一种智能推荐方法、装置、计算机设备及可读存储介质
CN111783636A (zh) 基于ocr的国际收支网申数据处理方法和装置
CN111091408A (zh) 用户识别模型创建方法、装置与识别方法、装置
CN113449819A (zh) 一种基于胶囊网络的信用评估模型方法及其存储介质
CN115455944A (zh) 文本处理方法、装置及电子设备
CN112561518A (zh) 信息识别方法、装置及存储介质
CN114298039A (zh) 敏感词识别方法、装置、电子设备及存储介质
CN111797590A (zh) 数据核对方法、装置和设备
CN113240513A (zh) 一种用户授信额度的确定方法和相关装置
CN111143533A (zh) 一种基于用户行为数据的客服方法及系统
CN105868217A (zh) 数值自动转换方法及系统
CN116522157A (zh) 文件比对方法、装置、设备、介质及产品
CN114549182A (zh) 目标特征簇的生成方法、装置、终端及存储介质
CN116151670B (zh) 一种投行业务上市项目质量的智能评估方法、系统及介质
CN116228424B (zh) 基于迁移学习优化的模拟撮合方法
CN116703579A (zh) 一种客户的交易预测方法、装置、服务器
CN117195884A (zh) 金融机构名称的确定方法及装置、电子设备、存储介质
CN113052693A (zh) 数据处理方法、装置、电子设备及计算机可读存储介质
CN116701946A (zh) 训练数据集的构造方法、装置、存储介质及电子设备
CN116228411A (zh) 信用卡交易行为的预测方法、装置及电子设备
CN114282653A (zh) 模型训练方法、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination