CN109271526A - 文本检测方法、装置、电子设备及计算机可读存储介质 - Google Patents

文本检测方法、装置、电子设备及计算机可读存储介质 Download PDF

Info

Publication number
CN109271526A
CN109271526A CN201810923130.0A CN201810923130A CN109271526A CN 109271526 A CN109271526 A CN 109271526A CN 201810923130 A CN201810923130 A CN 201810923130A CN 109271526 A CN109271526 A CN 109271526A
Authority
CN
China
Prior art keywords
text
detected
word vector
vector
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810923130.0A
Other languages
English (en)
Inventor
郭亚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201810923130.0A priority Critical patent/CN109271526A/zh
Publication of CN109271526A publication Critical patent/CN109271526A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例公开了一种文本检测方法、装置、电子设备及计算机可读存储介质,所述方法包括:获取待检测文本的语义信息,并根据所述待检测文本的语义信息将所述待检测文本转换为多个第一字向量;将所述第一字向量输入至预设文本检测神经网络模型进行处理,得到第二字向量;计算所述第一字向量与所述第二字向量之间的距离,得到文本检测结果。该技术方案能够利用全局语义信息进行文本检测,提高了文本检测的正确率,同时还降低了人工成本的投入,增强了应用适用性,为网络安全管理提供了强大的保障。

Description

文本检测方法、装置、电子设备及计算机可读存储介质
技术领域
本发明实施例涉及信息处理技术领域,具体涉及一种文本检测方法、装置、电子设备及计算机可读存储介质。
背景技术
随着互联网技术的发展,用户的很多日常行为都借助互联网来实现,用户还可以针对各种网络行为或者其他内容发表评论。但由于用户数量众多,监管措施不足,导致经常会有些用户恶意发布一些低质量、无意义、不健康或者非法评论,严重影响了其他用户的使用体验,为网络安全管理带来了极大的威胁。
现有的文本检测方法通常使用语言模型来实现,比如Ngram模型,Ngram模型是借助计算语句生成的概率来衡量语句的质量,当其允许的词串长度N过大时会导致模型的参数空间过大,进而出现数据稀疏问题,此时需加入人为平滑处理,但这样就会增加人工成本投入,降低该模型的适用性,另外,Ngram模型是基于离散单元词构建的,未利用词之间的语义关系,因此使得文本检测正确率低下。
发明内容
本发明实施例提供一种文本检测方法、装置、电子设备及计算机可读存储介质。
第一方面,本发明实施例中提供了一种文本检测方法。
具体的,所述文本检测方法,包括:
获取待检测文本的语义信息,并根据所述待检测文本的语义信息将所述待检测文本转换为多个第一字向量;
将所述第一字向量输入至预设文本检测神经网络模型进行处理,得到第二字向量;
计算所述第一字向量与所述第二字向量之间的距离,得到文本检测结果。
结合第一方面,本发明实施例在第一方面的第一种实现方式中,所述获取待检测文本的语义信息,并根据所述待检测文本的语义信息将所述待检测文本转换为多个第一字向量,包括:
获取待检测文本的语义信息;
将所述待检测文本分割为预设单位字符;
根据所述待检测文本的语义信息将分割得到的预设单位字符转换为第一字向量。
结合第一方面和第一方面的第一种实现方式,本发明实施例在第一方面的第二种实现方式中,所述预设文本检测神经网络模型包括输入层、编码层、全连接层、解码层和输出层。
结合第一方面、第一方面的第一种实现方式和第一方面的第二种实现方式,本发明实施例在第一方面的第三种实现方式中,所述将所述第一字向量输入至预设文本检测神经网络模型进行处理,得到第二字向量,包括:
将所述第一字向量通过所述输入层输入所述编码层进行第一编码处理,得到第一编码向量;
将所述第一编码向量输入所述全连接层进行第二编码处理,得到第二编码向量;
将所述第二编码向量输入所述解码层进行解码处理,得到第二字向量,并将其通过所述输出层输出。
结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式和第一方面的第三种实现方式,本发明实施例在第一方面的第四种实现方式中,还包括:
将所述第一字向量与所述第二字向量之间的距离作为损失元素对于所述预设文本检测神经网络模型进行修正。
结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式和第一方面的第四种实现方式,本发明实施例在第一方面的第五种实现方式中,还包括:
根据所述文本检测结果对于所述待检测文本执行预设操作。
第二方面,本发明实施例中提供了一种文本检测装置。
具体的,所述文本检测装置,包括:
获取模块,被配置为获取待检测文本的语义信息,并根据所述待检测文本的语义信息将所述待检测文本转换为多个第一字向量;
处理模块,被配置为将所述第一字向量输入至预设文本检测神经网络模型进行处理,得到第二字向量;
计算模块,被配置为计算所述第一字向量与所述第二字向量之间的距离,得到文本检测结果。
结合第二方面,本发明实施例在第二方面的第一种实现方式中,所述获取模块包括:
获取子模块,被配置为获取待检测文本的语义信息;
分割子模块,被配置为将所述待检测文本分割为预设单位字符;
转换子模块,被配置为根据所述待检测文本的语义信息将分割得到的预设单位字符转换为第一字向量。
结合第二方面和第二方面的第一种实现方式,本发明实施例在第二方面的第二种实现方式中,所述预设文本检测神经网络模型包括输入层、编码层、全连接层、解码层和输出层。
结合第二方面、第二方面的第一种实现方式和第二方面的第二种实现方式,本发明实施例在第二方面的第三种实现方式中,所述处理模块包括:
第一处理子模块,被配置为将所述第一字向量通过所述输入层输入所述编码层进行第一编码处理,得到第一编码向量;
第二处理子模块,被配置为将所述第一编码向量输入所述全连接层进行第二编码处理,得到第二编码向量;
第三处理子模块,被配置为将所述第二编码向量输入所述解码层进行解码处理,得到第二字向量,并将其通过所述输出层输出。
结合第二方面、第二方面的第一种实现方式、第二方面的第二种实现方式和第二方面的第三种实现方式,本发明实施例在第二方面的第四种实现方式中,还包括:
修正模块,被配置为将所述第一字向量与所述第二字向量之间的距离作为损失元素对于所述预设文本检测神经网络模型进行修正。
结合第二方面、第二方面的第一种实现方式、第二方面的第二种实现方式、第二方面的第三种实现方式和第二方面的第四种实现方式,本发明实施例在第二方面的第五种实现方式中,还包括:
执行模块,被配置为根据所述文本检测结果对于所述待检测文本执行预设操作。
第三方面,本发明实施例提供了一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条支持文本检测装置执行上述第一方面中文本检测方法的计算机指令,所述处理器被配置为用于执行所述存储器中存储的计算机指令。所述文本检测装置还可以包括通信接口,用于文本检测装置与其他设备或通信网络通信。
第四方面,本发明实施例提供了一种计算机可读存储介质,用于存储文本检测装置所用的计算机指令,其包含用于执行上述第一方面中文本检测方法为文本检测装置所涉及的计算机指令。
本发明实施例提供的技术方案可以包括以下有益效果:
上述技术方案考虑待检测文本的语义信息,生成能够体现语义信息的字向量,再通过计算对于字向量进行编码解码处理后得到的字向量与初始字向量之间的距离,即可实现对于待检测文本的检测。该技术方案能够利用全局语义信息进行文本检测,提高了文本检测的正确率,同时还降低了人工成本的投入,增强了应用适用性,为网络安全管理提供了强大的保障。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明实施例。
附图说明
结合附图,通过以下非限制性实施方式的详细描述,本发明实施例的其它特征、目的和优点将变得更加明显。在附图中:
图1示出根据本发明一实施方式的文本检测方法的流程图;
图2示出根据图1所示实施方式的文本检测方法的步骤S101的流程图;
图3示出根据图1所示实施方式的文本检测方法的步骤S102的流程图;
图4示出根据本发明另一实施方式的文本检测方法的流程图;
图5示出根据本发明一实施方式的文本检测装置的结构框图;
图6示出根据图5所示实施方式的文本检测装置的获取模块501的结构框图;
图7示出根据图5所示实施方式的文本检测装置的处理模块502的结构框图;
图8示出根据本发明另一实施方式的文本检测装置的结构框图;
图9示出根据本发明一实施方式的电子设备的结构框图;
图10是适于用来实现根据本发明一实施方式的文本检测方法的计算机系统的结构示意图。
具体实施方式
下文中,将参考附图详细描述本发明实施例的示例性实施方式,以使本领域技术人员可容易地实现它们。此外,为了清楚起见,在附图中省略了与描述示例性实施方式无关的部分。
在本发明实施例中,应理解,诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在,并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。
另外还需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明实施例。
本发明实施例提供的技术方案考虑待检测文本的语义信息,生成能够体现语义信息的字向量,再通过计算对于字向量进行编码解码处理后得到的字向量与初始字向量之间的距离,即可实现对于待检测文本的检测。该技术方案能够利用全局语义信息进行文本检测,提高了文本检测的正确率,同时还降低了人工成本的投入,增强了应用适用性,为网络安全管理提供了强大的保障。
图1示出根据本发明一实施方式的文本检测方法的流程图,如图1所示,所述文本检测方法包括以下步骤S101-S103:
在步骤S101中,获取待检测文本的语义信息,并根据所述待检测文本的语义信息将所述待检测文本转换为多个第一字向量;
在步骤S102中,将所述第一字向量输入至预设文本检测神经网络模型进行处理,得到第二字向量;
在步骤S103中,计算所述第一字向量与所述第二字向量之间的距离,得到文本检测结果。
上文提及,随着互联网技术的发展,用户的很多日常行为都借助互联网来实现,用户还可以针对各种网络行为或者其他内容发表评论。但由于用户数量众多,监管措施不足,导致经常会有些用户恶意发布一些低质量、无意义、不健康或者非法评论,比如乱打的字母:rdgjfsdjjcv、乱打的汉字:啥即拔京理媾哔琣、变种的汉字:忈炛烎进奣嘦勥巭嫑恏、恶意绕过安全检测的文字:等等,这些内容严重影响了其他用户的使用体验,为网络安全管理带来了极大的威胁。而现有的文本检测方法正确率低、人工成本投入大、适用性低。
考虑到上述缺陷,在该实施方式中,提出一种文本检测方法,该方法考虑待检测文本的语义信息,生成能够体现语义信息的字向量,再通过计算对于字向量进行编码解码处理后得到的字向量与初始字向量之间的距离,来实现对于待检测文本的检测。该技术方案能够利用全局语义信息进行文本检测,提高了文本检测的正确率,同时还降低了人工成本的投入,增强了应用适用性,为网络安全管理提供了强大的保障。
其中,所述待检测文本指的是由多个字符组成的长度不唯一的文本,所述待检测文本中可能包括正常的、合法的文本内容,也可能包括低质量、无意义、不健康或者非法的文本内容,需借助后续的检测步骤来进行识别和检测。其中,所述字符可以为英文字符、中文字符,也可以为图案或其他形式的字符,所述文本的长度可以由技术人员指定,也可以不指定,本发明对其不作具体限定。
其中,所述预设文本检测神经网络模型是针对文本检测这一目的预先设置的神经网络模型,具体将在下文中进行详细介绍。
在本实施例的一个可选实现方式中,如图2所示,所述步骤S101,即获取待检测文本的语义信息,并根据所述待检测文本的语义信息将所述待检测文本转换为多个第一字向量的步骤,包括以下步骤S201-S203:
在步骤S201中,获取待检测文本的语义信息;
在步骤S202中,将所述待检测文本分割为预设单位字符;
在步骤S203中,根据所述待检测文本的语义信息将分割得到的预设单位字符转换为第一字向量。
上文提及,现有的文本检测方法是基于离散单元词构建的,并未利用词之间的语义关系,这样就割裂了词与词之间的联系,从而使得文本检测的正确率低下。考虑到该缺陷,在该实施方式中,基于待检测文本的语义信息,来生成能够充分体现语义信息的字向量,以充分考量待检测文本中词与词之间的联系,从而提高文本检测的正确率。
具体地,在该实施方式中,首先获取待检测文本的语义信息,然后将所述待检测文本分割为预设单位字符;最后根据所述待检测文本的语义信息将分割得到的预设单位字符转换为能够体现语义信息的第一字向量。
其中,文本语义信息的获取可通过现有方法来实现,本发明对其不作具体限定也不作特别介绍,只要能够有效、准确地提取出待检测文本的语义信息即可。
其中,所述预设单位字符指的是具有预设单位大小或者预设单位规格的字符,比如,单个字或者单个词语,所述预设单位,即分割得到的字符的大小或者规格可根据实际应用的需要进行选择,本发明对其不作具体限定。
其中,转换得到的第一字向量与所述预设单位字符一一对应,即,每一预设单位字符经过向量转换处理后都将会得到一个第一字向量。
在本实施例的一个可选实现方式中,基于预设向量转换模型进行预设单位字符的向量转换,其中,所述预设向量转换模型是一个预先设置的、具备高齐备性的向量转换模型,其可以用来将每个词映射到相应的向量上,即对词进行向量化,以表示、度量、挖掘词对词之间的关系。所述预设向量转换模型比如可以选为通过大规模语料来学习词语的向量表示的Word2Vec模型。
考虑到神经网络语言模型不像Ngram模型受词串长度N的限制,其可以利用全局语义信息进行文本检测,因此,本实施例采用神经网络模型对于字向量进行处理。
在本实施例的一个可选实现方式中,所述预设文本检测神经网络模型包括输入层、编码层、全连接层、解码层和输出层。
在该实现方式中,如图3所示,所述步骤S102,即将所述第一字向量输入至预设文本检测神经网络模型进行处理,得到第二字向量的步骤,包括以下步骤S301-S303:
在步骤S301中,将所述第一字向量通过所述输入层输入所述编码层进行第一编码处理,得到第一编码向量;
在步骤S302中,将所述第一编码向量输入所述全连接层进行第二编码处理,得到第二编码向量;
在步骤S303中,将所述第二编码向量输入所述解码层进行解码处理,得到第二字向量,并将其通过所述输出层输出。
为了进一步提高文本检测的正确率,充分利用被检测文本词之间的语义信息,在该实施方式中,采用考虑全局语义信息的神经网络模型对于字向量进行进一步的编码和解码处理。具体地,首先将通过输入层输入的第一字向量输入编码层进行第一编码处理,再输入全连接层进行第二编码处理,最后输入解码层进行解码处理并通过输出层输出。
其中,所述第一编码处理可以包括按照第一预设编码规则执行的编码处理和/或按照第一预设压缩规则执行的压缩处理,具体的编码规则和压缩规则可根据实际应用的需要进行设置,本发明对其不作具体限定。
在本实施例的一个可选实现方式中,所述编码层由循环神经网络(RecurrentNeural Network,RNN)来实现,可选地,其神经元节点可选用长短期记忆网络(Long Short-Term Memory,LSTM)或者门控循环单元(Gated Recurrent Unit,GRU)。
其中,所述第二编码处理可以包括按照第二预设编码规则执行的编码处理和/或按照第二预设压缩规则执行的压缩处理,与上文类似,具体的编码规则和压缩规则可根据实际应用的需要进行设置,本发明对其不作具体限定。
其中,所述解码处理可以包括与所述第一预设编码规则和第二预设编码规则相对应的解码处理和/或与所述第一预设压缩规则和第二预设压缩规则相对应的解压缩处理。
通过所述编码和压缩处理,待检测文本中具有有效语义信息的信息,也即有用信息能够被保留下来,而不具有有效语义信息的信息,也即无意义或者无用信息能够被去除。
在本实施例的一个可选实现方式中,所述解码层由循环神经网络(RecurrentNeural Network,RNN)来实现,可选地,其神经元节点亦可选用长短期记忆网络(LongShort-Term Memory,LSTM)或者门控循环单元(Gated Recurrent Unit,GRU)。
其中,所述全连接层的输出作为所述解码层在每一时间节点上的输入,所述解码层在每一时间节点上也都对应有输出,其中,所述解码层输出的向量维度与所述第一字向量的维度一致。
对于所述步骤S103,计算所述第一字向量与所述第二字向量之间的距离时,可采用余弦距离、欧式距离或者其他距离度量方式,本发明对其不作具体限定。
其中,所述第一字向量与所述第二字向量之间的距离用于表征第一字向量与第二字向量之间的差别,进而得到所述待检测文本的检测结果。上文提及,通过所述预设文本检测神经网络模型的编码和压缩处理,待检测文本中具有有效语义信息的信息能够被保留下来,不具有有效语义信息的信息能够被去除,那么,若所述第一字向量与第二字向量之间的距离比较大,就说明第一字向量与第二字向量之间的差别比较大,也就是说所述预设文本检测神经网络模型滤除掉的不具有有效语义信息的信息比较多,即所述待检测文本中包含的不具有有效语义信息的信息比较多,因此,所述待检测文本的质量就比较差,反之,若所述第一字向量与第二字向量之间的距离比较小,就说明第一字向量与第二字向量之间的差别比较小,也就是说所述预设文本检测神经网络模型滤除掉的不具有有效语义信息的信息比较少,即所述待检测文本中包含的不具有有效语义信息的信息比较少,因此,所述待检测文本的质量就比较高。
在本实施例的一个可选实现方式中,所述方法还包括对于所述预设文本检测神经网络模型进行修正的步骤,即如图4所示,所述方法包括以下步骤S401-S404:
在步骤S401中,获取待检测文本的语义信息,并根据所述待检测文本的语义信息将所述待检测文本转换为多个第一字向量;
在步骤S402中,将所述第一字向量输入至预设文本检测神经网络模型进行处理,得到第二字向量;
在步骤S403中,计算所述第一字向量与所述第二字向量之间的距离,得到文本检测结果;
在步骤S404中,将所述第一字向量与所述第二字向量之间的距离作为损失元素对于所述预设文本检测神经网络模型进行修正。
为了进一步提高所述预设文本检测神经网络模型的正确性和有效性,在该实施方式中,还可以将前次文本检测过程中得到的第一字向量与所述第二字向量之间的距离作为损失元素指标对于所述预设文本检测神经网络模型进行修正,所述修正比如可以是对于所述预设文本检测神经网络模型的参数进行调整等等。
在本实施例的一个可选实现方式中,所述方法还包括以下步骤:
根据所述文本检测结果对于所述待检测文本执行预设操作。
为了充分利用所述文本检测结果,在得到文本检测结果后,可根据所述文本检测结果对于所述待检测文本执行预设操作。
其中,所述预设操作包括以下操作中的一种或多种:排序、限制显示、限制公开、替换、部分替换、删除、部分删除、对于所述待检测文本的信息来源进行警告、对于所述待检测文本信息来源进行限制、对于所述待检测文本信息来源进行拦截等操作。
下述为本发明装置实施例,可以用于执行本发明方法实施例。
图5示出根据本发明一实施方式的文本检测装置的结构框图,该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图5所示,所述文本检测装置包括:
获取模块501,被配置为获取待检测文本的语义信息,并根据所述待检测文本的语义信息将所述待检测文本转换为多个第一字向量;
处理模块502,被配置为将所述第一字向量输入至预设文本检测神经网络模型进行处理,得到第二字向量;
计算模块503,被配置为计算所述第一字向量与所述第二字向量之间的距离,得到文本检测结果。
上文提及,随着互联网技术的发展,用户的很多日常行为都借助互联网来实现,用户还可以针对各种网络行为或者其他内容发表评论。但由于用户数量众多,监管措施不足,导致经常会有些用户恶意发布一些低质量、无意义、不健康或者非法评论,比如乱打的字母:rdgjfsdjjcv、乱打的汉字:啥即拔京理媾哔琣、变种的汉字:忈炛烎进奣嘦勥巭嫑恏、恶意绕过安全检测的文字:等等,这些内容严重影响了其他用户的使用体验,为网络安全管理带来了极大的威胁。而现有的文本检测方案正确率低、人工成本投入大、适用性低。
考虑到上述缺陷,在该实施方式中,提出一种文本检测装置,该装置考虑待检测文本的语义信息,生成能够体现语义信息的字向量,再通过计算对于字向量进行编码解码处理后得到的字向量与初始字向量之间的距离,来实现对于待检测文本的检测。该技术方案能够利用全局语义信息进行文本检测,提高了文本检测的正确率,同时还降低了人工成本的投入,增强了应用适用性,为网络安全管理提供了强大的保障。
其中,所述待检测文本指的是由多个字符组成的长度不唯一的文本,所述待检测文本中可能包括正常的、合法的文本内容,也可能包括低质量、无意义、不健康或者非法的文本内容,需借助后续的检测部分来进行识别和检测。其中,所述字符可以为英文字符、中文字符,也可以为图案或其他形式的字符,所述文本的长度可以由技术人员指定,也可以不指定,本发明对其不作具体限定。
其中,所述预设文本检测神经网络模型是针对文本检测这一目的预先设置的神经网络模型,具体将在下文中进行详细介绍。
在本实施例的一个可选实现方式中,如图6所示,所述获取模块501包括:
获取子模块601,被配置为获取待检测文本的语义信息;
分割子模块602,被配置为将所述待检测文本分割为预设单位字符;
转换子模块603,被配置为根据所述待检测文本的语义信息将分割得到的预设单位字符转换为第一字向量。
上文提及,现有的文本检测方案是基于离散单元词构建的,并未利用词之间的语义关系,这样就割裂了词与词之间的联系,从而使得文本检测的正确率低下。考虑到该缺陷,在该实施方式中,基于待检测文本的语义信息,来生成能够充分体现语义信息的字向量,以充分考量待检测文本中词与词之间的联系,从而提高文本检测的正确率。
具体地,在该实施方式中,获取子模块601获取待检测文本的语义信息,分割子模块602将所述待检测文本分割为预设单位字符,转换子模块603根据所述待检测文本的语义信息将分割得到的预设单位字符转换为能够体现语义信息的第一字向量。
其中,获取子模块601可借助现有方案获取文本语义信息,本发明对其不作具体限定也不作特别介绍,只要其能够有效、准确地提取出待检测文本的语义信息即可。
其中,所述预设单位字符指的是具有预设单位大小或者预设单位规格的字符,比如,单个字或者单个词语,所述预设单位,即分割得到的字符的大小或者规格可根据实际应用的需要进行选择,本发明对其不作具体限定。
其中,转换子模块603转换得到的第一字向量与所述预设单位字符一一对应,即,每一预设单位字符经过向量转换处理后都将会得到一个第一字向量。
在本实施例的一个可选实现方式中,转换子模块603基于预设向量转换模型进行预设单位字符的向量转换,其中,所述预设向量转换模型是一个预先设置的、具备高齐备性的向量转换模型,其可以用来将每个词映射到相应的向量上,即对词进行向量化,以表示、度量、挖掘词对词之间的关系。所述预设向量转换模型比如可以选为通过大规模语料来学习词语的向量表示的Word2Vec模型。
考虑到神经网络语言模型不像Ngram模型受词串长度N的限制,其可以利用全局语义信息进行文本检测,因此,本实施例的处理模块502采用神经网络模型对于字向量进行处理。
在本实施例的一个可选实现方式中,所述预设文本检测神经网络模型包括输入层、编码层、全连接层、解码层和输出层。
在该实现方式中,如图7所示,所述处理模块502包括:
第一处理子模块701,被配置为将所述第一字向量通过所述输入层输入所述编码层进行第一编码处理,得到第一编码向量;
第二处理子模块702,被配置为将所述第一编码向量输入所述全连接层进行第二编码处理,得到第二编码向量;
第三处理子模块703,被配置为将所述第二编码向量输入所述解码层进行解码处理,得到第二字向量,并将其通过所述输出层输出。
为了进一步提高文本检测的正确率,充分利用被检测文本词之间的语义信息,在该实施方式中,采用考虑全局语义信息的神经网络模型对于字向量进行进一步的编码和解码处理。具体地,第一处理子模块701将通过输入层输入的第一字向量输入编码层进行第一编码处理,第二处理子模块702将第一处理子模块701的输出输入全连接层进行第二编码处理,第三处理子模块703将第二处理子模块702的输出输入解码层进行解码处理并通过输出层输出。
其中,所述第一编码处理可以包括按照第一预设编码规则执行的编码处理和/或按照第一预设压缩规则执行的压缩处理,具体的编码规则和压缩规则可根据实际应用的需要进行设置,本发明对其不作具体限定。
在本实施例的一个可选实现方式中,所述编码层由循环神经网络(RecurrentNeural Network,RNN)来实现,可选地,其神经元节点可选用长短期记忆网络(Long Short-Term Memory,LSTM)或者门控循环单元(Gated Recurrent Unit,GRU)。
其中,所述第二编码处理可以包括按照第二预设编码规则执行的编码处理和/或按照第二预设压缩规则执行的压缩处理,与上文类似,具体的编码规则和压缩规则可根据实际应用的需要进行设置,本发明对其不作具体限定。
其中,所述解码处理可以包括与所述第一预设编码规则和第二预设编码规则相对应的解码处理和/或与所述第一预设压缩规则和第二预设压缩规则相对应的解压缩处理。
通过所述编码和压缩处理,待检测文本中具有有效语义信息的信息,也即有用信息能够被保留下来,而不具有有效语义信息的信息,也即无意义或者无用信息能够被去除。
在本实施例的一个可选实现方式中,所述解码层由循环神经网络(RecurrentNeural Network,RNN)来实现,可选地,其神经元节点亦可选用长短期记忆网络(LongShort-Term Memory,LSTM)或者门控循环单元(Gated Recurrent Unit,GRU)。
其中,所述全连接层的输出作为所述解码层在每一时间节点上的输入,所述解码层在每一时间节点上也都对应有输出,其中,所述解码层输出的向量维度与所述第一字向量的维度一致。
对于所述计算模块503,执行所述第一字向量与所述第二字向量之间的距离计算时,可采用余弦距离、欧式距离或者其他距离度量方式,本发明对其不作具体限定。
其中,所述第一字向量与所述第二字向量之间的距离用于表征第一字向量与第二字向量之间的差别,进而得到所述待检测文本的检测结果。上文提及,通过所述预设文本检测神经网络模型的编码和压缩处理,待检测文本中具有有效语义信息的信息能够被保留下来,不具有有效语义信息的信息能够被去除,那么,若所述第一字向量与第二字向量之间的距离比较大,就说明第一字向量与第二字向量之间的差别比较大,也就是说所述预设文本检测神经网络模型滤除掉的不具有有效语义信息的信息比较多,即所述待检测文本中包含的不具有有效语义信息的信息比较多,因此,所述待检测文本的质量就比较差,反之,若所述第一字向量与第二字向量之间的距离比较小,就说明第一字向量与第二字向量之间的差别比较小,也就是说所述预设文本检测神经网络模型滤除掉的不具有有效语义信息的信息比较少,即所述待检测文本中包含的不具有有效语义信息的信息比较少,因此,所述待检测文本的质量就比较高。
在本实施例的一个可选实现方式中,所述装置还包括对于所述预设文本检测神经网络模型进行修正的部分,即如图8所示,所述装置包括:
获取模块801,被配置为获取待检测文本的语义信息,并根据所述待检测文本的语义信息将所述待检测文本转换为多个第一字向量;
处理模块802,被配置为将所述第一字向量输入至预设文本检测神经网络模型进行处理,得到第二字向量;
计算模块803,被配置为计算所述第一字向量与所述第二字向量之间的距离,得到文本检测结果;
修正模块804,被配置为将所述第一字向量与所述第二字向量之间的距离作为损失元素对于所述预设文本检测神经网络模型进行修正。
为了进一步提高所述预设文本检测神经网络模型的正确性和有效性,在该实施方式中,还可以将前次文本检测过程中得到的第一字向量与所述第二字向量之间的距离作为损失元素指标对于所述预设文本检测神经网络模型进行修正,所述修正比如可以是对于所述预设文本检测神经网络模型的参数进行调整等等。
在本实施例的一个可选实现方式中,所述装置还包括:
执行模块,被配置为根据所述文本检测结果对于所述待检测文本执行预设操作。
为了充分利用所述文本检测结果,在得到文本检测结果后,可根据所述文本检测结果对于所述待检测文本执行预设操作。
其中,所述预设操作包括以下操作中的一种或多种:排序、限制显示、限制公开、替换、部分替换、删除、部分删除、对于所述待检测文本的信息来源进行警告、对于所述待检测文本信息来源进行限制、对于所述待检测文本信息来源进行拦截等操作。
本发明实施例还公开了一种电子设备,图9示出根据本发明一实施方式的电子设备的结构框图,如图9所示,所述电子设备900包括存储器901和处理器902;其中,
所述存储器901用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器902执行以实现上述任一方法步骤。
图10适于用来实现根据本发明实施方式的文本检测方法的计算机系统的结构示意图。
如图10所示,计算机系统1000包括中央处理单元(CPU)1001,其可以根据存储在只读存储器(ROM)1002中的程序或者从存储部分1008加载到随机访问存储器(RAM)1003中的程序而执行上述实施方式中的各种处理。在RAM1003中,还存储有系统1000操作所需的各种程序和数据。CPU1001、ROM1002以及RAM1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。
以下部件连接至I/O接口1005:包括键盘、鼠标等的输入部分1006;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1007;包括硬盘等的存储部分1008;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1009。通信部分1009经由诸如因特网的网络执行通信处理。驱动器1010也根据需要连接至I/O接口1005。可拆卸介质1011,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1010上,以便于从其上读出的计算机程序根据需要被安装入存储部分1008。
特别地,根据本发明的实施方式,上文描述的方法可以被实现为计算机软件程序。例如,本发明的实施方式包括一种计算机程序产品,其包括有形地包含在及其可读介质上的计算机程序,所述计算机程序包含用于执行所述文本检测方法的程序代码。在这样的实施方式中,该计算机程序可以通过通信部分1009从网络上被下载和安装,和/或从可拆卸介质1011被安装。
附图中的流程图和框图,图示了按照本发明各种实施方式的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,路程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施方式中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
作为另一方面,本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施方式中所述装置中所包含的计算机可读存储介质;也可以是单独存在,未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本发明实施例的方法。
以上描述仅为本发明的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本发明实施例中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (14)

1.一种文本检测方法,其特征在于,包括:
获取待检测文本的语义信息,并根据所述待检测文本的语义信息将所述待检测文本转换为多个第一字向量;
将所述第一字向量输入至预设文本检测神经网络模型进行处理,得到第二字向量;
计算所述第一字向量与所述第二字向量之间的距离,得到文本检测结果。
2.根据权利要求1所述的方法,其特征在于,所述获取待检测文本的语义信息,并根据所述待检测文本的语义信息将所述待检测文本转换为多个第一字向量,包括:
获取待检测文本的语义信息;
将所述待检测文本分割为预设单位字符;
根据所述待检测文本的语义信息将分割得到的预设单位字符转换为第一字向量。
3.根据权利要求1或2所述的方法,其特征在于,所述预设文本检测神经网络模型包括输入层、编码层、全连接层、解码层和输出层。
4.根据权利要求3所述的方法,其特征在于,所述将所述第一字向量输入至预设文本检测神经网络模型进行处理,得到第二字向量,包括:
将所述第一字向量通过所述输入层输入所述编码层进行第一编码处理,得到第一编码向量;
将所述第一编码向量输入所述全连接层进行第二编码处理,得到第二编码向量;
将所述第二编码向量输入所述解码层进行解码处理,得到第二字向量,并将其通过所述输出层输出。
5.根据权利要求1-4任一所述的方法,其特征在于,还包括:
将所述第一字向量与所述第二字向量之间的距离作为损失元素对于所述预设文本检测神经网络模型进行修正。
6.根据权利要求1-5任一所述的方法,其特征在于,还包括:
根据所述文本检测结果对于所述待检测文本执行预设操作。
7.一种文本检测装置,其特征在于,包括:
获取模块,被配置为获取待检测文本的语义信息,并根据所述待检测文本的语义信息将所述待检测文本转换为多个第一字向量;
处理模块,被配置为将所述第一字向量输入至预设文本检测神经网络模型进行处理,得到第二字向量;
计算模块,被配置为计算所述第一字向量与所述第二字向量之间的距离,得到文本检测结果。
8.根据权利要求7所述的装置,其特征在于,所述获取模块包括:
获取子模块,被配置为获取待检测文本的语义信息;
分割子模块,被配置为将所述待检测文本分割为预设单位字符;
转换子模块,被配置为根据所述待检测文本的语义信息将分割得到的预设单位字符转换为第一字向量。
9.根据权利要求7或8所述的装置,其特征在于,所述预设文本检测神经网络模型包括输入层、编码层、全连接层、解码层和输出层。
10.根据权利要求9所述的装置,其特征在于,所述处理模块包括:
第一处理子模块,被配置为将所述第一字向量通过所述输入层输入所述编码层进行第一编码处理,得到第一编码向量;
第二处理子模块,被配置为将所述第一编码向量输入所述全连接层进行第二编码处理,得到第二编码向量;
第三处理子模块,被配置为将所述第二编码向量输入所述解码层进行解码处理,得到第二字向量,并将其通过所述输出层输出。
11.根据权利要求7-10任一所述的装置,其特征在于,还包括:
修正模块,被配置为将所述第一字向量与所述第二字向量之间的距离作为损失元素对于所述预设文本检测神经网络模型进行修正。
12.根据权利要求7-11任一所述的装置,其特征在于,还包括:
执行模块,被配置为根据所述文本检测结果对于所述待检测文本执行预设操作。
13.一种电子设备,其特征在于,包括存储器和处理器;其中,
所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行以实现权利要求1-6任一项所述的方法步骤。
14.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该计算机指令被处理器执行时实现权利要求1-6任一项所述的方法步骤。
CN201810923130.0A 2018-08-14 2018-08-14 文本检测方法、装置、电子设备及计算机可读存储介质 Pending CN109271526A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810923130.0A CN109271526A (zh) 2018-08-14 2018-08-14 文本检测方法、装置、电子设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810923130.0A CN109271526A (zh) 2018-08-14 2018-08-14 文本检测方法、装置、电子设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN109271526A true CN109271526A (zh) 2019-01-25

Family

ID=65153343

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810923130.0A Pending CN109271526A (zh) 2018-08-14 2018-08-14 文本检测方法、装置、电子设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN109271526A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110046342A (zh) * 2019-02-19 2019-07-23 阿里巴巴集团控股有限公司 一种文本质量检测方法
CN110705217A (zh) * 2019-09-09 2020-01-17 上海凯京信达科技集团有限公司 一种错别字检测方法、装置及计算机存储介质、电子设备
CN112001169A (zh) * 2020-07-17 2020-11-27 北京百度网讯科技有限公司 文本纠错的方法、装置、电子设备和可读存储介质
CN112445898A (zh) * 2019-08-16 2021-03-05 阿里巴巴集团控股有限公司 对话情感分析方法及装置、存储介质及处理器

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104049755A (zh) * 2014-06-18 2014-09-17 中国科学院自动化研究所 信息处理方法及装置
CN104834747A (zh) * 2015-05-25 2015-08-12 中国科学院自动化研究所 基于卷积神经网络的短文本分类方法
CN106484681A (zh) * 2015-08-25 2017-03-08 阿里巴巴集团控股有限公司 一种生成候选译文的方法、装置及电子设备
US20180121801A1 (en) * 2016-10-28 2018-05-03 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and device for classifying questions based on artificial intelligence
CN108259494A (zh) * 2018-01-17 2018-07-06 北京邮电大学 一种网络攻击检测方法及装置
CN108304387A (zh) * 2018-03-09 2018-07-20 联想(北京)有限公司 文本中噪音词的识别方法、装置、服务器组及存储介质
CN108304389A (zh) * 2017-12-07 2018-07-20 科大讯飞股份有限公司 交互式语音翻译方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104049755A (zh) * 2014-06-18 2014-09-17 中国科学院自动化研究所 信息处理方法及装置
CN104834747A (zh) * 2015-05-25 2015-08-12 中国科学院自动化研究所 基于卷积神经网络的短文本分类方法
CN106484681A (zh) * 2015-08-25 2017-03-08 阿里巴巴集团控股有限公司 一种生成候选译文的方法、装置及电子设备
US20180121801A1 (en) * 2016-10-28 2018-05-03 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and device for classifying questions based on artificial intelligence
CN108304389A (zh) * 2017-12-07 2018-07-20 科大讯飞股份有限公司 交互式语音翻译方法及装置
CN108259494A (zh) * 2018-01-17 2018-07-06 北京邮电大学 一种网络攻击检测方法及装置
CN108304387A (zh) * 2018-03-09 2018-07-20 联想(北京)有限公司 文本中噪音词的识别方法、装置、服务器组及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
李静: "基于卷积神经网络的虚假评论的识别", 《软件》 *
汪一百等: "利用深度学习的文本相似度计算方法", 《湘潭大学自然科学学报》 *
熊红凯等: "可解释化、结构化、多模态化的深度神经网络", 《模式识别与人工智能》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110046342A (zh) * 2019-02-19 2019-07-23 阿里巴巴集团控股有限公司 一种文本质量检测方法
CN112445898A (zh) * 2019-08-16 2021-03-05 阿里巴巴集团控股有限公司 对话情感分析方法及装置、存储介质及处理器
CN110705217A (zh) * 2019-09-09 2020-01-17 上海凯京信达科技集团有限公司 一种错别字检测方法、装置及计算机存储介质、电子设备
CN110705217B (zh) * 2019-09-09 2023-07-21 上海斑马来拉物流科技有限公司 一种错别字检测方法、装置及计算机存储介质、电子设备
CN112001169A (zh) * 2020-07-17 2020-11-27 北京百度网讯科技有限公司 文本纠错的方法、装置、电子设备和可读存储介质

Similar Documents

Publication Publication Date Title
CN107220235B (zh) 基于人工智能的语音识别纠错方法、装置及存储介质
CN110705301B (zh) 实体关系抽取方法及装置、存储介质、电子设备
CN113313022B (zh) 文字识别模型的训练方法和识别图像中文字的方法
US11177823B2 (en) Data compression by local entropy encoding
CN109271526A (zh) 文本检测方法、装置、电子设备及计算机可读存储介质
CN110765996A (zh) 文本信息处理方法及装置
CN113051356B (zh) 开放关系抽取方法、装置、电子设备及存储介质
JP2022177242A (ja) テキスト認識モデルの訓練方法、テキスト認識方法及び装置
CN111709240A (zh) 实体关系抽取方法、装置、设备及其存储介质
CN112613306B (zh) 抽取实体关系的方法、装置、电子设备、及存储介质
CN108268629B (zh) 基于关键词的图像描述方法和装置、设备、介质
CN110188158B (zh) 关键词及话题标签生成方法、装置、介质及电子设备
US20230114673A1 (en) Method for recognizing token, electronic device and storage medium
CN111563380A (zh) 一种命名实体识别方法及其装置
CN107943788B (zh) 企业简称生成方法、装置及存储介质
CN115640520A (zh) 跨语言跨模态模型的预训练方法、设备和存储介质
CN111368066A (zh) 获取对话摘要的方法、装置和计算机可读存储介质
CN115798661A (zh) 临床医学领域的知识挖掘方法和装置
CN111597807A (zh) 分词数据集生成方法、装置、设备及其存储介质
JP7320570B2 (ja) 画像を処理するための方法、装置、機器、媒体およびプログラム
CN114861758A (zh) 多模态数据处理方法、装置、电子设备及可读存储介质
CN114821613A (zh) 一种pdf中表格信息的抽取方法和系统
CN113283389A (zh) 手写文字质量检测方法、装置、设备及存储介质
CN117253239A (zh) 融合版面信息的端到端文档图像翻译方法及装置
CN113378921A (zh) 数据筛选方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200918

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200918

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

TA01 Transfer of patent application right
RJ01 Rejection of invention patent application after publication

Application publication date: 20190125

RJ01 Rejection of invention patent application after publication