CN116186771A - 应用于人工智能生成内容的文本处理方法、装置及介质 - Google Patents
应用于人工智能生成内容的文本处理方法、装置及介质 Download PDFInfo
- Publication number
- CN116186771A CN116186771A CN202310161988.9A CN202310161988A CN116186771A CN 116186771 A CN116186771 A CN 116186771A CN 202310161988 A CN202310161988 A CN 202310161988A CN 116186771 A CN116186771 A CN 116186771A
- Authority
- CN
- China
- Prior art keywords
- information
- text
- desensitized
- desensitization
- restored
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
- G06F21/6254—Protecting personal data, e.g. for financial or medical purposes by anonymising data, e.g. decorrelating personal data from the owner's identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Bioethics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种应用于人工智能生成内容的文本处理方法、装置及介质,先根据预设的待脱敏信息类型识别待处理文本中的待脱敏信息,并根据待脱敏信息生成包括有脱敏信息的脱敏映射表,然后根据脱敏映射表将待处理文本中的待脱敏信息替换成脱敏信息得到脱敏文本,并利用脱敏文本与人工智能生成内容服务器进行交互得到输出文本,接着根据脱敏信息识别输出文本中的待还原信息,并根据脱敏映射表将输出文本中的待还原信息替换成待脱敏信息得到目标文本。本发明实施例能够在使用云端的NLP大模型对待处理文本执行NLP任务时,避免泄露用户的重要信息。本发明实施例可应用于与人工智能进行交互的各种应用场景中。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种应用于人工智能生成内容的文本处理方法、装置及介质。
背景技术
随着人工智能生成内容(Artificial Intelligence Generated Content,AIGC)技术的发展,以人工智能技术驱动的自然语言处理(Natural Language Processing,NLP)大模型能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动。由于NLP大模型部署于云端服务器中,用户需要向部署于云端服务器的NLP大模型发送待处理文本才能使得NLP大模型对该待处理文本执行NLP任务,因此,当用户使用部署于云端服务器的NLP大模型对待处理文本执行NLP任务时,容易导致出现泄露用户的重要信息的问题。所以,在用户使用部署于云端服务器的NLP大模型对待处理文本执行NLP任务时,如何避免泄露用户的重要信息,是亟待解决的技术问题。
发明内容
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
本发明实施例提供了一种应用于人工智能生成内容的文本处理方法、装置及介质,能够在用户使用部署于云端服务器的NLP大模型对待处理文本执行NLP任务时,避免泄露用户的重要信息。
一方面,本发明实施例提供了一种应用于人工智能生成内容的文本处理方法,包括以下步骤:
接收待处理文本;
根据预设的待脱敏信息类型识别所述待处理文本中的待脱敏信息,根据所述待脱敏信息和预设的脱敏信息库生成脱敏映射表,其中,所述脱敏映射表包括与所述待脱敏信息对应的脱敏信息;
根据所述待脱敏信息和所述脱敏映射表将所述待处理文本中的所述待脱敏信息替换成所述脱敏信息,得到脱敏文本;
将所述脱敏文本发送给人工智能生成内容服务器,接收所述人工智能生成内容服务器对所述脱敏文本进行文本处理后得到的输出文本;
根据所述脱敏信息识别所述输出文本中的待还原信息,根据所述待还原信息和所述脱敏映射表将所述输出文本中的所述待还原信息替换成所述待脱敏信息,得到目标文本。
另一方面,本发明实施例还提供了一种应用于人工智能生成内容的文本处理装置,包括:
文本接收单元,用于接收待处理文本;
映射表生成单元,用于根据预设的待脱敏信息类型识别所述待处理文本中的待脱敏信息,根据所述待脱敏信息和预设的脱敏信息库生成脱敏映射表,其中,所述脱敏映射表包括与所述待脱敏信息对应的脱敏信息;
第一信息替换单元,用于根据所述待脱敏信息和所述脱敏映射表将所述待处理文本中的所述待脱敏信息替换成所述脱敏信息,得到脱敏文本;
信息交互单元,用于将所述脱敏文本发送给人工智能生成内容服务器,接收所述人工智能生成内容服务器对所述脱敏文本进行文本处理后得到的输出文本;
第二信息替换单元,用于根据所述脱敏信息识别所述输出文本中的待还原信息,根据所述待还原信息和所述脱敏映射表将所述输出文本中的所述待还原信息替换成所述待脱敏信息,得到目标文本。
可选地,所述映射表生成单元还用于:
根据所述待脱敏信息的信息类型在预设的脱敏信息库中获取与所述待脱敏信息对应的脱敏信息,其中,所述脱敏信息的信息类型与所述待脱敏信息的信息类型相同;
根据所述待脱敏信息和所述脱敏信息生成所述脱敏映射表,其中,所述脱敏映射表用于表征所述待脱敏信息和所述脱敏信息之间的映射关系。
可选地,所述第一信息替换单元还用于:
获取所述待脱敏信息在所述待处理文本中的待脱敏位置;
对于各个所述待脱敏位置的所述待脱敏信息,在所述脱敏映射表中查找对应的所述脱敏信息;
将所述待处理文本中各个所述待脱敏位置的所述待脱敏信息替换成对应的各个所述脱敏信息,得到脱敏文本。
可选地,所述第二信息替换单元还用于:
获取所述待还原信息在所述输出文本中的待还原位置;
对于各个所述待还原位置的所述待还原信息,在所述脱敏映射表中查找对应的所述待脱敏信息;
将所述输出文本中各个所述待还原位置的所述待还原信息替换成对应的各个所述待脱敏信息,得到目标文本。
可选地,所述信息交互单元还用于:
识别所述待脱敏信息在所述待处理文本中的第一上下文语义特征;
识别所述脱敏信息在所述脱敏文本中的第二上下文语义特征;
对所述第一上下文语义特征和所述第二上下文语义特征进行特征比较;
当所述第一上下文语义特征和所述第二上下文语义特征相同,将所述脱敏文本发送给人工智能生成内容服务器。
可选地,所述信息交互单元还用于:
当所述第一上下文语义特征和所述第二上下文语义特征不相同,根据所述待脱敏信息和所述脱敏信息库生成新的脱敏映射表,其中,所述新的脱敏映射表包括与所述待脱敏信息对应的新的脱敏信息;
根据所述待脱敏位置和所述新的脱敏映射表将所述待处理文本中的所述待脱敏信息替换成所述新的脱敏信息,得到新的脱敏文本;
识别所述新的脱敏信息在所述新的脱敏文本中的新的第二上下文语义特征;
对所述第一上下文语义特征和所述新的上下文语义特征进行特征比较,直到所述第一上下文语义特征和所述新的第二上下文语义特征相同。
可选地,所述第一上下文语义特征包括第一逻辑结构特征和第一情绪特征,所述第二上下文语义特征包括第二逻辑结构特征和第二情绪特征;所述信息交互单元还用于:
当所述第一逻辑结构特征和所述第二逻辑结构特征相同,并且所述第一情绪特征和所述第二情绪特征相同,将所述脱敏文本发送给人工智能生成内容服务器。
可选地,所述第二信息替换单元还用于:
当所述输出文本的语言类型与所述脱敏文本的语言类型相同,对所述输出文本进行文本信息识别,得到多个第一候选文本信息;
根据所述脱敏信息在所有所述第一候选文本信息中确定与所述脱敏信息相同的第一目标文本信息;
将所述第一目标文本信息确定为所述输出文本中的待还原信息。
可选地,所述第二信息替换单元还用于:
当所述输出文本的语言类型与所述脱敏文本的语言类型不相同,对所述输出文本进行文本信息识别,得到多个第二候选文本信息;
对所述脱敏信息进行语言翻译得到与所述输出文本的语言类型相同的脱敏翻译信息;
根据所述脱敏翻译信息在所有所述第二候选文本信息中确定与所述脱敏翻译信息相同的第二目标文本信息;
将所述第二目标文本信息确定为所述输出文本中的待还原信息。
可选地,所述第二信息替换单元还用于:
获取所述待还原信息在所述输出文本中的待还原位置;
获取各个所述待还原位置的所述待还原信息所对应的所述脱敏翻译信息;
根据各个所述待还原位置的所述待还原信息所对应的所述脱敏翻译信息在所述脱敏映射表中查找对应的所述待脱敏信息;
对查找得到的所述待脱敏信息进行语言翻译得到与所述输出文本的语言类型相同的待脱敏翻译信息;
将所述输出文本中各个所述待还原位置的所述待还原信息替换成对应的各个所述待脱敏翻译信息,得到目标文本。
可选地,所述映射表生成单元还用于:
对所述待处理文本进行文本信息识别,得到多个第三候选文本信息;
对各个所述第三候选文本信息进行信息类型识别,得到各个所述第三候选文本信息的文本信息类型;
根据预设的待脱敏信息类型在所有所述文本信息类型中确定与所述待脱敏信息类型相同的目标信息类型;
将所述目标信息类型所对应的所述第三候选文本信息确定为所述待处理文本中的待脱敏信息。
另一方面,本发明实施例还提供了一种应用于人工智能生成内容的文本处理装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当至少一个所述程序被至少一个所述处理器执行时实现如前面所述的应用于人工智能生成内容的文本处理方法。
另一方面,本发明实施例还提供了一种计算机可读存储介质,其中存储有处理器可执行的计算机程序,所述处理器可执行的计算机程序被处理器执行时用于实现如前面所述的应用于人工智能生成内容的文本处理方法。
另一方面,本发明实施例还提供了一种计算机程序产品,包括计算机程序或计算机指令,所述计算机程序或所述计算机指令存储在计算机可读存储介质中,文本处理装置的处理器从所述计算机可读存储介质读取所述计算机程序或所述计算机指令,所述处理器执行所述计算机程序或所述计算机指令,使得所述文本处理装置执行如前面的应用于人工智能生成内容的文本处理方法。
本发明实施例至少包括以下有益效果:在接收到待处理文本后,先根据预设的待脱敏信息类型识别待处理文本中的待脱敏信息,然后根据待脱敏信息生成包括有与待脱敏信息对应的脱敏信息的脱敏映射表,并根据待脱敏信息和脱敏映射表将待处理文本中的待脱敏信息替换成脱敏信息得到脱敏文本,接着将脱敏文本发送给人工智能生成内容服务器,使得人工智能生成内容服务器对脱敏文本进行文本处理得到输出文本。由于向人工智能生成内容服务器发送的文本是将待处理文本中的待脱敏信息替换成脱敏信息之后的脱敏文本,因此人工智能生成内容服务器在对脱敏文本进行文本处理时,无法获取待处理文本中的原始内容,因此能够保护用户的重要信息不被泄露。另外,在接收到人工智能生成内容服务器发送的输出文本后,先根据脱敏信息识别输出文本中的待还原信息,然后根据待还原信息和脱敏映射表将输出文本中的待还原信息替换成待脱敏信息得到目标文本。由于能够通过脱敏信息识别输出文本中的待还原信息,并且能够根据待还原信息和脱敏映射表将输出文本中的待还原信息替换成待脱敏信息,即能够实现对输出文本的信息还原,达到用户所需的对待处理文本的处理效果。此外,由于用于进行信息脱敏的脱敏映射表是根据待处理文本中的待脱敏信息而生成的,因此可以达到每次对不同的待处理文本都生成一个对应的脱敏映射表的效果,使得每次使用的脱敏映射表都不相同,从而可以降低脱敏文本被破解的概率,提高脱敏文本的安全性。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
图1是本发明实施例提供的一种实施环境的示意图;
图2是本发明实施例提供的一种应用场景的示意图;
图3是本发明实施例提供的另一种实施环境的示意图;
图4是本发明实施例提供的另一种应用场景的示意图;
图5是本发明实施例提供的一种应用于人工智能生成内容的文本处理方法的流程图;
图6是本发明一个例子提供的对待处理文本中的待脱敏信息进行识别的示意图;
图7是本发明一个例子提供的根据待脱敏信息和脱敏信息库生成脱敏映射表的示意图;
图8是本发明一个例子提供的在输出文本的语言类型与脱敏文本的语言类型不相同的情况下根据脱敏信息识别输出文本中的待还原信息的流程示意图;
图9是本发明一个具体例子提供的用于实现文本处理方法的系统架构示意图;
图10是本发明一个具体例子提供的文本处理方法的步骤流程图;
图11是本发明一个具体例子提供的文本处理方法的原理流程图;
图12是本发明实施例提供的一种应用于人工智能生成内容的文本处理装置的示意图;
图13是本发明实施例提供的另一种应用于人工智能生成内容的文本处理装置的示意图。
具体实施方式
下面结合说明书附图和具体的实施例对本发明进行进一步的说明。所描述的实施例不应视为对本发明的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的,不是旨在限制本发明。
对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
1)人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
2)人工智能生成内容(Artificial Intelligence Generated Content,AIGC),是指利用人工智能技术来生成内容的一种新型内容生产方式,AI绘画、AI写作等都属于AIGC的分支。
3)自然语言处理(Nature Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
目前,以人工智能技术驱动的NLP大模型能够通过学习和理解人类的语言来进行对话,并且能够根据聊天的上下文进行互动,甚至能够完成撰写邮件、视频脚本、文案、翻译、代码等任务。然而,由于NLP大模型的参数量巨大,一般都是部署于云端服务器中,用户需要向部署于云端服务器的NLP大模型发送待处理文本才能使得NLP大模型对该待处理文本执行NLP任务。因此,当用户使用部署于云端服务器的NLP大模型对待处理文本执行NLP任务时,容易导致出现泄露用户的重要信息的问题。例如,当用户需要利用部署于云端服务器中的NLP大模型对一篇包含有重要信息的文章(即待处理文本)生成摘要时,NLP大模型会获取到该重要信息,从而造成用户的重要信息发生泄露的问题。
为了避免用户在使用部署于云端服务器的NLP大模型对待处理文本执行NLP任务时发生重要信息泄露的问题,本发明实施例提供了一种应用于人工智能生成内容的文本处理方法、应用于人工智能生成内容的文本处理装置、计算机可读存储介质以及计算机程序产品,在接收到待处理文本后,先根据预设的待脱敏信息类型识别待处理文本中的待脱敏信息,并获取待脱敏信息在待处理文本中的待脱敏位置,然后根据待脱敏信息生成包括有与待脱敏信息对应的脱敏信息的脱敏映射表,并根据待脱敏位置和脱敏映射表将待处理文本中的待脱敏信息替换成脱敏信息得到脱敏文本,接着将脱敏文本发送给人工智能生成内容服务器,使得人工智能生成内容服务器对脱敏文本进行文本处理得到输出文本。由于向人工智能生成内容服务器发送的文本是将待处理文本中的待脱敏信息替换成脱敏信息之后的脱敏文本,因此人工智能生成内容服务器在对脱敏文本进行文本处理时,无法获取待处理文本中的原始内容,因此能够保护用户的重要信息不被泄露。另外,在接收到人工智能生成内容服务器发送的输出文本后,先根据脱敏信息识别输出文本中的待还原信息,并获取待还原信息在输出文本中的待还原位置,然后根据待还原位置和脱敏映射表将输出文本中的待还原信息替换成待脱敏信息得到目标文本。由于能够通过脱敏信息识别输出文本中的待还原信息,并且能够根据待还原位置和脱敏映射表将输出文本中的待还原信息替换成待脱敏信息,即能够实现对输出文本的信息还原,达到用户所需的对待处理文本的处理效果。此外,由于用于进行信息脱敏的脱敏映射表是根据待处理文本中的待脱敏信息而生成的,因此可以达到每次对不同的待处理文本都生成一个对应的脱敏映射表的效果,使得每次使用的脱敏映射表都不相同,从而可以降低脱敏文本被破解的概率,提高脱敏文本的安全性。
参照图1,图1是本发明实施例提供的一种实施环境的示意图。该实施环境可以包括第一用户终端101和第一人工智能生成内容服务器102,第一用户终端101和第一人工智能生成内容服务器102可以通过有线或无线通信方式进行直接或间接的连接。其中,第一用户终端101和第一人工智能生成内容服务器102可以为区块链中的节点,本实施例对此并不作具体限定。
第一人工智能生成内容服务器102可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content DeliveryNetwork,内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器。其中,第一人工智能生成内容服务器102可以部署有NLP大模型,NLP大模型能够与用户进行对话、根据聊天的上下文进行互动,还能够完成撰写邮件、视频脚本、文案、翻译、代码等任务。
第一用户终端101可以包括但不限于智能手机、平板、电脑、智能语音交互设备、智能家电、车载终端、飞行器等。可选地,第一用户终端101可以安装有人工智能生成内容客户端,通过人工智能生成内容客户端可以访问部署于第一人工智能生成内容服务器102的NLP大模型,从而实现用户与NLP大模型之间的交互。
第一用户终端101中可以设置文本处理模块,该文本处理模块可以是集成于人工智能生成内容客户端之中的模块,也可以是能够与人工智能生成内容客户端进行信息交互但与人工智能生成内容客户端相互独立的模块,此处不作具体限定。
文本处理模块至少具有对用户输入的文本信息进行脱敏处理以及对NLP大模型返回的文本信息进行信息恢复处理,例如,能够在接收到待处理文本后,根据预设的待脱敏信息类型识别待处理文本中的待脱敏信息,并将待处理文本中的待脱敏信息替换成脱敏信息得到脱敏文本,实现对用户输入的文本信息的脱敏处理,然后将脱敏文本发送给第一人工智能生成内容服务器102中的NLP大模型进行文本处理得到输出文本;另外,还能够在接收到第一人工智能生成内容服务器102发送的输出文本后,根据脱敏信息识别输出文本中的待还原信息,并将输出文本中的待还原信息替换成待脱敏信息得到目标文本,实现对NLP大模型返回的文本信息的信息恢复处理。
参照图2所示,在一应用场景中,假设第一用户终端101是电脑,并且第一用户终端101安装有集成有文本处理模块的人工智能生成内容客户端;第一人工智能生成内容服务器102是部署有NLP大模型的云端服务器。在用户通过第一用户终端101中的人工智能生成内容客户端使用部署于第一人工智能生成内容服务器102的NLP大模型执行NLP任务的过程中,响应于用户通过人工智能生成内容客户端输入待处理文本,文本处理模块接收该待处理文本,并根据预设的待脱敏信息类型识别该待处理文本中的待脱敏信息,以及获取待脱敏信息在该待处理文本中的待脱敏位置;其中,文本处理模块在根据待脱敏信息类型识别待处理文本中的待脱敏信息时,可以先识别待处理文本中的各个第三候选文本信息,然后对各个第三候选文本信息进行信息类型识别得到各个第三候选文本信息的文本信息类型,接着根据待脱敏信息类型在所有文本信息类型中确定与待脱敏信息类型相同的目标信息类型,并将目标信息类型所对应的第三候选文本信息确定为待处理文本中的待脱敏信息。然后,文本处理模块根据待脱敏信息和预设的脱敏信息库生成脱敏映射表,并根据待脱敏位置和脱敏映射表将该待处理文本中的待脱敏信息替换成脱敏信息得到脱敏文本;其中,文本处理模块在根据待脱敏信息和脱敏信息库生成脱敏映射表时,可以先根据待脱敏信息的信息类型在脱敏信息库中获取与待脱敏信息对应的脱敏信息,然后根据待脱敏信息和脱敏信息生成用于表征待脱敏信息和脱敏信息的映射关系的脱敏映射表;另外,文本处理模块在根据待脱敏位置和脱敏映射表将待脱敏信息替换成脱敏信息时,对于各个待脱敏位置的待脱敏信息,可以先在脱敏映射表中查找对应的脱敏信息,然后将各个待脱敏位置的待脱敏信息替换成对应的各个脱敏信息,得到脱敏文本。接着,文本处理模块调用第一人工智能生成内容服务器102中NLP大模型的访问接口,将脱敏文本通过访问接口发送给第一人工智能生成内容服务器102中的NLP大模型;其中,文本处理模块在将脱敏文本发送给NLP大模型之前,还可以先识别待脱敏信息在待处理文本中的第一上下文语义特征以及脱敏信息在脱敏文本中的第二上下文语义特征,然后对第一上下文语义特征和第二上下文语义特征进行特征比较;当第一上下文语义特征和第二上下文语义特征不相同,根据待脱敏信息和脱敏信息库生成新的脱敏映射表,然后根据待脱敏位置和新的脱敏映射表将待处理文本中的待脱敏信息替换成新的脱敏信息,得到新的脱敏文本,再识别新的脱敏信息在新的脱敏文本中的新的第二上下文语义特征,并对第一上下文语义特征和新的上下文语义特征进行特征比较,直到第一上下文语义特征和新的第二上下文语义特征相同;当第一上下文语义特征和第二上下文语义特征相同,再将脱敏文本发送给NLP大模型。响应于接收到脱敏文本,第一人工智能生成内容服务器102中的NLP大模型对脱敏文本进行文本处理得到输出文本,并将输出文本发送给第一用户终端101的人工智能生成内容客户端;响应于第一用户终端101接收到输出文本,人工智能生成内容客户端中的文本处理模块根据脱敏信息识别输出文本中的待还原信息,并获取待还原信息在输出文本中的待还原位置;其中,文本处理模块在根据脱敏信息识别输出文本中的待还原信息时,可以先判断输出文本和脱敏文本的语言类型是否相同;如果输出文本和脱敏文本的语言类型相同,先对输出文本进行文本信息识别得到多个第一候选文本信息,然后根据脱敏信息在所有第一候选文本信息中确定与脱敏信息相同的第一目标文本信息,并将第一目标文本信息确定为输出文本中的待还原信息;如果输出文本和脱敏文本的语言类型不相同,则先对输出文本进行文本信息识别得到多个第二候选文本信息,然后对脱敏信息进行语言翻译得到与输出文本的语言类型相同的脱敏翻译信息,接着根据脱敏翻译信息在所有第二候选文本信息中确定与脱敏翻译信息相同的第二目标文本信息,并将第二目标文本信息确定为输出文本中的待还原信息。然后,文本处理模块根据待还原位置和脱敏映射表将输出文本中的待还原信息替换成待脱敏信息得到目标文本,并通过人工智能生成内容客户端向用户显示该目标文本;其中,文本处理模块在根据待还原位置和脱敏映射表将待还原信息替换成待脱敏信息时,如果输出文本和脱敏文本的语言类型相同,可以先在脱敏映射表中查找各个待还原位置的待还原信息所对应的待脱敏信息,然后将输出文本中的各个待还原信息替换成对应的各个待脱敏信息,得到目标文本;如果输出文本和脱敏文本的语言类型不相同,则可以先获取各个待还原位置的待还原信息所对应的脱敏翻译信息,然后根据各个待还原信息所对应的脱敏翻译信息在脱敏映射表中查找对应的待脱敏信息,并对查找得到的待脱敏信息进行语言翻译得到与输出文本的语言类型相同的待脱敏翻译信息,接着将输出文本中的各个待还原信息替换成对应的各个待脱敏翻译信息,得到目标文本。
参照图3,图3是本发明实施例提供的另一种实施环境的示意图。该实施环境可以包括第二用户终端301、第二人工智能生成内容服务器302和信息库服务器303,第二用户终端301分别与第二人工智能生成内容服务器302、信息库服务器303通过有线或无线通信方式进行直接或间接的连接。其中,第二用户终端301、第二人工智能生成内容服务器302和信息库服务器303可以为区块链中的节点,本实施例对此并不作具体限定。
第二人工智能生成内容服务器302和信息库服务器303均可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN网络以及大数据和人工智能平台等基础云计算服务的云服务器。其中,第二人工智能生成内容服务器302可以部署有NLP大模型,NLP大模型能够与用户进行对话、根据聊天的上下文进行互动,还能够完成撰写邮件、视频脚本、文案、翻译、代码等任务。信息库服务器303可以响应于第二用户终端301的信息获取请求而向第二用户终端301发送其所需的信息。
第二用户终端301可以包括但不限于智能手机、平板、电脑、智能语音交互设备、智能家电、车载终端、飞行器等。可选地,第二用户终端301可以安装有人工智能生成内容客户端,通过人工智能生成内容客户端可以访问部署于第二人工智能生成内容服务器302的NLP大模型,从而实现用户与NLP大模型之间的交互。
第二用户终端301中可以设置文本处理模块,该文本处理模块可以是集成于人工智能生成内容客户端之中的模块,也可以是能够与人工智能生成内容客户端进行信息交互但与人工智能生成内容客户端相互独立的模块,此处不作具体限定。
文本处理模块至少具有对用户输入的文本信息进行脱敏处理以及对NLP大模型返回的文本信息进行信息恢复处理,例如,能够在接收到待处理文本后,根据预设的待脱敏信息类型识别待处理文本中的待脱敏信息,并将待处理文本中的待脱敏信息替换成脱敏信息得到脱敏文本,实现对用户输入的文本信息的脱敏处理,然后将脱敏文本发送给第二人工智能生成内容服务器302中的NLP大模型进行文本处理得到输出文本;另外,还能够在接收到第二人工智能生成内容服务器302发送的输出文本后,根据脱敏信息识别输出文本中的待还原信息,并将输出文本中的待还原信息替换成待脱敏信息得到目标文本,实现对NLP大模型返回的文本信息的信息恢复处理。
参照图4所示,在另一应用场景中,假设第二用户终端301是智能手机,并且第二用户终端301安装有集成有文本处理模块的人工智能生成内容客户端;第二人工智能生成内容服务器302是部署有NLP大模型的云端服务器。在用户通过第二用户终端301中的人工智能生成内容客户端使用部署于第二人工智能生成内容服务器302的NLP大模型执行NLP任务的过程中,响应于用户通过人工智能生成内容客户端输入待处理文本,文本处理模块接收该待处理文本,并根据预设的待脱敏信息类型识别该待处理文本中的待脱敏信息,以及获取待脱敏信息在该待处理文本中的待脱敏位置,其中,文本处理模块在接收待处理文本之前,可以预先通过信息获取请求从信息库服务器303获取具有与预设的待脱敏信息类型相同的信息类型的多个候选信息,并根据这些候选信息生成脱敏信息库;另外,文本处理模块在根据待脱敏信息类型识别待处理文本中的待脱敏信息时,可以先识别待处理文本中的各个第三候选文本信息,然后对各个第三候选文本信息进行信息类型识别得到各个第三候选文本信息的文本信息类型,接着根据待脱敏信息类型在所有文本信息类型中确定与待脱敏信息类型相同的目标信息类型,并将目标信息类型所对应的第三候选文本信息确定为待处理文本中的待脱敏信息。然后,文本处理模块根据待脱敏信息和该预设的脱敏信息库生成脱敏映射表,并根据待脱敏位置和脱敏映射表将该待处理文本中的待脱敏信息替换成脱敏信息得到脱敏文本;其中,文本处理模块在根据待脱敏信息和脱敏信息库生成脱敏映射表时,可以先根据待脱敏信息的信息类型在脱敏信息库中获取与待脱敏信息对应的脱敏信息,然后根据待脱敏信息和脱敏信息生成用于表征待脱敏信息和脱敏信息的映射关系的脱敏映射表;另外,文本处理模块在根据待脱敏位置和脱敏映射表将待脱敏信息替换成脱敏信息时,对于各个待脱敏位置的待脱敏信息,可以先在脱敏映射表中查找对应的脱敏信息,然后将各个待脱敏位置的待脱敏信息替换成对应的各个脱敏信息,得到脱敏文本。接着,文本处理模块调用第二人工智能生成内容服务器302中NLP大模型的访问接口,将脱敏文本通过访问接口发送给第二人工智能生成内容服务器302中的NLP大模型;其中,文本处理模块在将脱敏文本发送给NLP大模型之前,还可以先识别待脱敏信息在待处理文本中的第一上下文语义特征以及脱敏信息在脱敏文本中的第二上下文语义特征,然后对第一上下文语义特征和第二上下文语义特征进行特征比较;当第一上下文语义特征和第二上下文语义特征不相同,根据待脱敏信息和脱敏信息库生成新的脱敏映射表,然后根据待脱敏位置和新的脱敏映射表将待处理文本中的待脱敏信息替换成新的脱敏信息,得到新的脱敏文本,再识别新的脱敏信息在新的脱敏文本中的新的第二上下文语义特征,并对第一上下文语义特征和新的上下文语义特征进行特征比较,直到第一上下文语义特征和新的第二上下文语义特征相同;当第一上下文语义特征和第二上下文语义特征相同,再将脱敏文本发送给NLP大模型。响应于接收到脱敏文本,第二人工智能生成内容服务器302中的NLP大模型对脱敏文本进行文本处理得到输出文本,并将输出文本发送给第二用户终端301的人工智能生成内容客户端;响应于第二用户终端301接收到输出文本,人工智能生成内容客户端中的文本处理模块根据脱敏信息识别输出文本中的待还原信息,并获取待还原信息在输出文本中的待还原位置;其中,文本处理模块在根据脱敏信息识别输出文本中的待还原信息时,可以先判断输出文本和脱敏文本的语言类型是否相同;如果输出文本和脱敏文本的语言类型相同,先对输出文本进行文本信息识别得到多个第一候选文本信息,然后根据脱敏信息在所有第一候选文本信息中确定与脱敏信息相同的第一目标文本信息,并将第一目标文本信息确定为输出文本中的待还原信息;如果输出文本和脱敏文本的语言类型不相同,则先对输出文本进行文本信息识别得到多个第二候选文本信息,然后对脱敏信息进行语言翻译得到与输出文本的语言类型相同的脱敏翻译信息,接着根据脱敏翻译信息在所有第二候选文本信息中确定与脱敏翻译信息相同的第二目标文本信息,并将第二目标文本信息确定为输出文本中的待还原信息。然后,文本处理模块根据待还原位置和脱敏映射表将输出文本中的待还原信息替换成待脱敏信息得到目标文本,并通过人工智能生成内容客户端向用户显示该目标文本;其中,文本处理模块在根据待还原位置和脱敏映射表将待还原信息替换成待脱敏信息时,如果输出文本和脱敏文本的语言类型相同,可以先在脱敏映射表中查找各个待还原位置的待还原信息所对应的待脱敏信息,然后将输出文本中的各个待还原信息替换成对应的各个待脱敏信息,得到目标文本;如果输出文本和脱敏文本的语言类型不相同,则可以先获取各个待还原位置的待还原信息所对应的脱敏翻译信息,然后根据各个待还原信息所对应的脱敏翻译信息在脱敏映射表中查找对应的待脱敏信息,并对查找得到的待脱敏信息进行语言翻译得到与输出文本的语言类型相同的待脱敏翻译信息,接着将输出文本中的各个待还原信息替换成对应的各个待脱敏翻译信息,得到目标文本。
需要说明的是,在本发明的各个具体实施方式中,当涉及到需要根据目标对象(例如用户等)的属性信息或属性信息集合等与目标对象的特性相关的数据进行相关处理时,都会先获得目标对象的许可或者同意,而且,对这些数据的收集、使用和处理等,都会遵守相关国家和地区的相关法律法规和标准。此外,当本发明实施例需要获取目标对象的属性信息时,会通过弹窗或者跳转到确认页面等方式获得目标对象的单独许可或者单独同意,在明确获得目标对象的单独许可或者单独同意之后,再获取用于使本发明实施例能够正常运行的必要的目标对象的相关数据。
图5是本发明实施例提供的一种应用于人工智能生成内容的文本处理方法的流程图,该文本处理方法可以由终端执行,或者由终端和服务器共同执行,在本发明实施例中,以该方法由终端执行为例进行说明。参照图5,该文本处理方法可以包括但不限于步骤510至步骤550。
步骤510:接收待处理文本。
在一实施例中,当用户通过终端向部署于服务器的NLP大模型发送待处理文本以使NLP大模型对该待处理文本执行NLP任务时,终端可以先接收用户所输入的待处理文本,以便于后续步骤可以对该待处理文本进行脱敏处理后再将脱敏后的待处理文本发送给服务器的NLP大模型执行NLP任务。
在一实施例中,待处理文本可以是用户输入的文字信息,也可以是用户所上传的文件,此处不作具体限定。
步骤520:根据预设的待脱敏信息类型识别待处理文本中的待脱敏信息,根据待脱敏信息和预设的脱敏信息库生成脱敏映射表,其中,脱敏映射表包括与待脱敏信息对应的脱敏信息。
在一实施例中,待脱敏信息是指用户的重要信息,如果不对待脱敏信息进行脱敏处理,则容易导致用户的重要信息发生泄露的问题。因此,当接收到待处理文本之后,可以根据预设的待脱敏信息类型识别待处理文本中的待脱敏信息,如果能够识别得到待处理文本中的待脱敏信息,说明待处理文本中包含用户的重要信息,需要对待处理文本进行脱敏处理以避免泄露用户的重要信息,此时,可以根据待脱敏信息和预设的脱敏信息库生成脱敏映射表,以便于后续步骤可以根据脱敏映射表对待处理文本中的待脱敏信息进行脱敏处理;如果没有识别到待处理文本中的待脱敏信息,说明待处理文本中不包含用户的重要信息,因此在后续步骤中可以不对待处理文本进行脱敏处理而直接将待处理文本发送给服务器中的NLP大模型执行NLP任务。
在一实施例中,一个文本中可能包括多种信息类型,例如动词类型、语气词类型、命名实体类型等,其中,命名实体类型是指在文本中具有特定意义的实体类型,例如可以包括人名类型、地名类型、机构名类型、会议名类型、技术名类型、日期类型、时间类型、数值类型等。在这些信息类型中,例如动词类型、语气词类型等,并不会涉及用户的重要信息,因此这些信息类型并非是待脱敏信息类型;而例如命名实体类型等,则可能会涉及用户的重要信息,因此这些信息类型都是待脱敏信息类型。在预先设置了待脱敏信息类型的情况下,当接收到待处理文本后,即可根据这些预设的待脱敏信息类型识别待处理文本中的待脱敏信息。
在一实施例中,在根据预设的待脱敏信息类型识别待处理文本中的待脱敏信息时,可以先对待处理文本进行文本信息识别得到多个第三候选文本信息,然后对各个第三候选文本信息进行信息类型识别得到各个第三候选文本信息的文本信息类型,接着根据预设的待脱敏信息类型在所有文本信息类型中确定与待脱敏信息类型相同的目标信息类型,并将目标信息类型所对应的第三候选文本信息确定为待处理文本中的待脱敏信息。例如图6所示,图6中左边的图是用户所输入的待处理文本的示例,在根据预设的待脱敏信息类型对待处理文本中的待脱敏信息进行识别之后,可以得到如图6中右边的图所示的结果,其中,具有下划线的内容是被识别出来的待脱敏信息。根据图6中右边的图可以看出,能够准确地识别待处理文本中的待脱敏信息,从而可以提高后续步骤对待处理文本进行信息脱敏的准确性。
在一实施例中,在对待处理文本进行文本信息识别得到多个第三候选文本信息时,可以按照待处理文本中的上下文语义对待处理文本中的内容进行信息划分,然后对划分后得到的信息进行内容识别,得到多个第三候选文本信息,例如,按照上下文语义对待处理文本“AA公司在B月B日举行第一届技术研讨会”进行信息划分以及内容识别,可以得到“AA公司”、“在”、“B月B日”、“举行”和“第一届技术研讨会”这些第三候选文本信息;或者,可以按照词性类型对待处理文本中的内容进行信息划分,然后对划分后得到的信息进行内容识别,得到多个第三候选文本信息,例如,按照词性类型对待处理文本“AA公司在B月B日举行第一届技术研讨会”进行信息划分以及内容识别,可以得到“AA公司”、“在”、“B月B日”、“举行”、“第一届”和“技术研讨会”这些第三候选文本信息,其中,“AA公司”的词性类型为“名词”,“在”的词性类型为“介词”,“B月B日”的词性类型为“名词”,“举行”的词性类型为“动词”,“第一届”的词性类型为“数量词”,“技术研讨会”的词性类型为“名词”。可以根据实际应用情况选择合适的信息划分方式以进行内容识别,以便于提高识别待处理文本中的待脱敏信息的效率和准确性。需要说明的是,在进行内容识别时,例如可以采用常用的光学字符识别(Optical Character Recognition,OCR)等方式实现,此处不作具体限定。
在一实施例中,在对各个第三候选文本信息进行信息类型识别得到各个第三候选文本信息的文本信息类型时,可以先对各个第三候选文本信息进行特征提取得到各个第三候选文本信息的特征向量,然后对各个第三候选文本信息的特征向量进行基于文本信息类型的分类识别,得到各个第三候选文本信息的文本信息类型,例如,对“AA公司”、“在”、“B月B日”、“举行”和“第一届技术研讨会”这些第三候选文本信息进行特征提取,可以得到“AA公司”的第一特征向量、“在”的第二特征向量、“B月B日”的第三特征向量、“举行”的第四特征向量和“第一届技术研讨会”的第五特征向量,然后对这些特征向量进行基于文本信息类型的分类识别,得到“AA公司”的文本信息类型为机构名类型、“在”的文本信息类型为介词类型、“B月B日”的文本信息类型为日期类型、“举行”的文本信息类型为动词类型和“第一届技术研讨会”的文本信息类型为会议名类型。通过识别各个第三候选文本信息的文本信息类型,可以提高根据预设的待脱敏信息类型识别待处理文本中的待脱敏信息的准确性,从而可以提高对待处理文本进行信息脱敏的准确性。其中,在对各个第三候选文本信息进行特征提取得到各个第三候选文本信息的特征向量时,可以采用预训练的Word2vec模型或BERT模型等常用的NLP模型对各个第三候选文本信息进行特征提取,此处不作具体限定。需要说明的是,Word2vec模型和BERT模型都是常用的NLP模型,对于Word2vec模型和BERT模型的相关解释说明,可以参考相关技术中的描述说明,此处不再赘述。
在一实施例中,当得到各个第三候选文本信息的文本信息类型后,可以根据预设的待脱敏信息类型在所有这些文本信息类型中确定与待脱敏信息类型相同的目标信息类型,并将该目标信息类型所对应的第三候选文本信息确定为待处理文本中的待脱敏信息。其中,假设预设的待脱敏信息类型包括人名类型、地名类型、机构名类型、会议名类型、技术名类型、日期类型、时间类型和数值类型等,那么可以将各个第三候选文本信息的文本信息类型与这些预设的待脱敏信息类型进行比较,当第三候选文本信息的文本信息类型与预设的待脱敏信息类型相符,则可以认为该第三候选文本信息的文本信息类型为目标信息类型,进而可以将该目标信息类型所对应的该第三候选文本信息确定为待处理文本中的待脱敏信息,以便于提高识别待处理文本中的待脱敏信息的准确性。例如,由于得到“AA公司”的文本信息类型为机构名类型、“在”的文本信息类型为介词类型、“B月B日”的文本信息类型为日期类型、“举行”的文本信息类型为动词类型和“第一届技术研讨会”的文本信息类型为会议名类型,并且预设的待脱敏信息类型包括人名类型、地名类型、机构名类型、会议名类型、技术名类型、日期类型、时间类型和数值类型,那么,对于该待处理文本,可以确定机构名类型、日期类型和会议名类型是目标信息类型,因此可以确定“AA公司”、“B月B日”和“第一届技术研讨会”是待处理文本中的待脱敏信息。
在一实施例中,在得到了待处理文本中的待脱敏信息后,可以根据待脱敏信息和预设的脱敏信息库生成包括有与待脱敏信息对应的脱敏信息的脱敏映射表,以便于后续步骤可以根据脱敏映射表进行信息脱敏和信息还原,不仅有利于避免用户的重要信息发生泄露,还能够在用户对信息脱敏无感知的情况下实现用户与服务器中的NLP大模型的交互。
在一实施例中,脱敏映射表是用于将待脱敏信息替换成相应的脱敏信息而实现信息脱敏的映射表,脱敏映射表中的待脱敏信息和脱敏信息是一一对应关系。脱敏映射表是根据当前的待处理文本中的待脱敏信息而生成的,也就是说,脱敏映射表可以是一个动态的映射表,当每次对不同的待处理文本进行信息脱敏时,都可以生成一个对应的脱敏映射表,使得每次使用的脱敏映射表都不相同,从而可以降低用户的重要信息被破解泄露的概率,另外,即使当前的脱敏映射表意外发生了泄露,也能够保证之前发送给NLP大模型的文本信息不会被破解泄露。因此,通过使用脱敏映射表实现对待脱敏信息的信息脱敏处理,可以提高用户的重要信息的安全性。
在一实施例中,预设的脱敏信息库中可以包括与各个待脱敏信息类型对应的多个文本信息,也就是说,对于每个待脱敏信息类型,脱敏信息库中都可以包括多个具有该待脱敏信息类型的文本信息,例如,假设待脱敏信息类型包括地名类型、机构名类型和日期类型等,那么脱敏信息库可以包括多个具有地名类型的文本信息、多个具有机构名类型的文本信息以及多个具有日期类型的文本信息。在这种情况下,当根据待脱敏信息和预设的脱敏信息库生成脱敏映射表时,可以先根据待脱敏信息的信息类型在预设的脱敏信息库中获取与待脱敏信息对应的脱敏信息,其中,脱敏信息的信息类型与待脱敏信息的信息类型相同;接着,根据待脱敏信息和脱敏信息生成用于表征待脱敏信息和脱敏信息之间的映射关系的脱敏映射表。其中,在根据待脱敏信息的信息类型在脱敏信息库中获取与待脱敏信息对应的脱敏信息时,可以在脱敏信息库中随机获取与待脱敏信息对应的脱敏信息,也可以在脱敏信息库中固定获取与待脱敏信息对应的脱敏信息,此处不作具体限定。例如,当在脱敏信息库中随机获取与待脱敏信息对应的脱敏信息时,假设待脱敏信息的信息类型为地名类型,而在脱敏信息库中具有地名类型的文本信息包括“地名A”、“地名B”和“地名C”,那么可以在“地名A”、“地名B”和“地名C”中随机选择一个作为与待脱敏信息对应的脱敏信息。由于与待脱敏信息对应的脱敏信息是在脱敏信息库中随机选择得到的,因此可以提高生成的脱敏映射表的随机性,使得后续步骤的信息脱敏处理能以被服务器捕捉到,从而有利于降低根据脱敏映射表得到的脱敏文本被破解的风险,进而可以提高用户的重要信息的安全性。又如,当在脱敏信息库中固定获取与待脱敏信息对应的脱敏信息时,假设待脱敏信息的数量有2个,并且这2个待脱敏信息的信息类型均为地名类型,而在脱敏信息库中具有地名类型的文本信息包括“地名A”、“地名B”和“地名C”,那么可以在“地名A”、“地名B”和“地名C”中固定选择“地名C”作为与第一个待脱敏信息对应的脱敏信息,并固定选择“地名A”作为与第二个待脱敏信息对应的脱敏信息。这样,根据待脱敏信息和脱敏信息生成的脱敏映射表会是一个固定的映射表,通过采用固定的脱敏映射表实现对待处理文本的信息脱敏,可以降低信息脱敏过程中所产生的开销,提高信息脱敏的稳定性。
在一实施例中,在根据待脱敏信息和脱敏信息生成脱敏映射表时,可以先生成一个空白的脱敏映射表,然后将一一对应的待脱敏信息和脱敏信息填充到该空白的脱敏映射表中,即可得到用于表征待脱敏信息和脱敏信息之间的映射关系的脱敏映射表。例如图7所示,图7示例性地提供了根据待脱敏信息和预设的脱敏信息库生成脱敏映射表的过程。在图7中,先根据各个待脱敏信息的信息类型在预设的脱敏信息库中获取与各个待脱敏信息的信息类型相同的脱敏信息,然后根据各个待脱敏信息和相应的各个脱敏信息生成脱敏映射表。
步骤530:根据待脱敏信息和脱敏映射表将待处理文本中的待脱敏信息替换成脱敏信息,得到脱敏文本。
在一实施例中,当得到脱敏映射表之后,可以根据待脱敏信息和脱敏映射表将待处理文本中的待脱敏信息替换成脱敏信息,得到完成信息脱敏后的脱敏文本,使得在后续步骤中将信息脱敏后的脱敏文本发送给NLP大模型执行NLP任务时不会泄露用户的重要信息,实现对用户的重要信息进行保护的目的。
在一实施例中,在根据待脱敏信息和脱敏映射表将待处理文本中的待脱敏信息替换成脱敏信息以得到脱敏文本时,可以先获取待脱敏信息在待处理文本中的待脱敏位置,接着,对于各个待脱敏位置的待脱敏信息,在脱敏映射表中查找对应的脱敏信息,然后将待处理文本中各个待脱敏位置的待脱敏信息替换成对应的各个脱敏信息,得到脱敏文本。例如,对于待处理文本“AA公司在B月B日举行第一届技术研讨会”,在得到该待处理文本的待脱敏信息为“AA公司”、“B月B日”和“第一届技术研讨会”之后,假设脱敏映射表中的脱敏信息包括“CC学校”、“D月D日”和“第一届运动会”,其中脱敏信息“CC学校”与待脱敏信息“AA公司”相对应,脱敏信息“D月D日”与待脱敏信息“B月B日”相对应,脱敏信息“第一届运动会”与待脱敏信息“第一届技术研讨会”相对应,那么在根据待脱敏位置和脱敏映射表将待处理文本中的待脱敏信息替换成脱敏信息以得到脱敏文本时,对于第一个待脱敏位置的待脱敏信息(即“AA公司”),在脱敏映射表中查找得到对应的脱敏信息为“CC学校”,对于第二个待脱敏位置的待脱敏信息(即“B月B日”),在脱敏映射表中查找得到对应的脱敏信息为“D月D日”,对于第三个待脱敏位置的待脱敏信息(即“第一届技术研讨会”),在脱敏映射表中查找得到对应的脱敏信息为“第一届运动会”,接着,将待处理文本中的“AA公司”替换成“CC学校”,将“B月B日”替换成“D月D日”,将“第一届技术研讨会”替换成“第一届运动会”,可以得到脱敏文本为“CC学校在D月D日举行第一届运动会”。由于脱敏信息与待脱敏信息具有相同的信息类型但具体的信息内容不相同,因此在将待处理文本中的待脱敏信息替换成脱敏信息而得到脱敏文本之后,不仅不会改变待处理文本中的文本结构而导致NLP大模型无法对脱敏文本执行NLP任务,还能够将待处理文本中用户的重要信息隐藏起来实现信息脱敏,避免用户的重要信息发生泄露。此外,由于脱敏映射表是根据当前的待处理文本中的待脱敏信息而生成的,因此根据脱敏映射表将待处理文本中的待脱敏信息替换成脱敏信息而得到的脱敏文本,仅会与当前的脱敏映射表具有关联关系,即使当前的脱敏映射表意外发生了泄露,也能够保证之前发送给NLP大模型的文本信息不会被破解泄露,也就是说,通过使用脱敏映射表实现对待脱敏信息的信息脱敏处理,可以提高用户的重要信息的安全性。
在一实施例中,由于前面步骤在对待处理文本进行文本信息识别得到多个第三候选文本信息时,会对待处理文本中的内容进行信息划分,因此,在得到待处理文本中的待脱敏信息之后,当需要获取待脱敏信息在待处理文本中的待脱敏位置时,可以根据待脱敏信息所对应的信息划分情况获取待脱敏信息在待处理文本中的待脱敏位置,为后续的脱敏处理提供待脱敏的位置信息,从而可以提高对待处理文本进行信息脱敏的准确性。例如,对于待处理文本“AA公司在B月B日举行第一届技术研讨会”,在得到该待处理文本的待脱敏信息为“AA公司”、“B月B日”和“第一届技术研讨会”之后,根据“AA公司”、“B月B日”和“第一届技术研讨会”所对应的信息划分情况,可以得到“AA公司”在待处理文本中的待脱敏位置是待处理文本中的第一个单词,“B月B日”在待处理文本中的待脱敏位置是待处理文本中的第三个单词,“第一届技术研讨会”在待处理文本中的待脱敏位置是待处理文本中的第五个单词。
步骤540:将脱敏文本发送给人工智能生成内容服务器,接收人工智能生成内容服务器对脱敏文本进行文本处理后得到的输出文本。
在一实施例中,人工智能生成内容服务器中可以部署有NLP大模型,通过该NLP大模型能够实现与用户的对话及互动,并且能够完成撰写邮件、视频脚本、文案、翻译、代码等任务。
在一实施例中,在得到了脱敏文本之后,可以将脱敏文本发送给人工智能生成内容服务器,使得人工智能生成内容服务器对脱敏文本进行文本处理得到输出文本,从而完成用户使用人工智能生成内容服务器对待处理文本执行NLP任务的目的。由于发送给人工智能生成内容服务器进行文本处理的是已经隐藏了用户的重要信息的脱敏文本,因此人工智能生成内容服务器在对脱敏文本进行文本处理时,无法获取待处理文本中的原始内容,因此能够保护用户的重要信息不被泄露。
在一实施例中,在将脱敏文本发送给人工智能生成内容服务器进行文本处理之前,为了保证得到的脱敏文本能够保持待处理文本原来的语义特征不变而不会影响人工智能生成内容服务器执行准确的文本处理,可以先识别待脱敏信息在待处理文本中的第一上下文语义特征以及脱敏信息在脱敏文本中的第二上下文语义特征,然后对第一上下文语义特征和第二上下文语义特征进行特征比较,当第一上下文语义特征和第二上下文语义特征相同时,说明脱敏文本能够保持待处理文本原来的语义特征不变,人工智能生成内容服务器能够对脱敏文本进行准确的文本处理以得到用户所需的输出文本,因此此时可以将脱敏文本发送给人工智能生成内容服务器。通过先判断脱敏文本与待处理文本的语义特征是否相同,在脱敏文本与待处理文本的语义特征相同的情况下再将脱敏文本发送给人工智能生成内容服务器以进行文本处理,不仅可以保证人工智能生成内容服务器能够对脱敏文本进行准确的文本处理以得到用户所需的输出文本,还有利于后续步骤对人工智能生成内容服务器所输出的输出文本进行信息还原的准确性。在一实施例中,在识别待脱敏信息在待处理文本中的第一上下文语义特征以及脱敏信息在脱敏文本中的第二上下文语义特征时,可以采用预训练的BERT模型或者其他常用的能够实现上下文语义特征提取的神经网络模型等常用的NLP模型,对待脱敏信息在待处理文本中的第一上下文语义特征进行识别提取,以及对脱敏信息在脱敏文本中的第二上下文语义特征进行识别提取,此处不作具体限定。需要说明的是,BERT模型是常用的NLP模型,对于BERT模型的相关解释说明,可以参考相关技术中的描述说明,此处不再赘述。
在一实施例中,当第一上下文语义特征和第二上下文语义特征不相同时,说明脱敏文本不能保持待处理文本原来的语义特征不变,如果人工智能生成内容服务器对该脱敏文本进行文本处理,将无法准确得到用户所需的输出文本。在这种情况下,为了使人工智能生成内容服务器能够对脱敏文本进行准确的文本处理以得到用户所需的输出文本,可以根据待脱敏信息和脱敏信息库重新生成新的脱敏映射表,其中,新的脱敏映射表包括与待脱敏信息对应的新的脱敏信息;然后,根据待脱敏位置和新的脱敏映射表重新将待处理文本中的待脱敏信息替换成新的脱敏信息,得到新的脱敏文本;接着,识别新的脱敏信息在新的脱敏文本中的新的第二上下文语义特征,并对第一上下文语义特征和新的上下文语义特征进行特征比较,如果第一上下文语义特征和新的上下文语义特征仍然不相同,则继续重复上述操作,直到第一上下文语义特征和新的第二上下文语义特征相同。在第一上下文语义特征和第二上下文语义特征不相同的情况下,通过生成新的脱敏映射表以及得到新的脱敏文本,直到第一上下文语义特征和新的第二上下文语义特征相同时,才将新的脱敏文本发送给人工智能生成内容服务器进行文本处理,能够确保人工智能生成内容服务器可以对新的脱敏文本进行准确的文本处理以得到用户所需的输出文本,从而有利于后续步骤对人工智能生成内容服务器所输出的输出文本进行信息还原的准确性。
在一实施例中,第一上下文语义特征可以包括第一逻辑结构特征和第一情绪特征,第二上下文语义特征可以包括第二逻辑结构特征和第二情绪特征,那么,在对第一上下文语义特征和新的上下文语义特征进行特征比较时,需要将第一逻辑结构特征和第二逻辑结构特征进行特征比较,并且将第一情绪特征和第二情绪特征进行特征比较,当第一逻辑结构特征和第二逻辑结构特征相同,并且第一情绪特征和第二情绪特征相同时,才认为脱敏文本能够保持待处理文本原来的语义特征不变以使得人工智能生成内容服务器能够对脱敏文本进行准确的文本处理,因此此时才将脱敏文本发送给人工智能生成内容服务器。如果第一逻辑结构特征和第二逻辑结构特征不相同,或者第一情绪特征和第二情绪特征不相同时,都会认为脱敏文本不能保持待处理文本原来的语义特征不变,在这种情况下,需要重新生成新的脱敏映射表以及得到新的脱敏文本,直到第一逻辑结构特征和第二逻辑结构特征相同,并且第一情绪特征和第二情绪特征相同时,才将新的脱敏文本发送给人工智能生成内容服务器进行文本处理,从而可以确保人工智能生成内容服务器能够对新的脱敏文本进行准确的文本处理以得到用户所需的输出文本,进而有利于后续步骤对人工智能生成内容服务器所输出的输出文本进行信息还原的准确性。
在一实施例中,在识别待脱敏信息在待处理文本中的第一逻辑结构特征以及脱敏信息在脱敏文本中的第二逻辑结构特征时,可以采用预训练的BERT模型或者其他常用的能够实现上下文语义特征提取的神经网络模型等常用的NLP模型,对待脱敏信息在待处理文本中的第一逻辑结构特征进行识别提取,以及对脱敏信息在脱敏文本中的第二逻辑结构特征进行识别提取,此处不作具体限定。在识别待脱敏信息在待处理文本中的第一情绪特征以及脱敏信息在脱敏文本中的第二情绪特征时,可以采用机器学习分析方法实现对情绪特征的识别提取,此处不作具体限定。其中,在采用机器学习分析方法识别待脱敏信息在待处理文本中的第一情绪特征以及脱敏信息在脱敏文本中的第二情绪特征时,可以先对待脱敏信息和脱敏信息进行向量化得到待脱敏信息向量和脱敏信息向量,然后将待脱敏信息向量和脱敏信息向量输入至预训练的情感分析模型进行情感特征的提取,得到待脱敏信息在待处理文本中的第一情绪特征以及脱敏信息在脱敏文本中的第二情绪特征。需要说明的是,情感分析模型可以由深度神经网络模型或者卷积神经网络模型等构成,此处不作具体限定。
在一实施例中,当将脱敏文本发送给人工智能生成内容服务器后,人工智能生成内容服务器可以根据用户的使用需求对脱敏文本进行文本处理得到输出文本,当人工智能生成内容服务器得到输出文本后,人工智能生成内容服务器会将该输出文本发送给用户的终端,此时,用户的终端会接收该输出文本,以便于后续步骤可以对该输出文本进行与前面的信息脱敏相应的信息还原,从而可以在用户对信息脱敏无感知的情况下实现用户与NLP大模型的交互。
在一实施例中,人工智能生成内容服务器对脱敏文本进行的文本处理,可以包括摘要信息提取、文本格式改写或者文本信息翻译等,因此,接收到的输出文本可以是待处理文本的摘要信息、文本格式更改后的待处理文本或者翻译后的待处理文本等。
步骤550:根据脱敏信息识别输出文本中的待还原信息,根据待还原信息和脱敏映射表将输出文本中的待还原信息替换成待脱敏信息,得到目标文本。
在一实施例中,根据用户不同的使用需求,人工智能生成内容服务器会生成不同的输出文本,在输出文本中,可能包含需要进行信息还原的待还原信息(即脱敏信息),也可能不包含需要进行信息还原的待还原信息,因此,在接收到人工智能生成内容服务器发送的输出文本后,可以根据脱敏信息识别输出文本中的待还原信息,如果能够识别得到输出文本中的待还原信息,说明需要对输出文本进行信息还原以使得用户在对信息脱敏及还原均无感知的情况下实现与NLP大模型的交互,此时,可以根据待还原信息和脱敏映射表对输出文本中的待还原信息进行信息还原以得到用户所需的目标文本;如果没有识别到输出文本中的待还原信息,说明不需要对输出文本进行信息还原,因此可以直接将输出文本作为用户所需的目标文本。
在一实施例中,由于人工智能生成内容服务器会根据用户的不同使用需求而生成不同的输出文本,因此输出文本的语言类型与脱敏文本的语言类型可能相同也可能不同。例如,假设用户的使用需求是对待处理文本进行摘要信息提取,那么输出文本的语言类型会与脱敏文本的语言类型相同;假设用户的使用需求是对待处理文本进行翻译,则输出文本的语言类型会与脱敏文本的语言类型不相同。因此,为了能够更为准确地识别输出文本中的待还原信息,可以先对输出文本的语言类型与脱敏文本的语言类型进行判断,然后根据判断结果识别输出文本中的待还原信息。
在一实施例中,当输出文本的语言类型与脱敏文本的语言类型相同,说明用户的使用需求是对待处理文本进行摘要信息提取或者文本格式改写等不需要改变待处理文本的语言类型的NLP处理,在这种情况下,可以先对输出文本进行文本信息识别得到多个第一候选文本信息,然后根据脱敏信息在所有第一候选文本信息中确定与脱敏信息相同的第一目标文本信息,接着将第一目标文本信息确定为输出文本中的待还原信息,通过根据脱敏信息在输出文本中确定与脱敏信息相同的第一目标文本信息,并将该第一目标文本信息作为输出文本中的待还原信息,可以提高识别输出文本中的待还原信息的准确性,从而可以提高后续步骤对输出文本进行信息还原的准确性。
在一实施例中,当输出文本的语言类型与脱敏文本的语言类型不相同,说明用户的使用需求是对待处理文本进行翻译等需要改变待处理文本的语言类型的NLP处理,在这种情况下,可以先对输出文本进行文本信息识别得到多个第二候选文本信息,并对脱敏信息进行语言翻译得到与输出文本的语言类型相同的脱敏翻译信息,然后根据脱敏翻译信息在所有第二候选文本信息中确定与脱敏翻译信息相同的第二目标文本信息,接着将第二目标文本信息确定为输出文本中的待还原信息,通过先对脱敏信息进行语言翻译得到与输出文本的语言类型相同的脱敏翻译信息,然后根据脱敏翻译信息在输出文本中确定与脱敏信息相同的第二目标文本信息,并将该第二目标文本信息作为输出文本中的待还原信息,可以提高对翻译后的输出文本中待还原信息的识别准确性,从而可以提高后续步骤对翻译后的输出文本进行信息还原的准确性。例如图8所示,图8中示例性地给出了在输出文本的语言类型与脱敏文本的语言类型不相同的情况下根据脱敏信息识别输出文本中的待还原信息的流程示意图。在图8中,当接收到输出文本之后,先识别输出文本中的第二候选文本信息,例如图8中具有下划线的“CC school”和“sports meeting”等,并将脱敏信息(例如图8中的“CC学校”和“运动会”等)翻译成与输出文本的语言类型相同的脱敏翻译信息,然后根据脱敏翻译信息在所有第二候选文本信息中确定与脱敏翻译信息内容相同的第二目标文本信息,接着将确定得到的第二目标文本信息作为输出文本中的待还原信息。根据图8中的流程示意图可以看出,对于输出文本的语言类型与脱敏文本的语言类型不相同的情况,通过利用脱敏翻译信息在翻译后的输出文本中确定待还原信息,能够更为准确地识别翻译后的输出文本中的待还原信息,从而能够提高后续步骤对翻译后的输出文本进行信息还原的准确性。
在一实施例中,在对输出文本进行文本信息识别时,可以按照输出文本中的上下文语义对输出文本中的内容进行信息划分,然后对划分后得到的信息进行内容识别,例如,按照上下文语义对输出文本“CC学校在近期开展第一届运动会”进行信息划分以及内容识别,可以得到“CC学校”、“在”、“近期”、“开展”和“第一届运动会”这些识别结果(即第一候选文本信息或者第二候选文本信息);或者,可以按照词性类型对输出文本中的内容进行信息划分,然后对划分后得到的信息进行内容识别,例如,按照词性类型对输出文本“CC学校在D日开展第一届运动会”进行信息划分以及内容识别,可以得到“CC学校”、“在”、“近期”、“开展”、“第一届”和“运动会”这些识别结果(即第一候选文本信息或者第二候选文本信息),其中,“CC学校”的词性类型为“名词”,“在”的词性类型为“介词”,“近期”的词性类型为“名词”,“开展”的词性类型为“动词”,“第一届”的词性类型为“数量词”,“运动会”的词性类型为“名词”。可以根据实际应用情况选择合适的信息划分方式以进行内容识别,以便于提高识别输出文本中的待还原信息的效率和准确性。需要说明的是,在进行内容识别时,例如可以采用常用的光学字符识别等方式实现,此处不作具体限定。
在一实施例中,对脱敏信息进行语言翻译得到与输出文本的语言类型相同的脱敏翻译信息,可以有不同的实施方式,可以根据实际应用情况而适当选择,此处不作具体限定。例如,可以根据本地的翻译词典对脱敏信息进行语言翻译,得到与输出文本的语言类型相同的脱敏翻译信息;或者,可以调用外部的翻译工具的访问接口,使用外部的翻译工具对脱敏信息进行语言翻译,得到与输出文本的语言类型相同的脱敏翻译信息。
在一实施例中,当识别得到输出文本中的待还原信息之后,可以根据待还原信息和脱敏映射表将输出文本中的待还原信息替换成待脱敏信息,得到完成信息还原后的目标文本,从而能够在用户对信息脱敏及还原均无感知的情况下实现用户与服务器中的NLP大模型的交互。另外,在得到目标文本之后,可以将目标文本显示给用户,或者为用户提供下载目标文本的链接,此处不作具体限定。通过将目标文本显示给用户或者为用户提供下载目标文本的链接,能够为用户提供获取目标文本的多种灵活途径,从而可以提高用户的使用体验。
在一实施例中,当输出文本的语言类型与脱敏文本的语言类型相同时,在根据待还原信息和脱敏映射表将输出文本中的待还原信息替换成待脱敏信息以得到目标文本的过程中,可以先获取待还原信息在输出文本中的待还原位置,接着,对于各个待还原位置的待还原信息,在脱敏映射表中查找对应的待脱敏信息,然后将输出文本中各个待还原位置的待还原信息替换成对应的各个待脱敏信息,得到目标文本。例如,对于输出文本“CC学校在近期开展第一届运动会”,在得到该输出文本的待还原信息为“CC学校”和“第一届运动会”之后,假设脱敏映射表中的待脱敏信息包括“AA公司”、“B月B日”和“第一届技术研讨会”,其中待脱敏信息“AA公司”与待还原信息(即脱敏信息)“CC学校”相对应,待脱敏信息“B月B日”与脱敏信息“D月D日”相对应,待脱敏信息“第一届技术研讨会”与待还原信息(即脱敏信息)“第一届运动会”相对应,那么在根据待还原位置和脱敏映射表将输出文本中的待还原信息替换成待脱敏信息以得到目标文本时,对于第一个待还原位置的待还原信息(即“CC学校”),在脱敏映射表中查找得到对应的待脱敏信息为“AA公司”,对于第二个待还原位置的待还原信息(即“第一届运动会”),在脱敏映射表中查找得到对应的待脱敏信息为“第一届技术研讨会”,接着,将输出文本中的“CC学校”替换成“AA公司”,将“第一届运动会”替换成“第一届技术研讨会”,可以得到目标文本为“AA公司在近期开展第一届技术研讨会”。由于能够通过脱敏信息识别输出文本中的待还原信息,并且能够根据待还原位置和脱敏映射表将输出文本中的待还原信息替换成原来的待脱敏信息,即能够实现对输出文本的信息还原,从而能够在用户对信息脱敏及还原均无感知的情况下实现用户与服务器中的NLP大模型的交互,达到用户所需的对待处理文本的处理效果。
在一实施例中,当输出文本的语言类型与脱敏文本的语言类型不相同时,在根据待还原信息和脱敏映射表将输出文本中的待还原信息替换成待脱敏信息以得到目标文本的过程中,可以先获取待还原信息在输出文本中的待还原位置,并获取各个待还原位置的待还原信息所对应的脱敏翻译信息,然后根据各个待还原位置的待还原信息所对应的脱敏翻译信息在脱敏映射表中查找对应的待脱敏信息,并对查找得到的待脱敏信息进行语言翻译得到与输出文本的语言类型相同的待脱敏翻译信息,接着将输出文本中各个待还原位置的待还原信息替换成对应的各个待脱敏翻译信息,得到目标文本。例如,对于输出文本“CCschool will hold the first sports meeting in the near future”,在得到该输出文本的待还原信息为“CC school”和“the first sports meeting”之后,获取得到第一个待还原位置的待还原信息“CC school”所对应的脱敏翻译信息为“CC学校”,第二个待还原位置的待还原信息“the first sports meeting”所对应的脱敏翻译信息为“第一届运动会”;假设脱敏映射表中的待脱敏信息包括“AA公司”、“B月B日”和“第一届技术研讨会”,那么在根据各个待还原位置的待还原信息所对应的脱敏翻译信息在脱敏映射表中查找对应的待脱敏信息之后,可以得到脱敏翻译信息“CC学校”所对应的待脱敏信息为“AA公司”,脱敏翻译信息“第一届运动会”所对应的待脱敏信息为“第一届技术研讨会”;此时,在对查找得到的待脱敏信息进行语言翻译得到与输出文本的语言类型相同的待脱敏翻译信息时,可以得到待脱敏信息“AA公司”所对应的待脱敏翻译信息为“AA Company”,待脱敏信息“第一届技术研讨会”所对应的待脱敏翻译信息为“the first technical seminar”;接着,将输出文本中第一个待还原位置的待还原信息(即“CC school”)替换成对应的待脱敏翻译信息(即“AA Company”),将第二个待还原位置的待还原信息(即“the first sports meeting”)替换成对应的待脱敏翻译信息(即“the first technical seminar”),即可得到目标文本为“AA Company will hold the first technical seminar in the near future”。通过根据待还原信息所对应的脱敏翻译信息在脱敏映射表中查找对应的待脱敏信息,再将待脱敏信息翻译成与输出文本的语言类型相同的待脱敏翻译信息,接着将输出文本中的待还原信息替换成待脱敏翻译信息,能够实现对翻译后的输出文本的信息还原,从而能够在用户对信息脱敏及还原均无感知的情况下实现用户与服务器中的NLP大模型的交互,达到用户所需的对待处理文本进行翻译的处理效果。
在一实施例中,由于前面步骤在对输出文本进行文本信息识别时,可以对输出文本中的内容进行信息划分,因此,在得到输出文本中的待还原信息之后,当需要获取待还原信息在输出文本中的待还原位置时,可以根据待还原信息所对应的信息划分情况获取待还原信息在输出文本中的待还原位置,为后续的信息还原处理提供待还原的位置信息,从而可以提高对输出文本进行信息还原的准确性。例如,对于输出文本“CC学校在近期开展第一届运动会”,在得到该输出文本的待还原信息为“CC学校”和“第一届运动会”之后,根据“CC学校”和“第一届运动会”所对应的信息划分情况,可以得到“CC学校”在输出文本中的待还原位置是输出文本中的第一个单词,“第一届运动会”在输出文本中的待还原位置是输出文本中的第五个单词。
本实施例中,通过包括前面步骤510至步骤550的应用于人工智能生成内容的文本处理方法,在接收到待处理文本后,先根据预设的待脱敏信息类型识别待处理文本中的待脱敏信息,然后根据待脱敏信息生成包括有与待脱敏信息对应的脱敏信息的脱敏映射表,并根据待脱敏信息和脱敏映射表将待处理文本中的待脱敏信息替换成脱敏信息得到脱敏文本,接着将脱敏文本发送给人工智能生成内容服务器,使得人工智能生成内容服务器对脱敏文本进行文本处理得到输出文本。由于向人工智能生成内容服务器发送的文本是将待处理文本中的待脱敏信息替换成脱敏信息之后的脱敏文本,因此人工智能生成内容服务器在对脱敏文本进行文本处理时,无法获取待处理文本中的原始内容,因此能够保护用户的重要信息不被泄露。另外,在接收到人工智能生成内容服务器发送的输出文本后,先根据脱敏信息识别输出文本中的待还原信息,然后根据待还原信息和脱敏映射表将输出文本中的待还原信息替换成待脱敏信息得到目标文本。由于能够通过脱敏信息识别输出文本中的待还原信息,并且能够根据待还原信息和脱敏映射表将输出文本中的待还原信息替换成待脱敏信息,即能够实现对输出文本的信息还原,达到用户所需的对待处理文本的处理效果。此外,由于用于进行信息脱敏的脱敏映射表是根据待处理文本中的待脱敏信息而生成的,因此可以达到每次对不同的待处理文本都生成一个对应的脱敏映射表的效果,使得每次使用的脱敏映射表都不相同,从而可以降低脱敏文本被破解的概率,提高脱敏文本的安全性。
下面以具体的例子对本发明实施例所提供的应用于人工智能生成内容的文本处理方法进行详细的说明。
参照图9所示,图9是一个具体例子提供的用于实现应用于人工智能生成内容的文本处理方法的系统架构示意图。在图9中,该系统架构可以包括人工智能生成内容客户端910、文本处理模块920和NLP大模型930,其中,人工智能生成内容客户端910和文本处理模块920均设置于本地的用户终端中,人工智能生成内容客户端910和文本处理模块920相互独立并可进行信息交互;NLP大模型930部署于云端的人工智能生成内容服务器中。文本处理模块920能够获取来自人工智能生成内容客户端910的包括有待脱敏信息的待处理文本,然后对待处理文本进行文本同态加密得到脱敏文本,接着将脱敏文本发送给NLP大模型930执行NLP任务;另外,当NLP大模型930对脱敏文本执行NLP任务得到输出文本后,文本处理模块920还能够接收NLP大模型930返回的输出文本,然后对输出文本进行文本同态解密得到目标文本,接着将目标文本发送给人工智能生成内容客户端910进行显示。需要说明的是,文本同态加密和文本同态解密,是指对具有待脱敏信息的待处理文本进行不改变文本逻辑结构的语义混淆后,将语义混淆后的文本发送给NLP大模型执行NLP任务,当用户接收到经过NLP大模型处理后的输出文本后,采用与语义混淆相对应的语义去混淆对输出文本进行脱敏还原的过程。其中,在对待处理文本进行文本同态加密得到脱敏文本后,NLP大模型能够对该脱敏文本进行处理,而且在处理过程中不会泄露任何原始内容;并且,对NLP大模型返回的输出文本进行文本同态解密而得到的目标文本,正好是用户所希望得到的处理后的结果。通过对待处理文本进行文本同态加密以及对输出文本进行文本同态解密,能够在对待处理文本中的待脱敏信息进行信息脱敏的情况下,使得NLP大模型能够准确成功地执行对应的NLP任务,从而保护了用户的重要信息不被泄露。
参照图10所示,图10是一个具体例子提供的应用于人工智能生成内容的文本处理方法的步骤流程图。在图10中,该文本处理方法可以包括但不限于步骤1001至步骤1014。
步骤1001:接收待处理文本。
步骤1002:对待处理文本进行文本信息识别得到多个第三候选文本信息,对各个第三候选文本信息进行信息类型识别得到各个第三候选文本信息的文本信息类型,根据预设的待脱敏信息类型在所有文本信息类型中确定与待脱敏信息类型相同的目标信息类型,将目标信息类型所对应的第三候选文本信息确定为待处理文本中的待脱敏信息。
本步骤中,待脱敏信息是指用户的重要信息,如果不对待脱敏信息进行脱敏处理,则容易导致用户的重要信息发生泄露的问题。因此,当接收到待处理文本之后,可以根据预设的待脱敏信息类型识别待处理文本中的待脱敏信息,以便于后续步骤可以对待处理文本中的待脱敏信息进行脱敏处理,避免泄露用户的重要信息。
步骤1003:获取待脱敏信息在待处理文本中的待脱敏位置。
步骤1004:根据待脱敏信息的信息类型在预设的脱敏信息库中获取与待脱敏信息对应的脱敏信息,根据待脱敏信息和脱敏信息生成脱敏映射表。
本步骤中,在得到了待处理文本中的待脱敏信息后,可以根据待脱敏信息和预设的脱敏信息库生成包括有与待脱敏信息对应的脱敏信息的脱敏映射表,以便于后续步骤可以根据脱敏映射表进行信息脱敏和信息还原,不仅有利于避免用户的重要信息发生泄露,还能够在用户对信息脱敏无感知的情况下实现用户与服务器中的NLP大模型的交互。
步骤1005:对于各个待脱敏位置的待脱敏信息,在脱敏映射表中查找对应的脱敏信息,并将待处理文本中各个待脱敏位置的待脱敏信息替换成对应的各个脱敏信息,得到脱敏文本。
本步骤中,当得到待脱敏信息在待处理文本中的待脱敏位置以及得到脱敏映射表之后,可以根据待脱敏位置和脱敏映射表将待处理文本中的待脱敏信息替换成脱敏信息,得到完成信息脱敏后的脱敏文本,使得在后续步骤中将信息脱敏后的脱敏文本发送给NLP大模型执行NLP任务时不会泄露用户的重要信息,实现对用户的重要信息进行保护的目的。
步骤1006:识别待脱敏信息在待处理文本中的第一上下文语义特征以及脱敏信息在脱敏文本中的第二上下文语义特征。
本步骤中,可以采用预训练的BERT模型或者其他常用的能够实现上下文语义特征提取的神经网络模型等常用的NLP模型,提取待脱敏信息在待处理文本中的第一上下文语义特征以及脱敏信息在脱敏文本中的第二上下文语义特征,此处不作具体限定。
步骤1007:对第一上下文语义特征和第二上下文语义特征进行特征比较,如果第一上下文语义特征和第二上下文语义特征相同,执行步骤1008,如果第一上下文语义特征和第二上下文语义特征不相同,重新执行步骤1004。
本步骤中,通过先判断第一上下文语义特征和第二上下文语义特征是否相同,在第一上下文语义特征和第二上下文语义特征相同的情况下再将脱敏文本发送给人工智能生成内容服务器以进行文本处理,不仅可以保证人工智能生成内容服务器能够对脱敏文本进行准确的文本处理以得到用户所需的输出文本,还有利于后续步骤对人工智能生成内容服务器所输出的输出文本进行信息还原的准确性。其中,当重新执行步骤1004时,会重新获取新的脱敏信息以及生成新的脱敏映射表,然后根据待脱敏位置和新的脱敏映射表将待处理文本中的待脱敏信息替换成新的脱敏信息得到新的脱敏文本,接着识别新的脱敏信息在新的脱敏文本中的新的第二上下文语义特征,直到第一上下文语义特征和新的第二上下文语义特征相同。
步骤1008:将脱敏文本发送给人工智能生成内容服务器,使得人工智能生成内容服务器对脱敏文本进行文本处理得到输出文本。
步骤1009:接收人工智能生成内容服务器发送的输出文本,判断输出文本和脱敏文本的语言类型是否相同,如果输出文本和脱敏文本的语言类型相同,执行步骤1010,如果输出文本和脱敏文本的语言类型不相同,执行步骤1012。
步骤1010:对输出文本进行文本信息识别得到多个第一候选文本信息,根据脱敏信息在所有第一候选文本信息中确定与脱敏信息相同的第一目标文本信息,将第一目标文本信息确定为输出文本中的待还原信息。
本步骤中,当输出文本的语言类型与脱敏文本的语言类型相同,说明用户的使用需求是对待处理文本进行摘要信息提取或者文本格式改写等不需要改变待处理文本的语言类型的NLP处理,在这种情况下,通过根据脱敏信息在输出文本中确定与脱敏信息相同的第一目标文本信息,并将该第一目标文本信息作为输出文本中的待还原信息,可以提高识别输出文本中的待还原信息的准确性,从而可以提高后续步骤对输出文本进行信息还原的准确性。
步骤1011:对于各个待还原位置的待还原信息,在脱敏映射表中查找对应的待脱敏信息,将输出文本中各个待还原位置的待还原信息替换成对应的各个待脱敏信息,得到目标文本,然后执行步骤1014。
本步骤中,通过根据待还原位置和脱敏映射表将输出文本中的待还原信息替换成原来的待脱敏信息,不仅能够实现对输出文本的信息还原,还能够在用户对信息脱敏及还原均无感知的情况下实现用户与服务器中的NLP大模型的交互,达到用户所需的对待处理文本的处理效果。
步骤1012:对输出文本进行文本信息识别得到多个第二候选文本信息,对脱敏信息进行语言翻译得到与输出文本的语言类型相同的脱敏翻译信息,根据脱敏翻译信息在所有第二候选文本信息中确定与脱敏翻译信息相同的第二目标文本信息,将第二目标文本信息确定为输出文本中的待还原信息。
本步骤中,当输出文本的语言类型与脱敏文本的语言类型不相同,说明用户的使用需求是对待处理文本进行翻译等需要改变待处理文本的语言类型的NLP处理,在这种情况下,通过先对脱敏信息进行语言翻译得到与输出文本的语言类型相同的脱敏翻译信息,然后根据脱敏翻译信息在输出文本中确定与脱敏信息相同的第二目标文本信息,并将该第二目标文本信息作为输出文本中的待还原信息,可以提高对翻译后的输出文本中待还原信息的识别准确性,从而可以提高后续步骤对翻译后的输出文本进行信息还原的准确性。
步骤1013:获取各个待还原位置的待还原信息所对应的脱敏翻译信息,根据各个待还原位置的待还原信息所对应的脱敏翻译信息在脱敏映射表中查找对应的待脱敏信息,对查找得到的待脱敏信息进行语言翻译得到与输出文本的语言类型相同的待脱敏翻译信息,将输出文本中各个待还原位置的待还原信息替换成对应的各个待脱敏翻译信息,得到目标文本,然后执行步骤1014。
本步骤中,通过根据待还原信息所对应的脱敏翻译信息在脱敏映射表中查找对应的待脱敏信息,再将待脱敏信息翻译成与输出文本的语言类型相同的待脱敏翻译信息,接着将输出文本中的待还原信息替换成待脱敏翻译信息,能够实现对翻译后的输出文本的信息还原,从而能够在用户对信息脱敏及还原均无感知的情况下实现用户与服务器中的NLP大模型的交互,达到用户所需的对待处理文本进行翻译的处理效果。
步骤1014:结束步骤流程。
通过上述步骤1001至步骤1014的文本处理方法,能够在使用人工智能生成内容服务器对脱敏文本进行文本处理时,人工智能生成内容服务器无法获取待处理文本中的原始内容,从而能够起到保护用户的重要信息不被泄露的作用;另外,在接收到人工智能生成内容服务器返回的输出文本后,能够通过脱敏信息识别输出文本中的待还原信息,并且能够根据待还原位置和脱敏映射表将输出文本中的待还原信息替换成待脱敏信息,因此能够实现对输出文本的信息还原,达到用户所需的对待处理文本的处理效果。而且,由于脱敏映射表是根据当次的待处理文本中的待脱敏信息而生成的,因此可以达到每次对不同的待处理文本都生成一个对应的脱敏映射表的效果,使得每次使用的脱敏映射表都不相同,从而可以降低脱敏文本被破解的概率,提高脱敏文本的安全性。
参照图11所示,图11是一个具体例子提供的应用于人工智能生成内容的文本处理方法的原理流程图。在待脱敏信息为命名实体的情况下,该文本处理方法可以包括但不限于步骤1110至步骤1150。
步骤1110:对用户提交的文本进行命名实体识别。
本步骤中,可以采用命名实体识别(Named Entities Recognition,NER)算法提取用户所提交的文本中的命名实体及其实体位置与实体类型。其中,命名实体是指文本中具有特定意义的实体,例如包括人名、地名、机构名、日期、时间、持续时间、数值等类型。
步骤1120:生成一次性实体替换表。
本步骤中,当在步骤1110中识别到了用户所提交的文本中的命名实体后,可以根据识别得到的命名实体生成一次性实体替换表,为后续步骤中的命名实体替换处理提供数据基础。其中,在生成一次性实体替换表时,可以先从与识别得到的命名实体同类型的所有实体词中随机选择一个目标实体词,使得该目标实体词在文本中的逻辑结构以及正负面情绪等均保持不变,接着,根据识别得到的命名实体和随机选择得到的目标实体词生成一次性实体替换表。需要说明的是,该一次性实体替换表是用于将识别得到的命名实体替换为目标实体词的命名实体替换表,该一次性实体替换表仅在本次的文本同态加密和文本同态解密过程中有效。
步骤1130:按照实体位置进行对位实体替换。
本步骤中,当在步骤1120中生成了一次性实体替换表之后,可以根据该一次性实体替换表对用户所提交的文本中的命名实体进行对位实体替换得到脱敏文本,然后将脱敏文本发送给部署于云端的NLP大模型执行对应的NLP任务。
步骤1140:对NLP大模型返回的输出文本进行实体定位。
本步骤中,当接收到NLP大模型返回的输出文本之后,可以对输出文本进行实体定位,以便于后续步骤中可以对定位后的目标实体词进行信息还原。其中,当NLP大模型对脱敏文本进行NLP处理后,得到的输出文本所包含的目标实体词的位置及数量均可能发生变化,因此需要对输出文本进行实体定位,识别出输出文本所包含的目标实体词及其在输出文本中的位置。
步骤1150:根据一次性实体替换表对输出文本中的目标实体词进行实体还原,得到目标文本。
本步骤中,当在步骤1140中对输出文本所包含的目标实体词进行了实体定位后,可以根据输出文本所包含的目标实体词和步骤1120中得到的一次性实体替换表进行反向查表,得到与目标实体词对应的原来的命名实体,然后将输出文本中的目标实体词替换回原来的命名实体,得到用户所需的目标文本。
通过上述步骤1110至步骤1150的文本处理方法,由于发送给NLP大模型的文本是将用户所提交的文本中的命名实体替换成目标实体词之后的脱敏文本,因此NLP大模型在对脱敏文本进行NLP处理时,无法获取用户所提交的文本中的原始内容,因此能够保护用户的重要信息不被泄露。另外,由于能够通过一次性实体替换表对输出文本中的目标实体词进行实体还原,因此能够在用户对信息脱敏及还原均无感知的情况下实现用户与NLP大模型的交互。此外,由于一次性实体替换表是根据用户当前提交的文本中的命名实体而生成的,因此可以达到每次对不同的文本都生成一个对应的一次性实体替换表的效果,使得每次使用的一次性实体替换表都不相同,从而可以降低脱敏文本被破解的概率,提高脱敏文本的安全性。
下面以一些实际例子说明本发明实施例的应用场景。
需要说明的是,本发明实施例提供的应用于人工智能生成内容的文本处理方法可以应用于摘要提取、文本格式转换、语言翻译等不同的应用场景,下面以摘要提取场景、文本格式转换场景和语言翻译场景为例进行说明。
场景一
本发明实施例提供的应用于人工智能生成内容的文本处理方法可以应用于摘要提取场景,例如,假设用户通过用户终端(例如电脑)使用部署于人工智能生成内容服务器的NLP大模型对待处理文本进行摘要信息的提取时,当用户终端接收到用户所输入的待处理文本后,用户终端先对待处理文本进行文本信息识别得到多个第三候选文本信息,然后对各个第三候选文本信息进行信息类型识别得到各个第三候选文本信息的文本信息类型,并根据预设的待脱敏信息类型在所有文本信息类型中确定与待脱敏信息类型相同的目标信息类型,接着将目标信息类型所对应的第三候选文本信息确定为待处理文本中的待脱敏信息,并获取待脱敏信息在待处理文本中的待脱敏位置。在识别得到待处理文本中的待脱敏信息后,用户终端根据待脱敏信息的信息类型在预设的脱敏信息库中获取与待脱敏信息对应的脱敏信息,然后根据待脱敏信息和脱敏信息生成包括有与待脱敏信息对应的脱敏信息的脱敏映射表。在得到脱敏映射表以及待脱敏信息在待处理文本中的待脱敏位置之后,对于各个待脱敏位置的待脱敏信息,用户终端在脱敏映射表中查找对应的脱敏信息,然后将待处理文本中各个待脱敏位置的待脱敏信息替换成对应的各个脱敏信息,得到脱敏文本。在得到脱敏文本之后,用户终端识别待脱敏信息在待处理文本中的第一上下文语义特征以及脱敏信息在脱敏文本中的第二上下文语义特征,并对第一上下文语义特征和第二上下文语义特征进行特征比较;当第一上下文语义特征和第二上下文语义特征不相同,根据待脱敏信息和脱敏信息库生成新的脱敏映射表,然后根据待脱敏位置和新的脱敏映射表将待处理文本中的待脱敏信息替换成新的脱敏信息,得到新的脱敏文本,再识别新的脱敏信息在新的脱敏文本中的新的第二上下文语义特征,并对第一上下文语义特征和新的上下文语义特征进行特征比较,直到第一上下文语义特征和新的第二上下文语义特征相同;当第一上下文语义特征和第二上下文语义特征相同,将脱敏文本发送给人工智能生成内容服务器。当接收到该脱敏文本,人工智能生成内容服务器根据用户的使用需求对脱敏文本进行摘要信息的提取得到输出文本,然后将输出文本发送给用户终端。用户终端在接收到该输出文本后,判断输出文本和脱敏文本的语言类型是否相同;由于用户对NLP大模型的使用需求是提取待处理文本中的摘要信息,因此输出文本的语言类型会与脱敏文本的语言类型相同,此时,用户终端先对输出文本进行文本信息识别得到多个第一候选文本信息,然后根据脱敏信息在所有第一候选文本信息中确定与脱敏信息相同的第一目标文本信息,接着将第一目标文本信息确定为输出文本中的待还原信息。在得到输出文本中的待还原信息之后,用户终端获取待还原信息在输出文本中的待还原位置,然后,对于各个待还原位置的待还原信息,用户终端先在脱敏映射表中查找对应的待脱敏信息,然后将输出文本中各个待还原位置的待还原信息替换成对应的各个待脱敏信息,得到目标文本。在得到目标文本后,用户终端向用户显示目标文本,用户通过该目标文本可以得到待处理文本的摘要信息,因此,能够在不泄露用户的重要信息的情况下,实现用户与NLP大模型之间的交互。
场景二
本发明实施例提供的应用于人工智能生成内容的文本处理方法还可以应用于文本格式转换场景,例如,假设用户通过用户终端(例如电脑)使用部署于人工智能生成内容服务器的NLP大模型将待处理文本的文本格式转换成公告通知类型的文本格式时,当用户终端接收到用户所输入的待处理文本后,用户终端先对待处理文本进行文本信息识别得到多个第三候选文本信息,然后对各个第三候选文本信息进行信息类型识别得到各个第三候选文本信息的文本信息类型,并根据预设的待脱敏信息类型在所有文本信息类型中确定与待脱敏信息类型相同的目标信息类型,接着将目标信息类型所对应的第三候选文本信息确定为待处理文本中的待脱敏信息,并获取待脱敏信息在待处理文本中的待脱敏位置。在识别得到待处理文本中的待脱敏信息后,用户终端根据待脱敏信息的信息类型在预设的脱敏信息库中获取与待脱敏信息对应的脱敏信息,然后根据待脱敏信息和脱敏信息生成包括有与待脱敏信息对应的脱敏信息的脱敏映射表。在得到脱敏映射表以及待脱敏信息在待处理文本中的待脱敏位置之后,对于各个待脱敏位置的待脱敏信息,用户终端在脱敏映射表中查找对应的脱敏信息,然后将待处理文本中各个待脱敏位置的待脱敏信息替换成对应的各个脱敏信息,得到脱敏文本。在得到脱敏文本之后,用户终端识别待脱敏信息在待处理文本中的第一上下文语义特征以及脱敏信息在脱敏文本中的第二上下文语义特征,并对第一上下文语义特征和第二上下文语义特征进行特征比较;当第一上下文语义特征和第二上下文语义特征不相同,根据待脱敏信息和脱敏信息库生成新的脱敏映射表,然后根据待脱敏位置和新的脱敏映射表将待处理文本中的待脱敏信息替换成新的脱敏信息,得到新的脱敏文本,再识别新的脱敏信息在新的脱敏文本中的新的第二上下文语义特征,并对第一上下文语义特征和新的上下文语义特征进行特征比较,直到第一上下文语义特征和新的第二上下文语义特征相同;当第一上下文语义特征和第二上下文语义特征相同,将脱敏文本发送给人工智能生成内容服务器。当接收到该脱敏文本,人工智能生成内容服务器根据用户的使用需求对脱敏文本进行文本格式转换,得到文本格式为公告通知类型的输出文本,然后将输出文本发送给用户终端。用户终端在接收到该输出文本后,判断输出文本和脱敏文本的语言类型是否相同;由于用户对NLP大模型的使用需求是进行文本格式转换,因此输出文本的语言类型会与脱敏文本的语言类型相同,此时,用户终端先对输出文本进行文本信息识别得到多个第一候选文本信息,然后根据脱敏信息在所有第一候选文本信息中确定与脱敏信息相同的第一目标文本信息,接着将第一目标文本信息确定为输出文本中的待还原信息。在得到输出文本中的待还原信息之后,用户终端获取待还原信息在输出文本中的待还原位置,然后,对于各个待还原位置的待还原信息,用户终端先在脱敏映射表中查找对应的待脱敏信息,然后将输出文本中各个待还原位置的待还原信息替换成对应的各个待脱敏信息,得到目标文本。在得到目标文本后,用户终端向用户显示目标文本,用户通过该目标文本可以得到将待处理文本的文本格式转换为公告通知类型后的文本,因此,能够在不泄露用户的重要信息的情况下,实现用户与NLP大模型之间的交互。
场景三
本发明实施例提供的应用于人工智能生成内容的文本处理方法还可以应用于语言翻译场景,例如,假设用户通过用户终端(例如电脑)使用部署于人工智能生成内容服务器的NLP大模型对待处理文本进行语言翻译时,当用户终端接收到用户所输入的待处理文本后,用户终端先对待处理文本进行文本信息识别得到多个第三候选文本信息,然后对各个第三候选文本信息进行信息类型识别得到各个第三候选文本信息的文本信息类型,并根据预设的待脱敏信息类型在所有文本信息类型中确定与待脱敏信息类型相同的目标信息类型,接着将目标信息类型所对应的第三候选文本信息确定为待处理文本中的待脱敏信息,并获取待脱敏信息在待处理文本中的待脱敏位置。在识别得到待处理文本中的待脱敏信息后,用户终端根据待脱敏信息的信息类型在预设的脱敏信息库中获取与待脱敏信息对应的脱敏信息,然后根据待脱敏信息和脱敏信息生成包括有与待脱敏信息对应的脱敏信息的脱敏映射表。在得到脱敏映射表以及待脱敏信息在待处理文本中的待脱敏位置之后,对于各个待脱敏位置的待脱敏信息,用户终端在脱敏映射表中查找对应的脱敏信息,然后将待处理文本中各个待脱敏位置的待脱敏信息替换成对应的各个脱敏信息,得到脱敏文本。在得到脱敏文本之后,用户终端识别待脱敏信息在待处理文本中的第一上下文语义特征以及脱敏信息在脱敏文本中的第二上下文语义特征,并对第一上下文语义特征和第二上下文语义特征进行特征比较;当第一上下文语义特征和第二上下文语义特征不相同,根据待脱敏信息和脱敏信息库生成新的脱敏映射表,然后根据待脱敏位置和新的脱敏映射表将待处理文本中的待脱敏信息替换成新的脱敏信息,得到新的脱敏文本,再识别新的脱敏信息在新的脱敏文本中的新的第二上下文语义特征,并对第一上下文语义特征和新的上下文语义特征进行特征比较,直到第一上下文语义特征和新的第二上下文语义特征相同;当第一上下文语义特征和第二上下文语义特征相同,将脱敏文本发送给人工智能生成内容服务器。当接收到该脱敏文本,人工智能生成内容服务器根据用户的使用需求对脱敏文本进行语言翻译得到输出文本,然后将输出文本发送给用户终端。用户终端在接收到该输出文本后,判断输出文本和脱敏文本的语言类型是否相同;由于用户对NLP大模型的使用需求是进行语言翻译,因此输出文本的语言类型会与脱敏文本的语言类型不相同,此时,用户终端先对输出文本进行文本信息识别得到多个第二候选文本信息,然后对脱敏信息进行语言翻译得到与输出文本的语言类型相同的脱敏翻译信息,接着根据脱敏翻译信息在所有第二候选文本信息中确定与脱敏翻译信息相同的第二目标文本信息,并将第二目标文本信息确定为输出文本中的待还原信息。在得到输出文本中的待还原信息之后,用户终端获取各个待还原位置的待还原信息所对应的脱敏翻译信息,并根据各个待还原位置的待还原信息所对应的脱敏翻译信息在脱敏映射表中查找对应的待脱敏信息,然后对查找得到的待脱敏信息进行语言翻译得到与输出文本的语言类型相同的待脱敏翻译信息,接着将输出文本中各个待还原位置的待还原信息替换成对应的各个待脱敏翻译信息,得到目标文本。在得到目标文本后,用户终端向用户显示目标文本,用户通过该目标文本可以得到将待处理文本进行语言翻译后的文本,因此,能够在不泄露用户的重要信息的情况下,实现用户与NLP大模型之间的交互。
可以理解的是,虽然上述各个流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本实施例中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时间执行完成,而是可以在不同的时间执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
参照图12,本发明实施例还公开了一种应用于人工智能生成内容的文本处理装置,该文本处理装置1200能够实现前面实施例中的应用于人工智能生成内容的文本处理方法,该文本处理装置1200:
文本接收单元1210,用于接收待处理文本;
映射表生成单元1220,用于根据预设的待脱敏信息类型识别待处理文本中的待脱敏信息,根据待脱敏信息和预设的脱敏信息库生成脱敏映射表,其中,脱敏映射表包括与待脱敏信息对应的脱敏信息;
第一信息替换单元1230,用于根据待脱敏信息和脱敏映射表将待处理文本中的待脱敏信息替换成脱敏信息,得到脱敏文本;
信息交互单元1240,用于将脱敏文本发送给人工智能生成内容服务器,接收人工智能生成内容服务器对脱敏文本进行文本处理后得到的输出文本;
第二信息替换单元1250,用于根据脱敏信息识别输出文本中的待还原信息,根据待还原信息和脱敏映射表将输出文本中的待还原信息替换成待脱敏信息,得到目标文本。
在一实施例中,映射表生成单元1220还用于:
根据待脱敏信息的信息类型在预设的脱敏信息库中获取与待脱敏信息对应的脱敏信息,其中,脱敏信息的信息类型与待脱敏信息的信息类型相同;
根据待脱敏信息和脱敏信息生成脱敏映射表,其中,脱敏映射表用于表征待脱敏信息和脱敏信息之间的映射关系。
在一实施例中,第一信息替换单元1230还用于:
获取待脱敏信息在待处理文本中的待脱敏位置;
对于各个待脱敏位置的待脱敏信息,在脱敏映射表中查找对应的脱敏信息;
将待处理文本中各个待脱敏位置的待脱敏信息替换成对应的各个脱敏信息,得到脱敏文本。
在一实施例中,第二信息替换单元1250还用于:
获取待还原信息在输出文本中的待还原位置;
对于各个待还原位置的待还原信息,在脱敏映射表中查找对应的待脱敏信息;
将输出文本中各个待还原位置的待还原信息替换成对应的各个待脱敏信息,得到目标文本。
在一实施例中,信息交互单元1240还用于:
识别待脱敏信息在待处理文本中的第一上下文语义特征;
识别脱敏信息在脱敏文本中的第二上下文语义特征;
对第一上下文语义特征和第二上下文语义特征进行特征比较;
当第一上下文语义特征和第二上下文语义特征相同,将脱敏文本发送给人工智能生成内容服务器。
在一实施例中,信息交互单元1240还用于:
当第一上下文语义特征和第二上下文语义特征不相同,根据待脱敏信息和脱敏信息库生成新的脱敏映射表,其中,新的脱敏映射表包括与待脱敏信息对应的新的脱敏信息;
根据待脱敏位置和新的脱敏映射表将待处理文本中的待脱敏信息替换成新的脱敏信息,得到新的脱敏文本;
识别新的脱敏信息在新的脱敏文本中的新的第二上下文语义特征;
对第一上下文语义特征和新的上下文语义特征进行特征比较,直到第一上下文语义特征和新的第二上下文语义特征相同。
在一实施例中,第一上下文语义特征包括第一逻辑结构特征和第一情绪特征,第二上下文语义特征包括第二逻辑结构特征和第二情绪特征;信息交互单元1240还用于:
当第一逻辑结构特征和第二逻辑结构特征相同,并且第一情绪特征和第二情绪特征相同,将脱敏文本发送给人工智能生成内容服务器。
在一实施例中,第二信息替换单元1250还用于:
当输出文本的语言类型与脱敏文本的语言类型相同,对输出文本进行文本信息识别,得到多个第一候选文本信息;
根据脱敏信息在所有第一候选文本信息中确定与脱敏信息相同的第一目标文本信息;
将第一目标文本信息确定为输出文本中的待还原信息。
在一实施例中,第二信息替换单元1250还用于:
当输出文本的语言类型与脱敏文本的语言类型不相同,对输出文本进行文本信息识别,得到多个第二候选文本信息;
对脱敏信息进行语言翻译得到与输出文本的语言类型相同的脱敏翻译信息;
根据脱敏翻译信息在所有第二候选文本信息中确定与脱敏翻译信息相同的第二目标文本信息;
将第二目标文本信息确定为输出文本中的待还原信息。
在一实施例中,第二信息替换单元1250还用于:
获取待还原信息在输出文本中的待还原位置;
获取各个待还原位置的待还原信息所对应的脱敏翻译信息;
根据各个待还原位置的待还原信息所对应的脱敏翻译信息在脱敏映射表中查找对应的待脱敏信息;
对查找得到的待脱敏信息进行语言翻译得到与输出文本的语言类型相同的待脱敏翻译信息;
将输出文本中各个待还原位置的待还原信息替换成对应的各个待脱敏翻译信息,得到目标文本。
在一实施例中,映射表生成单元1220还用于:
对待处理文本进行文本信息识别,得到多个第三候选文本信息;
对各个第三候选文本信息进行信息类型识别,得到各个第三候选文本信息的文本信息类型;
根据预设的待脱敏信息类型在所有文本信息类型中确定与待脱敏信息类型相同的目标信息类型;
将目标信息类型所对应的第三候选文本信息确定为待处理文本中的待脱敏信息。
需要说明的是,由于本实施例的文本处理装置1200能够实现如前面实施例的应用于人工智能生成内容的文本处理方法,因此本实施例的文本处理装置1200与前面实施例的文本处理方法,具有相同的技术原理以及相同的有益效果,为了避免内容重复,此处不再赘述。
参照图13,本发明实施例还公开了一种应用于人工智能生成内容的文本处理装置,该文本处理装置1300包括:
至少一个处理器1301;
至少一个存储器1302,用于存储至少一个程序;
当至少一个程序被至少一个处理器1301执行时,实现如前面实施例的应用于人工智能生成内容的文本处理方法。
本发明实施例还公开了一种计算机可读存储介质,其中存储有处理器可执行的计算机程序,处理器可执行的计算机程序被处理器执行时,用于实现如前面实施例的应用于人工智能生成内容的文本处理方法。
本发明实施例还公开了一种计算机程序产品,包括计算机程序或计算机指令,计算机程序或计算机指令存储在计算机可读存储介质中,文本处理装置的处理器从计算机可读存储介质读取计算机程序或计算机指令,处理器执行计算机程序或计算机指令,使得文本处理装置执行如前面实施例的应用于人工智能生成内容的文本处理方法。
本发明的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或装置不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或装置固有的其他步骤或单元。
应当理解,在本发明中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其他的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机、服务器或者网络装置等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
对于上述方法实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
Claims (15)
1.一种应用于人工智能生成内容的文本处理方法,其特征在于,包括以下步骤:
接收待处理文本;
根据预设的待脱敏信息类型识别所述待处理文本中的待脱敏信息,根据所述待脱敏信息和预设的脱敏信息库生成脱敏映射表,其中,所述脱敏映射表包括与所述待脱敏信息对应的脱敏信息;
根据所述待脱敏信息和所述脱敏映射表将所述待处理文本中的所述待脱敏信息替换成所述脱敏信息,得到脱敏文本;
将所述脱敏文本发送给人工智能生成内容服务器,接收所述人工智能生成内容服务器对所述脱敏文本进行文本处理后得到的输出文本;
根据所述脱敏信息识别所述输出文本中的待还原信息,根据所述待还原信息和所述脱敏映射表将所述输出文本中的所述待还原信息替换成所述待脱敏信息,得到目标文本。
2.根据权利要求1所述的方法,其特征在于,所述根据所述待脱敏信息和预设的脱敏信息库生成脱敏映射表,包括:
根据所述待脱敏信息的信息类型在预设的脱敏信息库中获取与所述待脱敏信息对应的脱敏信息,其中,所述脱敏信息的信息类型与所述待脱敏信息的信息类型相同;
根据所述待脱敏信息和所述脱敏信息生成所述脱敏映射表,其中,所述脱敏映射表用于表征所述待脱敏信息和所述脱敏信息之间的映射关系。
3.根据权利要求1所述的方法,其特征在于,所述根据所述待脱敏信息和所述脱敏映射表将所述待处理文本中的所述待脱敏信息替换成所述脱敏信息,得到脱敏文本,包括:
获取所述待脱敏信息在所述待处理文本中的待脱敏位置;
对于各个所述待脱敏位置的所述待脱敏信息,在所述脱敏映射表中查找对应的所述脱敏信息;
将所述待处理文本中各个所述待脱敏位置的所述待脱敏信息替换成对应的各个所述脱敏信息,得到脱敏文本。
4.根据权利要求1所述的方法,其特征在于,所述根据所述待还原信息和所述脱敏映射表将所述输出文本中的所述待还原信息替换成所述待脱敏信息,得到目标文本,包括:
获取所述待还原信息在所述输出文本中的待还原位置;
对于各个所述待还原位置的所述待还原信息,在所述脱敏映射表中查找对应的所述待脱敏信息;
将所述输出文本中各个所述待还原位置的所述待还原信息替换成对应的各个所述待脱敏信息,得到目标文本。
5.根据权利要求1所述的方法,其特征在于,所述将所述脱敏文本发送给人工智能生成内容服务器,包括:
识别所述待脱敏信息在所述待处理文本中的第一上下文语义特征;
识别所述脱敏信息在所述脱敏文本中的第二上下文语义特征;
对所述第一上下文语义特征和所述第二上下文语义特征进行特征比较;
当所述第一上下文语义特征和所述第二上下文语义特征相同,将所述脱敏文本发送给人工智能生成内容服务器。
6.根据权利要求5所述的方法,其特征在于,所述将所述脱敏文本发送给人工智能生成内容服务器,还包括:
当所述第一上下文语义特征和所述第二上下文语义特征不相同,根据所述待脱敏信息和所述脱敏信息库生成新的脱敏映射表,其中,所述新的脱敏映射表包括与所述待脱敏信息对应的新的脱敏信息;
根据所述待脱敏位置和所述新的脱敏映射表将所述待处理文本中的所述待脱敏信息替换成所述新的脱敏信息,得到新的脱敏文本;
识别所述新的脱敏信息在所述新的脱敏文本中的新的第二上下文语义特征;
对所述第一上下文语义特征和所述新的上下文语义特征进行特征比较,直到所述第一上下文语义特征和所述新的第二上下文语义特征相同。
7.根据权利要求5所述的方法,其特征在于,所述第一上下文语义特征包括第一逻辑结构特征和第一情绪特征,所述第二上下文语义特征包括第二逻辑结构特征和第二情绪特征;
所述当所述第一上下文语义特征和所述第二上下文语义特征相同,将所述脱敏文本发送给人工智能生成内容服务器,包括:
当所述第一逻辑结构特征和所述第二逻辑结构特征相同,并且所述第一情绪特征和所述第二情绪特征相同,将所述脱敏文本发送给人工智能生成内容服务器。
8.根据权利要求1所述的方法,其特征在于,所述根据所述脱敏信息识别所述输出文本中的待还原信息,包括:
当所述输出文本的语言类型与所述脱敏文本的语言类型相同,对所述输出文本进行文本信息识别,得到多个第一候选文本信息;
根据所述脱敏信息在所有所述第一候选文本信息中确定与所述脱敏信息相同的第一目标文本信息;
将所述第一目标文本信息确定为所述输出文本中的待还原信息。
9.根据权利要求1所述的方法,其特征在于,所述根据所述脱敏信息识别所述输出文本中的待还原信息,包括:
当所述输出文本的语言类型与所述脱敏文本的语言类型不相同,对所述输出文本进行文本信息识别,得到多个第二候选文本信息;
对所述脱敏信息进行语言翻译得到与所述输出文本的语言类型相同的脱敏翻译信息;
根据所述脱敏翻译信息在所有所述第二候选文本信息中确定与所述脱敏翻译信息相同的第二目标文本信息;
将所述第二目标文本信息确定为所述输出文本中的待还原信息。
10.根据权利要求9所述的方法,其特征在于,所述根据所述待还原信息和所述脱敏映射表将所述输出文本中的所述待还原信息替换成所述待脱敏信息,得到目标文本,包括:
获取所述待还原信息在所述输出文本中的待还原位置;
获取各个所述待还原位置的所述待还原信息所对应的所述脱敏翻译信息;
根据各个所述待还原位置的所述待还原信息所对应的所述脱敏翻译信息在所述脱敏映射表中查找对应的所述待脱敏信息;
对查找得到的所述待脱敏信息进行语言翻译得到与所述输出文本的语言类型相同的待脱敏翻译信息;
将所述输出文本中各个所述待还原位置的所述待还原信息替换成对应的各个所述待脱敏翻译信息,得到目标文本。
11.根据权利要求1所述的方法,其特征在于,所述根据预设的待脱敏信息类型识别所述待处理文本中的待脱敏信息,包括:
对所述待处理文本进行文本信息识别,得到多个第三候选文本信息;
对各个所述第三候选文本信息进行信息类型识别,得到各个所述第三候选文本信息的文本信息类型;
根据预设的待脱敏信息类型在所有所述文本信息类型中确定与所述待脱敏信息类型相同的目标信息类型;
将所述目标信息类型所对应的所述第三候选文本信息确定为所述待处理文本中的待脱敏信息。
12.一种应用于人工智能生成内容的文本处理装置,其特征在于,包括:
文本接收单元,用于接收待处理文本;
映射表生成单元,用于根据预设的待脱敏信息类型识别所述待处理文本中的待脱敏信息,根据所述待脱敏信息和预设的脱敏信息库生成脱敏映射表,其中,所述脱敏映射表包括与所述待脱敏信息对应的脱敏信息;
第一信息替换单元,用于根据所述待脱敏信息和所述脱敏映射表将所述待处理文本中的所述待脱敏信息替换成所述脱敏信息,得到脱敏文本;
信息交互单元,用于将所述脱敏文本发送给人工智能生成内容服务器,接收所述人工智能生成内容服务器对所述脱敏文本进行文本处理后得到的输出文本;
第二信息替换单元,用于根据所述脱敏信息识别所述输出文本中的待还原信息,根据所述待还原信息和所述脱敏映射表将所述输出文本中的所述待还原信息替换成所述待脱敏信息,得到目标文本。
13.一种应用于人工智能生成内容的文本处理装置,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当至少一个所述程序被至少一个所述处理器执行时实现如权利要求1至11任意一项所述的应用于人工智能生成内容的文本处理方法。
14.一种计算机可读存储介质,其特征在于,其中存储有处理器可执行的计算机程序,所述处理器可执行的计算机程序被处理器执行时用于实现如权利要求1至11任意一项所述的应用于人工智能生成内容的文本处理方法。
15.一种计算机程序产品,包括计算机程序或计算机指令,其特征在于,所述计算机程序或所述计算机指令存储在计算机可读存储介质中,文本处理装置的处理器从所述计算机可读存储介质读取所述计算机程序或所述计算机指令,所述处理器执行所述计算机程序或所述计算机指令,使得所述文本处理装置执行如权利要求1至11任意一项所述的应用于人工智能生成内容的文本处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310161988.9A CN116186771A (zh) | 2023-02-23 | 2023-02-23 | 应用于人工智能生成内容的文本处理方法、装置及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310161988.9A CN116186771A (zh) | 2023-02-23 | 2023-02-23 | 应用于人工智能生成内容的文本处理方法、装置及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116186771A true CN116186771A (zh) | 2023-05-30 |
Family
ID=86440096
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310161988.9A Pending CN116186771A (zh) | 2023-02-23 | 2023-02-23 | 应用于人工智能生成内容的文本处理方法、装置及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116186771A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117290890A (zh) * | 2023-11-24 | 2023-12-26 | 浙江口碑网络技术有限公司 | 一种安全风险管控方法、装置、电子设备及存储介质 |
-
2023
- 2023-02-23 CN CN202310161988.9A patent/CN116186771A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117290890A (zh) * | 2023-11-24 | 2023-12-26 | 浙江口碑网络技术有限公司 | 一种安全风险管控方法、装置、电子设备及存储介质 |
CN117290890B (zh) * | 2023-11-24 | 2024-05-10 | 浙江口碑网络技术有限公司 | 一种安全风险管控方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117521675A (zh) | 基于大语言模型的信息处理方法、装置、设备及存储介质 | |
CN110232920B (zh) | 语音处理方法和装置 | |
CN116824278A (zh) | 图像内容分析方法、装置、设备和介质 | |
Angelov et al. | E-commerce distributed chatbot system | |
CN117332072B (zh) | 对话处理、语音摘要提取以及目标对话模型训练方法 | |
CN116186771A (zh) | 应用于人工智能生成内容的文本处理方法、装置及介质 | |
CN115803734A (zh) | 使用动作解释的自然语言丰富 | |
CN115374259A (zh) | 一种问答数据挖掘方法、装置及电子设备 | |
CN118038996A (zh) | 基因组学问答处理方法、系统、电子设备及存储介质 | |
CN117312518A (zh) | 一种智能问答方法、装置、计算机设备及存储介质 | |
CN117349515A (zh) | 搜索处理方法、电子设备和存储介质 | |
CN116701604A (zh) | 问答语料库的构建方法和装置、问答方法、设备及介质 | |
CN116401689A (zh) | 文本处理模型的训练方法、文本处理方法、装置及介质 | |
CN115129849A (zh) | 题目表示的获取方法、设备以及计算机可读存储介质 | |
CN113609275A (zh) | 信息处理方法、装置、设备及存储介质 | |
CN112328871A (zh) | 一种基于rpa模块的回复生成方法、装置、设备及存储介质 | |
CN115408500A (zh) | 问答一致性的评估方法、装置、电子设备及介质 | |
CN112560508A (zh) | 对话处理方法、装置及设备 | |
CN117648079B (zh) | 任务处理、代码补全、代码问答及任务处理模型训练方法 | |
CN117648986B (zh) | 任务处理和代码处理方法、计算设备、介质和程序产品 | |
CN118036057B (zh) | 一种保护用户隐私的方法、系统、存储介质及程序产品 | |
EP4078426B1 (en) | Analyzing graphical user interfaces to facilitate automatic interaction | |
CN117390164A (zh) | 自动应答处理方法、装置、电子设备及介质 | |
Karekar et al. | Bhagavad Geeta Based ChatBot | |
WO2024194418A1 (en) | Applying classifiers to messages between users and machine learning models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40086721 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |