CN110334343B - 一种合同中个人隐私信息抽取的方法和系统 - Google Patents

一种合同中个人隐私信息抽取的方法和系统 Download PDF

Info

Publication number
CN110334343B
CN110334343B CN201910507192.8A CN201910507192A CN110334343B CN 110334343 B CN110334343 B CN 110334343B CN 201910507192 A CN201910507192 A CN 201910507192A CN 110334343 B CN110334343 B CN 110334343B
Authority
CN
China
Prior art keywords
data
personal privacy
word
seed
text corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910507192.8A
Other languages
English (en)
Other versions
CN110334343A (zh
Inventor
张林江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Advanced New Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Advanced New Technologies Co Ltd filed Critical Advanced New Technologies Co Ltd
Priority to CN201910507192.8A priority Critical patent/CN110334343B/zh
Publication of CN110334343A publication Critical patent/CN110334343A/zh
Application granted granted Critical
Publication of CN110334343B publication Critical patent/CN110334343B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及一种从合同中抽取个人隐私信息的方法,其特征在于,所述方法包括:从各种数据源收集NLP文本语料;对所收集的NLP文本语料进行数据加工处理以生成经规范化的NLP文本语料;将所述经规范化的NLP文本语料用于对词向量语言模型进行训练以获得词向量模型;获取个人隐私种子数据;将所述个人隐私种子数据输入到所述词向量模型中以预测与所述个人隐私种子数据相关联的相似词;基于所预测的相似词对所述合同执行数据抽取以识别出与所述相似词相关联的个人隐私数据。

Description

一种合同中个人隐私信息抽取的方法和系统
技术领域
本公开涉及数据分析领域,特别是一种从合同中抽取个人隐私信息的技术。
背景技术
当今社会的企业、个人、组织、机构、政府等主体之间的业务往来通常都离不开各种合同的签订以明确双方的权利和义务。在所述合同中,很多合同都包括个人隐私数据。目前这些信息散落在合同的各个角落,难以进行汇总。而传统的个人隐私数据的收集主要通过人力进行人工搜索和抽取。这种人工抽取效率低下,特别是当有大量合同同时被签署时,所述个人隐私数据的人工抽取汇总可能要花费数月时间,而且难以避免遗漏和错误。
因此,存在一种希望能够通过将个人隐私数据的抽取从手动执行转换成自动执行以大大节省劳动力和时间的需求。
发明内容
本公开涉及一种从合同中抽取个人隐私信息的技术。通过所述技术,可以将原本手动执行的数据抽取转换成由程序来自动抽取。所述技术不仅大大节省了人力和时间,而且,也提高了数据抽取的效率和准确性。
根据本公开的第一方面,提供了一种从合同中抽取个人隐私信息的方法,其特征在于,所述方法包括:从各种数据源收集NLP文本语料;对所收集的NLP文本语料进行数据加工处理以生成经规范化的NLP文本语料;将所述经规范化的NLP文本语料用于对词向量语言模型进行训练以获得词向量模型;获取个人隐私种子数据;将所述个人隐私种子数据输入到所述词向量模型中以预测与所述个人隐私种子数据相关联的相似词;基于所预测的相似词对所述合同执行数据抽取以识别出与所述相似词相关联的个人隐私数据。
根据本公开的第二方面,提供了一种从合同中抽取个人隐私信息的计算系统,其特征在于,所述计算系统包括:NLP文本语料模块,被配置用于从各种数据源收集NLP文本语料;数据加工处理模块,被配置用于对所述NLP文本语料模块所收集的所述NLP文本语料进行加工处理以生成规范化的NLP文本语料;个人隐私种子模块,被配置用于获取个人隐私种子数据;词向量语言模型,被配置用于通过将所述经规范化的NLP文本语料用于对所述词向量语言模型进行训练以获得词向量模型,并且将所述个人隐私种子数据输入到所述词向量模型中以预测与所述个人隐私种子数据相关联的相似词;数据抽取模块,被配置用于基于所预测的相似词对所述合同执行数据抽取以识别出与所述相似词相关联的个人隐私数据。
附图说明
为了描述可获得本发明的上述和其它优点和特征的方式,将通过参考附图中示出的本发明的具体实施例来呈现以上简要描述的本发明的更具体描述。可以理解,这些附图只描绘了本发明的各典型实施例,并且因此不被认为是对其范围的限制,将通过使用附图并利用附加特征和细节来描述和解释本发明,在附图中:
图1示出根据本公开的一个实施例的一种个人隐私信息抽取的基本流程图。
图2示出根据本公开的一个实施例的一种实现个人隐私信息抽取的示例环境。
图3是在以种子“姓名”输入word2vec之后,由word2vec所生成的相似词及其相似度的表格。
具体实施方式
在开始评述本公开的方案之前,先了解一下传统的人工抽取隐私信息的方案以加深技术人员对现有技术水平的理解。
如前所述,合同通常都包括个人隐私数据。而且,这些隐私数据通常涉及非常多的内容,包括基本隐私、设备隐私、亲戚隐私等等。这些隐私信息通常都是需要被收集并存档以便在需要时候进行检索和调用。但同时,对于同样的隐私数据在各种不同的合同中的叫法却又不尽相同。比如,同样的“手机号”,在不同的合同中可以分别被叫成“手机号码”、“移动电话号码”以及“工作手机”等等各种不同的叫法。而“姓名”也可以被叫做“名称”、“名字”,甚至“姓”和“名”等等各种叫法。这就可能出现在这个合同中可以基于“手机号码”这个关键字来抽取出用户的手机号码,但换到另一个合同中却无法使用该关键字抽取出手机号码的情况,因为在另一个合同中,用户的手机号码被叫做“移动电话号码”。这种针对同一个人隐私数据存在多种不同叫法的问题导致使用传统的计算设备来执行个人隐私数据的抽取可能存在大量遗漏的情况,因此,目前要解决个人隐私数据抽取问题还是主要依靠人工抽取,但要从众多合同中人工提取出真实的个人隐私数据是一项工作量非常巨大的任务。这种人工抽取一方面消耗了大量的人力资源,另一方面得到的个人隐私数据的数据量少、准确性低且缺失性很大。
为了尽可能多地获取个人隐私数据,企业的相关部门需要安排很多人从一份份合同中一个一个地人工筛选出个人隐私数据,效率特别低下。而且还需要另外安排专门的人员对抽取出的个人隐私数据进行核对,这又产生更多的资源浪费。例如,在传统的数据抽取技术中,业务人员首先根据合同所涉及的业务知识罗列出需要抽取的相关个人隐私数据类型,然后通过这些类型数据去尽心地从众多合同中进行个人隐私信息的检索。特别是,在检索中,还需要基于业务人员的经验来识别出相关数据类型的可能的变体。但是,众所周知,检索中的变体识别无法实现穷举,比如个人隐私信息“邮箱”,有可能变成“邮件地址”、“email”、“e-mail”等不同形式的变体。要靠人力把所有变体都找出来几乎是一项不可能完成的任务。这样,业务人员在识别隐私数据的时候,尽管可能花费了大量精力,但通常还是会漏掉很大一部分,使得准确率大幅减低。
为此,要实现对合同中的个人隐私数据的精确和快速抽取,还是要回到利用计算机设备实现的方案中。
另一方面,随着计算机的软硬件技术的迅速发展,计算机也变得越来越“聪明”,特别是近些年来基于机器学习的人工智能技术的发展越来越成熟,使得原先只能通过人类的经验来解决的复杂问题,现在也可以利用诸如机器学习模型之类的技术手段来解决。本公开的个人隐私数据的抽取方案就是基于人工智能中的深度学习、自然语言处理(NLP)以及word2vec模型等技术来实现的。
为使本公开的目的、技术方案及优点更加清楚明白,以下参照附图以及实施例,对本公开的方案作进一步详细说明。在所述实施例中,为了方便说明,以法务合同作为所述合同的示例。这是因为在法务合同中,通常存在很多个人隐私信息,并且由于法务合同的多样性且缺乏统一的范本,因此,同样的所述个人隐私信息可能存在不同的变体。但应该理解,其它类型的合同或其他文档同样可以使用本公开所述的方案来实施个人隐私信息的抽取。
如图1所示,示出了根据本公开的一个实施例的一种个人隐私信息抽取方案的基本流程图。
首先,在步骤110,收集大量NLP文本语料以存储到NLP语料库中。NLP是自然语言处理的缩写。自然语言处理(即实现人机间自然语言通信)或实现自然语言理解和自然语言生成是十分困难的。造成困难的根本原因是自然语言文本和对话的各个层次上广泛存在的各种各样的歧义性或多义性。而合同中各种类型的个人隐私数据的不同叫法其实就是典型的歧义性或多义性的体现。为了解决所述歧义性或多义性,首先需要构建NLP语料库。
语料库是指经科学取样和加工的大规模电子文本库,包含大规模的真实文本数据。它是自然语言处理的基础资源。可以通过各种途径,例如,可以从互联网上的新闻、法律、条款、微博、知乎、线上图书馆等等网络资源,或者电子化的期刊、出版物、论文、杂志等电子资料之类的各种数据源,来收集NLP语料库所需的语料数据。可以理解如果在构建NLP语料库时的数据源越是丰富、越是有针对性,则所构建的语料库的质量就越好。例如,在构建针对法务合同的NLP语料库时,技术人员可以有倾向性地多从诸如政府网站、律师机构网站、法院网站、法律法规图书馆等专业网站来收集语料以提高NLP语料库的质量。
另一方面,在现有技术中,已经存在诸如NLTK(Natural language Toolkit)、Standford NLP之类的工具来帮助人们实现NLP语料库的收集、整理和构建,并且在互联网上也有许多公司公开发布了一些专业的语料库,例如国家语委现代汉语语料库(http://corpus.zhonghuayuwen.org/index.aspx)、《人民日报》标注语料库(https://blog.csdn.net/eaglet/article/details/1778995)等等。因此,技术人员可以根据需要来选择是直接从相关网站下载现有的语料库来使用,还是自行构建自己的语料库。这些语料工具和资源都是人们熟知的,因此,关于NLP语料库的收集和构建的具体过程不再在此累述。
在收集和构建语料库之前、之后或同时,在步骤120,可以从已经数字化的众多合同中提取个人隐私种子数据,所述个人隐私种子数据包含了最常见的个人隐私数据。也就是说,可以从众多现有的合同中寻找具有代表性的关键字,例如用户的姓名、手机号码、地址、性别等等。合同中的包含这些关键字的数据通常都意味着其是个人隐私数据。因此,可以将所述关键字作为种子来衍生出许多变体。例如,如果提取出“姓名”关键字作为种子,则从“姓名”可以衍生出诸如“名称”、“名字”,“姓”和“名”等各种变体。这种种子衍生过程在本公开中是利用后续步骤中的对word2vec模型进行训练以生成包含众多相关联的变体的词向量模型来实现的。根据业务汇总经验,在合同中可以作为种子的常用的个人隐私数据大致包括身份证、姓名、年龄、性别、地址、手机号码等等大约三十多种,这些个人隐私种子数据可以通过人工输入或者事先存储在个人隐私种子库中,以用于在word2vec模型中的训练。应该理解所述示例的个人隐私种子数据仅仅是说明性的,技术人员可以根据自身需要结合合同的特点来选择自己的种子。
还应该理解,在一些情况中,并不需要专门的个人隐私种子数据提取步骤。例如,在一个实施例中,如果企业或者用户经常处理的合同都是同一类型的合同,则所述合同在很多情况下都是基于相同或类似的范本模板来制定的,例如房地产交易、车险等合同都是采用政府制定的统一格式范本。其中包含的个人隐私数据的叫法通常都是相同的格式,例如采用标准范本的法务合同签订的上百上千的法务合同中都是统一采用“姓名”、“手机号码”、“身份证号”之类的叫法来标识相应的个人隐私信息。这样,所述个人隐私种子数据实际上可以适用于绝大部分的采用这种标准范本所创建的法务合同。因此,技术人员可以直接使用先前个人隐私数据抽取过程中已经创建的个人隐私种子数据,而无需再执行专门的提取步骤。所述先前创建的个人隐私种子数据可以被存储在个人隐私种子数据库中,或者从提供合同范本的相关网站、企业等远程下载。
当在NLP语料库中收集到足够的NLP文本语料之后,在步骤130对所述NLP文本语料进行数据加工处理。真实语料需要经过加工(分析和处理),才能成为有用的资源。所述数据加工处理可以包括分词、数据清洗、停用词处理、大写变小写、简繁体转换、全角转半角以及其他各种规范化处理,以生成经规范化的NLP文本语料。
具体而言,首先,对NLP文本语料库中的文本语料进行分词处理。分词处理是自然语言处理中一种比较基础的模块,通过将一句语句分成多组词,可以达到由计算机自动识别语句含义的效果。现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。而常用的分词工具则有CRF++,CRFsuite,SGD,Wapiti等工具。这些分词方法和分词工具已经在自然语言处理领域被广泛应用,技术人员可以根据需要来选择合适的方法和工具对NLP文本语料库中的文本语料进行分词。对此,不再对它们进行累述。
在一个较佳实施例中,可以在分词的过程中同时统计词频,即所分出的一个词在语料中的出现次数。在统计完词频后可以将分词后的结果中的低频词去掉,以减少独立词的个数。这是因为在后续的word2vec运行过程中,占用内存的大小是由独立词的个数决定的,所以,低频词的去除有助于大大减少后续word2vec的工作量。
在分词完成后,可以执行数据清洗处理,即对经分词后的语料数据的重新审查和校验的过程,其目的在于删除重复或不完整的信息、纠正存在的错误,并提供数据一致性。如前所述,NLP文本语料库中的文本语料数据是从诸如互联网上的新闻、法律、条款、微博、知乎、线上图书馆等等网络资源,或者电子化的期刊、出版物、论文、杂志等电子资料之类的各种数据源采集的。这样就免不了有的数据是错误数据(例如不完整的数据)、有的数据相互之间有冲突,还有的数据存在重复。这些错误的、有冲突的或重复的数据显然是数据处理中不想要的垃圾数据,因此,它们通常被称为“脏数据”。在这个数据清洗处理中主要是按照一定的规则把“脏数据”“洗掉”,即过滤掉那些不符合要求的数据,以减少资源浪费和提高后续处理的效率。在数据清洗领域中常用的工具有DataWrangler、Google Refine等等,技术人员可以根据需要选择合适的工具对语料进行数据清洗。
接着,执行停用词处理。停用词处理是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词。这些应该被过滤的字和词包括语句中没有什么实际含义的功能词,例如英文中的“the”、“is”、“at”以及中文中的“的”、“吗”和“啊”等等。所述应该被过滤的字和词还包括词汇词,例如“Web”一词几乎在每个网站上均会出现,对于这样的词搜索引擎无法保证能够给出真正相关的搜索结果。因此,去除这些词可以大大缩小搜索范围,同时还能提高搜索的效率。上述这些被过滤的字和词被统称为“停用词”。在停用词处理中主要借助于“停用词表”。例如针对中文合同中的个人隐私信息的提取,所构建的停用词表可以包含英文字符、数学符号、标点符号、语气词、以及使用频率特别高的无用词(例如“在”、“你”、“我”等)等等。技术人员可以根据实际情况对所述停用词表进行修改以满足自身需求。
除了上述多个主要的数据加工处理步骤之外,所述数据加工处理还可以包括例如大写变小写处理、简繁体转换处理、全角转半角处理以及其他各种规范化处理。技术人员可以结合需要被处理的合同中的个人隐私数据的特点来选择合适的数据加工步骤来处理NPL文本语料以形成经规范化的NLP文本语料。
应该理解,尽管在上面的内容中,描述了收集NLP语料并对其进行诸如分词、数据清洗、停用词处理等多个数据加工步骤,但所述收集和数据加工步骤中的一个、多个或全部并不都是必须的。例如,在一个实施例中,如果企业或者用户经常处理的合同都是同一类型的合同(例如法务合同),则所述合同在很多情况下都是基于相同或类似的范本模板来制定的。这样,如果可以例如通过网络从其它可信来源直接获得针对该法务合同范本的经加工的NLP语料,则所述的步骤110和130都无需再重复执行。比如,在专业的提供合同范本的可信网站中,可能已经为该法务合同范本创建了相应的NLP语料以方便用户下载和使用。或者,为企业提供法务合同服务的部门或机构也可以专门维护这样的NLP语料库以供用户构建自己的词向量模型。
尤其是在采用政府规定的格式条款的诸如房地产交易、车险之类的格式条款合同的情况下,所述NLP语料库具有极强的通用性。对相同格式条款合同的个人隐私信息提取可以直接使用通用的NLP语料库,或者稍作修改就能满足用户的需求。
在通过数据加工处理生成经规范化的NLP文本语料后,在步骤140,利用在步骤130的经数据加工处理后的规范化的NLP文本语料,对一个词向量语言模型进行训练以获得词向量模型。在自然语言处理中,为了使计算机能够处理自然语言,首先需要对自然语言进行建模。常用的经典自然语言模型包括word2vec、ELMo以及BERT等等。为了清楚期间,本公开以最常用的word2vec作为词向量语言模型的一个示例来进行说明,但应该理解,其它的语言模型,例如ELMo、BERT等等,也可以被用于通过利用NLP文本语料的训练来构建词向量模型。
具体而言,word2vec这一款用于训练词向量的软件工具。word2vec可以根据给定的语料库,通过优化后的训练模型快速有效地将一个词语表达成向量形式,为自然语言处理领域的应用研究提供了新的工具。词向量的意思就是通过一个数字组成的向量来表示一个词,其中来自词汇表的单词或短语被映射到实数的向量。从概念上讲,它涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。如果考虑到词和词之间的联系,就要考虑词的共现问题。最简单的是使用基于文档的向量表示方法来给出词向量。基本思想也很简单,假设有n篇文档,如果某些词经常成对出现在多篇相同的文档中,我们则认为这两个词联系非常紧密。对于文档集合,可以将文档按顺序编号(i=0…n-1),将文档编号作为向量索引,这样就有一个n维的向量。当一个词出现在某个文档i中时,向量i处值为1,这样就可以通过一个类似[0,1,0,…,1,0]形式的向量表示一个词。因此,基于文档的词向量能够很好的表示词之间的关系。而在完成word2vec模型的训练之后,获得的词向量模型将每个词映射到如上所述的一个向量,以表示词对词之间的关系。
在一般情况下,在获得经规范化的NLP文本语料之后,可以直接使用NLP文本语料训练word2vec模型,或者也可以利用诸如gensim之类的工具包来执行对word2vec的训练。word2vec模型的训练已经被广泛应用于诸如机器翻译、语音识别以及信息检索等领域中。因此,不再在此详述。在所述训练完成后,就可以获得一个相应的词向量模型。
然后,在步骤150,将在步骤120中提取的个人隐私种子数据输入到word2vec的词向量模型中以预测与个人隐私种子数据相关联的相似词来形成个人隐私相似词库。所述词向量模型是一种将单词转换成向量形式的常用工具,利用该工具可以把对文本内容的处理简化为向量空间中的向量运算,而计算出的向量空间上的相似度表示了文本语义上的相似度。换句话说,利用所述word2vec的词向量模型,技术人员只要提供一个标准的个人隐私种子,所述词向量模型就能够根据经NLP文本语料训练后的词对词之间的关系预测出与所输入的个人隐私种子数据相关联的一系列潜在的相似词及其相似度,这些相似词基本覆盖了该种子所有可能的变体(但从未出现在任何所收集的NLP语料中的变体可能无法覆盖到)。例如,如图3所示,该附图示出了一个将个人隐私种子数据“姓名”输入到word2vec的词向量模型之后,由word2vec的词向量模型所生成的与该种子相关的相似词及其相似度的表格。如表格所示,“真名”具有最高的相似度,也即其与种子“姓名”的关系最为密切。当合同中出现“真名”时,其表示的内容极有可能就是“姓名”。这样,通过一个种子“姓名”就可以构建出如图3所示的17个相关联的潜在个人隐私数据项。需要注意的是,图3中的表格中所示出的相似词和其相似度仅仅是出于说明的目的示出,实际上,出于篇幅考虑,相似度在最后的“昵称”之下的其它相似词并没有被示出。在一些实施例中,技术人员可以为相似度设定一个阈值,即仅仅将具有大于等于该阈值的相似度的相似词作为预测结果输出。低于该阈值的相似词由于与该种子之间的关系不紧密而被过滤掉。这样可以避免将不太相似的词过度纳入到个人隐私数据的范围中,减轻了处理的负担并提高了效率。
而当整个个人隐私种子数据,如前所述,例如大约在30个词语左右,都被输入到词向量模型后,预测出的结果可以包含例如大约500个具有紧密相似度的相似词。这些相似词基本包含了个人隐私种子数据的所有的变体。显然,这比传统的人工地一个一个输入个人隐私相似词的方式要来得方便快捷得多。
最后,在完成了个人隐私相似词库的构建之后,在步骤170,基于所述个人隐私相似词库中的每个相似词对各种法务合同进行数据抽取,识别出与所述相似词相关联的个人隐私数据。具体而言,就是以相似词为关键字对法务合同的文本进行检索,进而提取出与该关键字相关的内容。由于所述个人隐私相似词库已经包含了法务合同中的几乎所有出现过的相关联的个人隐私相似词,因此,利用所述个人隐私相似词库进行数据抽取可以自动从各种法务合同中最大程度地识别出各种个人隐私数据。
在一个实施例中,为了确保更高的数据抽取精度和速度,在执行步骤170之前,可以对所述个人隐私相似词库进行人工审查筛选,以人工过滤掉不符合要求的相似词,即步骤160。比如,在图3中的“籍贯”、“昵称”之类的在实际工作中不太有用的信息可以被剔除出个人隐私相似词库以提高处理的效率。
在另一个实施例中,在根据个人隐私相似词库完成个人隐私数据的抽取之后,还可以另外提供一个人工审核的步骤。即在步骤180,可以对从合同中抽取出的个人隐私数据进行人工审核,从中过滤掉不符合要求的错误数据。该步骤是可选的,因为,在大多数情况下,自动识别出的个人隐私数据的合格率比人工抽取的合格率更高,因为机器在抽取过程中不存在人为导致的遗漏、输错等问题。
经过技术人员的多次测试认证,通过本公开所述的方案抽取出的个人隐私数据中的绝大部分数据都是合格的,因此,利用计算机来执行上述流程,能够很大程度地提升这些隐私数据的抽取汇总效率,例如可以使得原本人工需要一个月才能完成的处理变为仅1个小时就能完成。而且,最终获得的个人隐私数据的合格率多数情况下远远超过人工抽取的合格率。
在了解了本公开的个人隐私信息抽取方案后,再结合图2中示出的根据本公开的一个实施例的一种实现个人隐私信息抽取的示例环境来进一步理解本公开的应用场景。如图所示,所述环境主要包括用于实施本公开的各实施例的计算系统200、通过网络240与所述计算系统200通信的用户220a、220b以及服务器230a、230b。可以理解的是,尽管在图中仅仅示出了两个用户和两个服务器,但是,所述数量的用户和服务器仅仅是作为示例被示出,实际上更多或更少的用户或服务器可以与计算系统200通信。在本方案中,用户220a、220b可以是计算系统200的操作者、管理合同的工作人员以及其他相关人员。而服务器230a、230b则是存储有大量的NLP语料信息的各种网站服务器。网络240包括各种类型的有线和无线网络,包括但不局限于互联网、局域网、WIFI、WLAN、蜂窝通信网络(GPRS、CDMA、2G/3G/4G/5G蜂窝网络)、卫星通信网络等等。通过所述网络,用户220a、220b、服务器230a、230b与计算系统200之间可以进行数据通信
在所述计算系统200中,首先,NLP文本语料模块202通过网络240从分布在世界各地的服务器230a、230b收集所需的NLP语料数据。所述服务器230a、230b可以包括各种社交网站、论坛、新闻媒体、学术期刊、出版社、大学、微博、在线图书馆所驻留的服务器,或者可以直接从提供专门的语料库的专业网站直接下载已经构建好的语料库。
随后,使用数据加工处理模块206对NLP文本语料模块202所收集的NLP文本语料进行加工处理以生成规范化的NLP文本语料。所述数据加工处理可以包括分词、数据清洗、停用词处理、大写变小写、简繁体转换、全角转半角以及其他各种规范化处理。这些处理在图1的相关步骤中已经具体说明,在此不再重复。
接着,在词向量语言模型(在图2中以word2vec模型208为例)处,将所述规范化的NLP文本语料输入到word2vec模型208中以对其进行训练来获得词向量模型。所述词向量模型将每个词映射到一个向量,以表示词对词之间的关系。
至此,个人隐私数据抽取的模型基础已经构建完成。
而在构建所述个人隐私数据抽取的模型基础之前、同时或之后,计算系统200的个人隐私种子模块204可以从已经数字化的众多合同中提取个人隐私种子数据,所述提取可以通过用户220a、220b的人工输入或者从个人隐私种子数据库中检索先前存储的个人隐私种子数据来实现。所述个人隐私种子数据可能衍生出大量的变体,而所述变体的挖掘就要依靠经训练的word2vec模型208。
在通过训练word2vec模型构建完成词向量模型之后,可以从个人隐私种子模块204向经训练的word2vec模型208输入个人隐私种子数据以预测与其相关联的相似词和相似度。word2vec模型208中的词向量模型能够根据经NLP文本语料训练后的词对词之间的关系预测出与所输入的个人隐私种子数据相关联的一系列潜在的相似词以其相似度,这些相似词基本覆盖了该种子所有可能的变体。
在所有个人隐私种子数据都被输入word2vec模型208并对其进行了预测之后,就可以形成一个包含所有的相似词和其相似度的个人隐私相似词(数据)库210。该个人隐私相似词库210基本包含了个人隐私种子数据的所有的相似词(即变体)。
这样,在数据抽取模块212中,基于个人隐私相似词库210中包含的个人隐私种子数据的各个相似词对各种法务合同进行个人隐私数据的抽取操作,从而识别出与所述相似词相关联的个人隐私数据。由于所述个人隐私相似词库已经包含了法务合同中的几乎所有出现过的相关联的个人隐私相似词,因此,利用所述个人隐私相似词库进行数据抽取可以自动从各种法务合同中最大程度地识别出各种个人隐私数据。
在一个实施例中,与要处理的合同相关的NPL文本语料库可能已经被诸如提供合同范文模板的专业网站加工、构建并可供下载,在这样的情况下,所述NPL文本语料库可以被直接下载并用于word2vec模型208的训练,而不需要再经过NLP文本语料模块202和数据加工处理模块206的处理。
在另一个实施例中,为了确保更高的数据抽取精度,对于存储在所述个人隐私相似词库210中的相似词可以寻求用户220a、220b的帮助来进行人工筛选或设定过滤阈值,以剔除不符合要求的相似词,从而提高后续抽取处理的效率。
在另一个实施例中,在数据抽取模块212根据个人隐私相似词库完成个人隐私数据的抽取之后,还可以另外提供一个人工审核的步骤。即请求用户220a、220b对从合同中抽取出的个人隐私数据进行人工审核,从中过滤掉不符合要求的错误数据。
需要再次强调地是,在所述实施例中,为了方便说明,以法务合同作为所述合同的示例。这是因为在法务合同中,通常存在很多个人隐私信息,并且由于法务合同的多样性且缺乏统一的范本,因此,同样的所述个人隐私信息可能存在大量不同的变体。所以,本公开所述的个人隐私数据提取方案特别适用于法务合同的场景。但应该理解,其它类型的合同同样可以使用本公开所述的方案来实施个人隐私信息的抽取。
虽然以上描述了不同的实施例,但应当理解的是它们只是作为示例而非限制。(诸)相关领域的技术人员将领会,在不偏离如所附权利要求书所定义的本发明的精神和范围的情况下,可以在形式和细节方面进行各种修改。因此,此处所公开的本发明的宽度和范围不应被上述所公开的示例性实施例所限制,而应当仅根据所附权利要求书及其等同替换来定义。

Claims (17)

1.一种从合同中抽取个人隐私信息的方法,其特征在于,所述方法包括:
从各种数据源收集NLP文本语料;
对所收集的NLP文本语料进行数据加工处理以生成经规范化的NLP文本语料;
将所述经规范化的NLP文本语料用于对词向量语言模型进行训练以获得词向量模型;
获取个人隐私种子数据;
将所述个人隐私种子数据输入到所述词向量模型中以预测与所述个人隐私种子数据相关联的相似词;
基于所预测的相似词对所述合同执行数据抽取以识别出与所述相似词相关联的个人隐私数据;
其中,预测与所述个人隐私种子数据相关联的相似词包括预测相似词的相似度,并且所述方法还包括:将所述相似词的相似度与阈值进行比较以过滤掉低相似度的相似词。
2.如权利要求1所述的方法,其特征在于,所述数据加工处理包括:分词、数据清洗、停用词处理。
3.如权利要求2所述的方法,其特征在于,所述数据加工处理还包括:大写边小写、简繁体转换、全角转半角以及其他各种规范化处理。
4.如权利要求1所述的方法,其特征在于,所述方法还包括:在基于所预测的相似词对所述合同执行数据抽取之前,对所述相似词进行人工审查筛选。
5.如权利要求1所述的方法,其特征在于,获取所述个人隐私种子数据包括从数字化的各种合同中提取个人隐私种子数据。
6.如权利要求1所述的方法,其特征在于,获取所述个人隐私种子数据包括:从个人隐私种子数据库中提取先前创建的个人隐私种子数据,或者从提供合同范本的相关网站、企业远程下载所述个人隐私种子数据。
7.如权利要求1所述的方法,其特征在于,所述方法还包括:
在识别出与所述相似词相关联的个人隐私数据之后,对所述个人隐私数据进行人工审核。
8.如权利要求1所述的方法,其特征在于,可以从专门的语料库直接下载所述经规范化的NLP文本语料。
9.如权利要求1所述的方法,其特征在于,所述词向量语言模型包括word2vec、ELMo以及BERT。
10.一种从合同中抽取个人隐私信息的计算系统,其特征在于,所述计算系统包括:
NLP文本语料模块,被配置用于从各种数据源收集NLP文本语料;
数据加工处理模块,被配置用于对所述NLP文本语料模块所收集的所述NLP文本语料进行加工处理以生成规范化的NLP文本语料;
个人隐私种子模块,被配置用于获取个人隐私种子数据;
词向量语言模型,被配置用于通过将所述经规范化的NLP文本语料用于对所述词向量语言模型进行训练以获得词向量模型,并且将所述个人隐私种子数据输入到所述词向量模型中以预测与所述个人隐私种子数据相关联的相似词;
数据抽取模块,被配置用于基于所预测的相似词对所述合同执行数据抽取以识别出与所述相似词相关联的个人隐私数据;
其中,预测与所述个人隐私种子数据相关联的相似词包括预测相似词的相似度,并且通过将所述相似词的相似度与阈值进行比较以从所述个人隐私相似词库中过滤掉低相似度的相似词。
11.如权利要求10所述的计算系统,其特征在于,所述计算系统还包括:
个人隐私相似词库,被配置用于存储预测出的所述个人隐私种子数据的相似词。
12.如权利要求10所述的计算系统,其特征在于,所述数据加工处理包括:分词、数据清洗、停用词处理。
13.如权利要求12所述的计算系统,其特征在于,所述数据加工处理还包括:大写边小写、简繁体转换、全角转半角以及其他各种规范化处理。
14.如权利要求10所述的计算系统,其特征在于,所述NLP文本语料模块从数字化的各种合同中提取个人隐私种子数据。
15.如权利要求10所述的计算系统,其特征在于,所述NLP文本语料模块从个人隐私种子数据库中提取先前创建的个人隐私种子数据,或者从提供合同范本的相关网站、企业远程下载所述个人隐私种子数据。
16.如权利要求10所述的计算系统,其特征在于,可以从专门的语料库直接下载所述经规范化的NLP文本语料。
17.如权利要求10所述的计算系统,其特征在于,所述词向量语言模型包括word2vec、ELMo以及BERT。
CN201910507192.8A 2019-06-12 2019-06-12 一种合同中个人隐私信息抽取的方法和系统 Active CN110334343B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910507192.8A CN110334343B (zh) 2019-06-12 2019-06-12 一种合同中个人隐私信息抽取的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910507192.8A CN110334343B (zh) 2019-06-12 2019-06-12 一种合同中个人隐私信息抽取的方法和系统

Publications (2)

Publication Number Publication Date
CN110334343A CN110334343A (zh) 2019-10-15
CN110334343B true CN110334343B (zh) 2023-07-11

Family

ID=68140319

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910507192.8A Active CN110334343B (zh) 2019-06-12 2019-06-12 一种合同中个人隐私信息抽取的方法和系统

Country Status (1)

Country Link
CN (1) CN110334343B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111753540B (zh) * 2020-06-24 2023-04-07 云南电网有限责任公司信息中心 一种对于文本数据进行收集以进行自然语言处理nlp的方法及系统
CN111753541B (zh) * 2020-06-24 2023-08-15 云南电网有限责任公司信息中心 一种对于合同文本数据进行自然语言处理nlp的方法及系统
CN111950286A (zh) * 2020-08-10 2020-11-17 云南电网有限责任公司信息中心 一种人工智能法务评审引擎系统开发方法
CN113012683A (zh) * 2021-02-02 2021-06-22 虫洞创新平台(深圳)有限公司 语音识别方法及装置、设备、计算机可读存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170017635A1 (en) * 2015-07-17 2017-01-19 Fido Labs Inc. Natural language processing system and method
CN109660494A (zh) * 2017-10-11 2019-04-19 金联汇通信息技术有限公司 电子合同的签署方法、装置及服务器
CN109582772A (zh) * 2018-11-27 2019-04-05 平安科技(深圳)有限公司 合同信息提取方法、装置、计算机设备和存储介质
CN109684642B (zh) * 2018-12-26 2023-01-13 重庆电信系统集成有限公司 一种结合页面解析规则和nlp文本向量化的摘要提取方法

Also Published As

Publication number Publication date
CN110334343A (zh) 2019-10-15

Similar Documents

Publication Publication Date Title
CN110334343B (zh) 一种合同中个人隐私信息抽取的方法和系统
US11170179B2 (en) Systems and methods for natural language processing of structured documents
US8630989B2 (en) Systems and methods for information extraction using contextual pattern discovery
CN111831802B (zh) 一种基于lda主题模型的城市领域知识检测系统及方法
CN110968684B (zh) 一种信息处理方法、装置、设备及存储介质
US9390176B2 (en) System and method for recursively traversing the internet and other sources to identify, gather, curate, adjudicate, and qualify business identity and related data
CN109190110A (zh) 一种命名实体识别模型的训练方法、系统及电子设备
WO2022160454A1 (zh) 医疗文献的检索方法、装置、电子设备及存储介质
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
CN111104801A (zh) 基于网址域名的文本分词方法、系统、设备及介质
Das et al. A CV parser model using entity extraction process and big data tools
Tang et al. Research on automatic labeling of imbalanced texts of customer complaints based on text enhancement and layer-by-layer semantic matching
CN110990003B (zh) 一种基于词嵌入技术的api推荐方法
CN110968664A (zh) 一种文书检索方法、装置、设备及介质
CN114141384A (zh) 用于检索医学数据的方法、设备和介质
CN113011156A (zh) 审核文本的质检方法、装置、介质以及电子设备
CN113052544A (zh) 工作流依用户行为智能适配方法、装置以及存储介质
CN115329173A (zh) 一种基于舆情监控的企业信用确定方法及装置
JP5679400B2 (ja) カテゴリ主題語句抽出装置及び階層的タグ付与装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体
CN111753540B (zh) 一种对于文本数据进行收集以进行自然语言处理nlp的方法及系统
CN105786929A (zh) 一种信息监测方法及装置
KR100862565B1 (ko) 사용자 맞춤형 특허정보 데이터베이스 구축시스템
TW201822031A (zh) 以文字資訊建立圖表索引方法及其電腦程式產品
CN112215006A (zh) 机构命名实体归一化方法和系统
CN110737749A (zh) 创业计划评价方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40016183

Country of ref document: HK

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200923

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

Effective date of registration: 20200923

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman, British Islands

Applicant before: Advanced innovation technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant