CN110765761A

CN110765761A - 基于人工智能的合同敏感词校验方法、装置及存储介质

Info

Publication number: CN110765761A
Application number: CN201910878460.7A
Authority: CN
Inventors: 石明川; 刘从宽
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-09-16
Filing date: 2019-09-16
Publication date: 2020-02-07
Also published as: WO2021052148A1

Abstract

本发明涉及一种人工智能技术，揭露了一种基于人工智能的合同敏感词校验方法，包括：获取合同文本数据集，对所述合同文本数据集进行预处理操作，得到数值向量合同词语集；根据预先构建的合同敏感词信息库，对所述数值向量合同词语集中的词语进行敏感词危害等级的划分；基于所述敏感词危害等级的划分，通过匹配算法对用户输入的合同文本进行匹配，直至匹配的敏感词达到预设的危害等级时，停止匹配，完成所述合同文本的敏感词校验，并重新编辑所述合同文本。本发明还提出一种基于人工智能的合同敏感词校验装置以及一种计算机可读存储介质。本发明实现了合同敏感词的精准检验。

Description

基于人工智能的合同敏感词校验方法、装置及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于人工智能的合同敏感词校验方法、装置及存储介质。

背景技术

敏感词过滤，是文字信息管理的一项重要内容。它主要是指在给定的文本当中，对于特定的敏感词进行检测，高亮或替换准确定位的敏感词的一种文本处理方法。在合同开发时，可以提前设置合同的匹配规则达到敏感词校验的目的，但目前并未对人工添加的规则信息做敏感词校验，可能对后期起草的合同造成较大的缺陷，给合同任意方造成一定的经济损失。

发明内容

本发明提供一种基于人工智能的合同敏感词校验方法、装置及存储介质，其主要目的在于当用户进行基于人工智能的合同敏感词校验时，给用户呈现出精准的基于人工智能的合同敏感词校验结果。

为实现上述目的，本发明提供的一种基于人工智能的合同敏感词校验方法，包括：

获取合同文本数据集，对所述合同文本数据集进行预处理操作，得到数值向量合同词语集；

根据预先构建的合同敏感词信息库，对所述数值向量合同词语集中的词语进行敏感词危害等级的划分；

基于所述敏感词危害等级的划分，通过匹配算法对用户输入的合同文本进行匹配，直至匹配的敏感词达到预设的危害等级时，停止匹配，完成所述合同文本的敏感词校验，并重新编辑所述合同文本。

可选地，所述对所述合同文本数据集进行预处理操作，得到数值向量合同词语集，其中，所述预处理操作包括去重、分词、去停用词、以及权重计算；

所述去重包括：

利用欧式距离公式对所述合同文本数据集进行去重操作，所述欧式距离公式如下：

其中，d表示所述合同文本数据集之间的距离，w_1j和w_2j分别为任意2个合同文本数据；

所述分词包括：

通过预设的策略将所述合同文本数据集与预设的词典中的词条进行匹配，得到所述合同文本数据集的特征词，并将所述特征词用空格符号隔开；

所述去停用词包括：

通过预先构建好的停用词表与所述合同文本数据集中的特征词进行一一匹配，其中，当所述合同文本数据集中的特征词与所述停用词表匹配成功时，将所述匹配成功的特征词过滤；及

所述权重计算包括：

通过构建依存关系图计算去停用词后的所述合同文本数据集的特征词之间的关联强度，并通过所述关联强度计算出去停用词后的所述合同文本数据集的特征词的重要度得分，得到去停用词后的所述合同文本数据集的特征词的权重，将去停用词后的所述合同文本数据集的特征词表示成数值向量形式，得到所述数值向量合同词语集。

可选地，所述计算去停用词后的所述合同文本数据集的特征词的重要度得分，包括：

计算去停用词后的所述合同文本数据集的任意两个特征词W_i和W_j的依存关联度：

其中，Dep(W_i，W_j)表示所述特征词W_i和W_j的依存关联度，len(W_i，W_j)表示所述特征词W_i和W_j之间的依存路径长度，b是超参数；

计算所述特征词W_i和W_j的引力：

其中，f_grav(W_i，W_j)表示特征词W_i和W_j的引力，tfidf(W_i)表示特征词W_i的TF-IDF值，tfidf(W_j)表示特征词W_j的TF-IDF值，TF表示词频，IDF表示逆文档频率指数，d是特征词W_i和W_j的词向量之间的欧式距离；

根据计算出的所述依存关联度和所述引力得到所述特征词W_i和W_j之间的关联强度为：

weight(W_i，W_j)＝Dep(W_i，W_j)*f_grav(W_i，W_j)

根据所述关联强度计算出所述特征词W_i的重要度得分：

其中，

是与顶点W_i有关的集合，η为阻尼系数。

可选地，所述预先构建的合同敏感词信息库，包括：

接收用户输入的合同敏感词；

通过关键词从搜索引擎中下载得到合同敏感词；和/或

从专业合同网站进行爬取得到合同敏感词；及

通过网络本体语言对所述合同敏感词进行编译，完成所述合同敏感词信息库的构建。

可选地，所述匹配算法包括：

通过预设的SHIFT表识别所述用户输入的合同文本中的字符串跳过的字符数，根据预设的HASH表和PREFIx表对所述字符数进行判断后决定所述用户输入的合同文本中的字符串匹配候选模式，根据决定的所述字符串匹配候选模式进行合同文本的匹配。

此外，为实现上述目的，本发明还提供一种基于人工智能的合同敏感词校验装置，该装置包括存储器和处理器，所述存储器中存储有可在所述处理器上运行的基于人工智能的合同敏感词校验程序，所述基于人工智能的合同敏感词校验程序被所述处理器执行时实现如下步骤：

所述去重包括：

所述分词包括：

所述去停用词包括：

所述权重计算包括：

计算去停用词后的所述合同文本数据集的中任意两个特征词W_i和W_j的依存关联度：

计算所述特征词W_i和W_j的引力：

weight(W_i，W_j)＝Dep(W_i，W_j)*f_grav(W_i，W_j)

根据所述关联强度计算出所述特征词W_i的重要度得分：

其中，

是与顶点W_i有关的集合，η为阻尼系数。

可选地，所述预先构建的合同敏感词信息库，包括：

接收用户输入的合同敏感词；

通过关键词从搜索引擎中下载得到合同敏感词；和/或

从专业合同网站进行爬取得到合同敏感词；及

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有基于人工智能的合同敏感词校验程序，所述基于人工智能的合同敏感词校验程序可被一个或者多个处理器执行，以实现如上所述的基于人工智能的合同敏感词校验方法的步骤。

本发明提出的基于人工智能的合同敏感词校验方法、装置及计算机可读存储介质，在用户在进行合同敏感词时，接收用户输入的合同文本并对所述合同文本进行预处理操作后得到数值向量合同词语集，结合合同敏感词信息库以及匹配算法识别出所述合同文本中的敏感词，从而可以给用户呈现出精准的基于人工智能的合同敏感词校验结果。

附图说明

图1为本发明一实施例提供的基于人工智能的合同敏感词校验方法的流程示意图；

图2为本发明一实施例提供的基于人工智能的合同敏感词校验装置的内部结构示意图；

图3为本发明一实施例提供的基于人工智能的合同敏感词校验装置中基于人工智能的合同敏感词校验程序的模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种基于人工智能的合同敏感词校验方法。参照图1所示，为本发明一实施例提供的基于人工智能的合同敏感词校验方法的流程示意图。该方法可以由一个装置执行，该装置可以由软件和/或硬件实现。

在本实施例中，基于人工智能的合同敏感词校验方法包括：

S1、获取合同文本数据集，对所述合同文本数据集进行预处理操作，得到数值向量合同词语集。

本发明较佳实施例中，所述合同文本数据集是通对过合同文本进行组合产生的，其中，所述合同文本通过以下两种方式获取：方式一、从各大企业数据库中获取得到；方式二、通过从语料库中搜索关键字获取。

进一步地，由于所述合同文本属于非结构化或半结构化数据，无法直接被分类算法识别，较佳地，本发明较佳实施例通过对所述合同文本数据集进行预处理操作，将所述合同文本数据集转化为数值向量合同词语集。其中，所述预处理操作包括去重、分词、去停用词以及权重计算。详细地，所述预处理操作具体实施步骤为：

a.去重：

当所述合同文本数据集存在重复的合同文本时，会降低合同文本分类的精度，因此，本发明较佳实施例首先对所述文本数据集执行去重操作。

优选地，本发明通过欧式距离公式对所述合同文本数据集进行去重操作，其中，所述欧式距离公式如下：

其中，d表示所述合同文本数据集之间的距离，w_1j和w_2j分别为任意2个合同文本数据，当两个合同文本数据之间的距离小于预设距离阈值，则删除其中一个合同文本数据。优选地，本发明预设所述距离阈值为0.1。

b.分词：

本发明通过预设的策略将所述合同文本数据集中的词语与预设的词典中的词条进行匹配，得到所述合同文本数据集的特征词，并将所述特征词用空格符号隔开。优选地，本发明较佳实施例中，所述预设的词典包含统计词典和前缀词典。所述统计词典是由统计方法得到的所有可能的分词构造的词典。所述统计词典统计相邻字在语料库中贡献的频度并计算互信息，当所述相邻字互相出现信息大于预设的阈值时，即认定为构成词，优选地，本发明所述阈值为0.6。所述前缀词典包括所述统计词典中每一个分词的前缀，例如所述统计词典中的词“中国平安”的前缀分别是“中”、“中国”、“中国平”；词“平安”的前缀是“国”等。本发明利用所述统计词典得到的所述合同文本数据集可能的分词结果，并通过所述前缀词典根据分词的切分位置，得到最终的切分形式，从而得到所述合同文本数据集的特征词。

c.去停用词：

所述停用词是文本功能词中没有什么实际意义的词，对文本的分类没有什么影响，但是出现频率高，于是，会降低文本分类，其中所述停用词包括常用的代词、介词等。例如，所述停用词可以为“的”、“在”、“不过”以及“了”等等。本发明通过预先构建好的停用词表与分词后的所述合同文本数据集中词语进行一一匹配，其中，当分词后的所述合同文本数据集中的特征词与所述停用词表匹配成功时，将所述匹配成功的特征词过滤，当分词后的所述合同文本数据集中的特征词与所述停用词表匹配不成功时，将所述匹配不成功的词语保留。其中，所述预先构建好的停用词表通过网页下载得到。

d.权重计算：

本发明通过构建依存关系图计算去停用词后的所述合同文本数据集的特征词之间的关联强度，通过所述关联强度计算去停用词后的所述合同文本数据集的特征词的重要度得分，得到去停用词后的所述合同文本数据集的特征词的权重。详细地，所述计算所述特征词的重要度得分包括：

计算去停用词后的所述合同文本数据集的特征词中任意两个特征词W_i和W_j的依存关联度：

计算去停用词后的所述合同文本数据集的特征词W_i和W_j的引力：

weight(W_i，W_j)＝Dep(W_i，W_j)*f_grav(W_i，W_j)

建立无向图G＝(V，E)，其中V是顶点的集合，E是边的集合；

根据所述关联强度计算出所述特征词W_i的重要度得分：

其中，

是与顶点W_i有关的集合，η为阻尼系数。

根据所述特征词重要度得分，得到所述特征词权重，从而将所述特征词表示成数值向量形式，得到所述数值向量合同词语集。

S2、根据预先构建的合同敏感词信息库，对所述数值向量合同词语集中进行敏感词危害等级的划分。

本发明较佳实施例中，所述合同敏感词信息库中的敏感词通过以下三种种方式获取：方式一、接收用户输入的合同敏感词；方式二、通过关键词从搜索引擎中下载得到合同敏感词；和/或方式三、从专业合同网站进行爬取得到合同敏感词；较佳地，本发明通过网络本体语言(Ontology Web Language，OWL)对得到的所述合同敏感词信息库中的敏感词进行编译，完成所述合同敏感词信息库的构建。

进一步地，本发明优先地对合同敏感词进行分类，其中所述合同敏感词分类包括：1)不文明用语，包括各种脏字；2)不和谐用语，包括各种政府部门名称以及各种反动词汇；3)不整洁用语，包括各种儿童禁忌；4)在不同语义下意思完全相反的词语；5)在合同开发过程中，需要标记的词语等。

较佳地，本发明根据所述敏感词关联信息库以及所述合同敏感词的分类对所述数值向量合同词语集进行危害等级的划分。详细地，本发明较佳实施例中，所述敏感词的危害等级依次划分为Ⅰ、Ⅱ、Ⅲ三种等级(危害等性由高到低)，其中，属于上述方面1)、2)的敏感词，其危害等级划为Ⅰ；属于上述方面3)的敏感词，其危害等级划为Ⅱ；属于上述方面4)、5)的敏感词，其危害等级划为Ⅲ。

S3、基于所述敏感词危害等级的划分，通过匹配算法对用户输入的合同文本进行匹配，直至匹配的敏感词达到预设的危害等级时，停止匹配，完成所述合同文本的敏感词校验并重新编辑所述合同文本。

本发明较佳实施例中，所述匹配算法包括Wu-Manber算法，简称WM算法。其中，所述WM算法通过使用散列表选择模式串集合中的一个子集与当前文本进行完全匹配，包括：SHIFT、HASH以及PREFIX三个表。通过所述SHIFT表识别所述用户输入的合同文本中的字符串跳过的字符数，根据所述HASH表和PREFIx表对所述字符数进行判断后决定所述用户输入的合同文本中的字符串匹配候选模式，并验证哪个候选模式完全匹配，并使用能够完全匹配的候选模式进行合同文本的匹配操作。例如：对于x＝x1…xB的字符串，通过hash函数映射得到一个索引值index，以该索引值index作为偏移得到SHIFT表中的值，所述SHIFT表中的值决定读到当前字符串x后可以跳过的字符数；设当前比较的字符串x的hash值为h，如果SHIFT[h]＝0，说明可能产生了匹配，于是，用所述h值作为索引，查HASH表找到HASH[h]，所述HASH[h]存储的是指针，分别指向模式链表和PREFIx表两个单独的表。

较佳地，本发明接收用户输入的合同文本，利用所述WM算法进行匹配查找，当匹配查找到敏感词时，根据上述敏感词的相应危害等级的划分，从而得知此合同相应的危害等级。直至匹配的敏感词达到所述危害等级Ⅰ或Ⅱ时，停止匹配，并重新编辑所述合同文本，完成所述合同文本的敏感词校验。例如：对于合同文本目标串target，假设游标i，模式前缀长度m，字符快长度B，前缀长度C。本发明取target[i-B+1...i]，查找其在SHIFT表中的对应值SHIFT[target[i-B+1...i]]，如果查找不到，则i+＝m-B+1，如果其值为c(c！＝0)，进行i+＝c，再执行上述操作。如果其SHIFT值等于0，则需要取出target[i-m+1...i-m+C]，在SHIFT[de]＝0对应PREFIX结合中查找PREFIX[target[i-m+1...i-m+C]]，如果查找不到，则将游标i+＝1；如果查找到，则用target[i-m+1]开始的子串，依次匹配满足条件的所有模式串，直到找到匹配位置，终止匹配，基于上述所建立敏感词关联信息，得出所述合同文本相应危害等级。

进一步地，本发明还包括预设当收到五个Ⅲ级危害性等级词汇，便得到一个Ⅱ级危害性等级词汇，当收到二个Ⅱ级危害性等级词汇，便会生成一个Ⅰ级危害性等级敏感词汇的规则，基于所述规则，当危害等级达到Ⅰ或Ⅱ危害等级时，终止匹配并重新对所述合同文本数据进行编辑。

发明还提供一种基于人工智能的合同敏感词校验装置。参照图2所示，为本发明一实施例提供的基于人工智能的合同敏感词校验装置的内部结构示意图。

在本实施例中，所述基于人工智能的合同敏感词校验装置1可以是PC(PersonalComputer，个人电脑)，或者是智能手机、平板电脑、便携计算机等终端设备，也可以是一种服务器等。该基于人工智能的合同敏感词校验装置1至少包括存储器11、处理器12，通信总线13，以及网络接口14。

其中，存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是基于人工智能的合同敏感词校验装置1的内部存储单元，例如该基于人工智能的合同敏感词校验装置1的硬盘。存储器11在另一些实施例中也可以是基于人工智能的合同敏感词校验装置1的外部存储设备，例如基于人工智能的合同敏感词校验装置1上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器11还可以既包括基于人工智能的合同敏感词校验装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于基于人工智能的合同敏感词校验装置1的应用软件及各类数据，例如基于人工智能的合同敏感词校验程序01的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行基于人工智能的合同敏感词校验程序01等。

通信总线13用于实现这些组件之间的连接通信。

网络接口14可选的可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该装置1与其他电子设备之间建立通信连接。

可选地，该装置1还可以包括用户接口，用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的用户接口还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在基于人工智能的合同敏感词校验装置1中处理的信息以及用于显示可视化的用户界面。

图2仅示出了具有组件11-14以及基于人工智能的合同敏感词校验程序01的基于人工智能的合同敏感词校验装置1，本领域技术人员可以理解的是，图1示出的结构并不构成对基于人工智能的合同敏感词校验装置1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

在图2所示的装置1实施例中，存储器11中存储有基于人工智能的合同敏感词校验程序01；处理器12执行存储器11中存储的基于人工智能的合同敏感词校验程序01时实现如下步骤：

步骤一、获取合同文本数据集，对所述合同文本数据集进行预处理操作，得到数值向量合同词语集。

a.去重：

b.分词：

c.去停用词：

d.权重计算：

其中，Dep(W_i,W_j)表示所述特征词W_i和W_j的依存关联度，len(W_i,W_j)表示所述特征词W_i和W_j之间的依存路径长度，b是超参数；

weight(W_i，W_j)＝Dep(W_i，W_j)*f_grav(W_i，W_j)

建立无向图G＝(V，E)，其中V是顶点的集合，E是边的集合；

根据所述关联强度计算出所述特征词W_i的重要度得分：

其中，

是与顶点W_i有关的集合，η为阻尼系数。

步骤二、根据预先构建的合同敏感词信息库，对所述数值向量合同词语集中进行敏感词危害等级的划分。

步骤三、基于所述敏感词危害等级的划分，通过匹配算法对用户输入的合同文本进行匹配，直至匹配的敏感词达到预设的危害等级时，停止匹配，完成所述合同文本的敏感词校验并重新编辑所述合同文本。

可选地，在其他实施例中，基于人工智能的合同敏感词校验程序还可以被分割为一个或者多个模块，一个或者多个模块被存储于存储器11中，并由一个或多个处理器(本实施例为处理器12)所执行以完成本发明，本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段，用于描述基于人工智能的合同敏感词校验程序在基于人工智能的合同敏感词校验装置中的执行过程。

例如，参照图3所示，为本发明基于人工智能的合同敏感词校验装置一实施例中的基于人工智能的合同敏感词校验程序的程序模块示意图，该实施例中，所述基于人工智能的合同敏感词校验程序可以被分割为文本预处理模块10、等级划分模块20、匹配识别模块30示例性地：

所述文本预处理模块10用于：获取合同文本数据集，对所述合同文本数据集进行预处理操作，得到数值向量合同词语集。

所述等级划分模块20用于：根据预先构建的合同敏感词信息库，对所述数值向量合同词语集中的词语进行敏感词危害等级的划分。

所述匹配识别模块30用于基于所述敏感词危害等级的划分，通过匹配算法对用户输入的合同文本进行匹配，直至匹配的敏感词达到预设的危害等级时，停止匹配，完成所述合同文本的敏感词校验，并重新编辑所述合同文本。

上述文本预处理模块10、等级划分模块20、匹配识别模块30等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同，在此不再赘述。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有基于人工智能的合同敏感词校验程序，所述基于人工智能的合同敏感词校验程序可被一个或多个处理器执行，以实现如下操作：

本发明计算机可读存储介质具体实施方式与上述基于人工智能的合同敏感词校验装置和方法各实施例基本相同，在此不作累述。

需要说明的是，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。