CN110880142B - 一种风险实体获取方法及装置 - Google Patents
一种风险实体获取方法及装置 Download PDFInfo
- Publication number
- CN110880142B CN110880142B CN201911159795.XA CN201911159795A CN110880142B CN 110880142 B CN110880142 B CN 110880142B CN 201911159795 A CN201911159795 A CN 201911159795A CN 110880142 B CN110880142 B CN 110880142B
- Authority
- CN
- China
- Prior art keywords
- risk
- word
- entity
- information
- segment information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 239000012634 fragment Substances 0.000 claims abstract description 28
- 239000013598 vector Substances 0.000 claims description 58
- 238000013145 classification model Methods 0.000 claims description 27
- 238000013528 artificial neural network Methods 0.000 claims description 22
- 238000002372 labelling Methods 0.000 claims description 21
- 230000011218 segmentation Effects 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 19
- 238000005520 cutting process Methods 0.000 claims description 11
- 238000003860 storage Methods 0.000 claims description 6
- 230000007787 long-term memory Effects 0.000 claims description 2
- 238000012549 training Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 10
- 230000008520 organization Effects 0.000 description 10
- 238000009826 distribution Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 6
- 230000015654 memory Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012954 risk control Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000008450 motivation Effects 0.000 description 2
- 230000007115 recruitment Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
- 230000002087 whitening effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Technology Law (AREA)
- Computing Systems (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Marketing (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Development Economics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种风险实体获取方法及装置,其中方法为:确定包含风险词的第一风险信息;所述风险词来源于预收集的风险词库;对所述第一风险信息进行片段划分,获取多个风险片段信息;相邻的两个风险片段信息具有首尾重叠区域;针对任一风险片段信息,若确定所述风险片段信息为第一文本类型,则获取所述风险片段信息中的风险实体。
Description
技术领域
本发明涉及金融科技(Fintech)领域和人工智能领域,尤其涉及一种风险实体获取方法及装置。
背景技术
随着计算机技术的发展,越来越多的技术(大数据、分布式、区块链(Blockchain)、人工智能等)应用在金融领域,传统金融业正在逐步向金融科技(Fintech)转变。目前,金融科技领域的风控意识愈加强烈,各个金融科技企业对于发放给用户的贷款能否回收的问题,越来越重视。
因此,目前一些金融科技企业通过收集风险实体进行风险控制。风险实体为风险用户的一项基本属性信息(如风险用户的姓名、住址、电话号码等)。目前收集风险实体的主要方式是,当某个用户出现高风险行为(如恶意欠款)后,再将该用户及各风险实体纳入黑名单,但这种方式是滞后于风险行为的发生的,不能及时获取风险实体,不利于及时判别用户是否为风险用户。
发明内容
本申请实施例提供一种风险实体获取方法及装置,解决了现有技术中不能及时获取风险实体的问题。
第一方面,本申请实施例提供一种风险实体获取方法,包括:确定包含风险词的第一风险信息;所述风险词来源于预收集的风险词库;对所述第一风险信息进行片段划分,获取多个风险片段信息;相邻的两个风险片段信息具有首尾重叠区域;针对任一风险片段信息,若确定所述风险片段信息为第一文本类型,则获取所述风险片段信息中的风险实体。
上述方法中,根据预收集的风险词库中的风险词,确定出包含风险词的第一风险信息,并对所述第一风险信息进行片段划分,获取多个风险片段信息,并且对任一风险片段信息,由于相邻的两个风险片段信息具有首尾重叠区域,因此风险实体必定会完整地落在某个风险片段信息中,针对任一风险片段信息,若确定所述风险片段信息为第一文本类型,则获取所述风险片段信息中的风险实体,从而只要有第一风险信息,就可以根据第一风险信息进行判断,及时获取到发布信息中的风险实体。
一种可选实施方式中,确定所述风险片段信息为第一文本类型,包括:对所述风险片段信息进行分词,对分词后的每个词向量进行叠加,获得所述风险片段信息的文档向量;将所述文档向量输入第一二分类模型;所述第一二分类模型用于确定所述风险片段信息是否为第二文本类型;在确定所述风险片段信息为第二文本类型后,将所述文档向量输入第二二分类模型,确定所述风险片段信息为所述第一文本类型;所述第一文本类型是所述第二文本类型中的一种。
上述方法中,由于第一文本类型是所述第二文本类型中的一种,直接判别第一文本类型不易与第二文本类型中的其他文本类型区分开,因此首先对所述风险片段信息进行分词,对分词后的每个词向量进行叠加,获得所述风险片段信息的文档向量;先将所述文档向量输入第一二分类模型,确定所述风险片段信息为第二文本类型,将风险片段信息与非第二文本类型区分开;并在确定所述风险片段信息为第二文本类型后,才将所述文档向量输入第二二分类模型,确定所述风险片段信息为所述第一文本类型,从而将风险片段信息与第二文本类型中的非第一文本类型区分开,从而对风险片段信息的判断更加精确。
一种可选实施方式中,所述风险片段信息中的风险实体包括多种类别的风险实体;所述获取所述风险片段信息中的风险实体,包括:将所述风险片段信息中与预设匹配规则匹配到的词语,作为所述风险片段信息中的风险实体的第一类别的风险实体组合;针对所述第一类别组合中任一风险实体,从所述第一风险信息中获取包含所述风险实体的原句以及所述原句的相邻句子;通过实体标注模型,从所述原句和所述相邻句子中确定所述风险片段信息中的风险实体的第二类别的风险实体组合;将所述第一类别的风险实体组合和所述第二类别的风险实体组合中的所有词语,作为所述风险片段信息中的风险实体。
上述方法中,根据不同的类别,通过与预设匹配规则匹配直接得到风险实体第一类别的风险实体组合,或者通过实体标注模型从所述原句和所述相邻句子中得到第二类别的风险实体组合,并将所述第一类别的风险实体组合和所述第二类别的风险实体组合中的所有词语,作为所述风险片段信息中的风险实体,从而根据风险实体的类别分别抽取,提升了风险实体的抽取效率和准确率。
一种可选实施方式中,所述预设匹配规则为所述第一类别包括的至少一个正则匹配表达式;所述将所述风险片段信息中与预设匹配规则匹配到的词语,作为所述风险片段信息中的风险实体的第一类别的风险实体组合;包括:将所述至少一个正则匹配表达式与所述风险片段信息进行正则表达匹配;其中,每个正则匹配表达式都对应一种风险实体子类型;针对所述至少一个正则匹配表达式中任一正则匹配表达式,将所述正则匹配表达式在所述风险片段信息中匹配成功的风险实体,作为所述第一风险实体组合中所述正则匹配表达式对应风险实体子类型的风险实体。
上述方式下,在第一类别的风险实体组合获取的过程中,通过第一类别包括的至少一个正则匹配表达式与所述风险片段信息进行正则表达匹配,由于每个正则匹配表达式都对应一种风险实体子类型,因此可根据每个正则匹配表达式匹配相应类型的风险实体,作为所述第一类别的风险实体组合中所述正则匹配表达式对应风险实体子类型的风险实体,从而更细粒度地获取第一类别的风险实体组合。
一种可选实施方式中,所述实体标注模型为长短期记忆LSTM神经网络;所述LSTM神经网络是根据句子向量集训练的;所述句子向量集中的句子向量中标注了该句子向量的句子中每个字的字类型;将所述原句和所述相邻句子输入预训练的风险实体标注模型,将所述原句和所述相邻句子中标注为风险实体的词语,作为第二风险实体组合;包括:针对所述原句和所述相邻句子中任一句子,将所述句子输入所述LSTM神经网络,获得所述句子中每个字的字类型;确定所述句子中存在连续的至少一个字的字类型均对应相同的风险实体子类型,则将所述至少一个连续的字组成的词语标注为风险实体,并作为所述第二类别的风险实体组合中对应所述风险实体子类型的风险实体。
上述方式下,所述实体标注模型为长短期记忆LSTM神经网络,LSTM神经网络对序列化数据的预测判别有突出的性能,况且LSTM神经网络是根据句子向量集训练,每个句子向量的句子中每个字的字类型,首先通过LSTM神经网络,更细粒度的预测原句和相邻句子中任一句子中每个字的字类型,并确定句子中字类型均对应相同的风险实体子类型的连续的至少一个字,通过细粒度对各个字的判别,更准确地获取到第二类别的风险实体组合中的风险实体。
一种可选实施方式中,所述获取所述风险片段信息中的风险实体之后,还包括:将所述风险片段信息中的风险实体存入风险实体数据库;根据所述风险实体数据库,获取预设周期内采集的信息中包含风险实体的第二风险信息;对所述第二风险信息切词,并按照长度为2的窗口和长度为3的窗口,获得所述第二风险信息的双词词组列表和三词词组列表;将所述双词词组列表中语义搭配度小于第一预设阈值的词组删除,从而更新所述双词词组列表;将所述三词词组列表中语义搭配度小于第二预设阈值的词组删除,从而更新所述三词词组列表;将所述双词词组列表和所述三词词组列表中风险指数小于第三预设阈值的词组删除,从而更新所述双词词组列表和所述三词词组列表;其中,风险指数与第二频次与第一频次的比值呈负相关;所述第一频次为词组在风险文本中出现的频次;所述第二频次为词组在非风险文本中出现的频次;根据更新后的所述双词词组列表和更新后的所述三词词组列表,更新所述风险词库。
上述方式下,在获取所述风险片段信息中的风险实体之后,将所述风险片段信息中的风险实体存入风险实体数据库,从而及时更新所述风险实体数据库,根据所述风险实体数据库,获取预设周期内采集的信息中包含风险实体的第二风险信息;对所述第二风险信息切词,并按照长度为2的窗口和长度为3的窗口,获得所述第二风险信息的双词词组列表和三词词组列表;并根据各词组的语义搭配度和风险指数从双词词组列表和三词词组列表中删除词组,由于,风险指数与第二频次与第一频次的比值呈负相关;从而可以准确地得到新的风险词,实现了通过新获取的风险实体及时更新风险词库。
第二方面,本申请提供一种风险实体获取装置,包括:确定模块,用于确定包含风险词的第一风险信息;所述风险词来源于预收集的风险词库;处理模块,用于对所述第一风险信息进行片段划分,获取多个风险片段信息;相邻的两个风险片段信息具有首尾重叠区域;针对任一风险片段信息,若确定所述风险片段信息为第一文本类型,则获取所述风险片段信息中的风险实体。
一种可选实施方式中,所述处理模块具体用于:对所述风险片段信息进行分词,对分词后的每个词向量进行叠加,获得所述风险片段信息的文档向量;将所述文档向量输入第一二分类模型;所述第一二分类模型用于确定所述风险片段信息为第二文本类型;在确定所述风险片段信息为第二文本类型后,将所述文档向量输入第二二分类模型,确定所述风险片段信息是否为所述第一文本类型;所述第一文本类型是所述第二文本类型中的一种。
一种可选实施方式中,所述风险片段信息中的风险实体包括多种类别的风险实体;所述处理模块具体用于:将所述风险片段信息中与预设匹配规则匹配到的词语,作为所述风险片段信息中的风险实体的第一类别的风险实体组合;针对所述第一类别组合中任一风险实体,从所述第一风险信息中获取包含所述风险实体的原句以及所述原句的相邻句子;通过实体标注模型,从所述原句和所述相邻句子中确定所述风险片段信息中的风险实体的第二类别的风险实体组合;将所述第一类别的风险实体组合和所述第二类别的风险实体组合中的所有词语,作为所述风险片段信息中的风险实体。
一种可选实施方式中,所述预设匹配规则为所述第一类别包括的至少一个正则匹配表达式;所述处理模块具体用于:将所述至少一个正则匹配表达式与所述风险片段信息进行正则表达匹配;其中,每个正则匹配表达式都对应一种风险实体子类型;针对所述至少一个正则匹配表达式中任一正则匹配表达式,将所述正则匹配表达式在所述风险片段信息中匹配成功的风险实体,作为所述第一类别的风险实体组合中所述正则匹配表达式对应风险实体子类型的风险实体。
一种可选实施方式中,所述实体标注模型为长短期记忆LSTM神经网络;所述LSTM神经网络是根据句子向量集训练的;所述句子向量集中的句子向量中标注了该句子向量的句子中每个字的字类型;所述处理模块具体用于:针对所述原句和所述相邻句子中任一句子,将所述句子输入所述LSTM神经网络,获得所述句子中每个字的字类型;确定所述句子中存在连续的至少一个字的字类型均对应相同的风险实体子类型,则将所述至少一个连续的字组成的词语标注为风险实体,并作为所述第二类别的风险实体组合中对应所述风险实体子类型的风险实体。
一种可选实施方式中,所述获取所述风险片段信息中的风险实体之后,所述处理模块具体用于:将所述风险片段信息中的风险实体存入风险实体数据库,以更新所述风险实体数据库;根据所述风险实体数据库,获取预设周期内采集的信息中包含风险实体的第二风险信息;对所述第二风险信息切词,并按照长度为2的窗口和长度为3的窗口,获得所述第二风险信息的双词词组列表和三词词组列表;将所述双词词组列表中语义搭配度小于第一预设阈值的词组删除,从而更新所述双词词组列表;将所述三词词组列表中语义搭配度小于第二预设阈值的词组删除,从而更新所述三词词组列表;将所述双词词组列表和所述三词词组列表中风险指数小于第三预设阈值的词组删除,从而更新所述双词词组列表和所述三词词组列表;其中,风险指数与第二频次与第一频次的比值呈负相关;所述第一频次为词组在风险文本中出现的频次;所述第二频次为词组在非风险文本中出现的频次;根据更新后的所述双词词组列表和更新后的所述三词词组列表,更新所述风险词库。
上述第二方面及第二方面各个实施例的有益效果,可以参考上述第一方面及第一方面各个实施例的有益效果,这里不再赘述。
第三方面,本申请实施例提供一种计算机设备,包括程序或指令,当所述程序或指令被执行时,用以执行上述第一方面及第一方面各个实施例的方法。
第四方面,本申请实施例提供一种存储介质,包括程序或指令,当所述程序或指令被执行时,用以执行上述第一方面及第一方面各个实施例的方法。
附图说明
图1为本申请实施例提供的一种风险实体获取方法可应用的架构示意图;
图2为本申请实施例提供的一种风险实体获取方法的步骤流程示意图;
图3为本申请实施例提供的LSTM神经网络的结构示意图;
图4为本申请实施例提供的一种风险实体获取装置的结构示意图。
具体实施方式
为了更好的理解上述技术方案,下面将结合说明书附图及具体的实施方式对上述技术方案进行详细的说明,应当理解本申请实施例以及实施例中的具体特征是对本申请技术方案的详细的说明,而不是对本申请技术方案的限定,在不冲突的情况下,本申请实施例以及实施例中的技术特征可以相互结合。
在金融机构(银行机构、保险机构或证券机构)在进行业务(如银行的贷款业务、存款业务等)运转过程中,需要进行风险控制(如各个金融科技企业对于发放给用户的贷款能否回收),目前常通过收集风险实体进行风险控制。风险实体为风险用户的一项基本属性信息(如风险用户的姓名、住址、电话号码等)。但是,目前的方法是当某个用户出现了高风险行为(如恶意欠款)后,才收集用户及各风险实体,这种方式是滞后于风险行为,不能及时获取风险实体。这种情况不符合银行等金融机构的需求,无法保证金融机构各项业务的高效运转。
为此,本申请提出一种风险实体获取方法。如图1所示,为该风险实体获取方法可应用的架构示意图。
该架构分为四个部分:数据采集模块:该模块用于获取互联网上的发布信息(新闻数据),具体可以包括媒体网站的新闻数据,论坛贴吧数据,社交网站数据以及QQ交流群数据,并存储在该架构的本地。风险实体抽取模块:用于根据风险词库,从发布信息中找到包含风险词的风险信息,并从风险信息中抽取风险实体。风险词抽取模块,用于根据风险实体库,获取基于风险实体的风险信息,并从风险信息中抽取风险词。风险信息展示模块,用于对风险词库、风险实体库及风险信息进行展示。
下面结合图2,详细说明本申请提供的一种风险实体获取方法。
步骤201:确定包含风险词的第一风险信息。
所述风险词来源于预收集的风险词库。
步骤202:对所述第一风险信息进行片段划分,获取多个风险片段信息。相邻的两个风险片段信息具有首尾重叠区域。
步骤203:针对任一风险片段信息,若确定所述风险片段信息为第一文本类型,则获取所述风险片段信息中的风险实体。
步骤201是从大量的多条发布信息中检索出风险信息的步骤,也就是说,风险信息是多条发布信息中包含风险词的发布信息,第一风险信息是风险信息的其中一条,每条风险信息都可以按照第一风险信息的处理方式去处理。举例来说,如图3所示,第一风险信息为:招聘兼职恶意刷单员,中介代办黑户洗白广告,0首付0月供买车广告等。分析:a.仅仅根据新闻正文包含风险词“0首付”,“0月供”,“0利率”,“黑户洗白”,“差评刷单”,“无需审核”,“无抵押无担保”,来作为风险实体的抽取文本是不可靠的,这样会把很多风险防范类或者政策类的发布信息保留下来,比如“小区居民谨防参与‘无抵押无担保’的二手车贷款,以防被骗,造成自身的财产损失”,“禁止企业用户参与差评刷单服务”等。其中,咨询热线“180********”为风险实体。因此,需要对第一风险信息继续判断。
步骤202中,可以使用结巴分词来对第一风险信息进行片段划分。结巴分词是一种开源的中文分词工具,可以对输入的中文文本进行切词以及词性标注。为了保证不遗漏风险实体,相邻的两个风险片段信息具有首尾重叠区域,从而可以多次检验同一位置的信息。举例来说,用一个长度为90的窗口,步长为30,对风险信息进行滑动切分,得到一个风险片段信息列表。
步骤203中,针对任一风险片段信息,都会确定所述风险片段信息是否为第一文本类型,若是,则获取所述风险片段信息中的风险实体。以确定所述风险片段信息是第一文本类型的情况为例,具体实施方式可以为:
对所述风险片段信息进行分词,对分词后的每个词向量进行叠加,获得所述风险片段信息的文档向量;将所述文档向量输入第一二分类模型;所述第一二分类模型用于确定所述风险片段信息是否为第二文本类型;在确定所述风险片段信息为第二文本类型后,将所述文档向量输入第二二分类模型,确定所述风险片段信息为所述第一文本类型;所述第一文本类型是所述第二文本类型中的一种。
举例来说,第二文本类型包括广告文本类型和无意义文本类型。无意义文本类型指以搞笑玩梗,恶作剧,无聊发泄情绪等没有任何实际意义的文本类型。第一文本类型为广告文本类型。下面以此例子具体说明第一二分类模型和第二二分类模型的获得过程:
通过第一二分类模型和第二二分类模型两个二分类模型的来确定风险片段信息为广告文本类型的动机是:风险实体在互联网上多出现在广告文本类型的发布消息,因此可以先进行广告文本类型的识别,在此基础上进一步判断风险片段信息是否为广告文本类型。但是某些广告文本类型的风险片段信息和无意义文本在词语分布上非常接近,直接训练一个高准确率的广告文本类型的二分类模型是比较困难的。因此,可以首先训练一个识别“第二文本类型”的二分类模型,即判断风险片段信息是否为第二文本类型(包括广告文本类型和无意义文本类型)。另外,由于一些恶意的风险信息如“招聘兼职恶意刷单员”,为了防止被搜索引擎或者网络社区管理员轻易识别并删除,通常会被混入正常新闻内容中进行发布。这样一来,直接使用新闻正文训练的二分类模型的准确率会大打折扣。然后再训练一个区分包括广告文本类型和无意义文本类型的二分类模型,通过两个步骤来得到识别出广告文本类型的二分类模型,提高识别准确率。
第一步、训练“第二文本类型”的第一二分类模型,具体训练过程如下:
随机抽取6万篇发布信息,对每篇发布信息依次标注是否为“第二文本类型”(这样便于让“第二文本类型”的发布信息在训练样本中的分布,与真实数据中的分布是一致的),将每篇发布信息用切词工具(如结巴切词)切词后,把每个词的词向量叠加得到该发布信息的文档向量。然后将这6万文档向量随机分为三份,4.2万向量作为训练集,1.2万向量作为测试集,0.6万向量作为验证集,并用预设二分类模型来(如XGBoost模型、fasttext模型)训练出第一二分类模型。
第二步、训练“第一文本类型”的第一二分类模型,具体训练过程如下:
获取3万篇标注了广告文本类型的发布信息,以及3万篇无意义文本类型的发布信息,将每篇发布信息用切词工具(如结巴切词)切词后,把每个词的词向量叠加得到该发布信息的文档向量。然后将这6万文档向量随机分为三份,4.2万向量作为训练集,1.2万向量作为测试集,0.6万向量作为验证集,并用用预设二分类模型来(如XGBoost模型、fasttext模型)训练出第二二分类模型。
需要说明的是,XGBoost二分类模型是由多个分类回归树组合得到的集成模型。而在树模型的训练过程中,通常需要设置一个最大树深度d,当树的深度超过d后进行剪枝处理,防止树模型在训练集上过拟合,但是这个d值如果设置太小,又会造成模型欠拟合的情况。因此,设置一个合理的d值十分重要。接下来描述如何挑选一个最优的最大树深度值。i)首先设置最大树深度为3;ii)在训练集上训练一个XGBoost模型,在测试集上计算当前模型的准确率,并记录下来;iii)依次设置最大树深度为4,5,6,…,20,重复步骤ii,记录下每个模型在测试集上的准确率;iv)挑选在测试集上准确率最大的XGBoost模型对应的最大树深度d值,作为最终的参数选择,最后计算该模型在验证集上的准确率,这个值就是最终的模型性能结果,作为后续模型改进的一个参考值。
步骤103中,确定了所述风险片段信息为第一文本类型后,所述风险片段信息中的风险实体包括多种类别的风险实体(如字符类和汉字类);获取所述风险片段信息中的风险实体的方式可以为:
将所述风险片段信息中与预设匹配规则匹配到的词语,作为所述风险片段信息中的风险实体的第一类别的风险实体组合;针对所述第一类别组合中任一风险实体,从所述第一风险信息中获取包含所述风险实体的原句以及所述原句的相邻句子;通过实体标注模型,从所述原句和所述相邻句子中确定所述风险片段信息中的风险实体的第二类别的风险实体组合;将所述第一类别的风险实体组合和所述第二类别的风险实体组合中的所有词语,作为所述风险片段信息中的风险实体。
下面举例说明上述实施方式的动机:
举例来说,第一类别的风险实体组合为手机号码、座机号码、微信号码、QQ号码、邮箱、人名、机构名和地名,其中手机号码、座机号码、微信号码、QQ号码、邮箱和机构名可以直接用于后续贷前贷中风控来过滤风险用户。因此,可以考虑到风险实体的用户在互联网上发布完风险信息(如兼职招聘,中介代办,卖车广告等)后,是需要别人来主动联系的,所以大多数风险信息中都会包含有风险实体的联系方式,所以针对步骤b保留下来的新闻数据,首先从中抽取可能存在的联系方式,然后在联系方式的前后抽取对应的人名,机构名和地名。
具体来说,以预设匹配规则为所述第一类别包括的至少一个正则匹配表达式为例;将所述风险片段信息中与预设匹配规则匹配到的词语,作为所述风险片段信息中的风险实体的第一类别的风险实体组合的方式具体可以为:
将所述至少一个正则匹配表达式与所述风险片段信息进行正则表达匹配;其中,每个正则匹配表达式都对应一种风险实体子类型(如手机号码);针对所述至少一个正则匹配表达式中任一正则匹配表达式(如手机号码的正则匹配表达式),将所述正则匹配表达式在所述风险片段信息中匹配成功的风险实体,作为所述第一风险实体组合中所述正则匹配表达式对应风险实体子类型的风险实体。
举例来说,手机号码的正则匹配表达式为:
^1[3|4|5|7|8][0-9]\d{8}$。
座机号码的正则匹配表达式为:
^0\d{2,3}-\d{7,8}$。
QQ号码的正则匹配表达式为:^[1-9]\d{4,9}$。
邮箱的正则匹配表达式为:
^[a-zA-Z0-9_.-]+@[a-zA-Z0-9-]+(\.[a-zA-Z0-9-]+)*\.[a-zA-Z0-9]{2,6}$。
若风险片段信息中不包含上述任意一种联系方式,则结束处理;若包含,则继续获取第二类别的风险实体组合,以所述实体标注模型为长短期记忆LSTM神经网络为例说明。所述LSTM神经网络是根据句子向量集训练的;所述句子向量集中的句子向量中标注了该句子向量的句子中每个字的字类型。将所述原句和所述相邻句子输入预训练的风险实体标注模型,将所述原句和所述相邻句子中标注为风险实体的词语,作为第二风险实体组合,具体可以采用以下实施方式:
针对所述原句和所述相邻句子中任一句子,将所述句子输入所述LSTM神经网络,获得所述句子中每个字的字类型;确定所述句子中存在连续的至少一个字的字类型均对应相同的风险实体子类型,则将所述至少一个连续的字组成的词语标注为风险实体,并作为所述第二类别的风险实体组合中对应所述风险实体子类型的风险实体。
举例来说,将包含第一类别的风险实体组合中风险实体(如手机号码)的句子,以及该句的前一条和后一条句子,分别输入实体标注模型,从中抽取可能包含的人名,机构名和地名。
从句子中抽取人名,机构名和地名的问题可以抽象为一个序列标注的问题,因此实体标注模型的训练步骤可以为:
用“B-PER”表示人名的首字(B-PER为字类型,对应人名的风险实体子类型),“E-PER”表示人名的尾字,“B-ORG”表示机构名的首字,“E-ORG”表示机构名的尾字,“B-LOC”表示地名的首字,“E-LOC”表示地名的尾字,“O”表示其他字。举例来说,句子“中国银行李四在深圳出席会议”可以被标注为“中\B-ORG国\O银\O行\E-ORG李\B-PER四\E-PER在O\深\B-LOC圳\E-LOC出\O席\O会\O议\O”,B-PER和E-PER,B-ORG和E-ORG,B-LOC和E-LOC之间的字串分别表示人名,机构名和地名。共标注2万条句子,将句子中各个字的字向量(由word2vec工具提前训练得到),按照顺序依次输入如图3示出结构的神经网络中,来训练一个实体标注模型。LSTM神经网络从下到上分别为输入层,双向LSTM层和CRF层。输入的字向量首先会经过双向LSTM神经元节点的处理,输出是对应字被标记为B-PER、E-PER、B-ORG、E-ORG、B-LOC、E-LOC和O的概率值。双向LSTM神经元节点的输出会作为CRF层的输入被进一步处理,网络最终的输出就是句中各个字的标注结果。其中双向LSTM层的神经元节点的参数采用正交初始化,所有神经元节点的激活函数采用ReLU函数。
在第一类别的风险实体组合和第二类别的风险实体组合都获取到之后,可以将第一类别的风险实体组合和第二类别的风险实体组合中抽取到的所有词语组合为一个json格式的数据存入风险实体库,json结构中包含如下键值:手机号码、座机号码、微信号码、QQ号码、邮箱、人名、机构名、地名、实体所在的新闻ID,新闻标题,新闻发布源,新闻发布时间和新闻链接。
步骤203之后,还可以执行以下方法更新风险词库:
第一步、将所述风险片段信息中的风险实体存入风险实体数据库;根据所述风险实体数据库,获取预设周期内采集的信息中包含风险实体的第二风险信息。
举例来说,第一步中,对最近7天内采集的所有新闻数据,依次判断是否包含风险实体库中的风险实体,若包含则将其定义为第二风险信息,保留下来作为下一步的输入。由于人名和地名会存在重名的情况,无法唯一确定特定的风险实体,因此这里判断包含风险实体的标准是:包含某个风险实体的手机号码,座机号码,微信号码,QQ号码,邮箱和机构名中的任意一个。
第二步、对所述第二风险信息切词,并按照长度为2的窗口和长度为3的窗口,获得所述第二风险信息的双词词组列表和三词词组列表;将所述双词词组列表中语义搭配度小于第一预设阈值的词组删除,从而更新所述双词词组列表;将所述三词词组列表中语义搭配度小于第二预设阈值的词组删除,从而更新所述三词词组列表;将所述双词词组列表和所述三词词组列表中风险指数小于第三预设阈值的词组删除,从而更新所述双词词组列表和所述三词词组列表;其中,风险指数与第二频次与第一频次的比值呈负相关;所述第一频次为词组在风险文本中出现的频次;所述第二频次为词组在非风险文本中出现的频次;根据更新后的所述双词词组列表和更新后的所述三词词组列表,更新所述风险词库。
将第二风险信息的依次过滤标点符号,并用切词工具进行切词,得到正文的词列表。然后用一个长度为2的窗口在词列表上滑动,得到所有可能的双词词组,同理用一个长度为3的窗口在词列表上滑动,得到所有可能的三词词组。例如,正文切词后的词列表为[A,B,C,D,E,F],得到的双词词组列表为[AB,BC,CD,DE,EF],三词词组列表为[ABC,BCD,CDE,DEF]。
接下来根据词频来分析上述的双词词组与三词词组是被偶然组合在一起的,还是作为一个固定搭配被频繁的使用,前者比如“企业用户”,后者比如“黑户洗白”,而后者也是本场景需要筛选的词组。用P(A)表示词语A在所有风险新闻中出现的概率,那么一个双词词组AB会被固定搭配使用的语义搭配度为
一个三词词组ABC的语义搭配度为
依次计算所有双词和三词词组被固定搭配使用的语义搭配度,语义搭配度越高证明词组被固定搭配使用的概率越高,因此将语义搭配度低于第一预设阈值(如10)的双词词组与可能性低于第二预设阈值(如100)的三词词组从双词词组列表或三词词组列表中删除。
接下来在对双词词组列表或三词词组列表的风险指数进行评估,需要说明的是,风险指数与第二频次与第一频次的比值呈负相关。举例来说用第一频次D′(AB)和第二频次D(AB)分别表示词组AB在风险文本中出现的频次和非风险文本中出现的频次(具体可通过查表获得统计频次),那么一个词组所携带的风险指数可以表示为:
三词词组所携带的风险指数的表示同双词词组,不再赘述。依次计算所有双词和三词词组所携带的风险指数β,将β值小于第三预设阈值(如5)的词组从双词词组列表或从三词词组列表中删除。最后判断保留下来的双词词组和三词词组,是否已经存在于风险词库中,若存在,则跳过,若不存在,则将该词加入风险词库中。
该步骤之后,还可以对风险信息进行展示,具体来说:
风险实体及风险信息展示:通过网页形式对风险实体库内的数据进行展示,同时展示包含该风险实体的风险信息列表。可以由业务分析员进行人工审核,将正确的风险实体加入黑名单,删除误召回的无风险实体;
风险关键词和风险信息展示:通过网页形式对风险词库内的数据进行展示,同时展示包含该风险词的风险信息列表,由业务分析员进行人工审核,删除误召回的无风险词。
如图4所示,本申请提供一种风险实体获取装置,包括:确定模块401,用于确定包含风险词的第一风险信息;所述风险词来源于预收集的风险词库;处理模块402,用于对所述第一风险信息进行片段划分,获取多个风险片段信息;相邻的两个风险片段信息具有首尾重叠区域;针对任一风险片段信息,若确定所述风险片段信息为第一文本类型,则获取所述风险片段信息中的风险实体。
一种可选实施方式中,所述处理模块402具体用于:对所述风险片段信息进行分词,对分词后的每个词向量进行叠加,获得所述风险片段信息的文档向量;将所述文档向量输入第一二分类模型;所述第一二分类模型用于确定所述风险片段信息为第二文本类型;在确定所述风险片段信息为第二文本类型后,将所述文档向量输入第二二分类模型,确定所述风险片段信息是否为所述第一文本类型;所述第一文本类型是所述第二文本类型中的一种。
一种可选实施方式中,所述风险片段信息中的风险实体包括多种类别的风险实体;所述处理模块402具体用于:将所述风险片段信息中与预设匹配规则匹配到的词语,作为所述风险片段信息中的风险实体的第一类别的风险实体组合;针对所述第一类别组合中任一风险实体,从所述第一风险信息中获取包含所述风险实体的原句以及所述原句的相邻句子;通过实体标注模型,从所述原句和所述相邻句子中确定所述风险片段信息中的风险实体的第二类别的风险实体组合;将所述第一类别的风险实体组合和所述第二类别的风险实体组合中的所有词语,作为所述风险片段信息中的风险实体。
一种可选实施方式中,所述预设匹配规则为所述第一类别包括的至少一个正则匹配表达式;所述处理模块402具体用于:将所述至少一个正则匹配表达式与所述风险片段信息进行正则表达匹配;其中,每个正则匹配表达式都对应一种风险实体子类型;针对所述至少一个正则匹配表达式中任一正则匹配表达式,将所述正则匹配表达式在所述风险片段信息中匹配成功的风险实体,作为所述第一类别的风险实体组合中所述正则匹配表达式对应风险实体子类型的风险实体。
一种可选实施方式中,所述实体标注模型为长短期记忆LSTM神经网络;所述LSTM神经网络是根据句子向量集训练的;所述句子向量集中的句子向量中标注了该句子向量的句子中每个字的字类型;所述处理模块402具体用于:针对所述原句和所述相邻句子中任一句子,将所述句子输入所述LSTM神经网络,获得所述句子中每个字的字类型;确定所述句子中存在连续的至少一个字的字类型均对应相同的风险实体子类型,则将所述至少一个连续的字组成的词语标注为风险实体,并作为所述第二类别的风险实体组合中对应所述风险实体子类型的风险实体。
一种可选实施方式中,所述获取所述风险片段信息中的风险实体之后,所述处理模块402具体用于:将所述风险片段信息中的风险实体存入风险实体数据库,以更新所述风险实体数据库;根据所述风险实体数据库,获取预设周期内采集的信息中包含风险实体的第二风险信息;对所述第二风险信息切词,并按照长度为2的窗口和长度为3的窗口,获得所述第二风险信息的双词词组列表和三词词组列表;将所述双词词组列表中语义搭配度小于第一预设阈值的词组删除,从而更新所述双词词组列表;将所述三词词组列表中语义搭配度小于第二预设阈值的词组删除,从而更新所述三词词组列表;将所述双词词组列表和所述三词词组列表中风险指数小于第三预设阈值的词组删除,从而更新所述双词词组列表和所述三词词组列表;其中,风险指数与第二频次与第一频次的比值呈负相关;所述第一频次为词组在风险文本中出现的频次;所述第二频次为词组在非风险文本中出现的频次;根据更新后的所述双词词组列表和更新后的所述三词词组列表,更新所述风险词库。
本申请实施例提供一种计算机设备,包括程序或指令,当所述程序或指令被执行时,用以执行本申请实施例提供的一种风险实体获取方法及任一可选方法。
本申请实施例提供一种存储介质,包括程序或指令,当所述程序或指令被执行时,用以执行本申请实施例提供的一种风险实体获取方法及任一可选方法。
最后应说明的是:本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (9)
1.一种风险实体获取方法,其特征在于,包括:
确定包含风险词的第一风险信息;所述风险词来源于预收集的风险词库;
对所述第一风险信息进行片段划分,获取多个风险片段信息;相邻的两个风险片段信息具有首尾重叠区域;
针对任一风险片段信息,若确定所述风险片段信息为第一文本类型,则获取所述风险片段信息中的风险实体;
将所述风险片段信息中的风险实体存入风险实体数据库,以更新所述风险实体数据库;
根据所述风险实体数据库,获取预设周期内采集的信息中包含风险实体的第二风险信息;
对所述第二风险信息切词,并按照长度为2的窗口和长度为3的窗口,获得所述第二风险信息的双词词组列表和三词词组列表;
将所述双词词组列表中语义搭配度小于第一预设阈值的词组删除,从而更新所述双词词组列表;将所述三词词组列表中语义搭配度小于第二预设阈值的词组删除,从而更新所述三词词组列表;
将所述双词词组列表和所述三词词组列表中风险指数小于第三预设阈值的词组删除,从而更新所述双词词组列表和所述三词词组列表;其中,风险指数与第二频次与第一频次的比值呈负相关;所述第一频次为词组在风险文本中出现的频次;所述第二频次为词组在非风险文本中出现的频次;
根据更新后的所述双词词组列表和更新后的所述三词词组列表,更新所述风险词库。
2.如权利要求1所述的方法,其特征在于,确定所述风险片段信息为第一文本类型,包括:
对所述风险片段信息进行分词,对分词后的每个词向量进行叠加,获得所述风险片段信息的文档向量;
将所述文档向量输入第一二分类模型;所述第一二分类模型用于确定所述风险片段信息是否为第二文本类型;
在确定所述风险片段信息为第二文本类型后,将所述文档向量输入第二二分类模型,确定所述风险片段信息为所述第一文本类型;所述第一文本类型是所述第二文本类型中的一种。
3.如权利要求1所述的方法,其特征在于,所述风险片段信息中的风险实体包括多种类别的风险实体;所述获取所述风险片段信息中的风险实体,包括:
将所述风险片段信息中与预设匹配规则匹配到的词语,作为所述风险片段信息中的风险实体的第一类别的风险实体组合;
针对所述第一类别组合中任一风险实体,从所述第一风险信息中获取包含所述风险实体的原句以及所述原句的相邻句子;通过实体标注模型,从所述原句和所述相邻句子中确定所述风险片段信息中的风险实体的第二类别的风险实体组合;
将所述第一类别的风险实体组合和所述第二类别的风险实体组合中的所有词语,作为所述风险片段信息中的风险实体。
4.如权利要求3所述的方法,其特征在于,所述预设匹配规则为所述第一类别包括的至少一个正则匹配表达式;所述将所述风险片段信息中与预设匹配规则匹配到的词语,作为所述风险片段信息中的风险实体的第一类别的风险实体组合;包括:
将所述至少一个正则匹配表达式与所述风险片段信息进行正则表达匹配;其中,每个正则匹配表达式都对应一种风险实体子类型;
针对所述至少一个正则匹配表达式中任一正则匹配表达式,将所述正则匹配表达式在所述风险片段信息中匹配成功的风险实体,作为所述第一类别的风险实体组合中所述正则匹配表达式对应风险实体子类型的风险实体。
5.如权利要求3所述的方法,其特征在于,所述实体标注模型为长短期记忆LSTM神经网络;所述LSTM神经网络是根据句子向量集训练的;所述句子向量集中的句子向量中标注了该句子向量的句子中每个字的字类型;所述通过实体标注模型,从所述原句和所述相邻句子中确定所述风险片段信息中的风险实体的第二类别的风险实体组合;包括:
针对所述原句和所述相邻句子中任一句子,将所述句子输入所述LSTM神经网络,获得所述句子中每个字的字类型;
确定所述句子中存在连续的至少一个字的字类型均对应相同的风险实体子类型,则将所述至少一个连续的字组成的词语标注为风险实体,并作为所述第二类别的风险实体组合中对应所述风险实体子类型的风险实体。
6.一种风险实体获取装置,其特征在于,包括:
确定模块,用于确定包含风险词的第一风险信息;所述风险词来源于预收集的风险词库;
处理模块,用于对所述第一风险信息进行片段划分,获取多个风险片段信息;相邻的两个风险片段信息具有首尾重叠区域;针对任一风险片段信息,若确定所述风险片段信息为第一文本类型,则获取所述风险片段信息中的风险实体;
将所述风险片段信息中的风险实体存入风险实体数据库,以更新所述风险实体数据库;
根据所述风险实体数据库,获取预设周期内采集的信息中包含风险实体的第二风险信息;
对所述第二风险信息切词,并按照长度为2的窗口和长度为3的窗口,获得所述第二风险信息的双词词组列表和三词词组列表;
将所述双词词组列表中语义搭配度小于第一预设阈值的词组删除,从而更新所述双词词组列表;将所述三词词组列表中语义搭配度小于第二预设阈值的词组删除,从而更新所述三词词组列表;
将所述双词词组列表和所述三词词组列表中风险指数小于第三预设阈值的词组删除,从而更新所述双词词组列表和所述三词词组列表;其中,风险指数与第二频次与第一频次的比值呈负相关;所述第一频次为词组在风险文本中出现的频次;所述第二频次为词组在非风险文本中出现的频次;
根据更新后的所述双词词组列表和更新后的所述三词词组列表,更新所述风险词库。
7.如权利要求6所述的装置,其特征在于,所述处理模块具体用于:
对所述风险片段信息进行分词,对分词后的每个词向量进行叠加,获得所述风险片段信息的文档向量;
将所述文档向量输入第一二分类模型;所述第一二分类模型用于确定所述风险片段信息为第二文本类型;
在确定所述风险片段信息为第二文本类型后,将所述文档向量输入第二二分类模型,确定所述风险片段信息是否为所述第一文本类型;所述第一文本类型是所述第二文本类型中的一种。
8.一种计算机设备,其特征在于,包括程序或指令,当所述程序或指令被执行时,如权利要求1至5中任意一项所述的方法被执行。
9.一种存储介质,其特征在于,包括程序或指令,当所述程序或指令被执行时,如权利要求1至5中任意一项所述的方法被执行。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911159795.XA CN110880142B (zh) | 2019-11-22 | 2019-11-22 | 一种风险实体获取方法及装置 |
PCT/CN2020/129120 WO2021098651A1 (zh) | 2019-11-22 | 2020-11-16 | 一种风险实体获取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911159795.XA CN110880142B (zh) | 2019-11-22 | 2019-11-22 | 一种风险实体获取方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110880142A CN110880142A (zh) | 2020-03-13 |
CN110880142B true CN110880142B (zh) | 2024-01-19 |
Family
ID=69729336
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911159795.XA Active CN110880142B (zh) | 2019-11-22 | 2019-11-22 | 一种风险实体获取方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110880142B (zh) |
WO (1) | WO2021098651A1 (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110880142B (zh) * | 2019-11-22 | 2024-01-19 | 深圳前海微众银行股份有限公司 | 一种风险实体获取方法及装置 |
CN112989835B (zh) * | 2021-04-21 | 2021-10-08 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 一种复杂医疗实体抽取方法 |
CN113689201B (zh) * | 2021-09-07 | 2024-04-19 | 浙江网商银行股份有限公司 | 基于区块链的数据处理方法及系统 |
CN114780708A (zh) * | 2022-03-01 | 2022-07-22 | 杭州量知数据科技有限公司 | 基于全球专利的产业领域关键短板技术的自动挖掘方法 |
CN114661911A (zh) * | 2022-04-01 | 2022-06-24 | 未鲲(上海)科技服务有限公司 | 税收优惠事件提取的方法、装置、计算机设备和存储介质 |
CN116308754B (zh) * | 2023-03-22 | 2024-02-13 | 广州信瑞泰信息科技有限公司 | 一种银行信贷风险预警系统及其方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015080561A1 (en) * | 2013-11-27 | 2015-06-04 | Mimos Berhad | A method and system for automated relation discovery from texts |
CN107729403A (zh) * | 2017-09-25 | 2018-02-23 | 中国工商银行股份有限公司 | 互联网信息风险提示方法及系统 |
CN108268613A (zh) * | 2017-12-29 | 2018-07-10 | 广州都市圈网络科技有限公司 | 基于语义分析的旅游行程生成方法、电子设备及存储介质 |
CN109118051A (zh) * | 2018-07-17 | 2019-01-01 | 阿里巴巴集团控股有限公司 | 基于网络舆情的风险商户识别及处置方法、装置及服务器 |
CN109558592A (zh) * | 2018-11-29 | 2019-04-02 | 上海点融信息科技有限责任公司 | 基于人工智能获取客户信用风险评估信息的方法及设备 |
CN110377731A (zh) * | 2019-06-18 | 2019-10-25 | 深圳壹账通智能科技有限公司 | 投诉文本处理方法、装置、计算机设备及存储介质 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2009025193A1 (ja) * | 2007-08-21 | 2009-02-26 | Nec Corporation | 情報共有システム、情報共有方法、および情報共有プログラム |
CN102262632B (zh) * | 2010-05-28 | 2014-03-19 | 国际商业机器公司 | 进行文本处理的方法和系统 |
CN108959368A (zh) * | 2018-05-22 | 2018-12-07 | 深圳壹账通智能科技有限公司 | 一种信息监控方法、存储介质和服务器 |
CN109583738A (zh) * | 2018-11-22 | 2019-04-05 | 第创业证券股份有限公司 | 一种用于债券风险控制的装置及方法 |
CN110135693A (zh) * | 2019-04-12 | 2019-08-16 | 北京中科闻歌科技股份有限公司 | 一种风险识别方法、装置、设备及存储介质 |
CN110532563B (zh) * | 2019-09-02 | 2023-06-20 | 苏州美能华智能科技有限公司 | 文本中关键段落的检测方法及装置 |
CN110880142B (zh) * | 2019-11-22 | 2024-01-19 | 深圳前海微众银行股份有限公司 | 一种风险实体获取方法及装置 |
-
2019
- 2019-11-22 CN CN201911159795.XA patent/CN110880142B/zh active Active
-
2020
- 2020-11-16 WO PCT/CN2020/129120 patent/WO2021098651A1/zh active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015080561A1 (en) * | 2013-11-27 | 2015-06-04 | Mimos Berhad | A method and system for automated relation discovery from texts |
CN107729403A (zh) * | 2017-09-25 | 2018-02-23 | 中国工商银行股份有限公司 | 互联网信息风险提示方法及系统 |
CN108268613A (zh) * | 2017-12-29 | 2018-07-10 | 广州都市圈网络科技有限公司 | 基于语义分析的旅游行程生成方法、电子设备及存储介质 |
CN109118051A (zh) * | 2018-07-17 | 2019-01-01 | 阿里巴巴集团控股有限公司 | 基于网络舆情的风险商户识别及处置方法、装置及服务器 |
CN109558592A (zh) * | 2018-11-29 | 2019-04-02 | 上海点融信息科技有限责任公司 | 基于人工智能获取客户信用风险评估信息的方法及设备 |
CN110377731A (zh) * | 2019-06-18 | 2019-10-25 | 深圳壹账通智能科技有限公司 | 投诉文本处理方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2021098651A1 (zh) | 2021-05-27 |
CN110880142A (zh) | 2020-03-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110880142B (zh) | 一种风险实体获取方法及装置 | |
WO2022134588A1 (zh) | 信息审核分类模型的构建方法和信息审核方法 | |
CN108885623B (zh) | 基于知识图谱的语意分析系统及方法 | |
CN111767716B (zh) | 企业多级行业信息的确定方法、装置及计算机设备 | |
CN104781837B (zh) | 用于通过使用基于事件的情绪分析来形成预测的系统和方法 | |
CN110443458A (zh) | 风险评估方法、装置、计算机设备和存储介质 | |
CN109523153A (zh) | 非法集资企业的获取方法、装置、计算机设备和存储介质 | |
CN113297283A (zh) | 用于企业风险预警的舆情分析方法及系统 | |
CN110489561A (zh) | 知识图谱构建方法、装置、计算机设备和存储介质 | |
CN109543925A (zh) | 基于机器学习的风险预测方法、装置、计算机设备和存储介质 | |
CN109800354B (zh) | 一种基于区块链存储的简历修改意图识别方法及系统 | |
Moon et al. | Document management system using text mining for information acquisition of international construction | |
CN111881302A (zh) | 基于知识图谱的银行舆情分析方法和系统 | |
CN109492097B (zh) | 一种企业新闻数据风险分类方法 | |
CN108734021B (zh) | 一种基于去隐私数据的金融贷款大数据风险评估方法与系统 | |
CN111914542A (zh) | 疑似非法集资市场主体识别方法、装置、终端及存储介质 | |
CN107679209B (zh) | 分类表达式生成方法和装置 | |
CN112016317A (zh) | 基于人工智能的敏感词识别方法、装置及计算机设备 | |
CN112464670A (zh) | 识别方法、识别模型的训练方法、装置、设备、存储介质 | |
CN111736804A (zh) | 一种基于用户评论识别App关键功能的方法及装置 | |
US20210073247A1 (en) | System and method for machine learning architecture for interdependence detection | |
Broniecki et al. | Data innovation for international development: An overview of natural language processing for qualitative data analysis | |
CN110807702A (zh) | 贷后信息的管理方法、装置、设备及存储介质 | |
Zhang | Uncovering mutual fund private information with machine learning | |
CN110766091B (zh) | 一种套路贷团伙的识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |