CN110880142A - 一种风险实体获取方法及装置 - Google Patents

一种风险实体获取方法及装置 Download PDF

Info

Publication number
CN110880142A
CN110880142A CN201911159795.XA CN201911159795A CN110880142A CN 110880142 A CN110880142 A CN 110880142A CN 201911159795 A CN201911159795 A CN 201911159795A CN 110880142 A CN110880142 A CN 110880142A
Authority
CN
China
Prior art keywords
risk
entity
information
word
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911159795.XA
Other languages
English (en)
Other versions
CN110880142B (zh
Inventor
蔡远航
郑少杰
付勇
范增虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN201911159795.XA priority Critical patent/CN110880142B/zh
Publication of CN110880142A publication Critical patent/CN110880142A/zh
Priority to PCT/CN2020/129120 priority patent/WO2021098651A1/zh
Application granted granted Critical
Publication of CN110880142B publication Critical patent/CN110880142B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Technology Law (AREA)
  • Computing Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Development Economics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种风险实体获取方法及装置,其中方法为:确定包含风险词的第一风险信息;所述风险词来源于预收集的风险词库;对所述第一风险信息进行片段划分,获取多个风险片段信息;相邻的两个风险片段信息具有首尾重叠区域;针对任一风险片段信息,若确定所述风险片段信息为第一文本类型,则获取所述风险片段信息中的风险实体。

Description

一种风险实体获取方法及装置
技术领域
本发明涉及金融科技(Fintech)领域和人工智能领域,尤其涉及一种风险实体获取方法及装置。
背景技术
随着计算机技术的发展,越来越多的技术(大数据、分布式、区块链(Blockchain)、人工智能等)应用在金融领域,传统金融业正在逐步向金融科技(Fintech)转变。目前,金融科技领域的风控意识愈加强烈,各个金融科技企业对于发放给用户的贷款能否回收的问题,越来越重视。
因此,目前一些金融科技企业通过收集风险实体进行风险控制。风险实体为风险用户的一项基本属性信息(如风险用户的姓名、住址、电话号码等)。目前收集风险实体的主要方式是,当某个用户出现高风险行为(如恶意欠款)后,再将该用户及各风险实体纳入黑名单,但这种方式是滞后于风险行为的发生的,不能及时获取风险实体,不利于及时判别用户是否为风险用户。
发明内容
本申请实施例提供一种风险实体获取方法及装置,解决了现有技术中不能及时获取风险实体的问题。
第一方面,本申请实施例提供一种风险实体获取方法,包括:确定包含风险词的第一风险信息;所述风险词来源于预收集的风险词库;对所述第一风险信息进行片段划分,获取多个风险片段信息;相邻的两个风险片段信息具有首尾重叠区域;针对任一风险片段信息,若确定所述风险片段信息为第一文本类型,则获取所述风险片段信息中的风险实体。
上述方法中,根据预收集的风险词库中的风险词,确定出包含风险词的第一风险信息,并对所述第一风险信息进行片段划分,获取多个风险片段信息,并且对任一风险片段信息,由于相邻的两个风险片段信息具有首尾重叠区域,因此风险实体必定会完整地落在某个风险片段信息中,针对任一风险片段信息,若确定所述风险片段信息为第一文本类型,则获取所述风险片段信息中的风险实体,从而只要有第一风险信息,就可以根据第一风险信息进行判断,及时获取到发布信息中的风险实体。
一种可选实施方式中,确定所述风险片段信息为第一文本类型,包括:对所述风险片段信息进行分词,对分词后的每个词向量进行叠加,获得所述风险片段信息的文档向量;将所述文档向量输入第一二分类模型;所述第一二分类模型用于确定所述风险片段信息是否为第二文本类型;在确定所述风险片段信息为第二文本类型后,将所述文档向量输入第二二分类模型,确定所述风险片段信息为所述第一文本类型;所述第一文本类型是所述第二文本类型中的一种。
上述方法中,由于第一文本类型是所述第二文本类型中的一种,直接判别第一文本类型不易与第二文本类型中的其他文本类型区分开,因此首先对所述风险片段信息进行分词,对分词后的每个词向量进行叠加,获得所述风险片段信息的文档向量;先将所述文档向量输入第一二分类模型,确定所述风险片段信息为第二文本类型,将风险片段信息与非第二文本类型区分开;并在确定所述风险片段信息为第二文本类型后,才将所述文档向量输入第二二分类模型,确定所述风险片段信息为所述第一文本类型,从而将风险片段信息与第二文本类型中的非第一文本类型区分开,从而对风险片段信息的判断更加精确。
一种可选实施方式中,所述风险片段信息中的风险实体包括多种类别的风险实体;所述获取所述风险片段信息中的风险实体,包括:将所述风险片段信息中与预设匹配规则匹配到的词语,作为所述风险片段信息中的风险实体的第一类别的风险实体组合;针对所述第一类别组合中任一风险实体,从所述第一风险信息中获取包含所述风险实体的原句以及所述原句的相邻句子;通过实体标注模型,从所述原句和所述相邻句子中确定所述风险片段信息中的风险实体的第二类别的风险实体组合;将所述第一类别的风险实体组合和所述第二类别的风险实体组合中的所有词语,作为所述风险片段信息中的风险实体。
上述方法中,根据不同的类别,通过与预设匹配规则匹配直接得到风险实体第一类别的风险实体组合,或者通过实体标注模型从所述原句和所述相邻句子中得到第二类别的风险实体组合,并将所述第一类别的风险实体组合和所述第二类别的风险实体组合中的所有词语,作为所述风险片段信息中的风险实体,从而根据风险实体的类别分别抽取,提升了风险实体的抽取效率和准确率。
一种可选实施方式中,所述预设匹配规则为所述第一类别包括的至少一个正则匹配表达式;所述将所述风险片段信息中与预设匹配规则匹配到的词语,作为所述风险片段信息中的风险实体的第一类别的风险实体组合;包括:将所述至少一个正则匹配表达式与所述风险片段信息进行正则表达匹配;其中,每个正则匹配表达式都对应一种风险实体子类型;针对所述至少一个正则匹配表达式中任一正则匹配表达式,将所述正则匹配表达式在所述风险片段信息中匹配成功的风险实体,作为所述第一风险实体组合中所述正则匹配表达式对应风险实体子类型的风险实体。
上述方式下,在第一类别的风险实体组合获取的过程中,通过第一类别包括的至少一个正则匹配表达式与所述风险片段信息进行正则表达匹配,由于每个正则匹配表达式都对应一种风险实体子类型,因此可根据每个正则匹配表达式匹配相应类型的风险实体,作为所述第一类别的风险实体组合中所述正则匹配表达式对应风险实体子类型的风险实体,从而更细粒度地获取第一类别的风险实体组合。
一种可选实施方式中,所述实体标注模型为长短期记忆LSTM神经网络;所述LSTM神经网络是根据句子向量集训练的;所述句子向量集中的句子向量中标注了该句子向量的句子中每个字的字类型;将所述原句和所述相邻句子输入预训练的风险实体标注模型,将所述原句和所述相邻句子中标注为风险实体的词语,作为第二风险实体组合;包括:针对所述原句和所述相邻句子中任一句子,将所述句子输入所述LSTM神经网络,获得所述句子中每个字的字类型;确定所述句子中存在连续的至少一个字的字类型均对应相同的风险实体子类型,则将所述至少一个连续的字组成的词语标注为风险实体,并作为所述第二类别的风险实体组合中对应所述风险实体子类型的风险实体。
上述方式下,所述实体标注模型为长短期记忆LSTM神经网络,LSTM神经网络对序列化数据的预测判别有突出的性能,况且LSTM神经网络是根据句子向量集训练,每个句子向量的句子中每个字的字类型,首先通过LSTM神经网络,更细粒度的预测原句和相邻句子中任一句子中每个字的字类型,并确定句子中字类型均对应相同的风险实体子类型的连续的至少一个字,通过细粒度对各个字的判别,更准确地获取到第二类别的风险实体组合中的风险实体。
一种可选实施方式中,所述获取所述风险片段信息中的风险实体之后,还包括:将所述风险片段信息中的风险实体存入风险实体数据库;根据所述风险实体数据库,获取预设周期内采集的信息中包含风险实体的第二风险信息;对所述第二风险信息切词,并按照长度为2的窗口和长度为3的窗口,获得所述第二风险信息的双词词组列表和三词词组列表;将所述双词词组列表中语义搭配度小于第一预设阈值的词组删除,从而更新所述双词词组列表;将所述三词词组列表中语义搭配度小于第二预设阈值的词组删除,从而更新所述三词词组列表;将所述双词词组列表和所述三词词组列表中风险指数小于第三预设阈值的词组删除,从而更新所述双词词组列表和所述三词词组列表;其中,风险指数与第二频次与第一频次的比值呈负相关;所述第一频次为词组在风险文本中出现的频次;所述第二频次为词组在非风险文本中出现的频次;根据更新后的所述双词词组列表和更新后的所述三词词组列表,更新所述风险词库。
上述方式下,在获取所述风险片段信息中的风险实体之后,将所述风险片段信息中的风险实体存入风险实体数据库,从而及时更新所述风险实体数据库,根据所述风险实体数据库,获取预设周期内采集的信息中包含风险实体的第二风险信息;对所述第二风险信息切词,并按照长度为2的窗口和长度为3的窗口,获得所述第二风险信息的双词词组列表和三词词组列表;并根据各词组的语义搭配度和风险指数从双词词组列表和三词词组列表中删除词组,由于,风险指数与第二频次与第一频次的比值呈负相关;从而可以准确地得到新的风险词,实现了通过新获取的风险实体及时更新风险词库。
第二方面,本申请提供一种风险实体获取装置,包括:确定模块,用于确定包含风险词的第一风险信息;所述风险词来源于预收集的风险词库;处理模块,用于对所述第一风险信息进行片段划分,获取多个风险片段信息;相邻的两个风险片段信息具有首尾重叠区域;针对任一风险片段信息,若确定所述风险片段信息为第一文本类型,则获取所述风险片段信息中的风险实体。
一种可选实施方式中,所述处理模块具体用于:对所述风险片段信息进行分词,对分词后的每个词向量进行叠加,获得所述风险片段信息的文档向量;将所述文档向量输入第一二分类模型;所述第一二分类模型用于确定所述风险片段信息为第二文本类型;在确定所述风险片段信息为第二文本类型后,将所述文档向量输入第二二分类模型,确定所述风险片段信息是否为所述第一文本类型;所述第一文本类型是所述第二文本类型中的一种。
一种可选实施方式中,所述风险片段信息中的风险实体包括多种类别的风险实体;所述处理模块具体用于:将所述风险片段信息中与预设匹配规则匹配到的词语,作为所述风险片段信息中的风险实体的第一类别的风险实体组合;针对所述第一类别组合中任一风险实体,从所述第一风险信息中获取包含所述风险实体的原句以及所述原句的相邻句子;通过实体标注模型,从所述原句和所述相邻句子中确定所述风险片段信息中的风险实体的第二类别的风险实体组合;将所述第一类别的风险实体组合和所述第二类别的风险实体组合中的所有词语,作为所述风险片段信息中的风险实体。
一种可选实施方式中,所述预设匹配规则为所述第一类别包括的至少一个正则匹配表达式;所述处理模块具体用于:将所述至少一个正则匹配表达式与所述风险片段信息进行正则表达匹配;其中,每个正则匹配表达式都对应一种风险实体子类型;针对所述至少一个正则匹配表达式中任一正则匹配表达式,将所述正则匹配表达式在所述风险片段信息中匹配成功的风险实体,作为所述第一类别的风险实体组合中所述正则匹配表达式对应风险实体子类型的风险实体。
一种可选实施方式中,所述实体标注模型为长短期记忆LSTM神经网络;所述LSTM神经网络是根据句子向量集训练的;所述句子向量集中的句子向量中标注了该句子向量的句子中每个字的字类型;所述处理模块具体用于:针对所述原句和所述相邻句子中任一句子,将所述句子输入所述LSTM神经网络,获得所述句子中每个字的字类型;确定所述句子中存在连续的至少一个字的字类型均对应相同的风险实体子类型,则将所述至少一个连续的字组成的词语标注为风险实体,并作为所述第二类别的风险实体组合中对应所述风险实体子类型的风险实体。
一种可选实施方式中,所述获取所述风险片段信息中的风险实体之后,所述处理模块具体用于:将所述风险片段信息中的风险实体存入风险实体数据库,以更新所述风险实体数据库;根据所述风险实体数据库,获取预设周期内采集的信息中包含风险实体的第二风险信息;对所述第二风险信息切词,并按照长度为2的窗口和长度为3的窗口,获得所述第二风险信息的双词词组列表和三词词组列表;将所述双词词组列表中语义搭配度小于第一预设阈值的词组删除,从而更新所述双词词组列表;将所述三词词组列表中语义搭配度小于第二预设阈值的词组删除,从而更新所述三词词组列表;将所述双词词组列表和所述三词词组列表中风险指数小于第三预设阈值的词组删除,从而更新所述双词词组列表和所述三词词组列表;其中,风险指数与第二频次与第一频次的比值呈负相关;所述第一频次为词组在风险文本中出现的频次;所述第二频次为词组在非风险文本中出现的频次;根据更新后的所述双词词组列表和更新后的所述三词词组列表,更新所述风险词库。
上述第二方面及第二方面各个实施例的有益效果,可以参考上述第一方面及第一方面各个实施例的有益效果,这里不再赘述。
第三方面,本申请实施例提供一种计算机设备,包括程序或指令,当所述程序或指令被执行时,用以执行上述第一方面及第一方面各个实施例的方法。
第四方面,本申请实施例提供一种存储介质,包括程序或指令,当所述程序或指令被执行时,用以执行上述第一方面及第一方面各个实施例的方法。
附图说明
图1为本申请实施例提供的一种风险实体获取方法可应用的架构示意图;
图2为本申请实施例提供的一种风险实体获取方法的步骤流程示意图;
图3为本申请实施例提供的LSTM神经网络的结构示意图;
图4为本申请实施例提供的一种风险实体获取装置的结构示意图。
具体实施方式
为了更好的理解上述技术方案,下面将结合说明书附图及具体的实施方式对上述技术方案进行详细的说明,应当理解本申请实施例以及实施例中的具体特征是对本申请技术方案的详细的说明,而不是对本申请技术方案的限定,在不冲突的情况下,本申请实施例以及实施例中的技术特征可以相互结合。
在金融机构(银行机构、保险机构或证券机构)在进行业务(如银行的贷款业务、存款业务等)运转过程中,需要进行风险控制(如各个金融科技企业对于发放给用户的贷款能否回收),目前常通过收集风险实体进行风险控制。风险实体为风险用户的一项基本属性信息(如风险用户的姓名、住址、电话号码等)。但是,目前的方法是当某个用户出现了高风险行为(如恶意欠款)后,才收集用户及各风险实体,这种方式是滞后于风险行为,不能及时获取风险实体。这种情况不符合银行等金融机构的需求,无法保证金融机构各项业务的高效运转。
为此,本申请提出一种风险实体获取方法。如图1所示,为该风险实体获取方法可应用的架构示意图。
该架构分为四个部分:数据采集模块:该模块用于获取互联网上的发布信息(新闻数据),具体可以包括媒体网站的新闻数据,论坛贴吧数据,社交网站数据以及QQ交流群数据,并存储在该架构的本地。风险实体抽取模块:用于根据风险词库,从发布信息中找到包含风险词的风险信息,并从风险信息中抽取风险实体。风险词抽取模块,用于根据风险实体库,获取基于风险实体的风险信息,并从风险信息中抽取风险词。风险信息展示模块,用于对风险词库、风险实体库及风险信息进行展示。
下面结合图2,详细说明本申请提供的一种风险实体获取方法。
步骤201:确定包含风险词的第一风险信息。
所述风险词来源于预收集的风险词库。
步骤202:对所述第一风险信息进行片段划分,获取多个风险片段信息。相邻的两个风险片段信息具有首尾重叠区域。
步骤203:针对任一风险片段信息,若确定所述风险片段信息为第一文本类型,则获取所述风险片段信息中的风险实体。
步骤201是从大量的多条发布信息中检索出风险信息的步骤,也就是说,风险信息是多条发布信息中包含风险词的发布信息,第一风险信息是风险信息的其中一条,每条风险信息都可以按照第一风险信息的处理方式去处理。举例来说,如图3所示,第一风险信息为:招聘兼职恶意刷单员,中介代办黑户洗白广告,0首付0月供买车广告等。分析:a.仅仅根据新闻正文包含风险词“0首付”,“0月供”,“0利率”,“黑户洗白”,“差评刷单”,“无需审核”,“无抵押无担保”,来作为风险实体的抽取文本是不可靠的,这样会把很多风险防范类或者政策类的发布信息保留下来,比如“小区居民谨防参与‘无抵押无担保’的二手车贷款,以防被骗,造成自身的财产损失”,“禁止企业用户参与差评刷单服务”等。其中,咨询热线“180********”为风险实体。因此,需要对第一风险信息继续判断。
步骤202中,可以使用结巴分词来对第一风险信息进行片段划分。结巴分词是一种开源的中文分词工具,可以对输入的中文文本进行切词以及词性标注。为了保证不遗漏风险实体,相邻的两个风险片段信息具有首尾重叠区域,从而可以多次检验同一位置的信息。举例来说,用一个长度为90的窗口,步长为30,对风险信息进行滑动切分,得到一个风险片段信息列表。
步骤203中,针对任一风险片段信息,都会确定所述风险片段信息是否为第一文本类型,若是,则获取所述风险片段信息中的风险实体。以确定所述风险片段信息是第一文本类型的情况为例,具体实施方式可以为:
对所述风险片段信息进行分词,对分词后的每个词向量进行叠加,获得所述风险片段信息的文档向量;将所述文档向量输入第一二分类模型;所述第一二分类模型用于确定所述风险片段信息是否为第二文本类型;在确定所述风险片段信息为第二文本类型后,将所述文档向量输入第二二分类模型,确定所述风险片段信息为所述第一文本类型;所述第一文本类型是所述第二文本类型中的一种。
举例来说,第二文本类型包括广告文本类型和无意义文本类型。无意义文本类型指以搞笑玩梗,恶作剧,无聊发泄情绪等没有任何实际意义的文本类型。第一文本类型为广告文本类型。下面以此例子具体说明第一二分类模型和第二二分类模型的获得过程:
通过第一二分类模型和第二二分类模型两个二分类模型的来确定风险片段信息为广告文本类型的动机是:风险实体在互联网上多出现在广告文本类型的发布消息,因此可以先进行广告文本类型的识别,在此基础上进一步判断风险片段信息是否为广告文本类型。但是某些广告文本类型的风险片段信息和无意义文本在词语分布上非常接近,直接训练一个高准确率的广告文本类型的二分类模型是比较困难的。因此,可以首先训练一个识别“第二文本类型”的二分类模型,即判断风险片段信息是否为第二文本类型(包括广告文本类型和无意义文本类型)。另外,由于一些恶意的风险信息如“招聘兼职恶意刷单员”,为了防止被搜索引擎或者网络社区管理员轻易识别并删除,通常会被混入正常新闻内容中进行发布。这样一来,直接使用新闻正文训练的二分类模型的准确率会大打折扣。然后再训练一个区分包括广告文本类型和无意义文本类型的二分类模型,通过两个步骤来得到识别出广告文本类型的二分类模型,提高识别准确率。
第一步、训练“第二文本类型”的第一二分类模型,具体训练过程如下:
随机抽取6万篇发布信息,对每篇发布信息依次标注是否为“第二文本类型”(这样便于让“第二文本类型”的发布信息在训练样本中的分布,与真实数据中的分布是一致的),将每篇发布信息用切词工具(如结巴切词)切词后,把每个词的词向量叠加得到该发布信息的文档向量。然后将这6万文档向量随机分为三份,4.2万向量作为训练集,1.2万向量作为测试集,0.6万向量作为验证集,并用预设二分类模型来(如XGBoost模型、fasttext模型)训练出第一二分类模型。
第二步、训练“第一文本类型”的第一二分类模型,具体训练过程如下:
获取3万篇标注了广告文本类型的发布信息,以及3万篇无意义文本类型的发布信息,将每篇发布信息用切词工具(如结巴切词)切词后,把每个词的词向量叠加得到该发布信息的文档向量。然后将这6万文档向量随机分为三份,4.2万向量作为训练集,1.2万向量作为测试集,0.6万向量作为验证集,并用用预设二分类模型来(如XGBoost模型、fasttext模型)训练出第二二分类模型。
需要说明的是,XGBoost二分类模型是由多个分类回归树组合得到的集成模型。而在树模型的训练过程中,通常需要设置一个最大树深度d,当树的深度超过d后进行剪枝处理,防止树模型在训练集上过拟合,但是这个d值如果设置太小,又会造成模型欠拟合的情况。因此,设置一个合理的d值十分重要。接下来描述如何挑选一个最优的最大树深度值。i)首先设置最大树深度为3;ii)在训练集上训练一个XGBoost模型,在测试集上计算当前模型的准确率,并记录下来;iii)依次设置最大树深度为4,5,6,…,20,重复步骤ii,记录下每个模型在测试集上的准确率;iv)挑选在测试集上准确率最大的XGBoost模型对应的最大树深度d值,作为最终的参数选择,最后计算该模型在验证集上的准确率,这个值就是最终的模型性能结果,作为后续模型改进的一个参考值。
步骤103中,确定了所述风险片段信息为第一文本类型后,所述风险片段信息中的风险实体包括多种类别的风险实体(如字符类和汉字类);获取所述风险片段信息中的风险实体的方式可以为:
将所述风险片段信息中与预设匹配规则匹配到的词语,作为所述风险片段信息中的风险实体的第一类别的风险实体组合;针对所述第一类别组合中任一风险实体,从所述第一风险信息中获取包含所述风险实体的原句以及所述原句的相邻句子;通过实体标注模型,从所述原句和所述相邻句子中确定所述风险片段信息中的风险实体的第二类别的风险实体组合;将所述第一类别的风险实体组合和所述第二类别的风险实体组合中的所有词语,作为所述风险片段信息中的风险实体。
下面举例说明上述实施方式的动机:
举例来说,第一类别的风险实体组合为手机号码、座机号码、微信号码、QQ号码、邮箱、人名、机构名和地名,其中手机号码、座机号码、微信号码、QQ号码、邮箱和机构名可以直接用于后续贷前贷中风控来过滤风险用户。因此,可以考虑到风险实体的用户在互联网上发布完风险信息(如兼职招聘,中介代办,卖车广告等)后,是需要别人来主动联系的,所以大多数风险信息中都会包含有风险实体的联系方式,所以针对步骤b保留下来的新闻数据,首先从中抽取可能存在的联系方式,然后在联系方式的前后抽取对应的人名,机构名和地名。
具体来说,以预设匹配规则为所述第一类别包括的至少一个正则匹配表达式为例;将所述风险片段信息中与预设匹配规则匹配到的词语,作为所述风险片段信息中的风险实体的第一类别的风险实体组合的方式具体可以为:
将所述至少一个正则匹配表达式与所述风险片段信息进行正则表达匹配;其中,每个正则匹配表达式都对应一种风险实体子类型(如手机号码);针对所述至少一个正则匹配表达式中任一正则匹配表达式(如手机号码的正则匹配表达式),将所述正则匹配表达式在所述风险片段信息中匹配成功的风险实体,作为所述第一风险实体组合中所述正则匹配表达式对应风险实体子类型的风险实体。
举例来说,手机号码的正则匹配表达式为:
^1[3|4|5|7|8][0-9]\d{8}$。
座机号码的正则匹配表达式为:
^0\d{2,3}-\d{7,8}$。
QQ号码的正则匹配表达式为:^[1-9]\d{4,9}$。
邮箱的正则匹配表达式为:
^[a-zA-Z0-9_.-]+@[a-zA-Z0-9-]+(\.[a-zA-Z0-9-]+)*\.[a-zA-Z0-9]{2,6}$
若风险片段信息中不包含上述任意一种联系方式,则结束处理;若包含,则继续获取第二类别的风险实体组合,以所述实体标注模型为长短期记忆LSTM神经网络为例说明。所述LSTM神经网络是根据句子向量集训练的;所述句子向量集中的句子向量中标注了该句子向量的句子中每个字的字类型。将所述原句和所述相邻句子输入预训练的风险实体标注模型,将所述原句和所述相邻句子中标注为风险实体的词语,作为第二风险实体组合,具体可以采用以下实施方式:
针对所述原句和所述相邻句子中任一句子,将所述句子输入所述LSTM神经网络,获得所述句子中每个字的字类型;确定所述句子中存在连续的至少一个字的字类型均对应相同的风险实体子类型,则将所述至少一个连续的字组成的词语标注为风险实体,并作为所述第二类别的风险实体组合中对应所述风险实体子类型的风险实体。
举例来说,将包含第一类别的风险实体组合中风险实体(如手机号码)的句子,以及该句的前一条和后一条句子,分别输入实体标注模型,从中抽取可能包含的人名,机构名和地名。
从句子中抽取人名,机构名和地名的问题可以抽象为一个序列标注的问题,因此实体标注模型的训练步骤可以为:
用“B-PER”表示人名的首字(B-PER为字类型,对应人名的风险实体子类型),“E-PER”表示人名的尾字,“B-ORG”表示机构名的首字,“E-ORG”表示机构名的尾字,“B-LOC”表示地名的首字,“E-LOC”表示地名的尾字,“O”表示其他字。举例来说,句子“中国银行李四在深圳出席会议”可以被标注为“中\B-ORG国\O银\O行\E-ORG李\B-PER四\E-PER在O\深\B-LOC圳\E-LOC出\O席\O会\O议\O”,B-PER和E-PER,B-ORG和E-ORG,B-LOC和E-LOC之间的字串分别表示人名,机构名和地名。共标注2万条句子,将句子中各个字的字向量(由word2vec工具提前训练得到),按照顺序依次输入如图3示出结构的神经网络中,来训练一个实体标注模型。LSTM神经网络从下到上分别为输入层,双向LSTM层和CRF层。输入的字向量首先会经过双向LSTM神经元节点的处理,输出是对应字被标记为B-PER、E-PER、B-ORG、E-ORG、B-LOC、E-LOC和O的概率值。双向LSTM神经元节点的输出会作为CRF层的输入被进一步处理,网络最终的输出就是句中各个字的标注结果。其中双向LSTM层的神经元节点的参数采用正交初始化,所有神经元节点的激活函数采用ReLU函数。
在第一类别的风险实体组合和第二类别的风险实体组合都获取到之后,可以将第一类别的风险实体组合和第二类别的风险实体组合中抽取到的所有词语组合为一个json格式的数据存入风险实体库,json结构中包含如下键值:手机号码、座机号码、微信号码、QQ号码、邮箱、人名、机构名、地名、实体所在的新闻ID,新闻标题,新闻发布源,新闻发布时间和新闻链接。
步骤203之后,还可以执行以下方法更新风险词库:
第一步、将所述风险片段信息中的风险实体存入风险实体数据库;根据所述风险实体数据库,获取预设周期内采集的信息中包含风险实体的第二风险信息。
举例来说,第一步中,对最近7天内采集的所有新闻数据,依次判断是否包含风险实体库中的风险实体,若包含则将其定义为第二风险信息,保留下来作为下一步的输入。由于人名和地名会存在重名的情况,无法唯一确定特定的风险实体,因此这里判断包含风险实体的标准是:包含某个风险实体的手机号码,座机号码,微信号码,QQ号码,邮箱和机构名中的任意一个。
第二步、对所述第二风险信息切词,并按照长度为2的窗口和长度为3的窗口,获得所述第二风险信息的双词词组列表和三词词组列表;将所述双词词组列表中语义搭配度小于第一预设阈值的词组删除,从而更新所述双词词组列表;将所述三词词组列表中语义搭配度小于第二预设阈值的词组删除,从而更新所述三词词组列表;将所述双词词组列表和所述三词词组列表中风险指数小于第三预设阈值的词组删除,从而更新所述双词词组列表和所述三词词组列表;其中,风险指数与第二频次与第一频次的比值呈负相关;所述第一频次为词组在风险文本中出现的频次;所述第二频次为词组在非风险文本中出现的频次;根据更新后的所述双词词组列表和更新后的所述三词词组列表,更新所述风险词库。
将第二风险信息的依次过滤标点符号,并用切词工具进行切词,得到正文的词列表。然后用一个长度为2的窗口在词列表上滑动,得到所有可能的双词词组,同理用一个长度为3的窗口在词列表上滑动,得到所有可能的三词词组。例如,正文切词后的词列表为[A,B,C,D,E,F],得到的双词词组列表为[AB,BC,CD,DE,EF],三词词组列表为[ABC,BCD,CDE,DEF]。
接下来根据词频来分析上述的双词词组与三词词组是被偶然组合在一起的,还是作为一个固定搭配被频繁的使用,前者比如“企业用户”,后者比如“黑户洗白”,而后者也是本场景需要筛选的词组。用P(A)表示词语A在所有风险新闻中出现的概率,那么一个双词词组AB会被固定搭配使用的语义搭配度为
Figure BDA0002285754940000151
一个三词词组ABC的语义搭配度为
Figure BDA0002285754940000152
依次计算所有双词和三词词组被固定搭配使用的语义搭配度,语义搭配度越高证明词组被固定搭配使用的概率越高,因此将语义搭配度低于第一预设阈值(如10)的双词词组与可能性低于第二预设阈值(如100)的三词词组从双词词组列表或三词词组列表中删除。
接下来在对双词词组列表或三词词组列表的风险指数进行评估,需要说明的是,风险指数与第二频次与第一频次的比值呈负相关。举例来说用第一频次D′(AB)和第二频次D(AB)分别表示词组AB在风险文本中出现的频次和非风险文本中出现的频次(具体可通过查表获得统计频次),那么一个词组所携带的风险指数可以表示为:
Figure BDA0002285754940000153
三词词组所携带的风险指数的表示同双词词组,不再赘述。依次计算所有双词和三词词组所携带的风险指数β,将β值小于第三预设阈值(如5)的词组从双词词组列表或从三词词组列表中删除。最后判断保留下来的双词词组和三词词组,是否已经存在于风险词库中,若存在,则跳过,若不存在,则将该词加入风险词库中。
该步骤之后,还可以对风险信息进行展示,具体来说:
风险实体及风险信息展示:通过网页形式对风险实体库内的数据进行展示,同时展示包含该风险实体的风险信息列表。可以由业务分析员进行人工审核,将正确的风险实体加入黑名单,删除误召回的无风险实体;
风险关键词和风险信息展示:通过网页形式对风险词库内的数据进行展示,同时展示包含该风险词的风险信息列表,由业务分析员进行人工审核,删除误召回的无风险词。
如图4所示,本申请提供一种风险实体获取装置,包括:确定模块401,用于确定包含风险词的第一风险信息;所述风险词来源于预收集的风险词库;处理模块402,用于对所述第一风险信息进行片段划分,获取多个风险片段信息;相邻的两个风险片段信息具有首尾重叠区域;针对任一风险片段信息,若确定所述风险片段信息为第一文本类型,则获取所述风险片段信息中的风险实体。
一种可选实施方式中,所述处理模块402具体用于:对所述风险片段信息进行分词,对分词后的每个词向量进行叠加,获得所述风险片段信息的文档向量;将所述文档向量输入第一二分类模型;所述第一二分类模型用于确定所述风险片段信息为第二文本类型;在确定所述风险片段信息为第二文本类型后,将所述文档向量输入第二二分类模型,确定所述风险片段信息是否为所述第一文本类型;所述第一文本类型是所述第二文本类型中的一种。
一种可选实施方式中,所述风险片段信息中的风险实体包括多种类别的风险实体;所述处理模块402具体用于:将所述风险片段信息中与预设匹配规则匹配到的词语,作为所述风险片段信息中的风险实体的第一类别的风险实体组合;针对所述第一类别组合中任一风险实体,从所述第一风险信息中获取包含所述风险实体的原句以及所述原句的相邻句子;通过实体标注模型,从所述原句和所述相邻句子中确定所述风险片段信息中的风险实体的第二类别的风险实体组合;将所述第一类别的风险实体组合和所述第二类别的风险实体组合中的所有词语,作为所述风险片段信息中的风险实体。
一种可选实施方式中,所述预设匹配规则为所述第一类别包括的至少一个正则匹配表达式;所述处理模块402具体用于:将所述至少一个正则匹配表达式与所述风险片段信息进行正则表达匹配;其中,每个正则匹配表达式都对应一种风险实体子类型;针对所述至少一个正则匹配表达式中任一正则匹配表达式,将所述正则匹配表达式在所述风险片段信息中匹配成功的风险实体,作为所述第一类别的风险实体组合中所述正则匹配表达式对应风险实体子类型的风险实体。
一种可选实施方式中,所述实体标注模型为长短期记忆LSTM神经网络;所述LSTM神经网络是根据句子向量集训练的;所述句子向量集中的句子向量中标注了该句子向量的句子中每个字的字类型;所述处理模块402具体用于:针对所述原句和所述相邻句子中任一句子,将所述句子输入所述LSTM神经网络,获得所述句子中每个字的字类型;确定所述句子中存在连续的至少一个字的字类型均对应相同的风险实体子类型,则将所述至少一个连续的字组成的词语标注为风险实体,并作为所述第二类别的风险实体组合中对应所述风险实体子类型的风险实体。
一种可选实施方式中,所述获取所述风险片段信息中的风险实体之后,所述处理模块402具体用于:将所述风险片段信息中的风险实体存入风险实体数据库,以更新所述风险实体数据库;根据所述风险实体数据库,获取预设周期内采集的信息中包含风险实体的第二风险信息;对所述第二风险信息切词,并按照长度为2的窗口和长度为3的窗口,获得所述第二风险信息的双词词组列表和三词词组列表;将所述双词词组列表中语义搭配度小于第一预设阈值的词组删除,从而更新所述双词词组列表;将所述三词词组列表中语义搭配度小于第二预设阈值的词组删除,从而更新所述三词词组列表;将所述双词词组列表和所述三词词组列表中风险指数小于第三预设阈值的词组删除,从而更新所述双词词组列表和所述三词词组列表;其中,风险指数与第二频次与第一频次的比值呈负相关;所述第一频次为词组在风险文本中出现的频次;所述第二频次为词组在非风险文本中出现的频次;根据更新后的所述双词词组列表和更新后的所述三词词组列表,更新所述风险词库。
本申请实施例提供一种计算机设备,包括程序或指令,当所述程序或指令被执行时,用以执行本申请实施例提供的一种风险实体获取方法及任一可选方法。
本申请实施例提供一种存储介质,包括程序或指令,当所述程序或指令被执行时,用以执行本申请实施例提供的一种风险实体获取方法及任一可选方法。
最后应说明的是:本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种风险实体获取方法,其特征在于,包括:
确定包含风险词的第一风险信息;所述风险词来源于预收集的风险词库;
对所述第一风险信息进行片段划分,获取多个风险片段信息;相邻的两个风险片段信息具有首尾重叠区域;
针对任一风险片段信息,若确定所述风险片段信息为第一文本类型,则获取所述风险片段信息中的风险实体。
2.如权利要求1所述的方法,其特征在于,确定所述风险片段信息为第一文本类型,包括:
对所述风险片段信息进行分词,对分词后的每个词向量进行叠加,获得所述风险片段信息的文档向量;
将所述文档向量输入第一二分类模型;所述第一二分类模型用于确定所述风险片段信息是否为第二文本类型;
在确定所述风险片段信息为第二文本类型后,将所述文档向量输入第二二分类模型,确定所述风险片段信息为所述第一文本类型;所述第一文本类型是所述第二文本类型中的一种。
3.如权利要求1所述的方法,其特征在于,所述风险片段信息中的风险实体包括多种类别的风险实体;所述获取所述风险片段信息中的风险实体,包括:
将所述风险片段信息中与预设匹配规则匹配到的词语,作为所述风险片段信息中的风险实体的第一类别的风险实体组合;
针对所述第一类别组合中任一风险实体,从所述第一风险信息中获取包含所述风险实体的原句以及所述原句的相邻句子;通过实体标注模型,从所述原句和所述相邻句子中确定所述风险片段信息中的风险实体的第二类别的风险实体组合;
将所述第一类别的风险实体组合和所述第二类别的风险实体组合中的所有词语,作为所述风险片段信息中的风险实体。
4.如权利要求3所述的方法,其特征在于,所述预设匹配规则为所述第一类别包括的至少一个正则匹配表达式;所述将所述风险片段信息中与预设匹配规则匹配到的词语,作为所述风险片段信息中的风险实体的第一类别的风险实体组合;包括:
将所述至少一个正则匹配表达式与所述风险片段信息进行正则表达匹配;其中,每个正则匹配表达式都对应一种风险实体子类型;
针对所述至少一个正则匹配表达式中任一正则匹配表达式,将所述正则匹配表达式在所述风险片段信息中匹配成功的风险实体,作为所述第一类别的风险实体组合中所述正则匹配表达式对应风险实体子类型的风险实体。
5.如权利要求3所述的方法,其特征在于,所述实体标注模型为长短期记忆LSTM神经网络;所述LSTM神经网络是根据句子向量集训练的;所述句子向量集中的句子向量中标注了该句子向量的句子中每个字的字类型;所述通过实体标注模型,从所述原句和所述相邻句子中确定所述风险片段信息中的风险实体的第二类别的风险实体组合;包括:
针对所述原句和所述相邻句子中任一句子,将所述句子输入所述LSTM神经网络,获得所述句子中每个字的字类型;
确定所述句子中存在连续的至少一个字的字类型均对应相同的风险实体子类型,则将所述至少一个连续的字组成的词语标注为风险实体,并作为所述第二类别的风险实体组合中对应所述风险实体子类型的风险实体。
6.如权利要求1-5任一所述的方法,其特征在于,所述获取所述风险片段信息中的风险实体之后,还包括:
将所述风险片段信息中的风险实体存入风险实体数据库,以更新所述风险实体数据库;
根据所述风险实体数据库,获取预设周期内采集的信息中包含风险实体的第二风险信息;
对所述第二风险信息切词,并按照长度为2的窗口和长度为3的窗口,获得所述第二风险信息的双词词组列表和三词词组列表;
将所述双词词组列表中语义搭配度小于第一预设阈值的词组删除,从而更新所述双词词组列表;将所述三词词组列表中语义搭配度小于第二预设阈值的词组删除,从而更新所述三词词组列表;
将所述双词词组列表和所述三词词组列表中风险指数小于第三预设阈值的词组删除,从而更新所述双词词组列表和所述三词词组列表;其中,风险指数与第二频次与第一频次的比值呈负相关;所述第一频次为词组在风险文本中出现的频次;所述第二频次为词组在非风险文本中出现的频次;
根据更新后的所述双词词组列表和更新后的所述三词词组列表,更新所述风险词库。
7.一种风险实体获取装置,其特征在于,包括:
确定模块,用于确定包含风险词的第一风险信息;所述风险词来源于预收集的风险词库;
处理模块,用于对所述第一风险信息进行片段划分,获取多个风险片段信息;相邻的两个风险片段信息具有首尾重叠区域;针对任一风险片段信息,若确定所述风险片段信息为第一文本类型,则获取所述风险片段信息中的风险实体。
8.如权利要求7所述的装置,其特征在于,所述处理模块具体用于:
对所述风险片段信息进行分词,对分词后的每个词向量进行叠加,获得所述风险片段信息的文档向量;
将所述文档向量输入第一二分类模型;所述第一二分类模型用于确定所述风险片段信息为第二文本类型;
在确定所述风险片段信息为第二文本类型后,将所述文档向量输入第二二分类模型,确定所述风险片段信息是否为所述第一文本类型;所述第一文本类型是所述第二文本类型中的一种。
9.一种计算机设备,其特征在于,包括程序或指令,当所述程序或指令被执行时,如权利要求1至6中任意一项所述的方法被执行。
10.一种存储介质,其特征在于,包括程序或指令,当所述程序或指令被执行时,如权利要求1至6中任意一项所述的方法被执行。
CN201911159795.XA 2019-11-22 2019-11-22 一种风险实体获取方法及装置 Active CN110880142B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201911159795.XA CN110880142B (zh) 2019-11-22 2019-11-22 一种风险实体获取方法及装置
PCT/CN2020/129120 WO2021098651A1 (zh) 2019-11-22 2020-11-16 一种风险实体获取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911159795.XA CN110880142B (zh) 2019-11-22 2019-11-22 一种风险实体获取方法及装置

Publications (2)

Publication Number Publication Date
CN110880142A true CN110880142A (zh) 2020-03-13
CN110880142B CN110880142B (zh) 2024-01-19

Family

ID=69729336

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911159795.XA Active CN110880142B (zh) 2019-11-22 2019-11-22 一种风险实体获取方法及装置

Country Status (2)

Country Link
CN (1) CN110880142B (zh)
WO (1) WO2021098651A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021098651A1 (zh) * 2019-11-22 2021-05-27 深圳前海微众银行股份有限公司 一种风险实体获取方法及装置
CN112989835A (zh) * 2021-04-21 2021-06-18 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种复杂医疗实体抽取方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113689201B (zh) * 2021-09-07 2024-04-19 浙江网商银行股份有限公司 基于区块链的数据处理方法及系统
CN116308754B (zh) * 2023-03-22 2024-02-13 广州信瑞泰信息科技有限公司 一种银行信贷风险预警系统及其方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110202532A1 (en) * 2007-08-21 2011-08-18 Nec Corporation Information sharing system, information sharing method, and information sharing program
WO2015080561A1 (en) * 2013-11-27 2015-06-04 Mimos Berhad A method and system for automated relation discovery from texts
CN107729403A (zh) * 2017-09-25 2018-02-23 中国工商银行股份有限公司 互联网信息风险提示方法及系统
CN108268613A (zh) * 2017-12-29 2018-07-10 广州都市圈网络科技有限公司 基于语义分析的旅游行程生成方法、电子设备及存储介质
CN109118051A (zh) * 2018-07-17 2019-01-01 阿里巴巴集团控股有限公司 基于网络舆情的风险商户识别及处置方法、装置及服务器
CN109558592A (zh) * 2018-11-29 2019-04-02 上海点融信息科技有限责任公司 基于人工智能获取客户信用风险评估信息的方法及设备
CN110377731A (zh) * 2019-06-18 2019-10-25 深圳壹账通智能科技有限公司 投诉文本处理方法、装置、计算机设备及存储介质
CN110532563A (zh) * 2019-09-02 2019-12-03 苏州美能华智能科技有限公司 文本中关键段落的检测方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102262632B (zh) * 2010-05-28 2014-03-19 国际商业机器公司 进行文本处理的方法和系统
CN108959368A (zh) * 2018-05-22 2018-12-07 深圳壹账通智能科技有限公司 一种信息监控方法、存储介质和服务器
CN109583738A (zh) * 2018-11-22 2019-04-05 第创业证券股份有限公司 一种用于债券风险控制的装置及方法
CN110135693A (zh) * 2019-04-12 2019-08-16 北京中科闻歌科技股份有限公司 一种风险识别方法、装置、设备及存储介质
CN110880142B (zh) * 2019-11-22 2024-01-19 深圳前海微众银行股份有限公司 一种风险实体获取方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110202532A1 (en) * 2007-08-21 2011-08-18 Nec Corporation Information sharing system, information sharing method, and information sharing program
WO2015080561A1 (en) * 2013-11-27 2015-06-04 Mimos Berhad A method and system for automated relation discovery from texts
CN107729403A (zh) * 2017-09-25 2018-02-23 中国工商银行股份有限公司 互联网信息风险提示方法及系统
CN108268613A (zh) * 2017-12-29 2018-07-10 广州都市圈网络科技有限公司 基于语义分析的旅游行程生成方法、电子设备及存储介质
CN109118051A (zh) * 2018-07-17 2019-01-01 阿里巴巴集团控股有限公司 基于网络舆情的风险商户识别及处置方法、装置及服务器
CN109558592A (zh) * 2018-11-29 2019-04-02 上海点融信息科技有限责任公司 基于人工智能获取客户信用风险评估信息的方法及设备
CN110377731A (zh) * 2019-06-18 2019-10-25 深圳壹账通智能科技有限公司 投诉文本处理方法、装置、计算机设备及存储介质
CN110532563A (zh) * 2019-09-02 2019-12-03 苏州美能华智能科技有限公司 文本中关键段落的检测方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021098651A1 (zh) * 2019-11-22 2021-05-27 深圳前海微众银行股份有限公司 一种风险实体获取方法及装置
CN112989835A (zh) * 2021-04-21 2021-06-18 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种复杂医疗实体抽取方法

Also Published As

Publication number Publication date
CN110880142B (zh) 2024-01-19
WO2021098651A1 (zh) 2021-05-27

Similar Documents

Publication Publication Date Title
CN109189942B (zh) 一种专利数据知识图谱的构建方法及装置
CN110968700B (zh) 融合多类事理与实体知识的领域事件图谱构建方法和装置
CN110427623B (zh) 半结构化文档知识抽取方法、装置、电子设备及存储介质
Zimmeck et al. Privee: An architecture for automatically analyzing web privacy policies
CN108885623B (zh) 基于知识图谱的语意分析系统及方法
CN111767716B (zh) 企业多级行业信息的确定方法、装置及计算机设备
CN110880142B (zh) 一种风险实体获取方法及装置
Atoum et al. Sentiment analysis of Arabic Jordanian dialect tweets
CN110888990B (zh) 文本推荐方法、装置、设备及介质
CN108171073B (zh) 一种基于代码层语义解析驱动的隐私数据识别方法
CN110968699A (zh) 一种基于事理推荐的逻辑图谱构建及预警方法和装置
CN110263248A (zh) 一种信息推送方法、装置、存储介质和服务器
CN104615608A (zh) 一种数据挖掘处理系统及方法
Chyrun et al. Content monitoring method for cut formation of person psychological state in social scoring
CN109492097B (zh) 一种企业新闻数据风险分类方法
Archchitha et al. Opinion spam detection in online reviews using neural networks
Shekhawat Sentiment classification of current public opinion on brexit: Naïve Bayes classifier model vs Python’s Textblob approach
CN110287314A (zh) 基于无监督聚类的长文本可信度评估方法及系统
US20180181559A1 (en) Utilizing user-verified data for training confidence level models
CN111782793A (zh) 智能客服处理方法和系统及设备
Gandhe et al. Sentiment analysis of Twitter data with hybrid learning for recommender applications
Khatua et al. Unraveling social perceptions & behaviors towards migrants on Twitter
Arefi et al. Assessing post deletion in Sina Weibo: Multi-modal classification of hot topics
US10706369B2 (en) Verification of information object attributes
Theophilo et al. Explainable artificial intelligence for authorship attribution on social media

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant