CN110046200B - 文本可信模型分析方法、设备和装置 - Google Patents

文本可信模型分析方法、设备和装置 Download PDF

Info

Publication number
CN110046200B
CN110046200B CN201811318058.5A CN201811318058A CN110046200B CN 110046200 B CN110046200 B CN 110046200B CN 201811318058 A CN201811318058 A CN 201811318058A CN 110046200 B CN110046200 B CN 110046200B
Authority
CN
China
Prior art keywords
text data
text
data
score
structured
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811318058.5A
Other languages
English (en)
Other versions
CN110046200A (zh
Inventor
袁锦程
王维强
许辽萨
赵文飙
易灿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Advanced New Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Advanced New Technologies Co Ltd filed Critical Advanced New Technologies Co Ltd
Priority to CN201811318058.5A priority Critical patent/CN110046200B/zh
Publication of CN110046200A publication Critical patent/CN110046200A/zh
Application granted granted Critical
Publication of CN110046200B publication Critical patent/CN110046200B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Accounting & Taxation (AREA)
  • Artificial Intelligence (AREA)
  • Finance (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及文本可信模型分析方法、设备和装置。所述方法(100)包括:使用第一训练模型对结构化行为数据进行分类并赋予与所属类别相应的分数(114);使用第二训练模型对与所述结构化行为数据相对应的文本数据进行分类并赋予与所属类别相应的分数(128);将所述结构化行为数据的所述分数与对应的文本数据的所述分数进行比对(130);并且根据所述比对的结果,判断所述对应的文本数据是否可信(132,134)。本发明的实施例的方案通过将这种文本数据与相应的行为数据进行比较来判断文本数据是否可信,从而使得可以进行自动化反欺诈风险防控。

Description

文本可信模型分析方法、设备和装置
技术领域
本发明涉及互联网技术领域,尤其涉及文本可信模型分析方法、设备和装置。
背景技术
随着互联网技术的发展,现金支付、现金赔付也逐渐扩展到网络支付和网络赔付,随之也带来很多问题,给支付公司和个人用户带来不同程度的资金或其他损失。目前,互联网支付风险事件主要有盗用事件和欺诈事件。其中,欺诈事件包括个人欺诈、商户欺诈、木马和钓鱼等。利用病毒木马等非法手段获取利益也逐渐形成一个行业,称之为黑色产业(简称黑产)。
目前,在互联网金融风险防控中,仍然采用人工审核的方式来识别互联网金融欺诈,主要针对用户行为,包括操作特点、用户业务行为、关联图谱信息等。例如,多个人合用一个设备、页面停留时间等。
互联网作为产业领域中自动化程度最高的产业,反欺诈风险防控的自动化也必然是未来发展的一个方向。
发明内容
鉴于现有技术的以上问题,本发明的实施例提供一种新颖的文本可信模型解决方法、设备和装置,从而使得投诉中的文本信息也能够用于互联网金融风险防控。
在风险防控中,目前采用的人工审核方式往往依赖于用户行为。例如,根据之前支付宝盗用的赔付经验,特别是当赔付开启之后,少数黑产可能对支付宝进行骗赔。当前,通常采用人工方式审核用户行为,以判断是否属于黑产骗赔。同时,大量投诉中的文本信息被浪费,并未用于风险防控的核查中,甚至会与用户行为数据(后文也称为“结构化行为数据”)混合使用。本申请的发明人注意到,现有技术还没有考虑过将文本数据与结构化行为数据进行比对。况且,人工往往对行为数据不敏感,如果使用工具进行手工分析又耗时耗力。
为此,本申请的发明人提出了基于深度学习的文本可信模型解决方案,其通过对文本数据和用户行为数据进行自动化比对,实现了对文本数据是否可信的自动化判断。因而,这使得可信的文本数据也能用于互联网金融反欺诈和风险防控的审核,促进了自动化审核的实现,降低了成本,提高了效率。
根据本发明的一方面,一种文本可信模型分析方法,包括:使用第一训练模型对结构化行为数据进行分类并赋予与所属类别相应的分数;使用第二训练模型对与所述结构化行为数据相对应的文本数据进行分类并赋予与所属类别相应的分数;将所述结构化行为数据的所述分数与对应的文本数据的所述分数进行比对;并且根据所述比对的结果,判断所述对应的文本数据是否可信。这里,所述第一和第二训练模型可以是已知的任何可用训练模型,包括,但不限于,LightGBM算法、GBDT算法、LR模型、神经网络等。在一个实施例中,所述第一训练模型可以与所述第二训练模型相同。在另一实施例中,所述第一训练模型可以不同于所述第二训练模型。
术语“结构化行为数据”是将用户行为数据进行结构化得到的数据。其中,结构化,指将行为数据的展现形式从非结构数据转为结构化数据,以便进行归类和统计。优选地,结构化数据在训练前还可以进行标签化和/或数值化编码。
优选地,在对文本数据进行模型训练之前,可以将文本数据进行清洗和/或预处理。“预处理”是指将文本数据、优选经过清洗的文本数据转换为对应的词向量或词向量矩阵。
例如,如果用户行为是购买一件商品,对应的文本数据可以是用户针对购买过程的投诉、或者申请退款或赔偿。然而,用户的投诉或赔偿文本内容与其购买行为可能不一致。例如,黑产可能会通过软件自动编写欺诈文本进行批量骗赔。在这种情况下,投诉或赔偿文本内容可能含混不清,或者前后多篇文本的投诉内容基本一致而对应的买卖行为却完全不同。为此,本申请的发明人提出,通过人工对文本数据是否可信进行标签来对文本数据进行预处理,从而极大地改善对文本数据进行模型训练的结果和质量。
按照本发明的优选实施例,所述文本可信模型分析方法还包括在使用所述第二训练模型对所述文本数据进行分类之前,对所述文本数据进行预处理,其中,对所述文本数据的所述预处理包括定期地由使用者,例如投诉或理赔的审理人员,对所述文本数据中的一个或多个是否可信进行标签。例如,审理人员可以在每次对文本数据进行模型训练前、每天、每隔几天、每周或者每隔几周对当时的一个或多个文本数据是否可信进行判断。
按照本发明的优选实施例,审理人员可以通过观察例如显示器上显示的、与投诉或理赔有关的文本内容、OCR(光学字符识别)图像内容或者语音转文本内容等,将上述与结构化行为数据明显不符的文本数据打上“不可信”的标签,并且将该文本数据直接判定为不可信。
在有些情况下,文本数据量可能不是很大,或者初始的文本数据量很小。于是,审理人员可能足以在有限时间内将明显不可信的文本数据挑选出来。这样,按照本发明的实施例,可以仅对未被审理人员挑选出来的文本数据进行模型训练。
按照本发明的优选实施例,基于带有不可信标签的文本数据和剩余的文本数据,使用半监督学习算法从所述剩余的文本数据检测出不可信的文本数据并打上不可信标签。所述半监督学习算法例如包括PU Learning。本领域技术人员能够领会到,其他的适当的半监督学习算法也是可以的。其中,使用半监督学习算法进行的所述检测包括利用所述带有不可信标签的文本数据来训练PU Learning模型,并且基于经训练的PU Learning模型,从所述剩余的文本数据中预测不可信的文本数据。于是,预测为不可信的文本数据可以被打上不可信标签。该优选实施例可以针对文本数据量较大的情况。这样,待处理的无标签文本数据的数目将被最小化。
按照本发明的优选实施例,无论文本数据是否经过PU Learning的预处理,使用所述第二训练模型对所述文本数据进行的所述分类包括使用所述第二训练模型仅对没有标签的文本数据进行分类。
按照本发明的优选实施例,所述比对包括分别将所述结构化行为数据的所述分数和所述对应的文本数据的所述分数进行归一化,并且对归一化后的两个分数进行假设检验以判断所述结构化行为数据的所述分数和所述对应的文本数据的所述分数是否属于同一类。
按照本发明的优选实施例,在通过假设检验判定所述结构化行为数据的所述分数和所述对应的文本数据的所述分数属于同一类时,所述对应的文本数据被确定为是可信的。
根据本发明的另一方面,一种文本可信模型分析设备,包括:处理器;以及,存储器,其上存储有可执行指令,其中,所述可执行指令当被执行时使得所述处理器执行前述的方法。
根据本发明的又一方面,一种机器可读存储介质,其上存储有可执行指令,其中,所述可执行指令当被执行时使得机器执行前述的方法。
根据本发明的再一方面,一种文本可信模型分析装置,包括:第一分类模块,用于通过第一训练模型对结构化行为数据进行分类并赋予与所属类别相应的分数;第二分类模块,用于通过第二训练模型对与所述结构化行为数据相对应的文本数据进行分类并赋予与所属类别相应的分数;以及比对模块,用于将所述结构化行为数据的所述分数与对应的文本数据的所述分数进行比对,并根据所述比对的结果,判断所述对应的文本数据是否可信。
从以上可以看出,本发明的实施例的方案能够评价投诉或理赔中的文本信息是否可信。具体地,本发明的实施例的方案通过将文本数据与相应的行为数据进行比较来判断文本数据是否可信,从而使得可以利用投诉或理赔中的海量文本信息进行互联网金融风险防控。
附图说明
本发明的特征、特点、优点和益处通过以下结合附图的详细描述将变得显而易见。
图1示出了按照本发明的一个实施例的文本可信模型分析方法10的总体流程图。
图2示出了按照本发明的一个实施例的文本可信模型分析设备200的示意图。
图3示出了按照本发明的一个实施例的文本可信模型分析装置300的示意图。
具体实施方式
现在将参考示例实施方式讨论本文描述的主题。应该理解,讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题,并非是对权利要求书中所阐述的保护范围、适用性或者示例的限制。可以在不脱离本公开内容的保护范围的情况下,对所讨论的元素的功能和排列进行改变。各个示例可以根据需要,省略、替代或者添加各种过程或组件。例如,所描述的方法可以按照与所描述的顺序不同的顺序来执行,以及各个步骤可以被添加、省略或者组合。另外,相对一些示例所描述的特征在其它例子中也可以进行组合。
如本文中使用的,术语“包括”及其变型表示开放的术语,含义是“包括但不限于”。术语“基于”表示“至少部分地基于”。术语“一个实施例”和“一实施例”表示“至少一个实施例”。术语“另一个实施例”表示“至少一个其他实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下面可以包括其他的定义,无论是明确的还是隐含的。除非上下文中明确地指明,否则一个术语的定义在整个说明书中是一致的。
在互联网金融风险防控中,目前仍然通过对用户行为进行人工审核的方式来识别互联网金融欺诈。面对日益增多的黑产骗赔事件,现有的风险防控手段效率低下。同时,大量投诉或理赔中的文本信息被浪费,并未用于风险防控的核查中。为此,本申请的发明人提出了基于深度学习的文本可信模型解决方案,其通过对文本数据和用户行为数据进行自动化比对,实现了对文本数据是否可信的自动化判断。
下面,结合附图详细描述本发明的各个实施例。
图1示出了按照本发明的一个实施例的文本可信模型分析方法100。下面结合图2所示的文本可信模型分析设备200来详细描述图1的文本可信模型分析方法100。
如图1所示,在方框110,收集用户行为。在互联网金融领域,用户行为例如可以是用户在相对短的交易时间内重复购买大量相同的商品,或者用户(例如,赌徒)频繁在午夜(晚上12点)至凌晨(早上6点)之间进行买卖操作。
在方框112,将用户行为数据结构化,从而得到结构化行为数据。这可以通过已知的任何适当技术来实现。结构化,指将行为数据的展现形式从非结构数据转为结构化数据,以便进行归类和统计。优选地,结构化数据在训练前还可以进行标签化和/或数值化编码。其中,标签化,指根据业务场景将行为数据打上业务标签,围绕设备并与业务场景深度结合。为行为数据打标签,通常有以下3个数据维度:时间、频次、结果。所述结构化行为数据可以存储在存储器210中。
在方框114,例如通过处理器220,使用第一训练模型对结构化行为数据进行分类并赋予与所属类别相应的分数。所述第一训练模型可以存储在存储器210中。在一个实施例中,可以采用基于树的算法来处理结构化行为数据。在另一实施例中,可以采用实体嵌入(entity embedding)来处理结构化行为数据。本领域技术人员能够预见到,其他适合处理结构化行为数据的深度学习算法也是可行的。在支付宝的应用场景下,“结构化行为数据”可以被分为以下30个类别:“一元购”、“付款未发货”、“信用卡套现”、“假冒公检法等公职人员”、“假冒其他身份”、“假冒支付宝客服”、“假冒领导或亲友”、“共享单车退款”、“其他兼职类”、“其他平台刷单”、“其他欺诈方式”、“口碑刷单”、“处理其他电商订单退款被骗”、“处理机票退改签被骗”、“处理淘宝天猫订单退款被骗”、“开通借呗”、“开通微粒贷”、“开通花呗”、“投资理财/高额返利类”、“收到商品/服务与约定不符”、“时时彩/彩票”、“服饰/手机等实物购买”、“淘宝刷单”、“游戏充值/代练等游戏相关”、“缴纳淘宝店铺保证金被骗”、“考题购买/资料购买/办证等”、“话费/流量/会员充值等”、“贷款/办卡/提额类其他”、“软件/应用(APP)购买”、“违禁其他类”。相应地,在一个实施例中,可以为隶属于上述30个类别中的每个的结构化行为数据分别赋予1~30分中的一个分数。本领域技术人员能够领会到,其他的打分方式也是可以的。此外,对于支付宝或其他的应用场景,也可以预见到其他的分类方式。
在方框120,获得诸如投诉、申请退款或赔偿的文本数据。在一个实施例中,获得的文本数据可以存储在存储器210中。在支付宝的应用场景下,用户可通过支付宝应用程序(APP)的相应端口提交例如针对购买过程的投诉、或者申请退款或赔偿。于是,可以从支付宝的服务器获得这类的文本数据。
优选地,在对文本数据进行模型训练之前,可以例如通过处理器220,将文本数据进行清洗和/或预处理。在方框122,对获得的文本数据进行清洗。“清洗”包括,但不限于以下操作:去除数字、去除链接地址、去除停用词、词干化(指的是将单词的派生形式缩减为其词干的过程,已经有许多词干化的方法,在英文中,如“programming”、“programmer”、“programmed”、“programmable”等词可以词干化为“program”)、后缀丢弃(丢弃一个单词的后缀部分,如“programming”、“programmer”、“programmed”、“programmable”等词可以词干化为其词根“program”)、词形还原(将语料中的每个词还原为其原形,或者能表达完整语义的一般形式,如“better”还原为“good”、“running”还原为“walk”等)、n-gram分析(将字符串按一定最小单元分割为长度为n的连续子串,保留最有意义的子串,以方便后续分析)、去除标点符号、去掉空白符、去除特殊字符,等。
“预处理”是指将文本数据、优选经过清洗的文本数据转换为对应的词向量或词向量矩阵。术语“词向量(Word embedding)”,又叫Word嵌入式自然语言处理(NLP)中的一组语言建模和特征学习技术的统称,其中来自词汇表的单词或短语被映射到实数的向量。从概念上讲,它涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。词向量技术包括,但不限于:(1)基于统计的方法、(2)基于图的方法、(3)基于主题模型的方法,以及(4)基于深度学习的方法。可以将经过清洗的文本数据转换为深度学习,例如神经网络训练所用的张量,然后解析出每个词及其对应的词向量,最后形成词向量矩阵。
例如,如果用户行为是购买一件商品,对应的文本数据可以是用户针对购买过程的投诉、或者申请退款或赔偿。然而,用户的投诉或赔偿文本内容与其购买行为可能不一致。例如,黑产可能会通过软件自动编写欺诈文本进行批量骗赔。在这种情况下,投诉或赔偿文本内容可能含混不清,或者前后多篇文本的投诉内容基本一致而对应的买卖行为却完全不同。为此,本申请的发明人提出,通过人工对文本数据是否可信进行标签来对文本数据进行预处理,从而极大地改善对文本数据进行模型训练的结果和质量。
在方框124,例如通过处理器220,对所述文本数据进行预处理,其中,对所述文本数据的所述预处理包括定期地由使用者,例如投诉或理赔的审理人员,对所述文本数据中的一个或多个是否可信进行标签。例如,审理人员可以在每次对文本数据进行模型训练前、每天、每隔几天、每周或者每隔几周对当时的一个或多个文本数据是否可信进行判断。优选地,审理人员可以通过观察例如显示器230上显示的、与投诉或理赔有关的文本内容、OCR(光学字符识别)图像内容或者语音转文本内容等,借助于例如输入设备240,将上述与结构化行为数据明显不符的文本数据打上“不可信”的标签,并且将该文本数据直接判定为不可信。
在方框126,例如通过处理器220,基于带有不可信标签的文本数据和剩余的文本数据,使用半监督学习算法迭代地对所述剩余的文本数据进行分类,并对分类为不可信的文本数据打上不可信标签。在一个实施例中,所述半监督学习算法例如包括PU Learning。本领域技术人员能够领会到,其他的适当的半监督学习算法也是可以的。
具体地,基于PU Learning的不可信文本数据检测包括,利用已经确定不可信的文本数据,例如经由审理人员打上不可信标签的文本数据(作为反例文档集B)来训练PULearning模型,并且基于经训练的PU Learning模型,从所述剩余的文本数据(作为无标注文档U)中预测不可信的文本数据。然后,可以将预测为不可信的文本数据打上不可信标签。
在方框128,例如通过处理器220,使用所述第二训练模型仅对没有标签的文本数据进行分类。所述没有标签的文本数据可以直接来自原始获得的文本数据,或者来自经清洗的文本数据、经打标处理的文本数据、或经PU Learning处理的文本数据。在支付宝的应用场景下,“文本数据”可以被分为以下30个类别:“一元购”、“付款未发货”、“信用卡套现”、“假冒公检法等公职人员”、“假冒其他身份”、“假冒支付宝客服”、“假冒领导或亲友”、“共享单车退款”、“其他兼职类”、“其他平台刷单”、“其他欺诈方式”、“口碑刷单”、“处理其他电商订单退款被骗”、“处理机票退改签被骗”、“处理淘宝天猫订单退款被骗”、“开通借呗”、“开通微粒贷”、“开通花呗”、“投资理财/高额返利类”、“收到商品/服务与约定不符”、“时时彩/彩票”、“服饰/手机等实物购买”、“淘宝刷单”、“游戏充值/代练等游戏相关”、“缴纳淘宝店铺保证金被骗”、“考题购买/资料购买/办证等”、“话费/流量/会员充值等”、“贷款/办卡/提额类其他”、“软件/应用(APP)购买”、“违禁其他类”。相应地,在一个实施例中,可以为隶属于上述30个类别中的每个的文本数据分别赋予1~30分中的一个分数。本领域技术人员能够领会到,其他的打分方式也是可以的。此外,对于支付宝或其他的应用场景,也可以预见到其他的分类方式。
在方框130,例如通过处理器220,使用第二训练模型对与所述结构化行为数据相对应的文本数据进行分类并赋予与所属类别相应的分数。所述第二训练模型可以存储在存储器210中。这里,所述第一和第二训练模型可以是已知的任何可用训练模型,包括,但不限于,LightGBM算法、GBDT算法、LR模型、神经网络等。在一个实施例中,所述第一训练模型可以与所述第二训练模型相同。在另一实施例中,所述第一训练模型可以不同于所述第二训练模型。
在一个实施例中,所述比对包括分别将所述结构化行为数据的所述分数和所述对应的文本数据的所述分数进行归一化,并且对归一化后的两个分数进行假设检验以判断所述结构化行为数据的所述分数和所述对应的文本数据的所述分数是否属于同一类。所述归一化例如可以基于过往经验。如果假设检验的概率大于95%,则认为这两个分值属于同一类。因而,在通过假设检验判定所述结构化行为数据的所述分数和所述对应的文本数据的所述分数属于同一类时,所述对应的文本数据被确定为是可信的。例如,先通过一个数据集的数据分布得到分值对应的百分位数(precentile),根据这个百分位数得到分值准确率90%;再对这两个分值进行t检验,确定文本数据是否可信。
相应地,针对同一金融事件,结构化行为数据的模型分数与相应的文本数据的模型分数进行比对。根据比对结果,在方框132输出“该文本数据可信”并给出相应的解释。例如,所述解释可以为该投诉或理赔文本与对应的买卖行为相符。或者,在方框134输出为“该文本数据不可信”并给出相应的解释。例如,所述解释可以为该投诉或理赔文本与对应的买卖行为不相符。
另一方面,在方框124被打上“不可信”标签的文本数据和/或在方框126被检测并被打上“不可信”标签的文本数据都将在方框134输出为“该文本数据不可信”并给出相应的解释。例如,所述解释可以为该投诉或理赔文本明显与对应的买卖行为不相符。
图2示出了按照本发明的一个实施例的文本可信模型分析设备200的示意图。如图2所示,文本可信模型分析设备200可以包括存储器210和处理器220。存储器210上存储有可执行指令,其中,所述可执行指令当被执行时使得处理器220执行图1所示的方法100。本领域技术人员能够领会到,处理器220实现的上述所有功能即可由单独的处理器来实施,也可由多个处理器来分别实施。
此外,文本可信模型分析设备200还包括显示器230,其被配置为显示所述文本数据,例如投诉或理赔文本,或者与投诉或理赔相关的OCR图像或语音转换文本。另外,文本可信模型分析设备200还包括输入器件240,其被配置为供所述使用者为不可信的文本数据打标签。
按照本发明的实施例还提供一种机器可读存储介质,其上存储有可执行指令,其中,所述可执行指令当被执行时使得机器执行图1所示的方法100。
图3示出了按照本发明的一个实施例的文本可信模型分析装置300的示意图。图3所示的装置300可以利用软件、硬件或软硬件结合的方式来实现。
如图3所示,文本可信模型分析装置300包括预处理模块310,用于对接收到的或从存储器获得的文本数据进行预处理。在第一方面,所述预处理模块310包括用于定期地供使用者对所述文本数据中的一个或多个是否可信进行标签的模块,其中,在文本数据与对应的结构化行为数据不相符时,该文本数据被打上不可信标签。
在第二方面,所述预处理模块310还包括检测模块320,用于基于带有不可信标签的文本数据和剩余的文本数据,使用半监督学习算法从剩余的文本数据检测出不可信的文本数据并打上不可信标签。在一个实施例中,所述半监督学习算法例如包括PU Learning。其中,所述检测模块(320)包括用于利用所述带有不可信标签的文本数据来训练PULearning模型,并且基于经训练的PU Learning模型,从所述剩余的文本数据中预测不可信的文本数据的模块。
文本可信模型分析装置300还包括第二分类模块330,用于通过第二训练模型对与所述结构化行为数据相对应的文本数据进行分类并赋予与所属类别相应的分数。优选地,所述第二分类模块330被配置为仅对没有标签的文本数据进行分类。
文本可信模型分析装置300还包括第一分类模块340,用于通过第一训练模型对结构化行为数据进行分类并赋予与所属类别相应的分数。
文本可信模型分析装置300还包括比对模块350,用于将所述结构化行为数据的所述分数与对应的文本数据的所述分数进行比对,并根据所述比对的结果,判断所述对应的文本数据是否可信。优选地,所述比对模块350被配置为分别将所述结构化行为数据的所述分数和所述对应的文本数据的所述分数进行归一化,并且对归一化后的两个分数进行假设检验以判断所述结构化行为数据的所述分数和所述对应的文本数据的所述分数是否属于同一类。其中,在通过假设检验判定所述结构化行为数据的所述分数和所述对应的文本数据的所述分数属于同一类时,基于t检验来确定所述对应的文本数据是否可信。
上面结合附图阐述的具体实施方式描述了示例性实施例,但并不表示可以实现的或者落入权利要求书的保护范围的所有实施例。在整个本说明书中使用的术语“示例性”意味着“用作示例、实例或例示”,并不意味着比其它实施例“优选”或“具有优势”。出于提供对所描述技术的理解的目的,具体实施方式包括具体细节。然而,可以在没有这些具体细节的情况下实施这些技术。在一些实例中,为了避免对所描述的实施例的概念造成难以理解,公知的结构和装置以框图形式示出。
本公开内容的上述描述被提供来使得本领域任何普通技术人员能够实现或者使用本公开内容。对于本领域普通技术人员来说,对本公开内容进行的各种修改是显而易见的,并且,也可以在不脱离本公开内容的保护范围的情况下,将本文所定义的一般性原理应用于其它变型。因此,本公开内容并不限于本文所描述的示例和设计,而是与符合本文公开的原理和新颖性特征的最广范围相一致。

Claims (19)

1.一种文本可信模型分析方法(100),包括:
使用第一训练模型对结构化行为数据进行分类并赋予与所属类别相应的分数(114);
使用第二训练模型对与所述结构化行为数据相对应的文本数据进行分类并赋予与所属类别相应的分数(128);
将所述结构化行为数据的所述分数与对应的文本数据的所述分数进行比对(130);并且
根据所述比对的结果,判断所述对应的文本数据是否可信(132,134)。
2.如权利要求1所述的文本可信模型分析方法(100),还包括:
在使用所述第二训练模型对所述文本数据进行分类之前,对所述文本数据进行预处理,
其中,对所述文本数据的所述预处理包括定期地由使用者对所述文本数据中的一个或多个是否可信进行标签(124)。
3.如权利要求2所述的文本可信模型分析方法(100),
其中,在文本数据与对应的结构化行为数据不相符时,该文本数据被打上不可信标签。
4.如权利要求3所述的文本可信模型分析方法(100),还包括:
基于带有不可信标签的文本数据和剩余的文本数据,使用半监督学习算法从所述剩余的文本数据检测出不可信的文本数据并打上不可信标签(126)。
5.如权利要求4所述的文本可信模型分析方法(100),
其中,所述半监督学习算法包括PU Learning,并且
其中,使用半监督学习算法进行的所述检测包括利用所述带有不可信标签的文本数据来训练PU Learning模型,并且基于经训练的PU Learning模型,从所述剩余的文本数据中预测不可信的文本数据。
6.如权利要求3-5中的任一项所述的文本可信模型分析方法(100),
其中,使用所述第二训练模型对所述文本数据进行的所述分类包括使用所述第二训练模型仅对没有标签的文本数据进行分类(128)。
7.如权利要求1-5中的任一项所述的文本可信模型分析方法(100),
其中,所述比对包括分别将所述结构化行为数据的所述分数和所述对应的文本数据的所述分数进行归一化,并且对归一化后的两个分数进行假设检验以判断所述结构化行为数据的所述分数和所述对应的文本数据的所述分数是否属于同一类。
8.如权利要求7所述的文本可信模型分析方法(100),
其中,在通过假设检验判定所述结构化行为数据的所述分数和所述对应的文本数据的所述分数属于同一类时,基于t检验来确定所述对应的文本数据是否可信。
9.一种文本可信模型分析设备(200),包括:
处理器(220);以及
存储器(210),其上存储有可执行指令,其中,所述可执行指令当被执行时使得所述处理器执行权利要求1-8中的任一项所述的方法。
10.如权利要求9所述的文本可信模型分析设备(200),还包括:
显示器(230),其被配置为显示所述文本数据;以及
输入器件(240),其被配置为供使用者为不可信的文本数据打标签。
11.一种机器可读存储介质,其上存储有可执行指令,其中,所述可执行指令当被执行时使得机器执行权利要求1-8中的任一项所述的方法。
12.一种文本可信模型分析装置(300),包括:
第一分类模块(340),用于通过第一训练模型对结构化行为数据进行分类并赋予与所属类别相应的分数;
第二分类模块(330),用于通过第二训练模型对与所述结构化行为数据相对应的文本数据进行分类并赋予与所属类别相应的分数;以及
比对模块(350),用于将所述结构化行为数据的所述分数与对应的文本数据的所述分数进行比对,并根据所述比对的结果,判断所述对应的文本数据是否可信。
13.如权利要求12所述的文本可信模型分析装置(300),还包括:
预处理模块(310),用于在通过所述第二训练模型对所述文本数据进行分类之前,对所述文本数据进行预处理,
其中,所述预处理模块(310)包括用于定期地供使用者对所述文本数据中的一个或多个是否可信进行标签的模块。
14.如权利要求13所述的文本可信模型分析装置(300),
其中,在文本数据与对应的结构化行为数据不相符时,该文本数据被打上不可信标签。
15.如权利要求14所述的文本可信模型分析装置(300),
其中,所述预处理模块(310)还包括检测模块(320),用于基于带有不可信标签的文本数据和剩余的文本数据,使用半监督学习算法从所述剩余的文本数据检测出不可信的文本数据并打上不可信标签。
16.如权利要求15所述的文本可信模型分析装置(300),
其中,所述半监督学习算法包括PU Learning,并且
其中,所述检测模块(320)包括用于利用所述带有不可信标签的文本数据来训练PULearning模型,并且基于经训练的PU Learning模型,从所述剩余的文本数据中预测不可信的文本数据的模块。
17.如权利要求14-16中的任一项所述的文本可信模型分析装置(300),
其中,所述第二分类模块(330)被配置为仅对没有标签的文本数据进行分类。
18.如权利要求12-16中的任一项所述的文本可信模型分析装置(300),
其中,所述比对模块(350)被配置为分别将所述结构化行为数据的所述分数和所述对应的文本数据的所述分数进行归一化,并且对归一化后的两个分数进行假设检验以判断所述结构化行为数据的所述分数和所述对应的文本数据的所述分数是否属于同一类。
19.如权利要求12-16中的任一项所述的文本可信模型分析装置(300),
其中,在通过假设检验判定所述结构化行为数据的所述分数和所述对应的文本数据的所述分数属于同一类时,基于t检验来确定所述对应的文本数据是否可信。
CN201811318058.5A 2018-11-07 2018-11-07 文本可信模型分析方法、设备和装置 Active CN110046200B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811318058.5A CN110046200B (zh) 2018-11-07 2018-11-07 文本可信模型分析方法、设备和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811318058.5A CN110046200B (zh) 2018-11-07 2018-11-07 文本可信模型分析方法、设备和装置

Publications (2)

Publication Number Publication Date
CN110046200A CN110046200A (zh) 2019-07-23
CN110046200B true CN110046200B (zh) 2023-05-05

Family

ID=67273198

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811318058.5A Active CN110046200B (zh) 2018-11-07 2018-11-07 文本可信模型分析方法、设备和装置

Country Status (1)

Country Link
CN (1) CN110046200B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110991650A (zh) * 2019-11-25 2020-04-10 第四范式(北京)技术有限公司 训练养卡识别模型、识别养卡行为的方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101883020A (zh) * 2009-04-29 2010-11-10 丛林网络公司 检测恶意网络软件代理
CN102243691A (zh) * 2010-05-10 2011-11-16 微软公司 组织行为监视分析和影响
CN104966031A (zh) * 2015-07-01 2015-10-07 复旦大学 安卓应用程序中非权限相关隐私数据的识别方法
CN105590055A (zh) * 2014-10-23 2016-05-18 阿里巴巴集团控股有限公司 用于在网络交互系统中识别用户可信行为的方法及装置
CN106095895A (zh) * 2016-06-07 2016-11-09 百度在线网络技术(北京)有限公司 信息推送方法和装置
CN106611375A (zh) * 2015-10-22 2017-05-03 北京大学 一种基于文本分析的信用风险评估方法及装置
CN107004074A (zh) * 2014-12-23 2017-08-01 英特尔公司 使用高级传感器监测来进行增强型用户认证的技术
CN107992982A (zh) * 2017-12-28 2018-05-04 上海氪信信息技术有限公司 一种基于深度学习的非结构化数据的违约概率预测方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10735456B2 (en) * 2015-10-28 2020-08-04 Qomplx, Inc. Advanced cybersecurity threat mitigation using behavioral and deep analytics
US20170124497A1 (en) * 2015-10-28 2017-05-04 Fractal Industries, Inc. System for automated capture and analysis of business information for reliable business venture outcome prediction
AU2017201850B2 (en) * 2016-03-21 2020-10-29 Vireshwar K. ADHAR Method and system for digital privacy management

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101883020A (zh) * 2009-04-29 2010-11-10 丛林网络公司 检测恶意网络软件代理
CN102243691A (zh) * 2010-05-10 2011-11-16 微软公司 组织行为监视分析和影响
CN105590055A (zh) * 2014-10-23 2016-05-18 阿里巴巴集团控股有限公司 用于在网络交互系统中识别用户可信行为的方法及装置
CN107004074A (zh) * 2014-12-23 2017-08-01 英特尔公司 使用高级传感器监测来进行增强型用户认证的技术
CN104966031A (zh) * 2015-07-01 2015-10-07 复旦大学 安卓应用程序中非权限相关隐私数据的识别方法
CN106611375A (zh) * 2015-10-22 2017-05-03 北京大学 一种基于文本分析的信用风险评估方法及装置
CN106095895A (zh) * 2016-06-07 2016-11-09 百度在线网络技术(北京)有限公司 信息推送方法和装置
CN107992982A (zh) * 2017-12-28 2018-05-04 上海氪信信息技术有限公司 一种基于深度学习的非结构化数据的违约概率预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
面向中文文本的欺骗行为检测方法研究;郑家恒 等;《山西大学学报(自然科学版)》;20091115;第32卷(第4期);541-545 *

Also Published As

Publication number Publication date
CN110046200A (zh) 2019-07-23

Similar Documents

Publication Publication Date Title
US11954739B2 (en) Methods and systems for automatically detecting fraud and compliance issues in expense reports and invoices
CN110597964B (zh) 一种双录质检语义分析方法、装置及双录质检系统
US20230132208A1 (en) Systems and methods for classifying imbalanced data
US7360686B2 (en) Method and system for discovering significant subsets in collection of documents
US11531987B2 (en) User profiling based on transaction data associated with a user
US11144669B1 (en) Machine learning methods and systems for protection and redaction of privacy information
US20140258169A1 (en) Method and system for automated verification of customer reviews
CN111178219A (zh) 票据识别管理方法、装置、存储介质及电子设备
CN110008336B (zh) 一种基于深度学习的舆情预警方法及系统
CN111046184B (zh) 文本的风险识别方法、装置、服务器和存储介质
US11928878B2 (en) System and method for domain aware document classification and information extraction from consumer documents
CN116563006A (zh) 业务风险预警方法、设备、存储介质及装置
CN110046200B (zh) 文本可信模型分析方法、设备和装置
CN115713399B (zh) 一种结合第三方数据源的用户信用评估系统
CN112330328A (zh) 一种基于特征提取的信用卡欺诈检测方法
Shenoy et al. Online digital cheque signature verification using deep learning approach
Tornés et al. Detecting forged receipts with domain-specific ontology-based entities & relations
Tornés et al. Receipt Dataset for Document Forgery Detection
Perez et al. Combatting Human Trafficking in the Cyberspace: A Natural Language Processing-Based Methodology to Analyze the Language in Online Advertisements
US20220207409A1 (en) Timeline reshaping and rescoring
US20230186404A1 (en) Method and System for Classifying Financial Transactions
US20210248617A1 (en) System and method for predicting support escalation
Kasztelnik et al. Financial Statement Fraud Detection in the Digital Age.
Mei Computer-Aided Optically Scanned Document Information Extraction System
CN118195536A (zh) 商户信息的审核方法、装置、电子设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20201012

Address after: English genus

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

Effective date of registration: 20201012

Address after: English genus

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: English genus

Applicant before: Advanced innovation technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant