CN107688594B - 基于社交信息的风险事件的识别系统及方法 - Google Patents
基于社交信息的风险事件的识别系统及方法 Download PDFInfo
- Publication number
- CN107688594B CN107688594B CN201710313184.0A CN201710313184A CN107688594B CN 107688594 B CN107688594 B CN 107688594B CN 201710313184 A CN201710313184 A CN 201710313184A CN 107688594 B CN107688594 B CN 107688594B
- Authority
- CN
- China
- Prior art keywords
- information
- social
- participle
- social information
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Abstract
本发明涉及一种基于社交信息的风险事件的识别系统及方法,该系统包括:获取模块,用于从预定的社交服务器中获取预定的各社交账号发布的社交信息;分析模块,用于对社交信息进行分析,以获取公司名称和/或产品名称;解析模块,用于在获取得到社交信息中的公司名称和/或产品名称时,根据预设的规则解析得到社交信息对应的核心观点信息;识别模块,用于利用预先训练生成的分类器识别核心观点信息对应的信息指向类别,以便将属于预设的信息指向类别对应的社交信息及发布该社交信息的社交账号发送给预定的终端进行审核。本发明能准确、有效地识别社交信息是否为负面信息,从而控制社交网络中的负面信息的发布,防止风险事件的发生。
Description
技术领域
本发明涉及金融技术领域,尤其涉及一种基于社交信息的风险事件的识别系统及方法。
背景技术
随着移动互联网技术的不断发展,保险业务员或理财业务员等金融人员经常通过社交网络向客户推荐保险产品或理财产品,这样使得大量的金融舆情信息在社交网路中快速、大范围传播,其中有些保险业务员或理财业务员可能会实行一些违规行为,例如向客户宣传负面信息等;另外,有些客户在购买保险产品或理财产品后感觉受到不公正对待(实际可能是保险业务员的违规导致的),客户也会通过社交网络向其他潜在客户进行负面信息的宣泄,由此造成金融公司客户的流失等一系列的问题。
虽然目前存在着一些对网络信息进行识别的技术方案,但这些技术方案无法准确、有效地识别社交网络中传播的信息中的负面信息以进行控制,从而导致金融风险事件的发生。
发明内容
本发明的目的在于提供一种基于社交信息的风险事件的识别系统及方法,旨在准确、有效地识别社交信息是否为负面信息,避免风险事件的发生。
为实现上述目的,本发明提供一种基于社交信息的风险事件的识别系统,所述基于社交信息的风险事件的识别系统包括:
获取模块,用于从预定的社交服务器中获取预定的各社交账号发布的社交信息;
分析模块,用于对所述社交信息进行分析,以获取所述社交信息中的公司名称和/或产品名称;
解析模块,用于在获取得到所述社交信息中的公司名称和/或产品名称时,根据预设的规则解析得到所述社交信息对应的核心观点信息;
识别模块,用于利用预先训练生成的分类器识别所述核心观点信息对应的信息指向类别,以便将属于预设的信息指向类别对应的社交信息及发布该社交信息的社交账号发送给预定的终端进行审核。
优选地,所述信息指向类别包括正面信息和负面信息,所述分类器为支持向量机分类器,所述基于社交信息的风险事件的识别系统还包括:
训练模块,用于获取预设数量的正面信息的核心观点信息样本及预设数量的负面信息的核心观点信息样本,将获取的所有核心观点信息样本随机分成第一预设比例的训练集和第二预设比例的验证集,利用所述训练集训练预定的支持向量机分类器,并利用所述验证集验证训练后的支持向量机分类器的准确率,若所述准确率大于等于预设准确率,则训练结束,以训练后的支持向量机分类器为所述分类器,或者,若所述准确率小于预设准确率,则增加正面信息的核心观点信息样本数量及负面信息的核心观点信息样本数量,以重新进行训练。
优选地,所述分析模块包括:
分词单元,用于按照预定的分词规则对所述社交信息进行分词处理以获取对应的分词;
标注单元,用于按照预定的词性标注规则对所述分词进行词性标注;
分类单元,用于对词性为名词的分词,按照预定的词分类规则进行分类,以从分类结果中获取所述社交信息中的公司名称和/或产品名称。
优选地,所述预定的分词规则为:
按预设类型标点符号对所述社交信息进行短句拆分,对拆分得到的短句,采用长词优先原则进行分词处理。
优选地,所述预先确定的词性标注规则为:
根据通用字词典库中字和词分别与词性的映射关系,及/或,根据预设的字和词分别与词性的映射关系,确定分词处理后的各分词对应的词性,并进行标注。
优选地,所述预定的词分类规则为:
采用预先训练生成的识别模型对词性标注为名词的分词进行名词类别识别,以将词性标注为名词的分词进行名词分类,所述识别模型为条件随机场模型。
优选地,所述解析模块包括:
构建单元,用于在获取得到所述社交信息中的公司名称和/或产品名称时,根据获取得到公司名称和/或产品名称的社交信息中的各个分词的顺序及词性构建成预设结构分词树;
解析单元,用于基于所述预设结构分词树解析出对应的社交信息对应的核心观点信息。
优选地,所述预设结构分词树包括多级节点,第一级节点为所述社交信息,第二级节点为由所述社交信息按照对应的分词的顺序及词性划分得到的分词短语,第二级节点之后的每一级节点均是由上一级节点的分词短语按照词性划分得到。
优选地,所述解析单元具体用于基于所述预设结构分词树计算第一预设词性的分词与第二预设词性的分词的节点距离;获取与第一个预设词性的分词节点距离最小的第二个预设词性的分词,将第一个预设词性的分词与距离其最小的第二个预设词性的分词按序组成对应的核心观点信息。
为实现上述目的,本发明还提供一种基于社交信息的风险事件的识别方法,所述基于社交信息的风险事件的识别方法包括:
S1,从预定的社交服务器中获取预定的各社交账号发布的社交信息;
S2,对所述社交信息进行分析,以获取所述社交信息中的公司名称和/或产品名称;
S3,在获取得到所述社交信息中的公司名称和/或产品名称时,根据预设的规则解析得到所述社交信息对应的核心观点信息;
S4,利用预先训练生成的分类器识别所述核心观点信息对应的信息指向类别,以便将属于预设的信息指向类别对应的社交信息及发布该社交信息的社交账号发送给预定的终端进行审核。
本发明的有益效果是:本发明从社交服务器中获取各社交账号发布的社交信息;对社交信息进行分析,以获取社交信息中的公司名称和/或产品名称;并解析得到包含公司名称和/或产品名称的社交信息对应的核心观点信息;最后利用分类器识别核心观点信息对应的信息指向类别,对于预设的信息指向类别的社交信息,可以将其发送给预定的终端进行审核,本发明通过对社交信息进行分析得到公司名称和/或产品名称,然后再解析得到该社交信息中的核心价值观点信息,能够准确、有效地识别社交信息的核心价值观点,以识别其是否为负面信息,从而控制社交网络中的负面信息的发布,防止风险事件的发生。
附图说明
图1为本发明基于社交信息的风险事件的识别系统一实施例的运行环境示意图;
图2为本发明基于社交信息的风险事件的识别系统一实施例的结构示意图;
图3为图2所示分析模块的结构示意图;
图4为图2所示解析模块的结构示意图;
图5为预设结构分词树的结构示意图;
图6为本发明基于社交信息的风险事件的识别方法一实施例的流程示意图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
请参阅图1,图1是本发明基于社交信息的风险事件的识别系统10较佳实施例的运行环境示意图。
在本实施例中,基于社交信息的风险事件的识别系统10安装并运行于电子装置1中。电子装置1可以是桌上型计算机、笔记本、掌上电脑及服务器等计算设备。该电子装置1可包括,但不仅限于,存储器11、处理器12及显示器13。图1仅示出了具有组件11-13的电子装置1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
存储器11在一些实施例中可以是电子装置1的内部存储单元,例如该电子装置1的硬盘或内存。存储器11在另一些实施例中也可以是电子装置1的外部存储设备,例如电子装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器11还可以既包括电子装置1的内部存储单元也包括外部存储设备。存储器11用于存储安装于电子装置1的应用软件及各类数据,例如基于社交信息的风险事件的识别系统10的程序代码等。存储器11还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行基于社交信息的风险事件的识别系统10等。
显示器13在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。显示器13用于显示在电子装置1中处理的信息以及用于显示可视化的用户界面,例如风险事件的识别界面等。电子装置1的部件11-13通过系统总线相互通信。
请参阅图2,是本发明基于社交信息的风险事件的识别系统10一实施例的功能模块图。在本实施例中,基于社交信息的风险事件的识别系统10可以被分割成一个或多个模块,一个或者多个模块被存储于存储器11中,并由一个或多个处理器(本实施例为处理器12)所执行,以完成本发明。例如,在图2中,基于社交信息的风险事件的识别系统10可以被分割成获取模块101、分析模块102、解析模块103、识别模块104及发送模块105。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述基于社交信息的风险事件的识别系统10在电子装置1中的执行过程,其中:
获取模块101,用于从预定的社交服务器中获取预定的各社交账号发布的社交信息;
其中,预定的社交服务器例如为微博服务器、微信服务器或者QQ服务器等,社交账号与社交服务器对应,例如为微博账号、微信账号或者QQ账号等。对于某一社交服务器,预定的社交账号可以是该社交服务器的部分社交账号或者全部社交账号。用户在自己的社交账号上发布社交信息,例如可以是保险业务员A利用微信账号在朋友圈或某一朋友群中发布的社交信息,该社交信息例如为“平安推出了尊宏人生产品”。
本实施例中,基于社交信息的风险事件的识别系统10可以实时地从社交服务器中获取预定的各社交账号发布的社交信息,以获取最新的社交信息,也可以定时地从社交服务器中获取预定的各社交账号发布的社交信息,相对于定时地获取社交信息的方式,能减轻系统负担。
分析模块102,用于对所述社交信息进行分析,以获取所述社交信息中的公司名称和/或产品名称;
本实施例中,对每一社交账号发布的社交信息进行分析,以获取所发布的社交信息中的公司名称和/或产品名称,例如对于上述的社交信息“平安推出了尊宏人生产品”,经过分析可以获取到其中的公司名称“平安”、产品名称“尊宏人生”,对于社交信息“今天去*景点游玩”,经分析未能获取到公司名称和/或产品名称。
对社交信息进行分析的过程中,可以按照发布的时间先后顺序逐条进行分析。对于某一条社交信息,在一实施例中,可以对其进行字和/或词的切分,然后将切分后的所有字和/或词与预先存储在预定的字词库中的字和/或词进行匹配,以分析获取得到社交信息中的公司名称和/或产品名称;在另一实施例中,在对社交信息进行字和/或词的切分后,可以进一步获取其中的名词,然后对这些名词与预先存储在预定的名词库中的名词进行匹配,以分析获取得到社交信息中的公司名称和/或产品名称。如果在该条社交信息中没有获取到公司名称和/或产品名称,则不对该条社交信息做任何处理,继续分析下一条社交信息是否有公司名称和/或产品名称。
通过分析一条社交信息中是否包含有公司名称和/或产品名称,进而可以分析该条社交信息中是否包含有针对该公司名称和/或产品名称的观点的信息。
解析模块103,用于在获取得到所述社交信息中的公司名称和/或产品名称时,根据预设的规则解析得到所述社交信息对应的核心观点信息;
本实施例中,对于包含有公司名称和/或产品名称的一条社交信息进行解析,以获取该条社交信息中的核心观点信息,该核心观点信息为针对该公司名称和/或产品名称的看法或者观点。
在解析过程中,在一实施例中,可以提取包含有公司名称和/或产品名称的社交信息中预定词性的字和/或词,例如对进行字和/或词的切分后的社交信息进行预定词性的字和/或词的提取,预定的词性例如可以是形容词、动词、名词或助词等,然后分析提取的预定词性的字和/或词,以获取该社交信息对应的核心观点信息,例如对于社交信息“平安推出了尊宏人生产品,尊宏人生产品安全、收益高”,其中包含形容词“安全”、“高”,则核心观点信息为“尊宏人生产品安全、收益高”;在另一实施例中,对进行字和/或词的切分后的社交信息进行分析,分析其中是否有否定性的字和/或词,例如对进行字和/或词的切分后的社交信息进行分析,以确定是否包含否定性的字和/或词,以获取该社交信息对应的核心观点信息。
识别模块104,用于利用预先训练生成的分类器识别所述核心观点信息对应的信息指向类别,以便将属于预设的信息指向类别对应的社交信息及发布该社交信息的社交账号发送给预定的终端进行审核。
其中,预先训练生成的分类器优选为支持向量机分类器,核心观点信息对应的信息指向类别包括正面信息及负面信息,优选地,基于社交信息的风险事件的识别系统还包括用于训练生成支持向量机分类器的训练模块,用于:获取预设数量(例如10000个)的正面信息的核心观点信息样本(例如,样本为平安健康险保障范围广、平安车险大品牌理赔快)及预设数量的负面信息的核心观点信息样本(例如,样本为平安车险理赔慢服务差、平安理财产品没有承诺的高等);将获取的所有核心观点信息样本随机分成第一预设比例(例如70%)的训练集和第二预设比例(例如30%)的验证集,其中,训练集与验证集的比例之和小于等于1,利用所述训练集训练预定的支持向量机分类器(在第一次训练时,支持向量机分类器的参数可以采用默认的参数进行训练),并利用所述验证集验证训练后的支持向量机分类器的准确率;若所述准确率(例如该准确率为0.99)大于等于预设准确率(例如预设准确率例如为0.98),则训练结束,以训练后的支持向量机分类器为上述的识别模块104中的分类器,或者,若所述准确率(例如该准确率为0.95)小于预设准确率,则增加正面信息的核心观点信息样本数量及负面信息的核心观点信息样本数量,以重新进行训练。
在利用分类器识别出核心观点信息对应的信息指向类别后,如果核心观点信息对应的信息指向类别为负面信息,则将对应的社交信息及发布该社交信息的社交账号发送给预定的终端,以对该社交信息进行审核。若审核确认为负面信息则可以对该社交账号采取一些措施以控制负面信息的发布,例如,向该社交账号发送提醒信息,提醒该社交账号的用户不要发布负面信息;或者,对该社交账号的用户发送违规操作的提示信息等。
与现有技术相比,本实施例从社交服务器中获取各社交账号发布的社交信息;对社交信息进行分析,以获取社交信息中的公司名称和/或产品名称;并解析得到包含公司名称和/或产品名称的社交信息对应的核心观点信息;最后利用分类器识别核心观点信息对应的信息指向类别,对于预设的信息指向类别(例如负面信息)的社交信息,可以将其发送给预定的终端进行审核,本实施例通过对社交信息进行分析得到公司名称和/或产品名称,然后再解析得到该社交信息中的核心价值观点信息,能够准确、有效地识别社交信息的核心价值观点,以识别其是否为负面信息,从而控制社交网络中的负面信息的发布,防止风险事件的发生。
在一优选的实施例中,如图3所示,在上述图2的实施例的基础上,上述的分析模块102包括:
分词单元1021,用于按照预定的分词规则对所述社交信息进行分词处理以获取对应的分词;其中,分词包括字和词,例如对于社交信息“平安推出了尊宏人生产品”,分词后的结果为“平安”、“推出”、“了”、“尊宏人生”、“产品”。
优选地,预定的分词规则为按预设类型标点符号对所述社交信息进行短句拆分,对拆分得到的短句,采用长词优先原则进行分词处理:例如按照标点符号“,”、“。”、“!”及“;”等对各社交信息进行短句拆分,从每一社交信息的起始处至第一个标点符号之间为一个短句,若社交信息的结束位置无标点符号,则从倒数第一个标点符号至社交信息结束位置之间为一个短句,且针对从第一个标点符号至倒数第一个预设类型标点符号之间,每两个标点符号之间的信息为一个短句;若社交信息结束位置有标点符号,则针对从第一个标点符号至倒数第一个标点符号之间,每两个标点符号之间为一个短句。
对拆分的每一个短句,采用长词优先原则继续进行分词,长词优先原则指的是:对于一个需要分词的短句T1,先从第一个字A开始,从预存的词库找出一个由A起始的最长词语X1,然后从T1中剔除X1剩下T2,再对T2采用相同的切分原理,切分后的结果为“X1/X2/、、、、、、”,例如,对于社交信息“平安推出了尊宏人生产品”,在预存的词库中包括“平安”、“推出”、“了”、“尊宏人生”和“产品”,则该社交信息的切分结果为“平安”、“推出”、“了”、“尊宏人生”、“产品”。
标注单元1022,用于按照预定的词性标注规则对所述分词进行词性标注;例如,词性标注可以为:“平安/名词”、“推出/动词”、“了/助词”、“尊宏人生/名词”、“产品/名词”。
优选地,预定的词性标注规则是:根据通用字词典库中字和词分别与词性的映射关系(例如,通用字词典库中,操场对应的词性是名词),及/或,根据预设的字和词分别与词性的映射关系(例如,预设的字和词分别与词性的映射关系中,操场对应的词性是常用名词),确定分词处理后的各分词对应的词性,并进行标注。其中,可以单独根据通用字词典库中字和词分别与词性的映射关系进行词性标注,或者也可以单独根据预设的字和词分别与词性的映射关系进行词性标注,或者根据通用字词典库中字和词分别与词性的映射关系以及根据预设的字和词分别与词性的映射关系这两种方式综合进行词性标注(预设的字和词分别与词性的映射关系的词性标注的优先级高于通用字词典库中字和词分别与词性的映射关系的优先级,例如,若通用字词典库中,操场对应的词性是名词,且预设的字和词分别与词性的映射关系中,操场对应的词性是常用名词,则对操场标注的词性为常用名词)。
为各个分词标注对应的词性:例如,按照预存的助词词库识别出分词中的助词(例如助词“了”、“来”、“着”、“过”、“的”、“地”、“得”、“似的”、“所”等等),并对识别的助词进行助词词性标注;按照预存的形容词词库识别出分词中的形容词(例如“非常安全”、“保本型”、“收益高”、“周期长”等等),并对识别的形容词进行形容词词性标注;按照预存的动词词库识别出分词中的动词(例如“推”、“推出”、“发”、“发布”、“开发”、“销售”等等),并对识别的动词进行动词词性标注。
分类单元1023,用于对词性为名词(例如,人名、地名、公司名、产品名、其他名词)的分词,按照预定的词分类规则进行分类,以从分类结果中获取所述社交信息中的公司名称和/或产品名称;
优选地,预定的词分类规则为:采用预先训练生成的识别模型对词性标注为名词的分词进行名词类别识别,以将词性标注为名词的分词进行名词分类,优选地,识别模型为条件随机场模型(CRF)。
其中,条件随机场模型的训练过程包括:
1)、构造训练数据集:以预先确定的短句数据集格式(例如,{{company_name:平安}}推出了{{product_name:尊宏人生}}产品)构建预设数量的训练数据集;
2)、构造特征变量:针对每一个训练数据集,以分词为单位,对每一分词提取特征变量(例如,提取的特征变量包括但不限于:词性、上下文信息、词的结构等等),将非结构化数据转变为结构化的特征矩阵。以社交信息“平安推出了尊宏人生产品”为例,特征矩阵示例如下表1所示:
分词 | 词性 | 前置词 | 后置词 | 包含“平安” |
平安 | 名词 | Null | 推出 | True |
推出 | 动词 | 平安 | 了 | False |
了 | 助词 | 推出 | 尊宏人生 | False |
尊宏人生 | 名词 | 了 | 产品 | False |
产品 | 名词 | 尊宏人生 | 。 | False |
。 | 标点 | 产品 | Null | False |
表1
3)、训练模型:将构造的特征矩阵作为输入变量,训练条件随机场模型,并以训练后的条件随机场模型作为识别名词类别的模型,输出各种类别的名词,例如输出类别为人名的名词、输出类别为公司名的名词、输出类别为产品名的名词等等,最后从输出结果中获取名词的类别为公司名称和/或产品名称的名词。
在其他实施例中,在对分词进行词性标注后,可以获取预定的动词,例如动词“推”、“推出”、“发”、“发布”、“开发”或“销售”等,然后获取该动词后的名词作为一类别,再从该类别的名词中获取为公司名称和/或产品名称的名词。
在一优选的实施例中,如图4所示,在上述图3的实施例的基础上,上述解析模块103包括:
构建单元1031,用于在获取得到所述社交信息中的公司名称和/或产品名称时,根据获取得到公司名称和/或产品名称的社交信息中的各个分词的顺序及词性构建成预设结构分词树;
其中,如图5所示,预设结构分词树包括多级节点,第一级节点为所述社交信息,第二级节点为由所述社交信息按照对应的分词的顺序及词性划分得到的分词短语(例如名词短语、动词短语等等),第二级节点之后的每一级节点均是由上一级节点的分词短语按照词性继续划分得到的,直至划分至各节点分支的最后一级节点。在划分过程中,如果某一分词短语不能进一步划分,则该分词短语为所在的节点分支的最后一级节点,以“我去操场踢足球了”,构建的预设结构分词树如图5所示。
解析单元1032,用于基于所述预设结构分词树解析出对应的社交信息对应的核心观点信息。
其中,基于构建的预设结构分词树,计算第一个预设词性(例如名词)的分词与第二个预设词性(例如动词或者形容词)的分词的节点距离,即计算第一个预设词性的分词与第二个预设词性的分词之间相隔的节点数,找出与第一个预设词性的分词节点距离最小的第二个预设词性的分词,将第一个预设词性的分词与距离其最小的第二个预设词性的分词按照在该社交信息中的顺序组成对应的核心观点信息。
如图6所示,图6为本发明基于社交信息的风险事件的识别方法一实施例的结构示意图,其中,基于社交信息的风险事件的识别方法可由基于社交信息的风险事件的识别系统执行,该基于社交信息的风险事件的识别系统可以由软件和/或硬件实现,该基于社交信息的风险事件的识别系统可以集成在服务器中。该基于社交信息的风险事件的识别方法包括:
步骤S1,从预定的社交服务器中获取预定的各社交账号发布的社交信息;
其中,预定的社交服务器例如为微博服务器、微信服务器或者QQ服务器等,社交账号与社交服务器对应,例如为微博账号、微信账号或者QQ账号等。对于某一社交服务器,预定的社交账号可以是该社交服务器的部分社交账号或者全部社交账号。用户在自己的社交账号上发布社交信息,例如可以是保险业务员A利用微信账号在朋友圈或某一朋友群中发布的社交信息,该社交信息例如为“平安推出了尊宏人生产品”。
本实施例中,基于社交信息的风险事件的识别系统可以实时地从社交服务器中获取预定的各社交账号发布的社交信息,以获取最新的社交信息,也可以定时地从社交服务器中获取预定的各社交账号发布的社交信息,相对于定时地获取社交信息的方式,能减轻系统负担。
步骤S2,对所述社交信息进行分析,以获取所述社交信息中的公司名称和/或产品名称;
本实施例中,对每一社交账号发布的社交信息进行分析,以获取所发布的社交信息中的公司名称和/或产品名称,例如对于上述的社交信息“平安推出了尊宏人生产品”,经过分析可以获取到其中的公司名称“平安”、产品名称“尊宏人生”,对于社交信息“今天去*景点游玩”,经分析未能获取到公司名称和/或产品名称。
对社交信息进行分析的过程中,可以按照发布的时间先后顺序逐条进行分析。对于某一条社交信息,在一实施例中,可以对其进行字和/或词的切分,然后将切分后的所有字和/或词与预先存储在预定的字词库中的字和/或词进行匹配,以分析获取得到社交信息中的公司名称和/或产品名称;在另一实施例中,在对社交信息进行字和/或词的切分后,可以进一步获取其中的名词,然后对这些名词与预先存储在预定的名词库中的名词进行匹配,以分析获取得到社交信息中的公司名称和/或产品名称。如果在该条社交信息中没有获取到公司名称和/或产品名称,则不对该条社交信息做任何处理,继续分析下一条社交信息是否有公司名称和/或产品名称。
通过分析一条社交信息中是否包含有公司名称和/或产品名称,进而可以分析该条社交信息中是否包含有针对该公司名称和/或产品名称的观点的信息。
步骤S3,在获取得到所述社交信息中的公司名称和/或产品名称时,根据预设的规则解析得到所述社交信息对应的核心观点信息;
本实施例中,对于包含有公司名称和/或产品名称的一条社交信息进行解析,以获取该条社交信息中的核心观点信息,该核心观点信息为针对该公司名称和/或产品名称的看法或者观点。
在解析过程中,在一实施例中,可以提取包含有公司名称和/或产品名称的社交信息中预定词性的字和/或词,例如对进行字和/或词的切分后的社交信息进行预定词性的字和/或词的提取,预定的词性例如可以是形容词、动词、名词或助词等,然后分析提取的预定词性的字和/或词,以获取该社交信息对应的核心观点信息,例如对于社交信息“平安推出了尊宏人生产品,尊宏人生产品安全、收益高”,其中包含形容词“安全”、“高”,则核心观点信息为“尊宏人生产品安全、收益高”;在另一实施例中,对进行字和/或词的切分后的社交信息进行分析,分析其中是否有否定性的字和/或词,例如对进行字和/或词的切分后的社交信息进行分析,以确定是否包含否定性的字和/或词,以获取该社交信息对应的核心观点信息。
步骤S4,利用预先训练生成的分类器识别所述核心观点信息对应的信息指向类别,以便将属于预设的信息指向类别对应的社交信息及发布该社交信息的社交账号发送给预定的终端进行审核。
其中,预先训练生成的分类器优选为支持向量机分类器,核心观点信息对应的信息指向类别包括正面信息及负面信息。在利用分类器识别出核心观点信息对应的信息指向类别后,如果核心观点信息对应的信息指向类别为负面信息,则将对应的社交信息及发布该社交信息的社交账号发送给预定的终端,以对该社交信息进行审核。若审核确认为负面信息则可以对该社交账号采取一些措施以控制负面信息的发布,例如,向该社交账号发送提醒信息,提醒该社交账号的用户不要发布负面信息;或者,对该社交账号的用户发送违规操作的提示信息等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于社交信息的风险事件的识别系统,其特征在于,所述基于社交信息的风险事件的识别系统包括:
获取模块,用于从预定的社交服务器中获取预定的各社交账号发布的社交信息;
分析模块,用于对所述社交信息进行分析,以获取所述社交信息中的公司名称和/或产品名称;
解析模块,用于在获取得到所述社交信息中的公司名称和/或产品名称时,根据预设的规则解析得到所述社交信息对应的核心观点信息;
识别模块,用于利用预先训练生成的分类器识别所述核心观点信息对应的信息指向类别,以便将属于预设的信息指向类别对应的社交信息及发布该社交信息的社交账号发送给预定的终端进行审核;
所述分析模块包括:
分词单元,用于按照预定的分词规则对所述社交信息进行分词处理以获取对应的分词;
标注单元,用于按照预定的词性标注规则对所述分词进行词性标注;
分类单元,用于对词性为名词的分词,按照预定的词分类规则进行分类,以从分类结果中获取所述社交信息中的公司名称和/或产品名称;
所述预定的分词规则为:
按预设类型标点符号对所述社交信息进行短句拆分,对拆分得到的短句,采用长词优先原则进行分词处理;
所述解析模块包括:
构建单元,用于在获取得到所述社交信息中的公司名称和/或产品名称时,根据获取得到公司名称和/或产品名称的社交信息中的各个分词的顺序及词性构建成预设结构分词树;
解析单元,用于基于所述预设结构分词树解析出对应的社交信息对应的核心观点信息;
所述预设结构分词树包括多级节点,第一级节点为所述社交信息,第二级节点为由所述社交信息按照对应的分词的顺序及词性划分得到的分词短语,第二级节点之后的每一级节点均是由上一级节点的分词短语按照词性划分得到;
所述解析单元具体用于基于所述预设结构分词树计算第一预设词性的分词与第二预设词性的分词的节点距离;获取与第一个预设词性的分词节点距离最小的第二个预设词性的分词,将第一个预设词性的分词与距离其最小的第二个预设词性的分词按序组成对应的核心观点信息。
2.根据权利要求1所述的基于社交信息的风险事件的识别系统,其特征在于,所述信息指向类别包括正面信息和负面信息,所述分类器为支持向量机分类器,所述基于社交信息的风险事件的识别系统还包括:
训练模块,用于获取预设数量的正面信息的核心观点信息样本及预设数量的负面信息的核心观点信息样本,将获取的所有核心观点信息样本随机分成第一预设比例的训练集和第二预设比例的验证集,利用所述训练集训练预定的支持向量机分类器,并利用所述验证集验证训练后的支持向量机分类器的准确率,若所述准确率大于等于预设准确率,则训练结束,以训练后的支持向量机分类器为所述分类器,或者,若所述准确率小于预设准确率,则增加正面信息的核心观点信息样本数量及负面信息的核心观点信息样本数量,以重新进行训练。
3.根据权利要求1所述的基于社交信息的风险事件的识别系统,其特征在于,所述预定的词性标注规则为:
根据通用字词典库中字和词分别与词性的映射关系,及/或,根据预设的字和词分别与词性的映射关系,确定分词处理后的各分词对应的词性,并进行标注。
4.根据权利要求3所述的基于社交信息的风险事件的识别系统,其特征在于,所述预定的词分类规则为:
采用预先训练生成的识别模型对词性标注为名词的分词进行名词类别识别,以将词性标注为名词的分词进行名词分类,所述识别模型为条件随机场模型。
5.一种基于社交信息的风险事件的识别方法,其特征在于,所述基于社交信息的风险事件的识别方法包括:
S1,从预定的社交服务器中获取预定的各社交账号发布的社交信息;
S2,对所述社交信息进行分析,以获取所述社交信息中的公司名称和/或产品名称;
S3,在获取得到所述社交信息中的公司名称和/或产品名称时,根据预设的规则解析得到所述社交信息对应的核心观点信息;
S4,利用预先训练生成的分类器识别所述核心观点信息对应的信息指向类别,以便将属于预设的信息指向类别对应的社交信息及发布该社交信息的社交账号发送给预定的终端进行审核;
所述步骤S2包括:
按照预定的分词规则对所述社交信息进行分词处理以获取对应的分词;所述预定的分词规则为:按预设类型标点符号对所述社交信息进行短句拆分,对拆分得到的短句,采用长词优先原则进行分词处理;
按照预定的词性标注规则对所述分词进行词性标注;
对词性为名词的分词,按照预定的词分类规则进行分类,以从分类结果中获取所述社交信息中的公司名称和/或产品名称;
所述步骤S3包括:
在获取得到所述社交信息中的公司名称和/或产品名称时,根据获取得到公司名称和/或产品名称的社交信息中的各个分词的顺序及词性构建成预设结构分词树;所述预设结构分词树包括多级节点,第一级节点为所述社交信息,第二级节点为由所述社交信息按照对应的分词的顺序及词性划分得到的分词短语,第二级节点之后的每一级节点均是由上一级节点的分词短语按照词性划分得到;
基于所述预设结构分词树计算第一预设词性的分词与第二预设词性的分词的节点距离;获取与第一个预设词性的分词节点距离最小的第二个预设词性的分词,将第一个预设词性的分词与距离其最小的第二个预设词性的分词按序组成对应的核心观点信息。
Priority Applications (8)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710313184.0A CN107688594B (zh) | 2017-05-05 | 2017-05-05 | 基于社交信息的风险事件的识别系统及方法 |
US16/084,235 US11803796B2 (en) | 2017-05-05 | 2017-06-30 | System, method, electronic device, and storage medium for identifying risk event based on social information |
PCT/CN2017/091358 WO2018201599A1 (zh) | 2017-05-05 | 2017-06-30 | 基于社交信息的风险事件的识别系统、方法、电子装置及存储介质 |
KR1020187017275A KR20190022430A (ko) | 2017-05-05 | 2017-06-30 | 소셜 정보 기반의 리스크 이벤트의 식별 시스템, 방법, 전자장치 및 저장매체 |
EP17897215.4A EP3425531A4 (en) | 2017-05-05 | 2017-06-30 | SYSTEM, METHOD, ELECTRONIC DEVICE AND STORAGE MEDIUM FOR IDENTIFYING A RISK EVENT BASED ON SOCIAL INFORMATION |
SG11201901072SA SG11201901072SA (en) | 2017-05-05 | 2017-06-30 | System, method, electronic device, and storage medium for identifying risk event based on social information |
AU2017404560A AU2017404560A1 (en) | 2017-05-05 | 2017-06-30 | System, method, electronic device, and storage medium for identifying risk event based on social information |
JP2018530794A JP6608061B2 (ja) | 2017-05-05 | 2017-06-30 | Sns情報に基づくリスクイベント認識システム、方法、電子装置及び記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710313184.0A CN107688594B (zh) | 2017-05-05 | 2017-05-05 | 基于社交信息的风险事件的识别系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107688594A CN107688594A (zh) | 2018-02-13 |
CN107688594B true CN107688594B (zh) | 2019-07-16 |
Family
ID=61152473
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710313184.0A Active CN107688594B (zh) | 2017-05-05 | 2017-05-05 | 基于社交信息的风险事件的识别系统及方法 |
Country Status (8)
Country | Link |
---|---|
US (1) | US11803796B2 (zh) |
EP (1) | EP3425531A4 (zh) |
JP (1) | JP6608061B2 (zh) |
KR (1) | KR20190022430A (zh) |
CN (1) | CN107688594B (zh) |
AU (1) | AU2017404560A1 (zh) |
SG (1) | SG11201901072SA (zh) |
WO (1) | WO2018201599A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110135693A (zh) * | 2019-04-12 | 2019-08-16 | 北京中科闻歌科技股份有限公司 | 一种风险识别方法、装置、设备及存储介质 |
CN110377809A (zh) * | 2019-06-19 | 2019-10-25 | 深圳壹账通智能科技有限公司 | 预设用户的资源获取资质生成方法及相关设备 |
CN110287493B (zh) * | 2019-06-28 | 2023-04-18 | 中国科学技术信息研究所 | 风险短语识别方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101201819A (zh) * | 2007-11-28 | 2008-06-18 | 北京金山软件有限公司 | 一种树库转化方法及树库转化系统 |
CN101266520A (zh) * | 2008-04-18 | 2008-09-17 | 黄晓凤 | 一种可实现灵活键盘布局的系统 |
CN101329666A (zh) * | 2008-06-18 | 2008-12-24 | 南京大学 | 基于语料库及树型结构模式匹配的汉语句法自动分析方法 |
CN103593431A (zh) * | 2013-11-11 | 2014-02-19 | 北京锐安科技有限公司 | 网络舆情分析方法和装置 |
CN104809109A (zh) * | 2014-01-23 | 2015-07-29 | 腾讯科技(深圳)有限公司 | 一种社交信息展示方法、装置及服务器 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008084064A (ja) * | 2006-09-28 | 2008-04-10 | National Institute Of Advanced Industrial & Technology | テキスト分類処理方法、テキスト分類処理装置ならびにテキスト分類処理プログラム |
US20120221485A1 (en) * | 2009-12-01 | 2012-08-30 | Leidner Jochen L | Methods and systems for risk mining and for generating entity risk profiles |
JP5286317B2 (ja) * | 2010-03-26 | 2013-09-11 | 株式会社野村総合研究所 | リスク情報提供システム及びプログラム |
US20140095463A1 (en) * | 2012-06-06 | 2014-04-03 | Derek Edwin Pappas | Product Search Engine |
KR101409413B1 (ko) | 2012-07-20 | 2014-06-20 | 한양대학교 에리카산학협력단 | 단일화 문법을 이용한 자연어 처리 방법 |
US9213760B2 (en) * | 2012-11-27 | 2015-12-15 | Linkedin Corporation | Unified social content platform |
GB201308541D0 (en) * | 2013-05-13 | 2013-06-19 | Qatar Foundation | Social media news portal |
JP5633944B1 (ja) * | 2013-06-02 | 2014-12-03 | データ・サイエンティスト株式会社 | 評価方法、評価装置、およびプログラム |
JP6071792B2 (ja) * | 2013-07-31 | 2017-02-01 | 株式会社東芝 | 社会情報提供システムおよび社会情報配信装置 |
US9582486B2 (en) | 2014-05-13 | 2017-02-28 | Lc Cns Co., Ltd. | Apparatus and method for classifying and analyzing documents including text |
KR101561464B1 (ko) | 2014-08-25 | 2015-10-20 | 성균관대학교산학협력단 | 수집 데이터 감성분석 방법 및 장치 |
JP6392042B2 (ja) * | 2014-09-11 | 2018-09-19 | Kddi株式会社 | 情報提供装置、情報を提供する方法およびプログラム |
JP5972425B1 (ja) | 2015-05-08 | 2016-08-17 | 株式会社エルプランニング | 風評被害リスクレポート作成システム、プログラム及び方法 |
JP2017004127A (ja) | 2015-06-05 | 2017-01-05 | 富士通株式会社 | テキスト分割プログラム、テキスト分割装置、及びテキスト分割方法 |
CN105141607A (zh) | 2015-08-24 | 2015-12-09 | 成都秋雷科技有限责任公司 | 基于云的恶意链接拦截方法 |
CN105138640A (zh) | 2015-08-24 | 2015-12-09 | 成都秋雷科技有限责任公司 | 基于云的网页广告筛选方法 |
CN105183793A (zh) | 2015-08-24 | 2015-12-23 | 成都秋雷科技有限责任公司 | 网页弹窗快速拦截方法 |
CN107545505B (zh) * | 2016-06-24 | 2020-09-29 | 深圳壹账通智能科技有限公司 | 保险理财产品信息的识别方法及系统 |
-
2017
- 2017-05-05 CN CN201710313184.0A patent/CN107688594B/zh active Active
- 2017-06-30 EP EP17897215.4A patent/EP3425531A4/en not_active Withdrawn
- 2017-06-30 AU AU2017404560A patent/AU2017404560A1/en not_active Abandoned
- 2017-06-30 SG SG11201901072SA patent/SG11201901072SA/en unknown
- 2017-06-30 KR KR1020187017275A patent/KR20190022430A/ko not_active Application Discontinuation
- 2017-06-30 JP JP2018530794A patent/JP6608061B2/ja active Active
- 2017-06-30 WO PCT/CN2017/091358 patent/WO2018201599A1/zh active Application Filing
- 2017-06-30 US US16/084,235 patent/US11803796B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101201819A (zh) * | 2007-11-28 | 2008-06-18 | 北京金山软件有限公司 | 一种树库转化方法及树库转化系统 |
CN101266520A (zh) * | 2008-04-18 | 2008-09-17 | 黄晓凤 | 一种可实现灵活键盘布局的系统 |
CN101329666A (zh) * | 2008-06-18 | 2008-12-24 | 南京大学 | 基于语料库及树型结构模式匹配的汉语句法自动分析方法 |
CN103593431A (zh) * | 2013-11-11 | 2014-02-19 | 北京锐安科技有限公司 | 网络舆情分析方法和装置 |
CN104809109A (zh) * | 2014-01-23 | 2015-07-29 | 腾讯科技(深圳)有限公司 | 一种社交信息展示方法、装置及服务器 |
Also Published As
Publication number | Publication date |
---|---|
CN107688594A (zh) | 2018-02-13 |
SG11201901072SA (en) | 2019-03-28 |
JP2019520614A (ja) | 2019-07-18 |
KR20190022430A (ko) | 2019-03-06 |
WO2018201599A1 (zh) | 2018-11-08 |
US11803796B2 (en) | 2023-10-31 |
JP6608061B2 (ja) | 2019-11-20 |
EP3425531A4 (en) | 2020-04-22 |
US20230186212A1 (en) | 2023-06-15 |
AU2017404560A1 (en) | 2018-11-22 |
EP3425531A1 (en) | 2019-01-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110263248B (zh) | 一种信息推送方法、装置、存储介质和服务器 | |
CN103336766B (zh) | 短文本垃圾识别以及建模方法和装置 | |
CN108984530A (zh) | 一种网络敏感内容的检测方法及检测系统 | |
WO2018050022A1 (zh) | 应用程序的推荐方法及服务器 | |
CN106919661B (zh) | 一种情感类型识别方法及相关装置 | |
CN109145216A (zh) | 网络舆情监控方法、装置及存储介质 | |
WO2019041521A1 (zh) | 用户关键词提取装置、方法及计算机可读存储介质 | |
CN106874253A (zh) | 识别敏感信息的方法及装置 | |
CN108345587A (zh) | 一种评论的真实性检测方法与系统 | |
CN110175851A (zh) | 一种作弊行为检测方法及装置 | |
KR20210023452A (ko) | 속성 단위 리뷰 분석 장치 및 방법 | |
Agarwal et al. | Frame semantic tree kernels for social network extraction from text | |
CN107688594B (zh) | 基于社交信息的风险事件的识别系统及方法 | |
CN111666415A (zh) | 话题聚类方法、装置、电子设备及存储介质 | |
CN114387061A (zh) | 产品推送方法、装置、电子设备及可读存储介质 | |
Alorini et al. | LSTM-RNN based sentiment analysis to monitor COVID-19 opinions using social media data | |
CN107273546A (zh) | 仿冒应用检测方法以及系统 | |
CN109753646B (zh) | 一种文章属性识别方法以及电子设备 | |
CN112579781A (zh) | 文本归类方法、装置、电子设备及介质 | |
CN116956896A (zh) | 基于人工智能的文本分析方法、系统、电子设备及介质 | |
CN110688540A (zh) | 一种作弊账户筛选方法、装置、设备及介质 | |
CN116340516A (zh) | 实体关系的聚类提取方法、装置、设备及存储介质 | |
Munot et al. | Conceptual framework for abstractive text summarization | |
CN110324278A (zh) | 账号主体一致性检测方法、装置及设备 | |
KR20220024251A (ko) | 이벤트 라이브러리를 구축하는 방법 및 장치, 전자 기기, 및 컴퓨터 판독가능 매체 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |