CN114065752A - 一种基于文本的风险设备识别方法、装置及电子设备 - Google Patents

一种基于文本的风险设备识别方法、装置及电子设备 Download PDF

Info

Publication number
CN114065752A
CN114065752A CN202111222505.9A CN202111222505A CN114065752A CN 114065752 A CN114065752 A CN 114065752A CN 202111222505 A CN202111222505 A CN 202111222505A CN 114065752 A CN114065752 A CN 114065752A
Authority
CN
China
Prior art keywords
equipment
text
risk
keywords
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111222505.9A
Other languages
English (en)
Inventor
马希龙
刘涛
薛贤巨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qilu Information Technology Co Ltd
Original Assignee
Beijing Qilu Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qilu Information Technology Co Ltd filed Critical Beijing Qilu Information Technology Co Ltd
Priority to CN202111222505.9A priority Critical patent/CN114065752A/zh
Publication of CN114065752A publication Critical patent/CN114065752A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于文本的风险设备识别方法、装置及电子设备,所述方法包括:获取待识别职业风险对应的文本关键词;基于设备文本数据对所述文本关键词进行特征衍生,得到衍生特征;基于所述衍生特征和设备标签数据训练风险识别模型;通过训练好的风险识别模型识别设备风险。本发明将文本挖掘及特征衍生相结合来识别设备的职业性风险,能更加及时、准确的识别存在职业性风险的设备,从而保障互联网服务提供过程中的数据安全和交易安全,降低企业损失。

Description

一种基于文本的风险设备识别方法、装置及电子设备
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种基于文本的风险设备识别方法、装置、电子设备及计算机可读介质。
背景技术
随着互联网的发展,出现了各种互联网服务平台,比如:网购平台、网约车平台、共享平台、地图、音乐等等。这些平台给人们的生活带来了很大的便利,但因其与互联网紧密结合,会存在一些比如:传销、欺诈、失信等职业风险。
为了降低这些风险对公司造成的损失,维护公司品牌形象。通常会根据设备的位置信息定位设备用户的的行业职业,根据设备用户的行业职业来识别设备是否存在职业风险。虽然设备的位置信息可以定位到一个正常人的职业,但对于传销分子,由于其没有固定的工作场所,位置定位的方式并不能及时、准确的识别存在这种职业性风险的设备,无法有力的保障互联网服务提供过程中的数据安全和交易安全,给企业造成损失。
发明内容
有鉴于此,本发明主要目的在于提出一种基于文本的风险设备识别方法、装置、电子设备及计算机可读介质,以期至少部分地解决上述技术问题中的至少之一。
为了解决上述技术问题,本发明第一方面提出一种基于文本的风险设备识别方法,所述方法包括:
获取待识别职业风险对应的文本关键词;
基于设备文本数据对所述文本关键词进行特征衍生,得到衍生特征;
基于所述衍生特征和设备标签数据训练风险识别模型;
通过训练好的风险识别模型识别设备风险。
根据本发明一种优选实施方式,所述获取待识别职业风险对应的文本关键词包括:
基于待识别职业风险类型为训练设备打上风险标签,并采集训练设备的设备文本数据;
对所述设备文本数据进行分词处理,得到待识别职业风险类别对应的词语集;
确定词语集中各个词语对待识别职业风险类别的区分度;
基于所述区分度获取待识别职业风险对应的文本关键词。
根据本发明一种优选实施方式,所述基于设备文本数据对所述文本关键词进行特征衍生包括:
将设备文本数据中包含的文本关键词及包含所述文本关键词的次数作为衍生特征;其中,包含的文本关键词可以是:单个文本关键词,和/或,多个文本关键词组合成的组合文本关键词;
或者,所述基于设备文本数据对所述文本关键词进行特征衍生包括:
从文本关键词中选取指定文本关键词;
将设备文本数据中包含所述文本关键词的次数作为衍生特征;
其中,指定文本关键词可以是:指定的单个文本关键词,和/或,指定的多个文本关键词组合成的组合文本关键词。
根据本发明一种优选实施方式,所述通过训练好的风险识别模型识别设备风险包括:
获取设备的设备文本数据;
基于设备文本数据对所述文本关键词进行特征衍生,得到衍生特征;
将衍生特征输入训练好的风险识别模型,输出识别结果;
根据所述识别结果确定设备风险。
根据本发明一种优选实施方式,所述方法还包括:
根据识别结果将设备分至不同设备组;
基于设备所在的设备组对设备进行控制。
根据本发明一种优选实施方式,所述基于设备所在的设备组对设备进行控制包括:
若设备分至风险设备组,对设备进行交易限制,并将该设备加入黑名单;
若设备分至疑似风险设备组,对设备进行风险审核,将未通过风险审核的设备进行交易限制,并将该设备加入黑名单。
为解决上述技术问题,本发明第二方面提供一种基于文本的风险设备识别装置,所述装置包括:
获取模块,用于获取待识别职业风险对应的文本关键词;
衍生模块,用于基于设备文本数据对所述文本关键词进行特征衍生,得到衍生特征;
训练模块,用于基于所述衍生特征和设备标签数据训练风险识别模型;
识别模块,用于通过训练好的风险识别模型识别设备风险。
根据本发明一种优选实施方式,所述获取模块包括:
采集模块,用于基于待识别职业风险类型为训练设备打上风险标签,并采集训练设备的设备文本数据;
分词处理模块,用于对所述设备文本数据进行分词处理,得到待识别职业风险类别对应的词语集;
确定模块,用于确定词语集中各个词语对待识别职业风险类别的区分度;
子获取模块,用于基于所述区分度获取待识别职业风险对应的文本关键词。
根据本发明一种优选实施方式,所述衍生模块,用于将设备文本数据中包含的文本关键词及包含所述文本关键词的次数作为衍生特征;其中,包含的文本关键词可以是:单个文本关键词,和/或,多个文本关键词组合成的组合文本关键词;
或者,所述衍生模块包括:
选取模块,用于从文本关键词中选取指定文本关键词;
子衍生模块,用于将设备文本数据中包含所述文本关键词的次数作为衍生特征;其中,指定文本关键词可以是:指定的单个文本关键词,和/或,指定的多个文本关键词组合成的组合文本关键词。
根据本发明一种优选实施方式,所述识别模块包括:
第一获取模块,用于获取设备的设备文本数据;
第一衍生模块,用于基于设备文本数据对所述文本关键词进行特征衍生,得到衍生特征;
输入模块,用于将衍生特征输入训练好的风险识别模型,输出识别结果;
子识别模块,用于根据所述识别结果确定设备风险。
根据本发明一种优选实施方式,所述装置还包括:
划分模块,用于根据识别结果将设备分至不同设备组;
控制模块,用于基于设备所在的设备组对设备进行控制。
根据本发明一种优选实施方式,所述控制模块包括:
第一控制模块,用于若设备分至风险设备组,并对设备进行交易限制,并将该设备加入黑名单;
第二控制模块,用于若设备分至疑似风险设备组,对设备进行风险审核,将未通过风险审核的设备进行交易限制,并将该设备加入黑名单。
为解决上述技术问题,本发明第三方面提供一种电子设备,包括:
处理器;以及
存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使所述处理器执行上述的方法。
为解决上述技术问题,本发明第四方面提供一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,当所述一个或多个程序被处理器执行时,实现上述方法。
本发明通过文本挖掘获取待识别职业风险对应的文本关键词,并基于设备文本数据对该文本关键词进行特征衍生,得到衍生特征;基于所述衍生特征和设备标签数据训练风险识别模型,通过训练好的风险识别模型来识别具有待识别职业风险的设备。相比于单纯依靠设备位置识别的方式,本发明将文本挖掘及特征衍生相结合来识别设备的职业性风险,能更加及时、准确的识别存在职业性风险的设备,从而保障互联网服务提供过程中的数据安全和交易安全,降低企业损失。
附图说明
为了使本发明所解决的技术问题、采用的技术手段及取得的技术效果更加清楚,下面将参照附图详细描述本发明的具体实施例。但需声明的是,下面描述的附图仅仅是本发明的示例性实施例的附图,对于本领域的技术人员来讲,在不付出创造性劳动的前提下,可以根据这些附图获得其他实施例的附图。
图1是本发明实施例一种基于文本的风险设备识别方法的流程示意图;
图2是本发明基于设备所在的设备组对设备进行控制的示意图;
图3是本发明实施例一种基于文本的风险设备识别装置的结构框架示意图;
图4是根据本发明的一种电子设备的示例性实施例的结构框图;
图5是本发明一种计算机可读介质实施例的示意图。
具体实施方式
现在将参考附图来更加全面地描述本发明的示例性实施例,虽然各示例性实施例能够以多种具体的方式实施,但不应理解为本发明仅限于在此阐述的实施例。相反,提供这些示例性实施例是为了使本发明的内容更加完整,更加便于将发明构思全面地传达给本领域的技术人员。
在符合本发明的技术构思的前提下,在某个特定的实施例中描述的结构、性能、效果或者其他特征可以以任何合适的方式结合到一个或更多其他的实施例中。
在对于具体实施例的介绍过程中,对结构、性能、效果或者其他特征的细节描述是为了使本领域的技术人员对实施例能够充分理解。但是,并不排除本领域技术人员可以在特定情况下,以不含有上述结构、性能、效果或者其他特征的技术方案来实施本发明。
附图中的流程图仅是一种示例性的流程演示,不代表本发明的方案中必须包括流程图中的所有的内容、操作和步骤,也不代表必须按照图中所显示的的顺序执行。例如,流程图中有的操作/步骤可以分解,有的操作/步骤可以合并或部分合并,等等,在不脱离本发明的发明主旨的情况下,流程图中显示的执行顺序可以根据实际情况改变。
附图中的框图一般表示的是功能实体,并不一定必然与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
各附图中相同的附图标记表示相同或类似的元件、组件或部分,因而下文中可能省略了对相同或类似的元件、组件或部分的重复描述。还应理解,虽然本文中可能使用第一、第二、第三等表示编号的定语来描述各种器件、元件、组件或部分,但是这些器件、元件、组件或部分不应受这些定语的限制。也就是说,这些定语仅是用来将一者与另一者区分。例如,第一器件亦可称为第二器件,但不偏离本发明实质的技术方案。此外,术语“和/或”、“及/或”是指包括所列出项目中的任一个或多个的所有组合。
请参阅图1,图1是本发明提供的一种基于文本的风险设备识别方法,所述方法用于互在联网服务中识别具有职业性风险的设备,其中,所述互联网服务可以是各种互联网服务平台提供的服务,所述互联网服务平台可以是网购平台、网约车平台、共享平台、搜索平台、社交平台等等,只要是基于互联网提供的服务可以适用,本发明不做具体限定。如图1所示,所述方法包括:
S1、获取待识别职业风险对应的文本关键词;
其中,待识别职业风险是当前任务需要识别的职业风险。所述职业风险指设备用户的职业是否存在影响数据安全、交易安全的风险。根据设备用户职业的不同,职业风险可以包括:传销职业风险,欺诈职业风险等等。
示例性的,可以通过文本挖掘的方式获取待识别职业风险对应的文本关键词,则本步骤可以包括:
S11、基于待识别职业风险类型为训练设备打上风险标签,并采集训练设备的设备文本数据;
以待识别职业风险类型为传销职业风险为例,可以基于第三方(比如:公安机构)的传销记录,并结合对传销特点、传销运营模式、传销关键词的分析对训练设备进行标注,将有传销记录的训练设备打上风险的标签,基于设备的通信记录、行为记录等将符合传销特点、传销运营模式、或者传销关键词的训练设备打上疑似风险的标签,将其余训练设备打上无风险的标签,从而得到设备标签数据。其中,通信记录可以包括设备通讯录和设备通话记录,所述通话记录可以是通过电话、短信、及时通信工具等进行通话所产生的记录。所述行为记录包括设备对互联网服务的历史行为记录,该历史行为可以包括:对互联网服务的浏览、点击、关注、申请、交易等等。进一步的,为了保证有风险标签的样本量充足,可以通过基于智能语音交互系统分配智能坐席,通过控制智能坐席对打上疑似风险的标签的设备进行核实,确认该设备用户是否为传销分子,并根据核实结果对该设备打上风险或者无风险的标签。
所述设备文本数据是设备数据的文本表示,所述设备数据与互联网服务相关,其可以是基于互联网服务的任何与设备相关的数据;示例性的,所述设备数据可以包括:设备ID及与设备ID相关的信息。可选的,所述与设备ID相关的信息可以包括:设备型号、设备所在地域、设备资源归还记录、设备通信记录、设备用户信息中的至少一种。
其中,设备资源归还记录指该设备申请资源后,对资源是否按期归还的记录。所述资源是指任何可被利用的物质、信息、金钱、时间等。信息资源包括计算资源和各种类型的数据资源。数据资源包括各个领域中的各种专用数据。所述设备通信记录可以包括设备中存储的通讯录联系人、设备中存储的通信记录等等与通信相关的信息。所述设备用户信息可以包括:使用设备用户的性别、年龄、学历、欺诈记录、违法违规记录等。
S12、对所述设备文本数据进行分词处理,得到待识别职业风险类别对应的词语集;
其中,分词就是将句子、段落、文章这种长文本,分解为以字词为单位的数据结构,方便后续的处理分析工作。根据文本语言的不同,分词可以分为中文分词和英文分词。其中,中文分词是基于中文在基本文法上的特点而存在的分词,中文分词将文章或语句切分为一个个有含义的词语。
示例性的,本发明实施例可以采用jieba分词技术对每个设备文本数据进行中文分词处理,得到对设备文本数据的多个词语描述。其中,jieba分词技术使用了基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能生成词情况所构成的有向无环图(DAG),再采用动态规划查找最大概率路径,找出基于词频的最大切分组合。jieba分词技术可以自定义停用词,结合语料库对语句进行切分,形成一个个词语,所有切分到的词语构成待识别职业风险类别对应的词语集。
S13、确定词语集中各个词语对待识别职业风险类别的区分度;
所述区分度用于评价单个词语对于设备文本数据中待识别职业风险设备文本的区分程度。示例性的,各个词语对待识别职业风险类别的区分度可以通过tfidf值来确定。其中,TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。TF-IDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。一个词语的tfidf=TF×IDF;其中,TF为词频,IDF为逆设备文本数据频率。一个词语的词频TF=词语在设备文本数据中出现次数/设备文本数据的总词数。一个词语的逆设备文本数据频率IDF=log(训练设备的设备文本总数/包含该词的设备文本数+1)。
本实施例中,在得到设备文本数据的多个词语描述后,采用TF-IDF算法计算出每个词语的tfidf值,即得到各个词语对待识别职业风险类别的区分度。
S14、基于所述区分度获取待识别职业风险对应的文本关键词。
示例性的,可以按照词语tfidf值从大到小的倒序顺序对多个词语进行排序,选取预定排序前N(比如,N=100)的词语生成对传销分子区分比较明显的文本关键词。
进一步的,为了提高文本关键词对传销分子的区分度,可以结合训练设备打上的风险标签对文本关键词进行筛选,比如:将在有风险标签的训练设备文本数据中出现,且在文本关键词中出现的词语作为最终的文本关键词;或者,将在无风险标签的训练设备文本数据中出现,且在文本关键词中出现的词语从文本关键词中剔除,剩下的词语生成最终的文本关键词。
S2、基于设备文本数据对所述文本关键词进行特征衍生,得到衍生特征;
其中,特征衍生指将已有的特征进行某种组合,生成新的具有含义的特征;可以包括:特征转换和特征组合两种类型;其中,特征转换主要是单变量进行的变换,特征组合是多变量之间组合。
本发明实施例可以采用特征转换的方式基于设备文本数据对所述文本关键词进行特征衍生,在一种示例中,可以将设备文本数据中包含的文本关键词及包含所述文本关键词的次数作为衍生特征;其中,包含的文本关键词可以是:单个文本关键词,或者,多个文本关键词组合成的组合文本关键词;也可以是单个文本关键词和由多个文本关键词组合而成的组合文本关键词。
在另一种示例中,为了进一步提高对待识别职业风险的区分度,可以先从文本关键词中选取指定文本关键词;比如:根据经验预先配置多个与传销相关的关键词作为指定关键词,选取文本关键词中与所述指定关键词相同的词语作为指定文本关键词。将设备文本数据中包含所述文本关键词的次数作为衍生特征;其中,指定文本关键词可以是:指定的单个文本关键词,也可以是指定的多个文本关键词组合成的组合文本关键词,还可以是:指定的单个文本关键词,和,指定的多个文本关键词组合成的组合文本关键词。
S3、基于所述衍生特征和设备标签数据训练风险识别模型;
示例性的,可以将设备的衍生特征作为输入特征,设备标签数据作为标签输入风险识别模型中进行训练,使训练后的风险识别模型能够对衍生特征进行分析,从而给出一个设备具有待识别职业风险的预测值。通过对设备预测值与设备标签的分析,确定阈值,根据阈值识别设备的职业风险。
其中,风险识别模型可以采用二分类模型,比如:XGBoost模型、LightGBM模型,随机森林模型,逻辑回归模型等,本发明不做具体限定。考虑到本发明的衍生特征比较多,且对识别准确率要求高,优选采用XGBoost模型。
S4、通过训练好的风险识别模型识别设备风险。
示例性的,本步骤可以包括:
S41、获取设备的设备文本数据;
其中,设备文本数据与步骤S11相同,此处不再赘述。
S42、基于设备文本数据对所述文本关键词进行特征衍生,得到衍生特征;
步骤S42与步骤S2相同,此处不再赘述。
S43、将衍生特征输入训练好的风险识别模型,输出识别结果;
训练后的风险识别模型能够对衍生特征进行分析,从而给出一个设备具有待识别职业风险的预测值。
S44、根据所述识别结果确定设备风险。
基于步骤S3确定的阈值,根据阈值与设备预测值的关系来识别设备的职业风险。
进一步的,还可以基于识别结果对设备进行分组控制,在保证覆盖度的前提下,细化对传销分子的识别,有效拦截传销分子对公司的潜在损失,树立更好的品牌形象。因此,所述方法还包括:
S5、根据识别结果将设备分至不同设备组;
示例性的,如图2所示,可以基于步骤S3确定第一阈值和第二阈值,预测值大于第一阈值的设备划分至无风险设备组、预测值小于第一阈值大于第二阈值的设备划分至疑似风险设备组、预测值小于第二阈值的设备划分至风险设备组。其中,第一阈值大于第二阈值。
S6、基于设备所在的设备组对设备进行控制。
示例性的,如图2,若设备分至风险设备组,对设备打上风险标签,并对设备进行交易限制,将设备加入黑名单;
若设备分至疑似风险设备组,对设备打上疑似设备标签,对设备进行风险审核,若设备未通过风险审核,将设备进行交易限制,将该设备加入黑名单。若设备通过风险审核,将其视为正常设备,提供正常的互联网服务。其中,风险审核可以是:通过智能语音对话系统分配智能坐席,通过智能坐席对设备用户的职业性质、资源用途等情况进行审核。
若设备分至无风险设备组,对设备打上无风险标签,视为正常设备,提供正常的互联网服务。
为了进一步减小风险,可以对加入黑名单的设备的关联设备打上关联设备标签,在关联设备申请互联网服务时,对其进行多维度的认证,通过认证后,再向其提供有限制的互联网服务。
其中,关联设备指与加入黑名单设备存在社交关系的设备。多维度认证可以是通过不同维度的设备属性对其进行认证,比如:通过设备行为、设备关联关系、设备自身属性等多维度对其进行认证;设备行为可以包括:登录、点击、关注、浏览等行为,设备关联关系指与设备存在社交关系的设备风险情况,设备自身属性可以包括:设备位置、设备历史风险记录等。所述有限制可以是在使用时间、使用地区、使用额度等方面的限制。
图3是本发明一种基于文本的风险设备识别装置,如图3所示,所述装置包括:
获取模块31,用于获取待识别职业风险对应的文本关键词;
衍生模块32,用于基于设备文本数据对所述文本关键词进行特征衍生,得到衍生特征;
训练模块33,用于基于所述衍生特征和设备标签数据训练风险识别模型;
识别模块34,用于通过训练好的风险识别模型识别设备风险。
根据本发明一种优选实施方式,所述获取模块31包括:
采集模块,用于基于待识别职业风险类型为训练设备打上风险标签,并采集训练设备的设备文本数据;
分词处理模块,用于对所述设备文本数据进行分词处理,得到待识别职业风险类别对应的词语集;
确定模块,用于确定词语集中各个词语对待识别职业风险类别的区分度;
子获取模块,用于基于所述区分度获取待识别职业风险对应的文本关键词。
所述衍生模块32,用于将设备文本数据中包含的文本关键词及包含所述文本关键词的次数作为衍生特征;其中,包含的文本关键词可以是:单个文本关键词,和/或,多个文本关键词组合成的组合文本关键词;
或者,所述衍生模块32包括:
选取模块,用于从文本关键词中选取指定文本关键词;
子衍生模块,用于将设备文本数据中包含所述文本关键词的次数作为衍生特征;其中,指定文本关键词可以是:指定的单个文本关键词,和/或,指定的多个文本关键词组合成的组合文本关键词。
所述识别模块34包括:
第一获取模块,用于获取设备的设备文本数据;
第一衍生模块,用于基于设备文本数据对所述文本关键词进行特征衍生,得到衍生特征;
输入模块,用于将衍生特征输入训练好的风险识别模型,输出识别结果;
子识别模块,用于根据所述识别结果确定设备风险。
进一步的,所述装置还包括:
划分模块,用于根据识别结果将设备分至不同设备组;
控制模块,用于基于设备所在的设备组对设备进行控制。
在一种实施方式中,所述控制模块包括:
第一控制模块,用于若设备分至风险设备组,对设备打上风险标签,并对设备进行交易限制,将设备加入黑名单;
第二控制模块,用于若设备分至疑似风险设备组,对设备打上疑似设备标签,对设备进行风险审核,将未通过风险审核的设备进行交易限制,将该设备加入黑名单。
本领域技术人员可以理解,上述装置实施例中的各模块可以按照描述分布于装置中,也可以进行相应变化,分布于不同于上述实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
下面描述本发明的电子设备实施例,该电子设备可以视为对于上述本发明的方法和装置实施例的实体形式的实施方式。对于本发明电子设备实施例中描述的细节,应视为对于上述方法或装置实施例的补充;对于在本发明电子设备实施例中未披露的细节,可以参照上述方法或装置实施例来实现。
图4是根据本发明的一种电子设备的示例性实施例的结构框图。图4显示的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图4所示,该示例性实施例的电子设备400以通用数据处理设备的形式表现。电子设备400的组件可以包括但不限于:至少一个处理单元410、至少一个存储单元420、连接不同电子设备组件(包括存储单元420和处理单元410)的总线430、显示单元440等。
其中,所述存储单元420存储有计算机可读程序,其可以是源程序或都只读程序的代码。所述程序可以被处理单元410执行,使得所述处理单元410执行本发明各种实施方式的步骤。例如,所述处理单元410可以执行如图1所示的步骤。
所述存储单元420可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)4201和/或高速缓存存储单元4202,还可以进一步包括只读存储单元(ROM)4203。所述存储单元420还可以包括具有一组(至少一个)程序模块4205的程序/实用工具4204,这样的程序模块4205包括但不限于:操作电子设备、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线430可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备400也可以与一个或多个外部设备100(例如键盘、显示器、网络设备、蓝牙设备等)通信,使得用户能经由这些外部设备100与该电子设备400交互,和/或使得该电子设备400能与一个或多个其它数据处理设备(例如路由器、调制解调器等等)进行通信。这种通信可以通过输入/输出(I/O)接口450进行,还可以通过网络适配器460与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)进行。网络适配器460可以通过总线430与电子设备400的其它模块通信。应当明白,尽管图4中未示出,电子设备400中可使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID电子设备、磁带驱动器以及数据备份存储电子设备等。
图5是本发明的一个计算机可读介质实施例的示意图。如图5所示,所述计算机程序可以存储于一个或多个计算机可读介质上。计算机可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的电子设备、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。当所述计算机程序被一个或多个数据处理设备执行时,使得该计算机可读介质能够实现本发明的上述方法,即:获取待识别职业风险对应的文本关键词;基于设备文本数据对所述文本关键词进行特征衍生,得到衍生特征;基于所述衍生特征和设备标签数据训练风险识别模型;通过训练好的风险识别模型识别设备风险。
通过以上的实施方式的描述,本领域的技术人员易于理解,本发明描述的示例性实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个计算机可读的存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台数据处理设备(可以是个人计算机、服务器、或者网络设备等)执行根据本发明的上述方法。
所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行电子设备、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语音的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语音包括面向对象的程序设计语音—诸如Java、C++等,还包括常规的过程式程序设计语音—诸如“C”语音或类似的程序设计语音。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
综上所述,本发明可以执行计算机程序的方法、装置、电子设备或计算机可读介质来实现。可以在实践中使用微处理器或者数字信号处理器(DSP)等通用数据处理设备来实现本发明的一些或者全部功能。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,本发明不与任何特定计算机、虚拟装置或者电子设备固有相关,各种通用装置也可以实现本发明。以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (14)

1.一种基于文本的风险设备识别方法,其特征在于,所述方法包括:
获取待识别职业风险对应的文本关键词;
基于设备文本数据对所述文本关键词进行特征衍生,得到衍生特征;
基于所述衍生特征和设备标签数据训练风险识别模型;
通过训练好的风险识别模型识别设备风险。
2.根据权利要求1所述的方法,其特征在于,所述获取待识别职业风险对应的文本关键词包括:
基于待识别职业风险类型为训练设备打上风险标签,并采集训练设备的设备文本数据;
对所述设备文本数据进行分词处理,得到待识别职业风险类别对应的词语集;
确定词语集中各个词语对待识别职业风险类别的区分度;
基于所述区分度获取待识别职业风险对应的文本关键词。
3.根据权利要求1或2所述的方法,其特征在于,所述基于设备文本数据对所述文本关键词进行特征衍生包括:
将设备文本数据中包含的文本关键词及包含所述文本关键词的次数作为衍生特征;其中,包含的文本关键词可以是:单个文本关键词,和/或,多个文本关键词组合成的组合文本关键词;
或者,所述基于设备文本数据对所述文本关键词进行特征衍生包括:
从文本关键词中选取指定文本关键词;
将设备文本数据中包含所述文本关键词的次数作为衍生特征;
其中,指定文本关键词可以是:指定的单个文本关键词,和/或,指定的多个文本关键词组合成的组合文本关键词。
4.根据权利要求1或2所述的方法,其特征在于,所述通过训练好的风险识别模型识别设备风险包括:
获取设备的设备文本数据;
基于设备文本数据对所述文本关键词进行特征衍生,得到衍生特征;
将衍生特征输入训练好的风险识别模型,输出识别结果;
根据所述识别结果确定设备风险。
5.根据权利要求1-4任一所述的方法,其特征在于,所述方法还包括:
根据识别结果将设备分至不同设备组;
基于设备所在的设备组对设备进行控制。
6.根据权利要求5所述的方法,其特征在于,所述基于设备所在的设备组对设备进行控制包括:
若设备分至风险设备组,对设备进行交易限制,并将该设备加入黑名单;
若设备分至疑似风险设备组,对设备进行风险审核,将未通过风险审核的设备进行交易限制,并将该设备加入黑名单。
7.一种基于文本的风险设备识别装置,其特征在于,所述装置包括:
获取模块,用于获取待识别职业风险对应的文本关键词;
衍生模块,用于基于设备文本数据对所述文本关键词进行特征衍生,得到衍生特征;
训练模块,用于基于所述衍生特征和设备标签数据训练风险识别模型;
识别模块,用于通过训练好的风险识别模型识别设备风险。
8.根据权利要求7所述的装置,其特征在于,所述获取模块包括:
采集模块,用于基于待识别职业风险类型为训练设备打上风险标签,并采集训练设备的设备文本数据;
分词处理模块,用于对所述设备文本数据进行分词处理,得到待识别职业风险类别对应的词语集;
确定模块,用于确定词语集中各个词语对待识别职业风险类别的区分度;
子获取模块,用于基于所述区分度获取待识别职业风险对应的文本关键词。
9.根据权利要求7或8所述的装置,其特征在于,所述衍生模块,用于将设备文本数据中包含的文本关键词及包含所述文本关键词的次数作为衍生特征;其中,包含的文本关键词可以是:单个文本关键词,和/或,多个文本关键词组合成的组合文本关键词;
或者,所述衍生模块包括:
选取模块,用于从文本关键词中选取指定文本关键词;
子衍生模块,用于将设备文本数据中包含所述文本关键词的次数作为衍生特征;其中,指定文本关键词可以是:指定的单个文本关键词,和/或,指定的多个文本关键词组合成的组合文本关键词。
10.根据权利要求7或8所述的装置,其特征在于,所述识别模块包括:
第一获取模块,用于获取设备的设备文本数据;
第一衍生模块,用于基于设备文本数据对所述文本关键词进行特征衍生,得到衍生特征;
输入模块,用于将衍生特征输入训练好的风险识别模型,输出识别结果;
子识别模块,用于根据所述识别结果确定设备风险。
11.根据权利要求7-10任一所述的装置,其特征在于,所述装置还包括:
划分模块,用于根据识别结果将设备分至不同设备组;
控制模块,用于基于设备所在的设备组对设备进行控制。
12.根据权利要求11所述的装置,其特征在于,所述控制模块包括:
第一控制模块,用于若设备分至风险设备组,对设备进行交易限制,并将该设备加入黑名单;
第二控制模块,用于若设备分至疑似风险设备组,对设备进行风险审核,将未通过风险审核的设备进行交易限制,并将该设备加入黑名单。
13.一种电子设备,包括:
处理器;以及
存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使所述处理器执行根据权利要求1-6中任一项所述的方法。
14.一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,当所述一个或多个程序被处理器执行时,实现权利要求1-6中任一项所述的方法。
CN202111222505.9A 2021-10-20 2021-10-20 一种基于文本的风险设备识别方法、装置及电子设备 Pending CN114065752A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111222505.9A CN114065752A (zh) 2021-10-20 2021-10-20 一种基于文本的风险设备识别方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111222505.9A CN114065752A (zh) 2021-10-20 2021-10-20 一种基于文本的风险设备识别方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN114065752A true CN114065752A (zh) 2022-02-18

Family

ID=80235062

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111222505.9A Pending CN114065752A (zh) 2021-10-20 2021-10-20 一种基于文本的风险设备识别方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN114065752A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115828912A (zh) * 2022-12-20 2023-03-21 北京数字政通科技股份有限公司 一种智能识别多人同诉工单的方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115828912A (zh) * 2022-12-20 2023-03-21 北京数字政通科技股份有限公司 一种智能识别多人同诉工单的方法及系统
CN115828912B (zh) * 2022-12-20 2023-08-29 北京数字政通科技股份有限公司 一种智能识别多人同诉工单的方法及系统

Similar Documents

Publication Publication Date Title
US10789552B2 (en) Question answering system-based generation of distractors using machine learning
US9910886B2 (en) Visual representation of question quality
US9575936B2 (en) Word cloud display
US8892539B2 (en) Building, reusing and managing authored content for incident management
US8370278B2 (en) Ontological categorization of question concepts from document summaries
US20070050388A1 (en) Device and method for text stream mining
Kiefer Assessing the Quality of Unstructured Data: An Initial Overview.
CN112163072B (zh) 基于多数据源的数据处理方法以及装置
Kovanovic et al. Automated cognitive presence detection in online discussion transcripts
CN112686022A (zh) 违规语料的检测方法、装置、计算机设备及存储介质
CN111210335A (zh) 用户风险识别方法、装置及电子设备
CN112016286A (zh) 文案生成方法、装置及电子设备
US9235562B1 (en) Systems and methods for transparent data loss prevention classifications
CN111583018A (zh) 一种基于用户金融表现分析的授信策略管理方法、装置和电子设备
CN112015562A (zh) 基于迁移学习的资源分配方法、装置及电子设备
CN111582314A (zh) 目标用户确定方法、装置及电子设备
US10354013B2 (en) Dynamic translation of idioms
CN113553431B (zh) 用户标签提取方法、装置、设备及介质
CN112989050B (zh) 一种表格分类方法、装置、设备及存储介质
CN114065752A (zh) 一种基于文本的风险设备识别方法、装置及电子设备
US11694025B2 (en) Cognitive issue description and multi-level category recommendation
Ikram et al. Open source software adoption evaluation through feature level sentiment analysis using Twitter data
Vysotska et al. Sentiment Analysis of Information Space as Feedback of Target Audience for Regional E-Business Support in Ukraine.
WO2023110580A1 (en) Automatically assign term to text documents
WO2022048535A1 (en) Reasoning based natural language interpretation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination