CN112597400A - 一种人群的特定倾向性感知方法和系统 - Google Patents
一种人群的特定倾向性感知方法和系统 Download PDFInfo
- Publication number
- CN112597400A CN112597400A CN202110245534.0A CN202110245534A CN112597400A CN 112597400 A CN112597400 A CN 112597400A CN 202110245534 A CN202110245534 A CN 202110245534A CN 112597400 A CN112597400 A CN 112597400A
- Authority
- CN
- China
- Prior art keywords
- tendency
- input method
- data
- library
- specific
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 256
- 238000004458 analytical method Methods 0.000 claims abstract description 72
- 238000012216 screening Methods 0.000 claims description 48
- 230000007246 mechanism Effects 0.000 claims description 38
- 230000004927 fusion Effects 0.000 claims description 20
- 238000007781 pre-processing Methods 0.000 claims description 20
- 238000004140 cleaning Methods 0.000 claims description 18
- 238000003860 storage Methods 0.000 claims description 15
- 238000012795 verification Methods 0.000 claims description 14
- 230000000694 effects Effects 0.000 claims description 12
- 230000002776 aggregation Effects 0.000 claims description 7
- 238000004220 aggregation Methods 0.000 claims description 7
- 238000005065 mining Methods 0.000 claims description 7
- 230000009469 supplementation Effects 0.000 claims description 7
- 238000007405 data analysis Methods 0.000 claims description 5
- 238000013480 data collection Methods 0.000 claims description 5
- 238000009792 diffusion process Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000010219 correlation analysis Methods 0.000 claims description 3
- 230000001502 supplementing effect Effects 0.000 claims description 3
- 230000008447 perception Effects 0.000 claims 8
- 238000007726 management method Methods 0.000 description 52
- 230000005540 biological transmission Effects 0.000 description 12
- 238000011160 research Methods 0.000 description 12
- 238000012544 monitoring process Methods 0.000 description 10
- 238000004519 manufacturing process Methods 0.000 description 9
- 238000000605 extraction Methods 0.000 description 7
- 230000007480 spreading Effects 0.000 description 5
- 238000003892 spreading Methods 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 4
- 230000001717 pathogenic effect Effects 0.000 description 4
- 230000002265 prevention Effects 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 244000052769 pathogen Species 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000003449 preventive effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000012827 research and development Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- ABEXEQSGABRUHS-UHFFFAOYSA-N 16-methylheptadecyl 16-methylheptadecanoate Chemical compound CC(C)CCCCCCCCCCCCCCCOC(=O)CCCCCCCCCCCCCCC(C)C ABEXEQSGABRUHS-UHFFFAOYSA-N 0.000 description 1
- 208000001613 Gambling Diseases 0.000 description 1
- 241000764238 Isis Species 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000005417 image-selected in vivo spectroscopy Methods 0.000 description 1
- 238000012739 integrated shape imaging system Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Tourism & Hospitality (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- General Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Marketing (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种人群的特定倾向性感知方法和系统,具体包括如下步骤S1:将输入法数据源作为目标人群数据来源;S2:根据输入法数据源和实际需求构建至少一个特征库,所述特征库具有至少一个特定倾向性特征的集合;S3:将目标人群的输入法数据源与特征库进行匹配,并根据匹配结果划分目标人群的特定倾向性,使目标人群经划分后具有至少一个特定倾向性。在本发明中,以输入法工具获取的相关数据为基础数据源,快速、精准地对具有某种特定倾向性的人群进行筛选和分类划分,有利于及时掌控相关人群信息,方便后续分析和管理。
Description
技术领域
本发明涉及一种人群的特定倾向性感知方法。
本发明还涉及一种人群的特定倾向性感知系统。
背景技术
随着移动互联网、社交媒体的普及,各类违法信息传播加剧,传播手段日益隐蔽,现有监测手段的不足日益凸显。互联网发展为有关部门开展反暴恐、反邪教、反淫秽和反诈骗等专项工作带来了空前的挑战。包括云盘、即时通讯、论坛博客和网络金融在内的各类网络应用的普及,使得涉暴恐、涉邪教、涉淫秽和涉诈骗等具有特定非法倾向的人员大量利用私密化、圈群化的网络工具,给煽动、招募、组织、策划和实施非法活动带来了极大便利。传统的基于网络爬虫采集网页数据的做法存在发现难、追踪难、威慑力不够和成本较高等诸多问题,必须另辟蹊径,创新专题有害信息管控的新模式,切实提升对各类违法违规信息的感知能力。党的十八届三中全会也明确提出要推进国家治理体系和治理能力现代化,大数据技术成为变革社会治理的重要技术手段之一。
由于各类违法违规的网络公害类信息传播加剧,传播手段日益隐蔽,传统的监测手段的不足日益凸显。因此,必须转变思维、另辟蹊径,创新网上涉暴恐、涉邪教、涉淫秽和涉诈骗等网络公害类信息管控模式,切实提升对网络公害类信息生产和传播的感知力和防控力。近年来,全球互联网数据总量维持在较高增长率,一方面,技术监测面远不及全网数据增长率,单纯追加人力或技术资源难以达到效果;另一方面,网络传播新技术新应用造成监测盲区,主要包括各类社交媒体、网盘、邮件组、即时通讯群组等封闭式传播平台,以及朋友圈、内容分享社区、直播弹幕等半封闭式传播平台;从而导致专题有害信息管控“层层设防、层层难防”。
此外,各类非法信息的传播相对于常规有害信息,其组织性、目的性较强,而且特征明显:内容生产更加隐蔽,传播圈群化、私密化,爆发更具随机性,境内外互通频繁。这些特点使得这类有害信息识别、监测十分困难,很难发现源头和提前预测,但是一旦出现又会造成极为恶劣的影响,导致监管始终处于被动局面。只有深入研究这类非法信息的生产传播规律,才能避免“大海捞针”的困境,做到“有的放矢”和事半功倍的作用。
发明内容
本发明的目的是提供一种人群的特定倾向性感知方法,可以快速、精准感知具有特定倾向性的人群,并对相关具有特定倾向性的人群进行智能分类划分,有利于及时掌控违法、有害等相关信息的生产和传播源头,方便用户后续对这类违法、有害相关信息及其生产传播人群及时进行依法依规的管理。
本发明的另一目的是提供一种人群的特定倾向性感知系统,能实现上述方法。
本发明的一种人群的特定倾向性感知方法,具体包括如下步骤:
S1:将输入法数据源作为待分析人群数据来源;
S2:根据输入法数据源以及实际需求构建至少一个特征库,所述特征库具有至少一个特定倾向性特征的集合;
S3:将待分析人群的输入法数据源与特征库进行匹配,筛选出具有至少一个特定倾向性的目标人群。
采用上述方法,可以根据实际需要快速、精准地将人群感知为各种倾向性,将具有所需倾向性的特征人员筛选出来,便于对目标人群的分类划分和后续管理。
所述特定倾向性包括暴恐倾向、邪教倾向、淫秽倾向、诈骗倾向。在本发明中将该方法用于涉恐涉暴、邪教组织、淫秽传播、电信诈骗等网络人群的筛选跟踪。
进一步地,还包括:S4:采集S3所获得的目标人群个体的输入法数据源中的文本信息,并结合输入法数据源中的输入时间、输入所在平台、设备标识码、注册账号及其它信息进行数据融合,形成基于输入法的单通道目标人群画像库;根据目标人群的输入法相关信息构建目标人群个体的基于输入法的单通道目标人群画像库,以便于后续对目标人群进行综合分析、群体研究等后续相关研究和分析工作的进行。也就是说,采用上述方法,对目标人群个体的其他信息如输入时间、输入所在平台、设备标识码、注册账号等信息进行分析和评估,并综合输入内容后,共同构建与输入法相关的单通道目标人群画像库,以便于对整个目标人群的综合分析和管理。
进一步地,步骤S1包括:
S1.1多源数据归集:基于不同输入法采集数据,包括但不限于:输入文本、输入时间、输入所在平台、设备标识码、注册账号;
S1.2多源数据预处理:对所采集的数据进行预处理,根据清洗机制或筛除机制,清除噪音信息或空白信息;
S1.3输入法数据源基础库建立:基于预处理后的数据源构建输入法数据源基础库,进行存储管理并建立查询检索机制。
采用上述方法,一方面通过采集不同类型的输入法工具采集不同的输入数据源,该数据包括但不限于输入文本、输入时间、输入所在平台、设备标识码、注册账号等,如此采集的数据具有多源性和丰富性,使得数据比较完整、全面,也便于后续对目标人群的分析和管理;另一方面在处理前对数据进行清洗或筛选,清除噪音信息或空白信息,提高待分析人群数据的有效性。
步骤S2包括:
S2.1初始特征库构建:根据实际需求构建至少具有一个特定倾向性特征的初始特征库;
S2.2分级标识:按分级标准对初始特征库的某个特定倾向进行属性分级和标识,在表征某特定倾向性特征时能够区分倾向性程度;
S2.3特征库补充:分析与研究S4中的文本信息,将新发现的用于表征特定倾向性特征的信息添加到相关特定倾向性特征库中;
S2.4特征库调整:根据S4中目标人群的输入法数据源中的文本信息,对表征特定倾向性特征的文本信息进行核对,并根据核对结果对相应特定倾向性特征库的内容和分级标识进行调整。
采用上述方法,在最初构建具有至少具有一个特定倾向性特特征的集合的初始特征库,并在该特征库内部根据相关特征词或目标人群的特征词出现频率对目标人群进行分级和标识,这样后续可以根据其标识级别进行区别管理;另外,根据最终匹配结果对特征库和分级标准进行调整、完善,从而不断提高该方法的判读分析精准度。同时,对具备特定倾向性的部分目标人群的输入法原始数据进行智能分析,提取反映特定倾向性的新词,包括具备一定区分度的特定术语、暗语、黑话、行话、口号、简称、缩写别称、别名等文本信息及其组合,或者具备特定倾向性意义的人名、地名、组织机构名称等文本信息及其组合构建相应抽取算法,及时发现新词和隐晦用语,不断更新和完善特征库,以提高该方法的判读分析精准度和筛选速度。
进一步地,还包括:
S5:多互联网平台网络账户关联,将经S3处理后的目标人群在所有互联网平台存在的网络账号进行关联;
S6:跨互联网平台网络数据融合,将S5中的多个互联网平台的异构网络数据融合,并经分析后对S2中的相关倾向性分级特征库进行调整和完善;
S7:用户业务支撑,基于S6中的融合数据,根据实际情况研发不同使用模型,包括但不限于:实体发现、目标活动轨迹还原和追踪、伴随关系分析、信息溯源和扩散分析、社会关系网络还原和社会关系网络挖掘或其他标准化基础数据分析模型。
采用上述方法,对目标人群的个体进行多平台追踪分析,对其特定倾向性及其分级情况进行综合研判,从而实现对目标人物群体的特定倾向性及其倾向性分级的情况作出进一步的确认和调整;同时还可以利用融合后的数据后续研发设置不同使用模型,以满足复杂多样的用户使用需求。
本发明进一步提供一种人群的特定倾向性感知系统,包括:
输入法数据源子系统,归集和归集和存储有待分析人群的输入法数据信息;
倾向性特征库子系统,具有至少一个特定倾向性的特征和特征分级信息的集合;以及
倾向性匹配子系统,将输入法数据源子系统中的数据信息与倾向性特征库子系统中的特性信息进行比对,并对具有某些特定倾向性的人群进行标记,筛选出具有至少一个特定倾向性的目标人群。
采用上述系统,输入法数据源子系统以输入法工具获取的相关数据为基础数据源,倾向性匹配子系统通过将输入法数据源子系统中的数据信息与倾向性特征库子系统中的特性信息进行比对,从而把具有某种特定倾向性的人群筛选出和分类划分,使得该系统能够及时掌控相关倾向性人群信息,方便后续分析和管理。具有筛选精准度高、目标人群识辨度高、后续管理跟踪方便等优点。
所述输入法数据子系统包括
多源数据归集模块,对待分析人群的各种输入法数据进行归集,输入法数据包括但不限于:输入文本、输入时间、输入所在平台、设备标识码、注册账号;
多源数据预处理模块,对所采集的数据进行预处理,根据清洗机制或筛除机制,清除噪音信息或空白信息;以及
输入法数据库模块,基于预处理后的数据源构建输入法数据源基础库,进行存储管理并建立查询检索机制,提供多种数据接口支撑特定倾向性人群的挖掘。
所述倾向性特征库子系统包括
特征库初始化模块,根据实际需求构建至少具有一个特定倾向性特征的初始特征库或导入原有的初始特征库;以及
特征分级标识模块,按分级标准对初始特征库的某个特定倾向进行属性分级和标识;按分级标准对初始特征库的某个特定倾向进行属性分级和标识;
特定倾向性特征库,基于特征库初始化模块和特征分级标识模块构建的具有至少一个特定倾向性的特征库,其具有管理存储管理和查询检索;以及
所述倾向性特征库子系统根据倾向性匹配子系统的匹配结果,对特征库初始化模块和特征分级标识模块进行更新或完善。
所述倾向性匹配子系统包括:
人群特定倾向性匹配模块,将输入法数据源子系统中的输入法数据库模块的数据信息与倾向性特征库子系统中的特定倾向性特征库进行关联分析,并对具有某一/多个特定倾向性的人群进行标记,筛选出具有至少一个特定倾向性的目标人群并对其特定倾向性进行分级标识;
基于输入法的单通道目标人群画像库,对人群特定倾向性匹配模块所获得的目标人群个体的输入法数据源中的文本信息,结合输入时间、输入所在平台、设备标识码、注册账号及其它信息进行数据融合并分析形成单通道目标人群画像库。
还包括倾向性特征发现和核实子系统,其包括:
目标人群原始输入文本库,提取倾向性匹配子系统中的基于输入法的单通道目标人群画像库的目标人群的输入的原始文本数据,作为本子系统的基础数据来源;
倾向性特征发现模块,提取目标人群原始输入文本库中用于表征且未被录入在倾向性特征库子系统中的文本信息,经核实后将该文本信息作为新特征补入到相应的特定倾向性特征库中;
倾向性特征核实模块,对倾向性匹配子系统中的基于输入法的单通道目标人群画像库的目标人群的输入的原始文本数据进行二次综合研判,核实该目标人群所体现的倾向性及其分级,并根据核实结论调整倾向性特征库子系统的内容和分级标识。
在本发明中,以输入法工具获取的相关数据为基础数据源,可以快速、精准地对具有某种特定倾向性的人群进行筛选和分类划分,有利于及时掌控相关人群信息,方便后续分析和管理;也就是说,本发明快速、精准地对相关具有特定倾向性的人群进行智能分类划分,有利于及时掌控这类违法有害信息的生产和传播源头,方便用户后续对这类违法有害信息及其生产传播人群及时进行依法依规的管理。
附图说明
图1为本发明所述的一种人群的特定倾向性感知方法流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、 “上”、“下”、 “左”、 “右”、 “竖直”、“水平”、 “内”、 “外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制;术语“第一”、 “第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性;此外,除非另有明确的规定和限定,术语“安装”、 “相连”、 “连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
实施例1
如图1所示,本实施例提供一种人群的特定倾向性感知方法,具体包括如下步骤:
S1:将输入法数据源作为待分析人群数据来源;
S2:根据输入法数据源和实际需求构建至少一个特征库,所述特征库具有至少一个特定倾向性特征的集合;
S3:将待分析人群的输入法数据源与特征库进行匹配,筛选出具有至少一个特定倾向性的目标人群。
在本实施例中,以输入法工具获取的相关数据为基础数据源,可以快速、精准地对具有某种特定倾向性的人群进行筛选和分类划分,有利于及时掌控相关人群信息,方便后续分析和管理;其相对于其他分析方法来说,筛选精准度高、目标人群识辨度高、后续管理跟踪方便等。
在本实施例中,在合法合规的情况下获取输入法数据源,通过输入法工具获取的基础数据源相比于传统基于网页采集的数据获取方式(如网络爬虫等)而言,具有如下优势:
一、数据来源全面稳定。输入法是网民输入文字、上网发布信息的必备软件,不论使用论坛、微博还是QQ、微信,都离不开输入法的支持,具有用户覆盖面广、用户粘性高、替换率较低、权限级别高等特点。各输入法为改善用户体验,都内置了数据收集功能,即在用户使用上网设备时,输入法会自动收集用户的输入内容、设备标识码、所使用网络平台等信息并上传到后台数据库。在此需要说明的是:输入法公司在安装输入法工具时,需要用户对其冗长“用户协议”进行确认,才能进一步安装,而“用户协议”里面有明确收集相关信息,也就是输入法是在用户许可了情况下采集数据。
二、是输入法数据供给侧相对集中。目前,市场占有率排前的输入法软件垄断了绝大部分市场份额,为协调数据来源提供了便利。
三、是数据种类较全面。各输入法为提高分析能力、改善用户体验,都内置了数据收集功能,即在用户使用软件时,软件会自动收集用户的输入时间、输入文本内容、设备标识码、输入所在网络平台等信息,并上传到后台数据库存储,为用户开展数据分析提供了重要支撑。
在本实施例中,所述特定倾向性包括暴恐倾向、邪教倾向、淫秽倾向、诈骗倾向。在本发明中将该方法用于涉恐涉暴、邪教组织、淫秽传播、电信诈骗等网络人群的筛选跟踪,相关职责部门可以根据分析结果对重点个体采取不同的管理手段,从而提高对上述危险倾向性人群的监管效率和跟踪处理速度。也就是说,本实施例快速、精准地对相关具有特定倾向性的人群进行智能分类划分,有利于及时掌控这类违法有害信息的生产和传播源头,方便用户后续对这类违法有害信息及其生产传播人群及时进行依法依规的管理。
本实施例还包括S4:采集S3所获得的目标人群个体的输入法数据源中的文本信息,并结合输入法数据源中的输入时间、输入所在平台、设备标识码、注册账号及其它信息进行数据融合,形成基于输入法的单通道目标人群画像库。根据目标人群的输入法相关信息构建目标人群个体的基于输入法的单通道目标人群画像库,以便于后续对目标人群进行综合分析、群体研究等后续相关研究和分析工作的进行。也就是说,采用上述方法,对目标人群个体的其他信息如输入时间、输入所在平台、设备标识码、注册账号等信息进行分析和评估,并综合输入内容后,共同构建与输入法相关的单通道目标人群画像库,以便于对整个目标人群的综合分析和管理。
进一步地,步骤S1包括:
S1.1多源数据归集:基于不同输入法采集数据,包括但不限于:输入文本、输入时间、输入所在平台、设备标识码、注册账号;
S1.2多源数据预处理:对所采集的数据进行预处理,根据清洗机制或筛除机制,清除噪音信息或空白信息;
S1.3输入法数据源基础库建立:基于预处理后的数据源构建输入法数据源基础库,进行存储管理并建立查询检索机制。
采用上述方法,一方面通过采集不同类型的输入法工具采集不同的输入数据源,该数据包括但不限于输入文本、输入时间、输入所在平台、设备标识码、注册账号等,如此采集的数据具有多源性和丰富性,使得数据比较完整、全面,也便于后续对目标人群的分析和管理;另一方面在处理前对数据进行清洗或筛选,清除噪音信息或空白信息,提高待分析人群数据的有效性。
步骤S2包括:
S2.1初始特征库构建:根据实际需求构建至少具有一个特定倾向性特征的初始特征库;
S2.2分级标识:按分级标准对初始特征库的某个特定倾向进行属性分级和标识,在表征某特定倾向性特征时能够区分倾向性程度;
S2.3特征库补充:分析与研究S4中的文本信息,将新发现的用于表征特定倾向性特征的文本信息添加到相关特定倾向性特征库中;
S2.4特征库调整:根据S4中目标人群的输入法数据源中的文本信息,对表征特定倾向性特征的文本信息进行核对,并根据核对结果对相应特定倾向性特征库的内容和分级标识进行调整。
通俗地说,本实施例的具体方案为:S1:将输入法数据源作为待分析人群数据来源;
S2:根据输入法数据源以及实际需求构建至少一个特征库,所述特征库具有至少一个特定倾向性特征的集合,每个特定倾向性特征具备分级标识,每个倾向性特征库可以持续更新迭代;
所谓特定倾向性特征的定义:包括具备一定区分度的特定术语、暗语、黑话、行话、口号、简称、缩写、别名等文本信息及其组合,或者具备特定倾向性意义的人名、地名、组织机构名称等文本信息及其组合;
所谓特定倾向性特征的分级标识,是指该特征在表征某特定倾向性时,所体现的“倾向性程度”的区分。
S3:将待分析人群的输入法数据源与特征库进行匹配,进行人群各类特定倾向性及其分级情况的匹配,筛选出具有至少一个特定倾向性的目标人群,并根据特定倾向性特征的分级标识对目标人群进行分级。
采用上述方法,在最初构建具有至少具有一个特定倾向性特特征的集合的初始特征库,并在该特征库内部根据相关特征词或目标人群的特征词出现频率对目标人群进行分级和标识,这样后续可以根据其标识级别进行区别管理;另外,根据最终匹配结果对特征库和分级标准进行调整、完善,从而不断提高该方法的判读分析精准度。同时,对具备特定倾向性的部分目标人群的输入法原始数据进行智能分析,提取反映特定倾向性的新词,包括具备一定区分度的特定术语、暗语、黑话、行话、口号、简称、缩写别称、别名等文本信息及其组合,或者具备特定倾向性意义的人名、地名、组织机构名称等文本信息及其组合构建相应抽取算法,及时发现新词和隐晦用语,不断更新和完善特征库,以提高该方法的判读分析精准度和筛选速度。
在本实施例中,所谓特定倾向性特征的定义:包括具备一定区分度的特定术语、暗语、黑话、行话、口号、简称、缩写、别名等文本信息及其组合,或者具备特定倾向性意义的人名、地名、组织机构名称等文本信息及其组合;所谓特定倾向性特征的分级标识,是指该特征在表征某特定倾向性时,所体现的“倾向性程度”的区分
也就是说,本实施例对具备特定倾向性的部分目标人群的输入法原始数据进行智能分析,提取反映特定倾向性的新词,包括具备一定区分度的特定术语、暗语、黑话、行话、口号、简称、缩写别称、别名等文本信息及其组合,或者具备特定倾向性意义的人名、地名、组织机构名称等文本信息及其组合构建相应抽取算法,及时发现新词和隐晦用语,不断更新和完善特征库,以提高该方法的判读分析精准度和筛选速度。
还包括:
S5:多互联网平台网络账户关联,将经S3处理后的目标人群在所有互联网平台存在的网络账号进行关联;
S6:跨互联网平台网络数据融合,将S5中的多个互联网平台的异构网络数据融合,并经分析后对S2中的相关倾向性分级特征库进行调整和完善;
S7:用户业务支撑,基于S6中的融合数据,根据实际情况研发不同使用模型,包括但不限于:实体发现、目标活动轨迹还原和追踪、伴随关系分析、信息溯源和扩散分析、社会关系网络还原和社会关系网络挖掘或其他标准化基础数据分析模型。还可以对这些模型进行自定义组合拼装,从而生成包括但不限于:敏感话题发现和追踪模块;团伙的发现和布控模块;团伙组织结构和人事关系分析模块;团伙地域异动监测模块;群体性行为预警模块;境内外特定倾向性人员勾联监测模块;信息可视化和监听监看模块,以满足自身复杂多样的业务需求。
在本实施例中,对目标人群的个体进行多平台追踪分析,对其特定倾向性及其分级情况进行综合研判,从而实现对目标人物群体的特定倾向性及其倾向性分级的情况作出进一步的确认和调整;同时还可以利用融合后的数据后续研发设置不同使用模式,如:实体发现、目标活动轨迹还原和追踪、伴随关系分析、信息溯源和扩散分析、社会关系网络还原和社会关系网络挖掘等标准化基础数据分析模式,以满足复杂多样的用户使用需求。
实施例2
本实施例提供一种人群的特定倾向性感知系统,包括:
输入法数据源子系统,归集和存储有待分析人群的输入法数据信息;
倾向性特征库子系统,具有至少一个特定倾向性的特征信息的集合;以及
倾向性匹配子系统,将输入法数据源子系统中的数据信息与倾向性特征库子系统中的特性信息进行比对,并对具有某一特定倾向性的人群进行标记,筛选出具有至少一个特定倾向性的目标人群。
在本实施例中,输入法数据源子系统以输入法工具获取的相关数据为基础数据源,倾向性匹配子系统通过将输入法数据源子系统中的数据信息与倾向性特征库子系统中的特性信息进行比对,从而把具有某种特定倾向性的人群筛选出和分类划分,使得该系统能够及时掌控相关倾向性人群信息,方便后续分析和管理。具有筛选精准度高、目标人群识辨度高、后续管理跟踪方便等优点。
具体地,所述输入法数据子系统包括
多源数据归集模块,对待分析人群的各种输入法数据进行归集,输入法数据包括但不限于:输入文本、输入时间、输入所在平台、设备标识码、注册账号;
多源数据预处理模块,对所采集的数据进行预处理,根据清洗机制或筛除机制,清除噪音信息或空白信息;以及
输入法数据库模块,基于预处理后的数据源构建输入法数据源基础库,进行存储管理并建立查询检索机制,提供多种数据接口支撑特定倾向性人群的挖掘。
在本实施例中,所述输入法数据子系统,一方面通过采集不同类型的输入法工具采集不同的输入数据源,该数据包括但不限于输入文本、输入时间、输入所在平台、设备标识码、注册账号等,如此采集的数据具有多源性和丰富性,使得数据比较完整、全面,也便于后续对目标人群的分析和管理;另一方面在处理前对数据进行清洗或筛选,清除噪音信息或空白信息,提高待分析人群数据的有效性。
所述倾向性特征库子系统包括
特征库初始化模块,根据实际需求构建至少具有一个特定倾向性特征的集合的初始特征库或导入原有的初始特征库;
特征分级标识模块,按分级标准对初始特征库的某个特定倾向进行属性分级和标识;按分级标准对初始特征库的某个特定倾向进行属性分级和标识;
特定倾向性特征库,基于特征库初始化模块和特征分级标识模块构建的具有至少一个特定倾向性的特征库,其具有管理存储管理和查询检索;以及
所述倾向性特征库子系统根据倾向性匹配子系统的匹配结构对特征库初始化模块和特征分级标识模块进行更新或完善。
所述倾向性特征库子系统在最初构建具有至少具有一个特定倾向性的初始特征库,并在该特征库内部根据相关特征词或目标人群的特征词出现频率对目标人群进行分级和标识,这样后续可以根据其标识级别进行区别管理;另外,根据最终匹配结果对特征库和分级标准进行调整、完善,从而不断提高该方法的判读分析精准度。
所述倾向性匹配子系统包括:
人群特定倾向性匹配模块,将输入法数据源子系统中的输入法数据库模块的数据信息与倾向性特征库子系统中的特定倾向性特征库进行关联分析,并对具有某一/多个特定倾向性的人群进行标记,筛选出具有至少一个特定倾向性的目标人群并对其特定倾向性进行分级标识;
基于输入法的单通道目标人群画像库,对人群特定倾向性匹配模块所获得的目标人群个体的输入法数据源中的文本信息,结合输入时间、输入所在平台、设备标识码、注册账号及其它信息进行数据融合并分析形成单通道目标人群画像库。
进一步地,本实施例还包括倾向性特征发现和核实子系统,其包括:
目标人群原始输入文本库,提取倾向性匹配子系统中的基于输入法的单通道目标人群画像库的目标人群的输入的原始文本数据,作为本子系统的基础数据来源;
倾向性特征发现模块,提取目标人群原始输入文本库中用于表征且未被录入在倾向性特征库子系统中的文本信息,经核实后将该文本信息作为新特征补入到相应的特定倾向性特征库中;
倾向性特征核实模块 ,对倾向性匹配子系统中的基于输入法的单通道目标人群画像库的目标人群的输入的原始文本数据进行二次综合研判,核实该目标人群所体现的倾向性及其分级。并根据核实结论调整 倾向性特征库子系统的内容和分级标识。
在本实施例中,通过倾向性特征发现模块,提取并未存储的特定倾向性特征,而且经核实后作为新特征补入到相应的特定倾向性特征库中。采用该方法,对具备特定倾向性的目标人群的输入法原始数据进行智能分析,提取具备新发现的特定倾向性特征,从而及时发现新词和隐晦用语及其组合,不断更新和完善特定倾向性特征库,以提高该方法的判读分析精准度和适应性。
通过倾向性特征核实模块,对S3的目标人群的输入的原始文本数据进行二次综合研判,进一步核实这些目标人群所体现的倾向性及其分级。并根据这些核实结论,进一步调整S2中相关倾向性特征库的内容和分级标识,从而不断完善S2的倾向性特征库,以提高该方法的判读分析精准度和适应性。
实施例3
本实施例提供一种人群的暴恐倾向性感知方法,其具体包括如下步骤:
S1:将输入法数据源作为待分析人群数据来源;
S1.1多源数据归集:基于不同输入法采集数据,包括但不限于:输入文本、输入时间、输入所在平台、设备标识码、注册账号;该输入法包括腾讯输入法、百度输入法、搜狗输入法等;如此采集的数据具有多源性和丰富性,使得数据比较完整、全面,也便于后续对暴恐目标人群的分析和管理;
S1.2多源数据预处理:对所采集的数据进行预处理,根据清洗机制或筛除机制,清除噪音信息或空白信息;原始数据类型繁杂,可能含有大量与暴恐无关的无用信息,通过清洗机制或筛除机制,如去除停用词、过短过长甚至空白数据或指定数据来源类型等达到清洗或筛除效果;
S1.3输入法数据源基础库建立:基于预处理后的数据源构建输入法数据源基础库,进行存储管理并建立查询检索机制;对海量文本信息实现高效的管理存储管理和查询检索,以便于该数据源的后续使用和多个不同分析方向的高效利用;
S2:根据输入法数据源构建暴恐特征库,所述特征库具有涉恐涉暴倾向特征;
S2.1初始特征库构建:根据暴恐监管需求构建初始暴恐特征库;如所述涉暴涉恐倾向性特征库的文本信息包括“袭击”、“炸弹”、“圣战”、“ISIS”、“maktap”(维语)等;
S2.2分级标识:按监管部门的暴恐分级标准对初始暴恐特征库的涉恐涉暴倾向特征进行属性分级和标识,以便于监管部门对不同等级的人员采取不同跟踪或管理方式,从而有重点地部署防恐防暴工作;
S2.3特征库补充:分析与研究S4中的文本信息,将新发现的用于表征暴恐倾向性特征的文本信息添加到暴恐倾向性特征库中;
S2.4特征库调整:根据S4中暴恐目标人群的输入法数据源中的文本信息,对表征暴恐倾向性特征的文本信息进行核对,并根据核对结果对暴恐倾向性特征库的内容和分级标识进行调整;根据最终匹配结果对特征库和分级标准进行调整、完善,从而不断提高暴恐目标人群的筛选精准度;
S3:将待分析人群的输入法数据源与特征库进行匹配,筛选出具有涉恐涉暴倾向性目标人群,以明确其风险等级或危险性,监管部门根据需要采取相应处理措施。
进一步地,还包括S4:采集S3所获得的目标人群个体的输入法数据源中的文本信息,并结合输入法数据源中的输入时间、输入所在平台、设备标识码、注册账号及其它信息进行数据融合,形成基于输入法的单通道目标人群画像库。
根据暴恐目标人群的输入法相关信息构建暴恐目标人群个体的基于输入法的单通道目标人群画像库,以便于后续对暴恐目标人群进行综合分析、群体研究等后续相关研究和分析工作的进行。也就是说,采用上述方法,对暴恐目标人群个体的其他信息如输入时间、输入所在平台、设备标识码、注册账号等信息进行分析和评估,并综合输入内容后,共同构建与输入法相关的单通道目标人群画像库,以便于对整个暴恐目标人群的综合分析和管理。
对具备暴恐特定倾向性的部分目标人群的输入法原始数据进行智能分析,提取反映暴恐特定倾向性的新词,包括具备一定区分度的特定术语、暗语、黑话、行话、口号、简称、缩写别称、别名等文本信息及其组合,或者具备暴恐特定倾向性意义的人名、地名、组织机构名称等文本信息及其组合构建相应抽取算法,及时发现新词和隐晦用语,不断更新和完善特征库,以提高涉恐或的判读分析精准度和筛选速度。
对于筛选出的暴恐目标人群进行一下处理:
S5:多互联网平台网络账户关联,将经S3处理后的暴恐目标人群在所有互联网平台存在的网络账号进行关联;
S6:跨互联网平台网络数据融合,将S5中的多个互联网平台的异构网络数据融合,并经分析后对S2中的相关倾向性分级特征库进行调整和完善。
采用上述方法,对涉恐涉暴重点目标人群的个体进行多平台追踪分析,对其特定倾向性及其分级情况进行综合研判,从而实现对涉恐涉暴重点关注人物群体的涉恐涉暴倾向性及其倾向性分级的情况作出进一步的确认和调整。
实施例4
本实施例提供一种人群的邪教倾向性感知方法,其具体包括如下步骤:
S1:将输入法数据源作为待分析人群数据来源;
S1.1多源数据归集:基于不同输入法采集数据,包括但不限于:输入文本、输入时间、输入所在平台、设备标识码、注册账号;该输入法包括腾讯输入法、百度输入法、搜狗输入法等;如此采集的数据具有多源性和丰富性,使得数据比较完整、全面,也便于后续对邪教目标人群的分析和管理;
S1.2多源数据预处理:对所采集的数据进行预处理,根据清洗机制或筛除机制,清除噪音信息或空白信息;原始数据类型繁杂,可能含有大量与邪教无关的无用信息,通过清洗机制或筛除机制,如去除停用词、过短过长甚至空白数据或指定数据来源类型等达到清洗或筛除效果;
S1.3输入法数据源基础库建立:基于预处理后的数据源构建输入法数据源基础库,进行存储管理并建立查询检索机制;对海量文本信息实现高效的管理存储管理和查询检索,以便于该数据源的后续使用和多个不同分析方向的高效利用;
S2:根据输入法数据源构建邪教特征库,所述特征库具有邪教倾向性特征;
S2.1初始特征库构建:根据邪教监管需求构建至少具有邪教倾向性特征的初始邪教特征库;如所述邪教倾向性特征的文本信息包括“女基督”、“神家”、“五类人”、“末日审判”、“奉献款”、“同工”等;
S2.2分级标识:按监管部门的邪教分级标准对初始邪教特征库的邪教倾向性特征进行属性分级和标识,以便于监管部门对不同等级的人员采取不同跟踪或管理方式,从而有重点地部署防邪教工作;
S2.3特征库补充:分析与研究S4中的文本信息,将新发现的用于表征邪教倾向性特征的文本信息添加到邪教倾向性特征库中;
S2.4特征库调整:根据S4中邪教目标人群的输入法数据源中的文本信息,对表征邪教倾向性特征的文本信息进行核对,并根据核对结果对邪教倾向性特征库的内容和分级标识进行调整;;根据最终匹配结果对特征库和分级标准进行调整、完善,从而不断提高邪教目标人群的筛选精准度;
S3:将待分析人群的输入法数据源与特征库进行匹配,筛选出具有邪教倾向性目标人群,以明确其风险等级或危险性,监管部门根据需要采取相应处理措施。
进一步地,还包括S4:采集S3所获得的目标人群个体的输入法数据源中的文本信息,并结合输入法数据源中的输入时间、输入所在平台、设备标识码、注册账号及其它信息进行数据融合,形成基于输入法的单通道目标人群画像库。
根据邪教目标人群的输入法相关信息构建邪教目标人群个体的基于输入法的单通道目标人群画像库,以便于后续对邪教目标人群进行综合分析、群体研究等后续相关研究和分析工作的进行。也就是说,采用上述方法,对邪教目标人群个体的其他信息如输入时间、输入所在平台、设备标识码、注册账号等信息进行分析和评估,并综合输入内容后,共同构建与输入法相关的单通道目标人群画像库,以便于对整个邪教目标人群的综合分析和管理。
对具备邪教特定倾向性的部分目标人群的输入法原始数据进行智能分析,提取反映邪教特定倾向性的新词,包括具备一定区分度的特定术语、暗语、黑话、行话、口号、简称、缩写别称、别名等文本信息及其组合,或者具备邪教特定倾向性意义的人名、地名、组织机构名称等文本信息及其组合构建相应抽取算法,及时发现新词和隐晦用语,不断更新和完善特征库,以提高涉恐或的判读分析精准度和筛选速度。
对于筛选出的邪教目标人群进行一下处理:
S5:多互联网平台网络账户关联,将经S3处理后的邪教目标人群在所有互联网平台存在的网络账号进行关联;
S6:跨互联网平台网络数据融合,将S5中的多个互联网平台的异构网络数据融合,并经分析后对S2中的相关倾向性分级特征库进行调整和完善;对目标人群个体的具体情况,采用不同程度的后续管理;若发现对于危险性高的重点个体,可以将相关信息数据转交给相关职能部门以采取实际制止措施,以降低邪教传播风险。
采用上述方法,对邪教重点目标人群的个体进行多平台追踪分析,对其特定倾向性及其分级情况进行综合研判,从而实现对邪教重点关注人物群体的邪教倾向性及其倾向性分级的情况作出进一步的确认和调整。
实施例5
本实施例提供一种人群的淫秽传播倾向性感知方法,其具体包括如下步骤:
S1:将输入法数据源作为待分析人群数据来源;
S1.1多源数据归集:基于不同输入法采集数据,包括但不限于:输入文本、输入时间、输入所在平台、设备标识码、注册账号;该输入法包括腾讯输入法、百度输入法、搜狗输入法等;如此采集的数据具有多源性和丰富性,使得数据比较完整、全面,也便于后续对淫秽传播目标人群的分析和管理;
S1.2多源数据预处理:对所采集的数据进行预处理,根据清洗机制或筛除机制,清除噪音信息或空白信息;原始数据类型繁杂,可能含有大量与淫秽传播无关的无用信息,通过清洗机制或筛除机制,如去除停用词、过短过长甚至空白数据或指定数据来源类型等达到清洗或筛除效果;
S1.3输入法数据源基础库建立:基于预处理后的数据源构建输入法数据源基础库,进行存储管理并建立查询检索机制;对海量文本信息实现高效的管理存储管理和查询检索,以便于该数据源的后续使用和多个不同分析方向的高效利用;
S2:根据输入法数据源构建淫秽传播特征库,所述特征库具有淫秽传播倾向性特征;
S2.1初始特征库构建:根据淫秽传播监管需求构建至少具有淫秽传播倾向性特征的初始淫秽传播特征库;如所述淫秽传播倾向性特征的文本信息包括“换妻”、“苍井空”、“女优”、“借种”等;
S2.2分级标识:按监管部门的淫秽传播分级标准对初始淫秽传播特征库的淫秽传播倾向性特征进行属性分级和标识,以便于监管部门对不同等级的人员采取不同的管理方式,从而有重点地部署防淫秽传播工作;
S2.3特征库补充:分析与研究S4中的文本信息,将新发现的用于表征淫秽倾向性特征的文本信息添加到淫秽倾向性特征库中;
S2.4特征库调整:根据S4中淫秽目标人群的输入法数据源中的文本信息,对表征淫秽倾向性特征的文本信息进行核对,并根据核对结果对淫秽倾向性特征库的内容和分级标识进行调整;根据最终匹配结果对特征库和分级标准进行调整、完善,从而不断提高淫秽传播目标人群的筛选精准度;
S3:将待分析人群的输入法数据源与特征库进行匹配,筛选出具有淫秽传播倾向性目标人群;以明确其风险等级或危险性,监管部门根据需要采取相应处理措施。
进一步地,还包括S4:采集S3所获得的目标人群个体的输入法数据源中的文本信息,并结合输入法数据源中的输入时间、输入所在平台、设备标识码、注册账号及其它信息进行数据融合,形成基于输入法的单通道目标人群画像库。
根据淫秽目标人群的输入法相关信息构建淫秽目标人群个体的基于输入法的单通道目标人群画像库,以便于后续对淫秽目标人群进行综合分析、群体研究等后续相关研究和分析工作的进行。也就是说,采用上述方法,对淫秽目标人群个体的其他信息如输入时间、输入所在平台、设备标识码、注册账号等信息进行分析和评估,并综合输入内容后,共同构建与输入法相关的单通道目标人群画像库,以便于对整个淫秽目标人群的综合分析和管理。
对具备特定倾向性的部分目标人群的输入法原始数据进行智能分析,提取反映特定倾向性的新词,包括具备一定区分度的特定术语、暗语、黑话、行话、口号、简称、缩写别称、别名等文本信息及其组合,或者具备特定倾向性意义的人名、地名、组织机构名称等文本信息及其组合构建相应抽取算法,及时发现新词和隐晦用语,不断更新和完善特征库,以提高淫秽传播人群的判读分析精准度和筛选速度。
对于筛选出的淫秽传播目标人群进行一下处理:
S5:多互联网平台网络账户关联,将经S3处理后的淫秽目标人群在所有互联网平台存在的网络账号进行关联;
S6:跨互联网平台网络数据融合,将S5中的多个互联网平台的异构网络数据融合,并经分析后对S2中的相关倾向性分级特征库进行调整和完善。
对目标人群个体的具体情况,采用不同程度的后续管理。
其管理方法或处理措施包括但不限于:
S6.1:违规信息删除;
S6.2:站内信提示警告;
S6.3:暂停单平台账号;
S6.4:关停单平台账号;
S6.5:暂停多平台账号;
S6.6:关停多平台账号;
S6.7:禁止单个上网设备上网权限;
S6.8:禁止关联上网设备上网权限等
采用上述方法,对淫秽传播重点目标人群的个体进行多平台追踪分析,对其特定倾向性及其分级情况进行综合研判,从而实现对淫秽传播重点关注人物群体的淫秽传播倾向性及其倾向性分级的情况作出进一步的确认和调整。
实施例6
本实施例提供一种人群的诈骗倾向性感知方法,其具体包括如下步骤:
S1:将输入法数据源作为待分析人群数据来源;
S1.1多源数据归集:基于不同输入法采集数据,包括但不限于:输入文本、输入时间、输入所在平台、设备标识码、注册账号;该输入法包括腾讯输入法、百度输入法、搜狗输入法等;如此采集的数据具有多源性和丰富性,使得数据比较完整、全面,也便于后续对诈骗目标人群的分析和管理;
S1.2多源数据预处理:对所采集的数据进行预处理,根据清洗机制或筛除机制,清除噪音信息或空白信息;原始数据类型繁杂,可能含有大量与诈骗无关的无用信息,通过清洗机制或筛除机制,如去除停用词、过短过长甚至空白数据或指定数据来源类型等达到清洗或筛除效果;
S1.3输入法数据源基础库建立:基于预处理后的数据源构建输入法数据源基础库,进行存储管理并建立查询检索机制;对海量文本信息实现高效的管理存储管理和查询检索,以便于该数据源的后续使用和多个不同分析方向的高效利用;
S2:根据输入法数据源构建诈骗特征库,所述特征库具有诈骗倾向性特征;
S2.1初始特征库构建:根据诈骗监管需求构建至少具有诈骗倾向性特征的初始诈骗特征库;如所述诈骗倾向性特征的文本信息包括“转入安全账户”、“兼职做任务”、“名额有限”、“航班取消”、“赌博后台”等;
S2.2分级标识:按监管部门的诈骗分级标准对初始诈骗特征库的诈骗倾向性特征进行属性分级和标识,以便于监管部门对不同等级的人员采取不同跟踪或管理方式,从而有重点地部署防诈骗工作;
S2.3特征库补充:分析与研究S4中的文本信息,将新发现的用于表征诈骗倾向性特征的文本信息添加到诈骗倾向性特征库中;
S2.4特征库调整:根据S4中诈骗目标人群的输入法数据源中的文本信息,对表征诈骗倾向性特征的文本信息进行核对,并根据核对结果对诈骗倾向性特征库的内容和分级标识进行调整;根据最终匹配结果对特征库和分级标准进行调整、完善,从而不断提高诈骗目标人群的筛选精准度;
S3:将待分析人群的输入法数据源与特征库进行匹配,筛选出具有诈骗倾向性目标人群;以明确其风险等级或危险性,监管部门根据需要采取相应处理措施。
进一步地,还包括S4:采集S3所获得的目标人群个体的输入法数据源中的文本信息,并结合输入法数据源中的输入时间、输入所在平台、设备标识码、注册账号及其它信息进行数据融合,形成基于输入法的单通道目标人群画像库。
根据诈骗目标人群的输入法相关信息构建诈骗目标人群个体的基于输入法的单通道目标人群画像库,以便于后续对诈骗目标人群进行综合分析、群体研究等后续相关研究和分析工作的进行。也就是说,采用上述方法,对诈骗目标人群个体的其他信息如输入时间、输入所在平台、设备标识码、注册账号等信息进行分析和评估,并综合输入内容后,共同构建与输入法相关的单通道目标人群画像库,以便于对整个诈骗目标人群的综合分析和管理。
对具备特定倾向性的部分目标人群的输入法原始数据进行智能分析,提取反映特定倾向性的新词,包括具备一定区分度的特定术语、暗语、黑话、行话、口号、简称、缩写别称、别名等文本信息及其组合,或者具备特定倾向性意义的人名、地名、组织机构名称等文本信息及其组合构建相应抽取算法,及时发现新词和隐晦用语,不断更新和完善特征库,以提高诈骗人群的判读分析精准度和筛选速度。
对于筛选出的诈骗目标人群进行一下处理:
S5:多互联网平台网络账户关联,将经S3处理后的诈骗目标人群在所有互联网平台存在的网络账号进行关联;
S6:跨互联网平台网络数据融合,将S5中的多个互联网平台的异构网络数据融合,并经分析后对S2中的相关倾向性分级特征库进行调整和完善。
对目标人群个体的具体情况,采用不同程度的后续管理;若发现对于危险性高的重点个体,可以将相关信息数据转交给相关职能部门以采取实际制止措施,以降低诈骗传播风险。采用上述方法,对诈骗重点目标人群的个体进行多平台追踪分析,对其特定倾向性及其分级情况进行综合研判,从而实现对诈骗重点关注人物群体的诈骗倾向性及其倾向性分级的情况作出进一步的确认和调整。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说,在不脱离本发明构思的前提下,还可以做出若干等同替代或明显变型,而且性能或用途相同,都应当视为属于本发明的保护范围之内。
Claims (10)
1.一种人群的特定倾向性感知方法,其特征在于,具体包括如下步骤:
S1:将输入法数据源作为待分析人群数据来源;
S2:根据输入法数据源和实际需求构建至少一个特征库,所述特征库具有至少一个特定倾向性特征的集合;
S3:将待分析人群的输入法数据源与特征库进行匹配,筛选出具有至少一个特定倾向性的目标人群。
2.按照权利要求1所述人群的特定倾向性感知方法,其特征在于,还包括:
S4:采集S3所获得的目标人群个体的输入法数据源中的文本信息,并结合输入法数据源中的输入时间、输入所在平台、设备标识码、注册账号及其它信息进行数据融合,形成基于输入法的单通道目标人群画像库。
3.按照权利要求1所述人群的特定倾向性感知方法,其特征在于,步骤S1包括:
S1.1多源数据归集:基于不同输入法采集数据,包括但不限于:输入文本、输入时间、输入所在平台、设备标识码、注册账号;
S1.2多源数据预处理:对所采集的数据进行预处理,根据清洗机制或筛除机制,清除噪音信息或空白信息;
S1.3输入法数据源基础库建立:基于预处理后的数据源构建输入法数据源基础库,进行存储管理并建立查询检索机制。
4.按照权利要求2所述人群的特定倾向性感知方法,其特征在于,步骤S2包括:
S2.1初始特征库构建:根据实际需求构建至少具有一个特定倾向性特征的集合的初始特征库;
S2.2分级标识:按分级标准对初始特征库的某个特定倾向进行属性分级和标识,在表征某特定倾向性特征时能够区分倾向性程度;
S2.3特征库补充:分析与研究S4中的文本信息,将新发现的用于表征特定倾向性特征的文本信息添加到相关特定倾向性特征库中;
S2.4特征库调整:根据S4中目标人群的输入法数据源中的文本信息,对表征特定倾向性特征的文本信息进行核对,并根据核对结果对相应特定倾向性特征库的内容和分级标识进行调整。
5.按照权利要求1所述人群的特定倾向性感知方法,其特征在于,还包括:
S5:多互联网平台网络账户关联,将经S3处理后的目标人群在所有互联网平台存在的网络账号进行关联;
S6:跨互联网平台网络数据融合,将S5中的多个互联网平台的异构网络数据融合,并经分析后对S2中的相关倾向性分级特征库进行调整和完善;
S7:用户业务支撑,基于S6中的融合数据,根据实际情况研发不同使用模型,包括但不限于:实体发现、目标活动轨迹还原和追踪、伴随关系分析、信息溯源和扩散分析、社会关系网络还原和社会关系网络挖掘或其他标准化基础数据分析模型。
6.一种人群的特定倾向性感知系统,其特征在于,包括:
输入法数据源子系统,归集和存储有待分析人群的输入法数据信息;
倾向性特征库子系统,具有至少一个特定倾向性的特征信息的集合;以及
倾向性匹配子系统,将输入法数据源子系统中的数据信息与倾向性特征库子系统中的特性信息进行比对,并对具有某一特定倾向性的人群进行标记,筛选出具有至少一个特定倾向性的目标人群。
7.按照权利要求6所述的人群的特定倾向性感知系统,其特征在于:所述输入法数据子系统包括
多源数据归集模块,对待分析人群的各种输入法数据进行归集,输入法数据包括但不限于:输入文本、输入时间、输入所在平台、设备标识码、注册账号;
多源数据预处理模块,对所采集的数据进行预处理,根据清洗机制或筛除机制,清除噪音信息或空白信息;以及
输入法数据库模块,基于预处理后的数据源构建输入法数据源基础库,进行存储管理并建立查询检索机制,提供多种数据接口支撑特定倾向性人群的挖掘。
8.按照权利要求6所述的人群的特定倾向性感知系统,其特征在于:所述倾向性特征库子系统包括
特征库初始化模块,根据实际需求构建至少具有一个特定倾向性特征的初始特征库或导入原有的初始特征库;
特征分级标识模块,按分级标准对初始特征库的某个特定倾向进行属性分级和标识;按分级标准对初始特征库的某个特定倾向进行属性分级和标识;
特定倾向性特征库,基于特征库初始化模块和特征分级标识模块构建的具有至少一个特定倾向性的特征库,其具有管理存储管理和查询检索;以及
所述倾向性特征库子系统根据倾向性匹配子系统的匹配结构对特征库初始化模块和特征分级标识模块进行更新或完善。
9.按照权利要求6所述的人群的特定倾向性感知系统,其特征在于:所述倾向性匹配子系统包括:
人群特定倾向性匹配模块,将输入法数据源子系统中的输入法数据库模块的数据信息与倾向性特征库子系统中的特定倾向性特征库进行关联分析,并对具有某一/多个特定倾向性的人群进行标记,筛选出具有至少一个特定倾向性的目标人群并对其特定倾向性进行分级标识;
基于输入法的单通道目标人群画像库,对人群特定倾向性匹配模块所获得的目标人群个体的输入法数据源中的文本信息,结合输入时间、输入所在平台、设备标识码、注册账号及其它信息进行数据融合并分析形成单通道目标人群画像库。
10.按照权利要求6-9中任一项所述的人群的特定倾向性感知系统,其特征在于:还包括倾向性特征发现和核实子系统,其包括:
目标人群原始输入文本库,提取倾向性匹配子系统中的基于输入法的单通道目标人群画像库的目标人群的输入的原始文本数据,作为本子系统的基础数据来源;
倾向性特征发现模块,提取目标人群原始输入文本库中用于表征且未被录入在倾向性特征库子系统中的文本信息,经核实后将该文本信息作为新特征补入到相应的特定倾向性特征库中;
倾向性特征核实模块 ,对倾向性匹配子系统中的基于输入法的单通道目标人群画像库的目标人群的输入的原始文本数据进行二次综合研判,核实该目标人群所体现的倾向性及其分级,并根据核实结论调整倾向性特征库子系统的内容和分级标识。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110245534.0A CN112597400A (zh) | 2021-03-04 | 2021-03-04 | 一种人群的特定倾向性感知方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110245534.0A CN112597400A (zh) | 2021-03-04 | 2021-03-04 | 一种人群的特定倾向性感知方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112597400A true CN112597400A (zh) | 2021-04-02 |
Family
ID=75210277
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110245534.0A Pending CN112597400A (zh) | 2021-03-04 | 2021-03-04 | 一种人群的特定倾向性感知方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112597400A (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10224598A (ja) * | 1997-02-10 | 1998-08-21 | Minolta Co Ltd | 画像入力装置 |
CN1971568A (zh) * | 2006-12-12 | 2007-05-30 | 北京搜狗科技发展有限公司 | 一种互联网关键字符相关信息的发布方法和系统 |
CN102902675A (zh) * | 2011-07-26 | 2013-01-30 | 腾讯科技(深圳)有限公司 | 图片内容审核方法和装置 |
CN107172081A (zh) * | 2017-06-28 | 2017-09-15 | 北京明朝万达科技股份有限公司 | 一种数据校验的方法和装置 |
CN107807966A (zh) * | 2017-10-13 | 2018-03-16 | 深圳市迅雷网络技术有限公司 | 一种敏感信息屏蔽方法和服务端 |
CN109766441A (zh) * | 2018-12-28 | 2019-05-17 | 北京奇安信科技有限公司 | 文本分类方法、装置及系统 |
CN110928425A (zh) * | 2018-09-17 | 2020-03-27 | 北京搜狗科技发展有限公司 | 信息监控方法及装置 |
CN112347327A (zh) * | 2020-10-22 | 2021-02-09 | 杭州安恒信息技术股份有限公司 | 网站检测方法、装置、可读存储介质及计算机设备 |
-
2021
- 2021-03-04 CN CN202110245534.0A patent/CN112597400A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10224598A (ja) * | 1997-02-10 | 1998-08-21 | Minolta Co Ltd | 画像入力装置 |
CN1971568A (zh) * | 2006-12-12 | 2007-05-30 | 北京搜狗科技发展有限公司 | 一种互联网关键字符相关信息的发布方法和系统 |
CN102902675A (zh) * | 2011-07-26 | 2013-01-30 | 腾讯科技(深圳)有限公司 | 图片内容审核方法和装置 |
CN107172081A (zh) * | 2017-06-28 | 2017-09-15 | 北京明朝万达科技股份有限公司 | 一种数据校验的方法和装置 |
CN107807966A (zh) * | 2017-10-13 | 2018-03-16 | 深圳市迅雷网络技术有限公司 | 一种敏感信息屏蔽方法和服务端 |
CN110928425A (zh) * | 2018-09-17 | 2020-03-27 | 北京搜狗科技发展有限公司 | 信息监控方法及装置 |
CN109766441A (zh) * | 2018-12-28 | 2019-05-17 | 北京奇安信科技有限公司 | 文本分类方法、装置及系统 |
CN112347327A (zh) * | 2020-10-22 | 2021-02-09 | 杭州安恒信息技术股份有限公司 | 网站检测方法、装置、可读存储介质及计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102185191B1 (ko) | 암호화폐 거래 분석 방법 및 시스템 | |
CN110648120B (zh) | 一种基于移动互联的在线森林资源督查方法 | |
Geissler et al. | Russian propaganda on social media during the 2022 invasion of Ukraine | |
Blondel et al. | A survey of results on mobile phone datasets analysis | |
Fire et al. | Organization mining using online social networks | |
CN106203140B (zh) | 基于数据结构的数据流通方法、装置及终端 | |
CN109885562A (zh) | 一种基于网络空间安全的大数据智能分析系统 | |
US9412141B2 (en) | Systems and methods for identifying entities using geographical and social mapping | |
Malm et al. | Comparing the ties that bind criminal networks: Is blood thicker than water? | |
CN109861995A (zh) | 一种网络空间安全大数据智能分析方法、计算机可读介质 | |
CN108681966A (zh) | 一种基于区块链的信息监管方法及装置 | |
US11979423B2 (en) | Real-time classification of content in a data transmission | |
Dennis | A Mosaic Shield: Maynard, the Fourth Amendment, and Privacy Rights in the Digital Age | |
CN103026345A (zh) | 用于事件监测优先级的动态多维模式 | |
CN106453061A (zh) | 一种识别网络诈骗行为的方法及系统 | |
CN109450882A (zh) | 一种融合人工智能与大数据的网上行为的安全管控系统及方法 | |
Mikhaylov et al. | Cards, money and two hacking forums: An analysis of online money laundering schemes | |
Manley et al. | New forms of data for understanding urban activity in developing countries | |
CN116738449A (zh) | 一种基于dsmm的数据安全管控和运营系统 | |
Khan et al. | Trust and believe-should we? evaluating the trustworthiness of twitter users | |
Mirbabaie et al. | Examining convergence behaviour during crisis situations in social media-a case study on the manchester bombing 2017 | |
Manoj et al. | A Strategy for Identification and Prevention of Crime using various Classifiers | |
Hui | Construction of information security risk assessment model in smart city | |
Cavalheiro et al. | Assessing technological trends through patent landscaping: The case of Bitcoin | |
CN112597400A (zh) | 一种人群的特定倾向性感知方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |