CN112464653A - 一种基于通信短信的实时事件识别和匹配方法 - Google Patents

一种基于通信短信的实时事件识别和匹配方法 Download PDF

Info

Publication number
CN112464653A
CN112464653A CN202011395054.4A CN202011395054A CN112464653A CN 112464653 A CN112464653 A CN 112464653A CN 202011395054 A CN202011395054 A CN 202011395054A CN 112464653 A CN112464653 A CN 112464653A
Authority
CN
China
Prior art keywords
information
short message
event
text
time information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011395054.4A
Other languages
English (en)
Inventor
陈力
方进锋
徐海燕
陈洁松
高荣群
程飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Tianyuan Dike Information Technology Co ltd
Original Assignee
Hefei Tianyuan Dike Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei Tianyuan Dike Information Technology Co ltd filed Critical Hefei Tianyuan Dike Information Technology Co ltd
Priority to CN202011395054.4A priority Critical patent/CN112464653A/zh
Publication of CN112464653A publication Critical patent/CN112464653A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Abstract

本发明公开了一种基于通信短信的实时事件识别和匹配方法,涉及移动通信技术领域。本发明包括如下步骤:短信采集模块采集各种短信信息,并存储到短信信息数据库中;对采集的短信信息进行预处理,进行关键词进行提取;对关键字进行解析,识别短息信息中的事件信息和时间信息;建立匹配时间信息和事件信息的对应;结合时间信息,将对应关系的时间信息和时间信息存储到日历中进行上报至策略平台;策略平台对日志、数据源进行匹配,对数据进行管理。本发明通过网络爬虫采集短信信息,短信经过预处理后进行关键词的提取,利用策略平台对日志、数据源进行匹配,提高事件识别的实时性和数据管理效率。

Description

一种基于通信短信的实时事件识别和匹配方法
技术领域
本发明属于移动通信技术领域,特别是涉及一种基于通信短信的实时事件识别和匹配方法。
背景技术
当前,移动通信终端越来越智能化,人们在享受这种自动化服务的同时对移动通信终端处理短信、邮件、微博私信、SNS(Social Networking Services:社会性网络服务)中涉及的聊天记录等文字信息内容的要求不断提高,已不再满足于传达一些简单的文字信息,更期望最大化地利用这些文字信息。
随着大数据技术的发展,从网络数据中识别出例如负面事件、敏感事件等特定事件,并基于对这些特定事件进行分析/评估得到的分析结果/评估结果已成为个人或公司机构的重要决策依据之一。目前,常见的事件识别方案主要有:基于模式匹配的事件识别方案和基于机器学习的事件识别方案。
其一,基于模式匹配的事件识别方案通常是依赖于各种模式算法对某类事件类型或事件元素进行匹配从而实现事件识别,但各种模式算法需要大量的人为设定的领域知识和人工标注的数据,对具体领域的依赖性强,大大降低了事件识别方案的可移植性,限制了事件识别方案的应用场景。
其二,基于机器学习的事件识别方案通常会利用支持向量机、贝叶斯模型、决策树、神经网络等机器学习模型将事件识别问题转换成序列标注问题或分类问题。现有的基于机器学习的事件识别方案虽然可以拟合数据,扩展事件识别方案的应用场景,但容易出现过拟合现象,即事件识别方案识别新数据的性能远低于识别训练过的数据的性能,造成事件识别的可靠性差、实时性弱、效果差。
综上,现有的事件识别方案存在方案可移植性差、方案应用场景较为局限,事件识别的实时性弱、效果差等问题。
发明内容
本发明的目的在于提供一种基于通信短信的实时事件识别和匹配方法,通过网络爬虫采集短信信息,短信经过预处理后进行关键词的提取,利用策略平台对日志、数据源进行匹配,解决了现有的试件识别方案不够精准、实时性弱、效果差的问题。
为解决上述技术问题,本发明是通过以下技术方案实现的:
本发明为一种基于通信短信的实时事件识别和匹配方法,包括短信采集模块、数据预处理模块、数据解析模块、事件匹配模块、事件上报模块和策略平台,并包括如下步骤:
步骤S1:短信采集模块采集各种短信信息,并存储到短信信息数据库中;
步骤S2:对采集的短信信息进行预处理,进行关键词进行提取;
步骤S3:对关键字进行解析,识别短息信息中的事件信息和时间信息;
步骤S4:建立匹配时间信息和事件信息的对应;
步骤S5:结合时间信息,将对应关系的时间信息和时间信息存储到日历中进行上报至策略平台;
步骤S6:策略平台对日志、数据源进行匹配,对数据进行管理。
优选地,所述步骤S1中,短信采集模块对短信信息源进行采集;所述短信采集模块对短信进行爬取,并对爬取的内容进行格式化处理,提取到信息数据库。
优选地,所述步骤S2中,预处理包括中文分词处理、过滤停用词、特征类型提取,建立正序索引和倒序索引,并建立文本特征语义网络图,以文本中包含的实体作为图的节点,统计文本的词频和文本频率信息。
优选地,所述步骤S3中,根据文本特征语义网络图,建时间信息列表和事件信息列表,并将识别的时间信息和事件信息分别加入至候选时间信息列表和候选事件信息列表中。
优选地,所述步骤S5中,策略平台对接收的短信文本与候选信息列表进行归一化处理,公式如下:
Figure BDA0002814544480000031
式中,
Figure BDA0002814544480000032
tij表示特征词ωi与ωj在短信文本信息流片段S中出现短信文本数量;若tij越大,则表明接收的短信文本与候选信息列表相似性越大;若tij越小,则表明接收的短信文本与候选信息列表相似性越小。
本发明具有以下有益效果:
本发明通过网络爬虫采集短信信息,短信经过预处理后进行关键词的提取,利用策略平台对日志、数据源进行匹配,将短信文本与候选信息列表进行归一化处理,获取特征词与短信文本信息流片段中相似性最大的值,作为识别匹配的结果,提高了事件识别的准确率和识别效率。
当然,实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的一种基于通信短信的实时事件识别和匹配方法步骤图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1所示,本发明为一种基于通信短信的实时事件识别和匹配方法,包括短信采集模块、数据预处理模块、数据解析模块、事件匹配模块、事件上报模块和策略平台,并包括如下步骤:
步骤S1:短信采集模块采集各种短信信息,并存储到短信信息数据库中;
步骤S2:对采集的短信信息进行预处理,进行关键词进行提取;
步骤S3:对关键字进行解析,识别短息信息中的事件信息和时间信息;
步骤S4:建立匹配时间信息和事件信息的对应;
步骤S5:结合时间信息,将对应关系的时间信息和时间信息存储到日历中进行上报至策略平台;
步骤S6:策略平台对日志、数据源进行匹配,对数据进行管理。
其中,步骤S1中,短信采集模块对短信信息源进行采集;短信采集模块对短信进行爬取,并对爬取的内容进行格式化处理,提取到信息数据库。
其中,步骤S2中,预处理包括中文分词处理、过滤停用词、特征类型提取,建立正序索引和倒序索引,并建立文本特征语义网络图,以文本中包含的实体作为图的节点,统计文本的词频和文本频率信息。
其中,步骤S3中,根据文本特征语义网络图,建时间信息列表和事件信息列表,并将识别的时间信息和事件信息分别加入至候选时间信息列表和候选事件信息列表中。
其中,步骤S5中,策略平台对接收的短信文本与候选信息列表进行归一化处理,公式如下:
Figure BDA0002814544480000051
式中,
Figure BDA0002814544480000061
tij表示特征词ωi与ωj在短信文本信息流片段S中出现短信文本数量;若tij越大,则表明接收的短信文本与候选信息列表相似性越大;若tij越小,则表明接收的短信文本与候选信息列表相似性越小。
值得注意的是,上述系统实施例中,所包括的各个单元只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
另外,本领域普通技术人员可以理解实现上述各实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,相应的程序可以存储于一计算机可读取存储介质中。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims (5)

1.一种基于通信短信的实时事件识别和匹配方法,其特征在于,包括短信采集模块、数据预处理模块、数据解析模块、事件匹配模块、事件上报模块和策略平台,并包括如下步骤:
步骤S1:短信采集模块采集各种短信信息,并存储到短信信息数据库中;
步骤S2:对采集的短信信息进行预处理,进行关键词进行提取;
步骤S3:对关键字进行解析,识别短息信息中的事件信息和时间信息;
步骤S4:建立匹配时间信息和事件信息的对应;
步骤S5:结合时间信息,将对应关系的时间信息和时间信息存储到日历中进行上报至策略平台;
步骤S6:策略平台对日志、数据源进行匹配,对数据进行管理。
2.根据权利要求1所述的一种基于通信短信的实时事件识别和匹配方法,其特征在于,所述步骤S1中,短信采集模块对短信信息源进行采集;所述短信采集模块对短信进行爬取,并对爬取的内容进行格式化处理,提取到信息数据库。
3.根据权利要求1所述的一种基于通信短信的实时事件识别和匹配方法,其特征在于,所述步骤S2中,预处理包括中文分词处理、过滤停用词、特征类型提取,建立正序索引和倒序索引,并建立文本特征语义网络图,以文本中包含的实体作为图的节点,统计文本的词频和文本频率信息。
4.根据权利要求1所述的一种基于通信短信的实时事件识别和匹配方法,其特征在于,所述步骤S3中,根据文本特征语义网络图,建时间信息列表和事件信息列表,并将识别的时间信息和事件信息分别加入至候选时间信息列表和候选事件信息列表中。
5.根据权利要求1所述的一种基于通信短信的实时事件识别和匹配方法,其特征在于,所述步骤S5中,策略平台对接收的短信文本与候选信息列表进行归一化处理,公式如下:
Figure FDA0002814544470000021
式中,
Figure FDA0002814544470000022
tij表示特征词ωi与ωj在短信文本信息流片段S中出现短信文本数量;若tij越大,则表明接收的短信文本与候选信息列表相似性越大;若tij越小,则表明接收的短信文本与候选信息列表相似性越小。
CN202011395054.4A 2020-12-03 2020-12-03 一种基于通信短信的实时事件识别和匹配方法 Pending CN112464653A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011395054.4A CN112464653A (zh) 2020-12-03 2020-12-03 一种基于通信短信的实时事件识别和匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011395054.4A CN112464653A (zh) 2020-12-03 2020-12-03 一种基于通信短信的实时事件识别和匹配方法

Publications (1)

Publication Number Publication Date
CN112464653A true CN112464653A (zh) 2021-03-09

Family

ID=74805342

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011395054.4A Pending CN112464653A (zh) 2020-12-03 2020-12-03 一种基于通信短信的实时事件识别和匹配方法

Country Status (1)

Country Link
CN (1) CN112464653A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114221436A (zh) * 2021-11-20 2022-03-22 云南电网有限责任公司昆明供电局 基于配网运行管理系统智能告警方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103544255A (zh) * 2013-10-15 2014-01-29 常州大学 基于文本语义相关的网络舆情信息分析方法
CN104038621A (zh) * 2013-03-06 2014-09-10 三星电子(中国)研发中心 在通信终端中管理事件信息的装置及方法
CN111600993A (zh) * 2020-05-13 2020-08-28 北京华峰创业科技有限公司 一种根据短信进行行程提醒的方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104038621A (zh) * 2013-03-06 2014-09-10 三星电子(中国)研发中心 在通信终端中管理事件信息的装置及方法
CN103544255A (zh) * 2013-10-15 2014-01-29 常州大学 基于文本语义相关的网络舆情信息分析方法
CN111600993A (zh) * 2020-05-13 2020-08-28 北京华峰创业科技有限公司 一种根据短信进行行程提醒的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘金岭等: "基于短信文本信息流的多热点事件挖掘", 《山东大学学报(工学版)》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114221436A (zh) * 2021-11-20 2022-03-22 云南电网有限责任公司昆明供电局 基于配网运行管理系统智能告警方法及系统
CN114221436B (zh) * 2021-11-20 2023-09-12 云南电网有限责任公司昆明供电局 基于配网运行管理系统智能告警方法及系统

Similar Documents

Publication Publication Date Title
CN108874777B (zh) 一种文本反垃圾的方法及装置
CN109635117B (zh) 一种基于知识图谱识别用户意图方法及装置
CN107766371B (zh) 一种文本信息分类方法及其装置
CN108885623B (zh) 基于知识图谱的语意分析系统及方法
CN109635120B (zh) 知识图谱的构建方法、装置和存储介质
KR101605430B1 (ko) 문답 데이터베이스 구축 시스템 및 방법, 그리고 이를 이용한 검색 시스템 및 방법
CN105893611B (zh) 一种构建面向社交网络的兴趣主题语义网络的方法
CN110263248A (zh) 一种信息推送方法、装置、存储介质和服务器
US20140214824A1 (en) Method, device and computer storage medium for adding information of friends
CN110287314B (zh) 基于无监督聚类的长文本可信度评估方法及系统
CN113505586A (zh) 一种融合语义分类与知识图谱的坐席辅助问答方法与系统
CN110472027A (zh) 意图识别方法、设备及计算机可读存储介质
CN112149422B (zh) 一种基于自然语言的企业新闻动态监测方法
CN111104521A (zh) 一种基于图分析的反欺诈检测方法及检测系统
CN110880142B (zh) 一种风险实体获取方法及装置
CN106446051A (zh) Eagle媒资深度搜索方法
WO2023273303A1 (zh) 基于树模型的事件影响度获取方法、装置及计算机设备
CN114691869A (zh) 一种用户标签生成方法和系统
CN112464653A (zh) 一种基于通信短信的实时事件识别和匹配方法
US20140280150A1 (en) Multi-source contextual information item grouping for document analysis
CN110472057B (zh) 话题标签的生成方法及装置
CN108427769B (zh) 一种基于社交网络的人物兴趣标签提取方法
CN108280772B (zh) 社交网络中基于事件关联的故事脉络生成方法
CN116258616A (zh) 一种智能社区交互式服务方法及系统
CN107291952B (zh) 一种提取有意义串的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210309