CN106778817A - 一种事件的自动分类方法 - Google Patents

一种事件的自动分类方法 Download PDF

Info

Publication number
CN106778817A
CN106778817A CN201611049603.6A CN201611049603A CN106778817A CN 106778817 A CN106778817 A CN 106778817A CN 201611049603 A CN201611049603 A CN 201611049603A CN 106778817 A CN106778817 A CN 106778817A
Authority
CN
China
Prior art keywords
event
automatic classification
topic
speech
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611049603.6A
Other languages
English (en)
Inventor
沈贝伦
沈俊青
陆韵
张登
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Zhongao Technology Co Ltd
Original Assignee
Hangzhou Zhongao Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Zhongao Technology Co Ltd filed Critical Hangzhou Zhongao Technology Co Ltd
Priority to CN201611049603.6A priority Critical patent/CN106778817A/zh
Publication of CN106778817A publication Critical patent/CN106778817A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06KRECOGNITION OF DATA; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K9/00Methods or arrangements for reading or recognising printed or written characters or for recognising patterns, e.g. fingerprints
    • G06K9/62Methods or arrangements for recognition using electronic means
    • G06K9/6217Design or setup of recognition systems and techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06K9/6218Clustering techniques
    • G06K9/622Non-hierarchical partitioning techniques
    • G06K9/6221Non-hierarchical partitioning techniques based on statistics
    • G06K9/6223Non-hierarchical partitioning techniques based on statistics with a fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06KRECOGNITION OF DATA; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K9/00Methods or arrangements for reading or recognising printed or written characters or for recognising patterns, e.g. fingerprints
    • G06K9/62Methods or arrangements for recognition using electronic means
    • G06K9/6267Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06KRECOGNITION OF DATA; PRESENTATION OF DATA; RECORD CARRIERS; HANDLING RECORD CARRIERS
    • G06K9/00Methods or arrangements for reading or recognising printed or written characters or for recognising patterns, e.g. fingerprints
    • G06K9/62Methods or arrangements for recognition using electronic means
    • G06K9/68Methods or arrangements for recognition using electronic means using sequential comparisons of the image signals with a plurality of references in which the sequence of the image signals or the references is relevant, e.g. addressable memory
    • G06K9/6878Syntactic or structural pattern recognition, e.g. symbolic string recognition
    • G06K9/6885Syntactic analysis, e.g. using a grammatical approach
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search

Abstract

本发明公开了一种事件的自动分类方法,将音频格式的文件通过语音识别后,转换成文本格式,再通过中文分词、词性标注、文本特征提取、聚类、关键词提取和将所有的事件进行分类,相同的事件均在同一个事件主题下,分类整理后,可以清楚查看哪些待办事件,避免了由于同一件事情多人或多时间报备,导致相同的事件处理后过由于忘记而再次处理的情况,通过事件自动分类后,新报备的事件能自动合并或者建立新的事件主题,帮助事件处理有序进行,避免了同事件多次处理的情况,大大提高了办事效率。

Description

一种事件的自动分类方法 【技术领域】
[0001] 本发明涉及事件自动分类的技术领域,特别涉及一种事件的自动分类方法。 【背景技术】
[0002] 报案是指机关、团体、企事业单位和公民(包括被害人)将发现的有犯罪事实或者 犯罪嫌疑人向司法机关报告的行为。报案可以用书面或者口头形式提出。随着信息技术的 发展,电话报案也越来越多,通过通话录音的方式来记录为报案提供了便捷,但是在一定的 程度上也不便于事件的分类。事件可分为民事案件、刑事案件等,而民事案件或刑事案件下 又包括各种大大小小的事件,事件繁多导致司法机关主管机关在事件的处理上较为棘手, 由于一个相同的事件存在多人报案的情况,由于报案时间或者报案的形式(书面或者语音) 不同,导致系统上对该事件存在多次备案的情况,出现相同的事件反复录入系统,导致后续 对该事件进行多次处理的问题,使办事杂乱无序,降低了司法机关的办事效率。
[0003] 为了解决上述问题,帮助工作井然有序进行,提高司法机关对事件的处理效率,有 必要提出一种事件的自动分类方法。 【发明内容】
[0004] 本发明的目的在于克服上述现有技术的不足,提供一种事件的自动分类方法,其 旨在解决现有技术中相同的事件存在多次备案的情况,易使司法机关对该事件重复处理, 导致办事杂乱无序,降低办事效率的技术问题。
[0005] 为实现上述目的,本发明提出了一种事件的自动分类方法,包括以下步骤:
[0006] A)记录报案人提供的书面事件或者音频事件,将书面事件通过文本格式文件、音 频事件通过音频格式文件录入指挥中心的电脑系统中;
[0007] ©对音频格式文件进行语音识别,转换成对应的文本格式文件;
[0008] 0对所有的文本格式文件进行中文分词;
[0009] D)对中文分词结果中的每个词进行词性标注,确定每个词的词性;
[0010] E)利用词性标注后的分词结果,对每个文本格式文件进行文本特征信息的提取; [0011] F)基于所有文本格式文件的文本特征信息,进行聚类;
[0012] G)基于聚类结果,提取出关键词,并根据关键词对所有文本格式文件进行分类; [0013]扣基于分类结果,建立事件主题,对相同的事件归类至同一事件主题下。
[00M]作为优选,所述的步骤A)中书面事件指报案人以书面形式提出的报案事件,音频 事件指报案人以口头形式提出的报案事件。
[0015]作为优选,所述的步骤B)中语音识别采用语音识别软件识别或人工识别或语音识 别软件与人工相结合的识别方式。
[0016]作为优选,所述的步骤D)中词性标注采用基于规则和统计相结合的词性标注方 法。
[0017]作为优选,所述的步骤C)的中文分词和步骤D)的词性标注可采用分词和词性标注 一体化模型一起进行。
[0018]作为优选,所述的步骤F)中聚类采用K-means聚类。
[0019]作为优选,所述的步骤H)中,事件主题的数量与事件件数相同。
[0020]作为优选,当有新的报案人报案时,重复步骤A)〜步骤G),如果与已存在的事件主 题关键词相同,则归类合并至该事件主题下;如果与已存在的事件主题关键词不同,则重新 建立新的事件主题。
[0021] 作为优选,所述的关键词为多个。
[0022] 本发明的有益效果:与现有技术相比,本发明提供的一种事件的自动分类方法,将 音频格式的文件通过语音识别后,转换成文本格式,再通过中文分词、词性标注、文本特征 提取、聚类、关键词提取和将所有的事件进行分类,相同的事件均在同一个事件主题下,分 类整理后,可以清楚查看哪些待办事件,避免了由于同一件事情多人或多时间报备,导致相 同的事件处理后过由于忘记而再次处理的情况,通过事件自动分类后,新报备的事件能自 动合并或者建立新的事件主题,帮助事件处理有序进行,避免了同事件多次处理的情况,大 大提高了办事效率。
[0023] 本发明的特征及优点将通过实施例结合附图进行详细说明。 【附图说明】
[0024]图1是本发明实施例一种事件的自动分类方法的原理图。
[0025]图2是本发明实施例一的流程图;
[0026]图3是本发明实施例二的流程图。 【具体实施方式】
[0027]为使本发明的目的、技术方案和优点更加清楚明了,下面通过附图及实施例,对本 发明进行进一步详细说明。但是应该理解,此处所描述的具体实施例仅仅用以解释本发明, 并不用于限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避 免不必要地混淆本发明的概念。
[0028]参阅图1,本发明实施例提供一种事件的自动分类方法,包括以下步骤:
[0029] A)记录报案人提供的书面事件或者音频事件,将书面事件通过文本格式文件、音 频事件通过音频格式文件录入指挥中心的电脑系统中。
[0030]其中,书面事件指报案人以书面形式提出的报案事件,音频事件指报案人以口头 形式提出的报案事件。
[0031] ©对音频格式文件进行语音识别,转换成对应的文本格式文件。
[0032]具体地,语音识别采用语音识别软件识别或人工识别或语音识别软件与人工相结 合的识别方式。
[0033] C)对所有的文本格式文件进行中文分词。
[0034] D)对中文分词结果中的每个词进行词性标注,确定每个词的词性。
[0035] 进一步地,词性标注采用基于规则和统计相结合的词性标注方法。
[0036] E)利用词性标注后的分词结果,对每个文本格式文件进行文本特征信息的提取。
[0037] F)基于所有文本格式文件的文本特征信息,进行聚类。
[0038]其中,聚类采用K-means聚类。
[0039] G)基于聚类结果,提取出关键词,并根据关键词对所有文本格式文件进行分类。 [0040] H)基于分类结果,建立事件主题,对相同的事件归类至同一事件主题下。
[0041]具体地,事件主题的数量与事件件数相同。
[0042]当有新的报案人报案时,重复步骤A)〜步骤G),如果与己存在的事件主题关键词 相同,则归类合并至该事件主题下;如果与己存在的事件主题关键词不同,则重新建立新的 事件主题,其中,关键词为多个。
[0043] 参阅图2,作为一种实施例,先进行步骤C)的中文分词,后进行步骤D)的词性标注。 [0044]参阅图3,作为另一种实施例,步骤C)的中文分词和步骤D)的词性标注采用分词和 词性标注一体化模型一起进行。
[0045]本发明工作过程:
[0046]本发明一种事件的自动分类方法,将音频格式的文件通过语音识别后,转换成文 本格式,再通过中文分词、词性标注、文本特征提取、聚类、关键词提取和将所有的事件进行 分类,相同的事件均在同一个事件主题下,分类整理后,可以清楚查看哪些待办事件,避免 了由于同一件事情多人或多时间报备,导致相同的事件处理后过由于忘记而再次处理的情 况,通过事件自动分类后,新报备的事件能自动合并或者建立新的事件主题,帮助事件处理 有序进行,避免了同事件多次处理的情况,大大提高了办事效率。本发明一种事件的自动分 类方法,同样适用于事件管理方面,如物业管理等,提高办事效率。
[0047]以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精 神和原则之内所作的任何修改、等同替换或改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种事件的自动分类方法,其特征在于:包括以下步骤: A) 记录报案人提供的书面事件或者音频事件,将书面事件通过文本格式文件、音频事 件通过音频格式文件录入指挥中心的电脑系统中; B) 对音频格式文件进行语音识别,转换成对应的文本格式文件; 0对所有的文本格式文件进行中文分词; D) 对中文分词结果中的每个词进行词性标注,确定每个词的词性; E) 利用词性标注后的分词结果,对每个文本格式文件进行文本特征信息的提取; F) 基于所有文本格式文件的文本特征信息,进行聚类; G) 基于聚类结果,提取出关键词,并根据关键词对所有文本格式文件进行分类; H) 基于分类结果,建立事件主题,对相同的事件归类至同一事件主题下。
2.如权利要求1所述的一种事件的自动分类方法,其特征在于:所述的步骤A)中书面事 件指报案人以书面形式提出的报案事件,音频事件指报案人以口头形式提出的报案事件。
3.如权利要求1所述的一种事件的自动分类方法,其特征在于:所述的步骤B)中语音识 别采用语音识别软件识别或人工识别或语音识别软件与人工相结合的识别方式。
4.如权利要求1所述的一种事件的自动分类方法,其特征在于:所述的步骤D)中词性标 注采用基于规则和统计相结合的词性标注方法。
5.如权利要求1所述的一种事件的自动分类方法,其特征在于:所述的步骤C)的中文分 词和步骤D)的词性标注可采用分词和词性标注一体化模型一起进行。
6.如权利要求1所述的一种事件的自动分类方法,其特征在于:所述的步骤F)中聚类采; 用K-means聚类。
7.如权利要求1所述的一种事件的自动分类方法,其特征在于:所述的步骤H)中,事件 主题的数量与事件件数相同。
8.如权利要求1所述的一种事件的自动分类方法,其特征在于:当有新的报案人报案 时,重复步骤A)〜步骤G),如果与己存在的事件主题关键词相同,则归类合并至该事件主题 下;如果与己存在的事件主题关键词不同,则重新建立新的事件主题。
9.如权利要求1和8中任意一项所述的一种事件的自动分类方法,其特征在于:所述的 关键词为多个。
CN201611049603.6A 2016-11-25 2016-11-25 一种事件的自动分类方法 Pending CN106778817A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611049603.6A CN106778817A (zh) 2016-11-25 2016-11-25 一种事件的自动分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611049603.6A CN106778817A (zh) 2016-11-25 2016-11-25 一种事件的自动分类方法

Publications (1)

Publication Number Publication Date
CN106778817A true CN106778817A (zh) 2017-05-31

Family

ID=58910588

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611049603.6A Pending CN106778817A (zh) 2016-11-25 2016-11-25 一种事件的自动分类方法

Country Status (1)

Country Link
CN (1) CN106778817A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107678309A (zh) * 2017-09-01 2018-02-09 科大讯飞股份有限公司 操控句式生成、应用操控方法及装置、存储介质
CN109308607A (zh) * 2018-09-17 2019-02-05 田歌 分类记录事件的方法及装置
CN109523409A (zh) * 2018-11-09 2019-03-26 泰康保险集团股份有限公司 数据处理方法、装置、介质及电子设备
CN109886318A (zh) * 2019-01-29 2019-06-14 北京明略软件系统有限公司 一种信息处理方法、装置及计算机可读存储介质
CN110232149A (zh) * 2019-05-09 2019-09-13 北京邮电大学 一种热点事件检测方法和系统
TWI715236B (zh) * 2019-10-04 2021-01-01 中華電信股份有限公司 語音主題分類之系統與方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103246676A (zh) * 2012-02-10 2013-08-14 富士通株式会社 对消息进行聚类的方法和设备
CN103366525A (zh) * 2013-07-03 2013-10-23 战国新 一种多警指挥中心智能管理平台
CN104346355A (zh) * 2013-07-26 2015-02-11 南京中兴力维软件有限公司 系列性公安案件的智能检索方法及其系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103246676A (zh) * 2012-02-10 2013-08-14 富士通株式会社 对消息进行聚类的方法和设备
CN103366525A (zh) * 2013-07-03 2013-10-23 战国新 一种多警指挥中心智能管理平台
CN104346355A (zh) * 2013-07-26 2015-02-11 南京中兴力维软件有限公司 系列性公安案件的智能检索方法及其系统

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107678309A (zh) * 2017-09-01 2018-02-09 科大讯飞股份有限公司 操控句式生成、应用操控方法及装置、存储介质
CN109308607A (zh) * 2018-09-17 2019-02-05 田歌 分类记录事件的方法及装置
CN109523409A (zh) * 2018-11-09 2019-03-26 泰康保险集团股份有限公司 数据处理方法、装置、介质及电子设备
CN109886318A (zh) * 2019-01-29 2019-06-14 北京明略软件系统有限公司 一种信息处理方法、装置及计算机可读存储介质
CN109886318B (zh) * 2019-01-29 2021-04-30 北京明略软件系统有限公司 一种信息处理方法、装置及计算机可读存储介质
CN110232149A (zh) * 2019-05-09 2019-09-13 北京邮电大学 一种热点事件检测方法和系统
TWI715236B (zh) * 2019-10-04 2021-01-01 中華電信股份有限公司 語音主題分類之系統與方法

Similar Documents

Publication Publication Date Title
Galán-García et al. Supervised machine learning for the detection of troll profiles in twitter social network: Application to a real case of cyberbullying
D'Andrea et al. Real-time detection of traffic from twitter stream analysis
CN105138652B (zh) 一种企业关联关系识别方法及系统
Sankaranarayanan et al. Twitterstand: news in tweets
Parikh et al. Media-rich fake news detection: A survey
CN106570144B (zh) 推荐信息的方法和装置
CN1664839B (zh) 确定数据意向并基于该意向响应数据的系统和方法
CN102592210B (zh) 信息提示的方法、装置和终端设备
Ratkiewicz et al. Detecting and tracking the spread of astroturf memes in microblog streams
US20150186537A1 (en) Question distribution method and a question distribution system for a q&a platform
US20140278377A1 (en) Automatic note taking within a virtual meeting
Ratkiewicz et al. Truthy: mapping the spread of astroturf in microblog streams
CN102609460B (zh) 微博客数据采集方法及系统
CN104598445A (zh) 自动问答系统和方法
CN103761239B (zh) 一种利用表情符号对微博进行情感倾向分类的方法
CN104731881B (zh) 一种基于通信应用的聊天记录方法及其移动终端
CN103678670B (zh) 一种微博热词与热点话题挖掘系统及方法
CN102096703B (zh) 短消息的过滤方法和设备
US20130212059A1 (en) Social Analytics
US20080301207A1 (en) Systems and methods for cascading destruction of electronic data in electronic evidence management
CN104239539A (zh) 一种基于多种信息融合的微博信息过滤方法
Wang et al. Arista-image search to annotation on billions of web photos
DE102010043265A1 (de) Systeme und Verfahren zum Verarbeiten und Verwalten von objektbezogenen Daten zur Verwendung durch mehrere Anwendungen
CN105868383A (zh) 一种多渠道信息发布方法及系统
US9514741B2 (en) Data shredding for speech recognition acoustic model training under data retention restrictions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170531