CN106778817A - 一种事件的自动分类方法 - Google Patents
一种事件的自动分类方法 Download PDFInfo
- Publication number
- CN106778817A CN106778817A CN201611049603.6A CN201611049603A CN106778817A CN 106778817 A CN106778817 A CN 106778817A CN 201611049603 A CN201611049603 A CN 201611049603A CN 106778817 A CN106778817 A CN 106778817A
- Authority
- CN
- China
- Prior art keywords
- event
- classification method
- automatic classification
- topic
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 230000011218 segmentation Effects 0.000 claims abstract description 15
- 238000000605 extraction Methods 0.000 claims abstract description 8
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/196—Recognition using electronic means using sequential comparisons of the image signals with a plurality of references
- G06V30/1983—Syntactic or structural pattern recognition, e.g. symbolic string recognition
- G06V30/1985—Syntactic analysis, e.g. using a grammatical approach
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种事件的自动分类方法,将音频格式的文件通过语音识别后,转换成文本格式,再通过中文分词、词性标注、文本特征提取、聚类、关键词提取和将所有的事件进行分类,相同的事件均在同一个事件主题下,分类整理后,可以清楚查看哪些待办事件,避免了由于同一件事情多人或多时间报备,导致相同的事件处理后过由于忘记而再次处理的情况,通过事件自动分类后,新报备的事件能自动合并或者建立新的事件主题,帮助事件处理有序进行,避免了同事件多次处理的情况,大大提高了办事效率。
Description
【技术领域】
本发明涉及事件自动分类的技术领域,特别涉及一种事件的自动分类方法。
【背景技术】
报案是指机关、团体、企事业单位和公民(包括被害人)将发现的有犯罪事实或者犯罪嫌疑人向司法机关报告的行为。报案可以用书面或者口头形式提出。随着信息技术的发展,电话报案也越来越多,通过通话录音的方式来记录为报案提供了便捷,但是在一定的程度上也不便于事件的分类。事件可分为民事案件、刑事案件等,而民事案件或刑事案件下又包括各种大大小小的事件,事件繁多导致司法机关主管机关在事件的处理上较为棘手,由于一个相同的事件存在多人报案的情况,由于报案时间或者报案的形式(书面或者语音)不同,导致系统上对该事件存在多次备案的情况,出现相同的事件反复录入系统,导致后续对该事件进行多次处理的问题,使办事杂乱无序,降低了司法机关的办事效率。
为了解决上述问题,帮助工作井然有序进行,提高司法机关对事件的处理效率,有必要提出一种事件的自动分类方法。
【发明内容】
本发明的目的在于克服上述现有技术的不足,提供一种事件的自动分类方法,其旨在解决现有技术中相同的事件存在多次备案的情况,易使司法机关对该事件重复处理,导致办事杂乱无序,降低办事效率的技术问题。
为实现上述目的,本发明提出了一种事件的自动分类方法,包括以下步骤:
A)记录报案人提供的书面事件或者音频事件,将书面事件通过文本格式文件、音频事件通过音频格式文件录入指挥中心的电脑系统中;
B)对音频格式文件进行语音识别,转换成对应的文本格式文件;
C)对所有的文本格式文件进行中文分词;
D)对中文分词结果中的每个词进行词性标注,确定每个词的词性;
E)利用词性标注后的分词结果,对每个文本格式文件进行文本特征信息的提取;
F)基于所有文本格式文件的文本特征信息,进行聚类;
G)基于聚类结果,提取出关键词,并根据关键词对所有文本格式文件进行分类;
H)基于分类结果,建立事件主题,对相同的事件归类至同一事件主题下。
作为优选,所述的步骤A)中书面事件指报案人以书面形式提出的报案事件,音频事件指报案人以口头形式提出的报案事件。
作为优选,所述的步骤B)中语音识别采用语音识别软件识别或人工识别或语音识别软件与人工相结合的识别方式。
作为优选,所述的步骤D)中词性标注采用基于规则和统计相结合的词性标注方法。
作为优选,所述的步骤C)的中文分词和步骤D)的词性标注可采用分词和词性标注一体化模型一起进行。
作为优选,所述的步骤F)中聚类采用K-means聚类。
作为优选,所述的步骤H)中,事件主题的数量与事件件数相同。
作为优选,当有新的报案人报案时,重复步骤A)~步骤G),如果与已存在的事件主题关键词相同,则归类合并至该事件主题下;如果与已存在的事件主题关键词不同,则重新建立新的事件主题。
作为优选,所述的关键词为多个。
本发明的有益效果:与现有技术相比,本发明提供的一种事件的自动分类方法,将音频格式的文件通过语音识别后,转换成文本格式,再通过中文分词、词性标注、文本特征提取、聚类、关键词提取和将所有的事件进行分类,相同的事件均在同一个事件主题下,分类整理后,可以清楚查看哪些待办事件,避免了由于同一件事情多人或多时间报备,导致相同的事件处理后过由于忘记而再次处理的情况,通过事件自动分类后,新报备的事件能自动合并或者建立新的事件主题,帮助事件处理有序进行,避免了同事件多次处理的情况,大大提高了办事效率。
本发明的特征及优点将通过实施例结合附图进行详细说明。
【附图说明】
图1是本发明实施例一种事件的自动分类方法的原理图。
图2是本发明实施例一的流程图;
图3是本发明实施例二的流程图。
【具体实施方式】
为使本发明的目的、技术方案和优点更加清楚明了,下面通过附图及实施例,对本发明进行进一步详细说明。但是应该理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
参阅图1,本发明实施例提供一种事件的自动分类方法,包括以下步骤:
A)记录报案人提供的书面事件或者音频事件,将书面事件通过文本格式文件、音频事件通过音频格式文件录入指挥中心的电脑系统中。
其中,书面事件指报案人以书面形式提出的报案事件,音频事件指报案人以口头形式提出的报案事件。
B)对音频格式文件进行语音识别,转换成对应的文本格式文件。
具体地,语音识别采用语音识别软件识别或人工识别或语音识别软件与人工相结合的识别方式。
C)对所有的文本格式文件进行中文分词。
D)对中文分词结果中的每个词进行词性标注,确定每个词的词性。
进一步地,词性标注采用基于规则和统计相结合的词性标注方法。
E)利用词性标注后的分词结果,对每个文本格式文件进行文本特征信息的提取。
F)基于所有文本格式文件的文本特征信息,进行聚类。
其中,聚类采用K-means聚类。
G)基于聚类结果,提取出关键词,并根据关键词对所有文本格式文件进行分类。
H)基于分类结果,建立事件主题,对相同的事件归类至同一事件主题下。
具体地,事件主题的数量与事件件数相同。
当有新的报案人报案时,重复步骤A)~步骤G),如果与已存在的事件主题关键词相同,则归类合并至该事件主题下;如果与已存在的事件主题关键词不同,则重新建立新的事件主题,其中,关键词为多个。
参阅图2,作为一种实施例,先进行步骤C)的中文分词,后进行步骤D)的词性标注。
参阅图3,作为另一种实施例,步骤C)的中文分词和步骤D)的词性标注采用分词和词性标注一体化模型一起进行。
本发明工作过程:
本发明一种事件的自动分类方法,将音频格式的文件通过语音识别后,转换成文本格式,再通过中文分词、词性标注、文本特征提取、聚类、关键词提取和将所有的事件进行分类,相同的事件均在同一个事件主题下,分类整理后,可以清楚查看哪些待办事件,避免了由于同一件事情多人或多时间报备,导致相同的事件处理后过由于忘记而再次处理的情况,通过事件自动分类后,新报备的事件能自动合并或者建立新的事件主题,帮助事件处理有序进行,避免了同事件多次处理的情况,大大提高了办事效率。本发明一种事件的自动分类方法,同样适用于事件管理方面,如物业管理等,提高办事效率。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种事件的自动分类方法,其特征在于:包括以下步骤:
A)记录报案人提供的书面事件或者音频事件,将书面事件通过文本格式文件、音频事件通过音频格式文件录入指挥中心的电脑系统中;
B)对音频格式文件进行语音识别,转换成对应的文本格式文件;
C)对所有的文本格式文件进行中文分词;
D)对中文分词结果中的每个词进行词性标注,确定每个词的词性;
E)利用词性标注后的分词结果,对每个文本格式文件进行文本特征信息的提取;
F)基于所有文本格式文件的文本特征信息,进行聚类;
G)基于聚类结果,提取出关键词,并根据关键词对所有文本格式文件进行分类;
H)基于分类结果,建立事件主题,对相同的事件归类至同一事件主题下。
2.如权利要求1所述的一种事件的自动分类方法,其特征在于:所述的步骤A)中书面事件指报案人以书面形式提出的报案事件,音频事件指报案人以口头形式提出的报案事件。
3.如权利要求1所述的一种事件的自动分类方法,其特征在于:所述的步骤B)中语音识别采用语音识别软件识别或人工识别或语音识别软件与人工相结合的识别方式。
4.如权利要求1所述的一种事件的自动分类方法,其特征在于:所述的步骤D)中词性标注采用基于规则和统计相结合的词性标注方法。
5.如权利要求1所述的一种事件的自动分类方法,其特征在于:所述的步骤C)的中文分词和步骤D)的词性标注可采用分词和词性标注一体化模型一起进行。
6.如权利要求1所述的一种事件的自动分类方法,其特征在于:所述的步骤F)中聚类采用K-means聚类。
7.如权利要求1所述的一种事件的自动分类方法,其特征在于:所述的步骤H)中,事件主题的数量与事件件数相同。
8.如权利要求1所述的一种事件的自动分类方法,其特征在于:当有新的报案人报案时,重复步骤A)~步骤G),如果与已存在的事件主题关键词相同,则归类合并至该事件主题下;如果与已存在的事件主题关键词不同,则重新建立新的事件主题。
9.如权利要求1和8中任意一项所述的一种事件的自动分类方法,其特征在于:所述的关键词为多个。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611049603.6A CN106778817A (zh) | 2016-11-25 | 2016-11-25 | 一种事件的自动分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611049603.6A CN106778817A (zh) | 2016-11-25 | 2016-11-25 | 一种事件的自动分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106778817A true CN106778817A (zh) | 2017-05-31 |
Family
ID=58910588
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611049603.6A Pending CN106778817A (zh) | 2016-11-25 | 2016-11-25 | 一种事件的自动分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106778817A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107678309A (zh) * | 2017-09-01 | 2018-02-09 | 科大讯飞股份有限公司 | 操控句式生成、应用操控方法及装置、存储介质 |
CN109308607A (zh) * | 2018-09-17 | 2019-02-05 | 田歌 | 分类记录事件的方法及装置 |
CN109523409A (zh) * | 2018-11-09 | 2019-03-26 | 泰康保险集团股份有限公司 | 数据处理方法、装置、介质及电子设备 |
CN109886318A (zh) * | 2019-01-29 | 2019-06-14 | 北京明略软件系统有限公司 | 一种信息处理方法、装置及计算机可读存储介质 |
CN110232149A (zh) * | 2019-05-09 | 2019-09-13 | 北京邮电大学 | 一种热点事件检测方法和系统 |
CN110533382A (zh) * | 2019-07-24 | 2019-12-03 | 阿里巴巴集团控股有限公司 | 会议纪要的处理方法、装置、服务器及可读存储介质 |
TWI715236B (zh) * | 2019-10-04 | 2021-01-01 | 中華電信股份有限公司 | 語音主題分類之系統與方法 |
CN112671973A (zh) * | 2019-09-29 | 2021-04-16 | 北京小米移动软件有限公司 | 信息处理方法及设备 |
CN113129866A (zh) * | 2021-04-13 | 2021-07-16 | 重庆度小满优扬科技有限公司 | 语音处理方法、装置、存储介质及计算机设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103246676A (zh) * | 2012-02-10 | 2013-08-14 | 富士通株式会社 | 对消息进行聚类的方法和设备 |
CN103366525A (zh) * | 2013-07-03 | 2013-10-23 | 战国新 | 一种多警指挥中心智能管理平台 |
CN104346355A (zh) * | 2013-07-26 | 2015-02-11 | 南京中兴力维软件有限公司 | 系列性公安案件的智能检索方法及其系统 |
-
2016
- 2016-11-25 CN CN201611049603.6A patent/CN106778817A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103246676A (zh) * | 2012-02-10 | 2013-08-14 | 富士通株式会社 | 对消息进行聚类的方法和设备 |
CN103366525A (zh) * | 2013-07-03 | 2013-10-23 | 战国新 | 一种多警指挥中心智能管理平台 |
CN104346355A (zh) * | 2013-07-26 | 2015-02-11 | 南京中兴力维软件有限公司 | 系列性公安案件的智能检索方法及其系统 |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107678309B (zh) * | 2017-09-01 | 2021-07-06 | 科大讯飞股份有限公司 | 操控句式生成、应用操控方法及装置、存储介质 |
CN107678309A (zh) * | 2017-09-01 | 2018-02-09 | 科大讯飞股份有限公司 | 操控句式生成、应用操控方法及装置、存储介质 |
CN109308607A (zh) * | 2018-09-17 | 2019-02-05 | 田歌 | 分类记录事件的方法及装置 |
CN109523409A (zh) * | 2018-11-09 | 2019-03-26 | 泰康保险集团股份有限公司 | 数据处理方法、装置、介质及电子设备 |
CN109886318A (zh) * | 2019-01-29 | 2019-06-14 | 北京明略软件系统有限公司 | 一种信息处理方法、装置及计算机可读存储介质 |
CN109886318B (zh) * | 2019-01-29 | 2021-04-30 | 北京明略软件系统有限公司 | 一种信息处理方法、装置及计算机可读存储介质 |
CN110232149A (zh) * | 2019-05-09 | 2019-09-13 | 北京邮电大学 | 一种热点事件检测方法和系统 |
CN110232149B (zh) * | 2019-05-09 | 2022-03-01 | 北京邮电大学 | 一种热点事件检测方法和系统 |
CN110533382A (zh) * | 2019-07-24 | 2019-12-03 | 阿里巴巴集团控股有限公司 | 会议纪要的处理方法、装置、服务器及可读存储介质 |
CN112671973A (zh) * | 2019-09-29 | 2021-04-16 | 北京小米移动软件有限公司 | 信息处理方法及设备 |
TWI715236B (zh) * | 2019-10-04 | 2021-01-01 | 中華電信股份有限公司 | 語音主題分類之系統與方法 |
CN113129866A (zh) * | 2021-04-13 | 2021-07-16 | 重庆度小满优扬科技有限公司 | 语音处理方法、装置、存储介质及计算机设备 |
CN113129866B (zh) * | 2021-04-13 | 2022-08-02 | 重庆度小满优扬科技有限公司 | 语音处理方法、装置、存储介质及计算机设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106778817A (zh) | 一种事件的自动分类方法 | |
US10637674B2 (en) | System and method for real-time decoding and monitoring for encrypted instant messaging and other information exchange applications | |
CN101937445B (zh) | 一种文件自动分类系统 | |
CN110866110A (zh) | 基于人工智能的会议纪要生成方法、装置、设备及介质 | |
JP5534280B2 (ja) | テキストクラスタリング装置、テキストクラスタリング方法、およびプログラム | |
CN103699525A (zh) | 一种基于文本多维度特征自动生成摘要的方法和装置 | |
US20100021070A1 (en) | Communication device and image classification method thereof | |
CN105812554A (zh) | 一种智能管理手机短信的方法和系统 | |
CN106649578A (zh) | 一种基于社交网络平台的舆情分析方法及系统 | |
CN103279497B (zh) | 一种根据数据类型自动进行分类操作的方法、系统及装置 | |
CN110225210A (zh) | 基于通话摘要自动填写工单方法及系统 | |
CN107145568A (zh) | 一种快速的新闻事件聚类系统及方法 | |
CN102902711A (zh) | 一种语用关键词通用模板的生成、应用方法与装置 | |
CN101719924B (zh) | 基于群件理解的不良彩信过滤方法 | |
Duan et al. | A new spam short message classification | |
CN107506407B (zh) | 一种文件分类、调用的方法及装置 | |
Bonzanini et al. | Opinion summarisation through sentence extraction: An investigation with movie reviews | |
CN109783807A (zh) | 一种针对app软件缺陷的用户评论挖掘方法 | |
CN107465519B (zh) | 一种基于即时通讯应用的数据管理系统 | |
CN106127596A (zh) | 一种针对社交网络非原创图片的发布管理方法 | |
CN106446270A (zh) | 一种分类方法及装置 | |
CN106204301A (zh) | 一种针对社交网络非原创图片的管理方法 | |
CN106909541A (zh) | 一种跨领域公共舆情的自动识别、分类与上报的系统 | |
KR101806174B1 (ko) | 스팸 문자 판별 시스템 및 방법, 이를 수행하기 위한 기록매체 | |
KR102291113B1 (ko) | 회의록 작성 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170531 |