CN105205048A

CN105205048A - 一种热词分析统计系统及方法

Info

Publication number: CN105205048A
Application number: CN201510685180.6A
Authority: CN
Inventors: 陈春东; 杜渂; 刘亮亮; 雷霆; 索涛; 王聚全; 喻小林; 汪朝辉; 戴贞清; 陈同增; 童金陵; 张嘉成
Original assignee: Shanghai DS Communication Equipment Co Ltd
Current assignee: Shanghai DS Communication Equipment Co Ltd
Priority date: 2015-10-21
Filing date: 2015-10-21
Publication date: 2015-12-30
Anticipated expiration: 2035-10-21
Also published as: CN105205048B

Abstract

本发明提供了一种热词分析统计系统和方法，其中，该热词分析系统中包括：分析主题模块，用于确定分析数据源、定义分析主题以及定义每个域的数据类型；关注词汇模块，用于形成关注词汇表序列；分词服务模块，用于提取相应域中的数据信息，并根据关注词汇表序列对数据信息进行分词，产生词元序列；索引服务模块，用于记录每个词元在对应域中的索引位置和记录每个词元对应的数据信息，生成词元索引文件；词元统计模块，用于统计每个词元的数量；热词分析模块，将生成的热词关联信息和热词的词频数反馈给用户。其实现热词的精确统计和热词关联关系的索引存储，解决了热词按类分析的需求，提高了热词统计的精确度。

Description

一种热词分析统计系统及方法

技术领域

本发明涉及数据处理技术领域，尤其涉及一种热词分析统计系统及方法。

背景技术

随着信息化水平的不断提高，人们对数据的需求不再只停留在简单的数据获取与数据检索上，而是更加注重于利用搜集到的信息发现并解决其中隐藏的问题。如，在公共安全技术领域中，公共安全决策人员更加关注：将搜集到的信息通过文本分析、挖掘技术等技术手段产生热词，进而通过热词统计分析结果来解决业务问题。

热词即热门词汇，简单来说，当一个词汇的词频数达到一定阈值后即称之为热词。作为一种词汇现象，热词的热度反映了一个国家、一个民族群体在一段时期内普遍关注的问题和事物，相应词汇的热度趋势则反映了问题和事物的发展态势。例如，在公共安全技术领域中，信息化产生了大量不同结构的数据，如，反映了某一个地区公共安全问题与警情发展趋势的接处警信息(既包括结构化数据，还包括非结构化数据)，通过对接处警信息的热词分析，可以发现某一类、某一地区，或某一时期的警情热度，这样，公共安全管理部门可以根据热词分析结果及时部署或调整警力部署，更好地进行应对警情发展。

在对热词进行统计的过程中，文本只有被分割成一个个独立的词元才能进行统计，以发掘那些词频达到一定阈值的热词，可以看出，分词技术是词频统计的基础。简单来说，分词技术是搜索引擎针对用户提交查询的关键词串进行的查询处理后根据用户的关键词串用各种匹配方法进行分词的一种技术。

搜索引擎(SearchEngine)是指根据一定的策略、运用特定的计算机程序从各类数据源中搜集信息，在对信息进行组织和处理后，为用户提供检索服务，将用户检索相关的信息展示给用户的系统。目前常见的文本搜索引擎框架有Lucene，其是apache软件基金会Jakarta项目组的子项目，是一个开放源代码的全文检索引擎工具包，提供了完整的查询引擎和索引引擎，以及部分文本分析引擎(英文与德文两种西方语言)。Solr是一个常用的基于Lucene的高性能全文搜索服务器，其提供了比Lucene更为丰富的查询语言，实现了可配置、可扩展并对查询性能进行了优化，还提供了一个完善的功能管理界面，是一款非常优秀的全文搜索引擎。

但是，Lucene的词频统计用于命中结果打分的计算，不用作数据资源的整体统计。Solr的词频统计是为了实现自动补全功能，虽然用作数据资源的整体统计，但是，对于每个信息单元，如果多个field(即“域”)存在多个目标词元时只计算一次，属于粗粒度的统计，统计的精确度较差。

发明内容

针对上述问题，本发明旨在提供一种热词分析统计系统及方法，其实现热词的精确统计和热词关联关系的索引存储，解决了热词按类分析的需求，提高了热词统计的精确度。

本发明提供的技术方案如下：

一种热词分析统计系统，所述热词分析统计系统中包括：

分析主题模块、关注词汇模块、分词服务模块、索引服务模块、词元统计模块以及热词分析模块，其中，

所述分析主题模块，用于确定分析数据源、定义分析主题、定义分析字段的域以及定义每个域的数据类型，产生主题数据结构；

所述关注词汇模块，用于确定需要关注的热词，形成关注词汇表序列；

所述分词服务模块，分别与所述分析主题模块和所述关注词汇模块连接，所述分词服务模块用于根据所述主题数据结构提取相应域中的数据信息，并根据所述关注词汇表序列对所述数据信息进行分词，产生词元序列；

所述索引服务模块，与所述分词服务模块连接，所述索引服务模块用于记录所述词元序列中每个词元在对应域中的索引位置和记录每个词元对应的数据信息，生成词元索引文件；

所述词元统计模块，分别与所述分词服务模块和所述索引服务模块连接，所述热词统计处理模块用于统计每个词元的数量；

所述热词分析模块，分别与所述索引服务模块和所述词元统计模块连接，所述热词分析模块根据所述词元索引文件生成热词关联信息，且根据每个词元的数量生成热词的词频数；所述热词分析模块将所述热词关联信息和所述热词的词频数进行反馈。

优选地，所述分析数据源包括：数据库数据、文本数据、半结构化数据以及非结构化数据。

优选地，所述索引服务模块中包括：第一词元提取单元、信息提取单元以及索引关系生成单元，其中，

所述第一词元提取单元，与所述分词服务模块连接，所述第一词元提取单元从所述分词服务模块中提取所述词元序列；

所述信息提取单元，与所述第一词元提取单元，所述词元提取单元提取所述词元序列中每个词元在对应数据信息中的位置关系，且提取所述词元序列中每个词元与所述主题结构中对应域的关联信息；

所述索引关系生成单元，与所述信息提取单元连接，所述索引关系生成单元根据每个词元在对应数据信息中的位置关系和每个词元与所述主题结构中对应域的关联信息生成相应的索引单元，形成词元索引文件。

优选地，每个词元与所述主题结构中对应域的关联信息包括：

词元对应的数据信息的来源、词元的产生时间、词元产生的区域、与该词元同时出现的高频词元。

优选地，所述词元统计模块中包括：第二词元提取单元和词频统计单元，其中，

所述第二词元提取单元，与所述分词服务模块连接，所述第二词元提取单元从所述分词服务模块中提取所述词元序列；

词频统计单元，分别与所述第二词元提取单元和所述索引服务模块连接，所述词频统计单元根据所述词元序列中的每个词元分别遍历所述词元索引文件中所有索引单元，且遍历每个索引单元中对应该词元的每个域，以统计每个词元的数量。

一种热词分析统计方法，应用于上述热词分析统计系统，所述热词分析统计方法包括以下步骤：

S1确定分析数据源、定义分析主题、定义分析字段的域以及定义每个域的数据类型，产生主题数据结构；

S2确定需要关注的热词，形成关注词汇表序列；

S3根据所述主题数据结构提取相应域中的数据信息，并根据所述关注词汇表序列对所述数据信息进行分词，产生词元序列；

S4记录所述词元序列中每个词元在对应域中的索引位置和记录每个词元对应的数据信息，生成词元索引文件；

S5统计每个词元的数量；

S6根据所述词元索引文件生成热词关联信息，且根据每个词元的数量生成热词的词频数

S7将所述热词关联信息和所述热词的词频数进行反馈。

优选地，在步骤S4中，具体包括以下步骤：

S41提取所述词元序列；

S42提取所述词元序列中每个词元在对应数据信息中的位置关系；

S43提取所述词元序列中每个词元与所述主题结构中对应域的关联信息；

S44根据每个词元在对应数据信息中的位置关系和每个词元与所述主题结构中对应域的关联信息生成相应的索引单元，形成词元索引文件。

优选地，在步骤S5中，具体包括：

S51提取所述词元序列；

S52根据所述词元序列中的每个词元分别遍历所述词元索引文件中所有索引单元；

S53遍历每个索引单元中对应该词元的每个域，以统计每个词元的数量。

通过本发明提供的热词分析统计系统及方法，能够带来以下至少一种有益效果：

1.在本发明中，分析主题模块可以根据用户的业务需求来自定义需要分析和重点关注的分析主题对象，使得本发明提供的热词分析统计系统具备非常强的可扩展性。

2.在本发明中，生成的词元索引文件对应的词元已经不可能被分成更小的词，故在TermsComponent(热词词频)计算中保证了最小粒度的词频统计，而不是粗粒度的统计，保证了热词词频统计的精确性，有效避免了以往系统和方法中统计不精确的问题。

3.在本发明中，采用多域(field)的统计方式，在词频统计的同时，能够提取出热词的关联信息，如，关联地区、管辖单位、关联时间等，有效地拓展了热词分析统计系统在实际业务中的应用，比如说，为公共安全领域，尤其是为情报信息、指挥中心等部门提供科学、高效、有力的决策指导，进一步提高了国内公共安全的管理和服务能力，体现热词挖掘的应用价值。

附图说明

下面将以明确易懂的方式，结合附图说明优选实施方式，对上述特性、技术特征、优点及其实现方式予以进一步说明。

图1为本发明中热词分析统计系统的结构示意图；

图2为本发明中索引服务模块结构示意图；

图3为本发明中词元统计模块结构示意图；

图4为本发明中热词分析统计方法流程示意图。

附图标号说明：

10-分析主题模块，20-关注词汇模块，30-分词服务模块，40-索引服务模块，50-词元统计模块，60-热词分析模块，41-第一词元提取单元，42-信息提取单元，43-索引关系生成单元，51-第二词元提取单元，52-词频统计单元。

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

如图1所示为本发明中提供的热词分析统计系统，从图中可以看出，在该热词分析统计系统中包括：分析主题模块10、关注词汇模块20、分词服务模块30、索引服务模块40、词元统计模块50以及热词分析模块60，其中，分词服务模块30分别与分析主题模块10和关注词汇模块20连接，索引服务模块40与分词服务模块30连接，词元统计模块50分别与分词服务模块30和索引服务模块40连接，热词分析模块60分别与索引服务模块40和词元统计模块50连接。

在工作过程中，首先我们通过分析主题模块10选取分析数据源、定义分析主题、定义分析字段的域(field)以及定义每个域的数据类型，产生主题数据结构。具体来说，分析数据源包括但不限于数据库数据、文本数据、半结构化数据以及非结构化数据等，且分析数据源中包含的数据可以是历史产生的数据，也可以是实时产生的数据。在确定了分析数据源之后，系统会对其中的数据进行实时性的判断，如果其中的数据为实时数据，则紧接着定义分析主题；如果其中的数据为历史数据，则系统首先根据历史数据建立数据仓库，再定义分析主题。在一个具体实施例中，上述分析数据源为某市公安接处警数据，该接处警数据存于SQLServer2008数据库系统中，经过数据清洗将不合格的数据去掉，并清洗后的数据存于数据仓库中，以备后续分析。

用户通过分析主题模块10选定了分析数据源之后，紧接着定义分析主题、定义分析字段的域(field)以及定义每个域的数据类型。其中，定义分析主题即定义用户需要分析的业务主题，如，将分析主题定为分析某市公安接处警数据中所有热词。从描述中可以看出，仅仅定义分析主题是不够的，还需要定义该分析主题相关的分析字段的域，如，还需要对上述的某市公安接警处数据中的热词的属性进行定义，例如，将热词的属性定义为警情产生的地区、管辖单位、警情来源、报警方式等。这样，系统在采集数据时就可以依据热词属性进行采集，进而用户可以按照采集结果进行热词时间、地区、管辖单位、警情来源、报警方式等属性进行单一指标的统计或多个指标的多维分析。在一个实施例中，将分析主题定义在subject.xml中，在该subject.xml中还定义了需要被分析字段的域以及对应域的数据类型，即定义每个数据信息的唯一标识(ID)、其中包含的热词(Term)、热词产生时间(DateTime)等，对应的数据类型分别为字符型(每个数据信息的唯一标识的数据类型)、字符型(热词的数据类型)、时间日期类型(热词产生的时间的数据类型)。对于每个域对应的数据类型不限定于计算机语言中的基本数据类型，可以根据实际情况进行设定。

对以上信息进行的定义之后，随即我们使用关注词汇模块20定义用户关注的热词，形成关注词汇表序列。具体来说，用户通过接口写入与分析主题相关的需要关注的热词，且将关注词汇表定位为dictionary.txt。在具体实施例中，用户通过关注词汇模块20在关注词汇表中写入但不限于加油站、电动车、仿真枪等用户关注的词汇，在其他实施例中，用户根据分析主题写入不同的热词。类似地，在这个过程中，还可以对上述关注的热词的分类属性进行设置，即将热词按照用户的业务主题特征进行分类，便于各业务部门按照其关心的热词类型进行统计。如，将电动车、面包车、路口、斑马线等热词归入交通警情类别；又如，将摩托车、飞车、电动车等词归入两抢一盗类别。这样，用户可以通过热词分类属性，按照类别进行热词统计，以对热词的整体发展趋势进行分析和统计。

接着，分词服务模块30根据主题数据结构提取相应域中的数据信息，并根据关注词汇表序列对数据信息进行分词，产生词元序列。在具体实施例中，这里说的分词服务模块30中包括中文分词器，其对从分析数据源中提取的数据信息进行分词处理，生成对应的词元序列(热词集)。例如，用户关注的热词为“电动机”，某条数据信息为“今天中午2点，一辆无牌电动车被偷”，则分词服务模块30中产生的词元序列(热词集)中就会包括“电动车”这个词。

之后，索引服务模块40记录词元序列中每个词元在对应域中的索引位置和记录每个词元对应的数据信息，生成词元索引文件。具体来说，如图2所示，索引服务模块40中包括：第一词元提取单元41、信息提取单元42以及索引关系生成单元43，其中，第一词元提取单元41与分词服务模块30连接，信息提取单元42与第一词元提取单元41连接，索引关系生成单元43与信息提取单元42连接。在生成词元索引文件的过程中，首先，第一词元提取单元41从分词服务模块30中提取生成的词元序列；随后，词元提取单元提取词元序列中每个词元在对应数据信息中的位置关系(词元和与之对应的数据信息之间的关联关系)，同时提取词元序列中每个词元与主题结构中对应域的关联信息；最后，索引关系生成单元43根据每个词元在对应数据信息中的位置关系和每个词元与主题结构中对应域的关联信息生成相应的索引单元(每个词元形成一个索引单元)，每个词元对应的索引单元集合在一起形成词元索引文件。更具体来说，每个词元与主题结构中对应域的关联信息包括但不限于：词元对应的数据信息的来源、词元的产生时间、词元产生的区域、与该词元同时出现的高频词元等，用户可以根据实际情况进行设定。假若，词元序列中包括两个词元，分别为：“电动车”和“自行车”，则在这个过程中会通过以上方法分别生成这两个词元索引单元，形成词元索引文件。

进一步地，通过热词统计处理模块统计每个词元的数量。具体来说，如图3所示，词元统计模块50中包括：第二词元提取单元41和词频统计单元52，其中，第二词元提取单元41与分词服务模块30连接，词频统计单元52分别与第二词元提取单元41和索引服务模块40连接。在统计词元的过程中，首先，使用第二词元提取单元41从分词服务模块30中提取词元序列；随后，词频统计单元52根据词元序列中的每个词元分别遍历词元索引文件中所有索引单元，且遍历每个索引单元中对应该词元的每个域，以统计每个词元的数量。假若，词元序列中包括两个词元，分别为：“电动车”和“自行车”，则在这个过程中会通过以上方法分别统计出这两个词元在分析数据源中出现的总次数。在这个过程中，首先针对其中一个词元(如“电动车”)遍历索引文件组中的所有索引单元和每个索引单元中该词元对应的每个域，统计出该词元的数量之后再循环统计其他词元的数量，直到词元序列中所有词元都统计完毕。

最后，热词分析模块60根据词元索引文件生成热词关联信息，且根据每个词元的数量生成热词的词频数；热词分析模块60将热词关联信息和热词的词频数进行反馈，供用户查看。热词关联信息包括但不限于：热词对应的数据信息的来源、热词的产生时间、热词产生的区域、与该热词同时出现的高频热词等，用户可以根据实际情况进行设定。

作为一个完整的实施例，以下我们以分词服务模块30中包括中文分词器，索引服务模块40为索引服务器，对热词分析统计系统的全过程进行详细描述：

首先，初始化热词分析组件，配置中文分词器，并接入关注词汇表。

随后，初始化索引服务器，定义词元索引文件保存路径，并接入热词分析组件。

假若，以“电动车”为热词进行处理时，从分析数据源(数据仓库)中获取的某条警情内容为：“今天下午1点多，一辆拉土货车(无牌)撞倒一辆电动车，电动车驾驶人受伤，被送往十三局医院(急救室)。货车老板及司机把伤者送往医院后乘黑色帕萨特(鲁n06896)逃跑”，则通过分词服务模块30中的中文分词器对其进行分词产生的热词集(词元序列)中包含“电动车”这个词，又假若接收到这条警情的时间是在“2015年3月15日下午1点45分”，则在索引服务器写入该热词“电动车”作为所述关注数据结构中热词字段的值，并生成唯一标识ID值标识该热词，并写入“2015-03-1513:45”作为该热词产生时间字段的值，生成索引单元。要注意的是，我们看到，在该条警情中包含两条同样的热词“电动车”，此时，在索引服务器中写入索引的时候会生成两个不同的ID值分别标识上述两个词元(两个热词“电动车”)，包括相应的热词产生时间，这样，在统计分析的时候，热词“电动车”被统计了两次，与实际情况相符。

在上述过程中，生成的索引单元保存在索引服务器中，产生热词索引文件。这样产生的热词索引文件中，对于每一个热词都关联了产生该条热词的其他相关信息。比如上述所述“电动车”，关联了时间是“2015-03-1513:45”。要说明的是，关联的信息取决于所述分析主题定义的数据结构。在上述的具体实施中，对于“电动车”这个热词还可以关联接警员、接警单位、警情类型、警情地区等诸多信息。这样，用户在分析“电动车”这个热词时，可以看到该热词在过去一段时间，如24小时里的热度趋势，可以看到该热词在该市公安局下辖某支队的热度趋势等等。

如图4所示为本发明提供的热词分析统计方法，应用于上述的热词分析统计系统，从图中可以看出，在该热词分析统计方法包括以下步骤：

S1确定分析数据源、定义分析主题、定义分析字段的域以及定义每个域的数据类型，产生主题数据结构。具体来说，在该步骤中，分析数据源包括但不限于数据库数据、文本数据、半结构化数据以及非结构化数据等，且分析数据源中包含的数据可以是历史产生的数据，也可以是实时产生的数据。在一个实施例中，将分析主题定义在subject.xml中，在该subject.xml中还定义了需要被分析字段的域以及对应域的数据类型，即定义每个数据信息的唯一标识(ID)、其中包含的热词(Term)、热词产生时间(DateTime)等，对应的数据类型分别为字符型(每个数据信息的唯一标识的数据类型)、字符型(热词的数据类型)、时间日期类型(热词产生的时间的数据类型)。对于每个域对应的数据类型不限定于计算机语言中的基本数据类型，可以根据实际情况进行设定。

S2确定需要关注的热词，形成关注词汇表序列。具体来说，在该步骤中，用户通过接口写入与分析主题相关的需要关注的热词。在具体实施例中，用户通过关注词汇模块20在关注词汇表中写入但不限于加油站、电动车、仿真枪等用户关注的词汇，在其他实施例中，用户根据分析主题写入不同的热词。

S3根据主题数据结构提取相应域中的数据信息，并根据关注词汇表序列对数据信息进行分词，产生词元序列。具体来说，在该步骤中，这里说的分词服务模块30为中文分词器，其对从分析数据源中提取的数据信息进行分词处理，生成对应的词元序列(热词集)。例如，用户关注的热词为“电动机”，某条数据信息为“今天中午2点，一辆无牌电动车被偷”，则分词服务模块30中产生的词元序列(热词集)中就会包括“电动车”这个词。

S4记录词元序列中每个词元在对应域中的索引位置和记录每个词元对应的数据信息，生成词元索引文件。具体来说，在该步骤中，包括以下步骤：

S41提取词元序列；

S42提取词元序列中每个词元在对应数据信息中的位置关系；

S43提取词元序列中每个词元与主题结构中对应域的关联信息；

S44根据每个词元在对应数据信息中的位置关系和每个词元与主题结构中对应域的关联信息生成相应的索引单元，形成词元索引文件。

S5统计每个词元的数量。具体来说，在该步骤中，包括以下步骤：

S51提取词元序列；

S52根据词元序列中的每个词元分别遍历词元索引文件中所有索引单元；

S6根据词元索引文件生成热词关联信息，且根据每个词元的数量生成热词的词频数

S7将热词关联信息和热词的词频数进行反馈。

应当说明的是，上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种热词分析统计系统，其特征在于，所述热词分析统计系统中包括：

2.如权利要求1所述的热词分析统计系统，其特征在于，所述分析数据源包括：数据库数据、文本数据、半结构化数据以及非结构化数据。

3.如权利要求1或2所述的热词分析统计系统，其特征在于，所述索引服务模块中包括：第一词元提取单元、信息提取单元以及索引关系生成单元，其中，

4.如权利要求3所述的热词分析统计系统，其特征在于，每个词元与所述主题结构中对应域的关联信息包括：

5.如权利要求3或4所述的热词分析统计系统，其特征在于，所述词元统计模块中包括：第二词元提取单元和词频统计单元，其中，

6.一种热词分析统计方法，其特征在于，所述热词分析统计方法应用于如权利要求1-5任意一项所述的热词分析统计系统，所述热词分析统计方法包括以下步骤：

S2确定需要关注的热词，形成关注词汇表序列；

S5统计每个词元的数量；

S6根据所述词元索引文件生成热词关联信息，且根据每个词元的数量生成热词的词频数；

S7将所述热词关联信息和所述热词的词频数进行反馈。

7.如权利要求6所述的热词分析统计方法，其特征在于，在步骤S4中，具体包括以下步骤：

S41提取所述词元序列；

8.如权利要求7所述的热词分析统计方法，其特征在于，在步骤S5中，具体包括：

S51提取所述词元序列；