适用于多领域的中文分析平台
技术领域
本发明涉及中文分析技术领域。更具体地说,本发明涉及一种适用于多领域的中文分析平台。
背景技术
随着大数据分析技术的不断推进,越来越多的行业出现大量针对中文文本、语料数据进行分析处理的需求。一方面,互联网上积累的大量的有价值的中文数据,例如以微博、贴吧、门户新闻为代表的社交以及媒体数据,以电商平台为代表的电商评价以及商品信息数据,以及各种政府、企业、机构开放出来的专业数据等,另一方面,政府、企业等也积累了大量的内部文本数据。通过内部以及外部数据的结合,可以进行非常有价值的信息挖掘,典型的应用包括针对不同领域的舆情分析、针对特定领域的专业分析,例如通过结合金融领域的财报等公开信息、新闻报导、舆情检测以及内部数据,对公司运营情况进行分析核实、风险评价等。在这些分析过程中,都需要自然语言处理的支持。
目前业界已经有一些较为完善的针对汉语的自然语言处理工具以及方案,包括开源的IKAnalyzer,HanNLP,哈工大NLP-Cloud,以及腾讯、百度、搜狗等公司的商用产品等。这些工具大多提供了进行自然语言处理的必要功能,包括分词、词性分析、词典、命名实体识别等。但是这些工具都缺乏针对特定领域自然语言处理需要的支持,表现在以下方面:
第一,对于开源工具而言,一般采用固定的词典以及由固定训练语料生成的训练模型。在此过程中,难以对不同领域中文语料的差异进行处理。例如对于中文词语在不同领域中的词性差异无法给出准确的判断,除非更改模型或者词典。而商用工具则不提供模型、词典的接口,难以通过定制满足领域差异;
第二,现有的工具不提供对于语料分析结果的存储积累,难以对不同领域的自然语言处理字典、模型进行优化。例如对于前面提到的词性问题,如果能够积累语料所对应领域特定词词性的出现次数,就可以找出在特定领域特定词最可能的词性,此外可以通过算法对特定领域中的一些特征进行分析统计,这些特征信息的保存有助于提升自然语言分析的准确度;
第三,在不同领域针对不同需求进行分析时,采用的特征有所不同。例如,一般情况下,对自然语言处理多依赖于分词作为特征分析,但是在进行情感分析时,采用分词的二元组能够带来更好的效果,而对于财报等进行分析时,主要关注其中名词的情况。而现有的自然语言分析工具不提供针对特定领域的分析特征,从而带来很多重复开发,降低开发效率。
发明内容
本发明的一个目的是解决至少上述问题,并提供至少后面将说明的优点。
本发明还有一个目的是提供一种适用于多领域中文分析平台,可以满足不同领域的中文分析处理需求,包括对于语料信息针对特定领域需求如何利用机器学习结合人工的方法进行分析、存储、优化,并为特定领域分析提供接口。
为了实现根据本发明的这些目的和其它优点,提供了一种适用于多领域的中文分析平台,包括:
用户输入界面;
领域中文特征配置组件,其用于用户通过用户输入界面自定义待分析对象所属领域的中文分析规则并存储,所述中文分析规则包括数据采集处理和特定领域中文分析流程;
中文语料采集组件,用于用户通过用户输入界面输入待分析对象分析所需的中文语料信息的数据采集;
中文处理组件,其用于对中文语料信息进行基本处理;
中文机器学习算法库,其用于提供不同领域的中文分析功能;
中文语料数据库,其用于存储中文语料采集组件获取的中文语料信息的相关信息;
中文语料特征模型库,其用于存储中文处理组件处理中文语料信息获得的基本特征信息和中文机器学习算法库分析中文语料信息后得到的分析结果信息;
数据流处理与分发模块,其用于按照领域中文特征配置组件内存储的相应领域的中文分析规则先通过中文语料采集组件对待分析对象所需中文语料信息进行数据采集处理,通过中文处理组件对中文语料信息进行基本处理获得基本特征信息,再通过用户选择指定待分析对象所属领域,按照相应的特定领域中文分析流程,通过基本特征信息结合中文机器学习算法库进行分析获得分析结果信息;
中文分析接口,其用于用户针对所需信息从中文语料数据库和中文语料特征模型库中进行输入查找和输出相应的所需信息,所需信息包括中文语料信息的相关信息、基本特征信息和分析结果信息。
优选的是,所述的适用于多领域的中文分析平台,
中文处理组件,其包括中文分词、词性识别及标注、命名实体识别及标注、语法树分析、句法依存分析、拼音转换,以及生成对应的模型文件、词典文件和配置文件;
中文机器学习算法库,其包括机器学习算法的基础算法库,以及利用基础算法库结合中文语料数据库和中文语料特征模型库针对不同领域的中文分析功能算法,用于对不同领域的中文语料信息的关键词、主题、领域的提取,情感分析以及特定领域功能分析。
优选的是,所述的适用于多领域的中文分析平台,中文语料采集组件获取中文语料信息的来源包括爬虫、API接口获取网络中文数据、OCR模块读取内部纸质或图片载体的中文数据。
优选的是,所述的适用于多领域的中文分析平台,所述中文语料采集组件还包括新建用户获取所需中文语料信息指定来源的功能。
优选的是,所述的适用于多领域的中文分析平台,用户选择指定待分析对象所属领域包括客户主动指定待分析对象所属领域和被动选择待分析对象所属领域,所述被动选择待分析对象所属领域是指用户未主动指定待分析对象所属领域时,数据流处理与分发模块调用中文机器学习算法库对获取的中文语料信息依据自身差异化进行分类,或者结合中文语料特征模型库中存储的已有不同领域的主题的特征进行比较分类,由客户根据分类结果定义待分析对象所属领域。
优选的是,所述的适用于多领域的中文分析平台,所述中文语料特征模型库还包括新建自定义分类器,其用于对待分析对象进行分类处理,所述分类器依据分类模型进行分类处理,所述分类模型为用户输入大量相关数据并经分词处理后,通过中文语料特征模型库中的分类算法获得。
优选的是,所述的适用于多领域的中文分析平台,所述中文语料数据库存储的中文语料信息的相关信息按照领域存储,所述相关信息包括中文语料信息原始语料、数据来源以及采集时间。
优选的是,所述的适用于多领域的中文分析平台,所述中文语料特征模型库存储的基本特征信息和分析结果信息按照领域存储,所述基本特征信息包括中文语料词性、语法结构、涉及的命名实体,所述分析结果信息包括中文语料词语词频、主题、领域、语料相似度值。
优选的是,所述的适用于多领域的中文分析平台,用户输入界面还用于用户对分析结果信息进行反馈信息的输入,并将反馈信息存储至中文语料数据库和中文语料特征模型库。
优选的是,所述的适用于多领域的中文分析平台,
所述领域中文特征配置组件中存储了对电影营销舆情的中文分析规则;
所述特定领域功能分析包括针对保险行业的保单分析提供理赔原因分析,对金融公司提供公司经营状况分析。
本发明至少包括以下有益效果:本发明的适用于多领域的中文分析平台,一方面能够克服目前中文分析处理产品功能单一,使用复杂的缺点,另一方面还可以减少客户开发的工作量,提高使用效率,此外,本发明的中文分析平台提供了对于语料的积累,能够对于特定领域下中文分析中依赖的词典、模型进行不断更新,进而提升分析的准确度和智能程度。
本发明的其它优点、目标和特征将部分通过下面的说明体现,部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。
附图说明
图1为本发明的适用于多领域的中文分析平台的系统框架图;
图2为本发明的适用于多领域的中文分析平台针对领域的中文处理流程图。
具体实施方式
下面结合附图对本发明做进一步的详细说明,以令本领域技术人员参照说明书文字能够据以实施。
需要说明的是,在本发明的描述中,术语“横向”、“纵向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,并不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
一种适用于多领域的中文分析平台,如图1所示,包括:
用户输入界面1;
领域中文特征配置组件2,其用于用户通过用户输入界面1自定义待分析对象所属领域的中文分析规则并存储,所述中文分析规则包括数据采集处理和特定领域中文分析流程;
中文语料采集组件3,用于用户通过用户输入界面1输入待分析对象分析所需的中文语料信息的数据采集;
中文处理组件4,其用于对中文语料信息进行基本处理;
中文机器学习算法库5,其用于提供不同领域的中文分析功能;
中文语料数据库6,其用于存储中文语料采集组件3获取的中文语料信息的相关信息;
中文语料特征模型库7,其用于存储中文处理组件4处理中文语料信息获得的基本特征信息和中文机器学习算法库5分析中文语料信息后得到的分析结果信息;
数据流处理与分发模块8,其用于按照领域中文特征配置组件2内存储的相应领域的中文分析规则先通过中文语料采集组件3对待分析对象所需中文语料信息进行数据采集处理,通过中文处理组件4对中文语料信息进行基本处理获得基本特征信息,再通过用户选择指定待分析对象所属领域,按照相应的特定领域中文分析流程,通过基本特征信息结合中文机器学习算法库5进行分析获得分析结果信息;数据流处理与分发模块8是中文分析平台的一个控制部分,起到对各组件进行分配调用的作用;
中文分析接口9,其用于用户针对所需信息从中文语料数据库6和中文语料特征模型库7中进行输入查找和输出相应的所需信息,所需信息包括中文语料信息的相关信息、基本特征信息和分析结果信息。
其中,所述的适用于多领域的中文分析平台,
中文处理组件4,其包括中文分词、词性识别及标注、命名实体识别及标注、语法树分析、句法依存分析、拼音转换,以及生成对应的模型文件、词典文件和配置文件;
中文机器学习算法库5,其包括机器学习算法的基础算法库,如LDA,LSA,SMO等,以及利用基础算法库结合中文语料数据库6和中文语料特征模型库7针对不同领域的中文分析功能算法,用于对不同领域的中文语料信息的关键词、主题、领域的提取,情感分析以及特定领域功能分析。
其中,所述的适用于多领域的中文分析平台,中文语料采集组件3获取中文语料信息的来源包括爬虫、API接口获取网络中文数据、OCR模块读取内部纸质或图片载体的中文数据。本方案只是列举了一些常用的获取数据来源的途径,但不是说本发明的额中文语料采集组件仅仅只能从这些来源获得数据。
其中,所述的适用于多领域的中文分析平台,所述中文语料采集组件3还包括新建用户获取所需中文语料信息指定来源的功能,从指定来源获取相应数据。中文语料采集组件获取数据的来源在中文分析平台中是有限的,但是用户如果需要用到该平台无法获得的数据,例如公司内部数据等,可以通过增加来源来获取,以辅助相应的分析需求。
其中,所述的适用于多领域的中文分析平台,用户选择指定待分析对象所属领域包括客户主动指定待分析对象所属领域和被动选择待分析对象所属领域,所述被动选择待分析对象所属领域是指用户未主动指定待分析对象所属领域时,数据流处理与分发模块8调用中文机器学习算法库5对获取的中文语料信息依据自身差异化进行分类,或者结合中文语料特征模型库7中存储的已有不同领域的主题的特征进行比较分类,由客户根据分类结果定义待分析对象所属领域。分析需要根据领域选择相应领域的流程进行,如果用户不指定,平台就先调用领域判定来分析,分析完后用户还是强迫用户选择一个领域,然后进行分析,这样针对性强。
其中,所述的适用于多领域的中文分析平台,所述中文语料特征模型库7还包括新建自定义分类器,其用于对待分析对象进行分类处理,所述分类器依据分类模型进行分类处理,所述分类模型为用户输入大量相关数据并经分词处理后,通过中文语料特征模型库7中的分类算法获得。由于不同领域下的中文分析需求不同,用户在对某些分析对象进行分类时,可以通过分类器来实现,由于分类模型是由该领域下的大量相关数据建立,因此分类器的针对性更强,另外,用户只需输入和积累大量相关数据,便可以调用分类算法获得,操作简单、可行性高。
其中,所述的适用于多领域的中文分析平台,所述中文语料数据库6存储的中文语料信息的相关信息按照领域存储,所述相关信息包括中文语料信息原始语料、数据来源以及采集时间。按领域存储中文语料信息的相关信息,方便针对特定领域进行中文语料信息的查找。
其中,所述的适用于多领域的中文分析平台,所述中文语料特征模型库7存储的基本特征信息和分析结果信息按照领域存储,所述基本特征信息包括中文语料词性、语法结构、涉及的命名实体,所述分析结果信息包括中文语料词语词频、主题、领域、语料相似度值。
其中,所述的适用于多领域的中文分析平台,用户输入界面1还用于用户对分析结果信息进行反馈信息的输入,并将反馈信息存储至中文语料数据库6和中文语料特征模型库7。用户如果对分析结果信息不满意或者认为有误或与想象的出入,可以将其反馈至中文语料数据库和中文语料特征模型库,进行修改,或者充分选择进行分析,该反馈信息的输入有助于积累该领域的中文语料,对以后在相同领域下的中文语料分析提供语料信息,从而不断完善和提高分析的准确度。
其中,所述的适用于多领域的中文分析平台,
所述领域中文特征配置组件2中存储了对电影营销舆情的中文分析规则;
所述特定领域功能分析包括针对保险行业的保单分析提供理赔原因分析,对金融公司提供公司经营状况分析。本技术方案只是说明本发明的中文分析平台可以根据不同客户的领域需求,在领域中文特征配置组件中自定义存储相应的中文分析规则,本方案存储了对电影营销舆情的中文分析规则,用户可以直接调用该规则的流程对电影营销舆情进行分析。本中文分析平台定义的关于电影营销舆情的中文分析规则包括数据采集、利用中文处理组件对数据进行分词后进行演员提取和评价对象提取,再调用中文机器学习算法库进行情感分析的判定。
而特定领域功能分析也不仅限于上述的针对保险行业的保单分析提供理赔原因分析和金融公司的经营状况分析,该功能可以根据相应领域的中文语料特征数据库和中文语料数据库结合中文机器学习算法进行扩充新建,以解决相应领域的待分析问题。
如图2所示,本发明的适用于多领域的中文分析平台的使用流程为:
1、用户通过用户输入界面选择待分析对象所需中文语料的来源,该中文语料来源于中文语料采集组件,若数据采集来源存在,则进入下一步;若不存在,则用户可以新建一个来源,从而便于获得其分析所需的中文语料,在进入下一步;
2、用户先通过领域中文特征配置组件确定其待分析对象所属领域的中文分析规则是否已存在,若存在,则进入下一步;若不存在,则用户可以自定义相应领域的中文分析规则,另外,需要说明的是,数据采集处理是固设于中文分析规则内的第一步,而特定领域中文分析流程才是用户需要针对特定领域进行预设的;
3、用户选择待分析对象所属领域的中文分析规则,先通过中文语料采集组件进行数据采集,原始中文语料信息入中文语料数据库,对获得的中文语料信息通过中文处理组件进行处理,处理后获得的基本特征信息入中文语料特征模型库;
4、用户从获得的中文语料信息中选择指定待分析对象所属领域从而得到其要分析对象的相应中文语料信息的准确数据,如果用户不指定领域,数据流处理与分发模块调用中文机器学习算法库对获得的中文语料信息进行主题分类,由客户被动选择领域,再进入下一步;
5、根据待分析对象所属领域的中文分析规则中的特定领域中文分析流程,通过基本特征信息结合中文机器学习算法库进行结果分析获得分析结果信息,入中文语料特征模型库;
6、用户通过中文分析接口从中文语料数据库和中文语料特征模型库查询和/或输出所需信息,并通过用户输入界面进行反馈信息更新。需要说明的是,不同领域针对的待分析对象不一样,其所需要展示结果的方式也不一样,本发明通过将用户所需信息包括中文语料信息的相关信息、基本特征信息和分析结果信息存储于中文语料数据库和中文语料特征模型库中,用户可以随时根据需要进行调用,并以自己所需要的信息展出方式对上述信息进行处理后获得。
平台根据收集到的语料特征以及领域分类,重新计算特征如词频、进行新词发现,并将新的语料作为训练集,更新中文处理组件所依赖的词典以及模型,注意,此处可按照不同领域进行更新。
实施例1:
待分析对象:针对电影A营销事件的情感倾向分析,即电影A在上映前于微博以及视频网站上投放预告片、宣传片等营销物料,希望了解这些宣传在网络上引起的反应是否正面;
由于该中文分析平台已经提供了电影营销舆情的中文分析规则,即:数据采集→利用中文处理组件对数据进行分词后进行演员提取和评价对象提取→再调用中文机器学习算法库进行情感分析的判定。
该分析对象的处理流程为:
1、登录平台;
2、通过“用户输入界面”在“领域中文特征配置组件”提供的界面中选择领域→电影营销分析,则出现上述的“电影营销舆情的中文分析规则”;
3、通过“用户输入界面”在“中文语料采集组件”提供的界面上填写要分析的网站,如微博、爱奇艺,填写电影名称A以及其他参数,以获得待分析对象所需的中文语料信息;
4、通过“用户输入界面”启动流程,即平台通过“数据流处理与分发模块”发布指令运行相应的模块,并把结果发送给下一个模块,触发下一个模块的运行,即:
a、平台通过“中文语料采集组件”收集含有A电影的关键字的微博数据与爱奇艺评论数据(数据采集)
b、利用“中文处理组件”对收集到的评论数据进行中文分词处理;
c、利用“中文处理组件”对分词后结果进行演员提取;
d、利用“中文处理组件”对分词后结果进行评价对象提取;
e、利用“中文机器学习算法库”对分词后结果,评价对象结果判定情感极性;
f、原始语料进入“中文语料数据库”,分词结果,语法树、情感结果进入“中文语料特征模型库”;
5、用户可以根据任务的ID从“中文语料数据库”、“中文语料特征模型库”从查找本次分析的结果,包括获得的中文语料原始信息和分析结果信息,并可以对其进行反馈。
实施例2:
待分析对象:针对B品牌电子设备的网络评价分析(包括B品牌内部论坛数据),并分析B品牌产品的用户不满的原因是否集中在部件缺陷还是售后服务方面。
应用前景:一、本平台没有提供预设该分析对象的中文分析规则,并且B品牌的领域包括手机与笔记本,与B品牌相同名称的还包括B水果,用户并未指定领域;二、关于B品牌的内部论坛数据无法从平台上直接获得;三、对于分析不满原因是由于部件缺陷还是售后服务的问题,平台无法直接解决,需要用户定义分类器进行问题分类处理。
该分析对象的处理流程为:
1、登录平台;
2、在“领域中文特征配置组件”提供的界面中定义相应的中文分析规则,即:新建自定义分类器→新建内部数据采集来源→数据采集→利用中文处理组件对数据分词后进行主题分析→用户通过用户输入界面指定领域→利用中文机器学习算法库进行情感分析→利用自定义分类器对消极评论进行分类分析;
3、用户利用“中文语料特征模型库”新建自定义分类器,输入关于售后服务的抱怨数据与部件缺陷的抱怨数据,结合机器学习算法库中的分类算法如SVM,训练形成针对分类售后服务抱怨数据与部件缺陷抱怨数据的分类器;
4、通过“用户输入界面”在“中文语料采集组件”提供的界面上新建来源获得B品牌内部论坛数据,并通过填写要分析的网站,如微博、百度,填写B品牌关键字以及其他参数,以获得待分析对象所需的中文语料信息;
5、通过“用户输入界面”启动流程,即平台通过“数据流处理与分发模块”发布指令运行相应的模块,并把结果发送给下一个模块,触发下一个模块的运行,即:
a、平台通过“中文语料采集组件”收集含有B品牌关键字的微博、百度数据与内部论坛数据(数据采集);
b、对收集到的微博数据、百度数据和内部论坛利用“中文处理组件”进行中文分词处理进行主题分析,由用户根据分析结果选择分析手机领域还是笔记本领域,;
c、假定用户选择手机领域,则利用“中文机器学习算法库”进行情感分析,并选择其中为消极的评论,根据自定义分类器判断该消极的评论是部件缺陷还是售后服务;
d、原始语料数据进入“中文语料数据库”,分析结果进入“中文语料特征模型库”;
6、用户可以根据任务的ID从“中文语料数据库”、“中文语料特征模型库”从查找本次分析的结果,包括获得的中文语料原始信息和分析结果信息,并可以对其进行反馈。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方式中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。