CN105022733A

CN105022733A - Dinfo-oec文本分析挖掘方法与设备

Info

Publication number: CN105022733A
Application number: CN201410155830.1A
Authority: CN
Inventors: 不公告发明人
Original assignee: China Science And Technology (beijing) Co Ltd
Current assignee: Dingfu Intelligent Technology Co., Ltd
Priority date: 2014-04-18
Filing date: 2014-04-18
Publication date: 2015-11-04
Anticipated expiration: 2034-04-18
Also published as: CN105022733B

Abstract

本发明提供了一种基于概念的非结构化文本大数据分析挖掘方法及其设备。所述方法包括步骤：（1）预处理，包括分词和命名实体识别；（2）对输入文本进行概念提取和概念表达式识别；（3）依据挖掘规则，对输入文本的概念表达式进行分析挖掘；（4）计算挖掘结果的可信度；（5）按可信度输出挖掘结果；（5）挖掘结果可视化展示。所述方法的挖掘模型包括3棵树：本体树，要素树和概念树。所述设备包括：（1）建模单元，（2）预处理单元，（3）概念提取与表达式识别单元，（4）分析挖掘单元，（5）可视化展示单元。本发明具有以下优点：建模过程分离业务和自然语言表达的多样性，降低业务维护投入；挖掘方法能大大提供分析挖掘的准确率。

Description

DINFO-OEC文本分析挖掘方法与设备

技术领域

本发明涉及文本挖掘技术领域，具体涉及一种基于概念的DINFO-OEC挖掘方法以及DINFO-OEC挖掘设备。

背景技术

社会化大数据中80%是非结构化数据，非结构化大数据处理是大数据面临的最大挑战。结构化数据分析不能充分挖掘发现大数据中的语义。

非结构化文本挖掘的挑战在于：

语言多样性带来的维护挑战：文本中的语言表达方式多种多样，缩写、简写等不规范用法普遍存在，需要穷举所有语言表达方式，业务人员陷入语言表达细节，维护困难。

业务分类及规则多变化快带来的维护挑战：业务分类多，分类变化快，每次分类变化时，需要把相关的所有分类的语言规则重新梳理，维护工作量巨大，维护效率低。

多语种同步处理带来的挑战：不同语种的挖掘需要同时分析，需要对每种语言单独建立规则，要求维护的业务人员掌握多语种，对维护人员要求太高。

文本中噪音大带来的分类挑战：文本长短不一，其中的关联性错综复杂，无法使用关键词统计的方法达到很好的挖掘效果。

而现有的技术一般采用统计方法进行文本挖掘，没有考虑到业务人员的需求，只提供挖掘算法，给业务人员带来了很多的困扰。文本挖掘技术面临的问题是，如何从一篇或海量非结构化文本中分析挖掘出用户关心的有价值的信息，让业务人员从业务角度定义挖掘需求和挖掘规则，而无需考虑文本中语言表达习惯的多样性带来的语言歧义问题。

发明内容

本发明要解决的技术问题是如何从一篇或海量非结构化文本中分析挖掘出用户关心的有价值的信息，让业务人员从业务角度定义挖掘需求和挖掘规则，而无需考虑文本中语言表达习惯的多样性带来的语言歧义问题。为了解决上述技术问题，本发明提供了一种基于概念的非结构化文本大数据分析挖掘方法及其设备。

所述方法包括以下步骤：（1）预处理，包括断句、分词和命名实体识别；（2）对输入文本进行概念提取和概念表达式识别；（3）依据挖掘模型中的挖掘规则，对输入文本的概念表达式进行分析挖掘；（4）计算挖掘结果的可信度；（5）按可信度输出挖掘结果；（5）挖掘结果可视化展示。

所述方法的挖掘模型包括3棵树：（1）本体树：树状组织业务分类，为每个业务类型设置挖掘结果和挖掘规则。挖掘结果包括分类、聚类、关键词组合、倾向性评价等。（2）要素树：树状组织业务相关的概念，是业务中经常用到对象、工具、属性等概念。树的节点是要素名，每个要素名可以对应多个要素值。要素值是一个词语或文字模式。（3）概念树：树状组织业务无关的常用复杂概念，即用一句话或一段话表示的概念。树的节点是概念名，概念值是一句话或文字模式。

所述方法的挖掘规则，包括3种类型：（1）CR，表示挖掘规则采用概念表达式方式。一个挖掘规则包含n个概念表达式（n>=1）。（2）SR，表示挖掘规则采用统计算法。一个挖掘规则对应一种统计算法。系统支持KNN（K近邻）、SVM（支持向量机）分类算法。（3）UR，表示挖掘规则用户自定义，可定制算法。

所述方法的概念提取过程，包括步骤：（1）从分词结果中做概念发现，利用同义词表进行同义扩展，利用概念树的概念值发现复杂概念。（2）对发现的概念识别概念类型，区分业务要素和常用概念。利用要素树识别业务要素，利用概念树识别常用概念类型。（3）对概念提取结果，识别输入文本中概念之间的语义关系，给出概念表达式。

所述设备包括以下几个单元：（1）挖掘模型建模单元，实现挖掘模型的建模，本体树、要素树以及概念树的管理维护等。（2）预处理单元，实现输入文本的分词与命名实体识别等基础处理。（3）概念提取与表达式识别单元，实现输入文本的概念提取，概念表达式识别。输出概念列表和概念表达式。（4）分析挖掘单元，实现利用挖掘模型中的挖掘规则，对输入文本概念提取结果进行挖掘，输出挖掘结果。每个挖掘结果输出可信度。（5）可视化展示单元，实现挖掘结果的可视化展示，支持折线图、柱状图、饼图、词汇云图形式展示。

本发明内容具有以下优点，通过挖掘模型建模，分离业务和自然语言表达的多样性，降低业务维护投入，提高系统的可维护性。通过基于概念的挖掘方法，提供较高准确率的分析挖掘结果。使用DINFO-OEC非结构化大数据分析挖掘设备，可大大提高分析挖掘的效果。

附图说明

图1 是DINFO-OEC非结构化文本大数据分析挖掘方法示意图。

图2 是DINFO-OEC模型示意图。

图3 是概念提取流程图。

图4是DINFO-OEC分析挖掘设备示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

图1 是DINFO-OEC非结构化文本大数据分析挖掘方法示意图，如图1所示的DINFO-OEC文本分析挖掘方法100的输入是非结构化文本111，这里所说的“非结构化文本”指的是一个文本片段，包括“我要办卡”这样的一句话，也包括一篇文章，同时，“非结构化文本”包括简体中文、英语等各种语言表述的文本。

步骤S120，对非结构化文本111进行预处理，包括断句处理、分词、词性标注。断句处理是把文本111以句号断开，分成多个句子进行后续处理。分词、词性标注把中文文本进行词语切分处理，并给每个词语标注上其对应的词性，词性包括名词、动词等。

步骤S121，对预处理后的文本111，进行概念识别，这里的“概念”指的是文本中各个词汇的词义信息，以及词汇之间的语义关联性。一个“概念”可以代表一组词汇，也可以一个说法，甚至可以代表一句话。比如中文文本中“等了2天了，还没有收到快件”，这段话可以识别为“未及时”这一概念。概念识别的结果是文本中包含的概念集合{C1,C2,…Cn}，概念所属的类型，以及概念之间的语义关联。语义关联用逻辑关系和谓词逻辑表达。逻辑关系包含与、或、非操作。谓词逻辑的形式是f(a1,a2,…,an)，表示a1,a2,…,an之间具有f关系。f是一个概念，比如“在…之前”。ai(i=1~n，n>=1)是一个概念。概念识别的具体实施方法可参见图2的实施例。

步骤S122，把概念识别结果，利用DINFO-OEC模型进行分析挖掘。按照DINFO-OEC模型中对挖掘结果和挖掘规则的配置，对概念识别结果进行计算，给出挖掘结果。挖掘结果包括分类、聚类、关键词组合、倾向性评价等。DINFO-OEC模型可参见图2的具体实施例。

步骤S123，对挖掘结果的可信度计算。可信度计算根据挖掘规则的类型不同，调用不同的计算方法。

对类型是CR的挖掘规则，其可信度是输入文本中提取的概念表达式与本体树中挖掘规则之间的匹配度，其计算公式如下。其中n是规则中概念表达式的个数。Com(RI)是每个概念表达式匹配概念的个数，OfNo(QRI)是输入文本中未匹配概念个数，OfNo(BQRI)是规则中概念表达式的匹配概念个数。DSC是调节权值。

对类型是SR的挖掘规则，其可信度是统计算法输出的相似度。

步骤S124，对分析挖掘结果进行结果输出。按照可信度阈值定义，给出结果列表，每个结果都带有可信度。输出结果是结构化数据112。结构化数据112包括类名、分析挖掘结果、可信度等数据。

下面结合一个物流例子说明分析挖掘和可信度计算，输入文本111：“第三方宋先生（自称寄方）************来电，称其有订msg但是没有收到签收短信，客号码是：*********** 系统未发送。请跟进，客服****”

输出结果是：

操作类->派件异常_0.67

操作类->派件操作不规范_0.6

非公司原因类->派件异常_0.5

操作类->运单使用或填写不规范_0.43

结果中，“->”前的“操作类”是类名，“->”后的“派件异常”是分析挖掘结果，“_”后的“0.67”是可信度。

步骤S125，对输出结果进行可视化展示。展示方式包括柱状图、饼图、雷达图等。

图2 是DINFO-OEC模型示意图，是结合银行业务给出的示意图：DINFO-OEC模型包括3个模型树：

Ø 本体树 Ontology Tree

Ø 要素树 Element Tree

Ø 概念树 Conception Tree。

（1）要素树业务相关的概念，是业务中经常用到对象、工具、属性等概念。要素可以树状组织，每个树节点是一个要素，一个要素可以对应多个要素值。

要素定义：

Ø 要素可以是一组词汇

Ø 要素可以是一种表达方式，比如“服务技能”<=“不会+安装”

Ø 要素的识别规则支持2种要素类型：属性：此要素的属性词语

Ø 动作：此要素的动作词语

Ø 要素的识别规则支持2种要素值类型：文本：用文本表示的词语

Ø 模式：用模式表示词语的组合。比如“(寄方|寄客).{0,5}跟进”表示“寄方”和“跟进”之间最多间隔5个汉字。

如图2所示，要素树中包含“工作人员”、“渠道”等，“渠道”包含“柜台、网点、ATM”等要素值。

（2）概念树是业务无关的常用概念，语言表达中常用的基本概念，时间、地点、值、人的情绪、态度等，是基础的语义资源，系统已内置了常用8万多词汇，完全覆盖了常用词汇，后台自动更新维护，概念以树状表示，树节点就是一个概念。每个概念包含一个或多个概念值。

概念值定义：概念可以是一组词汇；

概念可以是一种表达方式，比如“服务技能”<=“不会+安装”

概念值类型：

文本：用文本表示的词语。一般是同义词

模式：用模式表示词语的组合。

如图2所示，概念树中包含有“人的情绪”“时效”等常用概念。

（3）本体树业务本体，根据业务需求，定制业务类别、挖掘表达式、挖掘结果。本体树包括3部分：业务类型树、每个业务类的挖掘结果、每个业务类挖掘结果对应的挖掘规则。

业务类型树，是一个树状的业务分类，树的层级不限。树节点是一个具体的业务类别。对树的节点可以增加、删除、修改。如图2所示，是一个银行业务的本体树，其中包含了4个一级节点“主题”“业务”“管理”“系统”，其中“业务”又包含节点“基金、借记卡、信用卡、网上银行、手机银行”，每个树节点是一个业务类，每个树节点均包含挖掘结果类型和挖掘规则，挖掘结果包括分类、聚类、关键词组合、倾向性评价等。

挖掘规则包括3种类型：（1）CR，表示挖掘规则采用概念表达式方式。一个挖掘规则包含n个概念表达式（n>=1）。（2）SR，表示挖掘规则采用统计算法。一个挖掘规则对应一种统计算法。系统支持KNN（K近邻）、SVM（支持向量机）分类算法。（3）UR，表示挖掘规则用户自定义，可定制算法。

类型CR的挖掘规则，支持3种元素：

要素，用“e_”前缀表示，表示此元素来自于要素树，是业务相关要素，比如“运单”、“物流”、“内饰”、“噪音”、“基金申购”等。要素元素会根据识别规则进行泛化；

概念，用“c_”前缀表示，表示此元素来自于概念树，是常用概念，比如“不规范”“电话异常”、“不及时”、“太吵”等。概念元素会根据识别规则进行泛化；

关键词，用“k_”前缀表示，表示此元素来自于开放词汇，可以随意输入。关键词只做词语匹配。

挖掘表达式支持逻辑运算：逻辑与，用“+”表示。“+”左右的条件必须同时满足；逻辑或，用“|”表示。“|”左右的条件只要有一个满足，表达式即满足；排除，用“-”表示。“-”右边的条件必须排除；括号，用“(”“)”表示，括号可以改变匹配的优先级；句子限定，用“#”表示，表示条件必须在同一个句子出现。

图3 是概念提取流程图，图1是S121的具体处理流程图，如图3所示的概念识别方法300，能经过预处理S120的分词与词性标注结果进行概念识别。

步骤S311，对每个词汇进行同义扩展，利用同义词表发现同义词。比如“此件”是“快件”的同义，“遗失”是“丢失”的同义。

步骤S312，进行概念发现。利用词汇的上下文发现用一种表达方式或一句话表示的复杂概念。比如“*个小时之内、两天”是时间概念，“等了两天了”是“未及时”概念。

步骤S313，进行C识别，判断词汇中是否包含有概念树中的概念值，如果有，则给出概念值对应的概念。比如“能快点回复”对应的概念是“催件”。

步骤S314，进行E识别，判断词汇中是否包含有要素树中的要素值，如果有，则给出要素值对应的要素。比如“寄方”对应的要素是“客户”。

步骤S315，概念类型判断，对每个词汇标注出其概念类型，概念类型包括概念C和要素E。S315输出的是概念集合320。

步骤S321，对概念集合320中的概念，利用Bayes算法进行概念同现计算，如果同现，则记为概念之间的逻辑关系是“与”关系。

步骤S316，识别概念之间的语义关系。分别调用下面的步骤进行判断。

步骤S331，判断上下位关系，“包含、包括”等连接的概念之间有上下位关系。

步骤S332，判断定义，“指的是”这样的表达方式中，其前后是定义关系。

步骤S333，判断所有时间关系，包括“在…之前”“在…之后”“晚于”等。

步骤S334，判断并列关系，“和、与”等连接的概念之间是并列关系。

步骤S335，对动词连接的两个概念，其顺序假设为“N1 V1 N2”，则其形成谓词逻辑关系，表示为V1(N1,N2)。

步骤S317，结合步骤S321、S331、S332、S333、S334、S335的结果，给出概念表达式。

比如，对下面文本，其概念表达式结果是：

文本： ************ 寄方卢先生***********来电催回复，表示此件很急，现客表示此件是否已经丢失了？

概念表达式：e_客户+c_催件； e_快件+c_遗失+c_疑问。

图4是DINFO-OEC分析挖掘设备示意图。

DINFO-OEC分析挖掘设备500，包括4个处理单元，1个建模单元，1个可视化单元。

建模单元510，负责DINFO-OEC模型130的管理、配置与更改。用户可以对DINFO-OEC模型进行增加、删除、修改等操作。可以对130进行测试。

可视化单元530，负责对分析挖掘结果进行可视化展示。可视化单元包括数据导入、图形化展示、导出功能。数据导入支持从表格中导入分析挖掘结果。图形化展示支持柱状图、雷达图、折线图等图形显示。

预处理单元521，负责提供分词、词性标注等预处理功能。对非结构化文本111进行预处理，包括断句处理、分词、词性标注。断句处理是把文本111以句号断开，分成多个句子进行后续处理。分词、词性标注把中文文本进行词语切分处理，并给每个词语标注上其对应的词性，词性包括名词、动词等。

概念识别单元522，负责提供概念识别300功能。对每个词汇进行同义扩展，利用词汇的上下文发现用一种表达方式或一句话表示的复杂概念。进行C识别，判断词汇中是否包含有概念树中的概念值，如果有，则给出概念值对应的概念。进行E识别，判断词汇中是否包含有要素树中的要素值，如果有，则给出要素值对应的要素。概念类型判断，对每个词汇标注出其概念类型，概念类型包括概念C和要素E。对概念集合320中的概念，利用Bayes算法进行概念同现计算，如果同现，则记为概念之间的逻辑关系是“与”关系。识别概念之间的语义关系。最终给出概念表达式。

分析挖掘单元523，负责提供分析挖掘功能。按照DINFO-OEC模型中对挖掘结果和挖掘规则的配置，对概念识别结果进行计算，给出挖掘结果。挖掘结果包括分类、聚类、关键词组合、倾向性评价等。

可信度计算单元524，负责提供可信度计算功能。对类型是CR的挖掘规则，其可信度是输入文本中提取的概念表达式与本体树中挖掘规则之间的匹配度。对类型是SR的挖掘规则，其可信度是统计算法输出的相似度。

Claims

1.一种非结构化文本大数据分析挖掘方法，其特征在于，包括以下步骤：

对输入文本进行概念提取和概念表达式识别；

依据挖掘模型中的挖掘规则，对输入文本的概念表达式进行分析挖掘；

计算挖掘结果的可信度；

按可信度输出挖掘结果；挖掘结果可视化展示。

2. 如权利要求1所述的挖掘模型，其特征在于，其包括3棵树：

本体树：树状组织业务分类，为每个业务类型设置挖掘结果和挖掘规则，挖掘结果包括分类、聚类、关键词组合、倾向性评价等；

要素树：树状组织业务相关的概念，是业务中经常用到对象、工具、属性等概念；树的节点是要素名，每个要素名可以对应多个要素值；要素值是一个词语或文字模式；

概念树：树状组织业务无关的常用复杂概念，即用一句话或一段话表示的概念，树的节点是概念名，概念值是一句话或文字模式。

3.如权利要求2所述的挖掘规则，其特征在于，包括3种类型：

一是CR，表示挖掘规则采用概念表达式方式，一个挖掘规则包含n个概念表达式（n>=1）；

二是SR，表示挖掘规则采用统计算法，一个挖掘规则对应一种统计算法，系统支持KNN（K近邻）、SVM（支持向量机）分类算法；

三是UR，表示挖掘规则用户自定义，可定制算法。

4. 如权利要求1所述的概念表达式，其特征在于，其支持概念之间的复杂语义关系：

用逻辑运算符支持概念之间逻辑关系表达，概念之间逻辑与，用“+”表示；概念之间逻辑或，用“|”表示；概念排除，用“-”表示；逻辑运算优先级，用“(”“)”表示，括号中的运算优先，用谓词逻辑f(a1,a2,…,an)支持概念之间的复杂语言关系表达，表示a1,a2,…,an之间具有f关系，f是一个概念，比如“在…之前”，ai(i=1~n，n>=1)是一个概念，用特殊符号表示概念之间的位置和顺序关系，用“#”表示，表示条件必须在同一个句子出现。

5. 如权利要求1所述的概念提取和概念表达式识别，其特征在于，包括以下步骤：对输入文本分词和命名实体识别；从分词结果中做概念发现，利用同义词表进行同义扩展，利用概念树的概念值发现复杂概念，对发现的概念识别概念类型，区分业务要素和常用概念，利用要素树识别业务要素，利用概念树识别常用概念类型，对概念提取结果，识别输入文本中概念之间的语义关系，给出概念表达式。

6. 如权利要求1所述的可信度计算，其特征在于：对类型是CR的挖掘规则，其可信度是输入文本中提取的概念表达式与本体树中挖掘规则之间的匹配度，其计算公式如下：其中n是规则中概念表达式的个数，Com(RI)是每个概念表达式匹配概念的个数，OfNo(QRI)是输入文本中未匹配概念个数，OfNo(BQRI)是规则中概念表达式的匹配概念个数，DSC是调节权值

7. 一种DINFO-OEC非结构化文本大数据分析挖掘设备，其特征在于，包括：挖掘模型建模单元，实现挖掘模型的建模，本体树、要素树以及概念树的管理维护等，预处理单元，实现输入文本的分词与命名实体识别等基础处理，概念提取与表达式识别单元，实现输入文本的概念提取，概念表达式识别，输出概念列表和概念表达式，分析挖掘单元，实现利用挖掘模型中的挖掘规则，对输入文本概念提取结果进行挖掘，输出挖掘结果，每个挖掘结果输出可信度，可视化展示单元，实现挖掘结果的可视化展示，支持折线图、柱状图、饼图、词汇云图形式展示。