CN114580407A

CN114580407A - 一种基于最大熵的园区产业招商智能咨询方法及系统

Info

Publication number: CN114580407A
Application number: CN202210209029.5A
Authority: CN
Inventors: 杜登伟; 杜登斌; 杜乐; 杜小军
Original assignee: Wuhan Donghu Big Data Trading Center Co ltd
Current assignee: Wuhan Donghu Big Data Trading Center Co ltd
Priority date: 2022-03-03
Filing date: 2022-03-03
Publication date: 2022-06-03

Abstract

本发明提出了一种基于最大熵的园区产业招商智能咨询方法及系统，其方法包括：收集与园区产业招商相关的历史招商数据，对历史招商数据进行预处理，得到句子集合；将句子集合输入到信息抽取器中提取目标数据，将目标数据存储到招商信息库中；对招商信息库中的所有目标数据进行分词处理和词性识别，得到基本特征分词集合；建立最大熵模型，基于基本特征分词集合对最大熵模型进行训练，得到智能咨询模型，并根据智能咨询模型进行疑问点标注；获取当前用户提出的问题，并输入至智能咨询模型中进行问题分类和回答。本发明基于最大熵建立智能咨询模型，将触发词与对应的事件类型进行匹配，能够在用户咨询时迅速并准确地进行答复，具有较高的灵活性。

Description

一种基于最大熵的园区产业招商智能咨询方法及系统

技术领域

本发明涉及信息处理技术领域，尤其是涉及一种基于最大熵的园区产业招商智能咨询方法及系统。

背景技术

经济的发展离不开产业园区的合理规划，近年来，越来越多的产业园区通过各种优惠政策吸引产业关联的大量企业入驻园区，使得企业集聚，最终形成产业集群，同时，园区内的企业之间相互竞争、合作，进而实现知识、信息的共享，从而实现生产力的快速发展，因此，园区产业招商尤其重要。

随着信息技术的发展，园区招商引资的信息量剧增，用户咨询业务的任务量繁重，咨询类型也逐渐增加，传统的计算机辅助招商软件在处理这些巨量信息咨询任务时，逐渐表现出时间长、智能化程度底的局限性，不能及时地对客户提出的问题进行答复，需要研究出一种灵活度更高的招商智能咨询方法。

发明内容

有鉴于此，本申请提出了一种基于最大熵的园区产业招商智能咨询方法及系统，用于解决传统的招商系统在处理大量信息咨询任务时反应时间长且智能化程度低的问题。

本发明的技术方案是这样实现的：

本发明提出了一种基于最大熵的园区产业招商智能咨询方法，所述方法包括：

S1，收集与园区产业招商相关的历史招商数据，对历史招商数据进行预处理，得到句子集合；

S2，建立招商信息库，将句子集合输入到信息抽取器中提取目标数据，将目标数据存储到招商信息库中；

S3，对招商信息库中的所有目标数据进行分词处理和词性识别，得到基本特征分词集合；

S4，建立最大熵模型，基于基本特征分词集合对最大熵模型进行训练，得到智能咨询模型，并根据智能咨询模型进行疑问点标注，生成问句库；

S5，获取当前用户提出的问题，并输入至智能咨询模型中进行问题分类和回答，完成园区产业招商的智能咨询。

在以上技术方案的基础上，优选的，步骤S1具体包括：

获取历史招商数据中的所有句子，所有句子中包括若干个相邻句子，判断两个相邻句子是否应当接续，若两个相邻句子应当接续，则进行接续操作，得到接续后的句子；反之不进行接续操作，得到原句子；

将所有接续后的句子和原句子汇集在一起构成句子集合。

在以上技术方案的基础上，优选的，判断两个相邻句子是否应当接续具体包括：

两个相邻句子包括第一句子和第二句子，第一句子在第二句子的前面，当第一句子的句末标点符号不为句号时，则其应与第二句子接续；

当第一句子中存在若干个标点符号对，标点符号对包括左半边与右半边，若第一句子中仅存在左半边且无右半边，则其应与第二句子接续；

当第二句子中存在若干个标点符号对，标点符号对包括左半边与右半边，若第二句子中仅存在右半边且无左半边，则其应与第一句子接续。

在以上技术方案的基础上，优选的，步骤S2具体包括：

基于历史招商数据设置若干个提取目标，基于若干个提取目标建立若干个正则表达式并构成信息抽取器，将句子集合中的各句子与信息抽取器中的各正则表达式依次匹配，将匹配成功的句子作为目标数据存储到招商信息库中。

在以上技术方案的基础上，优选的，将匹配成功的句子作为目标数据存储到招商信息库中之前还包括：

判断招商信息库中是否已存在目标数据，若存在，则将目标数据舍弃；若不存在，则将目标数据存储至招商信息库中。

在以上技术方案的基础上，优选的，步骤S4中，建立最大熵模型，基于基本特征分词集合对最大熵模型进行训练，得到智能咨询模型具体包括：

基于历史招商数据构建触发词词典和事件词典，触发词词典中包括若干个触发词，事件词典中包括若干个事件类别，每一个触发词对应一个事件类别；

将基本特征分词集合与触发词词典中的触发词进行比对，判断基本特征分词集合中是否包含触发词，若包含触发词，则将该基本特征分词作为候选事件，将候选事件输入到最大熵模型中进行事件分类；

设置标准阈值，当所有基本特征分词集合都分类完成后，计算当前用于分类的最大熵模型的分类准确概率，将分类准确概率与标准阈值进行比对，若分类准确概率大于标准阈值，则将当前用于分类的最大熵模型作为智能咨询模型；否则，调整当前用于分类的最大熵模型的参数，重新输入基本特征分词集合进行训练。

在以上技术方案的基础上，优选的，基于历史招商数据构建触发词词典和事件词典具体包括：

设置初始触发词词典和初始事件词典，对于初始触发词词典中的每一个触发词，通过匹配同义的方法得到其所有的同义词语和近义词语，进行触发词扩充；对于初始事件词典中的每一个事件类别，通过匹配同义的方法得到其所有的同义词语和近义词语，进行事件类别的扩充。

在以上技术方案的基础上，优选的，步骤S4中，根据智能咨询模型进行疑问点标注，生成问句库具体包括：

采集并分析不同应用场景下的疑问句，建立疑问句数据库，根据若干现代汉语中常用的疑问词组成建立疑问点标注集合；根据疑问句数据库和疑问点标注集合对触发词词典中的触发词进行标注，得到特征疑问句；基于若干个特征疑问句构建问句库。

在以上技术方案的基础上，优选的，采集并分析不同应用场景下的疑问句，建立疑问句数据库，根据若干现代汉语中常用的疑问词组成建立疑问点标注集合具体包括：

采集若干个不同应用场景下的疑问句，根据语义提取和归纳法总结适用于不同应用场景下的疑问句组合方式并构成疑问句数据库；

疑问点标注集合中包含人物疑问代词、事物疑问代词、动作疑问代词、时间疑问代词、地点疑问代词以及数目疑问代词。

本发明还提出了一种基于最大熵的园区产业招商智能咨询系统，所述系统包括：

招商数据录入模块，用于收集与园区产业招商相关的历史招商数据，对历史招商数据进行预处理，得到句子集合；

招商信息库组建模块，用于建立招商信息库，将句子集合输入到信息抽取器中提取目标数据，将目标数据存储到招商信息库中；

数据分词处理模块，用于对招商信息库中的所有目标数据进行分词处理和词性识别，得到基本特征分词集合；

模型训练模块，用于建立最大熵模型，基于基本特征分词集合对最大熵模型进行训练，得到智能咨询模型，并根据智能咨询模型进行疑问点标注，生成问句库；

智能咨询模块，用于获取当前用户提出的问题，并输入至智能咨询模型中进行问题分类和回答，完成园区产业招商的智能咨询。

本发明的一种基于最大熵的园区产业招商智能咨询方法及系统，相对于现有技术，具有以下有益效果：

(1)将园区产业招商中的关键信息抽取出来，得到触发词与其对应的事件类型，采用机器学习的方式将触发词与对应的事件类型进行匹配，并针对各触发词及其扩充进行疑问句标注，能够在用户咨询时迅速并准确地进行答复，相比传统的招商系统，灵活性较高，有效提高了园区产业招商智能咨询的工作效率。(2)基于疑问句数据库和疑问点标注集合触发词进行疑问句标注，避免了疑问句标注中可能出现的语义丢失的问题，当自动识别客户提出的问题时，能够根据问句库快速地找到对应的事件类型。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一种基于最大熵的园区产业招商智能咨询方法的流程示意图；

图2为本发明实施例一种基于最大熵的园区产业招商智能咨询系统的结构流程图。

具体实施方式

下面将结合本发明实施方式，对本发明实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本发明一部分实施方式，而不是全部的实施方式。基于本发明中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式，都属于本发明保护的范围。

请参考图1，图1为本实施例一种基于最大熵的园区产业招商智能咨询方法的流程示意图，其方法包括以下步骤：

S1，收集与园区产业招商相关的历史招商数据，对历史招商数据进行预处理，得到句子集合。

具体的，获取历史招商数据中的所有句子，所有句子中包括若干个相邻句子，判断两个相邻句子是否应当接续，若两个相邻句子应当接续，则进行接续操作，得到接续后的句子；反之不进行接续操作，得到原句子；将所有接续后的句子和原句子汇集在一起构成句子集合。

需要理解的是，历史招商数据包括招商政策文本，招商政策文本中使用的语言比较规范，一般不会用到较为生僻的字眼和不常用的句型，这就有利于对招商政策文本进一步分析，为信息抽取和问句库的生成打下了基础。

判断两个相邻句子是否应当接续具体包括：

需要理解的是，当第一句子的句末符号为逗号、冒号、分号、顿号、书名号、引号、百分号以及问号等符号时，则其应当与第二句子接续；当第一句子的句末符号为感叹号或问号时，需要人为进行语义判断，确定其是否应当与第二句子接续；标点符号对包括括号、引号和书名号。

S2，建立招商信息库，将句子集合输入到信息抽取器中提取目标数据，将目标数据存储到招商信息库中。

具体的，基于历史招商数据设置若干个提取目标，基于若干个提取目标建立若干个正则表达式并构成信息抽取器，将句子集合中的各句子与信息抽取器中的各正则表达式依次匹配，将匹配成功的句子作为目标数据存储到招商信息库中。

将匹配成功的句子作为目标数据存储到招商信息库中之前还包括：

需要理解的是，信息抽取一般是通过Java中的正则表达式完成的，正则表达式的生成方式为现有技术，在进行信息抽取时，定义了3个Java对象，分别是文本对象、句型对象和模板对象，其中，文本对象包括文本编号、题目、作者以及发表时间；句型对象包括所属文档号、句型编号及内容；模板对象包括模板序号、正则表达式描述；根据定义的3个Java对象生成对应的正则表达式。招商信息库中的目标数据是以链表结构存储，在每个目标数据加入招商信息库之前，判断该目标数据是否已存在，避免了目标数据的重复加入。

S3，对招商信息库中的所有目标数据进行分词处理和词性识别，得到基本特征分词集合。

分词处理和词性识别的方式有许多种，均为现有技术，可根据实际情况进行选择，因此不再赘述。

S4，建立最大熵模型，基于基本特征分词集合对最大熵模型进行训练，得到智能咨询模型，并根据智能咨询模型进行疑问点标注，生成问句库。

具体的，建立最大熵模型，基于基本特征分词集合对最大熵模型进行训练，得到智能咨询模型具体包括：

设置标准阈值，当所有基本特征分词集合都分类完成后，计算当前用于分类的最大熵模型的分类准确概率，将分类准确概率与标准阈值进行比对，若分类准确概率大于标准阈值，则将当前用于分类的最大熵模型作为智能咨询模型；否则，调整当前用于分类的最大熵模型的参数，重新输入基本特征分词集合进行训练。本实施例中，标准阈值设置为99.7％，通过反复训练提高模型的准确性和稳定性。

进一步的，基于历史招商数据构建触发词词典和事件词典具体包括：

需要理解的是，对触发词以及事件类别均进行同义词语和近义词语的扩充，以大量词语词典为基础，保证了模型的广泛性和准确性，取得了更智能化的分类效果。

步骤S4中，根据智能咨询模型进行疑问点标注，生成问句库具体包括：

进一步的，采集并分析不同应用场景下的疑问句，建立疑问句数据库，根据若干现代汉语中常用的疑问词组成建立疑问点标注集合具体包括：

需要理解的是，通过语义提取和总结归纳的方法提取不同应用场景下的疑问句模板，避免了疑问句标注中可能出现的语义丢失的问题。

需要理解的是，常用的人物疑问代词通常有“谁”，事物疑问代词通常有“什么”以及“哪个”等，动作疑问代词通常有“怎么”、“如何”、“怎样”以及“干吗”等，时间疑问代词通常有“几点”、“几时”以及“什么时候”等，地点疑问代词通常有“哪里”以及“哪儿”等，数目疑问代词通常有“多少”以及“几个”等，以上仅为常见疑问代词，本实施例包括但不仅限于以上所列举的疑问代词。

需要理解的是，将当前用户提出的问题输入至智能咨询模型中，系统首先在问句库中查找是否有语义相近的疑问句，并找到触发词，根据触发词匹配对应的事件类型，快速地对当前用户提出的问题进行回答，相比传统的招商系统，更加智能化，反应速度快，灵活性较高，有效提高了园区产业招商智能咨询的工作效率。

当前用户提出的问题可以是规则性问句也可以是事实性问句，规则性问句一般形式为：若条件A满足，则条件B满足。通常有以下四种提问方式：条件A是否满足，条件B是否满足；若条件A满足，则可以得出什么结论；若条件B满足，则需要有什么条件；条件A和条件B有什么关系。对于多条件和多结论的情形可以以此类推。事实性问句是指利用事实性知识生成的问句，常用的十大问句类型有时间、地点、人物、数量、定义、关系、方式、性状、事件和角色。

请参考图2，图2为本实施例一种基于最大熵的园区产业招商智能咨询系统的结构示意图，其系统包括：招商数据录入模块10、招商信息库组建模块20、数据分词处理模块30、模型训练模块40以及智能咨询模块50；

招商数据录入模块10，用于收集与园区产业招商相关的历史招商数据，对历史招商数据进行预处理，得到句子集合；

招商信息库组建模块20，用于建立招商信息库，将句子集合输入到信息抽取器中提取目标数据，将目标数据存储到招商信息库中；

数据分词处理模块30，用于对招商信息库中的所有目标数据进行分词处理和词性识别，得到基本特征分词集合；

模型训练模块40，用于建立最大熵模型，基于基本特征分词集合对最大熵模型进行训练，得到智能咨询模型，并根据智能咨询模型进行疑问点标注，生成问句库；

智能咨询模块50，用于获取当前用户提出的问题，并输入至智能咨询模型中进行问题分类和回答，完成园区产业招商的智能咨询。

以上所述仅为本发明的较佳实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围。

Claims

1.一种基于最大熵的园区产业招商智能咨询方法，其特征在于，所述系统包括：

2.如权利要求1所述的一种基于最大熵的园区产业招商智能咨询方法，其特征在于，步骤S1具体包括：

将所有接续后的句子和原句子汇集在一起构成句子集合。

3.如权利要求2所述的一种基于最大熵的园区产业招商智能咨询方法，其特征在于，判断两个相邻句子是否应当接续具体包括：

4.如权利要求1所述的一种基于最大熵的园区产业招商智能咨询方法，其特征在于，步骤S2具体包括：

5.如权利要求4所述的一种基于最大熵的园区产业招商智能咨询方法，其特征在于，将匹配成功的句子作为目标数据存储到招商信息库中之前还包括：

6.如权利要求1所述的一种基于最大熵的园区产业招商智能咨询方法，其特征在于，步骤S4中，建立最大熵模型，基于基本特征分词集合对最大熵模型进行训练，得到智能咨询模型具体包括：

7.如权利要求6所述的一种基于最大熵的园区产业招商智能咨询方法，其特征在于，基于历史招商数据构建触发词词典和事件词典具体包括：

8.如权利要求6所述的一种基于最大熵的园区产业招商智能咨询方法，其特征在于，步骤S4中，根据智能咨询模型进行疑问点标注，生成问句库具体包括：

9.如权利要求8所述的一种基于最大熵的园区产业招商智能咨询方法，其特征在于，采集并分析不同应用场景下的疑问句，建立疑问句数据库，根据若干现代汉语中常用的疑问词组成建立疑问点标注集合具体包括：

10.一种基于最大熵的园区产业招商智能咨询系统，其特征在于，所述系统包括：