CN116701347A

CN116701347A - 一种基于类别扩展的数据建模方法及系统

Info

Publication number: CN116701347A
Application number: CN202310511678.5A
Authority: CN
Inventors: 金震; 张京日; 张金平; 张宪涛
Original assignee: Beijing SunwayWorld Science and Technology Co Ltd
Current assignee: Beijing SunwayWorld Science and Technology Co Ltd
Priority date: 2023-05-08
Filing date: 2023-05-08
Publication date: 2023-09-05
Anticipated expiration: 2043-05-08
Also published as: CN116701347B

Abstract

本发明提供一种基于类别扩展的数据建模方法及系统，其中方法包括：搜罗用户的用于数据建模的基础数据的第一类别；基于所述第一类别和预设的类别扩展库，确定第二类别；获取所述第二类别对应的扩展数据；基于所述基础数据和所述扩展数据，进行数据建模。本发明的基于类别扩展的数据建模方法及系统，提升了数据建模的结果的全面性，可高效达到数据建模用于数据分析的目的，其次，也无需用户自行收集更多的其他类别的基础数据，降低了人力成本，提升了便捷性，同时，也更加人性化。

Description

一种基于类别扩展的数据建模方法及系统

技术领域

本发明涉及计算机数据处理技术领域，特别涉及一种基于类别扩展的数据建模方法及系统。

背景技术

目前，用户想要进行数据建模时，用于数据建模的基础数据的类别往往是有限的，比如：用户想要构建一个半导体产业链图谱，准备的基础数据有光刻胶和硅晶圆两种半导体材料的介绍信息、光刻机一种半导体设备的介绍信息等，然而，半导体材料还有光掩膜板等，半导体设备还有单晶炉、氧化炉等。这样的话，可能会导致数据建模的结果不够全面，无法高效达到数据建模用于数据分析的目的(比如：构建产业链图谱用于产业分析)。另外，用户也可自行收集更多的其他类别的基础数据，但人力成本较大，便捷性较低，同时，也不够人性化。

因此，亟需一种解决办法。

发明内容

本发明目的之一在于提供了一种基于类别扩展的数据建模方法，对用户的用于数据建模的基础数据的第一类别进行扩展，获得第二类别，基于第二类别的扩展数据和基础数据一起进行数据建模，提升了数据建模的结果的全面性，可高效达到数据建模用于数据分析的目的，其次，也无需用户自行收集更多的其他类别的基础数据，降低了人力成本，提升了便捷性，同时，也更加人性化。

本发明实施例提供的一种基于类别扩展的数据建模方法，包括：

搜罗用户的用于数据建模的基础数据的第一类别；

基于第一类别和预设的类别扩展库，确定第二类别；

获取第二类别对应的扩展数据；

基于基础数据和扩展数据，进行数据建模。

优选的，搜罗用户的用于数据建模的基础数据的第一类别，包括：

获取用户对应的预设的权限场景库；

当用户使用智能终端进入权限场景库中的任一权限场景浏览场景界面时，获取场景界面内的第一文字布局；

将第一文字布局与预设的第一标准文字布局库中的任一第一标准文字布局进行匹配，获取第一匹配度；

当存在第一匹配度大于等于预设的第一匹配度阈值，获取最大第一匹配度的第一标准文字布局对应的预设的第一位置映射规则；

基于第一位置映射规则，将预设的框选提示信息映射进场景界面中；

当用户在场景界面中进行文字框选的框选动作时，获取框选动作的框选动作信息；

基于预设的第一特征提取模板，对框选动作信息进行特征提取，获得第一框选动作特征集；

将第一框选动作特征集与预设的标准框选动作特征集进行匹配，获取第二匹配度；

当第二匹配度大于等于预设的第二匹配度阈值时，接力框选动作在场景界面中进行自动文字框选；

与用户交互确定是否进入文字框选停止时机；

当为是时，停止进行自动文字框选，获取最终框选的文字内容，并作为基础数据；

对基础数据进行类别解析，确定第一类别。

优选的，接力框选动作在场景界面中进行自动文字框选，包括：

基于预设的第二特征提取模板，对框选动作信息进行特征提取，获得第二框选动作特征集；

基于预设的自动文字框选规则生成模板，根据第二框选动作特征集，生成自动文字框选规则；

基于自动文字框选规则，接力框选动作在场景界面中进行自动文字框选。

优选的，与用户交互确定是否进入文字框选停止时机，包括：

获取场景界面中剩余未框选文字的第二文字布局；

将第二文字布局与预设的第二标准文字布局库中的任一第二标准文字布局进行匹配，获取第三匹配度；

当存在第三匹配度大于等于预设的第三匹配度阈值时，获取获取最大第三匹配度的第二标准文字布局对应的预设的第二位置映射规则；

基于第二位置映射规则，将预设的框选结束位置标记提示信息映射进场景界面中；

当用户在场景界面中标记框选结束位置时，若自动文字框选抵达至框选结束位置，确定进入文字框选停止时机。

优选的，基于第一类别和预设的类别扩展库，确定第二类别，包括：

从类别扩展库中确定第一类别对应的第三类别；

统计第三类别的类别数目；

当类别数目为1时，将第三类别作为第二类别；

当类别数目不为1时，获取用户对第三类别偏好的偏好值；

基于目标类别条件，根据偏好值，尝试从第三类别中确定目标类别；

当尝试成功时，将目标类别作为第二类别；

否则，将偏好值大于等于预设的第一偏好阈值的第三类别作为第二类别；

其中，目标类别条件包括：

目标类别的偏好值大于等于预设的第二偏好阈值；

目标类别的偏好值大于其他第三类别的偏好值的差值大于等于预设的差值阈值。

优选的，获取用户对第三类别偏好的偏好值，包括：

获取第三类别与第一类别之间的类别关系；

基于预设的类别扩展选择记录检索条件生成模板，根据类别关系，生成类别扩展选择记录检索条件；

获取用户对应的预设的类别扩展选择记录库；

从类别扩展选择记录中检索出符合类别扩展选择记录检索条件的类别扩展选择记录；

从预设的偏好值库中确定类别扩展选择记录的记录数目对应的偏好值。

优选的，获取第二类别对应的扩展数据，包括：

从预设的扩展数据库中确定第二类别对应的扩展数据。

本发明实施例提供的一种基于类别扩展的数据建模系统，其特征在于，包括：

类别搜罗模块，用于搜罗用户的用于数据建模的基础数据的第一类别；

类别确定模块，用于基于第一类别和预设的类别扩展库，确定第二类别；

扩展数据获取模块，用于获取第二类别对应的扩展数据；

数据建模模块，用于基于基础数据和扩展数据，进行数据建模。

优选的，类别搜罗模块搜罗用户的用于数据建模的基础数据的第一类别，包括：

获取用户对应的预设的权限场景库；

与用户交互确定是否进入文字框选停止时机；

对基础数据进行类别解析，确定第一类别。

优选的，类别搜罗模块接力框选动作在场景界面中进行自动文字框选，包括：

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种基于类别扩展的数据建模方法的示意图；

图2为本发明实施例中一种基于类别扩展的数据建模系统的示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明实施例提供了一种基于类别扩展的数据建模方法，如图1所示，包括：

步骤S1：搜罗用户的用于数据建模的基础数据的第一类别；基础数据为用户自己收集的用于数据建模的数据；

步骤S2：基于第一类别和预设的类别扩展库，确定第二类别；第二类别类别为扩展后的类别，比如：第一类别为光刻胶，是一种半导体材料，则类别扩展后的第二类别为硅晶圆、光掩膜板等其他半导体材料；

步骤S3：获取第二类别对应的扩展数据；扩展数据为第二类别下的数据，比如：硅晶圆、光掩膜板等其他半导体材料的介绍信息；

步骤S4：基于基础数据和扩展数据，进行数据建模。数据建模的形式可由用户进行选择，比如：产业链图谱等；数据建模的具体实现可依于数据建模软件。

上述技术方案的工作原理及有益效果为：

对用户的用于数据建模的基础数据的第一类别进行扩展，获得第二类别，基于第二类别的扩展数据和基础数据一起进行数据建模，提升了数据建模的结果的全面性，可高效达到数据建模用于数据分析的目的，其次，也无需用户自行收集更多的其他类别的基础数据，降低了人力成本，提升了便捷性，同时，也更加人性化。在具体应用的时候，用户输入基础数据，解析确定第一类别，自行进行类别扩展，并获取扩展后的第二类别的扩展数据，基于基础数据和扩展数据共同进行数据建模。

在一个实施例中，步骤S1：搜罗用户的用于数据建模的基础数据的第一类别，包括：

获取用户对应的预设的权限场景库；

当用户使用智能终端进入权限场景库中的任一权限场景浏览场景界面时，获取场景界面内的第一文字布局；智能终端可以为电脑等；权限场景为智能终端中有权限进行信息获取的场景，比如：文档软件界面等；第一文字布局为场景界面内各个文字区域的区域大小、文字区域之间的相对位置关系；

将第一文字布局与预设的第一标准文字布局库中的任一第一标准文字布局进行匹配，获取第一匹配度；第一标准文字布局为代表用户可能要进行基础数据框选的文字布局，比如：一个区域大小较小的文字区域在最上行居中(标题)，其下是多个区域大小较大的文字区域(各段落)；

当存在第一匹配度大于等于预设的第一匹配度阈值，获取最大第一匹配度的第一标准文字布局对应的预设的第一位置映射规则；第一位置映射规则为映射至第一标准文字布局下的文字界面中的空闲位置的规则，比如：第一标准文字布局下的文字界面中的文字区域一左一右排布，则映射在上方；

基于第一位置映射规则，将预设的框选提示信息映射进场景界面中；框选提示信息为提示用户可以进行基础数据框选的信息，比如：“开始框选要用于数据建模的基础数据吧！”；

当用户在场景界面中进行文字框选的框选动作时，获取框选动作的框选动作信息；框选动作信息包括：框选形成的内容框的各个边界的移动方向和移动速度；

基于预设的第一特征提取模板，对框选动作信息进行特征提取，获得第一框选动作特征集；第一框选动作特征集包括：框选形成的内容框的各个边界的移动方向是否变化、移动速度变化；

将第一框选动作特征集与预设的标准框选动作特征集进行匹配，获取第二匹配度；标准框选动作特征集代表系统介入进行自动文字框选，比如：边界移动方向不变、边界移动速度由小至大；

与用户交互确定是否进入文字框选停止时机；

对基础数据进行类别解析，确定第一类别。类别解析可基于数据分析技术实现。

上述技术方案的工作原理及有益效果为：

一般的，用于数据建模的基础数据的体量往往是很大的，用户可能从网络上下载一个资料，从中提取出基础数据，因此，涉及到文字框选。正常的，用户进行文字框选时，均是边框选边确定新框选的内容是否适宜作为基础数据，因此，无法直接框选到底选中全部数据。本发明实施例交互式地确定用户是否需要系统进行自动文字框选，若是，进行介入，并交互式确定文字框选停止时机，自动进行停止，这样一来，系统可以自动帮助用户进行框选，当然，用户可以看着系统框选的内容确定是否适宜，特别适用于需要从资料中提取的基础数据数量较大的情形。

在一个实施例中，接力框选动作在场景界面中进行自动文字框选，包括：

基于预设的第二特征提取模板，对框选动作信息进行特征提取，获得第二框选动作特征集；第二框选动作特征集包括：框选形成的内容框中唯一移动的边界的目标移动方向和第一移动速度；

基于预设的自动文字框选规则生成模板，根据第二框选动作特征集，生成自动文字框选规则；自动文字框选规则包括：控制框选形成的内容框中唯一移动的边界未来预设时间内以大于第一移动速度的第二移动速度向目标移动方向移动，预设时间之后以第一移动速度向目标移动方向移动；一般的，用户一直框选时，只有一个边界在移动，比如：向下框选，则下边界在移动，突然的速度变大，可以使得用户知道系统已经介入了，提示用户松开框选按键；

在一个实施例中，与用户交互确定是否进入文字框选停止时机，包括：

获取场景界面中剩余未框选文字的第二文字布局；第二文字布局为已框选内容下方的剩余未框选文字的文字区域的大小、文字区域之间的位置关系；

将第二文字布局与预设的第二标准文字布局库中的任一第二标准文字布局进行匹配，获取第三匹配度；第二标准文字布局代表用户可能需要停止自动文字框选，比如：剩余未框选文字的文字区域中上方的文字区域大小较大、下方的文字区域大小较小(可能为结束语)；

当存在第三匹配度大于等于预设的第三匹配度阈值时，获取获取最大第三匹配度的第二标准文字布局对应的预设的第二位置映射规则；第二位置映射规则为映射至第而标准文字布局下的文字界面中的空闲位置的规则，比如：第二标准文字布局下的文字界面中的文字区域一左一右排布，则映射在上方；

基于第二位置映射规则，将预设的框选结束位置标记提示信息映射进场景界面中；框选结束位置标记提示信息为提示用户可以标记框选结束位置的提示信息，比如：“请右击标记框选结束位置”；

在一个实施例中，步骤S2：基于第一类别和预设的类别扩展库，确定第二类别，包括：

从类别扩展库中确定第一类别对应的第三类别；第三类别为类别扩展库中对第一类别进行类别扩展后的类别，比如：第一类别为光刻胶，第三类别为硅晶圆等；

统计第三类别的类别数目；

当类别数目为1时，将第三类别作为第二类别；数目唯一则直接作为第二类别；

当类别数目不为1时，获取用户对第三类别偏好的偏好值；偏好值越大，说明用户对第三类别偏好程度越大；

当尝试成功时，将目标类别作为第二类别；

否则，将偏好值大于等于预设的第一偏好阈值的第三类别作为第二类别；第一偏好阈值具体为，比如：60；

其中，目标类别条件包括：

目标类别的偏好值大于等于预设的第二偏好阈值；第二偏好阈值具体为，比如：80；

目标类别的偏好值大于其他第三类别的偏好值的差值大于等于预设的差值阈值。差值阈值具体为，比如：20；满足这两个条件时，说明用户对目标类别的总体程度比其他第三类别都大很多。

上述技术方案的工作原理及有益效果为：

引入用户偏好，适宜地确定第二类别，更加人性化。若用户对目标类别的总体程度比其他第三类别都大很多，将目标类别作为第二类别，否则，将偏好程度略大的第三类别均作为第二类别，更加具有适用性。

在一个实施例中，获取用户对第三类别偏好的偏好值，包括：

获取第三类别与第一类别之间的类别关系；类别关系包含：上下位关系等，比如：半导体材料-光刻胶；

基于预设的类别扩展选择记录检索条件生成模板，根据类别关系，生成类别扩展选择记录检索条件；类别扩展选择记录检索条件为检索出用户历史上选择的反应包含类别关系的类别扩展选择记录，比如：类别关系为上下位关系，生成的类别扩展选择记录检索条件为检索出用户历史上选择的反应包含上下位关系的类别扩展选择记录，比如：用户历史上产生的类别扩展选择记录中半导体材料-光刻胶，则符合；

获取用户对应的预设的类别扩展选择记录库；

从预设的偏好值库中确定类别扩展选择记录的记录数目对应的偏好值。偏好值库中有不同记录数目对应的偏好值，记录数目越多，说明用户选择越多，偏好程度越大。

在一个实施例中，步骤S3：获取第二类别对应的扩展数据，包括：

从预设的扩展数据库中确定第二类别对应的扩展数据。扩展数据库中有不的同第二类别对应的扩展数据，扩展数据的来源可来源于大数据平台、互联网搜索、后台人员收集等。

本发明实施例提供了一种基于类别扩展的数据建模系统，如图2所示，包括：

类别搜罗模块1，用于搜罗用户的用于数据建模的基础数据的第一类别；

类别确定模块2，用于基于第一类别和预设的类别扩展库，确定第二类别；

扩展数据获取模块3，用于获取第二类别对应的扩展数据；

数据建模模块4，用于基于基础数据和扩展数据，进行数据建模。

在一个实施例中，类别搜罗模块1搜罗用户的用于数据建模的基础数据的第一类别，包括：

获取用户对应的预设的权限场景库；

与用户交互确定是否进入文字框选停止时机；

对基础数据进行类别解析，确定第一类别。

在一个实施例中，类别搜罗模块1接力框选动作在场景界面中进行自动文字框选，包括：

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于类别扩展的数据建模方法，其特征在于，包括：

搜罗用户的用于数据建模的基础数据的第一类别；

基于所述第一类别和预设的类别扩展库，确定第二类别；

获取所述第二类别对应的扩展数据；

基于所述基础数据和所述扩展数据，进行数据建模。

2.如权利要求1所述的一种基于类别扩展的数据建模方法，其特征在于，所述搜罗用户的用于数据建模的基础数据的第一类别，包括：

获取用户对应的预设的权限场景库；

当用户使用智能终端进入所述权限场景库中的任一权限场景浏览场景界面时，获取所述场景界面内的第一文字布局；

将所述第一文字布局与预设的第一标准文字布局库中的任一第一标准文字布局进行匹配，获取第一匹配度；

当存在所述第一匹配度大于等于预设的第一匹配度阈值，获取最大所述第一匹配度的所述第一标准文字布局对应的预设的第一位置映射规则；

基于所述第一位置映射规则，将预设的框选提示信息映射进所述场景界面中；

当用户在所述场景界面中进行文字框选的框选动作时，获取所述框选动作的框选动作信息；

基于预设的第一特征提取模板，对所述框选动作信息进行特征提取，获得第一框选动作特征集；

将所述第一框选动作特征集与预设的标准框选动作特征集进行匹配，获取第二匹配度；

当所述第二匹配度大于等于预设的第二匹配度阈值时，接力所述框选动作在所述场景界面中进行自动文字框选；

与用户交互确定是否进入文字框选停止时机；

当为是时，停止进行自动文字框选，获取最终框选的文字内容，并作为所述基础数据；

对所述基础数据进行类别解析，确定所述第一类别。

3.如权利要求2所述的一种基于类别扩展的数据建模方法，其特征在于，接力所述框选动作在所述场景界面中进行自动文字框选，包括：

基于预设的第二特征提取模板，对所述框选动作信息进行特征提取，获得第二框选动作特征集；

基于预设的自动文字框选规则生成模板，根据所述第二框选动作特征集，生成自动文字框选规则；

基于所述自动文字框选规则，接力所述框选动作在所述场景界面中进行自动文字框选。

4.如权利要求2所述的一种基于类别扩展的数据建模方法，其特征在于，与用户交互确定是否进入文字框选停止时机，包括：

获取所述场景界面中剩余未框选文字的第二文字布局；

将所述第二文字布局与预设的第二标准文字布局库中的任一第二标准文字布局进行匹配，获取第三匹配度；

当存在所述第三匹配度大于等于预设的第三匹配度阈值时，获取获取最大所述第三匹配度的所述第二标准文字布局对应的预设的第二位置映射规则；

基于所述第二位置映射规则，将预设的框选结束位置标记提示信息映射进所述场景界面中；

当用户在所述场景界面中标记框选结束位置时，若自动文字框选抵达至所述框选结束位置，确定进入文字框选停止时机。

5.如权利要求1所述的一种基于类别扩展的数据建模方法，其特征在于，基于所述第一类别和预设的类别扩展库，确定第二类别，包括：

从所述类别扩展库中确定所述第一类别对应的第三类别；

统计所述第三类别的类别数目；

当所述类别数目为1时，将所述第三类别作为所述第二类别；

当所述类别数目不为1时，获取用户对所述第三类别偏好的偏好值；

基于目标类别条件，根据所述偏好值，尝试从所述第三类别中确定目标类别；

当尝试成功时，将所述目标类别作为所述第二类别；

否则，将所述偏好值大于等于预设的第一偏好阈值的所述第三类别作为所述第二类别；

其中，所述目标类别条件包括：

所述目标类别的所述偏好值大于等于预设的第二偏好阈值；

所述目标类别的所述偏好值大于其他所述第三类别的所述偏好值的差值大于等于预设的差值阈值。

6.如权利要求5所述的一种基于类别扩展的数据建模方法，其特征在于，所述获取用户对所述第三类别偏好的偏好值，包括：

获取所述第三类别与所述第一类别之间的类别关系；

基于预设的类别扩展选择记录检索条件生成模板，根据所述类别关系，生成类别扩展选择记录检索条件；

获取用户对应的预设的类别扩展选择记录库；

从所述类别扩展选择记录中检索出符合所述类别扩展选择记录检索条件的类别扩展选择记录；

从预设的偏好值库中确定所述类别扩展选择记录的记录数目对应的所述偏好值。

7.如权利要求1所述的一种基于类别扩展的数据建模方法，其特征在于，所述获取所述第二类别对应的扩展数据，包括：

从预设的扩展数据库中确定所述第二类别对应的所述扩展数据。

8.一种基于类别扩展的数据建模系统，其特征在于，包括：

类别确定模块，用于基于所述第一类别和预设的类别扩展库，确定第二类别；

扩展数据获取模块，用于获取所述第二类别对应的扩展数据；

数据建模模块，用于基于所述基础数据和所述扩展数据，进行数据建模。

9.如权利要求8所述的一种基于类别扩展的数据建模系统，其特征在于，所述类别搜罗模块搜罗用户的用于数据建模的基础数据的第一类别，包括：

获取用户对应的预设的权限场景库；

与用户交互确定是否进入文字框选停止时机；

对所述基础数据进行类别解析，确定所述第一类别。

10.如权利要求9所述的一种基于类别扩展的数据建模系统，其特征在于，所述类别搜罗模块接力所述框选动作在所述场景界面中进行自动文字框选，包括：