CN106934069A

CN106934069A - 数据检索方法及系统

Info

Publication number: CN106934069A
Application number: CN201710270852.6A
Authority: CN
Inventors: 沈巍毅; 周毅文; 夏恺; 陈颖
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2017-04-24
Filing date: 2017-04-24
Publication date: 2017-07-07
Anticipated expiration: 2037-04-24
Also published as: CN106934069B

Abstract

本发明提供一种数据检索方法及系统，该数据检索方法包括：接收用户输入的第一检索条件；对所述第一检索条件进行分词处理及语义分析，获得多个检索关键字；将多个检索关键字转化成标签和标签约束条件，生成多个标签对；其中，所述标签对为标签与标签约束条件的集合，标签用于描述查询对象信息的属性，标签约束条件是对标签取值的限制因素；根据多个标签对执行数据查询操作，获得查询结果。采用该方案能精准把握用户的搜索意图，有针对性地引导用户收敛查找条件，快速获取预期结果。

Description

数据检索方法及系统

技术领域

本发明涉及数据检索技术领域，特别涉及一种数据检索方法及系统。

背景技术

随着互联网的快速发展，企业从多个渠道积累了海量数据，并建立专门的管理体系进行维护和管理，这些数据信息被整齐地存储在后台数据库中，成为企业宝贵的无形资产。如何使企业的领域专家快速、准确地掌握企业的情况，进行合理规划，将数据中蕴藏的信息转化为企业核心竞争力，使得数据的价值得以充分的发挥，成为企业的一项热点课题。

现有的方法是在管理体系中提供统一的检索入口，用户在输入关键字后查询获取初步范围，再人工挑选特定记录。然而这种方式存在如下缺陷：

1)搜索引擎准确性有限，不能很好的理解用户的潜在需求，尤其是用户输入的关键字未能准确表达自己的搜索意图，导致搜索的结果范围与预期不符；

2)提供的检索服务智能程度有限，未能很好的引导用户缩小检索范围，更快地获取预期的结果。用户需一遍遍修改检索条件，才能收敛检索结果，检索效率低下。

发明内容

本发明实施例提供了一种数据检索方法，能精准把握用户的搜索意图，有针对性地引导用户收敛查找条件，快速获取预期结果。该数据检索方法包括：

接收用户输入的第一检索条件；

对所述第一检索条件进行分词处理及语义分析，获得多个检索关键字；

将多个检索关键字转化成标签和标签约束条件，生成多个标签对；其中，所述标签对为标签与标签约束条件的集合，标签用于描述查询对象信息的属性，标签约束条件是对标签取值的限制因素；

根据多个标签对执行数据查询操作，获得查询结果。

在一个实施例中，对所述第一检索条件进行分词处理及语义分析，获得多个检索关键字，包括：

按分隔符规则将第一检索条件进行分句处理，获得多个第二检索条件；

对多个第二检索条件进行分词处理，获得多个词组，并确定多个词组的词性；

从多个词组中识别出多个检索关键字。

在一个实施例中，对多个第二检索条件进行分词处理，获得多个词组，包括：

采用逆向最大匹配法对多个第二检索条件进行分词处理，获得多个词组。

在一个实施例中，从多个词组中识别出多个检索关键字，包括：

采用随机场算法从多个词组中识别出多个检索关键字。

在一个实施例中，还包括：

将多个检索关键字与同义词词库中存储的分词进行匹配，根据多个检索关键字与同义词词库中存储的分词的关联度，由大至小将多个检索关键字替换为关联度最大的同义词，获得调整后的多个检索关键字。

在一个实施例中，将多个检索关键字转化成标签和标签约束条件，生成多个标签对，包括：

将多个检索关键字与标签池进行匹配，获取多个检索关键字对应的标签和标签约束条件，生成多个标签对；其中，标签池用于存储标签和标签约束条件。

在一个实施例中，根据多个标签对执行数据查询操作，获得查询结果，包括：

根据多个标签对中的每一个标签对执行数据查询操作，获得第一查询结果；

将多个标签对中的至少两个标签对进行组合，获得多个标签对组合；

根据多个标签对组合执行数据查询操作，获得第二查询结果。

在一个实施例中，还包括：

将查询结果以图标的形式展示，在用户点击图标后，以浮动窗口展示查询结果的内容。

在一个实施例中，还包括：从标签池中搜索多个标签对中的每一个标签对应的全部标签约束条件，根据每一个标签和对应的全部标签约束条件生成新的标签对，新的标签对为多个；

根据多个新的标签对中的每一个标签对执行数据查询操作，获得第三查询结果；

将多个新的标签对中的至少两个标签对进行组合，获得多个新的标签对组合；

根据多个新的标签对组合执行数据查询操作，获得第四查询结果；

将新的标签对、第三查询结果和第四查询结果进行展示。

本发明实施例提供了一种数据检索系统，能精准把握用户的搜索意图，有针对性地引导用户收敛查找条件，快速获取预期结果。该数据检索系统包括：

接收模块，用于接收用户输入的第一检索条件；

语义解析模块，用于对所述第一检索条件进行分词处理及语义分析，获得多个检索关键字；

标签处理模块，用于将多个检索关键字转化成标签和标签约束条件，生成多个标签对；其中，所述标签对为标签与标签约束条件的集合，标签用于描述查询对象信息的属性，标签约束条件是对标签取值的限制因素；

数据检索模块，用于根据多个标签对执行数据查询操作，获得查询结果。

在一个实施例中，所述语义解析模块包括分词处理单元；

所述分词处理单元具体用于：

按如下方式对所述第一检索条件进行分词处理及语义分析，获得多个检索关键字：

从多个词组中识别出多个检索关键字。

在一个实施例中，所述分词处理单元具体用于：

按如下方式对多个第二检索条件进行分词处理，获得多个词组：

在一个实施例中，所述分词处理单元具体用于：

按如下方式从多个词组中识别出多个检索关键字：

采用随机场算法从多个词组中识别出多个检索关键字。

在一个实施例中，所述语义解析模块还包括语义分析单元；

所述语义分析单元具体用于：

在一个实施例中，所述标签处理模块具体用于：

按如下方式将多个检索关键字转化成标签和标签约束条件，生成多个标签对：

在一个实施例中，所述数据检索模块具体用于：

按如下方式根据多个标签对执行数据查询操作，获得查询结果：

在一个实施例中，还包括：视图展现模块，用于将查询结果以图标的形式展示，在用户点击图标后，以浮动窗口展示查询结果的内容。

在一个实施例中，所述数据检索模块还用于：

从标签池中搜索多个标签对中的每一个标签对应的全部标签约束条件，根据每一个标签和对应的全部标签约束条件生成新的标签对，新的标签对为多个；

所述视图展现模块还用于：

将新的标签对、第三查询结果和第四查询结果进行展示。

在本发明实施例中，通过对第一检索条件进行分词处理及语义分析，获得多个检索关键字，从而获取用户的潜在查询需求，再将多个检索关键字转化成标签和标签约束条件，生成多个标签对；其中，标签对为标签与标签约束条件的集合，标签用于描述查询对象信息的属性，标签约束条件是对标签取值的限制因素，以标签形式标记查询条件所属领域，从而有针对性地、快速地、准确地识别用户的搜索意图，使得客户能按需求快速、准确地获取理想的检索结果，克服了传统检索方法的智能程度有限、检索效率低下等缺陷。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种数据检索方法流程示意图；

图2是本发明实施例提供的一种数据检索方法的查询结果视图示意图；

图3是本发明实施例提供的一种数据检索方法的悬浮式名片示意图；

图4是本发明实施例提供的一种数据检索系统的结构示意图；

图5是本发明实施例提供的一种可视化的数据检索系统中的语义解析模块402的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明实施例中，提供了一种数据检索方法，如图1所示为该方法的流程图，该方法包括：

步骤101：接收用户输入的第一检索条件；

步骤102：对所述第一检索条件进行分词处理及语义分析，获得多个检索关键字；

步骤103：将多个检索关键字转化成标签和标签约束条件，生成多个标签对；其中，所述标签对为标签与标签约束条件的集合，标签用于描述查询对象信息的属性，标签约束条件是对标签取值的限制因素；

步骤104：根据多个标签对执行数据查询操作，获得查询结果。

用户输入的第一检索条件指的是用户输入的模糊搜索条件，其中，模糊搜索条件是指用户输入的自然搜索用语。

具体实施时，在获得用户输入的第一检索条件后，需要对自然用语检索条件进一步处理、分析、转化得到结构化的检索条件(步骤102)。具体的，对接收到的自然用语检索条件(第一检索条件)按分隔符规则进行分句处理，获得多个第二检索条件(多句检索条件)，然后对多个第二检索条件(或者说每一句检索条件)进行分词处理，获得多个词组，并加以词性标注用以识别出词组里的数量词及大小关系。同时使用CRF(Conditional RandomField)条件随机场算法从多个词组中识别出多个检索关键字。CRF条件随机场模型是由Lafferty在2001年提出的一种典型的判别式模型。它在观测序列的基础上对目标序列进行建模，重点解决序列化标注的问题。CRF主要用于词性标注、分词、命名实体识别。以关键字“年龄30岁以上党员，工龄不小于3年”为例，将被切分成为“年龄”、“30岁”、“以上”、“党员”、“工龄”等分词。

具体实施时，本发明方法采用逆向最大匹配法对多个第二检索条件进行分词处理，获得多个词组。具体地，中文分词是中文信息处理的基础，将文本切分成多个词汇的集合，使得机器能更好的理解词汇组成的文本。本发明中分词算法使用逆向最大匹配法，从被处理文档的末端开始匹配扫描，每次取最末端的2i个字符(i字字串)作为匹配字段，去匹配数据库的分词词库，若匹配失败，则去掉匹配字段最前面的一个字，继续匹配。分词词库：用于存储汉字切分后的分词，可以是企业内部维护的，也可以是来源于互联网的词库。主要用于分析查询条件转化为标签的过程。

具体实施时，在进行分词处理后，还需要进行语义分析，也就是对同义词、不同国籍的语言进行处理，用以消除分词歧义，统一用词。具体的，将多个检索关键字与同义词词库中存储的分词进行匹配，根据多个检索关键字与同义词词库中存储的分词的关联度，由大至小将多个检索关键字替换为关联度最大的同义词，获得调整后的多个检索关键字。近义词词库(或者可以说是同义词词库)：是一种扩展词库，用于标准化切分后的分词，以消除歧义。包含了同义词对、近义词对等词库。其中近义词对，在存储时还需包含关联度，同义词匹配时将会提取关联度最大的近义词。以输入的自然语言检索条件包含英语六级、cet6、英文等分词为例，将上述条件进行识别并定位到英语能力高级六级的检索范围中。

具体实施时，将多个检索关键字转化成标签和标签约束条件(即字典值)，生成多个标签对(步骤103)，包括：将多个检索关键字与标签池进行匹配，获取多个检索关键字对应的标签和标签约束条件，生成多个标签对。标签池：主要用于存储标签对象及字典值，所述标签对于人员包括但不限于岗位，职务层级，外语，学历等；对于产品包括但不限于产品名称、来源、价格等。以关键字“党员，年龄30岁以上，工龄不小于3年”为例，处理后对应三个标签“政治面貌”、“年龄”、“工龄”，标签对应的约束条件是“＝中共党员”，“>30”,“>＝3”，因此，转化后成如下标签对{$POLITY，＝中共党员}，{$AGE，>30}，{$TIME，>＝3}。

具体实施时，在获得多个标签对后，需要根据多个标签对执行数据查询操作，获得查询结果(步骤104)。具体的，可以根据多个标签对中的每一个标签对执行数据查询操作，获得第一查询结果；还可以将多个标签对中的至少两个标签对进行组合，获得多个标签对组合，根据多个标签对组合执行数据查询操作，获得第二查询结果。

获得查询条件后，需要依据配置表分别获取标签的取数来源表及字段，最后将全部的查询条件(每一个标签对或多个标签对组合)转化成范式查询语句，并拼接成范式查询语句，执行数据查询操作，查找对象明细数据。其中，被查对象明细数据：包含但不限于企业内部各专业系统的基础数据，可以包括但不限于基本信息表、机构信息表等各种维度列示的明细数据，作为检索的数据源。处理程序集：主要用于存放一些标签处理程序，这些处理程序主要负责标准化查询语言的转化。信息配置表，主要用于建立标签与基本信息表中字段的对照关系，所述信息配置表至少需要包含{标签字符标识，标签中文描述，标签位置信息，标签宽度，所属源表，所属源表字段}等信息，每个标签都对应唯一字符标识，例如标签”姓名”，对应信息配置表将维护一条{$NAME，姓名，1，80px，HRMS_DES_BASIC_DEAL，PB_NAME，}说明标签”姓名”的标识字符为$NAME，展现时排列第一个，像素为80px，取自HRMS_DES_BASIC_DEAL的PB_NAME字段。

另外，还可以补齐各个标签约束条件。具体的，从标签池中搜索多个标签对中的每一个标签对应的全部标签约束条件。比如上述“政治面貌”的标签，将其扩充为{$POLITY，＝中共党员，＝团员，＝群主}，系统会将搜索条件“中共党员”作为缺省值展现，其余约束条件展现在控件下拉框中供用户调整。然后根据每一个标签和对应的全部标签约束条件生成新的标签对，新的标签对为多个；根据多个新的标签对中的每一个标签对执行数据查询操作，获得第三查询结果；将多个新的标签对中的至少两个标签对进行组合，获得多个新的标签对组合；根据多个新的标签对组合执行数据查询操作，获得第四查询结果；将新的标签对、第三查询结果和第四查询结果进行展示。

具体实施时，本发明方法会将查询结果以图标的形式展示。本发明方法采用标签划分最终展现的领域，示意图2中主要各标签领域的所展现的数据是以该标签对为唯一查询条件进行查找的数据结果，两个标签交叉领域则是以这两个标签对组合的查询条件进行查找的结果，其他交叉领域以此类推。本发明的可视化视图通过图标的分布情况展现各查询条件对应查询范围，图标可以是统一的，也可以是个性化的对象图标。用户可以根据标签独立领域及交叉领域图标分布情况，调整标签的约束条件，根据引导不同约束条件下的图标分布密度的变化，直观地观察到查询结果的变化，以便于更高效、快速的获取查询结果，图标的分布密度的变化能直观的展现约束条件的改变与用户期望结果的一致性。

用户在查询结果展示页面时，点击任一图标，会以浮动窗口(悬浮式名片)展示查询结果的内容。图3是本发明名片式视图展现的示意图，对象名片信息包含了对象的基本信息，如是人员的话，可以是姓名、性别、学历等，如果是产品的话，可以是产品名称、批次、价格等。名片视图示意图中的元素是可根据用户意愿进行定制与扩展的。

基于同一发明构思，本发明实施例中还提供了一种数据检索系统，如下面的实施例所述。由于数据检索系统解决问题的原理与数据检索方法相似，因此数据检索系统的实施可以参见数据检索方法的实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的模块较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图4是本发明实施例的数据检索系统的一种结构框图，如图4所示，包括：

接收模块401，用于接收用户输入的第一检索条件；

语义解析模块402，用于对所述第一检索条件进行分词处理及语义分析，获得多个检索关键字；

标签处理模块403，用于将多个检索关键字转化成标签和标签约束条件，生成多个标签对；其中，所述标签对为标签与标签约束条件的集合，标签用于描述查询对象信息的属性，标签约束条件是对标签取值的限制因素；

数据检索模块404，用于根据多个标签对执行数据查询操作，获得查询结果。

下面对该结构进行说明。

具体实施时，如图5所示，所述语义解析模块402包括分词处理单元4021；

所述分词处理单元4021具体用于：

从多个词组中识别出多个检索关键字。

具体实施时，所述分词处理单元4021具体用于：

按如下方式从多个词组中识别出多个检索关键字：

采用随机场算法从多个词组中识别出多个检索关键字。

具体实施时，如图5所示，所述语义解析模块402还包括语义分析单元4022；

所述语义分析单元4022具体用于：

具体实施时，所述标签处理模块403具体用于：

具体实施时，所述数据检索模块404具体用于：

具体实施时，如图4所示，该数据检索系统还包括：视图展现模块405，用于将查询结果以图标的形式展示，在用户点击图标后，以浮动窗口展示查询结果的内容。

具体实施时，所述数据检索模块404还用于：

所述视图展现模块405还用于：

将新的标签对、第三查询结果和第四查询结果进行展示。

具体的，分词词库、近义词词库、标签池、被查对象明细数据、处理程序集、信息配置表均存储在数据库中。

综上所述，本发明提供一种数据检索方法及系统，克服了传统检索方法的智能程度有限、检索效率低下等缺陷，本发明检索方式更为智能、灵活，使用文本挖掘技术，对检索自然用语进行分词处理、语义分析、扩展及标准化处理，有效地解决了输入不同的关键字(近义词)检索出的数据结果差异较大等问题，能够快速、准确的识别用户的搜索意图，再以标签形式标记查询条件所属领域，最终检索结果以图标展现于各标签单领域与交叉领域中，图标的分布情况能直观地说明检索条件对应的检索范围，再以悬浮名片形式展现查询结果的内容，并辅以标签值调整功能，有针对性地引导用户缩小检索范围，精准把握用户的搜索意图，使得客户能按需求快速、准确地获取理想的检索结果。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的模块。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令模块的制造品，该指令模块实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种数据检索方法，其特征在于，包括：

接收用户输入的第一检索条件；

根据多个标签对执行数据查询操作，获得查询结果。

2.如权利要求1所述的数据检索方法，其特征在于，对所述第一检索条件进行分词处理及语义分析，获得多个检索关键字，包括：

从多个词组中识别出多个检索关键字。

3.如权利要求2所述的数据检索方法，其特征在于，对多个第二检索条件进行分词处理，获得多个词组，包括：

4.如权利要求2所述的数据检索方法，其特征在于，从多个词组中识别出多个检索关键字，包括：

采用随机场算法从多个词组中识别出多个检索关键字。

5.如权利要求2所述的数据检索方法，其特征在于，还包括：

6.如权利要求1或5所述的数据检索方法，其特征在于，将多个检索关键字转化成标签和标签约束条件，生成多个标签对，包括：

7.如权利要求6所述的数据检索方法，其特征在于，根据多个标签对执行数据查询操作，获得查询结果，包括：

8.如权利要求6所述的数据检索方法，其特征在于，还包括：

9.如权利要求8所述的数据检索方法，其特征在于，还包括：从标签池中搜索多个标签对中的每一个标签对应的全部标签约束条件，根据每一个标签和对应的全部标签约束条件生成新的标签对，新的标签对为多个；

将新的标签对、第三查询结果和第四查询结果进行展示。

10.一种数据检索系统，其特征在于，包括：

接收模块，用于接收用户输入的第一检索条件；

11.如权利要求10所述的数据检索系统，其特征在于，所述语义解析模块包括分词处理单元；

所述分词处理单元具体用于：

从多个词组中识别出多个检索关键字。

12.如权利要求11所述的数据检索系统，其特征在于，所述分词处理单元具体用于：

13.如权利要求11所述的数据检索系统，其特征在于，所述分词处理单元具体用于：

按如下方式从多个词组中识别出多个检索关键字：

采用随机场算法从多个词组中识别出多个检索关键字。

14.如权利要求11所述的数据检索系统，其特征在于，所述语义解析模块还包括语义分析单元；

所述语义分析单元具体用于：

15.如权利要求10或14所述的数据检索系统，其特征在于，所述标签处理模块具体用于：

16.如权利要求15所述的数据检索系统，其特征在于，所述数据检索模块具体用于：

17.如权利要求15所述的数据检索系统，其特征在于，还包括：视图展现模块，用于将查询结果以图标的形式展示，在用户点击图标后，以浮动窗口展示查询结果的内容。

18.如权利要求17所述的数据检索系统，其特征在于，所述数据检索模块还用于：

所述视图展现模块还用于：

将新的标签对、第三查询结果和第四查询结果进行展示。