CN108038113A

CN108038113A - 基于互联网金融智能问答的检索方法及系统

Info

Publication number: CN108038113A
Application number: CN201710962711.0A
Authority: CN
Inventors: 陈俊君; 陈平; 汤超
Original assignee: Wuhan Ding Ting Information Technology Co Ltd
Current assignee: Wuhan Ding Ting Information Technology Co Ltd
Priority date: 2017-10-16
Filing date: 2017-10-16
Publication date: 2018-05-15

Abstract

本发明提供了一种基于互联网金融智能问答的检索方法及系统，其所述的方法为：接收输入的检索语句进行语义识别，提取出关键字；将提取的关键字在关键字表中进行检索，得出二进制的关键字属性bitmap；根据所得bitmap，确定数据源索引映射表中的相关的数据项索引ID；根据上述索引ID在数据源表中提取出相关的数据源并呈现。在效率方面，本方案采用位运算进行检索，因此有着极高的效率；在空间方面，问答信息不需要载入内存，只需要将关键字的Bitmap信息载入内存即可，并且该方法方便拓展，大大节省了检索时间和检索成本，相比于现有技术能够快速提供精准的用户需求数据，用户体验良好。

Description

基于互联网金融智能问答的检索方法及系统

技术领域

本发明涉及一种检索方法，尤其涉及基于互联网金融智能问答的检索方法及系统。

背景技术

背景技术：在互联网金融的智能客服需求中，往往为一问一答的形式，而用户输入的问句往往实质上的有效信息仅仅为几个关键字，例如有用户问句如“我怎么样才能买卖基金”。在问句中，通过自然语言识别技术不难得出有效关键字仅为“买卖基金”，根据该关键字可以在数据库中进行检索得出相关的信息。在信息化高速发展的今天,数据呈几何式增长,随着数据的暴增,数据检索越来越被重视,常见的索引手段有B/B+树,红黑树,哈希表等检索方式。在不同的检索方式的实现上各有利弊。B/B+树的主要思想是减少磁盘的IO次数，但在智能客服问答系统中，采用B/B+的存储检索方案时，依然会有很高的IO频率，极其影响效率。红黑树，哈希树的效率较高，但红黑树，哈希树具有一定的局限性，红黑树，哈希树方法需要将海量的检索数据全部载入内存来实现，占用资源较高，一般的移动终端很难实现。并且，红黑树，哈希树方法仅仅只是将单个关键字的搜索结果提取呈现给用户，其搜索结果过于宽泛，不能将问句中的多个关键字根据用户所表达的语境进行较为复杂的逻辑运算，不能将最符合用户需求的搜索结果提供给客户。

发明内容

为解决上述背景技术中存在的技术问题，本发明提供了一种基于互联网金融智能客服问答系统的快速检索方法，其所述的方法为：

接收输入的检索语句进行语义识别，提取出关键字；

将提取的关键字在关键字表中进行检索，得出二进制的关键字属性bitmap；

根据所得bitmap，确定数据源索引映射表中的相关的数据项索引ID；

根据上述索引ID在数据源表中提取出相关的数据源并呈现。

其中，所述数据源表中每条数据源对应有关键字属性以及关键字属性描述信息，该关键字属性描述信息中包含有文字、图片、视频等信息。

其中，数据源索引映射表同数据源表相映射，在该表中每条记录包含一个数据源索引ID。其中，关键字表中的每条记录包含关键字属性以及关键字属性bitmap。

其中，关键字属性bitmap设定为只有黑白两种像素的位图模型,bitmap中的每一位对应一个数据源索引ID及该ID所映射的数据源,当某一位标识为1时,表示当前位所代表的数据源包含有该关键字属性,当某一位标识为0时,则表示该数据源不包含该关键字属性；所述的每个关键字属性bitmap为遍历数据源表得出的包含有该关键字属性的所有数据源。

作为优选，在关键字表中初始化一个全量bitmap字段用于表示数据源表中数据源是否存在，初始全部设为1。数据源表中某项数据源移除，则将该项数据源所对应的全量bitmap对应位的1改为0。所述全量bitmap可用于数据增加或移除后同检索出的关键字属性进行与运算。

作为优选，数据源表中增加一项数据源，数据源映射表中的索引自动增加一位，其关键字属性bitmap及全量bitmap相应增加一位并进行标识。

作为优选，提取出多个关键字属性，将多个关键字属性bitmap根据查询语句的语义进行位运算获得结果bitmap。

所述数据源表、数据源索引映射表及关键字表的建立方法如下：

1.建立数据表，主要包含数据源表，数据源索引表，关键字表。

2.将数据源逐条录入到存储内存中，并生成数据源表，数据源表中每条数据源对应于bitmap中的一个像素位，依次类推。并根据数据源表映射得出数据源索引映射表。

3.提取出每条数据源中包含的关键字属性，得出所有数据源中包含的所有关键字属性。

4.将关键字属性设计为键值对的类型，键为关键字属性标识，值为一个bitmap类型；每个关键字属性对应一个bitmap。

5.遍历数据源中的每条数据源是否包含该关键字属性，生成该关键字的bitmap。

6.将生成bitmap的所有关键字属性生成关键字表。

7.所述数据源表、数据源索引映射表及关键字表建立完成，根据检索流程进行检索。

本发明还在上述方法的基础上提供了一种存储设备：其中存储多条指令，所述指令适用于处理器加载并执行：

接收输入的检索语句进行语义识别，提取出关键字属性；

将提取的关键字属性在关键字表中进行检索，得出二进制的关键字属性bitmap；

根据上述索引ID在数据源表中提取出相关的数据源并呈现。

本发明还在上述方法的基础上提供了一种终端，包括处理器，适用于实现各种指令；以及存储设备，适于存储多条指令，所述指令适于由处理器加载并执行：

接收输入的检索语句进行语义识别，提取出关键字属性；

根据上述索引ID在数据源表中提取出相关的数据源并呈现。

本发明还提供一种对bitmap的压缩方法。包括：

对所述bitmap进行整型存储压缩，其整型存储分为偏移存储段和数据存储段；

将bitmap均分成多个数据段，从首位开始逐位识别并计数，当识别到某数据段中第一个1时，将所计数存储至偏移存储段，该1所在数据段存储于数据存储段，移至下个数据段继续逐位识别并计数直至bitmap末位。

一般场景中Bitmap将会主要以0为主的极其稀疏的位序列，将一个位组按照32位整型存储,高16位表示识别到的1已经跳过了多少个位 ,低16位表示接下来的16位有效序列。32位整型存储方案最多只能存储2^16个数据源，如果实际数据源大于2^16个，则需要采用64位或者更高进行存储。经实际测试,10000个关键字数据源统计的Bitmap中,平均有效长度为3左右,这里有效长度是指Bitmap中为1的数据位个数.在实际的测试数据中,10000个数据源的某个Bitmap中,包含有有效位为4个,分别位于1200位,3605位,7336位,8911位,如果采用一般的Bitmap进行存储,则占用空间为10000/8=1250字节。但如果按照压缩处理之后的Bitmap进行存储，则只需要32*4位,16字节,压缩率为1.28%.在该场景下Bitmap为0x0090 0030 0x01C0 0015 0x024D 0040 0x0116 0015。在需要进行计算的时候再进行展开为全量的01位组,经过该策略压缩之后同时保证了时间与空间的双重优化。

本发明还在上述方法的基础上提供一种基于互联网金融智能问答的检索系统，包括：用户端、服务端、数据存储端，其中：

所述用户端用于获取用户提供的检索语句；

所述服务端用于对所述检索语句进行关键字提取及语义逻辑判断，所述服务端包括语义分析系统及语义逻辑运算系统；所述语义分析系统用于提取所述检索语句的关键字及分析所述关键字之间的语义逻辑；

所述数据存储端用于存储所述的关键字表、数据源索引映射表及数据源表。

本发明的有益效果：在效率方面，本方案采用位运算进行检索，因此有着极高的效率；在空间方面，问答信息不需要载入内存，只需要将关键字的Bitmap信息载入内存即可，且Bitmap信息基于本方案进行压缩之后可保证内存资源的最小占用；在拓展性方面，基于本发明的存储检索方案将每个关键字抽象为一个属性,则很方便拓展,如果出现了新的关键字,则只需要增加一条记录即可.当增加一条数据元素时,也只需要对与该数据源相关的关键字进行拓展,大大节省和简化了逻辑流程。

附图说明

图1为本发明的bitmap标识示意图；

图2为本发明的方法时序图；

图3为本发明中不同数据源量进行检索的数据记录表；

图4为本发明的关键字表、数据源索引映射表、数据源表关系示意图；

图5为本发明的数据源新增流程图；

图6为本发明的数据源移除流程图；

图7为本发明的逻辑运算示意图；

图8为基于互联网金融智能问答的检索系统的结构图。

具体实施方式

下面通过实施例，并结合附图，对本发明的技术方案作进一步具体的说明。显然，所描述的实施例仅仅是本发明的部分实施例。

如图1所示实施例，本发明中关键字属性bitmap设定为只有黑白两种像素的位图模型,bitmap中的每一位对应一个数据源索引ID及该ID所映射的数据源,当某一位标识为1时,表示当前位所代表的数据源包含有该关键字属性,当某一位标识为0时,则表示该数据源不包含该关键字属性；所述的每个关键字属性bitmap为遍历数据源表得出的包含有该关键字属性的所有数据源。如图1所示，假设数据源表中依次有8个数据源，每个数据源都对应一个关键字属性，遍历这8个数据源后得出三个关键字属性“万科”、“A股”、“行情”，那么这三个关键字属性每一个就有一个和数据源长度相同的8位二进制bitmap（假设初始都为0）。如“万科”的bitmap为10010001（第1、5、8数据源中包含有“万科”关键字属性）；“A股”的bitmap为00001010（第2、4数据源中包含有“A股”关键字属性）；“行情”的bitmap为01100100（第3、6、7数据源中包含有“行情”关键字属性）。

举例说明，当检索装置接收到“万科最近投资”检索语句时，通过语义分析系统进行分词，提取出“万科”关键字。将关键字“万科”同关键字表中进行检索匹配出“万科”关键字属性，提取其相应的bitmap（10010001）。根据bitmap中标识为1的所在位（第1、5、8位）确定其对应的映射表中的索引ID（ID为1、5、8），依据该索引ID提取数据源表中对应位的数据源（第1、5、8条数据源）并返回结果，检索完成。

如图2所示实施例，一种基于互联网金融智能客服问答系统的快速检索方法，结合实施例1的例子，其所述的方法为：

Client提出查询问句“万科最近投资”，server接收查询问句进行语义识别，提取出关键字“万科”。

sever将提取的关键字“万科”发送至database的关键字表中进行检索查询，得出二进制的“万科”关键字属性bitmap（10010001）。此过程可以循环进行，适用于一句查询问句中涉及多个关键字的情况，将多个关键字对应的关键字属性bitmap提取出。结合对查询问句进行语境及语义分析时得出多个关键字之间的逻辑关系（如“且”、“或”、“否”等），将所述的多个bitmap依据所述的逻辑关系进行逻辑运算得出结果bitmap，后续实施例会举例说明。

根据所得bitmap（10010001），根据bitmap中标识为1的所在位（第1、5、8位）确定与其对应的映射表中的索引ID（ID为1、5、8），依据该索引ID向database的数据源表提取对应位的数据源（第1、5、8条数据源）并返回结果。

根据上述方法进行检索，其检索速率会有大幅提升，参见图3所示数据记录表可知随着测试数据源的激增，所花费的时间并没有较大幅度的差异。相比于传统的遍历数据源的检索方法，该方法简单、高效，所占内存小，其综合优势明显。尤其适用本地内存有限但又对数据有大量需求的移动终端设备。

如图3所示实施例，结合实施例1中所举例子，对数据源表、数据源索引映射表及关键字表进行说明

1.建立数据表，主要包含数据源表，数据源索引表，关键字表，其中数据源表同数据源存储在一起。

2.将8个数据源逐条录入到存储内存中，并生成数据源表，数据源表中每条数据源对应于bitmap中的一个像素位，依次类推。并根据数据源表映射出数据源索引映射表。

3.提取出每条数据源中包含的关键字属性（如“万科”、“A股”、“行情”），得出所有数据源中包含的所有关键字属性。

5.将关键字属性设计为键值对的类型，键为关键字属性标识（如“万科”、“A股”、“行情”），值为一个bitmap类型；每个关键字属性对应一个bitmap。

6.遍历数据源中的每条数据源是否包含该关键字属性，生成该关键字的bitmap（如“万科”对应的为10010001）。

7.将生成bitmap的所有关键字属性生成关键字表。

8.所述数据源表、数据源索引映射表及关键字表建立完成，根据检索流程进行检索。

如图4所示实施例，当在数据源表中添加新的数据源时，参照如下方法：

在数据源表中增加一项数据源；

映射表中相应的依序自动增加一位索引ID，索引其数据源所在位置；

关键字表中所有关键字属性bitmap相应的依序自动增加一位标识位；

提取新增数据源中的关键字属性，此时会存在两种情况：

（1）提取的关键字属性在关键字表中存在。只需将该关键字属性新增index位标识为1，其余关键词表中关键字属性新增index位标识为0。

（2）提取的关键字属性在关键字表中不存在。在关键字表中创建该关键字属性及相应的bitmap，所述bitmap除index位标识为1外，其余为均为0。

以实施例1中所举示例，数据源表中有8个数据源，增加一个数据源写入数据源表中第9位。相应的数据源映射表也自动的生成一个映射索引ID：9。对新增的数据源进行关键字属性的提取，如提取出的关键字属性为“万科”、“涨幅”。关键字表中所有关键字属性bitmap新增一位index位，关键字属性“万科”在关键字表中存在，在“万科”关键字属性bitmap新增index位标识为1，其余关键字属性bitmap新增index位标识为0（如“万科”bitmap为110010001，“A股”bitmap为000001010）；关键字属性“涨幅”在关键字表中不存在，则在关键字表中新建“涨幅”关键字属性段并生成bitmap，所述bitmap中新增index位标识为1，其余位标识为0，则“涨幅”关键字属性bitmap为100000000，其余关键字属性bitmap相应新增index位标识为0。

如图5所示实施例，当在数据源表中移除数据时，参照如下方法：

在数据源表中移除一个数据源；

在映射表中查找该数据源所在索引ID；

提取关键字表中的全量bitmap，此全量bitmap用于表示数据源表中数据源是否存在，同关键字属性的bitmap相同，与数据源表索引及数据源表相对应，初设全为1。

根据所述移除的数据源的索引ID，将全量bitmap中相应位修改为0，并对此全量bitmap进行保存。

以实施例1中所举示例，数据源表中有8个数据源。现将其中第3位数据源移除，这就意味着“行情”关键字属性bitmap中的第三位应当修改为0（修改后“行情”关键字属性bitmap为01100000）。实际情况中，移除一个数据可能会涉及到多个关键字属性，并且还需要对bitmap中相应位进行修改。这样无形增加了工作量。而全量bitmap得出现就解决了这一技术问题。

移除第3位数据源后，依照其索引ID，将全量bitmap中相应第3位修改为0并保存，修改过程结束。

对“近期行情”查询问句提取关键字“行情”，在关键字表中提取出“行情”关键字属性bitmap：01100100，将“行情”关键字属性bitmap（01100100）同全量bitmap（11111011）进行与运算，得出结果bitmap01100000，在根据此结果bitmap进行数据源的提取。从结果bitmap可以看出，进过一次同全量bitmap的与运算，可以直接排除掉已移除的数据源。该方法简单、高效。

数据源一般为一篇文章、音频或视频等文件，可能会包含多个关键字属性。查询语句中如果涉及多个关键字，则检索系统根据单个关键字属性bitmap分别提取数据源，然后将所有提取的数据源提供给用户，而用户实际需求的仅仅是同时包含上述多个关键字的数据源。因此，检索结果中虽然包含了用户实际需求的数据源，但同时也提供了更多的干扰数据源，造成用户无法从中或者轻易的获得所需要的数据内容。

如图6所示实施例，当查询语句为“万科A股成交价”，其提取出的关键字为“万科”、“A股”，对应关键字表中“万科”关键字属性bitmap：11010011、“A股”关键字属性bitmap：10101010。根据上述的bitmap会将数据源表中第1、2、4、5、6、7、8数据源提出给用户。但是分析所述查询语句的语义可知，用户仅想获取“万科A股”的相关信息，而不包括“万科”或“A股”的相关信息。

分析查询语句语义得知，用户希望获得“万科”且“A股”的数据源，将系统根据语义将所述bitmap进行“与”运算：其运算式为：

11010011 & 10101010=10000010；

将10000010设为结果bitmap进行存储，依据结果bitmap向数据源表提取第2、8位的数据源。由图6可知，依据结果bitmap所提取的数据源完全符合查询语句的语义，且将其余的干扰数据源排除掉。

进一步地，可将结果bitmap同全量bitmap进行与运算，可以获得更为精确的检索结果。

如图7所示实施例，本发明还在上述方法的基础上提供一种基于互联网金融智能问答的检索系统，包括：用户端、服务端、数据存储端，其中：

所述用户端用于获取用户提供的检索语句；

所述的数据存储端可不与所述用户端及服务端一同安装于终端设备中，可通过网络对数据存储端进行数据连接。

应理解，上述实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解为在阅读本发明的内容后，本领域技术人员可以对本发明作各种改动和修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

Claims

1.一种基于互联网金融智能问答的检索方法，包括：

接收输入的检索语句进行语义识别，提取出关键字；

将提取的关键字在关键字表中进行检索，得出二进制的关键字属性bitmap，所述关键字属性bitmap一位对应一数据源，用1标识该关键字包含在数据源中，0标识该关键字不包含在数据源中；

根据上述索引ID在数据源表中提取出相关的数据源并呈现。

2.根据权利要求1所述的基于互联网金融智能问答的检索方法，其特征在于：所述关键字属性bitmap中的每一位对应一个数据源索引ID及该ID所映射的数据源,所述的每个关键字属性bitmap为遍历数据源表得出的包含有该关键字属性的所有数据源。

3.根据权利要求2所述的基于互联网金融智能问答的检索方法，其特征在于：在关键字表中初始化一个全量bitmap字段，所述全量bitmap对应整个数据源，用于标识数据源表中相应位的数据源是否有效。

4.根据权利要求1所述的基于互联网金融智能问答的检索方法，其特征在于：数据源表中增加一项数据源，数据源映射表中的索引自动增加一位，其关键字属性bitmap相应增加一位并进行标识。

5.根据权利要求2所述的基于互联网金融智能问答的检索方法，其特征在于：提取出多个关键字属性，将多个关键字属性bitmap进行位运算获得结果bitmap。

6.根据权利要求1或5所述的基于互联网金融智能问答的检索方法，其特征在于：所述bitmap同所述全量bitmap进行位运算。

7.根据权利要求2所述的基于互联网金融智能问答的检索方法，其特征在于：对所述bitmap进行整型存储压缩，其整型存储分为偏移存储段和数据存储段；将bitmap均分成多个数据段，从首位开始逐位识别并计数，当识别到某数据段中第一个1时，将所计数存储至偏移存储段，该1所在数据段存储于数据存储段，移至下个数据段继续逐位识别并计数直至bitmap末位。

8.一种存储设备：其中存储多条指令，所述指令适用于处理器加载并执行：

接收输入的检索语句进行语义识别，提取出关键字属性；

根据上述索引ID在数据源表中提取出相关的数据源并呈现。

9.一种终端，包括处理器，适用于实现各种指令；以及存储设备，适于存储多条指令，所述指令适于由处理器加载并执行：

接收输入的检索语句进行语义识别，提取出关键字属性；

根据上述索引ID在数据源表中提取出相关的数据源并呈现。

10.一种基于互联网金融智能问答的检索系统，包括：用户端、服务端、数据存储端，其中：

所述用户端用于获取用户提供的检索语句；