CN111177532A

CN111177532A - 一种垂直搜索方法、装置、计算机系统及可读存储介质

Info

Publication number: CN111177532A
Application number: CN201911214827.1A
Authority: CN
Inventors: 胡培铭; 袁旭嵩; 张玺颖; 尚璟轩; 季月峰
Original assignee: Ping An Asset Management Co Ltd
Current assignee: Ping An Asset Management Co Ltd
Priority date: 2019-12-02
Filing date: 2019-12-02
Publication date: 2020-05-19

Abstract

本发明公开了一种垂直搜索方法、装置、计算机系统及可读存储介质，基于大数据技术，包括：索引步骤：通过爬虫从互联网中获取多个原始数据并将其转为原始文字信息，通过自然语言处理算法分别从原始文字信息中提取对应的索引关键词，将原始数据和对应的索引关键词相互关联储存至索引库中；查询步骤：接收由用户端输出的查询词条并解析获得查询关键词；根据查询关键词从索引库中查找匹配的索引关键词作为目标索引关键词，提取与目标索引关键词对应的至少一个原始数据数据作为匹配数据；对匹配数据进行排序获得查询结果并将其输出至用户端。本发明保证了数据获取的全面性，精确把握了查询者查询意图，使查询者能够准确快速获得符合其期望的原始数据。

Description

一种垂直搜索方法、装置、计算机系统及可读存储介质

技术领域

本发明涉及通信技术领域，尤其涉及一种垂直搜索方法、装置、计算机系统及可读存储介质。

背景技术

当前的金融机构和企业通常利用通用的搜索引擎从互联网中获取研报等金融信息，然而在面对海量的研报时，该搜索引擎通常是以查询词条为关键字，并将其与海量的研报一一对比，获得匹配的金融信息；又由于通用的搜索引擎不具有分析能力，无法通过查询词条获知各研报对于查询者的重要程度，因此通常按照“时间排序”，“文字关联度排序”，将搜索到的金融信息的连接输出给查询者，这种方式不仅无法准确把握和理解查询词条的真实意图，而且这种模糊匹配的方式很容易遗漏掉重要的信息，因此无法满足当前金融机构的搜索需求。

发明内容

本发明的目的是提供一种垂直搜索方法、装置、计算机系统及可读存储介质，用于解决现有技术存在的无法准确把握和理解查询词条的真实意图，以及容易遗漏掉重要的信息的问题。

为实现上述目的，本发明提供一种垂直搜索方法，包括：

索引步骤：通过爬虫从互联网中获取多个原始数据并将其转为原始文字信息，通过自然语言处理算法分别从所述原始文字信息中提取对应的索引关键词，将所述原始数据和对应的索引关键词相互关联储存至索引库中；

查询步骤：接收由用户端输出的查询词条并解析获得查询关键词；根据所述查询关键词从所述索引库中查找匹配的索引关键词作为目标索引关键词，提取与所述目标索引关键词对应的至少一个原始数据数据作为匹配数据；对所述匹配数据进行排序获得查询结果并将其输出至用户端。

上述方案中，所述通过爬虫从互联网中获取多个原始数据并将其转为原始文字信息包括：

通过爬虫从互联网中获取原始数据，识别所述原始数据中的文字信息以获得原始文字信息，具体包括：

若所述原始数据为文字，则解析该文字并获得原始文字信息；

若所述原始数据为图片，则利用OCR识别该图片中的文字获得图片信息，调整图片信息中文字的格式使其与所述图片中文字的格式一致，以获得原始文字信息；

若所述原始数据为表格，则解析该表格获得原始文字信息。

上述方案中，所述通过自然语言处理算法分别从所述原始文字信息中提取对应的索引关键词包括：

通过自然语言处理算法的分词组件对所述原始文字信息进行分词以获得独立字词，通过自然语言处理算法的词性标注组件在所述独立字词中加入词性标签以获得标注字词；

通过自然语言处理算法的实体识别组件识别所述标注字词中的命名实体；

通过自然语言处理算法的关键字提取组件从所述标注字词中提取索引关键词。

上述方案中，所述将所述原始数据和对应的索引关键词相互关联储存至索引库中包括：

将所述索引关键词、原始文字信息和原始数据储存至索引库中，并获得所述原始文字信息和原始数据在索引库中的储存地址；

在所述数据库中建立索引表，汇总所述索引关键词形成索引集并将其录入所述索引表中；

将所述原始文字信息和原始数据的储存地址录入所述索引表中，使所述索引集与原始文字信息和原始数据对应，以实现所述索引关键词、原始文字信息和原始数据的相互关联的效果。

上述方案中，所述接收由用户端输出的查询词条并解析获得查询关键词包括：

接收由用户端输出的查询词条；

通过自然语言处理算法的分词组件对查询词条进行分词以获得独立字词；

通过自然语言处理算法的词性标注组件在所述独立字词中加入词性标签以获得标注字词；

通过自然语言处理算法的实体识别组件识别所述标注字词中的命名实体，并将该命名实体设为查询关键词。

上述方案中，所述根据所述查询关键词从所述索引库中查找匹配的索引关键词作为目标索引关键词，提取与所述目标索引关键词对应的至少一个原始数据数据作为匹配数据包括：

从索引库中提取索引表；

将所述查询关键词与所述索引表的索引集比对，以获得与所述查询关键词匹配的索引关键词，并将其作为匹配关键词；

获取与所述匹配关键词对应的原始文字信息和原始数据的储存地址，并根据所述储存地址在所述索引库中获取原始文字信息和原始数据，并将所述原始文字信息和原始数据分别设为匹配文字信息和匹配数据。

上述方案中，所述对所述匹配数据进行排序获得查询结果并将其输出至用户端包括：

提取所述匹配关键词的标签；

根据所述标签获得所述匹配关键词的权重值，并根据该权重值计算所述匹配关键词对应的匹配数据的数据匹配值；

按照所述数据匹配值由高到低对所述匹配数据进行排序以获得查询结果，并将所述查询结果输出至用户端。

为实现上述目的，本发明还提供一种垂直搜索装置，包括：

索引模块，用于通过爬虫从互联网中获取多个原始数据并将其转为原始文字信息，通过自然语言处理算法分别从所述原始文字信息中提取对应的索引关键词，将所述原始数据和对应的索引关键词相互关联储存至索引库中；

查询模块，用于接收由用户端输出的查询词条并解析获得查询关键词；根据所述查询关键词从所述索引库中查找匹配的索引关键词作为目标索引关键词，提取与所述目标索引关键词对应的至少一个原始数据数据作为匹配数据；对所述匹配数据进行排序获得查询结果并将其输出至用户端。为实现上述目的，本发明还提供一种计算机系统，其包括多个计算机设备，各计算机设备包括存储器.处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述多个计算机设备的处理器执行所述计算机程序时共同实现上述垂直搜索方法的步骤。

为实现上述目的，本发明还提供一种计算机可读存储介质，其包括多个存储介质，各存储介质上存储有计算机程序，所述多个存储介质存储的所述计算机程序被处理器执行时共同实现上述垂直搜索方法的步骤。

本发明提供的一种垂直搜索方法、装置、计算机系统及可读存储介质，通过从互联网中获取原始数据并将其转为原始文字信息，并使图片和表格等形式的原始数据也纳入到了索引库的管理范围，保证了数据获取的全面性；通过自然语言处理算法从所述原始文字信息中提取索引关键词，保证了通过索引关键词获取原始数据的可靠性；将所述索引关键词和原始数据储存至索引库中并使其相互关联，规范了索引关键词、原始文字信息和原始数据的储存，保证了通过索引关键词提取原始文字信息和原始数据的准确度和可靠性；

以及通过解析获得查询关键词，以保证获得的查询关键词能够代表查询词条的真实意图，有利于提高获得匹配数据的准确度；通过根据查询关键词查找与其匹配的索引关键词作为匹配关键词，提取与所述匹配关键词对应的匹配数据；对所述匹配数据进行排序获得查询结果，实现了精确把握查询者查询意图，并根据该意图向用户端输出高相关度的匹配数据，以保证查询者能够准确快速获得符合其期望的原始数据的技术效果。

附图说明

图1为本发明垂直搜索方法实施例一的流程图；

图2示意性示出了根据本申请实施例一的垂直搜索方法的环境应用示意图；

图3为本发明垂直搜索装置实施例二的程序模块示意图；

图4为本发明计算机系统实施例三中计算机设备的硬件结构示意图。

附图标记：

1、垂直搜索装置2、服务器3、网络4、用户端

5、计算机设备6、互联网11、索引模块12、查询模块

51、存储器52、处理器111、爬虫管理单元

112、索引自然语言处理单元113、索引库管理单元

121、查询自然语言处理单元122、匹配数据提取单元

123、相关度管理输出单元

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供的一种垂直搜索方法、装置、计算机系统及可读存储介质，适用于通信领域，为提供一种基于索引模块和查询模块的垂直搜索方法。本发明通过从互联网中获取原始数据并将其转为原始文字信息，并使图片和表格等形式的原始数据也纳入到了索引库的管理范围；通过自然语言处理算法从所述原始文字信息中提取索引关键词；将所述索引关键词和原始数据储存至索引库中并使其相互关联；通过解析获得查询关键词，通过根据查询关键词查找与其匹配的索引关键词作为匹配关键词，提取与所述匹配关键词对应的匹配数据；对所述匹配数据进行排序获得查询结果。

实施例一

请参阅图1，本实施例的一种垂直搜索方法，包括：

S10：索引步骤：通过爬虫从互联网中获取多个原始数据并将其转为原始文字信息，通过自然语言处理算法分别从所述原始文字信息中提取对应的索引关键词，将所述原始数据和对应的索引关键词相互关联储存至索引库中；

S20：查询步骤：接收由用户端输出的查询词条并解析获得查询关键词；根据所述查询关键词从所述索引库中查找匹配的索引关键词作为目标索引关键词，提取与所述目标索引关键词对应的至少一个原始数据数据作为匹配数据；对所述匹配数据进行排序获得查询结果并将其输出至用户端。

请参阅图2，本实施例的垂直搜索方法运行在服务器2中，服务器2通过网络3与互联网6以及多个用户端4连接；

服务器2实时或定时的通过爬虫从互联网6中获取原始数据，并将其转为原始文字信息，服务器2通过自然语言处理算法从所述原始文字信息中提取索引关键词，将所述索引关键词和原始数据储存至索引库中并使其相互关联，以不断的扩充丰富所述索引库。

服务器2还通过网络3接收由用户端4输出的查询词条并解析获得查询关键词，服务器2根据所述查询关键词查找与其匹配的索引关键词作为匹配关键词，提取与所述匹配关键词对应的匹配数据；服务器2对所述匹配数据进行排序获得查询结果并将其输出至用户端4，通过向用户端4输出经排序优化的查询结果，以便于用户通过用户端4查看。

服务器2可以通过一个或多个网络3提供服务，网络3可以包括各种网络设备，例如路由器，交换机，多路复用器，集线器，调制解调器，网桥，中继器，防火墙，代理设备和/或等等。网络3可以包括物理链路，例如同轴电缆链路，双绞线电缆链路，光纤链路，它们的组合和/或类似物。网络3可以包括无线链路，例如蜂窝链路，卫星链路，Wi-Fi链路和/或类似物。用户端4可以包括各种用户端设备，例如，手机、台式计算机、笔记本计算机和/或等等。

服务器2可以由单个或多个计算机设备(如，服务器)组成。该单个或多个计算设备可以包括虚拟化计算实例。虚拟化计算实例可以包括虚拟机，诸如计算机系统的仿真，操作系统，服务器等。计算设备可以基于定义用于仿真的特定软件(例如，操作系统，专用应用程序，服务器)的虚拟映像和/或其他数据来加载虚拟机。随着对不同类型的处理服务的需求改变，可以在一个或多个计算设备上加载和/或终止不同的虚拟机。可以实现管理程序以管理同一计算设备上的不同虚拟机的使用。

需要说明的是，所述自然语言处理算法采用的是HanLP，其是由一系列模型与算法组成的Java工具包，目标是促进自然语言处理在生产环境中的应用； HanLP具有用于对中文进行分词的分词组件(N-最短路分词、CRF分词、索引分词、用户自定义词典)、用于对词性进行标注的词性标注组件，用于识别命名实体的实体识别组件(中国人名、音译人名、日本人名、地名、实体机构名识别)，用于提取信息中的关键词的关键词提取组件；同时，HanLP还可具有自动摘要，短语提取，拼音转换，简繁转换，文本推荐，依存句法分析(MaxEnt 依存句法分析、神经网络依存句法分析)的功能，因此具有功能完善、性能高效、架构清晰、语料时新、可自定义的特点。

在一个优选的实施例中，所述通过爬虫从互联网中获取多个原始数据并将其转为原始文字信息包括：

S101：通过爬虫从互联网中获取原始数据，识别所述原始数据中的文字信息以获得原始文字信息；

本步骤中，所述原始数据包括文字、图片和表格；所述识别所述原始数据中的文字信息以获得原始文字信息包括：

若所述原始数据为文字，则解析该文字并获得原始文字信息；其中，所述原始数据可为PDF、WORD格式，通过解析器将PDF或WORD格式的原始数据解析成html格式的原始文字信息；

若所述原始数据为图片，则利用OCR(光学字符识别)识别该图片中的文字获得图片信息，调整图片信息中文字的格式使其与所述图片中文字的格式一致，以获得原始文字信息；其中，通过解析器将由OCR识别出的图片信息解析成html格式的原始文字信息，所述OCR识别出的图片信息可为WORD格式，也可为PDF格式；

若所述原始数据为表格，则解析该表格获得原始文字信息；其中，通过解析器将表格解析成格式为html的原始文字信息。

于本实施例中，所述解析器至少集成有用于将PDF格式文件解析成html 格式文件的pdfminer组件，用于将word格式文件解析成html格式文件的 OFFICE格式转换组件。

需要说明的是，OCR(Optical Character Recognition，光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程，属于现有技术；因此，本领域技术人员可通过OCR识别出图片中的文字以获得图片信息，而本申请所要解决的技术问题是对OCR识别出的图片信息解析成原始文字信息，因此OCR的具体工作过程在此不做赘述。

进一步地，所述原始文字信息至少包括包括标题、行业分类、作者、摘要和正文。

可选的，所述利用爬虫获取原始数据包括定时触发爬虫使其在互联网中爬取原始数据。

因此，通过识别所述原始数据中的文字信息以获得原始文字信息，其中，通过解析器和OCR将文本格式、图片格式和表格格式的原始数据转为可被计算机读取的html格式的原始文字信息，使得图片和表格等形式的原始数据也纳入到了索引库的管理范围，保证了数据获取的全面性。

在一个优选的实施例中，所述通过自然语言处理算法分别从所述原始文字信息中提取对应的索引关键词包括：

S102：通过自然语言处理算法的分词组件对所述原始文字信息进行分词以获得独立字词，通过自然语言处理算法的词性标注组件在所述独立字词中加入词性标签以获得标注字词；通过自然语言处理算法的实体识别组件识别所述标注字词中的命名实体；通过自然语言处理算法的关键字提取组件从所述标注字词中提取索引关键词。

具体的，所述分词组件包括词典分词算法和字词分类模型，所述通过自然语言处理算法的分词组件对所述原始文字信息进行分词以获得独立字词包括：

创建具有字词的词典，根据所述词典并所述词典分词算法对所述原始文字信息进行分词，将所述原始文字信息中与所述词典中字词匹配的字词设为词典字词；

若所述原始文字信息中所有字词均与所述词典的字词匹配，则将所述词典字词设为独立字词；

若所述原始文字信息中具有所述词典不具有的字词，则通过所述字词分类模型对所述原始文字信息进行分词，以获得独立的模型字词；

将所述模型字词和词典字词汇总并去重，获得独立字词。

进一步的，所述字词分类模型为基于条件随机场(CRF)算法所训练获得的机器学习算法，所述条件随机场算法不仅考虑了原始文字信息中词语出现的频率，还考虑上下文，因此具备较好的学习能力，对歧义词和未登录词的识别都具有良好的效果。

需要说明的是，所述词典分词算法也称字符串匹配分词组件，该算法是按照一定的策略将待匹配的字符串和一个已建立好的“充分大的”词典中的词进行匹配，若找到某个词条，则说明匹配成功，识别了该词；常见的基于词典的分词组件分为以下几种：正向最大匹配法、逆向最大匹配法和双向匹配分词法等；因此，本领域技术人员可利用词典分词算法对信息进行分词；同时，基于条件随机场(CRF)算法所训练获得的机器学习算法为本领域技术人员所知悉的算法，因此，本领域技术人员可通过公知常识并利用该算法实现对信息的分词；

本申请所解决的问题是将词典分词算法与字词分类模型结合，并将模型字词和词典字词汇总去重以获得独立字词的方式，避免因原始文字信息中出现词典中没有的词，而导致分词准确度降低的情况；因此，关于词典分词算法和字词分类模型的具体工作原理，在此不做赘述。

进一步地，本申请在实施过程中可通过在词典中定义大量的同义词和专业词，以满足金融领域常见的证券代码/名称，债券代码/名称，机构，人名等，以及新出现的金融属于，例如：“贸易型总部”。

具体的，所述通过自然语言处理算法的词性标注组件在所述独立字词中加入词性标签以获得标注字词包括：

创建词性标注集；

根据所述词性标注集并通过所述自然语言算法的词性标注组件对所述独立字词进行词性标注，以获得标注字词。

需要说明的是，所述词性标注集为HanLP词性标注集，因此本申请为通过 HanLP中的词性标注组件对所述独立字词进行词性标注；所述词性标注集至少包括名词、形容词、副词、动词。

具体的，所述通过自然语言处理算法的实体识别组件识别所述标注字词中的命名实体包括：

创建储存有实体信息的实体词库，和储存有关联信息的知识图谱，所述实体信息与关联信息相互关联。

通过所述实体识别组件将所述实体词库中的实体信息与所述标注字词比对，识别出与所述实体信息一致的标注字词并将其设为第一命名实体；

其中，将所述实体信息依次与标注为“名词”的标注字词进行比对，以识别所述标注字词中的命名实体；因此，根据词性识别标注字词中的命名实体提高了命名实体的识别效率，降低了系统运算能力的浪费。

根据所述第一命名实体从所述知识图谱中获取关联信息，通过所述实体识别组件将所述关联信息与所述标注字词比对，识别出与所述关联信息一致的标注字词并将其设为第二命名实体；

其中，将所述关联信息依次与标注为“名字”的标注字词进行比对，以识别所述标注字词中的第二命名实体，因此，不仅根据词性识别标注字词中的命名实体提高了命名实体的识别效率，降低了系统运算能力的浪费，还通过关联信息从标注字词中获得了与第一命名实体具有关联关系的第二命名实体，进一步的提高了对标注字词的命名实体识别的准确度。

在被设为所述第一命名实体和第二命名实体的标注字词中加入实体标签。

进一步的，所述实体词库储存有实体信息，所述实体信息包括金融机构的名称，股票名称，行业名称等，例如，中国工商银行，601XXX，银行业。

所述知识图谱储存有金融机构的名称、简称、口语化名称、关键从业者姓名，所述简称和关键从业者姓名作为关联信息与所述金融机构的名称关联；例如，中国工商银行，工商银行、工行，行长张X；因此，实体信息和关联信息通过金融机构名称“中国工商银行”关联。

例如：标注字词中具有1个“601XXX”，8个“银行业”，1个“工商银行”， 5个“工行”，1个“行长张X”；则首先通过实体信息识别出标注字词的“601XXX”和“银行业”，再根据“601XXX”和“银行业”获得金融机构名称“中国工商银行”，通过“中国工商银行”在知识图谱中获得关联信息“工商银行”，“工行”，“行长张X”，并通过该关联信息从标注字词中识别“工商银行”，“工行”，“行长张X”。

需要说明的是，所述词库是一种用于储存实体信息的数据库，本领域技术人员可以很容易通过数据库原理创建实体词库；所述知识图谱(Knowledge Graph)又称为科学知识图谱，在图书情报界称为知识域可视化或知识领域映射地图，是显示知识发展进程与结构关系的一系列各种不同的图形，用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系，因此，属于公职常识，本领域技术人员可根据现有技术很容易获得知识图谱；而本申请所解决的技术问题是如何避免在识别标注字词时出现遗漏口语化的或简化的命名实体的情况，以提高命名实体的识别准确度和精度，因此关于实体词库和知识图谱的创建过程，本申请不再赘述。

具体的，所述通过关键词提取算法从所述标注字词中提取索引关键词包括：

识别所述标注字词中的实体标签，获取所述实体标签所对应的标注字词；

汇总所述标注字词并去重获得命名实体集，将所述命名实体集中的字词设为命名实体；

判断所述命名实体出现在所述原始文字信息中的位置；

若所述命名实体出现在所述原始文字信息的标题位置，则将该命名实体设为索引关键词，并在所述索引关键词中加入标题标签；

若所述命名实体出现在所述原始文字信息的作者位置，则将该命名实体设为索引关键词，并在所述索引关键词中加入作者标签；

若所述命名实体出现在所述原始文字信息的行业分类位置，则将该命名实体设为索引关键词，并在所述索引关键词中加入行业标签；

若所述命名实体出现在所述原始文字信息的摘要位置，则将该命名实体设为索引关键词，并在所述索引关键词中加入摘要标签；

若所述命名实体出现在所述原始文字信息的正文位置，则计算该命名实体在所述标注字词中出现的次数；若该次数大于或等于关键阈值，则将所述命名实体设为索引关键词并在该索引关键词中加入正文标签，若该次数小于关键阈值，则删除该命名实体。

其中，所述关键阈值可根据需要进行调节设置。

其中，通过对所述原始文字信息进行分词并加入词性标签，以及识别命名实体以及提取索引关键词，保证了提取的索引关键词对于该原始文字信息的代表度和匹配度，进而保证了通过索引关键词获取原始数据的可靠性；而通过知识图谱和实体词库的配合，以保证提取出来的索引关键词能够更加全面准确的描述原始数据，进而有助于查询模块对其进行查询。

在一个优选的实施例中，将所述原始数据和对应的索引关键词相互关联储存至索引库中包括：

S103：将所述索引关键词、原始文字信息和原始数据储存至索引库中，并获得所述原始文字信息和原始数据在索引库中的储存地址；在所述数据库中建立索引表，汇总所述索引关键词形成索引集并将其录入所述索引表中；将所述原始文字信息和原始数据的储存地址录入所述索引表中，使所述索引集与原始文字信息和原始数据对应，以实现所述索引关键词、原始文字信息和原始数据的相互关联的效果。

因此，规范了索引关键词、原始文字信息和原始数据的储存，保证了通过索引关键词提取原始文字信息和原始数据的准确度和可靠性。

在一个优选的实施例中，所述接收由用户端输出的查询词条并解析获得查询关键词包括：

S201：接收由用户端输出的查询词条；通过自然语言处理算法的分词组件对查询词条进行分词以获得独立字词；通过自然语言处理算法的词性标注组件在所述独立字词中加入词性标签以获得标注字词；通过自然语言处理算法的实体识别组件识别所述标注字词中的命名实体，并将该命名实体设为查询关键词。

具体的，所述分词组件包括词典分词算法和字词分类模型，所述通过中文分词组件对所述查询词条进行分词以获得独立字词包括：

创建具有字词的词典，根据所述词典并所述词典分词算法对所述查询词条进行分词，将所述查询词条中与所述词典中字词匹配的字词设为词典字词；

若所述查询词条中所有字词均与所述词典的字词匹配，则将所述词典字词设为独立字词；

若所述查询词条中具有所述词典不具有的字词，则通过所述字词分类模型对所述查询词条进行分词，以获得独立的模型字词；

将所述模型字词和词典字词汇总并去重，获得独立字词。

具体的，通过自然语言处理算法的词性标注组件在所述独立字词中加入词性标签以获得标注字词包括：

创建词性标注集；

需要说明的是，所述词性标注集为HanLP词性标注集，因此本申请为通过HanLP中的词性标注组件对所述独立字词进行词性标注；所述词性标注集至少包括名词、形容词、副词、动词。

具体的，通过自然语言处理算法的实体识别组件识别所述标注字词中的命名实体并将该命名实体设为查询关键词包括：

通过所述实体识别组件将所述关联信息与所述标注字词比对，识别出与所述关联信息一致的标注字词并将其设为第二命名实体；

汇总所述第一命名实体和第二命名实体并去重获得查询集，将所述查询集中的命名实体设为查询关键词。

例如：标注字词中具有“工行”，“张X”；通过实体信息识别标注字词中的第一命名实体，然而识别出的第一命名实体为空；通过关联信息识别标注字词中的第二命名实体，获得“中国工商银行、工商银行、工行，行长张X”，并将其作为查询关键词。

因此，通过利用自然语言处理算法对查询词条进行分词，加入词性标签以及识别命名实体，并将该命名实体设为查询关键词，以保证获得的查询关键词能够代表查询词条的真实意图，进而有助于提高获得匹配数据的准确度。而通过知识图谱和实体词库的配合，以保证提取出来的查询关键词能够更加全面准确的描述查询词条，进而更加准确的把握了查询者的真实意图。

在一个优选的实施例中，所述根据所述查询关键词从所述索引库中查找匹配的索引关键词作为目标索引关键词，提取与所述目标索引关键词对应的至少一个原始数据数据作为匹配数据；包括：

S202：从索引库中提取索引表；将所述查询关键词与所述索引表的索引集比对，以获得与所述查询关键词匹配的索引关键词，并将其作为匹配关键词；获取与所述匹配关键词对应的原始文字信息和原始数据的储存地址，并根据所述储存地址在所述索引库中获取原始文字信息和原始数据，并将所述原始文字信息和原始数据分别设为匹配文字信息和匹配数据。

具体的，将所述查询关键词与所述索引表的索引集比对，以获得与所述查询关键词匹配的索引关键词，并将其作为匹配关键词包括：

提取所述索引表中的索引集；

将查询集中的查询关键词与所述索引集中的索引关键词进行一一比对；

若所述索引集中不具有与所述查询关键词匹配的索引关键词，则判定所述查询集与索引集不匹配；若所述索引集中至少具有一个与所述查询关键词匹配的索引关键词，则提取该匹配的索引关键词并将其作为匹配关键词。

在一个优选的实施例中，所述对所述匹配数据进行排序获得查询结果并将其输出至用户端包括：

S203：提取所述匹配关键词的标签；根据所述标签获得所述匹配关键词的权重值，并根据该权重值计算所述匹配关键词对应的匹配数据的数据匹配值；按照所述数据匹配值由高到低对所述匹配数据进行排序以获得查询结果，并将所述查询结果输出至用户端。

具体的，所述根据所述标签获得所述匹配关键词的权重值，并根据该权重值计算所述匹配关键词对应的匹配数据的数据匹配值包括：

所述标签包括标题标签、作者标签、行业标签、摘要标签、正文标签；

若所述匹配关键词具有标题标签，则对所述匹配关键词赋以标题权重值；

若所述匹配关键词具有作者标签，则对所述匹配关键词赋以作者权重值；

若所述匹配关键词具有行业标签，则对所述匹配关键词赋以行业权重值；

若所述匹配关键词具有摘要标签，则对所述匹配关键词赋以摘要权重值；

若所述匹配关键词具有正文标签，则对所述匹配关键词赋以正文权重值；

将所述匹配关键词中的权重值求和获得该匹配关键词的关键词匹配值；

将所有匹配关键词的关键词匹配值求和获得该匹配数据的数据匹配值。

具体的，所述所述查询结果输出至用户端为将所述查询结果中的匹配数据直接输出至用户端，使用户端可直接查看匹配数据中的内容，提高了使用者的信息获取效率。

可选的，标题权重值为5分，作者权重值为4分，行业分类权重值为3分，摘要权重值为2分，正文权重值为1分。

例如：“工行”位于原始文字信息的标题和正文，张X位于原始文字信息的作者，中国工商银行位于原始文字信息的正文，工商银行位于原始文字信息的正文，则索引关键词“工行”的索引权重值为5+1＝6；“张X”的索引权重值为4，“中国工商银行”的索引权重值为1，“工商银行”的索引权重值为1，因此，该原始文字信息的评价值为6+4+1+1＝12。

优选的，将索引步骤中的分词组件的粒度降低，使所述分词组件实现对原始文字信息进行细粒度分词；将查询步骤中的分词组件的粒度提高，使所述分词组件可对查询词条进行粗粒度分词；进而提高召回率和精度。

因此，通过将所述查询关键词与所述索引表的索引集比对，以获得匹配关键词；获取与所述匹配关键词对应匹配文字信息和匹配数据；以及通过按照相关度计算规则根据所述标签计算获得所述匹配数据的数据匹配值；按照所述数据匹配值由高到低对所述匹配数据进行排序以获得查询结果，并将所述查询结果输出至用户端；通过相关度计算规则计算所获得的数据匹配值反应各匹配数据与查询词条之间的相关度，再根据该相关度对匹配数据排序后输出，实现了精确把握查询者查询意图，并根据该意图向用户端输出高相关度的匹配数据，以保证查询者能够准确快速获得符合其期望的原始数据的技术效果。

实施例二

请参阅图3，本实施例的一种垂直搜索装置1，包括：

索引模块11，用于通过爬虫从互联网中获取多个原始数据并将其转为原始文字信息，通过自然语言处理算法分别从所述原始文字信息中提取对应的索引关键词，将所述原始数据和对应的索引关键词相互关联储存至索引库中；

查询模块12，用于接收由用户端输出的查询词条并解析获得查询关键词；根据所述查询关键词从所述索引库中查找匹配的索引关键词作为目标索引关键词，提取与所述目标索引关键词对应的至少一个原始数据数据作为匹配数据；对所述匹配数据进行排序获得查询结果并将其输出至用户端。

具体的，所述索引模块11包括：

爬虫管理单元111，用于通过爬虫从互联网中获取原始数据，识别所述原始数据中的文字信息以获得原始文字信息；

索引自然语言处理单元112，用于通过自然语言处理算法的分词组件对所述原始文字信息进行分词以获得独立字词，通过自然语言处理算法的词性标注组件在所述独立字词中加入词性标签以获得标注字词；通过自然语言处理算法的实体识别组件识别所述标注字词中的命名实体；通过自然语言处理算法的关键字提取组件从所述标注字词中提取索引关键词。

索引库管理单元113，用于将所述索引关键词、原始文字信息和原始数据储存至索引库中，并获得所述原始文字信息和原始数据在索引库中的储存地址；在所述数据库中建立索引表，汇总所述索引关键词形成索引集并将其录入所述索引表中；将所述原始文字信息和原始数据的储存地址录入所述索引表中，使所述索引集与原始文字信息和原始数据对应，以实现所述索引关键词、原始文字信息和原始数据的相互关联的效果。

具体的，所述查询模块12包括：

查询自然语言处理单元121，用于接收由用户端输出的查询词条；通过自然语言处理算法的分词组件对查询词条进行分词以获得独立字词；通过自然语言处理算法的词性标注组件在所述独立字词中加入词性标签以获得标注字词；通过自然语言处理算法的实体识别组件识别所述标注字词中的命名实体，并将该命名实体设为查询关键词。

匹配数据提取单元122，用于从索引库中提取索引表；将所述查询关键词与所述索引表的索引集比对，以获得与所述查询关键词匹配的索引关键词，并将其作为匹配关键词；获取与所述匹配关键词对应的原始文字信息和原始数据的储存地址，并根据所述储存地址在所述索引库中获取原始文字信息和原始数据，并将所述原始文字信息和原始数据分别设为匹配文字信息和匹配数据。

相关度管理输出单元123，用于提取所述匹配关键词的标签；根据所述标签获得所述匹配关键词的权重值，并根据该权重值计算所述匹配关键词对应的匹配数据的数据匹配值；按照所述数据匹配值由高到低对所述匹配数据进行排序以获得查询结果，并将所述查询结果输出至用户端。

本技术方案基于大数据领域的数据分析技术，通过对所述原始文字信息进行分词并加入词性标签，以及识别命名实体以及提取索引关键词，保证了提取的索引关键词对于该原始文字信息的代表度和匹配度，进而保证了通过索引关键词获取原始数据的可靠性；而通过知识图谱和实体词库的配合，根据实体词库与知识图谱进行知识关系挖掘，以保证提取出来的索引关键词能够更加全面准确的描述原始数据，进而有助于查询模块对其进行查询。

实施例三：

为实现上述目的，本发明还提供一种计算机系统，该计算机系统包括多个计算机设备5，实施例二的垂直搜索装置1的组成部分可分散于不同的计算机设备中，计算机设备可以是执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。本实施例的计算机设备至少包括但不限于：可通过系统总线相互通信连接的存储器51、处理器52，如图4所示。需要指出的是，图4仅示出了具有组件-的计算机设备，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

本实施例中，存储器51(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器 (EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器51可以是计算机设备的内部存储单元，例如该计算机设备的硬盘或内存。在另一些实施例中，存储器51也可以是计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡(Smart Media Card, SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，存储器51还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中，存储器51通常用于存储安装于计算机设备的操作系统和各类应用软件，例如实施例一的垂直搜索装置的程序代码等。此外，存储器51还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器52在一些实施例中可以是中央处理器(Central Processing Unit， CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器52通常用于控制计算机设备的总体操作。本实施例中，处理器52用于运行存储器 51中存储的程序代码或者处理数据，例如运行垂直搜索装置，以实现实施例一的垂直搜索方法。

实施例四：

为实现上述目的，本发明还提供一种计算机可读存储系统，其包括多个存储介质，如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机程序，程序被处理器52执行时实现相应功能。本实施例的计算机可读存储介质用于存储垂直搜索装置，被处理器52执行时实现实施例一的垂直搜索方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种垂直搜索方法，其特征在于，包括：

2.根据权利要求1所述的垂直搜索方法，其特征在于，所述通过爬虫从互联网中获取多个原始数据并将其转为原始文字信息包括：

若所述原始数据为表格，则解析该表格获得原始文字信息。

3.根据权利要求1所述的垂直搜索方法，其特征在于，所述通过自然语言处理算法分别从所述原始文字信息中提取对应的索引关键词包括：

4.根据权利要求1所述的垂直搜索方法，其特征在于，所述将所述原始数据和对应的索引关键词相互关联储存至索引库中包括：

5.根据权利要求1所述的垂直搜索方法，其特征在于，所述接收由用户端输出的查询词条并解析获得查询关键词包括：

接收由用户端输出的查询词条；

6.根据权利要求1所述的垂直搜索方法，其特征在于，所述根据所述查询关键词从所述索引库中查找匹配的索引关键词作为目标索引关键词，提取与所述目标索引关键词对应的至少一个原始数据数据作为匹配数据包括：

从索引库中提取索引表；

7.根据权利要求1所述的垂直搜索方法，其特征在于，所述对所述匹配数据进行排序获得查询结果并将其输出至用户端包括：

提取所述匹配关键词的标签；

8.一种垂直搜索装置，其特征在于，包括：

查询模块，用于接收由用户端输出的查询词条并解析获得查询关键词；根据所述查询关键词从所述索引库中查找匹配的索引关键词作为目标索引关键词，提取与所述目标索引关键词对应的至少一个原始数据数据作为匹配数据；对所述匹配数据进行排序获得查询结果并将其输出至用户端。

9.一种计算机系统，其包括多个计算机设备，各计算机设备包括存储器.处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述多个计算机设备的处理器执行所述计算机程序时共同实现权利要求1至7任一项所述垂直搜索方法的步骤。

10.一种计算机可读存储介质，其包括多个存储介质，各存储介质上存储有计算机程序，其特征在于，所述多个存储介质存储的所述计算机程序被处理器执行时共同实现权利要求1至7任一项所述垂直搜索方法的步骤。