CN108427686A - 文本数据查询方法及装置 - Google Patents

文本数据查询方法及装置 Download PDF

Info

Publication number
CN108427686A
CN108427686A CN201710081024.8A CN201710081024A CN108427686A CN 108427686 A CN108427686 A CN 108427686A CN 201710081024 A CN201710081024 A CN 201710081024A CN 108427686 A CN108427686 A CN 108427686A
Authority
CN
China
Prior art keywords
keyword
checked
text
sequence
keyword sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710081024.8A
Other languages
English (en)
Inventor
黄杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201710081024.8A priority Critical patent/CN108427686A/zh
Publication of CN108427686A publication Critical patent/CN108427686A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本数据查询方法及装置,获取待查询文本,从待查询文本中提取多个关键词,构建每个关键词对应的关键词序列,该关键词序列中至少包括关键词以及关键词的至少一个近义词,基于满足预设条件的关键词序列在预设查询数据库中进行文本数据查询,实现了文本数据的自动查询,而不需要用户输入关键词,从而提高文本数据的搜索速度。也就是说,基于本发明提供的文本数据查询方法及装置,用户只要将待查询文本输入搜索系统即可查询到与待查询文本近似的文本数据,不再需要用户确定并输入关键词,在简化用户操作的同时提高文本数据的搜索速度。

Description

文本数据查询方法及装置
技术领域
本发明涉及数据处理技术领域,更具体地说,涉及一种文本数据查询方法及装置。
背景技术
在如今的数据量爆发的时代,每个行业每天都会产生百万,甚至数亿的文本(如,日志、文档等等)。因而,如何在海量数据的情况下,快速准确地搜索到预期的文本,就成为当下的研究热点。
目前,当需要查找与一篇文本相近似的文本数据时,现有的搜索方法是,用户根据经验确定一个或多个关键词,将确定的关键词输入到搜索引擎进行搜索。发明人在实现本发明的过程中发现,传统的文本数据搜索方法耗费的时间比较长。
因此,如何提高文本数据的搜索速度成为亟待解决的问题。
发明内容
鉴于上述问题,提出了本发明,以便提供一种克服上述问题或者至少部分地解决上述问题的搜索方法及装置。
为了实现上述目的,本发明提供了如下技术方案:
一种文本数据查询方法,包括:
获取待查询文本,从所述待查询文本中提取多个关键词;
对所述关键词进行处理,得到每个所述关键词对应的关键词序列,所述关键词序列中至少包含所述关键词及所述关键词的至少一个近义词;
从所述关键词序列中选择满足预设条件的关键词序列,作为待查询关键词序列;
基于所述待查询关键词序列在预设查询数据库进行文本数据查询。
上述方法,优选的,在从所述待查询文本中提取多个关键词之前,所述方法还包括:
对所述待查询文本进行聚类,得到所述待查询文本所属的领域;
从所述待查询文本中提取多个关键词,包括:
从所述待查询文本中提取所述待查询文本所属领域的多个代表词,将所述代表词作为所述关键词。
上述方法,优选的,所述对所述关键词进行处理,得到每个所述关键词对应的关键词序列,包括:
对每个所述关键词进行解析,得到每个所述关键词的含义;
从预先采集的海量文本中提取多个词语;
计算每个所述关键词的含义与从所述海量文本中提取的词语的含义的语义相似度;
如果所述语义相似度大于预设相似度阈值,则确定对应的词语为所述关键词的近义词;
根据所述关键词和所述关键词的近义词得到所述关键词对应的关键词序列。
上述方法,优选的,所述关键词序列中包含权值参数,所述权值参数根据所述关键词在所述待查询文本中的重要程度设定,所述从所述关键词序列中选择满足预设条件的关键词序列,作为待查询关键词序列,包括:
根据所述关键词序列的权值参数的大小,对所述关键词序列进行排序;
从排序后的关键词序列中选择权值参数较大、且数量为预设数量的关键词序列,作为待查询关键词序列。
上述方法,优选的,在基于所述待查询关键词序列在预设查询数据库进行文本数据查询之前,所述方法还包括:
获取所述预设查询数据库中的文本数据;
将所述关键词序列中的关键词及近义词分别与所述文本数据进行匹配;
如果匹配成功,则建立所述关键词序列与所述文本数据之间的索引关系;
所述基于所述待查询关键词序列在预设查询数据库进行文本数据查询,包括:
将所述待查询关键词序列输入与所述预设查询数据库对接的ElasticSearch搜索引擎,通过所述ElasticSearch搜索引擎按照所述索引关系在所述预设查询数据库中进行文本数据查询。
一种文本数据查询装置,包括:
第一获取模块,用于获取待查询文本;
提取模块,用于从所述待查询文本中提取多个关键词;
处理模块,用于对所述关键词进行处理,得到每个所述关键词对应的关键词序列,所述关键词序列中至少包含所述关键词及所述关键词的至少一个近义词;
选择模块,用于从所述关键词序列中选择满足预设条件的关键词序列,作为待查询关键词序列;
查询模块,用于基于所述待查询关键词序列在预设查询数据库进行文本数据查询。
上述装置,优选的,还包括:
聚类模块,用于对所述待查询文本进行聚类,得到所述待查询文本所属的领域;
所述提取模块具体用于,从所述待查询文本中提取所述待查询文本所属领域的多个代表词,将所述代表词作为所述关键词。
上述装置,优选的,所述处理模块包括:
解析单元,用于对每个所述关键词进行解析,得到每个所述关键词的含义;
提取单元,用于从预先采集的海量文本中提取多个词语;
计算单元,用于计算每个所述关键词的含义与从所述海量文本中提取的词语的含义的语义相似度;
确定单元,用于在所述语义相似度大于预设相似度阈值时,确定对应的词语为所述关键词的近义词;
处理单元,用于根据所述关键词和所述关键词的近义词得到所述关键词对应的关键词序列。
上述装置,优选的,所述关键词序列中包含权值参数,所述权值参数根据所述关键词在所述待查询文本中的重要程度设定,所述选择模块包括:
排序单元,用于根据所述关键词序列的权值参数的大小,对所述关键词序列进行排序;
选择单元,用于从排序后的关键词序列中选择权值参数较大、且数量为预设数量的关键词序列,作为待查询关键词序列。
上述装置,优选的,还包括:
第二获取模块,用于在基于所述待查询关键词序列在预设查询数据库进行文本数据查询之前,获取所述预设查询数据库中的文本数据;
匹配模块,用于将所述关键词序列中的关键词及近义词分别与所述文本数据进行匹配;
建立模块,用于在匹配成功后,建立所述关键词序列与所述文本数据之间的索引关系;
所述查询模块具体用于,将所述待查询关键词序列输入与所述预设查询数据库对接的ElasticSearch搜索引擎,通过所述ElasticSearch搜索引擎按照所述索引关系在所述预设查询数据库中进行文本数据查询。
借由上述技术方案,本发明提供的一种文本数据查询方法及装置,获取待查询文本,从待查询文本中提取多个关键词,构建每个关键词对应的关键词序列,该关键词序列中至少包括关键词以及关键词的至少一个近义词,基于满足预设条件的关键词序列在预设查询数据库中进行文本数据查询,实现了文本数据的自动查询,而不需要用户输入关键词,从而提高文本数据的搜索速度。也就是说,基于本发明提供的文本数据查询方法及装置,用户只要将待查询文本输入搜索系统即可查询到与待查询文本近似的文本数据,不再需要用户确定并输入关键词,在简化用户操作的同时提高文本数据的搜索速度。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的文本数据查询方法的一种实现流程图;
图2示出了本发明实施例提供的对从待查询文本中提取的关键词进行处理,得到每个关键词对应的关键词序列的一种实现流程图;
图3示出了本发明实施例提供的从关键词序列中选择满足预设条件的关键词,作为待查询关键词序列的一种实现流程图;
图4示出了本发明实施例提供的文本数据查询装置的一种结构示意图;
图5示出了本发明实施例提供的文本数据查询装置的另一种结构示意图;
图6示出了本发明实施例提供的处理模块的一种结构示意图;
图7示出了本发明实施例提供的选择模块的一种结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例公开的文本数据查询方法及装置可以应用于计算机中。该计算机可以包括:台式机、一体机、笔记本等。
请参阅图1,图1为本发明实施例提供的文本数据查询方法的一种实现流程图,可以包括:
步骤S11:获取待查询文本,从该待查询文本中提取多个关键词。
在一可选的实施例中,从待查询文本中提取的多个关键词可以为:待查询文本中,词频大于预设词频阈值的词语,或者从所述待查询文本的题目、摘要中提取的词语。
步骤S12:对上述关键词进行处理,得到每个关键词对应的关键词序列,该关键词序列中至少包含上述关键词及上述关键词的至少一个近义词。
本发明实施例中,对应每一个所提取的关键词,至少获取该关键词的一个近义词,将该关键词,以及该关键词的近义词构成与该关键词对应的关键词序列。当然,本发明实施例中,并不限于只通过近义词构建关键词序列,除了近义词,还可以通过与关键词具有其它关联关系的词语构建关键词序列。
在一可选的实施例中,上述关键词的近义词可以是从上述待查询文本中提取的词语。
步骤S13:从上述关键词序列中选择满足预设条件的关键词序列,作为待查询关键词序列。
步骤S14:基于待查询关键词序列在预设查询数据库进行文本数据查询。
在一可选的实施例中,可以将不同的关键词序列以“与”的方式组合,将同一关键词序列中的不同词语之间以“或”的方式组合而生成一个检索式,基于该检索式在预设查询数据库进行文本数据查询,则查询到的文本数据中包括每一个关键词序列中的至少一个关键词。
在另一可选的实施例中,可以将不同的关键词序列以“与”的方式组合,将同一关键词序列中的不同词语之间以“与”的方式组合而生成一个检索式,基于该检索式在预设查询数据库进行文本数据查询,则查询到的文本数据中包括每一个关键词序列中的所有关键词。
在又一可选的实施例中,可以同时生成上述两种检索式,由用户从中选择其中一种检索式进行检索。
本发明实施例提供的文本数据查询方法,获取待查询文本,从待查询文本中提取多个关键词,构建每个关键词对应的关键词序列,该关键词序列中至少包括关键词以及关键词的至少一个近义词,基于满足预设条件的关键词序列在预设查询数据库中进行文本数据查询,实现了文本数据的自动查询,而不需要用户输入关键词,从而提高文本数据的搜索速度。也就是说,基于本发明提供的文本数据查询方法,用户只要将待查询文本输入搜索系统即可查询到与待查询文本近似的文本数据,不再需要用户手动确定并输入关键词,在简化用户操作的同时提高文本数据的搜索速度。
在一可选的实施例中,基于待查询关键词序列在预设查询数据库进行文本数据查询的另一种实现方式可以为:
显示待查询关键词序列。
基于用户操作对所述关键词序列进行处理,形成检索式。
本发明实施例中,由用户手动对待查询关键词序列进行编辑,由用户确定查询过程中上述关键词序列中的词语之间的关联关系,形成用户所需求的检索式。
在一可选的实施例中,用户还可以删减上述关键词序列中的某些词语。
基于所形成的检索式在预设查询数据库进行文本数据查询。
在一可选的实施例中,在从待查询文本中提取多个关键词之前,本发明实施例提供的文本数据查询方法还可以包括:
对待查询文本进行聚类,得到该待查询文本所属的领域。
在一可选的实施例中,可以将待查询文本与预先采集的不同领域的文本构成一个样本集合,对该样本集合进行聚类,得到若干文本簇,不同的文本簇属于不同的领域,根据待查询文本所属的文本簇即可确定待查询文本所属的领域。
相应的,从待查询文本中提取多个关键词的一种实现方式可以为:
从待查询文本中提取待查询文本所属领域的多个代表词,将所提取的代表词作为关键词。
本发明实施例中,从待查询文本中提取的关键词是表征待查询文本所属领域的词,从而所构建的关键词序列能够表征特定的领域,从而根据待查询关键词序列查询到的文本数据为特定领域的文本数据,查询结果更加符合用户实际需求,在提高文本数据查询速度的同时提高了查询结果的有效性。
在一可选的实施例中,对从待查询文本中提取的关键词进行处理,得到每个关键词对应的关键词序列的一种实现流程图如图2所示,可以包括:
步骤S20:对从待查询文本中提取的每个关键词进行解析,得到各个关键词的含义;
步骤S21:从预先采集的海量文本中提取多个词语;
在一可选的实施例中,可以从上述海量文本中的每一个文本中,提取词频大于预设词频阈值的词语。
步骤S22:对应从待查询文本中提取的每一个关键词,计算该关键词的含义与从上述海量文本中提取的词语的含义的语义相似度;
步骤S23:如果语义相似度大于预设相似度阈值,则确定对应的词语为该关键词的近义词;
步骤S24:根据关键词,以及关键词的近义词得到各个关键词对应的关键词序列。
本发明实施例中,关键词序列中的关键词的近义词,是从待查询文本之外的文本中提取的词语,从而使得基于待查询关键词序列查询到的文本数据更加全面,进一步提高文本数据的查询效果。
在一可选的实施例中,上述关键词序列中包含权值参数,该权值参数根据关键词序列中的关键词在待查询文本中的重要程度设定。关键词序列中包含的权值参数表征关键词序列对于待查询文本的重要程度。
在一可选的实施例中,可以根据关键词序列中的关键词在待查询文本中出现的位置确定关键词的重要程度。例如,在待查询文本的标题中出现的关键词的重要程度最高,在待查询文本的摘要中出现的关键词的重要程度低于在待查询文本的标题中出现的关键词的重要程度,在待查询文本中的正文中出现的关键词的重要程度最低。再例如,有的文本不包含摘要,则可以将在待查询文本的标题中出现的关键词的重要程度设置为最高,在待查询文本中的正文中出现的关键词的重要程度次高,即在待查询文本中的正文中出现的关键词的重要程度低于在待查询文本的标题中出现的关键词的重要程度。
根据关键词的重要程度为关键词分配权值,不同的权值表征不同的重要程度。在一可选的实施例中,可以权值越大,表征重要程度越高,权值越小,表征重要程度越低;或者,可以权值越小,表征重要程度越高,权值越大,表征重要程度越低。由于每个关键词序列中只包含一个从待查询文本中提取的关键词,因此,为关键词分配的权值即为关键词序列的权值。
在另一可选的实施例中,可以先确定关键词序列中在待查询文本中出现的词语,根据这些词语在待查询文本中出现的位置确定这些词语的重要程度,然后根据这些词语的重要程度确定关键词序列的重要程度。具体如何根据词语在待查询文本中出现的位置确定这些词语的重要程度可参见前文,这里不再赘述。
在一可选的实施例中,在为在待查询文本中出现的词语分配权值后,对应每一个关键词序列,可以将该关键序列中的各个在待查询文本中出现的词语的权值加权求和,得到该关键词序列的权值参数。
相应的,本发明实施例提供的从关键词序列中选择满足预设条件的关键词,作为待查询关键词序列的一种实现流程图如图3所示,可以包括:
步骤S31:根据关键词序列的权值的大小,对关键词序列进行排序;
本发明实施例中,关键词序列的权值越大,表征关键词序列对于待查询文本的重要性越高,关键词序列的取值越小表征关键词序列对于待查询文本的重要性越低。
步骤S32:从排序后的关键词序列中选择权值参数较大、且数量为预设数量的关键词序列,作为待查询关键词序列。
本发明实施例中,从排序后的关键词序列中,选择预设数量的权值最大的关键词序列作为待查询关键词序列。也就是说,若预设数量为n,则本发明实施例中,选择排序在前n位的关键词序列作为待查询关键词序列。
在一可选的实施例中,在基于待查询关键词序列在预设查询数据库进行文本数据查询之前,本发明实施例提供的文本数据查询方法还可以包括:
获取预设查询数据库中的文本数据;
将关键词序列中的关键词及近义词分别与文本数据进行匹配,以判断关键词序列中的关键词或该关键词的近义词是否包含于数据库中的文本数据中;若关键词序列中的关键词或该关键词的近义词包含于数据库中的文本数据中,则认为匹配成功,否则,确定匹配失败。
如果匹配成功,则建立关键词序列与文本数据之间的索引关系。
由于不同的文本数据可能包含相同的关键词,因此,一个关键词可以与多个文本数据建立索引关系。
相应的,基于待查询关键词序列在预设查询数据库进行文本数据查询的一种实现方式可以为:
将待查询关键词序列输入与预设查询数据库对接的ElasticSearch搜索引擎,通述ElasticSearch搜索引擎按照上述索引关系在预设查询数据库中进行文本数据查询。
本发明实施例提供数据查询方法,在基于待查询关键词序列在预设查询数据库进行文本数据查询之前,先建立关键词序列与文本数据之间的索引关系,后续可以根据该索引关系在预设查询数据库中查询文本数据,进一步缩短查询时长,提高文本数据的查询效率。
与方法实施例相对应,本发明实施例还提供一种文本数据查询装置,本发明实施例提供的文本数据查询装置的一种结构示意图如图4所示,可以包括:
第一获取模块40,提取模块41,处理模块42,选择模块43和查询模块44;其中,
第一获取模块40,用于获取待查询文本。
提取模块41用于从待查询文本中提取多个关键词;
处理模块42用于对上述关键词进行处理,得到每个关键词对应的关键词序列,关键词序列中至少包含上述关键词及上述关键词的至少一个近义词;
选择模块43用于从关键词序列中选择满足预设条件的关键词序列,作为待查询关键词序列;
查询模块44用于基于待查询关键词序列在预设查询数据库进行文本数据查询。
本发明实施例提供的文本数据查询装置,获取待查询文本,从待查询文本中提取多个关键词,构建每个关键词对应的关键词序列,该关键词序列中至少包括关键词以及关键词的至少一个近义词,基于满足预设条件的关键词序列在预设查询数据库中进行文本数据查询,实现了文本数据的自动查询,而不需要用户输入关键词,从而提高文本数据的搜索速度。也就是说,基于本发明提供的文本数据查询装置,用户只要将待查询文本输入搜索系统即可查询到与待查询文本近似的文本数据,不再需要用户确定并输入关键词,在简化用户操作的同时提高文本数据的搜索速度。
在一可选的实施例中,在图4所示实施例的基础上,本发明实施例提供的文本数据查询装置的另一种结构示意图如图5所示,还可以包括:
聚类模块51,用于对待查询文本进行聚类,得到待查询文本所属的领域;
提取模块41具体用于,从待查询文本中提取待查询文本所属领域的多个代表词,将代表词作为关键词。
在一可选的实施例中,处理模块42的一种结构示意图如图6所示,可以包括:
解析单元60,用于对每个所述关键词进行解析,得到每个所述关键词的含义;
提取单元61,用于从预先采集的海量文本中提取多个词语;
计算单元62,用于计算每个从待查询文本中提取的关键词的含义与从海量文本中提取的词语的含义的语义相似度;
确定单元63,用于在语义相似度大于预设相似度阈值时,确定对应的词语为关键词的近义词;
处理单元64,用于根据关键词和关键词的近义词得到关键词对应的关键词序列。
在一可选的实施例中,关键词序列中包含权值参数,该权值参数根据关键词序列中的各个关键词在待查询文本中的重要程度设定。相应的,选择模块43的一种结构示意图如图7所示,可以包括:
排序单元71,用于根据关键词序列的权值参数的大小,对关键词序列进行排序;
选择单元72,用于从排序后的关键词序列中选择权值参数较大、且数量为预设数量的关键词序列,作为待查询关键词序列。
在一可选的实施例中,本发明实施例提供的文本数据查询装置还可以包括:
第二获取模块,用于在基于待查询关键词序列在预设查询数据库进行文本数据查询之前,获取预设查询数据库中的文本数据。
匹配模块,用于将关键词序列中的关键词及近义词分别与文本数据进行匹配。
建立模块,用于在匹配成功后,建立关键词序列与文本数据之间的索引关系。
相应的,查询模块44具体用于,将待查询关键词序列输入与预设查询数据库对接的ElasticSearch搜索引擎,通过ElasticSearch搜索引擎按照索引关系在预设查询数据库中进行文本数据查询。
在一可选的实施例中,上述文本数据查询装置包括处理器和存储器,上述第一获取模块,提取模块,处理模块,选择模块和查询模块等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来提高文本数据的查询速度。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
基于本发明实施例提供的文本数据查询装置,用户只要将待查询文本输入搜索系统即可查询到与待查询文本近似的文本数据,不再需要用户确定并输入关键词,在简化用户操作的同时提高文本数据的搜索速度。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:
获取待查询文本,从所述待查询文本中提取多个关键词;
对所述关键词进行处理,得到每个所述关键词对应的关键词序列,所述关键词序列中至少包含所述关键词及所述关键词的至少一个近义词;
从所述关键词序列中选择满足预设条件的关键词序列,作为待查询关键词序列;
基于所述待查询关键词序列在预设查询数据库进行文本数据查询。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种文本数据查询方法,其特征在于,包括:
获取待查询文本,从所述待查询文本中提取多个关键词;
对所述关键词进行处理,得到每个所述关键词对应的关键词序列,所述关键词序列中至少包含所述关键词及所述关键词的至少一个近义词;
从所述关键词序列中选择满足预设条件的关键词序列,作为待查询关键词序列;
基于所述待查询关键词序列在预设查询数据库进行文本数据查询。
2.根据权利要求1所述的方法,其特征在于,在从所述待查询文本中提取多个关键词之前,所述方法还包括:
对所述待查询文本进行聚类,得到所述待查询文本所属的领域;
从所述待查询文本中提取多个关键词,包括:
从所述待查询文本中提取所述待查询文本所属领域的多个代表词,将所述代表词作为所述关键词。
3.根据权利要求1所述的方法,其特征在于,所述对所述关键词进行处理,得到每个所述关键词对应的关键词序列,包括:
对每个所述关键词进行解析,得到每个所述关键词的含义;
从预先采集的海量文本中提取多个词语;
计算每个所述关键词的含义与从所述海量文本中提取的词语的含义的语义相似度;
如果所述语义相似度大于预设相似度阈值,则确定对应的词语为所述关键词的近义词;
根据所述关键词和所述关键词的近义词得到所述关键词对应的关键词序列。
4.根据权利要求1所述的方法,其特征在于,所述关键词序列中包含权值参数,所述权值参数根据所述关键词在所述待查询文本中的重要程度设定,所述从所述关键词序列中选择满足预设条件的关键词序列,作为待查询关键词序列,包括:
根据所述关键词序列的权值参数的大小,对所述关键词序列进行排序;
从排序后的关键词序列中选择权值参数较大、且数量为预设数量的关键词序列,作为待查询关键词序列。
5.根据权利要求1至4任一项所述的方法,其特征在于,在基于所述待查询关键词序列在预设查询数据库进行文本数据查询之前,所述方法还包括:
获取所述预设查询数据库中的文本数据;
将所述关键词序列中的关键词及近义词分别与所述文本数据进行匹配;
如果匹配成功,则建立所述关键词序列与所述文本数据之间的索引关系;
所述基于所述待查询关键词序列在预设查询数据库进行文本数据查询,包括:
将所述待查询关键词序列输入与所述预设查询数据库对接的ElasticSearch搜索引擎,通过所述ElasticSearch搜索引擎按照所述索引关系在所述预设查询数据库中进行文本数据查询。
6.一种文本数据查询装置,其特征在于,包括:
第一获取模块,用于获取待查询文本;
提取模块,用于从所述待查询文本中提取多个关键词;
处理模块,用于对所述关键词进行处理,得到每个所述关键词对应的关键词序列,所述关键词序列中至少包含所述关键词及所述关键词的至少一个近义词;
选择模块,用于从所述关键词序列中选择满足预设条件的关键词序列,作为待查询关键词序列;
查询模块,用于基于所述待查询关键词序列在预设查询数据库进行文本数据查询。
7.根据权利要求6所述的装置,其特征在于,还包括:
聚类模块,用于对所述待查询文本进行聚类,得到所述待查询文本所属的领域;
所述提取模块具体用于,从所述待查询文本中提取所述待查询文本所属领域的多个代表词,将所述代表词作为所述关键词。
8.根据权利要求6所述的装置,其特征在于,所述处理模块包括:
解析单元,用于对每个所述关键词进行解析,得到每个所述关键词的含义;
提取单元,用于从预先采集的海量文本中提取多个词语;
计算单元,用于计算每个所述关键词的含义与从所述海量文本中提取的词语的含义的语义相似度;
确定单元,用于在所述语义相似度大于预设相似度阈值时,确定对应的词语为所述关键词的近义词;
处理单元,用于根据所述关键词和所述关键词的近义词得到所述关键词对应的关键词序列。
9.根据权利要求6所述的装置,其特征在于,所述关键词序列中包含权值参数,所述权值参数根据所述关键词在所述待查询文本中的重要程度设定,所述选择模块包括:
排序单元,用于根据所述关键词序列的权值参数的大小,对所述关键词序列进行排序;
选择单元,用于从排序后的关键词序列中选择权值参数较大、且数量为预设数量的关键词序列,作为待查询关键词序列。
10.根据权利要求6-9任意一项所述的装置,其特征在于,还包括:
第二获取模块,用于在基于所述待查询关键词序列在预设查询数据库进行文本数据查询之前,获取所述预设查询数据库中的文本数据;
匹配模块,用于将所述关键词序列中的关键词及近义词分别与所述文本数据进行匹配;
建立模块,用于在匹配成功后,建立所述关键词序列与所述文本数据之间的索引关系;
所述查询模块具体用于,将所述待查询关键词序列输入与所述预设查询数据库对接的ElasticSearch搜索引擎,通过所述ElasticSearch搜索引擎按照所述索引关系在所述预设查询数据库中进行文本数据查询。
CN201710081024.8A 2017-02-15 2017-02-15 文本数据查询方法及装置 Pending CN108427686A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710081024.8A CN108427686A (zh) 2017-02-15 2017-02-15 文本数据查询方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710081024.8A CN108427686A (zh) 2017-02-15 2017-02-15 文本数据查询方法及装置

Publications (1)

Publication Number Publication Date
CN108427686A true CN108427686A (zh) 2018-08-21

Family

ID=63155284

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710081024.8A Pending CN108427686A (zh) 2017-02-15 2017-02-15 文本数据查询方法及装置

Country Status (1)

Country Link
CN (1) CN108427686A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109063204A (zh) * 2018-09-14 2018-12-21 郑州云海信息技术有限公司 基于人工智能的日志查询方法、装置、设备及存储介质
CN109545383A (zh) * 2018-11-12 2019-03-29 北京懿医云科技有限公司 实际临床路径变异检测方法及装置、存储介质、电子设备
WO2021031862A1 (zh) * 2019-08-21 2021-02-25 华为技术有限公司 一种数据处理方法及其装置
CN112597277A (zh) * 2020-12-26 2021-04-02 中国农业银行股份有限公司 文档查询方法、装置、存储介质及电子设备
WO2021159812A1 (zh) * 2020-10-20 2021-08-19 平安科技(深圳)有限公司 癌症分期信息处理方法、装置及存储介质
CN116010609A (zh) * 2023-03-23 2023-04-25 山东中翰软件有限公司 一种物料数据归类方法、装置、电子设备及存储介质
CN117112736A (zh) * 2023-10-24 2023-11-24 云南瀚文科技有限公司 一种基于语义分析模型的信息检索分析方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101067808A (zh) * 2007-05-24 2007-11-07 上海大学 文本关键词的提取方法
CN103377226A (zh) * 2012-04-25 2013-10-30 中国移动通信集团公司 一种智能检索方法及其系统
CN103699625A (zh) * 2013-12-20 2014-04-02 北京百度网讯科技有限公司 基于关键词进行检索的方法及装置
CN103886063A (zh) * 2014-03-18 2014-06-25 国家电网公司 一种文本检索方法和装置
US20150066888A1 (en) * 2009-01-12 2015-03-05 Alibaba Group Holding Limited Method and system for querying information

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101067808A (zh) * 2007-05-24 2007-11-07 上海大学 文本关键词的提取方法
US20150066888A1 (en) * 2009-01-12 2015-03-05 Alibaba Group Holding Limited Method and system for querying information
CN103377226A (zh) * 2012-04-25 2013-10-30 中国移动通信集团公司 一种智能检索方法及其系统
CN103699625A (zh) * 2013-12-20 2014-04-02 北京百度网讯科技有限公司 基于关键词进行检索的方法及装置
CN103886063A (zh) * 2014-03-18 2014-06-25 国家电网公司 一种文本检索方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
周耀林等: "《电子文件管理概论》", 31 August 2016, 武汉大学出版社 *
章成志等: "《文本自动标引与自动分类研究》", 31 December 2009, 东南大学出版社 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109063204A (zh) * 2018-09-14 2018-12-21 郑州云海信息技术有限公司 基于人工智能的日志查询方法、装置、设备及存储介质
CN109545383A (zh) * 2018-11-12 2019-03-29 北京懿医云科技有限公司 实际临床路径变异检测方法及装置、存储介质、电子设备
WO2021031862A1 (zh) * 2019-08-21 2021-02-25 华为技术有限公司 一种数据处理方法及其装置
WO2021159812A1 (zh) * 2020-10-20 2021-08-19 平安科技(深圳)有限公司 癌症分期信息处理方法、装置及存储介质
CN112597277A (zh) * 2020-12-26 2021-04-02 中国农业银行股份有限公司 文档查询方法、装置、存储介质及电子设备
CN116010609A (zh) * 2023-03-23 2023-04-25 山东中翰软件有限公司 一种物料数据归类方法、装置、电子设备及存储介质
CN117112736A (zh) * 2023-10-24 2023-11-24 云南瀚文科技有限公司 一种基于语义分析模型的信息检索分析方法及系统
CN117112736B (zh) * 2023-10-24 2024-01-05 云南瀚文科技有限公司 一种基于语义分析模型的信息检索分析方法及系统

Similar Documents

Publication Publication Date Title
CN108427686A (zh) 文本数据查询方法及装置
CN107609121B (zh) 基于LDA和word2vec算法的新闻文本分类方法
CN106815252B (zh) 一种搜索方法和设备
WO2021093755A1 (zh) 问题的匹配方法及装置、问题的回复方法及装置
US20210319179A1 (en) Method, machine learning engines and file management platform systems for content and context aware data classification and security anomaly detection
US9542477B2 (en) Method of automated discovery of topics relatedness
US20150074112A1 (en) Multimedia Question Answering System and Method
CN105426426B (zh) 一种基于改进的K-Medoids的KNN文本分类方法
CN110543595B (zh) 一种站内搜索系统及方法
WO2013078307A1 (en) Image searching
CN102799647A (zh) 网页去重方法和设备
US20230147941A1 (en) Method, apparatus and device used to search for content
US20130339373A1 (en) Method and system of filtering and recommending documents
US11580119B2 (en) System and method for automatic persona generation using small text components
CN111813930B (zh) 相似文档检索方法及装置
CN116911312B (zh) 一种任务型对话系统及其实现方法
CN108875065B (zh) 一种基于内容的印尼新闻网页推荐方法
CN111061828B (zh) 一种数字图书馆知识检索方法及装置
CN108228612B (zh) 一种提取网络事件关键词以及情绪倾向的方法及装置
Basmatkar et al. An overview of contextual topic modeling using bidirectional encoder representations from transformers
CN105447073A (zh) 标签赋予装置及方法
WO2021055868A1 (en) Associating user-provided content items to interest nodes
CN110895703B (zh) 法律文书案由识别方法及装置
Khan et al. Multimodal rule transfer into automatic knowledge based topic models
CN112836010A (zh) 用于专利的检索方法、存储介质及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100080 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180821