CN113569128A - 数据检索方法、装置及电子设备 - Google Patents
数据检索方法、装置及电子设备 Download PDFInfo
- Publication number
- CN113569128A CN113569128A CN202010359969.3A CN202010359969A CN113569128A CN 113569128 A CN113569128 A CN 113569128A CN 202010359969 A CN202010359969 A CN 202010359969A CN 113569128 A CN113569128 A CN 113569128A
- Authority
- CN
- China
- Prior art keywords
- corpus
- vector
- data retrieval
- original corpus
- original
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 239000013598 vector Substances 0.000 claims abstract description 160
- 238000012545 processing Methods 0.000 claims abstract description 9
- 238000000605 extraction Methods 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 9
- 230000000875 corresponding effect Effects 0.000 description 37
- 238000010586 diagram Methods 0.000 description 9
- 238000013473 artificial intelligence Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241000592183 Eidolon Species 0.000 description 1
- 241000238558 Eucarida Species 0.000 description 1
- 241001071795 Gentiana Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种数据检索方法、装置及电子设备,涉及数据处理技术领域,该方法包括如果接收到目标领域的数据检索请求,从该数据检索请求中提取检索关键词;从预先构建的该目标领域的语料库中,获取与该检索关键词相匹配的特征向量;其中,该特征向量包括该原始语料的词向量特征和该原始语料中指定文本信息的信息特征;根据获取到的该特征向量对应的原始语料,生成该数据检索请求对应的检索结果。本发明实施例通过预先建立专业领域的语料库,并将语料库中的原始语料与其词向量特征及指定文本信息的信息特征相关联,使得用户可以根据关键词或者指定文本信息快速检索到该专业领域的数据资源,提高专业领域问题的解答效率。
Description
技术领域
本发明涉及数据处理技术领域,尤其是涉及一种数据检索方法、装置及电子设备。
背景技术
目前,在需要解决专业领域的问题时,通常有以下几种做法:
1.将出现的问题放在WIKI中给后人查阅和解答;
2.通过搜索引擎(例如:百度、谷歌等)搜索问题的相关资料;
3.基于NLP(Natural Language Processing,自然语言处理)方式的FAQ(Frequently Asked Questions,经常问到的问题)系统(例如:Siri,小爱同学,天猫精灵,智能翻译等)寻找解答。
其中,前两种方式通常搜索出来的信息量过大,往往需要花费大量时间定位问题的细节;并且,现有的FAQ系统通常集中在人类自然语言处理和通用问题的回答,对专业领域的支持力度和研究相对较少,也难以获得专业的解决方案。整体而言,现有的数据检索方式无法提供专业领域问题的专业、有效的解答。
发明内容
有鉴于此,本发明的目的在于提供一种数据检索方法、装置及电子设备,可以更加快速地为检索到专业领域的数据资源,提高专业领域问题的解答效率。
第一方面,本发明实施例提供了一种数据检索方法,该方法包括:如果接收到目标领域的数据检索请求,从该数据检索请求中提取检索关键词;从预先构建的该目标领域的语料库中,获取与该检索关键词相匹配的特征向量;其中,该语料库中包括该目标领域的原始语料,以及每个原始语料对应的特征向量;该特征向量包括该原始语料的词向量特征和该原始语料中指定文本信息的信息特征;根据获取到的该特征向量对应的原始语料,生成该数据检索请求对应的检索结果。
在本发明较佳的实施例中,上述目标领域的语料库通过下述方式构建:获取该目标领域的原始语料;对该原始语料进行分词处理,得到多个词单元;确定该原始语料中是否包含有指定文本信息;如果有,提取该指定文本信息;根据该词单元和该指定文本信息生成原始语料的特征向量;根据该原始语料和特征向量,构建该目标领域的语料库。
在本发明较佳的实施例中,上述根据该词单元和该指定文本信息生成原始语料的特征向量的步骤,包括:向量化该词单元和该指定文本信息,分别得到该原始语料的第一向量和第二向量;根据该第一向量和该第二向量,生成该原始语料的特征向量。
在本发明较佳的实施例中,上述向量化该词单元和该指定文本信息,分别得到该原始语料的第一向量和第二向量的步骤,包括:通过word2vec模型,向量化该词单元和该指定文本信息,得到该原始语料的第一向量和第二向量。
在本发明较佳的实施例中,上述根据该第一向量和该第二向量,生成该原始语料的特征向量的步骤,包括:将该第二向量拼接到上述第一向量的末尾,得到原始语料的特征向量。
在本发明较佳的实施例中,上述指定文本信息包括专有名词、异常代码、状态码和统一资源定位符中的至少一种。
在本发明较佳的实施例中,上述获取该目标领域的原始语料的步骤,包括:从预设的外部信息系统,以及该目标领域的领域应用中,获取该目标领域的原始语料。
在本发明较佳的实施例中,上述数据检索请求中包括专有名词、异常代码、状态码和统一资源定位符中的至少一种。
第二方面,本发明实施例还提供了一种数据检索装置,包括:检索关键词提取模块,用于如果接收到目标领域的数据检索请求,从该数据检索请求中提取检索关键词;特征向量获取模块,用于从预先构建的该目标领域的语料库中,获取与该检索关键词相匹配的特征向量;其中,该语料库中包括该目标领域的原始语料,以及每个原始语料对应的特征向量;该特征向量包括该原始语料的词向量特征和该原始语料中指定文本信息的信息特征;检索结果生成模块,用于根据获取到的该特征向量对应的原始语料,生成该数据检索请求对应的检索结果。
第三方面,本发明实施例还提供了一种电子设备,该电子设备包括处理器和存储器,该存储器存储有能够被该处理器执行的计算机可执行指令,该处理器执行该计算机可执行指令以实现上述数据检索方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现上述数据检索方法。
本发明实施例带来了以下有益效果:
本发明实施例提供的一种数据检索方法、装置及电子设备,如果接收到目标领域的数据检索请求,从该数据检索请求中提取检索关键词;从预先构建的该目标领域的语料库中,获取与该检索关键词相匹配的特征向量;其中,该语料库中包括该目标领域的原始语料,以及每个原始语料对应的特征向量;该特征向量包括该原始语料的词向量特征和该原始语料中指定文本信息的信息特征;根据获取到的该特征向量对应的原始语料,生成该数据检索请求对应的检索结果。该方式中,通过预先建立专业领域的语料库,并将语料库中的原始语料与其词向量特征及指定文本信息的信息特征相关联,使得用户可以根据关键词或者指定文本信息快速检索到专业领域的数据资源,提高专业领域问题的解答效率。
本公开的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本公开的上述技术即可得知。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种数据检索方法的流程示意图;
图2为本发明实施例提供的一种数据检索方法中语料库构建的流程示意图;
图3为本发明实施例提供的一种语料库的原始语料获取途径示意图;
图4为本发明实施例提供的一种语料标签的示意图;
图5为本发明实施例提供的一种数据检索装置的结构示意图;
图6为本发明实施例提供的一种电子设备的结构示意图。
图标:51-检索关键词提取模块;52-特征向量获取模块;53-检索结果生成模块;61-处理器;62-存储器;63-总线;64-通信接口。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现阶段,大数据、机器学习、人工智能已经普及到了各个领域,从事该专业领域开发的人越来越多。由于大数据技术涉及到的软件和专业面较广,所以解决该领域内的问题需要比较专业的人来做。而如何用现有的知识,去帮助专业或者非专业人来解答特定领域专业的问题,并给出已有的解决方案或者建设性的意见,是当下特定专业领域中面临的难题。
考虑到现有的问题解答检索方式无法提供专业领域问题的专业、有效的解答,本发明实施例提供了一种数据检索方法、装置及电子设备,该技术可以应用于需要对特定技术领域的专业问题提供解决方案的各种应用场景中,为便于对本实施例进行理解,首先对本发明实施例所公开的一种数据检索方法进行详细介绍。
参见图1,所示为本发明实施例提供的一种数据检索方法的流程示意图,由图1可见,该方法包括以下步骤:
步骤S102:如果接收到目标领域的数据检索请求,从该数据检索请求中提取检索关键词。
这里,目标领域可以是特定的一个或多个技术领域,例如,可以是人工智能领域、大数据领域、机器学习领域等等。并且,上述检索关键词可以是该数据集检索请求中的任意文本信息,例如,可以是其中的短语、词汇、数字、代码等等。
另外,从该数据检索请求中提取检索关键词的方法可以是无监督关键词提取方法,例如,基于统计特征的关键词提取、基于词图模型的关键词提取和基于主题模型的关键词提取;也可以是有监督关键词提取方法,例如,当数据检索请求为用户输入的一段文字时,可以首先从该段文字中提取出所有的候选词,然后利用训练好的关键词提取分类器,对各个候选词进行分类,最终将标签为关键词的候选词确定为关键词。
步骤S104:从预先构建的该目标领域的语料库中,获取与该检索关键词相匹配的特征向量;其中,该语料库中包括该目标领域的原始语料,以及每个原始语料对应的特征向量;该特征向量包括该原始语料的词向量特征和该原始语料中指定文本信息的信息特征。
在本实施例中,预先构建了该目标领域的语料库。其中,该语料库中包括目标领域的原始语料,这里,原始语料可以包括文字、代码、图片、视频等类型的语料,并且,这些原始语料可以通过从现有的网络资源中筛选的方式,获得该目标领域的数据资源。以人工智能领域为例,当构建人工智能领域的语料库时,可以从开放的网络资源中,例如从百度、谷歌等网站中筛选出属于人工智能领域的数据资源,作为其语料库的原始语料。
此外,上述语料库中还包括与每个原始语料对应的特征向量,其中,该特征向量是根据原始语料的内容信息映射到实数的向量,特征向量的计算可以通过自然语言处理的技术实现。具体地,上述特征向量包括原始语料的词向量特征和该原始语料中指定文本信息的信息特征。在其中一种可能的实施方式中,上述指定文本信息包括专有名词、异常代码、状态码和统一资源定位符中的至少一种,并且,指定文本信息的信息特征可以是根据该指定文本生成的向量。此外,上述词向量特征是指根据原始语料中的词汇计算得到的向量的特征。
这里,假设某条原始语料是题目为“人工智能电话机器人错误码大全”的文章,该文章中包括多种错误代码,每种错误代码对应的含义,以及其可能产生的原因。这里,假定错误代码属于指定文本信息,则在根据生成与该原始语料对应的特征向量时,可以根据该文章中的自然词汇生成词向量,并且,根据其中的错误代码生成对应的向量,从而共同构成该原始语料的特征向量。这样,该原始语料的特征向量就同时包含词向量特征和指定文本信息的信息特征。因此,当根据该原始语料中的词汇或者错误代码进行检索,均可以检索到该特征向量,进而获取到与其对应的原始语料。
步骤S106:根据获取到的该特征向量对应的原始语料,生成该数据检索请求对应的检索结果。
由于在语料库中每一个特征向量均与其对应的原始语料相互关联,因此,根据获取到的特征向量可以相应获取到与其对应的原始语料。然后,根据获取到的原始语料生成该数据检索请求对应的检索结果。
这里,在生成检索结果时,可以是直接将原始语料返回给用户;还可以是在对原始语料进行分析处理后,再生成检索结果。例如,如果检索到的原始语料有多条,可以对这些原始语料的相关度、检索频率、更新时间等进行综合评价并排序后,再输出给用户,从而帮助用户更加快速地获取到最有价值的数据资源。
在实际操作中,当用户需要查找特定专业领域的数据资源时,例如需要解决某个专业领域的技术问题时,现有方式通常是通过维基百科、百度、谷歌等网站进行检索,但是搜索出来的信息量通常很大,导致需要花费大量时间定位问题的细节,也难以筛选出有用的信息;或者通过现有的FAQ系统查找解决资源,但是现有的FAQ系统通常集中在人类自然语言处理和通用问题的回答,对专业领域的支持力度和研究相对较少,也难以获得专业的解决方案。相比于这些常规的数据检索方法,本发明实施例提供的数据检索方法,通过预先建立专业领域的语料库,并将语料库中的原始语料与其词向量特征及指定文本信息的信息特征相关联,使得用户可以直接输入专有名词、异常代码、状态码或统一资源定位符进行检索,也即在数据检索请求中携带上述指定文本信息,从而快速检索到专业领域的数据资源。
本发明实施例提供的数据检索方法,如果接收到目标领域的数据检索请求,从该数据检索请求中提取检索关键词;从预先构建的该目标领域的语料库中,获取与该检索关键词相匹配的特征向量;其中,该语料库中包括该目标领域的原始语料,以及每个原始语料对应的特征向量;该特征向量包括该原始语料的词向量特征和该原始语料中指定文本信息的信息特征;根据获取到的该特征向量对应的原始语料,生成该数据检索请求对应的检索结果。该方式可以提高专业领域的数据资源的检索效率,从而帮助用户更高效处理专业领域的技术问题。
在图1所示数据检索方法的基础上,本发明实施例还提供了另一种数据检索方法,该方法重点描述了目标领域的语料库的具体构建方式,如图2所示,其为一种数据检索方法中语料库构建的流程示意图,由图2可见,该方法包括以下步骤:
步骤S202:获取该目标领域的原始语料。
这里,在其中一种可能的实施方式中,可以从预设的外部信息系统,以及该目标领域的领域应用中,获取该目标领域的原始语料。参见图3,其为一种语料库的原始语料获取途径示意图,图3示出的方式中,外部信息系统包括:问答系统(Answer&Question)、维基(WIKI)系统、中国软件开发者网(Chinese Software Developer Network,CSDN)、用户交互的信息(Message)以及目标领域的趋势(Tendency)等。并且,该目标领域的领域应用可以是Hadoop、Hive、Spark等应用场景;也可以是问题系统(Issue system)中的非常有针对性的信息,例如,以系统问题为核心的信息,其中,Issue System是一个记录系统BUG和升级的系统;还可以是源码(Source Code),文档(Document),应用程序接口描述(ApplicationProgramming Interface,API)和发布版本(Release)等等。
其中,以从Issue System中获取原始语料为例,在该系统中,每一个ISSUE-ID都对应有问题标题(Title),问题描述(Description),问题活跃度(Activity),问题的类型(Type),问题重要等级,问题是否已经解决等内容。其中,根据问题标题、问题描述和问题活跃度,可以判断该问题的类型和重要程度,从而进行相应地标注,因此,可以针对性地获取Issue System中的这部分语料。
步骤S204:对该原始语料进行分词处理,得到多个词单元。
分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。其中,该原始语料可以是中文,也可以是英文或其他语言的资料。以该原始语料为中文资料为例,分词的方式可以是基于隐马尔科夫模型(Hidden Markov Model,HMM)对中文词进行分词;也可以是通过N-gram双向最大匹配的方式分词,也即基于字符串的分词方法中的正向最大匹配算法和逆向最大匹配算法,对两个方向匹配得到的序列结果中不同的部分,运用Bi-gram模型计算得出较大概率的部分,再拼接得到最佳词序列。在其他可能的实施方式中,还可以通过其他可能的方法对原始语料进行分词,在此不作限定。
步骤S206:确定该原始语料中是否包含有指定文本信息;如果是,执行步骤S208;如果否,执行步骤S210。
在其中一种可能的实施方式中,该指定文本信息包括专有名词、异常代码、状态码和统一资源定位符中的至少一种。
其中,如果该原始语料中包含有指定文本信息,则提取该指定文本信息;如果该原始语料中没有包含指定文本信息,则根据分词处理得到的词单元生成原始语料的特征向量。
步骤S208:提取该指定文本信息。
步骤S210:根据该词单元生成原始语料的特征向量。
这里,可以通过word2vec模型向量化该词单元,从而得到原始语料的特征向量。其中,word2vec是一种用于产生词向量的神经网络模型,可映射每个词到一个向量。
步骤S212:根据该词单元和该指定文本信息生成原始语料的特征向量。
在其中一种可能的实施方式中,可以通过下述步骤21-22生成该原始语料的特征向量:
(21)向量化该词单元和该指定文本信息,分别得到该原始语料的第一向量和第二向量。
这里,可以word2vec模型分别向量化该词单元和该指定文本信息,对应得到该原始语料的第一向量和第二向量。
(22)根据该第一向量和该第二向量,生成该原始语料的特征向量。
其中,可以将该第二向量拼接到上述第一向量的末尾,得到原始语料的特征向量。例如,假设通过向量化词单元得到第一向量为并且,根据指定文本信息得到的第二向量为{1,1,0,1};这样,将第二向量拼接到第一向量末尾后得到的向量为也即,得到该原始语料的特征向量为
在其他可能的实施方式中,还可以通过其他方式对第一向量和第二向量进行融合或拼接,得到原始语料的特征向量,在此不作限定。
步骤S214:根据该原始语料和特征向量,构建该目标领域的语料库。
将原始语料和其对应的特征向量进行关联,并根据关联后的原始语料和特征向量构建该目标领域的语料库。
这样,通过上述步骤S202至步骤S214,即可构建特定领域的语料库,从而,在该特定领域的人员需要查找该领域的专业数据资源时,可以通过该语料库检索获得更具针对性的、更具专业性的数据资源。
在实际操作中,当专业领域的技术人员需要检索该领域的某个专业问题的解决方案时,通过预先构建该领域的语料库,并基于该语料库进行检索,所获得的检索结果将更具有参考价值,其中,由于该语料库在构建时是基于目标领域的原始语料建立的,过滤了大量不相关的信息,因而,基于该语料库的检索可以将专业问题的答案缩小到一定范围内,从而帮助用户更加快速地解决专业问题。
在另一种可能的实施方式中,还可以根据原始语料设置相应的语料标签,并根据原始语料、语料标签和特征向量共同构建语料库。参见图4,所示为一种语料标签的示意图,其中,该语料标签包括三个部分:数据来源、语料特征和用户咨询。在图4示出的实施方式中,不同的数据来源对应不同的语料特征,其中,语料特征包括未知问题探索特征,已有解答特征和无关编码三部分;用户咨询包括异常代码、状态信息和方法咨询三个部分;并且,数据来源包括ISSUE管理系统、内部问答系统、网上问答库等等。
在实际操作中,基于上述语料库进行检索时,还可以基于语料标签在检索结果中给出相关建议,例如,如果用户基于该语料库检索某专业问题的解决方案,检索结果在输出原始语料时,如果该原始语料对应的标签显示该问题为已解决问题,则可以给出如下建议:该问题已经解决,对应的ISSUE系统中的链接为A网络地址。
此外,当用户输入检索信息时,还可以通过识别用户检索的意图,在返回检索结果时,同时提供相应的建议。例如,假设用户输入一段代码的异常信息,这些异常信息有的会标识所出现的源码位置,有的在源码中有明确的输出信息,假设识别出用户是遇到了BUG或者程序无法处理的特殊情况,则可以进一步结合ISSUE系统或者源代码所标注的行数和内容,给出用户如下格式的建议:“您所遇到的是个BUG,这个BUG已经在1.1版本已经解决,请升级您的系统或者联系管理员”。
本实施例提供的数据检索方法提供了语料库建立的具体实现方式,该方法可以提高专业领域的数据资源的检索效率,帮助用户更高效处理专业领域的技术问题。
对应于图1中所示的数据检索方法,本发明实施例还提供了一种数据检索装置,参见图5,所示为一种数据检索装置的结构示意图,由图5可见,该数据检索装置包括依次相连的检索关键词提取模块51、特征向量获取模块52和检索结果生成模块53,其中,各个模块的功能如下:
检索关键词提取模块51,用于如果接收到目标领域的数据检索请求,从该数据检索请求中提取检索关键词;
特征向量获取模块52,用于从预先构建的该目标领域的语料库中,获取与该检索关键词相匹配的特征向量;其中,该语料库中包括该目标领域的原始语料,以及每个原始语料对应的特征向量;该特征向量包括该原始语料的词向量特征和该原始语料中指定文本信息的信息特征;
检索结果生成模块53,用于根据获取到的该特征向量对应的原始语料,生成该数据检索请求对应的检索结果。
本发明实施例提供的一种数据检索装置,如果接收到目标领域的数据检索请求,从该数据检索请求中提取检索关键词;从预先构建的该目标领域的语料库中,获取与该检索关键词相匹配的特征向量;其中,该语料库中包括该目标领域的原始语料,以及每个原始语料对应的特征向量;该特征向量包括该原始语料的词向量特征和该原始语料中指定文本信息的信息特征;根据获取到的该特征向量对应的原始语料,生成该数据检索请求对应的检索结果。该装置中,通过预先建立专业领域的语料库,并将语料库中的原始语料与其词向量特征及指定文本信息的信息特征相关联,使得用户可以根据关键词或者指定文本信息快速检索到专业领域的数据资源,提高专业领域问题的解答效率。
在其中一种可能的实施方式中,上述目标领域的语料库通过下述方式构建:获取该目标领域的原始语料;对该原始语料进行分词处理,得到多个词单元;确定该原始语料中是否包含有指定文本信息;如果有,提取该指定文本信息;根据该词单元和该指定文本信息生成原始语料的特征向量;根据该原始语料和特征向量,构建该目标领域的语料库。
在另一种可能的实施方式中,上述根据该词单元和该指定文本信息生成原始语料的特征向量的步骤,包括:向量化该词单元和该指定文本信息,分别得到该原始语料的第一向量和第二向量;根据该第一向量和该第二向量,生成该原始语料的特征向量。
在另一种可能的实施方式中,上述向量化该词单元和该指定文本信息,分别得到该原始语料的第一向量和第二向量的步骤,包括:通过word2vec模型,向量化该词单元和该指定文本信息,得到该原始语料的第一向量和第二向量。
在另一种可能的实施方式中,上述根据该第一向量和该第二向量,生成该原始语料的特征向量的步骤,包括:将该第二向量拼接到上述第一向量的末尾,得到原始语料的特征向量。
在另一种可能的实施方式中,上述指定文本信息包括专有名词、异常代码、状态码和统一资源定位符中的至少一种。
在另一种可能的实施方式中,上述获取该目标领域的原始语料的步骤,包括:从预设的外部信息系统,以及该目标领域的领域应用中,获取该目标领域的原始语料。
在另一种可能的实施方式中,上述数据检索请求中包括专有名词、异常代码、状态码和统一资源定位符中的至少一种。
本发明实施例提供的数据检索装置,其实现原理及产生的技术效果和前述数据检索方法实施例相同,为简要描述,数据检索装置的实施例部分未提及之处,可参考前述数据检索方法实施例中相应内容。
本发明实施例还提供了一种电子设备,如图6所示,为该电子设备的结构示意图,其中,该电子设备包括处理器61和存储器62,该存储器62存储有能够被该处理器61执行的机器可执行指令,该处理器61执行该机器可执行指令以实现上述数据检索方法。
在图6示出的实施方式中,该电子设备还包括总线63和通信接口64,其中,处理器61、通信接口64和存储器62通过总线连接。
其中,存储器62可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口64(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。总线可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
处理器61可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器61中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器61可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessing,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器61读取存储器62中的信息,结合其硬件完成前述实施例的数据检索方法的步骤。
本发明实施例还提供了一种机器可读存储介质,该机器可读存储介质存储有机器可执行指令,该机器可执行指令在被处理器调用和执行时,该机器可执行指令促使处理器实现上述数据检索方法,具体实现可参见前述方法实施例,在此不再赘述。
本发明实施例所提供的数据检索方法、数据检索装置和电子设备的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的数据检索方法,具体实现可参见方法实施例,在此不再赘述。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (11)
1.一种数据检索方法,其特征在于,所述方法包括:
如果接收到目标领域的数据检索请求,从所述数据检索请求中提取检索关键词;
从预先构建的所述目标领域的语料库中,获取与所述检索关键词相匹配的特征向量;其中,所述语料库中包括所述目标领域的原始语料,以及每个所述原始语料对应的特征向量;所述特征向量包括所述原始语料的词向量特征和所述原始语料中指定文本信息的信息特征;
根据获取到的所述特征向量对应的原始语料,生成所述数据检索请求对应的检索结果。
2.根据权利要求1所述的数据检索方法,其特征在于,所述目标领域的语料库,通过下述方式构建:
获取所述目标领域的原始语料;
对所述原始语料进行分词处理,得到多个词单元;
确定所述原始语料中是否包含有指定文本信息;
如果有,提取所述指定文本信息;
根据所述词单元和所述指定文本信息生成所述原始语料的特征向量;
根据所述原始语料和所述特征向量,构建所述目标领域的语料库。
3.根据权利要求2所述的数据检索方法,其特征在于,所述根据所述词单元和所述指定文本信息生成所述原始语料的特征向量的步骤,包括:
向量化所述词单元和所述指定文本信息,分别得到所述原始语料的第一向量和第二向量;
根据所述第一向量和所述第二向量,生成所述原始语料的特征向量。
4.根据权利要求3所述的数据检索方法,其特征在于,所述向量化所述词单元和所述指定文本信息,分别得到所述原始语料的第一向量和第二向量的步骤,包括:
通过word2vec模型,向量化所述词单元和所述指定文本信息,得到所述原始语料的第一向量和第二向量。
5.根据权利要求3所述的数据检索方法,其特征在于,所述根据所述第一向量和所述第二向量,生成所述原始语料的特征向量的步骤,包括:
将所述第二向量拼接到所述第一向量的末尾,得到所述原始语料的特征向量。
6.根据权利要求2所述的数据检索方法,其特征在于,所述指定文本信息包括专有名词、异常代码、状态码和统一资源定位符中的至少一种。
7.根据权利要求2所述的数据检索方法,其特征在于,所述获取所述目标领域的原始语料的步骤,包括:
从预设的外部信息系统,以及所述目标领域的领域应用中,获取所述目标领域的原始语料。
8.根据权利要求1所述的数据检索方法,其特征在于,所述数据检索请求中包括专有名词、异常代码、状态码和统一资源定位符中的至少一种。
9.一种数据检索装置,其特征在于,包括:
检索关键词提取模块,用于如果接收到目标领域的数据检索请求,从所述数据检索请求中提取检索关键词;
特征向量获取模块,用于从预先构建的所述目标领域的语料库中,获取与所述检索关键词相匹配的特征向量;其中,所述语料库中包括所述目标领域的原始语料,以及每个所述原始语料对应的特征向量;所述特征向量包括所述原始语料的词向量特征和所述原始语料中指定文本信息的信息特征;
检索结果生成模块,用于根据获取到的所述特征向量对应的原始语料,生成所述数据检索请求对应的检索结果。
10.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机可执行指令,所述处理器执行所述计算机可执行指令以实现权利要求1至8任一项所述的数据检索方法。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令在被处理器调用和执行时,计算机可执行指令促使处理器实现权利要求1至8任一项所述的数据检索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010359969.3A CN113569128A (zh) | 2020-04-29 | 2020-04-29 | 数据检索方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010359969.3A CN113569128A (zh) | 2020-04-29 | 2020-04-29 | 数据检索方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113569128A true CN113569128A (zh) | 2021-10-29 |
Family
ID=78158674
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010359969.3A Pending CN113569128A (zh) | 2020-04-29 | 2020-04-29 | 数据检索方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113569128A (zh) |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020164A (zh) * | 2012-11-26 | 2013-04-03 | 华北电力大学 | 一种基于多语义分析和个性化排序的语义检索方法 |
CN103365924A (zh) * | 2012-04-09 | 2013-10-23 | 北京大学 | 一种搜索信息的方法、装置和终端 |
CN105893410A (zh) * | 2015-11-18 | 2016-08-24 | 乐视网信息技术(北京)股份有限公司 | 一种关键词提取方法和装置 |
CN106570171A (zh) * | 2016-11-03 | 2017-04-19 | 中国电子科技集团公司第二十八研究所 | 一种基于语义的科技情报处理方法及系统 |
CN106649818A (zh) * | 2016-12-29 | 2017-05-10 | 北京奇虎科技有限公司 | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 |
CN107122413A (zh) * | 2017-03-31 | 2017-09-01 | 北京奇艺世纪科技有限公司 | 一种基于图模型的关键词提取方法及装置 |
CN107908757A (zh) * | 2017-11-21 | 2018-04-13 | 恒安嘉新(北京)科技股份公司 | 网站分类方法及系统 |
CN108363698A (zh) * | 2018-03-13 | 2018-08-03 | 腾讯大地通途(北京)科技有限公司 | 兴趣点关系识别方法及装置 |
CN108491407A (zh) * | 2018-01-24 | 2018-09-04 | 大连理工大学 | 一种面向代码检索的查询扩展方法 |
CN109189934A (zh) * | 2018-11-13 | 2019-01-11 | 平安科技(深圳)有限公司 | 舆情推荐方法、装置、计算机设备及存储介质 |
CN110059156A (zh) * | 2019-03-13 | 2019-07-26 | 平安城市建设科技(深圳)有限公司 | 基于关联词的协同检索方法、装置、设备及可读存储介质 |
CN110135457A (zh) * | 2019-04-11 | 2019-08-16 | 中国科学院计算技术研究所 | 基于自编码器融合文档信息的事件触发词抽取方法及系统 |
CN110232192A (zh) * | 2019-06-19 | 2019-09-13 | 中国电力科学研究院有限公司 | 电力术语命名实体识别方法及装置 |
CN110349568A (zh) * | 2019-06-06 | 2019-10-18 | 平安科技(深圳)有限公司 | 语音检索方法、装置、计算机设备及存储介质 |
CN110413738A (zh) * | 2019-07-31 | 2019-11-05 | 腾讯科技(深圳)有限公司 | 一种信息处理方法、装置、服务器及存储介质 |
CN110502361A (zh) * | 2019-08-29 | 2019-11-26 | 扬州大学 | 面向bug报告的细粒度缺陷定位方法 |
CN110825949A (zh) * | 2019-09-19 | 2020-02-21 | 平安科技(深圳)有限公司 | 基于卷积神经网络的信息检索方法、及其相关设备 |
-
2020
- 2020-04-29 CN CN202010359969.3A patent/CN113569128A/zh active Pending
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103365924A (zh) * | 2012-04-09 | 2013-10-23 | 北京大学 | 一种搜索信息的方法、装置和终端 |
CN103020164A (zh) * | 2012-11-26 | 2013-04-03 | 华北电力大学 | 一种基于多语义分析和个性化排序的语义检索方法 |
CN105893410A (zh) * | 2015-11-18 | 2016-08-24 | 乐视网信息技术(北京)股份有限公司 | 一种关键词提取方法和装置 |
CN106570171A (zh) * | 2016-11-03 | 2017-04-19 | 中国电子科技集团公司第二十八研究所 | 一种基于语义的科技情报处理方法及系统 |
CN106649818A (zh) * | 2016-12-29 | 2017-05-10 | 北京奇虎科技有限公司 | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 |
CN107122413A (zh) * | 2017-03-31 | 2017-09-01 | 北京奇艺世纪科技有限公司 | 一种基于图模型的关键词提取方法及装置 |
CN107908757A (zh) * | 2017-11-21 | 2018-04-13 | 恒安嘉新(北京)科技股份公司 | 网站分类方法及系统 |
CN108491407A (zh) * | 2018-01-24 | 2018-09-04 | 大连理工大学 | 一种面向代码检索的查询扩展方法 |
CN108363698A (zh) * | 2018-03-13 | 2018-08-03 | 腾讯大地通途(北京)科技有限公司 | 兴趣点关系识别方法及装置 |
CN109189934A (zh) * | 2018-11-13 | 2019-01-11 | 平安科技(深圳)有限公司 | 舆情推荐方法、装置、计算机设备及存储介质 |
CN110059156A (zh) * | 2019-03-13 | 2019-07-26 | 平安城市建设科技(深圳)有限公司 | 基于关联词的协同检索方法、装置、设备及可读存储介质 |
CN110135457A (zh) * | 2019-04-11 | 2019-08-16 | 中国科学院计算技术研究所 | 基于自编码器融合文档信息的事件触发词抽取方法及系统 |
CN110349568A (zh) * | 2019-06-06 | 2019-10-18 | 平安科技(深圳)有限公司 | 语音检索方法、装置、计算机设备及存储介质 |
CN110232192A (zh) * | 2019-06-19 | 2019-09-13 | 中国电力科学研究院有限公司 | 电力术语命名实体识别方法及装置 |
CN110413738A (zh) * | 2019-07-31 | 2019-11-05 | 腾讯科技(深圳)有限公司 | 一种信息处理方法、装置、服务器及存储介质 |
CN110502361A (zh) * | 2019-08-29 | 2019-11-26 | 扬州大学 | 面向bug报告的细粒度缺陷定位方法 |
CN110825949A (zh) * | 2019-09-19 | 2020-02-21 | 平安科技(深圳)有限公司 | 基于卷积神经网络的信息检索方法、及其相关设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116775847B (zh) | 一种基于知识图谱和大语言模型的问答方法和系统 | |
US10936821B2 (en) | Testing and training a question-answering system | |
US9626622B2 (en) | Training a question/answer system using answer keys based on forum content | |
WO2019153551A1 (zh) | 文章分类方法、装置、计算机设备及存储介质 | |
WO2021051871A1 (zh) | 文本抽取方法、装置、设备及存储介质 | |
US20180011927A1 (en) | Hybrid reasoning-based natural language query answering system and method | |
US9239875B2 (en) | Method for disambiguated features in unstructured text | |
US10061865B2 (en) | Determining answer stability in a question answering system | |
US20170132288A1 (en) | Extracting and Denoising Concept Mentions Using Distributed Representations of Concepts | |
CN110929038A (zh) | 基于知识图谱的实体链接方法、装置、设备和存储介质 | |
US20160188569A1 (en) | Generating a Table of Contents for Unformatted Text | |
US20210272013A1 (en) | Concept modeling system | |
US20180285742A1 (en) | Learning method, learning apparatus, and storage medium | |
WO2020010996A1 (zh) | 超链接的处理方法和装置及存储介质 | |
KR101545050B1 (ko) | 정답 유형 자동 분류 방법 및 장치, 이를 이용한 질의 응답 시스템 | |
CN110309355B (zh) | 内容标签的生成方法、装置、设备及存储介质 | |
US12056184B2 (en) | Method and apparatus for generating description information of an image, electronic device, and computer readable storage medium | |
CN112529743B (zh) | 合同要素抽取方法、装置、电子设备及介质 | |
US20210349925A1 (en) | System and Method for Retrieving Results and Responses with Context Based Exclusion Criteria | |
CN117076608A (zh) | 一种基于文本动态跨度的整合外部事件知识的脚本事件预测方法及装置 | |
CN110929526A (zh) | 样本生成方法、装置以及电子设备 | |
CN113569128A (zh) | 数据检索方法、装置及电子设备 | |
JP2001101184A (ja) | 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体 | |
CN114692610A (zh) | 关键词确定方法及装置 | |
CN114723073B (zh) | 语言模型预训练、产品搜索方法、装置以及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |