CN113704408A - 检索方法、装置、电子设备、存储介质和程序产品 - Google Patents
检索方法、装置、电子设备、存储介质和程序产品 Download PDFInfo
- Publication number
- CN113704408A CN113704408A CN202111010118.9A CN202111010118A CN113704408A CN 113704408 A CN113704408 A CN 113704408A CN 202111010118 A CN202111010118 A CN 202111010118A CN 113704408 A CN113704408 A CN 113704408A
- Authority
- CN
- China
- Prior art keywords
- retrieval
- request
- document
- current
- retrieval request
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000004590 computer program Methods 0.000 claims description 21
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 10
- 230000015654 memory Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了一种检索方法,可以应用于人工智能技术领域。该检索方法包括:获取检索请求,检索请求包括检索内容,其中,在每次获取检索请求时,存储该检索请求的检索内容;对于预先配置的语料库中的每个文档,根据当前的检索请求的检索内容以及前M个检索请求中的检索内容,确定出当前的检索请求与该文档的相似度;根据当前的检索请求与语料库中每个文档的相似度,确定出与当前的检索请求相匹配的文档;以与当前的检索请求相匹配的文档作为检索结果,并输出;其中,所述M为正整数。本公开还提供了一种检索装置、设备、存储介质和程序产品。
Description
技术领域
本公开涉及人工智能领域,具体涉及一种检索方法、装置、电子设备、存储介质和程序产品。
背景技术
随着人工智能技术的发展,自然语言处理的相关应用已经变得无处不在,常见的自然语言处理的相关应用例如有机器翻译、智能问答机器人以及机器阅读理解等。
目前,智能问答机器人在回答用户的提问时,通常会从语料库中检索相应的文本以识别用户提问的内容。但是,在传统的文本检索方法中,当问题为固定的内容时,检索结果也是固定的,检索精度有限,从而导致智能问答机器人的回答命中率较低。
发明内容
鉴于上述问题,本公开提供了提高一种检索方法、装置、电子设备、存储介质和程序产品。
根据本公开的第一个方面,提供了一种检索方法,其中,包括:
获取检索请求,所述检索请求包括检索内容,其中,在每次获取所述检索请求时,存储该检索请求的所述检索内容;
对于预先配置的语料库中的每个文档,根据当前的所述检索请求的检索内容以及前M个所述检索请求中的检索内容,确定出当前的所述检索请求与该文档的相似度;
根据当前的所述检索请求与所述语料库中每个文档的相似度,确定出与当前的所述检索请求相匹配的文档;
以与当前的所述检索请求相匹配的文档作为检索结果,并输出;
其中,所述M为正整数。
根据本公开的实施例,所述对于预先配置的语料库中的每个文档,根据当前的所述检索请求的检索内容以及前M个所述检索请求中的检索内容,确定出当前的所述检索请求与该文档的相似度的步骤包括:
根据与每个所述检索请求相对应的权重,确定出每个所述检索请求的所述检索内容与该文档的相似得分;
根据每个所述检索请求的所述检索内容与该文档的相似得分,确定出当前的所述检索请求与该文档的相似度。
根据本公开的实施例,利用以下公式确定出当前的所述检索请求与该文档的相似度:
BM25(QT,d)=∑t∑iWtWiR(qti,d);
其中,所述QT表示当前的所述检索请求的所述检索内容以及前M个所述检索请求中的所述检索内容的集合,所述d表示所述语料库中的某个文档,所述∑iWtWiR(qti,d)表示第t个所述检索请求的所述检索内容与所述d的相似得分,所述Wt表示与第t个所述检索请求相应的权重,所述qti表示第t个所述检索请求的所述检索内容中的第i个词,所述R(qti,d)表示第t个所述检索请求的所述检索内容中的第i个词与所述d的相关度,所述Wi表示与第i个词相应的权重,所述t和所述i均为正整数。
根据本公开的实施例,所述根据与每个所述检索请求相对应的权重,确定出每个所述检索请求的所述检索内容与该文档的相似得分的步骤包括:
对于前M个所述检索请求中的每个所述检索请求,根据该检索请求与当前的所述检索请求之间的次序间隔,确定出与该检索请求所对应的权重。
根据本公开的实施例,对于前M个所述检索请求中的每个所述检索请求,该检索请求与当前的所述检索请求之间的次序间隔越大,与该检索请求所对应的权重越小。
根据本公开的实施例,利用以下公式确定出与所述检索请求所对应的权重:
其中,所述C(t)表示第t个所述检索请求与当前的所述检索请求之间的次序间隔。
本公开的第二方面提供了一种检索装置,其中,包括:
获取模块,用于获取检索请求,所述检索请求包括检索内容,以及,在每次获取所述检索请求时,存储该检索请求的所述检索内容;
相似度确定模块,用于对于预先配置的语料库中的每个文档,根据当前的所述检索请求的检索内容以及前M个所述检索请求中的检索内容,确定出当前的所述检索请求与该文档的相似度;
匹配模块,用于根据当前的所述检索请求与所述语料库中每个文档的相似度,确定出与当前的所述检索请求相匹配的文档;
输出模块,用于以与当前的所述检索请求相匹配的文档作为检索结果,并输出;
其中,所述M为正整数。
本公开的第三方面提供了一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得一个或多个处理器执行上述检索方法。
本公开的第四方面还提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行上述检索方法。
本公开的第五方面还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述检索方法。
上述一个或多个实施例具有如下优点或益效果:
采用本公开实施例的检索方法,能够记录每个检索请求的检索内容,对于当前的检索请求,本公开实施例的检索方法能够结合前M个检索请求的检索内容,从语料库中找出相应文档,例如,当前的检索请求的检索内容包括“苹果”,前一次检索请求的检索内容包括“手机”,采用本公开实施例的检索方法输出的检索结果可以包括“苹果手机”,从而提高了检索精度。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述内容以及其他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了根据本公开实施例的检索方法、装置、电子设备、存储介质和程序产品的应用场景图;
图2示意性示出了根据本公开实施例的检索方法的流程图;
图3示意性示出了根据本公开实施例的确定相似度的流程图;
图4示意性示出了根据本公开实施例的确定相似得分的流程图;
图5示意性示出了根据本公开实施例的检索装置的结构框图;
图6示意性示出了根据本公开实施例的适于实现检索方法的电子设备的方框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
在本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等,均符合相关法律法规的规定,采取了必要保密措施,且不违背公序良俗。
本公开的实施例提供了一种检索方法,包括:获取检索请求,检索请求包括检索内容,其中,在每次获取检索请求时,存储该检索请求的检索内容。对于预先配置的语料库中的每个文档,根据当前的检索请求的检索内容以及前M个检索请求中的检索内容,确定出当前的检索请求与该文档的相似度。根据当前的检索请求与语料库中每个文档的相似度,确定出与当前的检索请求相匹配的文档。以与当前的检索请求相匹配的文档作为检索结果,并输出。其中,M为正整数。
采用本公开实施例的检索方法,能够记录每个检索请求的检索内容,对于当前的检索请求,本公开实施例的检索方法能够结合前M个检索请求的检索内容,从语料库中找出相应文档,例如,当前的检索请求的检索内容包括“苹果”,前一次检索请求的检索内容包括“手机”,采用本公开实施例的检索方法输出的检索结果可以包括“苹果手机”,从而提高了检索精度。
图1示意性示出了根据本公开实施例的检索方法、装置、电子设备、存储介质和程序产品的应用场景图。
如图1所示,根据该实施例的应用场景100可以包括终端设备101、102、103、网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
需要说明的是,本公开实施例所提供的检索方法一般可以由服务器105执行。相应地,本公开实施例所提供的检索装置一般可以设置于服务器105中。本公开实施例所提供的检索方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的检索装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
以下将基于图1描述的场景,通过图2至图4对公开实施例的检索方法进行详细描述。
图2示意性示出了根据本公开实施例的检索方法的流程图,如图2所示,该实施例的检索方法包括步骤S210至步骤S240。
在步骤S210,获取检索请求,检索请求包括检索内容,其中,在每次获取检索请求时,存储该检索请求的检索内容。
本公开实施例的检索方法可以应用于智能问答机器人中,也可应用于本领域技术人员能够想到的其他需要进行检索的场景中,例如网页检索、论文检索等,具体可以根据实际需要确定。可选地,本公开实施例的检索方法应用于智能问答机器人中。
在本公开实施例中,可以根据用户的提问生成检索请求,相应地,检索请求的检索内容也即用户提问的内容。
可选地,存储检索请求的检索内容,可以是指对检索内容进行分词后得到的目标词进行存储。
在步骤S220,对于预先配置的语料库中的每个文档,根据当前的检索请求的检索内容以及前M个检索请求中的检索内容,确定出当前的检索请求与该文档的相似度。其中,M为正整数。
在本公开实施例中,当前的检索请求也即根据用户当前的提问生成的检索请求;前M个检索请求也即根据用户在提出当前的问题之前所提出的M个问题所生成的检索请求。例如,当前的检索请求为第m个检索请求,前M个检索请求可以为第1个检索请求至第m-1个检索请求。
在本公开实施例中,可以响应于检索请求,从存储的多个检索请求中提取出M个检索请求。M的取值可以根据实际需要确定,例如,M可以取1至10中的任意一者。语料库中存储有多个文档,语料库中的文档可以由人工采集或者通过预设程序自动地采集,例如爬虫等。每个文档对应于一种语义,例如“苹果手机如何解锁”。对于语料库中的每个文档,可以计算当前的检索请求的检索内容与该文档的相似度得分,以及前M个检索请求中的检索内容与该文档的相似度得分,以当前的检索请求的检索内容与该文档的相似度得分作为主要得分,以前M个检索请求中的检索内容与该文档的相似度得分作为辅助得分,以主要得分作为基础,结合辅助得分确定出当前的检索请求与该文档的相似度。
在步骤S230,根据当前的检索请求与语料库中每个文档的相似度,确定出与当前的检索请求相匹配的文档。
在本公开实施例中,可以根据语料库中每个文档与当前的检索请求的相似度,对语料库中的文档进行排序或打分等操作,将排序或打分靠前的文档作为与当前的检索请求相匹配的文档。
在步骤S240,以与当前的检索请求相匹配的文档作为检索结果,并输出。
如前文所述,由于检索请求是根据用户的提问生成的,因此,在本公开实施例中,可以根据检索结果,从问答库中找到相应的答案,从而回答用户的提问。
采用本公开实施例的检索方法,能够记录每个检索请求的检索内容(也即记录用户的每次提问),对于当前的检索请求,本公开实施例的检索方法能够结合前M个检索请求的检索内容(也即用户的前M次提问),从语料库中找出相应文档,例如,当前的检索请求的检索内容包括“苹果”,前一次检索请求的检索内容包括“手机”,采用本公开实施例的检索方法输出的检索结果可以包括“苹果手机”,从而提高了检索精度。
下面结合图2至图4对本公开实施例的检索方法进行进一步地说明。
图3示意性示出了根据本公开实施例的确定相似度的流程图,如图3所示,在一些具体实施例中,步骤S220包括步骤S221和步骤S222。
在步骤S221,根据与每个检索请求相对应的权重,确定出每个检索请求的检索内容与该文档的相似得分。
可选地,在本公开实施例中,可以基于BM25算法,结合每个检索请求的权重,计算每个检索请求的检索内容与文档的相似得分。BM25算法是一种能够计算给定文本与目标文本之间相关程度的一种计算方式,它是一种基于概率检索模型提出的算法。
BM25算法用来计算相关程度的过程为:对检索内容进行语素解析,生成语素qi,也即,对检索内容进行分词,生成检索内容的关键词;然后,对于语料库中的每个文档,计算每个语素qi与文档的相关程度(关键词与文档的相关程度);最后,将语素qi与文档的相关性得分进行加权求和,从而得到检索内容与文档的相关程度。采用BM25算法计算检索内容与文档的相关程度,如公式(1)所示:
Score(Q,d)=∑iWiR(qi,d) (1)
其中,Q表示检索内容,qi表示对检索内容分词之后的第i个词(也即语素),d表示语料库中的某一个文档,Wi表示语素qi的权重;R(qi,d)表示语素qi与文档d的相关度,Score(Q,d)表示d与检索内容Q的相关程度。
在本公开实施例中,计算语素qi的权重Wi有多种方法,这里以逆文本频率指数(Inverse Document Frequency,IDF)为例,如公式(2)所示:
其中,N表示语料库中的全部文档的数量;n(qi)表示语料库中的文档中包含语素qi的文档数量。根据公式(2)可以看出,对于语料库中给定的文档集合,当包含语素qi的文档数量越多,语素qi的权重就越低。说明当很多文档都包含语素qi时,语素qi的区分度不高,例如语素qi为“的”等助词,因此,语素qi的权重较小;当包含语素qi的文档数量越少,语素qi的权重就越高。说明当较少的文档包含语素qi时,语素qi的区分度较高,例如语素qi为“手机”等特定名词,因此,语素qi的权重较大。
在本公开实施例中,计算语素qi与文档d的相关度R(qi,d),如公式(3)、(4)所示:
其中,k1、k2、b为调节因子,可以根据实际需要设置,例如,可以设置k1=2、b=0.75,f为语素qi在文档d中出现的频率,qf为语素qi在检索内容中出现的频率。dl为文档d的长度,avg(d1)为语料库中所有文档的平均长度。
从公式(4)可以看到,参数b的作用是调整文档长度对语素qi与文档d的相关程度的影响,当参数b越大,文档长度对语素qi与文档d的相关程度的影响越大;当参数b越小,文档长度对语素qi与文档d的相关程度的影响也就越小。另外,文档d的相对长度(文档d的长度与语料库中文档的平均长度的比值)越长,K的值将越大,则语素qi与文档d的相关程度越小。由于当文档d较长时,其包含语素qi的机会越大,因此,长文档d与语素qi的相关程度比短文档d与语素qi的相关程度小。
因此,文档d的相对长度与文档d和语素qi的相关程度成反比关系,语素qi在文档d中出现的频率与文档d和语素qi的相关程度成正比关系。
在本公开实施例中,在公式(1)的基础上,结合每个检索请求的权重对检索请求的检索内容与语料库中的每个文档的相似得分进行计算,具体地,对公式(1)进行整理后得到的公式(5)如下:
Score′(Qt,d)=∑iWtWiR(qti,d) (5)
其中,Qt表示第t个检索请求的检索内容,qti表示对第t个检索请求的检索内容分词之后的第i个词,Wt表示第t个检索请求的权重,Score′(Qt,d)表示第t个检索请求的检索内容与文档d的相似得分。
根据公式(5)可以看出,每个检索请求与文档d的相似得分与权重Wt成正比关系,在本公开实施例中,对于前M个检索请求中的每个检索请求,可以根据该检索请求与当前的检索请求之间的距离配置权重Wt的大小,从而使当前的检索请求的检索内容与文档d的相似得分作为主要得分,使前M个检索请求的检索内容与文档d的相似得分作为辅助得分,进而在后续的步骤中,能够以主要得分作为核心,结合辅助得分确定出当前的检索请求与文档d的相似度。
图4示意性示出了根据本公开实施例的确定相似得分的流程图,如图4所示,在一些具体实施例中,步骤S221包括步骤S2211。
在步骤S2211,对于前M个检索请求中的每个检索请求,根据该检索请求与当前的检索请求之间的次序间隔,确定出与该检索请求所对应的权重,也即确定出Wt的大小。
在本公开实施例中,次序间隔是指,对前M个检索请求与当前的检索请求进行排序之后,前M个检索请求中的每个检索请求与当前的检索请求的序号之差。例如,当前的检索请求为第m个检索请求,前M个检索请求为第1个检索请求至第m-1个检索请求。对于第m-1个检索请求,该检索请求与当前的检索请求的次序间隔即为1。
在本公开实施例中,如前文所述,检索请求可以是根据用户的提问生成的,一般而言,对于用户的连续几个问题,相邻的问题之间的相关性最大,因此,可以采用以下方式配置每个检索请求的权重Wt:
对于前M个检索请求中的每个检索请求,该检索请求与当前的检索请求之间的次序间隔越大,与该检索请求所对应的权重Wt越小。
在本公开实施例中,可以根据实际需要确定权重Wt的变化幅度,在一些具体实施例中,利用公式(6)确定出与检索请求所对应的权重:
其中,C(t)表示第t个检索请求与当前的检索请求之间的次序间隔。
根据公式(6)可以看出,随着次序间隔的增大,检索请求的权重Wt随之减小,例如,当前的检索请求为第m个,当t=m-1时,C(t)=1,也即,第t个检索请求的权重Wt为1/2。当t=m-2时,C(t)=2,也即,第t个检索请求的权重Wt为1/4。
在步骤S222,根据每个检索请求的检索内容与该文档的相似得分,确定出当前的检索请求与该文档的相似度。
如前文所述,由于每个检索请求具有相应的权重Wt,因此,可以对每个检索请求的检索内容与文档d的相似得分进行求和,以得到当前的检索请求与文档d的相似度。在一些具体实施例中,对公式(5)进行整理后得到公式(7),利用公式(7)确定出当前的检索请求与文档的相似度,公式(7)如下:
BM25(QT,d)=∑t∑iWtWiR(qti,d) (7)
其中,QT表示当前的检索请求的检索内容以及前M个检索请求(总计T个检索请求)中的检索内容的集合,d表示语料库中的某个文档,∑iWtWiR(qti,d)表示第t个检索请求的检索内容与文档d的相似得分,Wt表示与第t个检索请求相应的权重,qti表示第t个检索请求的检索内容中的第i个词,R(qti,d)表示第t个检索请求的检索内容中的第i个词与d的相关度,Wi表示与第i个词相应的权重,t和i均为正整数,BM25(QT,d)表示当前的检索请求与文档d的相似度。
根据公式(6)和公式(7)可以得出,在本公开实施例中,在确定当前的检索请求与文档d的相似度时,综合考虑了当前的检索请求的检索内容与文档d的相似得分以及前M个检索请求的检索内容与文档d的相似得分,也就是说,在本公开实施例中,在针对用户的提问进行检索时,综合考虑了用户当前的提问以及用户的前M次提问,从而使得检索过程能够联系上下文,实现更精确的定位。并且,对于前M个检索请求中的每个检索请求,考虑到了每个检索请求与当前的检索请求的之间的距离,并根据该距离调整了每个检索请求对最终结果(也即当前请求与文档d的相似度)的影响,使得检索结果更加合理,有利于提高智能问答机器人回答的命中率。
基于上述的检索方法,本公开还提供了一种检索装置。以下将结合图5对该装置进行详细描述。
图5示意性示出了根据本公开实施例的检索装置的结构框图,如图5所示,该实施例的检索装置500包括获取模块510、相似度确定模块520、匹配模块530和输出模块540。
获取模块510用于获取检索请求,检索请求包括检索内容,以及,在每次获取检索请求时,存储该检索请求的检索内容。在一实施例中,获取模块510可以用于执行前文描述的步骤S210,在此不再赘述。
相似度确定模块520用于对于预先配置的语料库中的每个文档,根据当前的检索请求的检索内容以及前M个检索请求中的检索内容,确定出当前的检索请求与该文档的相似度。在一实施例中,相似度确定模块520可以用于执行前文描述的步骤S220,在此不再赘述。
匹配模块530用于根据当前的检索请求与语料库中每个文档的相似度,确定出与当前的检索请求相匹配的文档。在一实施例中,匹配模块530可以用于执行前文描述的步骤S230,在此不再赘述。
输出模块540用于以与当前的检索请求相匹配的文档作为检索结果,并输出。在一实施例中,匹配模块540可以用于执行前文描述的步骤S240,在此不再赘述。
其中,M为正整数。
采用本公开实施例的检索装置,能够记录每个检索请求的检索内容,对于当前的检索请求,本公开实施例的检索方法能够结合前M个检索请求的检索内容,从语料库中找出相应文档,例如,当前的检索请求的检索内容包括“苹果”,前一次检索请求的检索内容包括“手机”,采用本公开实施例的检索方法输出的检索结果可以包括“苹果手机”,从而提高了检索精度。
根据本公开的实施例,获取模块510、相似度确定模块520、匹配模块530和输出模块540中的任意多个模块可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本公开的实施例,获取模块510、相似度确定模块520、匹配模块530和输出模块540中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,获取模块510、相似度确定模块520、匹配模块530和输出模块540中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
图6示意性示出了根据本公开实施例的适于实现检索方法的电子设备的方框图,如图6所示,根据本公开实施例的电子设备600包括处理器601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。处理器601例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC))等等。处理器601还可以包括用于缓存用途的板载存储器。处理器601可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 603中,存储有电子设备600操作所需的各种程序和数据。处理器601、ROM602以及RAM 603通过总线604彼此相连。处理器601通过执行ROM 602和/或RAM 603中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM 602和RAM 603以外的一个或多个存储器中。处理器601也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的检索方法的各种步骤。
根据本公开的实施例,电子设备600还可以包括输入/输出(I/O)接口605,输入/输出(I/O)接口605也连接至总线604。电子设备600还可以包括连接至I/O接口605的以下部件中的一项或多项:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的检索方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的ROM 602和/或RAM 603和/或ROM 602和RAM 603以外的一个或多个存储器。
本公开的实施例还包括一种计算机程序产品,其包括计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。当计算机程序产品在计算机系统中运行时,该程序代码用于使计算机系统实现本公开实施例所提供的检索方法。
在该计算机程序被处理器601执行时执行本公开实施例的系统/装置中限定的上述功能。根据本公开的实施例,上文描述的系统、装置、模块、单元等可以通过计算机程序模块来实现。
在一种实施例中,该计算机程序可以依托于光存储器件、磁存储器件等有形存储介质。在另一种实施例中,该计算机程序也可以在网络介质上以信号的形式进行传输、分发,并通过通信部分609被下载和安装,和/或从可拆卸介质611被安装。该计算机程序包含的程序代码可以用任何适当的网络介质传输,包括但不限于:无线、有线等等,或者上述的任意合适的组合。
在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被处理器601执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
根据本公开的实施例,可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码,具体地,可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如Java,C++,python,“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合或/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。
Claims (10)
1.一种检索方法,其特征在于,包括:
获取检索请求,所述检索请求包括检索内容,其中,在每次获取所述检索请求时,存储该检索请求的所述检索内容;
对于预先配置的语料库中的每个文档,根据当前的所述检索请求的检索内容以及前M个所述检索请求中的检索内容,确定出当前的所述检索请求与该文档的相似度;
根据当前的所述检索请求与所述语料库中每个文档的相似度,确定出与当前的所述检索请求相匹配的文档;
以与当前的所述检索请求相匹配的文档作为检索结果,并输出;
其中,所述M为正整数。
2.根据权利要求1所述的检索方法,其特征在于,所述对于预先配置的语料库中的每个文档,根据当前的所述检索请求的检索内容以及前M个所述检索请求中的检索内容,确定出当前的所述检索请求与该文档的相似度的步骤包括:
根据与每个所述检索请求相对应的权重,确定出每个所述检索请求的所述检索内容与该文档的相似得分;
根据每个所述检索请求的所述检索内容与该文档的相似得分,确定出当前的所述检索请求与该文档的相似度。
3.根据权利要求2所述的检索方法,其特征在于,利用以下公式确定出当前的所述检索请求与文档的相似度:
BM25(QT,d)=∑t∑iWtWiR(qti,d);
其中,所述QT表示当前的所述检索请求的所述检索内容以及前M个所述检索请求中的所述检索内容的集合,所述d表示所述语料库中的某个文档,所述∑iWtWiR(qti,d)表示第t个所述检索请求的所述检索内容与所述d的相似得分,所述Wt表示与第t个所述检索请求相应的权重,所述qti表示第t个所述检索请求的所述检索内容中的第i个词,所述R(qti,d)表示第t个所述检索请求的所述检索内容中的第i个词与所述d的相关度,所述Wi表示与第i个词相应的权重,所述t和所述i均为正整数。
4.根据权利要求2所述的检索方法,其特征在于,所述根据与每个所述检索请求相对应的权重,确定出每个所述检索请求的所述检索内容与该文档的相似得分的步骤包括:
对于前M个所述检索请求中的每个所述检索请求,根据该检索请求与当前的所述检索请求之间的次序间隔,确定出与该检索请求所对应的权重。
5.根据权利要求4所述的检索方法,其特征在于,对于前M个所述检索请求中的每个所述检索请求,该检索请求与当前的所述检索请求之间的次序间隔越大,与该检索请求所对应的权重越小。
7.一种检索装置,其特征在于,包括:
获取模块,用于获取检索请求,所述检索请求包括检索内容,以及,在每次获取所述检索请求时,存储该检索请求的所述检索内容;
相似度确定模块,用于对于预先配置的语料库中的每个文档,根据当前的所述检索请求的检索内容以及前M个所述检索请求中的检索内容,确定出当前的所述检索请求与该文档的相似度;
匹配模块,用于根据当前的所述检索请求与所述语料库中每个文档的相似度,确定出与当前的所述检索请求相匹配的文档;
输出模块,用于以与当前的所述检索请求相匹配的文档作为检索结果,并输出;
其中,所述M为正整数。
8.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行根据权利要求1至6中任一项所述的检索方法。
9.一种计算机可读存储介质,其上存储有可执行指令,其特征在于,该指令被处理器执行时使处理器执行根据权利要求1至6中任一项所述的检索方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现根据权利要求1至6中任一项所述的检索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111010118.9A CN113704408A (zh) | 2021-08-31 | 2021-08-31 | 检索方法、装置、电子设备、存储介质和程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111010118.9A CN113704408A (zh) | 2021-08-31 | 2021-08-31 | 检索方法、装置、电子设备、存储介质和程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113704408A true CN113704408A (zh) | 2021-11-26 |
Family
ID=78657630
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111010118.9A Pending CN113704408A (zh) | 2021-08-31 | 2021-08-31 | 检索方法、装置、电子设备、存储介质和程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113704408A (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004038811A (ja) * | 2002-07-05 | 2004-02-05 | Nippon Telegr & Teleph Corp <Ntt> | 文献検索方法、文献検索装置、文献検索プログラム並びにそのプログラムを記録した記録媒体 |
CN102982153A (zh) * | 2012-11-29 | 2013-03-20 | 北京亿赞普网络技术有限公司 | 一种信息检索方法及其装置 |
CN103885985A (zh) * | 2012-12-24 | 2014-06-25 | 北京大学 | 微博实时检索方法和装置 |
CN108197105A (zh) * | 2017-12-28 | 2018-06-22 | 广东欧珀移动通信有限公司 | 自然语言处理方法、装置、存储介质及电子设备 |
CN109241243A (zh) * | 2018-08-30 | 2019-01-18 | 清华大学 | 候选文档排序方法及装置 |
CN110134760A (zh) * | 2019-05-17 | 2019-08-16 | 北京思维造物信息科技股份有限公司 | 一种搜索方法、装置、设备及介质 |
CN111368042A (zh) * | 2020-02-13 | 2020-07-03 | 平安科技(深圳)有限公司 | 智能问答方法、装置、计算机设备及计算机存储介质 |
CN111444320A (zh) * | 2020-06-16 | 2020-07-24 | 太平金融科技服务(上海)有限公司 | 文本检索方法、装置、计算机设备和存储介质 |
CN111460090A (zh) * | 2020-03-04 | 2020-07-28 | 深圳壹账通智能科技有限公司 | 基于向量的文档检索方法、装置、计算机设备及存储介质 |
CN112163158A (zh) * | 2020-10-09 | 2021-01-01 | 贵州电网有限责任公司 | 一种基于搜索历史、浏览足迹的搜索推荐方法 |
CN112528681A (zh) * | 2020-12-18 | 2021-03-19 | 北京百度网讯科技有限公司 | 跨语言检索及模型训练方法、装置、设备和存储介质 |
-
2021
- 2021-08-31 CN CN202111010118.9A patent/CN113704408A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004038811A (ja) * | 2002-07-05 | 2004-02-05 | Nippon Telegr & Teleph Corp <Ntt> | 文献検索方法、文献検索装置、文献検索プログラム並びにそのプログラムを記録した記録媒体 |
CN102982153A (zh) * | 2012-11-29 | 2013-03-20 | 北京亿赞普网络技术有限公司 | 一种信息检索方法及其装置 |
CN103885985A (zh) * | 2012-12-24 | 2014-06-25 | 北京大学 | 微博实时检索方法和装置 |
CN108197105A (zh) * | 2017-12-28 | 2018-06-22 | 广东欧珀移动通信有限公司 | 自然语言处理方法、装置、存储介质及电子设备 |
CN109241243A (zh) * | 2018-08-30 | 2019-01-18 | 清华大学 | 候选文档排序方法及装置 |
CN110134760A (zh) * | 2019-05-17 | 2019-08-16 | 北京思维造物信息科技股份有限公司 | 一种搜索方法、装置、设备及介质 |
CN111368042A (zh) * | 2020-02-13 | 2020-07-03 | 平安科技(深圳)有限公司 | 智能问答方法、装置、计算机设备及计算机存储介质 |
CN111460090A (zh) * | 2020-03-04 | 2020-07-28 | 深圳壹账通智能科技有限公司 | 基于向量的文档检索方法、装置、计算机设备及存储介质 |
CN111444320A (zh) * | 2020-06-16 | 2020-07-24 | 太平金融科技服务(上海)有限公司 | 文本检索方法、装置、计算机设备和存储介质 |
CN112163158A (zh) * | 2020-10-09 | 2021-01-01 | 贵州电网有限责任公司 | 一种基于搜索历史、浏览足迹的搜索推荐方法 |
CN112528681A (zh) * | 2020-12-18 | 2021-03-19 | 北京百度网讯科技有限公司 | 跨语言检索及模型训练方法、装置、设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106874467B (zh) | 用于提供搜索结果的方法和装置 | |
US11172040B2 (en) | Method and apparatus for pushing information | |
US9495387B2 (en) | Images for a question answering system | |
CN109543058B (zh) | 用于检测图像的方法、电子设备和计算机可读介质 | |
CN107577807B (zh) | 用于推送信息的方法和装置 | |
WO2019217096A1 (en) | System and method for automatically responding to user requests | |
CN107526718B (zh) | 用于生成文本的方法和装置 | |
US8984414B2 (en) | Function extension for browsers or documents | |
CN108280200B (zh) | 用于推送信息的方法和装置 | |
CN108121814B (zh) | 搜索结果排序模型生成方法和装置 | |
US20200218746A1 (en) | Method and apparatus for presenting information | |
US20200012650A1 (en) | Method and apparatus for determining response for user input data, and medium | |
CN113507419B (zh) | 流量分发模型的训练方法、流量分发方法及装置 | |
EP3961426A2 (en) | Method and apparatus for recommending document, electronic device and medium | |
CN113688310A (zh) | 一种内容推荐方法、装置、设备及存储介质 | |
US11341138B2 (en) | Method and system for query performance prediction | |
CN112307738B (zh) | 用于处理文本的方法和装置 | |
US20130232134A1 (en) | Presenting Structured Book Search Results | |
CN105824951A (zh) | 检索方法和装置 | |
CN111459959B (zh) | 用于更新事件集合的方法和装置 | |
CN113392200A (zh) | 基于用户学习行为的推荐方法及装置 | |
US10783141B2 (en) | Natural language processing social-based matrix refactorization | |
CN112445959A (zh) | 检索方法、检索装置、计算机可读介质及电子设备 | |
US11663251B2 (en) | Question answering approach to semantic parsing of mathematical formulas | |
CN115062110A (zh) | 文本处理方法、装置、电子设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |