CN111552768B - 基于自然语言理解的信息搜索方法、装置、设备及可读存储介质 - Google Patents
基于自然语言理解的信息搜索方法、装置、设备及可读存储介质 Download PDFInfo
- Publication number
- CN111552768B CN111552768B CN202010222049.7A CN202010222049A CN111552768B CN 111552768 B CN111552768 B CN 111552768B CN 202010222049 A CN202010222049 A CN 202010222049A CN 111552768 B CN111552768 B CN 111552768B
- Authority
- CN
- China
- Prior art keywords
- search
- information
- target
- intention
- service system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Abstract
本发明公开了一种基于自然语言理解的信息搜索方法、装置、设备及可读存储介质,涉及互联网技术领域,可以基于自然语言理解对搜索内容进行识别,确定识别到的意图领域,在意图领域中获取识别的搜索实体对应的至少一个目标信息并返回,保证采用自然语言理解对用户执行搜索的意图进行识别后再执行常规的搜索流程,避免对用户的搜索意图存在偏差的理解,解除了搜索的局限性,提高了搜索的准确性。所述方法包括:接收用户在目标业务系统中输入的搜索内容;基于自然语言理解对搜索内容进行识别,得到搜索意图和搜索实体;确定搜索意图在目标业务系统中指示的意图领域,在意图领域中获取搜索实体对应的至少一个目标信息;将至少一个目标信息返回给用户。
Description
技术领域
本发明涉及互联网技术领域,特别是涉及一种基于自然语言理解的信息搜索方法、装置、设备及可读存储介质。
背景技术
近年来,随着科技的快速发展,互联网应用广泛深入各类领域,大数据呈现爆炸式增长,海量的数据和信息分散于网络空间,当用户需要获取信息和数据时,通过搜索引擎进行信息搜索,从而找到相关的信息。
相关技术中,用户在向业务系统提交自然语言表述的问题之后,业务系统会利用各种自然语言处理技术去理解用户的提问意图,然后将自然语言表述的问题分析成搜索引擎所需要的查询语句,将查询语句输入搜索引擎,并获取搜索引擎输出的相关信息,将相关信息反馈给用户。
在实现本发明的过程中,发明人发现相关技术至少存在以下问题:
业务提供的搜索功能支持搜索的文字都很短,通常为关键字或者关键词等短字符串的搜索,对用户实际意图的理解存在偏差,搜索的局限性较高,且搜索的准确性较低。
发明内容
有鉴于此,本发明提供了一种基于自然语言理解的信息搜索方法、装置、设备及可读存储介质,主要目的在于解决目前对用户实际意图的理解存在偏差,搜索的局限性较高,且搜索的准确性较低的问题。
依据本发明第一方面,提供了一种基于自然语言理解的信息搜索方法,该方法包括:
接收用户在目标业务系统中输入的搜索内容;
基于自然语言理解对所述搜索内容进行识别,得到搜索意图和搜索实体;
确定所述搜索意图在所述目标业务系统中指示的意图领域,在所述意图领域中获取所述搜索实体对应的至少一个目标信息;
将所述至少一个目标信息返回给所述用户。
在另一个实施例中,所述接收用户在目标业务系统中输入的搜索内容之前,所述方法还包括:
接收至少一个业务系统的接入请求,为所述至少一个业务系统分配系统索引;
对于所述至少一个业务系统中的每个业务系统,接收所述业务系统上传的信息,将所述业务系统上传的信息存储至所述业务系统的系统索引指示的系统数据库中。
在另一个实施例中,所述接收所述业务系统上传的信息,将所述业务系统上传的信息存储至所述业务系统对应的系统数据库中,包括:
接收所述业务系统提供的数据库映射文件,按照所述数据库映射文件包括的数据条目,在所述数据库映射文件对应的目标数据库中抽取所述数据条目对应的信息,将抽取到的所述信息存储至所述业务系统对应的系统数据库中,所述数据库映射文件指示了所述目标数据库在服务器上的所处位置以及所述目标数据库的数据条目;或,
建立分布式处理任务,为所述分布式处理任务设置引流时长,每隔所述引流时长,获取所述业务系统上传的信息,基于所述业务系统上传的信息,对所述业务系统对应的系统数据库进行覆盖。
在另一个实施例中,所述基于自然语言理解对所述搜索内容进行识别,得到搜索意图和搜索实体,包括:
按照表达词模板对所述搜索内容进行文字识别,在所述搜索内容中提取表达字词;
获取基于自然语言理解建立的意图列表,将所述表达字词在所述意图列表中对应的意图描述作为所述搜索意图,所述意图列表中存储有至少一个表达字词与意图描述之间的对应关系;
对所述搜索内容进行字段属性识别,在所述搜索内容中提取具有名词属性的字段作为所述搜索实体。
在另一个实施例中,所述确定所述搜索意图在所述目标业务系统中指示的意图领域,在所述意图领域中获取所述搜索实体对应的至少一个目标信息,包括:
获取所述目标业务系统的目标系统索引,确定所述目标系统索引指示的目标系统数据库;
在所述目标系统数据库中提取多个初始信息,将所述多个初始信息作为所述意图领域,所述多个初始信息均具有与所述搜索意图一致的信息标签;
在所述意图领域中提取至少一个指定初始信息作为所述至少一个目标信息,所述至少一个指定初始信息的文字内容至少包括所述搜索实体。
在另一个实施例中,所述将所述至少一个目标信息返回给所述用户,包括:
统计所述至少一个目标信息中每个目标信息与所述搜索内容重合词语的词语个数;
按照所述词语个数从多到少的顺序对所述至少一个目标信息进行排序,得到排序结果;
将所述至少一个目标信息按照所述排序结果依次返回给所述用户进行展示。
在另一个实施例中,所述将所述至少一个目标信息返回给所述用户,还包括:
若所述目标业务系统中设置有个数阈值,则在所述排序结果中提取排在首位的满足所述个数阈值的目标信息;
将满足所述个数阈值的目标信息按照所述排序结果依次返回给所述用户进行展示。
依据本发明第二方面,提供了一种基于自然语言理解的信息搜索装置,该装置包括:
接收模块,用于接收用户在目标业务系统中输入的搜索内容;
识别模块,用于基于自然语言理解对所述搜索内容进行识别,得到搜索意图和搜索实体;
获取模块,用于确定所述搜索意图在所述目标业务系统中指示的意图领域,在所述意图领域中获取所述搜索实体对应的至少一个目标信息;
返回模块,用于将所述至少一个目标信息返回给所述用户。
在另一个实施例中,所述装置还包括:
分配模块,用于接收至少一个业务系统的接入请求,为所述至少一个业务系统分配系统索引;
存储模块,用于对于所述至少一个业务系统中的每个业务系统,接收所述业务系统上传的信息,将所述业务系统上传的信息存储至所述业务系统的系统索引指示的系统数据库中。
在另一个实施例中,所述存储模块,用于接收所述业务系统提供的数据库映射文件,按照所述数据库映射文件包括的数据条目,在所述数据库映射文件对应的目标数据库中抽取所述数据条目对应的信息,将抽取到的所述信息存储至所述业务系统对应的系统数据库中,所述数据库映射文件指示了所述目标数据库在服务器上的所处位置以及所述目标数据库的数据条目;或,建立分布式处理任务,为所述分布式处理任务设置引流时长,每隔所述引流时长,获取所述业务系统上传的信息,基于所述业务系统上传的信息,对所述业务系统对应的系统数据库进行覆盖。
在另一个实施例中,所述识别模块,包括:
识别单元,用于按照表达词模板对所述搜索内容进行文字识别,在所述搜索内容中提取表达字词;
获取单元,用于获取基于自然语言理解建立的意图列表,将所述表达字词在所述意图列表中对应的意图描述作为所述搜索意图,所述意图列表中存储有至少一个表达字词与意图描述之间的对应关系;
提取单元,用于对所述搜索内容进行字段属性识别,在所述搜索内容中提取具有名词属性的字段作为所述搜索实体。
在另一个实施例中,所述获取模块,包括:
确定单元,用于获取所述目标业务系统的目标系统索引,确定所述目标系统索引指示的目标系统数据库;
第一提取单元,用于在所述目标系统数据库中提取多个初始信息,将所述多个初始信息作为所述意图领域,所述多个初始信息均具有与所述搜索意图一致的信息标签;
第二提取单元,用于在所述意图领域中提取至少一个指定初始信息作为所述至少一个目标信息,所述至少一个指定初始信息的文字内容至少包括所述搜索实体。
在另一个实施例中,所述返回模块,包括:
统计单元,用于统计所述至少一个目标信息中每个目标信息与所述搜索内容重合词语的词语个数;
排序单元,用于按照所述词语个数从多到少的顺序对所述至少一个目标信息进行排序,得到排序结果;
展示单元,用于将所述至少一个目标信息按照所述排序结果依次返回给所述用户进行展示。
在另一个实施例中,所述返回模块,还包括:
提取单元,用于若所述目标业务系统中设置有个数阈值,则在所述排序结果中提取排在首位的满足所述个数阈值的目标信息;
所述展示单元,还用于将满足所述个数阈值的目标信息按照所述排序结果依次返回给所述用户进行展示。
依据本发明第三方面,提供了一种设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述方法的步骤。
依据本发明第四方面,提供了一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的方法的步骤。
借由上述技术方案,本发明提供的一种基于自然语言理解的信息搜索方法、装置、设备及可读存储介质,本发明可以基于自然语言理解对用户在目标业务系统中输入搜索内容进行识别,确定识别到的搜索意图在目标业务系统中指示的意图领域,在意图领域中获取识别到的搜索实体对应的至少一个目标信息并返回,保证采用自然语言理解对用户执行搜索的意图进行识别后再执行常规的搜索流程,避免对用户的搜索意图存在偏差的理解,解除了搜索的局限性,提高了搜索的准确性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1A示出了本发明实施例提供的一种基于自然语言理解的信息搜索方法流程示意图;
图1B示出了本发明实施例提供的一种基于自然语言理解的信息搜索系统的架构图;
图2示出了本发明实施例提供的一种基于自然语言理解的信息搜索方法流程示意图;
图3A示出了本发明实施例提供的一种基于自然语言理解的信息搜索装置的结构示意图;
图3B示出了本发明实施例提供的一种基于自然语言理解的信息搜索装置的结构示意图;
图3C示出了本发明实施例提供的一种基于自然语言理解的信息搜索装置的结构示意图;
图3D示出了本发明实施例提供的一种基于自然语言理解的信息搜索装置的结构示意图;
图3E示出了本发明实施例提供的一种基于自然语言理解的信息搜索装置的结构示意图;
图3F示出了本发明实施例提供的一种基于自然语言理解的信息搜索装置的结构示意图;
图4示出了本发明实施例提供的一种设备的装置结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
本发明实施例提供了一种基于自然语言理解的信息搜索方法,如图1A所示,该方法包括:
101、接收用户在目标业务系统中输入的搜索内容。
102、基于自然语言理解对搜索内容进行识别,得到搜索意图和搜索实体。
103、确定搜索意图在目标业务系统中指示的意图领域,在意图领域中获取搜索实体对应的至少一个目标信息。
104、将至少一个目标信息返回给用户。
本发明实施例提供的方法,可以基于自然语言理解对用户在目标业务系统中输入搜索内容进行识别,确定识别到的搜索意图在目标业务系统中指示的意图领域,在意图领域中获取识别到的搜索实体对应的至少一个目标信息并返回,保证采用自然语言理解对用户执行搜索的意图进行识别后再执行常规的搜索流程,避免对用户的搜索意图存在偏差的理解,解除了搜索的局限性,提高了搜索的准确性。
在对本发明进行详细的解释说明之前,先对本发明涉及的信息搜索系统进行简单介绍。
参见图1B,本发明涉及的信息搜索系统包括前端应用以及搜索中心。前端应用为提供给用户进行操作的平台,一般涉及有业务系统的统一门户、核心运营、CMS(ContentManagement System,内容管理系统)、电子档案和其他系统等前端系统,这些前端系统在为用户提供操作平台的同时,也作为业务系统为信息操作系统提供源数据,以便信息搜索系统基于这些源数据为用户提供信息的搜索服务。搜索中心为整个信息搜索系统的核心部分,由搜索运营后台、搜索模块和数据接入模块构成。其中,搜索中心的运营后台作用是保证搜索中心的正常运行。搜索模块用于执行相应的搜索请求,例如,对用户的提供的搜索内容进行识别、查询分析等等,或者将业务系统提供的信息进行存储等等。数据接入模块用于接收业务系统上传的信息,并与搜索模块之间建立了数据连接,将业务系统上传的信息传输给搜索模块进行缓存。
本发明实施例提供了一种基于自然语言理解的信息搜索方法,如图2所示,该方法包括:
201、接入至少一个业务系统。
发明人认识到,目前市面上正在运行的信息搜索系统通常是搭载在某一个固定的业务系统上的,提供的搜索功能只针对其所搭载的业务系统进行搜索,搜索的范围较为局限。而且,这些信息搜索系统仅支持关键字或者关键词等短字符串的搜索,不能有效理解用户意图,难以紧密与业务系统的流程结合起来,搜索的局限性较高,业务价值较低。因此,本发明提出一种基于自然语言理解的信息搜索方法,不仅将多个业务系统索引数据集成进行管理,使得通过信息搜索系统可以搜索到不同业务系统的信息,而且还引入NLU(NaturalLanguage Understanding,自然语言理解)处理能力,有效理解用户在特定业务系统中的意图,从而可以从用户交互过程中,精确收集所需信息,辅助业务流程推进,避免出现搜索内容的空白,打通搜索鸿沟,提升用户前端业务办理效率以及用户体验。
为了实现对多个业务系统的集成管理,在进行信息搜索之前,需要将至少一个业务系统接入到信息搜索系统中,从而保证在按照用户的需求进行信息的搜索时,可以在不同业务系统提供的不同业务数据中获取到。接入至少一个业务系统的具体过程如下:首先,接收至少一个业务系统的接入请求,为至少一个业务系统分配系统索引,基于系统索引对不同的业务系统以及不同业务系统的不同信息进行区分,保证信息搜索的准确性。随后,对于至少一个业务系统中的每个业务系统,接收业务系统上传的信息,将业务系统上传的信息存储至业务系统对应的系统数据库中。其中,信息搜索系统可以为每一个业务系统设置一个不同的系统数据库,并基于该系统数据库只存储对应的业务系统的信息。或者,还可以设置一个统一的系统数据库,在将业务系统的信息保存在系统数据库中时,采用业务系统的系统索引对信息进行标记,实现对信息的区分。在实际应用的过程中,上述为业务系统设置系统索引的过程可以通过运行索引组件实现。该索引组件可为ElasticSearch-Hadoop组件,通过ElasticSearch-Hadoop组件可以自动为接入到信息搜索系统中的业务系统分配相应的系统索引,并基于该ElasticSearch-Hadoop组件构建动态的嵌入式搜索应用,采用该搜索应用为用户提供相应的搜索功能,以便使用全文本、空间地理查询和聚合,执行深度的低延时分析,从而满足高复杂性海量系统索引的业务需求。另外,结合现有MPP(MassivelyParallel Processor,大规模并行处理)能力,使用该ElasticSearch-Hadoop组件可以快速的在业务系统中获取相应的信息,从而在满足业务系统搜索需求的同时,结合业务需求,在应用基础上提出业务创新,提供超越平常搜索的用户体验。
上述内容描述了业务系统采用最基础的数据传输的方式向信息搜索系统提供自身的信息,进一步地,业务系统还可以采用下述两种方式向信息搜索系统提供信息。一种方式是,业务系统向信息搜索系统提供指示了目标数据库在服务器上的所处位置以及目标数据库的数据条目的数据库映射文件,以便信息搜索系统接收业务系统提供的数据库映射文件,按照数据库映射文件包括的数据条目,在数据库映射文件对应的目标数据库中抽取数据条目对应的信息,将抽取到的信息存储至业务系统对应的系统数据库中。具体地,业务系统可以通过诸如Logstash的处理工具创建数据库映射文件。这样,Logstash使用JDBC(JavaData Base Connectivity,JAVA数据库连接)的方式为业务系统创建数据库映射文件,并在后续由Logstash通过增量抽取方式按照数据库映射文件进行信息的抽取。实际过程中,还可设置一个搜索队列中,该搜索队列具体可为ElasticSearch集群,这样,将该数据库映射文件添加至该搜索队列中后,运行该搜索队列就可以自动执行信息的抽取。另一种方式是,业务系统通过分布式处理任务将信息导入至信息搜索系统中。由于基于流式计算的搜索服务在智能监管实时监控中有着广泛的应用,因此,将业务系统的消息通过分布式处理任务引入信息搜索系统,可以提供近乎实时的信息搜索和处理能力,满足用户在实时性信息监管监控方面的业务需求,提供实时学习与离线学习并行的智能处理能力。具体地,信息搜索系统可以为每一个业务系统建立分布式处理任务,为分布式处理任务设置引流时长,每隔引流时长,获取业务系统上传的信息,基于业务系统上传的信息,对业务系统对应的系统数据库进行覆盖。
需要说明的是,上述接收业务系统提供的信息可由信息搜索系统中的搜索中心实现,具体由搜索中心中的数据接入模块执行,并由数据接入模块将接收到的业务系统上传的信息传输给搜索模块进行缓存,以便搜索模块在后续执行数据的搜索操作。
202、接收用户在目标业务系统中输入的搜索内容。
在本发明实施例中,信息搜索系统可在前端应用上为每个业务系统设置独立的界面,并在该界面上提供搜索框,用户可以在搜索框上输入想要搜索的信息,这样,当搜索框检测到用户输入的内容时,便可以直接根据搜索框所在的界面确定目标业务系统,并获取到用户在目标业务系统中输入的搜索内容。其中,用户在搜索框中输入的搜索内容可为文章、关键字、关键词、短句子或者长句子等,本发明对此不进行具体限定。当信息搜索系统基于前端应用接收到用户的搜索内容后,会将搜索内容传输至信息搜索系统的搜索中心,基于搜索中心中的搜索模块实现对搜索内容的分析、识别、查询等操作。需要说明的是,考虑到搜索中心在同一时间可能会接收到大量的搜索内容而没有办法即刻的处理,因此,可以在搜索模块中设置缓存空间,将暂时没能处理的搜索内容缓存在缓存空间中,以便在具有处理能力时及时处理。
203、基于自然语言理解对搜索内容进行识别,得到搜索意图和搜索实体。
在本发明实施例中,由于简单的基于关键词、关键字等对搜索内容进行识别,很可能会对用户进行搜索的真正意图存在理解的偏差,因此,本发明中基于自然语言理解对搜索内容进行识别,通过判断用户的搜索意图和搜索实体,从而保证对搜索内容识别的正确性。
其中,为了实现基于自然语言理解对搜索内容进行识别,信息搜索系统中需要基于自然语言理解建立一个意图列表,在意图列表中存储至少一个表达字词与意图描述之间的对应关系,以便后续通过识别搜索内容中的表达字词,来确定用户执行搜索的意图。参见下表1,意图列表可包括表1中所示的表达字词、意图描述。或者,为了简化意图描述,还可以为每个意图描述设置意图名称。本发明对意图列表包括的具体内容不进行限定。
表1
这样,当接收用户在目标业务系统中输入的搜索内容时,首先,按照表达词模板对搜索内容进行文字识别,在搜索内容中提取表达字词。随后,获取基于自然语言理解建立的意图列表,将表达字词在意图列表中对应的意图描述作为搜索意图即可。
在确定了用户的搜索意图后,便需要确定用户的这一搜索意图是针对哪一个东西的,进而针对这个东西执行用户的意图,因此,对搜索内容进行字段属性识别,在搜索内容中提取具有名词属性的字段作为搜索实体,并在后续基于该搜索实体开展搜索。例如,假设用户输入的搜索内容为【感冒了吃什么药?】,则该搜索内容中具有名词属性的字段为【药】,则将【药】作为搜索实体即可。或者,假设用户输入的搜索内容为【感冒了可以吃头孢吗?】,则该搜索内容中具有名词属性的字段为【头孢】,则将【头孢】作为搜索实体即可。
上述基于自然语言理解对搜索内容进行识别属于一种精确的识别手段,而在实际应用的过程中,用户可能输入的搜索内容是关键词、关键字或者短句子,关键词、关键字或者短句子基于自然语言理解进行识别的效率并不高,因此,可以直接将关键字、关键词和短句子提取出来作为搜索实体在目标业务系统中确定具有相关性的信息。如果用户输入的搜索内容是文章,信息搜索系统也可以基于自然语言理解对该文章进行识别,或者也可以将文章的标题提取出来作为搜索实体,或者对文章进行遍历,在文章中提取出现率最高的词语作为搜索实体。本发明对用户输入的搜索内容的形式不进行具体限定。
204、获取目标业务系统的目标系统索引,确定目标系统索引指示的目标系统数据库,在目标系统数据库中提取多个初始信息,将多个初始信息作为意图领域。
在本发明实施例中,由于每个业务系统都具有与其对应的系统索引,且不同业务系统的信息都是基于系统索引进行区分的,而用户使用哪种业务系统请求进行信息搜索就会希望可以获取哪个业务系统相关方面的信息,因此,获取目标业务系统的目标系统索引,将目标系统索引指示的目标系统数据库作为进行信息搜索的基础。
其中,在获取到用户的搜索内容后,根据搜索内容可以识别到用户的搜索意图,搜索意图实质是限制了进行信息搜索的范围,因此,可以先基于搜索意图确定了一个意图领域,并在后续直接在该意图领域中搜索具体的信息,从而保证与用户的搜索意图高度契合。具体地,一般来说,业务系统上传到信息搜索系统中的信息都是有自身的信息标签的,例如,对于与胃溃疡相关的信息,通常设置的标签为【医疗】、【胃病】、【溃疡】、【胃】、【消化】、【上腹部】、【烧灼样痛】等等,因此,在确定意图领域时,可以在目标系统数据库中提取具有与搜索意图一致的信息标签的多个初始信息,将多个初始信息作为意图领域。例如,假设意图领域为【医疗领域】,则具有【医疗】这一信息标签的信息都可以作为初始信息。
205、在意图领域中提取至少一个指定初始信息作为至少一个目标信息。
在本发明实施例中,当确定了意图领域后,在意图领域中提取与搜索实体至少一个指定初始信息作为至少一个目标信息。其中,至少一个指定初始信息是与搜索实体具有相关性的初始信息,相关性可以体现在至少一个指定初始信息的文字内容至少包括搜索实体,也就是只要文字内容中提及到搜索实体,都可以作为目标信息。对于每一个初始信息,可以遍历该初始信息,如果该初始信息出现了搜索实体,则可以确定将该指定初始信息作为目标信息。
206、将至少一个目标信息返回给用户。
在本发明实施例中,在确定了至少一个目标信息后,便可以将至少一个目标信息返回给用户进行展示,以便用户阅览或将该信息纳入下一个业务流程。其中,在将至少一个目标信息返回给用户时,由于有些目标信息与搜索内容的契合度很高,是完全符合用户的搜索目的的,用户是很希望先看到这种目标信息的,而有些目标信息可能并不是特别符合用户的搜索目的,用户不是很关注这种目标信息,因此,在将至少一个目标信息返回给用户时,可以确定每个目标信息与搜索内容的相关性,保证相关性最高的目标信息首先返回给用户进行浏览,从而提高用户的搜索体验。
在确定目标信息与搜索内容的相关性时,可以基于目标信息与搜索内容重合的词语个数来体现。具体地,首先,统计至少一个目标信息中每个目标信息与搜索内容重合词语的词语个数,按照词语个数从多到少的顺序对至少一个目标信息进行排序,得到排序结果。随后,将至少一个目标信息按照排序结果依次返回给用户进行展示。
进一步地,有些业务系统的承载量有限,无法承载太多的目标信息,其中会设置有用于限流的个数阈值,因此,若目标业务系统中设置有个数阈值,则在排序结果中提取排在首位的满足个数阈值的目标信息,将满足个数阈值的目标信息按照排序结果依次返回给用户进行展示。例如,假设目标业务系统中设置的个数阈值为3,则将排在排序结果前三位的目标信息返回给用户即可,剩余的目标信息可以不用返回。
本发明实施例提供的方法,可以基于自然语言理解对用户在目标业务系统中输入搜索内容进行识别,确定识别到的搜索意图在目标业务系统中指示的意图领域,在意图领域中获取识别到的搜索实体对应的至少一个目标信息并返回,保证采用自然语言理解对用户执行搜索的意图进行识别后再执行常规的搜索流程,避免对用户的搜索意图存在偏差的理解,解除了搜索的局限性,提高了搜索的准确性。
进一步地,作为图1A所述方法的具体实现,本发明实施例提供了一种基于自然语言理解的信息搜索装置,如图3A所示,所述装置包括:接收模块301,识别模块302,获取模块303和返回模块304。
该接收模块301,用于接收用户在目标业务系统中输入的搜索内容;
该识别模块302,用于基于自然语言理解对所述搜索内容进行识别,得到搜索意图和搜索实体;
该获取模块303,用于确定所述搜索意图在所述目标业务系统中指示的意图领域,在所述意图领域中获取所述搜索实体对应的至少一个目标信息;
该返回模块304,用于将所述至少一个目标信息返回给所述用户。
在具体的应用场景中,如图3B所示,该装置还包括:分配模块305和存储模块306。
该分配模块305,用于接收至少一个业务系统的接入请求,为所述至少一个业务系统分配系统索引;
该存储模块306,用于对于所述至少一个业务系统中的每个业务系统,接收所述业务系统上传的信息,将所述业务系统上传的信息存储至所述业务系统的系统索引指示的系统数据库中。
在具体的应用场景中,该存储模块306,用于接收所述业务系统提供的数据库映射文件,按照所述数据库映射文件包括的数据条目,在所述数据库映射文件对应的目标数据库中抽取所述数据条目对应的信息,将抽取到的所述信息存储至所述业务系统对应的系统数据库中,所述数据库映射文件指示了所述目标数据库在服务器上的所处位置以及所述目标数据库的数据条目;或,建立分布式处理任务,为所述分布式处理任务设置引流时长,每隔所述引流时长,获取所述业务系统上传的信息,基于所述业务系统上传的信息,对所述业务系统对应的系统数据库进行覆盖。
在具体的应用场景中,如图3C所示,该识别模块302,包括:识别单元3021,获取单元3022和提取单元3023。
该识别单元3021,用于按照表达词模板对所述搜索内容进行文字识别,在所述搜索内容中提取表达字词;
该获取单元3022,用于获取基于自然语言理解建立的意图列表,将所述表达字词在所述意图列表中对应的意图描述作为所述搜索意图,所述意图列表中存储有至少一个表达字词与意图描述之间的对应关系;
该提取单元3023,用于对所述搜索内容进行字段属性识别,在所述搜索内容中提取具有名词属性的字段作为所述搜索实体。
在具体的应用场景中,如图3D所示,该获取模块303,包括:确定单元3031,第一提取单元3032和第二提取单元3033。
该确定单元3031,用于获取所述目标业务系统的目标系统索引,确定所述目标系统索引指示的目标系统数据库;
该第一提取单元3032,用于在所述目标系统数据库中提取多个初始信息,将所述多个初始信息作为所述意图领域,所述多个初始信息均具有与所述搜索意图一致的信息标签;
该第二提取单元3033,用于在所述意图领域中提取至少一个指定初始信息作为所述至少一个目标信息,所述至少一个指定初始信息的文字内容至少包括所述搜索实体。
在具体的应用场景中,如图3E所示,该返回模块304,包括:统计单元3041,排序单元3042和展示单元3043。
该统计单元3041,用于统计所述至少一个目标信息中每个目标信息与所述搜索内容重合词语的词语个数;
该排序单元3042,用于按照所述词语个数从多到少的顺序对所述至少一个目标信息进行排序,得到排序结果;
该展示单元3043,用于将所述至少一个目标信息按照所述排序结果依次返回给所述用户进行展示。
在具体的应用场景中,如图3F所示,该返回模块304,还包括:提取单元3044。
该提取单元3044,用于若所述目标业务系统中设置有个数阈值,则在所述排序结果中提取排在首位的满足所述个数阈值的目标信息;
该展示单元3043,还用于将满足所述个数阈值的目标信息按照所述排序结果依次返回给所述用户进行展示。
本发明实施例提供的装置,可以基于自然语言理解对用户在目标业务系统中输入搜索内容进行识别,确定识别到的搜索意图在目标业务系统中指示的意图领域,在意图领域中获取识别到的搜索实体对应的至少一个目标信息并返回,保证采用自然语言理解对用户执行搜索的意图进行识别后再执行常规的搜索流程,避免对用户的搜索意图存在偏差的理解,解除了搜索的局限性,提高了搜索的准确性。
需要说明的是,本发明实施例提供的一种基于自然语言理解的信息搜索装置所涉及各功能单元的其他相应描述,可以参考图1A和图2中的对应描述,在此不再赘述。
在示例性实施例中,参见图4,还提供了一种设备,该设备400包括通信总线、处理器、存储器和通信接口,还可以包括、输入输出接口和显示设备,其中,各个功能单元之间可以通过总线完成相互间的通信。该存储器存储有计算机程序,处理器,用于执行存储器上所存放的程序,执行上述实施例中的基于自然语言理解的信息搜索方法。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的基于自然语言理解的信息搜索方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以通过硬件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。
本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。
以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。
Claims (8)
1.一种基于自然语言理解的信息搜索方法,其特征在于,包括:
接收用户在目标业务系统中输入的搜索内容;
基于自然语言理解对所述搜索内容进行识别,得到搜索意图和搜索实体,包括:按照表达词模板对所述搜索内容进行文字识别,在所述搜索内容中提取表达字词,获取基于自然语言理解建立的意图列表,将所述表达字词在所述意图列表中对应的意图描述作为所述搜索意图,所述意图列表中存储有至少一个表达字词与意图描述之间的对应关系,对所述搜索内容进行字段属性识别,在所述搜索内容中提取具有名词属性的字段作为所述搜索实体;
确定所述搜索意图在所述目标业务系统中指示的意图领域,在所述意图领域中获取所述搜索实体对应的至少一个目标信息,包括:获取所述目标业务系统的目标系统索引,确定所述目标系统索引指示的目标系统数据库,在所述目标系统数据库中提取多个初始信息,将所述多个初始信息作为所述意图领域,所述多个初始信息均具有与所述搜索意图一致的信息标签,在所述意图领域中提取至少一个指定初始信息作为所述至少一个目标信息,所述至少一个指定初始信息的文字内容至少包括所述搜索实体;
将所述至少一个目标信息返回给所述用户。
2.根据权利要求1所述的方法,其特征在于,所述接收用户在目标业务系统中输入的搜索内容之前,所述方法还包括:
接收至少一个业务系统的接入请求,为所述至少一个业务系统分配系统索引;
对于所述至少一个业务系统中的每个业务系统,接收所述业务系统上传的信息,将所述业务系统上传的信息存储至所述业务系统的系统索引指示的系统数据库中。
3.根据权利要求2所述的方法,其特征在于,所述接收所述业务系统上传的信息,将所述业务系统上传的信息存储至所述业务系统对应的系统数据库中,包括:
接收所述业务系统提供的数据库映射文件,按照所述数据库映射文件包括的数据条目,在所述数据库映射文件对应的目标数据库中抽取所述数据条目对应的信息,将抽取到的所述信息存储至所述业务系统对应的系统数据库中,所述数据库映射文件指示了所述目标数据库在服务器上的所处位置以及所述目标数据库的数据条目;或,
建立分布式处理任务,为所述分布式处理任务设置引流时长,每隔所述引流时长,获取所述业务系统上传的信息,基于所述业务系统上传的信息,对所述业务系统对应的系统数据库进行覆盖。
4.根据权利要求1所述的方法,其特征在于,所述将所述至少一个目标信息返回给所述用户,包括:
统计所述至少一个目标信息中每个目标信息与所述搜索内容重合词语的词语个数;
按照所述词语个数从多到少的顺序对所述至少一个目标信息进行排序,得到排序结果;
将所述至少一个目标信息按照所述排序结果依次返回给所述用户进行展示。
5.根据权利要求4所述的方法,其特征在于,所述将所述至少一个目标信息返回给所述用户,还包括:
若所述目标业务系统中设置有个数阈值,则在所述排序结果中提取排在首位的满足所述个数阈值的目标信息;
将满足所述个数阈值的目标信息按照所述排序结果依次返回给所述用户进行展示。
6.一种基于自然语言理解的信息搜索装置,其特征在于,包括:
接收模块,用于接收用户在目标业务系统中输入的搜索内容;
识别模块,用于基于自然语言理解对所述搜索内容进行识别,得到搜索意图和搜索实体,包括:按照表达词模板对所述搜索内容进行文字识别,在所述搜索内容中提取表达字词,获取基于自然语言理解建立的意图列表,将所述表达字词在所述意图列表中对应的意图描述作为所述搜索意图,所述意图列表中存储有至少一个表达字词与意图描述之间的对应关系,对所述搜索内容进行字段属性识别,在所述搜索内容中提取具有名词属性的字段作为所述搜索实体;
获取模块,用于确定所述搜索意图在所述目标业务系统中指示的意图领域,在所述意图领域中获取所述搜索实体对应的至少一个目标信息,包括:获取所述目标业务系统的目标系统索引,确定所述目标系统索引指示的目标系统数据库,在所述目标系统数据库中提取多个初始信息,将所述多个初始信息作为所述意图领域,所述多个初始信息均具有与所述搜索意图一致的信息标签,在所述意图领域中提取至少一个指定初始信息作为所述至少一个目标信息,所述至少一个指定初始信息的文字内容至少包括所述搜索实体;
返回模块,用于将所述至少一个目标信息返回给所述用户。
7.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010222049.7A CN111552768B (zh) | 2020-03-26 | 2020-03-26 | 基于自然语言理解的信息搜索方法、装置、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010222049.7A CN111552768B (zh) | 2020-03-26 | 2020-03-26 | 基于自然语言理解的信息搜索方法、装置、设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111552768A CN111552768A (zh) | 2020-08-18 |
CN111552768B true CN111552768B (zh) | 2022-07-19 |
Family
ID=72004192
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010222049.7A Active CN111552768B (zh) | 2020-03-26 | 2020-03-26 | 基于自然语言理解的信息搜索方法、装置、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111552768B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102096717A (zh) * | 2011-02-15 | 2011-06-15 | 百度在线网络技术(北京)有限公司 | 搜索方法及搜索引擎 |
CN102184257A (zh) * | 2011-06-02 | 2011-09-14 | 广东亿迅科技有限公司 | 一种统一搜索方法、装置及系统 |
CN102880645A (zh) * | 2012-08-24 | 2013-01-16 | 上海云叟网络科技有限公司 | 语义化的智能搜索方法 |
CN103198067A (zh) * | 2012-01-06 | 2013-07-10 | 卓望数码技术(深圳)有限公司 | 一种业务搜索方法及系统 |
CN103761242A (zh) * | 2012-12-31 | 2014-04-30 | 威盛电子股份有限公司 | 检索方法、检索系统以及自然语言理解系统 |
CN104077407A (zh) * | 2014-07-10 | 2014-10-01 | 中国工商银行股份有限公司 | 一种智能数据搜索系统及方法 |
CN104951458A (zh) * | 2014-03-26 | 2015-09-30 | 华为技术有限公司 | 基于语义识别的帮助处理方法及设备 |
CN105359144A (zh) * | 2013-06-04 | 2016-02-24 | 谷歌公司 | 用于意图查询的自然语言搜索结果 |
CN109344336A (zh) * | 2018-12-25 | 2019-02-15 | 北京时光荏苒科技有限公司 | 搜索方法、搜索集生成方法、装置、介质、终端及服务器 |
CN109684357A (zh) * | 2018-12-21 | 2019-04-26 | 上海智臻智能网络科技股份有限公司 | 信息处理方法及装置、存储介质、终端 |
WO2020009297A1 (ko) * | 2018-07-05 | 2020-01-09 | 미디어젠 주식회사 | 도메인 추출기반의 언어 이해 성능 향상장치및 성능 향상방법 |
CN110765275A (zh) * | 2019-10-14 | 2020-02-07 | 平安医疗健康管理股份有限公司 | 搜索方法、装置、计算机设备和存储介质 |
-
2020
- 2020-03-26 CN CN202010222049.7A patent/CN111552768B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102096717A (zh) * | 2011-02-15 | 2011-06-15 | 百度在线网络技术(北京)有限公司 | 搜索方法及搜索引擎 |
CN102184257A (zh) * | 2011-06-02 | 2011-09-14 | 广东亿迅科技有限公司 | 一种统一搜索方法、装置及系统 |
CN103198067A (zh) * | 2012-01-06 | 2013-07-10 | 卓望数码技术(深圳)有限公司 | 一种业务搜索方法及系统 |
CN102880645A (zh) * | 2012-08-24 | 2013-01-16 | 上海云叟网络科技有限公司 | 语义化的智能搜索方法 |
CN103761242A (zh) * | 2012-12-31 | 2014-04-30 | 威盛电子股份有限公司 | 检索方法、检索系统以及自然语言理解系统 |
CN105359144A (zh) * | 2013-06-04 | 2016-02-24 | 谷歌公司 | 用于意图查询的自然语言搜索结果 |
CN104951458A (zh) * | 2014-03-26 | 2015-09-30 | 华为技术有限公司 | 基于语义识别的帮助处理方法及设备 |
CN104077407A (zh) * | 2014-07-10 | 2014-10-01 | 中国工商银行股份有限公司 | 一种智能数据搜索系统及方法 |
WO2020009297A1 (ko) * | 2018-07-05 | 2020-01-09 | 미디어젠 주식회사 | 도메인 추출기반의 언어 이해 성능 향상장치및 성능 향상방법 |
CN109684357A (zh) * | 2018-12-21 | 2019-04-26 | 上海智臻智能网络科技股份有限公司 | 信息处理方法及装置、存储介质、终端 |
CN109344336A (zh) * | 2018-12-25 | 2019-02-15 | 北京时光荏苒科技有限公司 | 搜索方法、搜索集生成方法、装置、介质、终端及服务器 |
CN110765275A (zh) * | 2019-10-14 | 2020-02-07 | 平安医疗健康管理股份有限公司 | 搜索方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111552768A (zh) | 2020-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113707297B (zh) | 医疗数据的处理方法、装置、设备及存储介质 | |
US8819047B2 (en) | Fact verification engine | |
US5857194A (en) | Automatic transmission of legacy system data | |
US20160034514A1 (en) | Providing search results based on an identified user interest and relevance matching | |
US20150310090A1 (en) | Clustered Information Processing and Searching with Structured-Unstructured Database Bridge | |
US11210334B2 (en) | Method, apparatus, server and storage medium for image retrieval | |
US20070143282A1 (en) | Anchor text summarization for corroboration | |
JP2013516022A (ja) | 検索提案のクラスタ化及び提示 | |
CN111428047B (zh) | 一种基于ucl语义标引的知识图谱构建方法及装置 | |
CN113407785B (zh) | 一种基于分布式储存系统的数据处理方法和系统 | |
JP6165955B1 (ja) | 検索クエリに応答してホワイトリストとブラックリストを使用し画像とコンテンツをマッチングする方法及びシステム | |
CN110737821B (zh) | 相似事件查询的方法、装置、存储介质和终端设备 | |
CN113190687B (zh) | 知识图谱的确定方法、装置、计算机设备及存储介质 | |
Wolfram | The symbiotic relationship between information retrieval and informetrics | |
US20080147631A1 (en) | Method and system for collecting and retrieving information from web sites | |
CN110569419A (zh) | 问答系统优化方法、装置、计算机设备及存储介质 | |
CN111400323A (zh) | 数据检索方法、系统、设备及存储介质 | |
US9251136B2 (en) | Document tagging and retrieval using entity specifiers | |
CN111460095A (zh) | 问答处理方法、装置、电子设备及存储介质 | |
CN112966053A (zh) | 一种基于知识图谱的海洋领域专家库构建方法及装置 | |
CN111552768B (zh) | 基于自然语言理解的信息搜索方法、装置、设备及可读存储介质 | |
CN114117242A (zh) | 数据查询方法和装置、计算机设备、存储介质 | |
Knoblock et al. | Automatic spatio-temporal indexing to integrate and analyze the data of an organization | |
CN113590792A (zh) | 用户问题的处理方法、装置和服务器 | |
CN112328752A (zh) | 基于搜索内容的课程推荐方法、装置、计算机设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20220524 Address after: 518000 China Aviation Center 2901, No. 1018, Huafu Road, Huahang community, Huaqiang North Street, Futian District, Shenzhen, Guangdong Province Applicant after: Shenzhen Ping An medical and Health Technology Service Co.,Ltd. Address before: Room 12G, Area H, 666 Beijing East Road, Huangpu District, Shanghai 200001 Applicant before: PING AN MEDICAL AND HEALTHCARE MANAGEMENT Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |