CN111159381A - 数据搜索方法及装置 - Google Patents

数据搜索方法及装置 Download PDF

Info

Publication number
CN111159381A
CN111159381A CN201911406508.0A CN201911406508A CN111159381A CN 111159381 A CN111159381 A CN 111159381A CN 201911406508 A CN201911406508 A CN 201911406508A CN 111159381 A CN111159381 A CN 111159381A
Authority
CN
China
Prior art keywords
natural language
input information
language input
data
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911406508.0A
Other languages
English (en)
Other versions
CN111159381B (zh
Inventor
董旭
姜楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bank of China Ltd
Original Assignee
Bank of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bank of China Ltd filed Critical Bank of China Ltd
Priority to CN201911406508.0A priority Critical patent/CN111159381B/zh
Publication of CN111159381A publication Critical patent/CN111159381A/zh
Application granted granted Critical
Publication of CN111159381B publication Critical patent/CN111159381B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了一种数据搜索方法及装置,其中方法包括:获取自然语言输入信息;根据所述自然语言输入信息,确定所述自然语言输入信息对应的搜索意图数据;根据所述搜索意图数据和预先建立的匹配模型,确定所述自然语言输入信息对应的搜索意图类型,其中所述匹配模型根据自然语言历史输入信息预先建立,所述搜索意图类型包括:列表清单类型,属性值类型或对象信息类型;根据所述自然语言输入信息和对应的搜索意图类型,对数据进行搜索。本发明可以在保证搜索准确率的同时提高搜索效率,节省人力物力,提升用户满意度。

Description

数据搜索方法及装置
技术领域
本发明涉及计算机技术领域,尤其涉及数据搜索方法及装置。
背景技术
搜索引擎为用户提供了一个快速查找信息系统中海量数据资源的渠道。在数据搜索过程中,大多数用户并不能十分准确地用自然语言表达自己的搜索意图,从而无法进行精准搜索,甚至根本就搜索不到用户真正需要查找的信息。
为了提高搜索的准确率,现有技术中通常对用户输入的自然语言信息进行人工分析,实现数据搜索,但是这种方式耗费大量人力物力,数据搜索效率低,影响用户满意度。
发明内容
本发明实施例提供一种数据搜索方法,用以搜索数据资源,在保证搜索准确率的同时提高搜索效率,节省人力物力,提升用户满意度,该方法包括:
获取自然语言输入信息;
根据所述自然语言输入信息,确定所述自然语言输入信息对应的搜索意图数据;
根据所述搜索意图数据和预先建立的匹配模型,确定所述自然语言输入信息对应的搜索意图类型,其中所述匹配模型根据自然语言历史输入信息预先建立,所述搜索意图类型包括:列表清单类型,属性值类型或对象信息类型;
根据所述自然语言输入信息和对应的搜索意图类型,对数据进行搜索。
本发明实施例提供一种数据搜索装置,用以搜索数据资源,在保证搜索准确率的同时提高搜索效率,节省人力物力,提升用户满意度,该装置包括:
信息获取模块,用于获取自然语言输入信息;
数据确定模块,用于根据所述自然语言输入信息,确定所述自然语言输入信息对应的搜索意图数据;
类型确定模块,用于根据所述搜索意图数据和预先建立的匹配模型,确定所述自然语言输入信息对应的搜索意图类型,其中所述匹配模型根据自然语言历史输入信息预先建立,所述搜索意图类型包括:列表清单类型,属性值类型或对象信息类型;
数据搜索模块,用于根据所述自然语言输入信息和对应的搜索意图类型,对数据进行搜索。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述数据搜索方法。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述数据搜索方法。
相对于现有技术中通过对用户输入的自然语言信息进行人工分析实现数据搜索的方案而言,本发明实施例通过获取自然语言输入信息;根据所述自然语言输入信息,确定所述自然语言输入信息对应的搜索意图数据;根据所述搜索意图数据和预先建立的匹配模型,确定所述自然语言输入信息对应的搜索意图类型,其中所述匹配模型根据自然语言历史输入信息预先建立,所述搜索意图类型包括:列表清单类型,属性值类型或对象信息类型;根据所述自然语言输入信息和对应的搜索意图类型,对数据进行搜索。本发明实施例无需进行人工分析,通过确定的自然语言输入信息对应的搜索意图数据和预先建立的匹配模型,可以确定搜索意图类型,进而根据自然语言输入信息和对应的搜索意图类型,对数据进行搜索,利用自然语言处理方法锁定用户的搜索意图,从而有效减小了搜索难度,在保证搜索准确率的同时提高搜索效率,节省人力物力,提升用户满意度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本发明实施例中数据搜索方法示意图;
图2为本发明实施例中数据搜索装置结构图;
图3为本发明具体实施例中数据搜索流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
首先,对本申请实施例中涉及的名词进行介绍:
自然语言处理:即实现人机间自然语言通信,或实现自然语言理解和自然语言生成,是研究实现人与计算机之间用自然语言进行有效通信的各种理论和方法,研制能有效地实现自然语言通信的计算机系统。
全文检索:是一种新的信息检索技术能够支持对超大文本、语音、图像、活动影像等非结构化信息数据进行综合管理的复合技术。
全文数据库:是全文检索系统的主要构成部分,将一个完整的信息员的全部内容转化为计算机可以识别、处理的信息单元而形成的数据集合。
智能搜索引擎:具有信息服务的智能化、人性化特征,允许采用自然语言进行信息的检索,根据用户请求,结合人工智能技术从可以获得的网络资源中检索出对用户最优价值的信息的新一代搜索引擎。
图数据库:以节点和关系为基本元素用图来存储数据,是最接近高性能的一种用于存储数据的数据结构之一。
词向量:Word嵌入式自然语言处理中的一组语言建模和特征学习的技术的统称,其中来自词汇表的单词和短语被映射到实数的向量。
语料库:指经过科学取样和加工的大规模电子文本库。
为了搜索数据资源,在保证搜索准确率的同时提高搜索效率,节省人力物力,提升用户满意度,本发明实施例提供一种数据搜索方法,如图1所示,该方法可以包括:
步骤101、获取自然语言输入信息;
步骤102、根据所述自然语言输入信息,确定所述自然语言输入信息对应的搜索意图数据;
步骤103、根据所述搜索意图数据和预先建立的匹配模型,确定所述自然语言输入信息对应的搜索意图类型,其中所述匹配模型根据自然语言历史输入信息预先建立,所述搜索意图类型包括:列表清单类型,属性值类型或对象信息类型;
步骤104、根据所述自然语言输入信息和对应的搜索意图类型,对数据进行搜索。
由图1所示可以得知,本发明实施例通过获取自然语言输入信息;根据所述自然语言输入信息,确定所述自然语言输入信息对应的搜索意图数据;根据所述搜索意图数据和预先建立的匹配模型,确定所述自然语言输入信息对应的搜索意图类型,其中所述匹配模型根据自然语言历史输入信息预先建立,所述搜索意图类型包括:列表清单类型,属性值类型或对象信息类型;根据所述自然语言输入信息和对应的搜索意图类型,对数据进行搜索。本发明实施例无需进行人工分析,通过确定的自然语言输入信息对应的搜索意图数据和预先建立的匹配模型,可以确定搜索意图类型,进而根据自然语言输入信息和对应的搜索意图类型,对数据进行搜索,利用自然语言处理方法锁定用户的搜索意图,从而有效减小了搜索难度,在保证搜索准确率的同时提高搜索效率,节省人力物力,提升用户满意度。
具体实施时,获取自然语言输入信息之后,根据所述自然语言输入信息,确定所述自然语言输入信息对应的搜索意图数据。
发明人发现,目前在银行风险管理应用中的数据搜索还处在传统阶段,需要经过大量的手工操作,耗费较高的时间和精力。因此,需要机器真正理解用户的搜索意图,检索出意图背后的答案,提供一站式智能化、人性化、简单化的智能搜索引擎。如客户风险信息的智能化搜索,根据用户输入的搜索需求描述,也即自然语言输入信息,智能解析客户搜索意图,反馈用户所关注的风险信息:输入查找在上海注册的金融企业,系统即返回注册地在上海且行业是金融的企业列表。以此可以在保证搜索准确率的同时提高搜索效率,节省人力物力,提升用户满意度,提供自动化和智能化水平。
实施例中,根据所述自然语言输入信息,确定所述自然语言输入信息对应的搜索意图数据,包括:对所述自然语言输入信息进行语义分析处理;根据所述自然语言输入信息的处理结果,确定所述自然语言输入信息对应的搜索意图数据。
本实施例中,所述语义分析处理包括:中文分词处理,同义词识别处理,纠错处理,语料训练及深度学习处理,句法分析处理,依存关系分析处理,段落摘要提取处理,联想预测处理其中之一或任意组合。中文分词处理是处理汉语语言必不可少的一部分,在语料库和知识库的支持下将完整汉语语句分割成单词,并写入各个单词的词性、权重和词频等属性;同义词识别处理和纠错处理能够解决自然语言处理中经常遇到的消歧的问题,前者主要是在句法和语境中进行消歧,后者主要是在具体检索过程中依靠用户习惯以及系统的业务范围和检索逻辑进行消歧;句法分析处理和依存关系分析处理分别从自然语言的语法结构和词与词之间的相关性关系进行语义分析,把用户检索的内容使用复杂的特征向量进行描述,并计算相似度,获取词向量以及用户的意图的的最大可能性;语料库训练和深度学习处理在大量的语料库中针对智能检索引擎在风险管理领域的工作进行相对应的训练。在技术支持的角度对分词、句法分析依存关系分析提供更多关于经济和风险相关领域的语料补充,并进行权重调整;段落摘要提取处理主要用于处理较长的自然语言语句,从中提取出具有价值的信息,将其转化为最终的用户意图;联想预测处理从关键词相关性、用户检索历史和风险管理工作流程等方面在显示检索结果的同时,显示用户可能的后续检索结果。
具体实施时,根据所述搜索意图数据和预先建立的匹配模型,确定所述自然语言输入信息对应的搜索意图类型,其中所述匹配模型根据自然语言历史输入信息预先建立,所述搜索意图类型包括:列表清单类型,属性值类型或对象信息类型。
实施例中,根据所述搜索意图数据和预先建立的匹配模型,确定所述自然语言输入信息对应的搜索意图类型,包括:计算所述搜索意图数据和预先建立的匹配模型的相关性;根据相关性计算结果确定所述自然语言输入信息对应的搜索意图类型。
本实施例中,为不确定性的用户意图划分出有限的目标需求,实现用户的意图与业务搜索结果相匹配。分析平台的所支持的检索功能以及所能提供给用户的业务检索服务,分层次地为检索引擎定义出对应业务检索目标。如平台支持的业务检索目标从类型上可以分为:列表清单类型,属性值类型或对象信息类型,完成初步划分之后在下一个层次可以继续划分为相应的具体业务。对系统提供的检索业务按照层次顺序进行划分,确定检索平台所能够支持的各个具体的检索类别,分别定义意图类型并匹配相对应的页面或视图属性,以此作为后续进行意图类型匹配的基础。
本实施例中,根据所述搜索意图数据和预先建立的匹配模型,确定所述自然语言输入信息对应的搜索意图类型,完成用户搜索意图数据向系统支持的搜索意图类型的匹配功能。计算所述搜索意图数据和预先建立的匹配模型的相关性,训练相关性算法,构建指标权重,获取用户意图的最大可能,根据相关性计算结果确定所述自然语言输入信息对应的搜索意图类型。
具体实施时,根据所述自然语言输入信息和对应的搜索意图类型,对数据进行搜索。
实施例中,根据所述自然语言输入信息和对应的搜索意图类型,对数据进行搜索,包括:根据所述自然语言输入信息对应的搜索意图类型,从所述自然语言输入信息中提取关键字;根据所述关键字,生成数据搜索语句;根据所述数据搜索语句,对数据进行搜索。
实施例中,根据所述自然语言输入信息对应的搜索意图类型,从所述自然语言输入信息中提取关键字,包括:若所述自然语言输入信息对应的搜索意图类型为列表清单类型,从所述自然语言输入信息中提取属性关键字,对象关键字和逻辑关键字;若所述自然语言输入信息对应的搜索意图类型为属性值类型,从所述自然语言输入信息中提取属性关键字和对象关键字;若所述自然语言输入信息对应的搜索意图类型为对象信息类型,从所述自然语言输入信息中提取对象关键字。
实施例中,引入全文检索服务器,与Solr全文检索服务器进行整合,提升搜索引擎在全文搜索中的效率,将搜索时长缩短为毫秒级。同时全文检索服务器具有:相配套的中文分词器、自定义词库,智能纠错、同义词识别等功能,实现了可配置、可扩展并对查询性能进行了优化。
实施例中,用户还可以设置自定义词典,根据用户实际需求可以自定义分词、同义词以及停用词等。
基于同一发明构思,本发明实施例还提供了一种数据搜索装置,如下面的实施例所述。由于这些解决问题的原理与数据搜索方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
图2为本发明实施例中数据搜索装置的结构图,如图2所示,该装置包括:
信息获取模块201,用于获取自然语言输入信息;
数据确定模块202,用于根据所述自然语言输入信息,确定所述自然语言输入信息对应的搜索意图数据;
类型确定模块203,用于根据所述搜索意图数据和预先建立的匹配模型,确定所述自然语言输入信息对应的搜索意图类型,其中所述匹配模型根据自然语言历史输入信息预先建立,所述搜索意图类型包括:列表清单类型,属性值类型或对象信息类型;
数据搜索模块204,用于根据所述自然语言输入信息和对应的搜索意图类型,对数据进行搜索。
一个实施例中,所述数据确定模块202进一步用于:
对所述自然语言输入信息进行语义分析处理;
根据所述自然语言输入信息的处理结果,确定所述自然语言输入信息对应的搜索意图数据。
一个实施例中,所述语义分析处理包括:中文分词处理,同义词识别处理,纠错处理,语料训练及深度学习处理,句法分析处理,依存关系分析处理,段落摘要提取处理,联想预测处理其中之一或任意组合。
一个实施例中,所述类型确定模块203进一步用于:
计算所述搜索意图数据和预先建立的匹配模型的相关性;
根据相关性计算结果确定所述自然语言输入信息对应的搜索意图类型。
一个实施例中,所述数据搜索模块204进一步用于:
根据所述自然语言输入信息对应的搜索意图类型,从所述自然语言输入信息中提取关键字;
根据所述关键字,生成数据搜索语句;
根据所述数据搜索语句,对数据进行搜索。
一个实施例中,所述数据搜索模块204进一步用于:
若所述自然语言输入信息对应的搜索意图类型为列表清单类型,从所述自然语言输入信息中提取属性关键字,对象关键字和逻辑关键字;
若所述自然语言输入信息对应的搜索意图类型为属性值类型,从所述自然语言输入信息中提取属性关键字和对象关键字;
若所述自然语言输入信息对应的搜索意图类型为对象信息类型,从所述自然语言输入信息中提取对象关键字。
下面给出一个具体实施例,说明本发明实施例中数据搜索方法的具体应用。如图3所示,在本具体实施例中,根据所述自然语言输入信息,确定自然语言输入信息对应的搜索意图数据,从而确定自然语言输入信息对应的搜索意图类型,根据自然语言输入信息和对应的搜索意图类型,对数据进行搜索。在确定搜索意图类型部分,主要使用三个模块,分别是意图划分模块、语义分析模块、意图匹配模块。意图划分模块是对搜索引擎的业务结果进行分类,确定检索平台所能够支持的各个具体的检索类别,并以此作为后续进行意图模式匹配的基础。语义分析模块,使用NLP技术对用户输入的检索语句进行自然语言处理,经过消歧和智能纠错等处理,从中提取出用户的原始意图,以及提取相关的关键信息。意图通过匹配模块利用匹配模型训练完善的评分算法将获取到的初始意愿映射到划分模块初始化定义的某一个具体用户意图类别。意图识别是作为系统的核心,能够将用户输入映射为具体能够实现的检索结果。语义识别将自然语言处理成机器语言为搜索引擎提供了检索条件的同时提供智能联想等服务,让产品在各个维度为用户提供更优的服务。
在搜索意图类型划分模块,通过基本的关键字和基础的语义分析进行初步的意图划分,如:姚明的身高是多少?上海的企业有哪些?查看小米科技有限公司。通过关键字“多少”,“有哪些”,“查看”等基本关键字,可以初步将用户的意图划分到不同的模块。搜索意图类型可以划分为:列表清单类型,属性值类型或对象信息类型。不同的模块对应不同的语义分析模型。具体的划分规则使用模型打分规则,分别使用不同的意图模型特征进行打分,最后划分到得分最高的意图模型。
在语义分析模块,划分到不同的搜索意图类型后,即进行详细的语义解析。
1、列表清单类型:列表清单类型对应的用户搜索意图是查询具有某些属性的对象个数。首先是通过属性关键字来获取需要过滤的属性是什么,以及对象关键字来确定具体的对象,同时根据语义分析获得的逻辑关键字来进行属性条件的拼接。比如用户输入:“年龄大于20且身高大于160的女生有多少”。通过年龄、身高这两个属性关键字推出用户查询的属性字段是年龄和身高。通过女生这个对象关键字推出用户查询的对象是女生。通过大于、且等逻辑关键字,最后可以拼接出查询语句,伪代码即:select count(*)from女生信息表where年龄>20and身高>160。
2、属性值类型:属性值类型对应的用户意图是查询某个对象的具体模型。首先是确定对象和属性。属性可以通过属性关键字来获取。对象通过对象枚举打分来进行推测。如用户输入:“姚明的身高是多少”。通过身高关键字推断出属性为身高。通过基本的语义分析推断出对象为“姚明”,将“姚明”在各信息表中进行筛选,可在“人员信息表中”得到,即可推断出查询伪代码:select身高from人员信息表where人名=姚明。
3、对象信息类型:对象信息类型对应的用户意图是查询具体对象的所有详细信息。通过关键字来确定对象。如用户输入:“姚明的详细信息”。将“姚明”在各信息表中进行筛选,可在“人员信息表中”得到,即可推断出查询伪代码:select*from人员信息表where人名=姚明。
根据关键字,生成数据搜索语句,然后根据数据搜索语句,对数据进行搜索。通过搜索引擎可以直接检索出用户想要的检索页面,并提示与用户意图相关的个人和公司的风险信息等检索结果。
本发明实施例通过使用java语言实现,完成用户智能搜索页面,使用了NLP技术和SOLR技术对用户意图分析和检索结果匹配。
本发明具有以下优势:
1、具有组件化、平台化、服务化特点,通用性强,可以为行内各应用提供一站式的搜索服务;
2、加入全文搜索服务器Solr,实现了可配置、可扩展并对查询性能进行了优化,大大提升智能搜索引擎的搜索效率;
3、实现了由人工向系统自动化处理的转变,大大降低了风险管理人员的工作量。此外,结合集团风险管理平台中的客户风险全景视图,根据用户输入检索信息需求描述,智能解析客户信息检索意图,反馈用户所关注的风险信息,提升风险管理工作效率以及准确率。
综上所述,本发明实施例通过获取自然语言输入信息;根据所述自然语言输入信息,确定所述自然语言输入信息对应的搜索意图数据;根据所述搜索意图数据和预先建立的匹配模型,确定所述自然语言输入信息对应的搜索意图类型,其中所述匹配模型根据自然语言历史输入信息预先建立,所述搜索意图类型包括:列表清单类型,属性值类型或对象信息类型;根据所述自然语言输入信息和对应的搜索意图类型,对数据进行搜索。本发明实施例无需进行人工分析,通过确定的自然语言输入信息对应的搜索意图数据和预先建立的匹配模型,可以确定搜索意图类型,进而根据自然语言输入信息和对应的搜索意图类型,对数据进行搜索,利用自然语言处理方法锁定用户的搜索意图,从而有效减小了搜索难度,在保证搜索准确率的同时提高搜索效率,节省人力物力,提升用户满意度。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (14)

1.一种数据搜索方法,其特征在于,包括:
获取自然语言输入信息;
根据所述自然语言输入信息,确定所述自然语言输入信息对应的搜索意图数据;
根据所述搜索意图数据和预先建立的匹配模型,确定所述自然语言输入信息对应的搜索意图类型,其中所述匹配模型根据自然语言历史输入信息预先建立,所述搜索意图类型包括:列表清单类型,属性值类型或对象信息类型;
根据所述自然语言输入信息和对应的搜索意图类型,对数据进行搜索。
2.如权利要求1所述的数据搜索方法,其特征在于,根据所述自然语言输入信息,确定所述自然语言输入信息对应的搜索意图数据,包括:
对所述自然语言输入信息进行语义分析处理;
根据所述自然语言输入信息的处理结果,确定所述自然语言输入信息对应的搜索意图数据。
3.如权利要求2所述的数据搜索方法,其特征在于,所述语义分析处理包括:中文分词处理,同义词识别处理,纠错处理,语料训练及深度学习处理,句法分析处理,依存关系分析处理,段落摘要提取处理,联想预测处理其中之一或任意组合。
4.如权利要求1所述的数据搜索方法,其特征在于,根据所述搜索意图数据和预先建立的匹配模型,确定所述自然语言输入信息对应的搜索意图类型,包括:
计算所述搜索意图数据和预先建立的匹配模型的相关性;
根据相关性计算结果确定所述自然语言输入信息对应的搜索意图类型。
5.如权利要求1所述的数据搜索方法,其特征在于,根据所述自然语言输入信息和对应的搜索意图类型,对数据进行搜索,包括:
根据所述自然语言输入信息对应的搜索意图类型,从所述自然语言输入信息中提取关键字;
根据所述关键字,生成数据搜索语句;
根据所述数据搜索语句,对数据进行搜索。
6.如权利要求5所述的数据搜索方法,其特征在于,根据所述自然语言输入信息对应的搜索意图类型,从所述自然语言输入信息中提取关键字,包括:
若所述自然语言输入信息对应的搜索意图类型为列表清单类型,从所述自然语言输入信息中提取属性关键字,对象关键字和逻辑关键字;
若所述自然语言输入信息对应的搜索意图类型为属性值类型,从所述自然语言输入信息中提取属性关键字和对象关键字;
若所述自然语言输入信息对应的搜索意图类型为对象信息类型,从所述自然语言输入信息中提取对象关键字。
7.一种数据搜索装置,其特征在于,包括:
信息获取模块,用于获取自然语言输入信息;
数据确定模块,用于根据所述自然语言输入信息,确定所述自然语言输入信息对应的搜索意图数据;
类型确定模块,用于根据所述搜索意图数据和预先建立的匹配模型,确定所述自然语言输入信息对应的搜索意图类型,其中所述匹配模型根据自然语言历史输入信息预先建立,所述搜索意图类型包括:列表清单类型,属性值类型或对象信息类型;
数据搜索模块,用于根据所述自然语言输入信息和对应的搜索意图类型,对数据进行搜索。
8.如权利要求7所述的数据搜索装置,其特征在于,所述数据确定模块进一步用于:
对所述自然语言输入信息进行语义分析处理;
根据所述自然语言输入信息的处理结果,确定所述自然语言输入信息对应的搜索意图数据。
9.如权利要求8所述的数据搜索装置,其特征在于,所述语义分析处理包括:中文分词处理,同义词识别处理,纠错处理,语料训练及深度学习处理,句法分析处理,依存关系分析处理,段落摘要提取处理,联想预测处理其中之一或任意组合。
10.如权利要求7所述的数据搜索装置,其特征在于,所述类型确定模块进一步用于:
计算所述搜索意图数据和预先建立的匹配模型的相关性;
根据相关性计算结果确定所述自然语言输入信息对应的搜索意图类型。
11.如权利要求7所述的数据搜索装置,其特征在于,所述数据搜索模块进一步用于:
根据所述自然语言输入信息对应的搜索意图类型,从所述自然语言输入信息中提取关键字;
根据所述关键字,生成数据搜索语句;
根据所述数据搜索语句,对数据进行搜索。
12.如权利要求11所述的数据搜索装置,其特征在于,所述数据搜索模块进一步用于:
若所述自然语言输入信息对应的搜索意图类型为列表清单类型,从所述自然语言输入信息中提取属性关键字,对象关键字和逻辑关键字;
若所述自然语言输入信息对应的搜索意图类型为属性值类型,从所述自然语言输入信息中提取属性关键字和对象关键字;
若所述自然语言输入信息对应的搜索意图类型为对象信息类型,从所述自然语言输入信息中提取对象关键字。
13.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6任一所述方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有执行权利要求1至6任一所述方法的计算机程序。
CN201911406508.0A 2019-12-31 2019-12-31 数据搜索方法及装置 Active CN111159381B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911406508.0A CN111159381B (zh) 2019-12-31 2019-12-31 数据搜索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911406508.0A CN111159381B (zh) 2019-12-31 2019-12-31 数据搜索方法及装置

Publications (2)

Publication Number Publication Date
CN111159381A true CN111159381A (zh) 2020-05-15
CN111159381B CN111159381B (zh) 2023-05-26

Family

ID=70559677

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911406508.0A Active CN111159381B (zh) 2019-12-31 2019-12-31 数据搜索方法及装置

Country Status (1)

Country Link
CN (1) CN111159381B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112487154A (zh) * 2020-12-24 2021-03-12 武汉烽火众智数字技术有限责任公司 一种基于自然语言的智能搜索方法
CN113032641A (zh) * 2021-04-23 2021-06-25 赛飞特工程技术集团有限公司 一种智能搜索方法和设备
CN116010560A (zh) * 2023-03-28 2023-04-25 青岛阿斯顿工程技术转移有限公司 一种国际技术转移数据服务系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103425714A (zh) * 2012-05-25 2013-12-04 北京搜狗信息服务有限公司 一种搜索方法和系统
CN104750795A (zh) * 2015-03-12 2015-07-01 北京云知声信息技术有限公司 一种智能语义检索系统和方法
US20160012105A1 (en) * 2014-07-10 2016-01-14 Naver Corporation Method and system for searching for and providing information about natural language query having simple or complex sentence structure
CN106372132A (zh) * 2016-08-25 2017-02-01 北京百度网讯科技有限公司 基于人工智能的查询意图预测方法和装置
CN106407377A (zh) * 2016-09-12 2017-02-15 北京百度网讯科技有限公司 基于人工智能的搜索方法和装置
CN109284363A (zh) * 2018-12-03 2019-01-29 北京羽扇智信息科技有限公司 一种问答方法、装置、电子设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103425714A (zh) * 2012-05-25 2013-12-04 北京搜狗信息服务有限公司 一种搜索方法和系统
US20160012105A1 (en) * 2014-07-10 2016-01-14 Naver Corporation Method and system for searching for and providing information about natural language query having simple or complex sentence structure
CN104750795A (zh) * 2015-03-12 2015-07-01 北京云知声信息技术有限公司 一种智能语义检索系统和方法
CN106372132A (zh) * 2016-08-25 2017-02-01 北京百度网讯科技有限公司 基于人工智能的查询意图预测方法和装置
CN106407377A (zh) * 2016-09-12 2017-02-15 北京百度网讯科技有限公司 基于人工智能的搜索方法和装置
CN109284363A (zh) * 2018-12-03 2019-01-29 北京羽扇智信息科技有限公司 一种问答方法、装置、电子设备及存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112487154A (zh) * 2020-12-24 2021-03-12 武汉烽火众智数字技术有限责任公司 一种基于自然语言的智能搜索方法
CN113032641A (zh) * 2021-04-23 2021-06-25 赛飞特工程技术集团有限公司 一种智能搜索方法和设备
CN113032641B (zh) * 2021-04-23 2021-12-07 赛飞特工程技术集团有限公司 一种智能搜索方法和设备
CN116010560A (zh) * 2023-03-28 2023-04-25 青岛阿斯顿工程技术转移有限公司 一种国际技术转移数据服务系统
CN116010560B (zh) * 2023-03-28 2023-06-09 青岛阿斯顿工程技术转移有限公司 一种国际技术转移数据服务系统

Also Published As

Publication number Publication date
CN111159381B (zh) 2023-05-26

Similar Documents

Publication Publication Date Title
CN109408526B (zh) Sql语句生成方法、装置、计算机设备及存储介质
US9448995B2 (en) Method and device for performing natural language searches
US9280535B2 (en) Natural language querying with cascaded conditional random fields
CN112069298A (zh) 基于语义网和意图识别的人机交互方法、设备及介质
CN110222045A (zh) 一种数据报表获取方法、装置及计算机设备、存储介质
CN111159381B (zh) 数据搜索方法及装置
WO2020005601A1 (en) Semantic parsing of natural language query
US20190340503A1 (en) Search system for providing free-text problem-solution searching
US20220414137A1 (en) Automatic labeling of text data
US20230205996A1 (en) Automatic Synonyms Using Word Embedding and Word Similarity Models
US20220114340A1 (en) System and method for an automatic search and comparison tool
CN112883165B (zh) 一种基于语义理解的智能全文检索方法及系统
CN112507089A (zh) 一种基于知识图谱的智能问答引擎及其实现方法
CN115526171A (zh) 一种意图识别方法、装置、设备及计算机可读存储介质
CA3225020A1 (en) Automatic labeling of text data
CN112183110A (zh) 一种基于数据中心的人工智能数据应用系统及应用方法
CN117251455A (zh) 一种基于大模型的智能报表生成方法及其系统
CN113011156A (zh) 审核文本的质检方法、装置、介质以及电子设备
CN111898024A (zh) 一种智能问答方法、装置、可读存储介质及计算设备
CN116628146A (zh) 一种金融领域的faq智能问答方法及系统
US20220237383A1 (en) Concept system for a natural language understanding (nlu) framework
CN110309258A (zh) 一种输入检查方法、服务器和计算机可读存储介质
CN108959555B (zh) 查询式的扩展方法、装置、计算机设备及存储介质
Bulfamante Generative enterprise search with extensible knowledge base using AI
CN114391142A (zh) 使用结构化和非结构化数据的解析查询

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant