CN108959314A - 一种语义检索方法和装置 - Google Patents
一种语义检索方法和装置 Download PDFInfo
- Publication number
- CN108959314A CN108959314A CN201710371062.7A CN201710371062A CN108959314A CN 108959314 A CN108959314 A CN 108959314A CN 201710371062 A CN201710371062 A CN 201710371062A CN 108959314 A CN108959314 A CN 108959314A
- Authority
- CN
- China
- Prior art keywords
- term
- word
- original input
- input information
- extension
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供的一种语义检索方法和装置,获取原始输入信息;分析所述原始输入信息以获取检索词;根据数据库中存储的关系数据表对所述检索词进行处理以确定关键词;根据所述关键词根据预设匹配算法在所述数据库中进行检索;将检索出的结果按照匹配度值由高到低的顺序列表展示。通过以上技术方案,由于关键词是依据数据库中的关系数据表对检索词进行组合处理后的,关键词为无效词的几率降低,进而能够降低检索的误差以及提高检索结果的准确度。
Description
技术领域
本发明涉及计算机领域,特别涉及一种语义检索方法和装置。
背景技术
搜索引擎(Search Engine)是指根据一定的策略、运用特定的计算机程序从互联网上或者数据库中搜集信息,在对信息进行组织和处理后,为用户10提供检索服务,将用户检索相关的信息展示给用户的系统。
目前文本检索原理是对文本分词后直接进行匹配搜索,通用的检索方式是基于关键词的全文检索方式。即通过对用户输入的文本分词后得到关键词匹配,但是这种单纯的文本分词方式得到的关键词中会包括无效词,无效词为主要是指一些连接词、介词等出现频率很高的词,如果将无效词作为关键词检索时会使检索误差增加,出现很多实际上与用户检索需求并不相关的结果。
发明内容
本发明实施例提供的一种语义检索方法和装置,能够解决现有检索中出现的检索结果误差大,匹配度低的问题。
为了解决上述问题,本发明实施例提供了一种语义检索方法,包括:
获取原始输入信息;
分析所述原始输入信息以获取检索词;
根据数据库中存储的关系数据表对所述检索词进行处理以确定关键词;
根据所述关键词根据预设匹配算法在所述数据库中进行检索;
将检索出的结果按照匹配度值由高到低的顺序列表展示。
可选的,所述原始输入信息包括:文字信息或者语音信息。
可选的,所述分析所述原始输入信息以获取检索词,包括:
当所述原始输入信息为文字信息时,获取所述文字信息并根据预设分词规则对所述文字信息进行分词后获取所述检索词;或,
当所述原始输入信息为语音信息时,识别所述语音信息并转换为文字信息,根据预设分词规则对所述转换得到的文字信息进行分词后获取所述检索词。
可选的,在所述分析所述原始输入信息以获取检索词之后,所述方法还包括:
对所述检索词进行词义扩展并将得到的扩展词作为检索词;
其中,所述词义扩展包括以下至少一种方式:同义词扩展、等同词扩展、上位词扩展和下位词扩展。
可选的,所述根据数据库中存储的关系数据表对所述检索词进行处理以确定关键词,包括:
根据存储的关系数据表对所述检索词进行组合处理后确定所述关键词。
本发明实施例还提供一种语义检索装置,包括:
第一获取模块,用于获取原始输入信息;
第二获取模块,用于分析所述原始输入信息以获取检索词;
处理模块,用于根据数据库中存储的关系数据表对所述检索词进行处理以确定关键词;
检索模块,用于根据所述关键词根据预设匹配算法在所述数据库中进行检索;
显示模块,用于将检索出的结果按照匹配度值由高到低的顺序列表展示。
可选的,所述原始输入信息包括:文字信息或者语音信息。
可选的,所述第二获取模块具体用于:
当所述原始输入信息为文字信息时,获取所述文字信息并根据预设分词规则对所述文字信息进行分词后获取所述检索词;或,
当所述原始输入信息为语音信息时,识别所述语音信息并转换为文字信息,根据预设分词规则对所述转换得到的文字信息进行分词后获取所述检索词。
可选的,所述装置还包括:
扩展模块,用于在所述第二获取模块获取检索词之后,对所述检索词进行词义扩展并将得到的扩展词作为检索词;
其中,所述词义扩展包括以下至少一种方式:同义词扩展、等同词扩展、上位词扩展和下位词扩展。
可选的,所述处理模块具体用于:
根据存储的关系数据表对所述检索词进行组合处理后确定所述关键词。
本发明实施例提供的一种语义检索方法和装置,获取原始输入信息;分析所述原始输入信息以获取检索词;根据数据库中存储的关系数据表对所述检索词进行处理以确定关键词;根据所述关键词根据预设匹配算法在所述数据库中进行检索;将检索出的结果按照匹配度值由高到低的顺序列表展示。通过以上技术方案,由于关键词是依据数据库中的关系数据表对检索词进行组合处理后的,关键词为无效词的几率降低,进而能够降低检索的误差以及提高检索结果的准确度。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
图1是本发明实施例提供的一种语义检索方法的流程示意图;
图2是本发明实施例提供的一种语义检索装置的结构示意图。
具体实施方式
下面将结合附图及实施例对本发明的技术方案进行更详细的说明。
需要说明的是,如果不冲突,本发明实施例以及实施例中的各个特征可以相互结合,均在本发明的保护范围之内。另外,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
如图1所示,本发明实施例提供了一种语义检索方法,可以包括以下步骤:
S102、获取原始输入信息。
可选的,所述原始输入信息包括:文字信息或者语音信息。
示例性的,原始输入信息可以由用户手动输入文字,也可以通过语音方式输入语音。其实现方式可以类似于微信的语音输入窗口。
由于电子设备100在进行语音识别时,其识别结果可能不同于用户语音输入的原始文本,用户还需要再次对准话筒202语音输入原始文本,直至在输入栏中显示出原始文本。
S104、分析所述原始输入信息以获取检索词。
具体的,S104可以包括:
当所述原始输入信息为文字信息时,获取所述文字信息并根据预设分词规则对所述文字信息进行分词后获取所述检索词;
示例性的,上述预设分词规则可以是利用现有技术中的分词规则,具体分词方式可参阅现有技术资料理解,在此不做赘述。
或,当所述原始输入信息为语音信息时,识别所述语音信息并转换为文字信息,根据预设分词规则对所述转换得到的文字信息进行分词后获取所述检索词。
示例性的,语音信息转文本信息的技术属于现有的语音识别技术,可参照现有技术理解,在此不做赘述。
可选的,在S104之后,所述方法还可以包括:
S105、对所述检索词进行词义扩展并将得到的扩展词作为检索词;
其中,所述词义扩展包括以下至少一种方式:同义词扩展、等同词扩展、上位词扩展和下位词扩展。
示例性的,上述词义扩展可参照同义词库、等同词库、上下位词库来进行,前述词库可以预先存储在数据库中,还可以不断更新。
S106、根据数据库中存储的关系数据表对所述检索词进行处理以确定关键词。
具体的,S106具体可以包括:
根据存储的关系数据表对所述检索词进行组合处理后确定所述关键词。
需要说明的是,所述关系数据表可以是预设的一张检索词之间的相互关系权重的映射表,在S106中根据前述映射表对检索词之间进行组合后可以有效剔除无效词,从而得到较为准确的关键词。
S108、根据所述关键词根据预设匹配算法在所述数据库中进行检索;
S110、将检索出的结果按照匹配度值由高到低的顺序列表展示。
具体的,对检索结果以匹配度值倒序显示,并在检索文本中突显关键词,匹配度值用于表征原始输入信息和检索结果具有关联关系的程度。匹配度的计算可以采用现有相关算法,对此本发明实施例不在阐述。
本发明实施例提供的一种语义检索方法,获取原始输入信息;分析所述原始输入信息以获取检索词;根据数据库中存储的关系数据表对所述检索词进行处理以确定关键词;根据所述关键词根据预设匹配算法在所述数据库中进行检索;将检索出的结果按照匹配度值由高到低的顺序列表展示。通过以上技术方案,由于关键词是依据数据库中的关系数据表对检索词进行组合处理后的,关键词为无效词的几率降低,进而能够降低检索的误差以及提高检索结果的准确度。
如图2所示,本发明实施例还提供一种语义检索装置00,包括:
第一获取模块10,用于获取原始输入信息;
第二获取模块20,用于分析所述原始输入信息以获取检索词;
处理模块30,用于根据数据库中存储的关系数据表对所述检索词进行处理以确定关键词;
检索模块40,用于根据所述关键词根据预设匹配算法在所述数据库中进行检索;
显示模块50,用于将检索出的结果按照匹配度值由高到低的顺序列表展示。
可选的,所述原始输入信息包括:文字信息或者语音信息。
可选的,所述第二获取模块20具体用于:
当所述原始输入信息为文字信息时,获取所述文字信息并根据预设分词规则对所述文字信息进行分词后获取所述检索词;或,
当所述原始输入信息为语音信息时,识别所述语音信息并转换为文字信息,根据预设分词规则对所述转换得到的文字信息进行分词后获取所述检索词。
可选的,所述装置00还包括:
扩展模块60,用于在所述第二获取模块20获取检索词之后,对所述检索词进行词义扩展并将得到的扩展词作为检索词;
其中,所述词义扩展包括以下至少一种方式:同义词扩展、等同词扩展、上位词扩展和下位词扩展。
可选的,所述处理模块30具体用于:
根据存储的关系数据表对所述检索词进行组合处理后确定所述关键词。
需要说明的是,对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本发明实施例提供的一种语义检索装置,获取原始输入信息;分析所述原始输入信息以获取检索词;根据数据库中存储的关系数据表对所述检索词进行处理以确定关键词;根据所述关键词根据预设匹配算法在所述数据库中进行检索;将检索出的结果按照匹配度值由高到低的顺序列表展示。通过以上技术方案,由于关键词是依据数据库中的关系数据表对检索词进行组合处理后的,关键词为无效词的几率降低,进而能够降低检索的误差以及提高检索结果的准确度。
本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地,上述实施例中的各模块/单元可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。
虽然本发明所揭露的实施方式如上,但所述的内容仅为便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。
Claims (10)
1.一种语义检索方法,其特征在于,包括:
获取原始输入信息;
分析所述原始输入信息以获取检索词;
根据数据库中存储的关系数据表对所述检索词进行处理以确定关键词;
根据所述关键词根据预设匹配算法在所述数据库中进行检索;
将检索出的结果按照匹配度值由高到低的顺序列表展示。
2.根据权利要求1所述的方法,其特征在于,所述原始输入信息包括:文字信息或者语音信息。
3.根据权利要求1所述的方法,其特征在于,所述分析所述原始输入信息以获取检索词,包括:
当所述原始输入信息为文字信息时,获取所述文字信息并根据预设分词规则对所述文字信息进行分词后获取所述检索词;或,
当所述原始输入信息为语音信息时,识别所述语音信息并转换为文字信息,根据预设分词规则对所述转换得到的文字信息进行分词后获取所述检索词。
4.根据权利要求1所述的方法,其特征在于,在所述分析所述原始输入信息以获取检索词之后,所述方法还包括:
对所述检索词进行词义扩展并将得到的扩展词作为检索词;
其中,所述词义扩展包括以下至少一种方式:同义词扩展、等同词扩展、上位词扩展和下位词扩展。
5.根据权利要求1所述的方法,其特征在于,所述根据数据库中存储的关系数据表对所述检索词进行处理以确定关键词,包括:
根据存储的关系数据表对所述检索词进行组合处理后确定所述关键词。
6.一种语义检索装置,其特征在于,包括:
第一获取模块,用于获取原始输入信息;
第二获取模块,用于分析所述原始输入信息以获取检索词;
处理模块,用于根据数据库中存储的关系数据表对所述检索词进行处理以确定关键词;
检索模块,用于根据所述关键词根据预设匹配算法在所述数据库中进行检索;
显示模块,用于将检索出的结果按照匹配度值由高到低的顺序列表展示。
7.根据权利要求6所述的装置,其特征在于,所述原始输入信息包括:文字信息或者语音信息。
8.根据权利要求7所述的装置,其特征在于,所述第二获取模块具体用于:
当所述原始输入信息为文字信息时,获取所述文字信息并根据预设分词规则对所述文字信息进行分词后获取所述检索词;或,
当所述原始输入信息为语音信息时,识别所述语音信息并转换为文字信息,根据预设分词规则对所述转换得到的文字信息进行分词后获取所述检索词。
9.根据权利要求6所述的装置,其特征在于,所述装置还包括:
扩展模块,用于在所述第二获取模块获取检索词之后,对所述检索词进行词义扩展并将得到的扩展词作为检索词;
其中,所述词义扩展包括以下至少一种方式:同义词扩展、等同词扩展、上位词扩展和下位词扩展。
10.根据权利要求6所述的装置,其特征在于,所述处理模块具体用于:
根据存储的关系数据表对所述检索词进行组合处理后确定所述关键词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710371062.7A CN108959314A (zh) | 2017-05-24 | 2017-05-24 | 一种语义检索方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710371062.7A CN108959314A (zh) | 2017-05-24 | 2017-05-24 | 一种语义检索方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108959314A true CN108959314A (zh) | 2018-12-07 |
Family
ID=64493863
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710371062.7A Pending CN108959314A (zh) | 2017-05-24 | 2017-05-24 | 一种语义检索方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108959314A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110276079A (zh) * | 2019-06-27 | 2019-09-24 | 谷晓佳 | 一种词库建立方法、信息检索方法及对应的系统 |
CN110413903A (zh) * | 2019-07-08 | 2019-11-05 | 上海博泰悦臻网络技术服务有限公司 | 车辆导航系统中兴趣点信息检索装置及方法 |
CN111368530A (zh) * | 2018-12-24 | 2020-07-03 | 上海新微技术研发中心有限公司 | 即时通信软件中防止错发消息的方法以及用户终端 |
CN111859042A (zh) * | 2020-07-30 | 2020-10-30 | 上海妙一生物科技有限公司 | 一种检索方法、装置及电子设备 |
WO2021115277A1 (zh) * | 2019-12-10 | 2021-06-17 | Oppo广东移动通信有限公司 | 图像检索方法、装置、存储介质及电子设备 |
CN113869948A (zh) * | 2021-09-27 | 2021-12-31 | 重庆软岛科技股份有限公司 | 一种企业数字化营销开放式系统平台 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103440253A (zh) * | 2013-07-25 | 2013-12-11 | 清华大学 | 语音检索方法及系统 |
CN103778262A (zh) * | 2014-03-06 | 2014-05-07 | 北京林业大学 | 基于叙词表的信息检索方法及装置 |
CN103886063A (zh) * | 2014-03-18 | 2014-06-25 | 国家电网公司 | 一种文本检索方法和装置 |
-
2017
- 2017-05-24 CN CN201710371062.7A patent/CN108959314A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103440253A (zh) * | 2013-07-25 | 2013-12-11 | 清华大学 | 语音检索方法及系统 |
CN103778262A (zh) * | 2014-03-06 | 2014-05-07 | 北京林业大学 | 基于叙词表的信息检索方法及装置 |
CN103886063A (zh) * | 2014-03-18 | 2014-06-25 | 国家电网公司 | 一种文本检索方法和装置 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111368530A (zh) * | 2018-12-24 | 2020-07-03 | 上海新微技术研发中心有限公司 | 即时通信软件中防止错发消息的方法以及用户终端 |
CN110276079A (zh) * | 2019-06-27 | 2019-09-24 | 谷晓佳 | 一种词库建立方法、信息检索方法及对应的系统 |
CN110413903A (zh) * | 2019-07-08 | 2019-11-05 | 上海博泰悦臻网络技术服务有限公司 | 车辆导航系统中兴趣点信息检索装置及方法 |
WO2021115277A1 (zh) * | 2019-12-10 | 2021-06-17 | Oppo广东移动通信有限公司 | 图像检索方法、装置、存储介质及电子设备 |
CN111859042A (zh) * | 2020-07-30 | 2020-10-30 | 上海妙一生物科技有限公司 | 一种检索方法、装置及电子设备 |
CN113869948A (zh) * | 2021-09-27 | 2021-12-31 | 重庆软岛科技股份有限公司 | 一种企业数字化营销开放式系统平台 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108959314A (zh) | 一种语义检索方法和装置 | |
CN106844658B (zh) | 一种中文文本知识图谱自动构建方法及系统 | |
US9223779B2 (en) | Text segmentation with multiple granularity levels | |
CN104933027B (zh) | 一种利用依存分析的开放式中文实体关系抽取方法 | |
CN104915340B (zh) | 自然语言问答方法及装置 | |
CN107992585B (zh) | 通用标签挖掘方法、装置、服务器及介质 | |
US9558263B2 (en) | Identifying and displaying relationships between candidate answers | |
CN104636466B (zh) | 一种面向开放网页的实体属性抽取方法和系统 | |
US8577882B2 (en) | Method and system for searching multilingual documents | |
CN103646112A (zh) | 利用了网络搜索的依存句法的领域自适应方法 | |
CN106446162A (zh) | 一种面向领域的本体知识库文本检索方法 | |
CN110929498B (zh) | 一种短文本相似度的计算方法及装置、可读存储介质 | |
CN109783806A (zh) | 一种利用语义解析结构的文本匹配方法 | |
CN109522396B (zh) | 一种面向国防科技领域的知识处理方法及系统 | |
CN110046241B (zh) | 基于自动对比文章相似度辅助法律文书检错方法及系统 | |
Watrin et al. | An N-gram frequency database reference to handle MWE extraction in NLP applications | |
Garrido et al. | GEO-NASS: A semantic tagging experience from geographical data on the media | |
CN112949293A (zh) | 一种相似文本生成方法、相似文本生成装置及智能设备 | |
CN115687960B (zh) | 一种面向开源安全情报的文本聚类方法 | |
US9104755B2 (en) | Ontology enhancement method and system | |
CN113807102B (zh) | 建立语义表示模型的方法、装置、设备和计算机存储介质 | |
Ronghui et al. | Application of Improved Convolutional Neural Network in Text Classification. | |
Liu et al. | Modelling and Implementation of a Knowledge Question-answering System for Product Quality Problem Based on Knowledge Graph | |
CN108763229B (zh) | 一种基于特征性句干提取的机器翻译方法及装置 | |
KR101788682B1 (ko) | 어휘망을 이용한 동형이의어 중의성 해소 시스템 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20181207 |