CN107066497A - 一种搜索方法和装置 - Google Patents
一种搜索方法和装置 Download PDFInfo
- Publication number
- CN107066497A CN107066497A CN201611250061.9A CN201611250061A CN107066497A CN 107066497 A CN107066497 A CN 107066497A CN 201611250061 A CN201611250061 A CN 201611250061A CN 107066497 A CN107066497 A CN 107066497A
- Authority
- CN
- China
- Prior art keywords
- search
- keyword
- near synonym
- search keyword
- correlation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3338—Query expansion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种搜索方法,其中,所述方法包括:接收搜索关键词;在通用词库中,获取与搜索关键词相关的第一近义词集合,其中,通用词库为定期更新的词库;在近义词词库中,获取与搜索关键词相关的第二近义词集合;根据第一近义词集合与第二近义词集合,获得搜索关键词对应的近义关键词集合;以搜索关键词以及近义关键词集合在搜索引擎中进行搜索。本发明实施例同时还公开了一种搜索装置。本发明实施例旨在准确的查找出与搜索关键词对应的近义关键词,减少人工成本,扩大搜索范围,进而提高搜索精确度。
Description
技术领域
本发明涉及信息处理领域,尤其涉及一种搜索方法和装置。
背景技术
近年来,随着互联网技术的发展,人们已经进入信息量极其丰富的时代。但其固有的大容量、异构性、分布性和动态性,以及万维网(Web,World Wide Web)中大量缺乏组织的无效数据,降低了人们对丰富信息资源的利用效率,出现“信息过载”的现象。于是搜索引擎应运而生,它是指对Web站点资源和其他网络资源进行标引和检索的一类信息检索系统。
目前的搜索引擎主要是基于搜索关键词进行近义词搜索,然后将搜索结果展示给用户,需要说明的是,现有技术中进行近义词搜索的方案是:根据已经建立好的近义词库找到该搜索关键词的近义词,将包含近义词的网页作为搜素结果显示给用户。然而,现有技术中建立近义词库时,需要人工一项一项的配置近义词库,这个过程工作量大且极易出错,而且,由于网络的更新速度较快,对于网络上出现的大量新词、流行词无法做到及时更新,因此,无法通过现有的近义词库进行匹配的方式,获得相应的搜索结果。
由此,现有技术中存在基于人工配置近义词库进行近义词搜索的过程中,搜索范围小,导致搜索效率差的技术问题。
发明内容
本发明的主要目的在于提出一种搜索方法和装置,旨在准确的查找出与搜索关键词对应的近义关键词,减少人工成本,扩大搜索范围,进而提高搜索精确度。
为达到上述目的,本发明的技术方案是这样实现的:
第一方面,本发明实施例提供一种搜索方法,所述方法包括:接收搜索关键词;在通用词库中,获取与搜索关键词相关的第一近义词集合,其中,通用词库为定期更新的词库;在近义词词库中,获取与搜索关键词相关的第二近义词集合;根据第一近义词集合与第二近义词集合,获得搜索关键词对应的近义关键词集合;以搜索关键词以及近义关键词集合在搜索引擎中进行搜索。
在上述方案中,获取与搜索关键词相关的第一近义词集合,包括:获取通用词库中与搜索关键词相关的多个第一目标搜索关键词;分别计算搜索关键词与多个第一目标搜索关键词之间的多个第一相关度;判断多个第一相关度是否超过预设相关度阈值;在多个第一相关度超过预设相关度阈值的情况下,将多个第一相关度对应的多个第一目标搜索关键词按照预设规则排列,并作为第一近义词集合。
在上述方案中,获取与搜索关键词相关的第二近义词集合,包括:获取近义词词库中与搜索关键词相关的多个第二目标搜索关键词;分别计算搜索关键词与多个第二目标搜索关键词之间的多个第二相关度;将多个第二相关度对应的多个第二目标搜索关键词按照预设规则排列,并作为第二近义词集合。
在上述方案中,根据第一近义词集合与第二近义词集合,获得搜索关键词对应的近义关键词集合,包括:将第一近义词集合与第二近义词集合取并集,并按照预设规则排列,作为搜索关键词对应的近义关键词集合。
在上述方案中,以搜索关键词以及近义关键词集合在搜索引擎中进行搜索之后,方法包括:将搜索结果显示给用户。
在上述方案中,将搜索结果显示给用户之后,方法包括:接收用户的搜索选择;根据搜索选择在近义关键词集合中查找出所对应的近义关键词;根据近义关键词更新近义词词库。
第二方面,本发明实施例提供了一种搜索装置,所述装置包括:第一接收模块,用于接收搜索关键词;第一获取模块,用于在通用词库中,获取与搜索关键词相关的第一近义词集合,其中,通用词库为定期更新的词库;第二获取模块,用于在近义词词库中,获取与搜索关键词相关的第二近义词集合;处理模块,用于根据第一近义词集合与第二近义词集合,获得搜索关键词对应的近义关键词集合;搜索模块,用于以搜索关键词以及近义关键词集合在搜索引擎中进行搜索。
在上述方案中,第一获取模块,包括:第一获取子模块,用于获取通用词库中与搜索关键词相关的多个第一目标搜索关键词;第一计算子模块,用于分别计算搜索关键词与多个第一目标搜索关键词之间的多个第一相关度;判断子模块,用于判断多个第一相关度是否超过预设相关度阈值;第一处理子模块,用于在多个第一相关度超过预设相关度阈值的情况下,将多个第一相关度对应的多个第一目标搜索关键词按照预设规则排列,并作为第一近义词集合。
在上述方案中,第二获取模块,包括:第二获取子模块,用于获取近义词词库中与搜索关键词相关的多个第二目标搜索关键词;第二计算子模块,用于分别计算搜索关键词与多个第二目标搜索关键词之间的多个第二相关度;第二处理子模块,用于将多个第二相关度对应的多个第二目标搜索关键词按照预设规则排列,并作为第二近义词集合。
在上述方案中,处理模块,还用于将第一近义词集合与第二近义词集合取并集,并按照预设规则排列,作为搜索关键词对应的近义关键词集合。
本发明实施例所提供了一种搜索方法和装置,在接收到用户输入的搜索关键词之后,首先,在通用词库中获取与搜索关键词相关的第一近义词集合,该通用词库为定期更新的词库,其次,在近义词词库中获取与搜索关键词相关的第二近义词集合,然后,根据第一近义词集合和第二近义词集合得到与搜索关键词对应的近义关键词集合,最后,将搜索关键词以及近义关键词集合在搜索引擎中进行搜索,以得到搜索结果;也就是说,本申请在搜索的过程中,利用定期更新的通用词库,扩大与搜索关键词对应的近义关键词的搜索范围,再结合近义词词库具有的小范围的精确率,最终,获得一个与搜索关键词对应的近义关键词集合,从而提高了搜索精确度。
附图说明
图1为实现本发明各个实施例的一个可选的移动终端的硬件结构示意图;
图2为本发明实施例提供的移动终端能够操作的通信系统结构示意图;
图3为本发明实施例提供的搜索方法的第一种流程示意图;
图4为本发明实施例提供的搜索方法的第二种流程示意图;
图5为本发明实施例提供的搜索方法的第三种流程示意图;
图6为本发明实施例提供的第一种搜索界面示意图;
图7为本发明实施例提供的第二种搜索界面示意图;
图8为本发明实施例提供的第三种搜索界面示意图;
图9为本发明实施例提供的搜索方法的第四种流程示意图;
图10为本发明实施例提供的搜索装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
现在将参考附图1来描述实现本发明各个实施例的移动终端。在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身并没有特定的意义。因此,"模块"与"部件"可以混合地使用。
移动终端可以以各种形式来实施。例如,本发明中描述的终端可以包括诸如移动电话、智能电话、笔记本电脑、数字广播接收器、个人数字助理(PDA)、平板电脑(PAD)、便携式多媒体播放器(PMP)、导航装置等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。下面,假设终端是移动终端。然而,本领域技术人员将理解的是,除了特别用于移动目的的元件之外,根据本发明的实施方式的构造也能够应用于固定类型的终端。
图1为实现本发明各个实施例的移动终端的硬件结构示意。
移动终端100可以包括无线通信单元110、音频/视频(A/V)输入单元120、用户输入单元130、感测单元140、输出单元150、存储器160、接口单元170、控制器180和电源单元190等等。图1示出了具有各种组件的移动终端,但是应理解的是,并不要求实施所有示出的组件,可以替代地实施更多或更少的组件,将在下面详细描述移动终端的元件。
无线通信单元110通常包括一个或多个组件,其允许移动终端100与无线通信系统或网络之间的无线电通信。例如,无线通信单元可以包括广播接收模块111、移动通信模块112、无线互联网模块113、短程通信模块114和位置信息模块115中的至少一个。
广播接收模块111经由广播信道从外部广播管理服务器接收广播信号和/或广播相关信息。广播信道可以包括卫星信道和/或地面信道。广播管理服务器可以是生成并发送广播信号和/或广播相关信息的服务器或者接收之前生成的广播信号和/或广播相关信息并且将其发送给终端的服务器。广播信号可以包括TV广播信号、无线电广播信号、数据广播信号等等。而且,广播信号可以进一步包括与TV或无线电广播信号组合的广播信号。广播相关信息也可以经由移动通信网络提供,并且在该情况下,广播相关信息可以由移动通信模块112来接收。广播信号可以以各种形式存在,例如,其可以以数字多媒体广播(DMB)的电子节目指南(EPG)、数字视频广播手持(DVB-H)的电子服务指南(ESG)等等的形式而存在。广播接收模块111可以通过使用各种类型的广播系统接收信号广播。特别地,广播接收模块111可以通过使用诸如多媒体广播-地面(DMB-T)、数字多媒体广播-卫星(DMB-S)、数字视频广播-手持(DVB-H),前向链路媒体(MediaFLO@)的数据广播系统、地面数字广播综合服务(ISDB-T)等等的数字广播系统接收数字广播。广播接收模块111可以被构造为适合提供广播信号的各种广播系统以及上述数字广播系统。经由广播接收模块111接收的广播信号和/或广播相关信息可以存储在存储器160(或者其它类型的存储介质)中。
移动通信模块112将无线电信号发送到基站(例如,接入点、节点B等等)、外部终端以及服务器中的至少一个和/或从其接收无线电信号。这样的无线电信号可以包括语音通话信号、视频通话信号、或者根据文本和/或多媒体消息发送和/或接收的各种类型的数据。
无线互联网模块113支持移动终端的无线互联网接入。该模块可以内部或外部地耦接到终端。该模块所涉及的无线互联网接入技术可以包括WLAN(无线LAN)(Wi-Fi)、Wibro(无线宽带)、Wimax(全球微波互联接入)、HSDPA(高速下行链路分组接入)等等。
短程通信模块114是用于支持短程通信的模块。短程通信技术的一些示例包括蓝牙TM、射频识别(RFID)、红外数据协会(IrDA)、超宽带(UWB)、紫蜂TM等等。
位置信息模块115是用于检查或获取移动终端的位置信息的模块。位置信息模块115的典型示例是GPS(全球定位系统)。根据当前的技术,作为GPS的位置信息模块115计算来自三个或更多卫星的距离信息和准确的时间信息并且对于计算的信息应用三角测量法,从而根据经度、纬度和高度准确地计算三维当前位置信息。当前,用于计算位置和时间信息的方法使用三颗卫星并且通过使用另外的一颗卫星校正计算出的位置和时间信息的误差。此外,作为GPS的位置信息模块115能够通过实时地连续计算当前位置信息来计算速度信息。
A/V输入单元120用于接收音频或视频信号。A/V输入单元120可以包括相机121和麦克风122,相机121对在视频捕获模式或图像捕获模式中由图像捕获装置获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元151上。经相机121处理后的图像帧可以存储在存储器160(或其它存储介质)中或者经由无线通信单元110进行发送,可以根据移动终端的构造提供两个或更多相机121。麦克风122可以在电话通话模式、记录模式、语音识别模式等等运行模式中经由麦克风122接收声音(音频数据),并且能够将这样的声音处理为音频数据。处理后的音频(语音)数据可以在电话通话模式的情况下转换为可经由移动通信模块112发送到移动通信基站的格式输出。麦克风122可以实施各种类型的噪声消除(或抑制)算法以消除(或抑制)在接收和发送音频信号的过程中产生的噪声或者干扰。
用户输入单元130可以根据用户输入的命令生成键输入数据以控制移动终端的各种操作。用户输入单元130允许用户输入各种类型的信息,并且可以包括键盘、锅仔片、触摸板(例如,检测由于被接触而导致的电阻、压力、电容等等的变化的触敏组件)、滚轮、摇杆等等。特别地,当触摸板以层的形式叠加在显示单元151上时,可以形成触摸屏。
感测单元140检测移动终端100的当前状态,(例如,移动终端100的打开或关闭状态)、移动终端100的位置、用户对于移动终端100的接触(即,触摸输入)的有无、移动终端100的取向、移动终端100的加速或减速移动和方向等等,并且生成用于控制移动终端100的操作的命令或信号。例如,当移动终端100实施为滑动型移动电话时,感测单元140可以感测该滑动型电话是打开还是关闭。另外,感测单元140能够检测电源单元190是否提供电力或者接口单元170是否与外部装置耦接。感测单元140可以包括接近传感器141将在下面结合触摸屏来对此进行描述。
接口单元170用作至少一个外部装置与移动终端100连接可以通过的接口。例如,外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。识别模块可以是存储用于验证用户使用移动终端100的各种信息并且可以包括用户识别模块(UIM)、客户识别模块(SIM)、通用客户识别模块(USIM)等等。另外,具有识别模块的装置(下面称为"识别装置")可以采取智能卡的形式,因此,识别装置可以经由端口或其它连接装置与移动终端100连接。接口单元170可以用于接收来自外部装置的输入(例如,数据信息、电力等等)并且将接收到的输入传输到移动终端100内的一个或多个元件或者可以用于在移动终端和外部装置之间传输数据。
另外,当移动终端100与外部底座连接时,接口单元170可以用作允许通过其将电力从底座提供到移动终端100的路径或者可以用作允许从底座输入的各种命令信号通过其传输到移动终端的路径。从底座输入的各种命令信号或电力可以用作用于识别移动终端是否准确地安装在底座上的信号。输出单元150被构造为以视觉、音频和/或触觉方式提供输出信号(例如,音频信号、视频信号、警报信号、振动信号等等)。输出单元150可以包括显示单元151、音频输出模块152、警报单元153等等。
显示单元151可以显示在移动终端100中处理的信息。例如,当移动终端100处于电话通话模式时,显示单元151可以显示与通话或其它通信(例如,文本消息收发、多媒体文件下载等等)相关的用户界面(UI)或图形用户界面(GUI)。当移动终端100处于视频通话模式或者图像捕获模式时,显示单元151可以显示捕获的图像和/或接收的图像、示出视频或图像以及相关功能的UI或GUI等等。
同时,当显示单元151和触摸板以层的形式彼此叠加以形成触摸屏时,显示单元151可以用作输入装置和输出装置。显示单元151可以包括液晶显示器(LCD)、薄膜晶体管LCD(TFT-LCD)、有机发光二极管(OLED)显示器、柔性显示器、三维(3D)显示器等等中的至少一种。这些显示器中的一些可以被构造为透明状以允许用户从外部观看,这可以称为透明显示器,典型的透明显示器可以例如为TOLED(透明有机发光二极管)显示器等等。根据特定想要的实施方式,移动终端100可以包括两个或更多显示单元(或其它显示装置),例如,移动终端可以包括外部显示单元(未示出)和内部显示单元(未示出)。触摸屏可用于检测触摸输入压力以及触摸输入位置和触摸输入面积。
音频输出模块152可以在移动终端处于呼叫信号接收模式、通话模式、记录模式、语音识别模式、广播接收模式等等模式下时,将无线通信单元110接收的或者在存储器160中存储的音频数据转换音频信号并且输出为声音。而且,音频输出模块152可以提供与移动终端100执行的特定功能相关的音频输出(例如,呼叫信号接收声音、消息接收声音等等)。音频输出模块152可以包括扬声器、蜂鸣器等等。
警报单元153可以提供输出以将事件的发生通知给移动终端100。典型的事件可以包括呼叫接收、消息接收、键信号输入、触摸输入等等。除了音频或视频输出之外,警报单元153可以以不同的方式提供输出以通知事件的发生。例如,警报单元153可以以振动的形式提供输出,当接收到呼叫、消息或一些其它进入通信(Incoming Communication)时,警报单元153可以提供触觉输出(例如,振动)以将其通知给用户。通过提供这样的触觉输出,即使在用户的移动电话处于用户的口袋中时,用户也能够识别出各种事件的发生。警报单元153也可以经由显示单元151或音频输出模块152提供通知事件的发生的输出。
存储器160可以存储由控制器180执行的处理和控制操作的软件程序等等,或者可以暂时地存储已经输出或将要输出的数据(例如,电话簿、消息、静态图像、视频等等)。而且,存储器160可以存储关于当触摸施加到触摸屏时输出的各种方式的振动和音频信号的数据。
存储器160可以包括至少一种类型的存储介质,所述存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等等。而且,移动终端100可以与通过网络连接执行存储器160的存储功能的网络存储装置协作。
控制器180通常控制移动终端的总体操作。例如,控制器180执行与语音通话、数据通信、视频通话等等相关的控制和处理。另外,控制器180可以包括用于再现(或回放)多媒体数据的多媒体模块181,多媒体模块181可以构造在控制器180内,或者可以构造为与控制器180分离。控制器180可以执行模式识别处理,以将在触摸屏上执行的手写输入或者图片绘制输入识别为字符或图像。
电源单元190在控制器180的控制下接收外部电力或内部电力并且提供操作各元件和组件所需的适当的电力。
这里描述的各种实施方式可以以使用例如计算机软件、硬件或其任何组合的计算机可读介质来实施。对于硬件实施,这里描述的实施方式可以通过使用特定用途集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理装置(DSPD)、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、被设计为执行这里描述的功能的电子单元中的至少一种来实施,在一些情况下,这样的实施方式可以在控制器180中实施。对于软件实施,诸如过程或功能的实施方式可以与允许执行至少一种功能或操作的单独的软件模块来实施。软件代码可以由以任何适当的编程语言编写的软件应用程序(或程序)来实施,软件代码可以存储在存储器160中并且由控制器180执行。
至此,已经按照其功能描述了移动终端。下面,为了简要起见,将描述诸如折叠型、直板型、摆动型、滑动型移动终端等等的各种类型的移动终端中的滑动型移动终端作为示例。因此,本发明能够应用于任何类型的移动终端,并且不限于滑动型移动终端。
如图1中所示的移动终端100可以被构造为利用经由帧或分组发送数据的诸如有线和无线通信系统以及基于卫星的通信系统来操作。
现在将参考图2描述其中根据本发明的移动终端能够操作的通信系统。
这样的通信系统可以使用不同的空中接口和/或物理层。例如,由通信系统使用的空中接口包括例如频分多址(FDMA)、时分多址(TDMA)、码分多址(CDMA)和通用移动通信系统(UMTS)(特别地,长期演进(LTE))、全球移动通信系统(GSM)等等。作为非限制性示例,下面的描述涉及CDMA通信系统,但是这样的教导同样适用于其它类型的系统。
参考图2,CDMA无线通信系统可以包括多个移动终端100、多个基站(BS)270、基站控制器(BSC)275和移动交换中心(MSC)280。MSC280被构造为与公共电话交换网络(PSTN)290形成接口。MSC280还被构造为与可以经由回程线路耦接到基站270的BSC275形成接口。回程线路可以根据若干己知的接口中的任一种来构造,所述接口包括例如E1/T1、ATM,IP、PPP、帧中继、HDSL、ADSL或xDSL。将理解的是,如图2中所示的系统可以包括多个BSC275。
每个BS270可以服务一个或多个分区(或区域),由多向天线或指向特定方向的天线覆盖的每个分区放射状地远离BS270。或者,每个分区可以由用于分集接收的两个或更多天线覆盖。每个BS270可以被构造为支持多个频率分配,并且每个频率分配具有特定频谱(例如,1.25MHz,5MHz等等)。
分区与频率分配的交叉可以被称为CDMA信道。BS270也可以被称为基站收发器子系统(BTS)或者其它等效术语。在这样的情况下,术语"基站"可以用于笼统地表示单个BSC275和至少一个BS270。基站也可以被称为"蜂窝站"。或者,特定BS270的各分区可以被称为多个蜂窝站。
如图2中所示,广播发射器(BT)295将广播信号发送给在系统内操作的移动终端100。如图1中所示的广播接收模块111被设置在移动终端100处以接收由BT295发送的广播信号。在图2中,示出了几个全球定位系统(GPS)卫星300。卫星300帮助定位多个移动终端100中的至少一个。
在图2中,描绘了多个卫星300,但是理解的是,可以利用任何数目的卫星获得有用的定位信息。如图1中所示的作为GPS的位置信息模块115通常被构造为与卫星300配合以获得想要的定位信息。替代GPS跟踪技术或者在GPS跟踪技术之外,可以使用可以跟踪移动终端的位置的其它技术。另外,至少一个GPS卫星300可以选择性地或者额外地处理卫星DMB传输。
作为无线通信系统的一个典型操作,BS270接收来自各种移动终端100的反向链路信号。移动终端100通常参与通话、消息收发和其它类型的通信。特定基站270接收的每个反向链路信号被在特定BS270内进行处理。获得的数据被转发给相关的BSC275。BSC提供通话资源分配和包括BS270之间的软切换过程的协调的移动管理功能。BSC275还将接收到的数据路由到MSC280,其提供用于与PSTN290形成接口的额外的路由服务。类似地,PSTN290与MSC280形成接口,MSC与BSC275形成接口,并且BSC275相应地控制BS270以将正向链路信号发送到移动终端100。
基于上述移动终端硬件结构以及通信系统,提出本发明方法各个实施例。
实施例一
参见图3,其示出了本发明实施例提供的搜索方法的第一种流程示意图,该方法可以应用于搜索引擎,搜索引擎是根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统,本实施例的搜索方法包括:
S301:接收搜索关键词;
这里,可以理解地,当用户以关键词K查找信息时,将该搜索关键词K输入到搜索引擎,然后,搜索引擎接收到该搜索关键词K。例如,搜索关键词可以是产品或服务的具体名称,也就是用户实际搜索的词汇,当用户想要在网上购买MP3播放器时,他可能会在搜索引擎中输入搜索关键词“MP3”或“MP3播放器”,也可能是“MP3随身听”等等,然后,搜索引擎接收上述搜索关键词,寻找相关信息。
S302:在通用词库中,获取与搜索关键词相关的第一近义词集合;
其中,通用词库为定期更新的词库;
这里,可以理解地,通用词库为定期更新的词库,通用词库中的词可以是网络爬虫从网页中获取的海量的词,定期更新通用词库的目的是获取较多较新的词,为准确的查找出与搜索关键词对应的近义关键词提供数据支持。这里,当搜索引擎从S301接收到搜索关键词之后,可以在通用词库中获取与搜索关键词相关的第一近义词集合。例如,当搜索引擎接收到上述搜索关键词K之后,在通用词库中获取到与搜索关键词K相关的第一近义词集合A,A={S10,S11,S12,...,S1n,...},其中,S10,S11,S12,...,S1n,分别为与搜索关键词K相关的多个第一近义词,n为自然数。
这里,为了获得与搜索关键词对应的近义关键词之间的相关度,本申请可以采用语义相似度计算的方法,例如,通过语义词典,把有关词语的概念组织在一个树形的结构中来计算;或者,通过词语上下文的信息,运用统计的方法进行计算。当然,本领域技术人员也可以根据实际需要自行设置计算方法,本发明实施例不做具体限定。
目前,实现近义词搜索的方案是:根据已经建立好的近义词库找到该搜索关键词的近义词,将包含近义词的网页作为搜素结果显示给用户。然而,现有技术中建立近义词库时,需要人工一项一项的配置近义词库,这个过程工作量大且极易出错,而且,由于网络的更新速度较快,对于网络上出现的大量新词、流行词无法做到及时更新,因此,无法通过现有的近义词库进行匹配的方式,获得相应的搜索结果。比如,最近提出的“小公举”、“蓝瘦”等互联网流行词,现有近义词词库根本查不到相关可供人工筛选用的数据,因此,无法使用现有的近义词词库进行匹配的方法,获得相应的搜索结果。
S303:在近义词词库中,获取与搜索关键词相关的第二近义词集合;
这里,可以理解地,近义词词库可以是针对某一特定技术领域,也可以是针对某一部小说或者某篇文章所属技术领域的近义词词库,以此来提高搜索的相关性。这里,当搜索引擎从S301接收到搜索关键词之后,可以在近义词词库中获取与搜索关键词相关的第二近义词集合。例如,当搜索引擎接收到上述搜索关键词K之后,在近义词词库中获取到与搜索关键词K相关的第二近义词集合B,B={S20,S21,S22,...,S2m,...},其中,S20,S21,S22,...,S2m,分别为与搜索关键词K相关的多个第二近义词,m为自然数。
S304:根据第一近义词集合与第二近义词集合,获得搜索关键词对应的近义关键词集合;
这里,可以理解地,根据S302在通用词库中,获取到的与搜索关键词相关的第一近义词集合A,以及根据S303在近义词词库中,获取到的与搜索关键词相关的第二近义词集合B,进行相关度处理之后,得到与搜索关键词对应的近义关键词集合C。需要说明的是,上述相关度处理的目的是将在通用词库中获取到的多个第一近义词以及在近义词词库中获取到的多个第二近义词按照预设规则进行有序编排,以便于快速、有效的定位与搜索关键词相关度较高的近义关键词。
需要说明的是,本实施例中,首先,在具有时效性的通用词库中查找与搜索关键词相关的第一近义词集合,然后,在小范围内具有精确性的近义词词库中获取到与搜索关键词相关的第二近义词集合,最后,将第一近义词集合与第二近义词集合进行有序编排,获得搜索关键词对应的近义关键词集合的方式,解决了近义词词库更新不及时,无法获取搜索关键词对应的近义关键词的问题。
S305:以搜索关键词以及近义关键词集合在搜索引擎中进行搜索。
这里,可以理解地,在S304根据第一近义词集合与第二近义词集合,获得搜索关键词对应的近义关键词集合之后,将根据得到的近义关键词集合C以及搜索关键词在搜索引擎中进行搜索,寻找相关信息。可见,本申请充分利用了通用词库覆盖范围广的特点,弥补了单个近义词库信息量的不足,而且,通用词库在定期更新,覆盖范围也在不断更新,进一步提高了搜索质量,还有利于抓住网络上流行的热点。
由此可以看出,在本实施例中,利用通用词库和近义词词库进行搜索关键词对应的近义关键词的搜索,扩大了近义关键词搜索的范围,而且,上述通用词库为定期更新的词库,为准确的查找出与搜索关键词对应的近义关键词提供数据支持,本实施例所提供的搜索方法,不再依赖人工一项一项的配置近义词词库来进行搜索关键词的匹配,而是通过自动获取搜索关键词对应的近义关键词集合的方式,减少了人工成本,扩大了搜索范围,提高了搜索精确度。
实施例二
基于前述实施例相同的技术构思,在本实施例中,根据上述通用词库和近义词词库中的词作为训练语料来训练神经网络语言模型,再根据词距离计算方法获得搜索关键词对应的近义关键词集合为例进行说明,以实现本发明实施例的搜索方法为准,方案如下:
在本实施中,参见图4所示,S302中获取与搜索关键词相关的第一近义词集合,包括:
S3021:获取通用词库中与搜索关键词相关的多个第一目标搜索关键词;
这里,可以理解地,在本实施例中,可以根据神经网络语言模型获取通用词库中与搜索关键词K相关的多个第一目标搜索关键词,例如:S10,S11,S12,...,S1n,...,本实施例中的神经网络语言模型可以是基于文本深度表示模型(word2vec,Word to Vector)模型进行改进所得到的,word2vec语言模型是通过将语料中的所有词映射到高维空间,并得到每个词所对应的高维空间向量,这一点可以理解为,根据每个词在语料中出现的位置以及上下文相关度,将所有训练语料中的词分布在球心在原点,一个半径为R的球体中,通过聚类的方式,当用户输入搜索关键词的时候,神经网络语言模型可以给出以该搜索关键词的向量所在的点为球心,在半径为r(R>r)的空间上所有的词,得到的词即认为与用户输入的搜索关键词有一定的相关性。需要说明的是,word2vec模型是一个模型文件,是所有词向量化表示的模型文件,在本实施例中,通用词库可以是网上获取的海量的词,获取的词量越大,神经网络语言模型获取的与搜索关键词具有相关性的第一目标搜索关键词就越准确。
S3022:分别计算搜索关键词与多个第一目标搜索关键词之间的多个第一相关度;
这里,可以理解地,在S3021获取到通用词库中与搜索关键词K相关的多个第一目标搜索关键词:S10,S11,S12,...,S1n,...,之后,可以利用词距离计算方法,分别计算搜索关键词与多个第一目标搜索关键词之间的多个第一相关度。例如,在神经网络语言模型获取通用词库中与搜索关键词相关的多个第一目标搜索关键词之后,根据搜索关键词与多个第一目标搜索关键词所对应的空间向量,分别计算出其向量夹角的余弦值,该值可以作为两个向量在空间的距离,根据这个距离,可以得到搜索关键词与多个第一目标搜索关键词之间的多个第一相关度,需要说明的是,搜索关键词与多个第一目标搜索关键词所对应的空间向量夹角的余弦值越接近于1,表示两个向量在空间越接近,其相关度越高。
S3023:判断多个第一相关度是否超过预设相关度阈值;
这里,可以理解地,预设相关度阈值越大,对搜索关键词与目标搜索关键词进行匹配的相关度要求就越高。例如,可以设置预设相关度阈值为0.7,然后,判断S3022所获取的多个第一相关度是否超过预设相关度阈值为0.7。当然,本领域技术人员也可以根据实际需要自行设置预设相关度阈值,本发明实施例不做具体限定。
S3024:在多个第一相关度超过预设相关度阈值的情况下,将多个第一相关度对应的多个第一目标搜索关键词按照预设规则排列,并作为第一近义词集合。
这里,可以理解地,根据S3023中设置的预设相关度阈值0.7,判断多个第一相关度是否超过预设相关度阈值0.7,在多个第一相关度超过预设相关度阈值0.7的情况下,将多个第一相关度对应的多个第一目标搜索关键词按照预设规则排列,并作为第一近义词集合。这里,本实施例中的预设规则,可以是相关度从高低的规则,比如,将多个第一相关度超过预设相关度阈值0.7所对应的多个第一目标搜索关键词,按照相关度从高到低的规则进行编排,同时,选取位置前10的第一目标搜索关键词作为第一近义词集合。例如,将上述多个第一目标搜索关键词:S10,S11,S12,...,S1n,...,按照词距离计算方法,分别计算出上述多个第一目标搜索关键词与搜索关键词之间的多个第一相关度,然后,判断出多个第一相关度是否超过预设相关度阈值0.7,接着,将多个第一相关度超过预设相关度阈值0.7所对应的多个第一目标搜索关键词按照相关度从高到低的规则进行编排,同时,选取位置前10的第一目标搜索关键词{S121,S107,S13,S127,S18,S175,S106,S12,S101,S126}作为第一近义词集合。
在本实施中,参见图5所示,S303中获取与搜索关键词相关的第二近义词集合,包括:
S3031:获取近义词词库中与搜索关键词相关的多个第二目标搜索关键词;
这里,可以根据神经网络语言模型获取近义词词库中与搜索关键词相关的多个第二目标搜索关键词,例如:S20,S21,S22,...,S2m,...,需要说明的是,上述近义词词库中的词可以是某一特定技术领域的词,或者是某一部小说或者某篇文章中的词,以此,提高搜索的相关性。
S3032:分别计算搜索关键词与多个第二目标搜索关键词之间的多个第二相关度;
这里,可以理解地,在S3031获取到近义词词库与搜索关键词K相关的多个第二目标搜索关键词:S20,S21,S22,...,S2m,...,之后,可以利用词距离计算方法,分别计算搜索关键词与多个第二目标搜索关键词之间的多个第二相关度。仍以词距离计算方法,计算搜索关键词与多个第二目标搜索关键词之间的多个第二相关度为例进行说明,在神经网络语言模型获取通近义词词库中与搜索关键词相关的多个第二目标搜索关键词之后,根据搜索关键词与多个第二目标搜索关键词所对应的空间向量,分别计算出其向量夹角的余弦值,该值可以作为两个向量在空间的距离,根据这个距离,可以得到搜索关键词与多个第二目标搜索关键词之间的多个第二相关度。其中,搜索关键词与多个第二目标搜索关键词所对应的空间向量夹角的余弦值越接近1,表示两个向量在空间越接近,其相关度越高。
S3033:将多个第二相关度对应的多个第二目标搜索关键词按照预设规则排列,并作为第二近义词集合。
这里,将多个第二相关度对应的多个第二目标搜索关键词,按照相关度从大到小的规则排列,并作为第二近义词集合。例如,将上述多个第二目标搜索关键词:S20,S21,S22,...,S2m,...,按照词距离计算方法,分别计算出上述多个第二目标搜索关键词与搜索关键词之间的多个第二相关度,然后,将多个第二相关度对应的多个第二目标搜索关键词按照相关度从高到低的规则进行编排,例如{S27,S227,S233,S204,S218,S205,S211,S220,S2m,...},将其作为第二近义词集合。
在本实施例中,S304中根据第一近义词集合与第二近义词集合,获得搜索关键词对应的近义关键词集合,包括:
将第一近义词集合与第二近义词集合取并集,并按照预设规则排列,作为搜索关键词对应的近义关键词集合。
这里,将上述获取的第一近义词集合与第二近义词集合取并集,进行去重操作后,按照相关度从大到小的规则排列,同时,选取位置前10的近义词作为搜索关键词对应的近义关键词集合。例如,将上述第一近义词集合{S121,S107,S13,S127,S18,S175,S106,S12,S101,S126}与上述第二近义词集合{S27,S227,S233,S204,S218,S205,S211,S220,S2m,...}中的近义词进行去重处理,按照相关度从大到小的规则重新排列,同时,选取位置前10的近义词作为搜索关键词对应的近义关键词集合{S121,S227,S233,S107,S13,S127,S18,S106,S12,S101}。
在本实施例中,在S305以搜索关键词以及近义关键词集合在搜索引擎中进行搜索之后,上述方法还包括:
将搜索结果显示给用户。
这里,参见图6所示,当用户想要以关键词K在网上查找信息时,首先,在搜索引擎中输入搜索关键字K,然后,参见图7所示,搜索引擎以搜索关键词K以及近义关键词集合{S121,S227,S233,S107,S13,S127,S18,S106,S12,S101}在搜索引擎中进行搜索,并将搜索结果显示给用户。
在本实施例中,在将搜索结果显示给用户之后,上述方法还包括:
Step1:接收用户的搜索选择;
这里,参见图8所示,待用户获取到搜索引擎显示的搜索结果之后,用户根据自己的实际需要,选择相应的搜索结果,例如,用户选择了近义关键词S227,搜索引擎接收并记录用户的搜索选择。
Step2:根据搜索选择在近义关键词集合中查找出所对应的近义关键词;
这里,可以理解地,搜索引擎在接收用户的搜索选择之后,对该用户的选择进行跟踪记录,并且可以根据该搜索选择在近义关键词结合中反查出对应的近义关键词。
Step3:根据近义关键词更新近义词词库。
这里,可以理解地,搜索引擎将反查出的近义关键词更新至近义词词库,为下一次的搜索提供便利。
这里需要说明的是,本实施例中,将搜索结果显示给用户之后,等待用户的搜索选择,在接收到用户的搜索选择之后,可以根据用户的搜索选择查找近义关键词集合中所对应的近义关键词,并且,将该近义关键词更新至近义词词库,为下一次搜索提供便利,该方法无需人工维护近义词词库,节省了近义词词库的维护成本。
由此可以看出,在本实施例中,利用通用词库和近义词词库进行搜索关键词对应的近义关键词的搜索,扩大了近义关键词搜索的范围,而且,上述通用词库为定期更新的词库,为准确的查找出与搜索关键词对应的近义关键词提供数据支持,本实施例所提供的搜索方法,不再依赖人工一项一项的配置近义词词库来进行搜索关键词的匹配,而是通过自动获取搜索关键词对应的近义关键词集合的方式,减少了人工成本,扩大了搜索范围,提高了搜索精确度。
实施例三
基于前述实施例相同的技术构思,参见图9所示,其示出了本发明实施例提供的一种搜索方法的详细流程,该流程可以包括:
S901:搜索引擎建立语料库;
这里,搜索引擎利用通用词库和近义词词库建立语料库,且定期更新该通用词库,以获取较多较新的词。
S902:搜索引擎根据上述通用词库和近义词词库中的词,训练神经网络语言模型。需要说明的是,输入神经网络语言模型的词越多,模型训练的结果越精确。
S903:搜索引擎接收搜索关键词;
S904:搜索引擎利用神经网络语言模型将搜索关键词放在通用词库中进行计算,得到多个第一目标搜索关键词,然后,根据词距离计算方法,计算出每一个第一目标搜索关键词与搜索关键词所对应的空间向量夹角的余弦值,该值作为每一个第一目标搜索关键词与搜索关键词在空间上的距离,取距离从大到小排序前10的词,并记录下来,作为第一近义词集合;
S905:搜索引擎利用神经网络语言模型将搜索关键词放在近义词库中进行计算,得到多个第二目标搜索关键词,然后,根据词距离计算方法,计算出每一个第二目标搜索关键词与搜索关键词所对应的空间向量夹角的余弦值,该值作为每一个第二目标搜索关键词与搜索关键词在空间上的距离,根据距离从大到小排序并记录下来,作为第二近义词集合。
S906:搜索引擎将第一近义词集合与第二近义词集合中所有的元素,去掉相同的词之后,按照距离重新从大到小排序,构建搜索关键词对应的近义关键词集合。
S907:搜索引擎将搜索关键词以及近义关键词集合,输入搜索引擎中进行搜索;搜索引擎将搜索结果显示给用户。
S908:搜索引擎接收用户的搜索选择;
S909:根据搜索选择在近义关键词集合中查找出所对应的近义关键词,根据近义关键词更新近义词词库。
也就是说,在近义关键词集合中反查出与用户的搜索选择所对应的近义关键词,将该近义关键词更新至近义词词库中,供下一次搜索使用。
本实施例中,利用神经网络语言训练模型计算词汇的相关度,得到近义词集合,进而更新搜索所需要的近义词词库,完全实现自动化更新搜索所需要的近义词词库,不再依赖人工一项一项的配置近义词词库,提高了效率和搜索精确度。
实施例四
基于同一发明构思,本实施例提供一种搜索装置,与上述一个或者多个实施例中所述的搜索引擎一致。
这里,参见图10所示,该装置100包括:第一接收模块101,用于接收搜索关键词;第一获取模块102,用于在通用词库中,获取与搜索关键词相关的第一近义词集合,其中,通用词库为定期更新的词库;第二获取模块103,用于在近义词词库中,获取与搜索关键词相关的第二近义词集合;处理模块104,用于根据第一近义词集合与第二近义词集合,获得搜索关键词对应的近义关键词集合;搜索模块105,用于以搜索关键词以及近义关键词集合在搜索引擎中进行搜索。
在本实施例中,上述第一获取模块,包括:第一获取子模块,用于获取通用词库中与搜索关键词相关的多个第一目标搜索关键词;第一计算子模块,用于分别计算搜索关键词与多个第一目标搜索关键词之间的多个第一相关度;判断子模块,用于判断多个第一相关度是否超过预设相关度阈值;第一处理子模块,用于在多个第一相关度超过预设相关度阈值的情况下,将多个第一相关度对应的多个第一目标搜索关键词按照预设规则排列,并作为第一近义词集合。
在本实施例中,上述第二获取模块,包括:第二获取子模块,用于获取近义词词库中与搜索关键词相关的多个第二目标搜索关键词;第二计算子模块,用于分别计算搜索关键词与多个第二目标搜索关键词之间的多个第二相关度;第二处理子模块,用于将多个第二相关度对应的多个第二目标搜索关键词按照预设规则排列,并作为第二近义词集合。
在本实施例中,上述处理模块,还用于将第一近义词集合与第二近义词集合取并集,并按照预设规则排列,作为搜索关键词对应的近义关键词集合。
在本实施例中,上述搜索装置还包括:显示模块,用于将搜索结果显示给用户。
在本实施例中,上述搜索装置还包括:第二接收模块,用于接收用户的搜索选择;查找模块,用于根据搜索选择在近义关键词集合中查找出所对应的近义关键词;更新模块,用于根据上述近义关键词更新近义词词库。
这里需要指出的是:以上装置实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果,因此不做赘述。对于本发明装置实施例中未披露的技术细节,请参照本发明方法实施例的描述而理解,为节约篇幅,因此不再赘述。
实施例五
基于同一发明构思,本实施例提供一种搜索引擎,该搜索引擎可以应用于提供搜索服务的服务器,也可以应用于前述实施例中的终端。
在实际应用中,上述第一接收模块、第一获取模块、第二获取模块、处理模块、搜索模块、显示模块、第二接收模块、查找模块、更新模块的功能可以通过处理器来实现,这里,该处理器可以为特定用途集成电路(ASIC,Application Specific Integrated Circuit)、数字信号处理器(DSP,Digital Signal Processor)、数字信号处理装置(DSPD,DigitalSignal Processing Device)、可编程逻辑装置(PLD,Programmable Logic Device)、现场可编程门阵列(FPGA,Field Programmable Gate Array)、中央处理器(CPU,CentralProcessing Unit)、控制器、微控制器、微处理器中的至少一种;可以理解地,对于不同的系统,用于实现上述处理器的功能的电子器件还可以为其它,本发明实施例不作具体限定。
这里需要指出的是:以上搜索引擎实施例的描述,与上述方法实施例的描述是类似的,具有同方法实施例相似的有益效果,因此不做赘述。对于本发明搜索引擎实施例中未披露的技术细节,请参照本发明方法实施例的描述而理解,为节约篇幅,因此不再赘述。
这里需要指出的是:
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。应理解,在本发明的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种搜索方法,其特征在于,包括:
接收搜索关键词;
在通用词库中,获取与所述搜索关键词相关的第一近义词集合,其中,所述通用词库为定期更新的词库;
在近义词词库中,获取与所述搜索关键词相关的第二近义词集合;
根据所述第一近义词集合与所述第二近义词集合,获得所述搜索关键词对应的近义关键词集合;
以所述搜索关键词以及所述近义关键词集合在搜索引擎中进行搜索。
2.根据权利要求1所述的方法,其特征在于,所述获取与所述搜索关键词相关的第一近义词集合,包括:
获取所述通用词库中与所述搜索关键词相关的多个第一目标搜索关键词;
分别计算所述搜索关键词与所述多个第一目标搜索关键词之间的多个第一相关度;
判断所述多个第一相关度是否超过预设相关度阈值;
在所述多个第一相关度超过所述预设相关度阈值的情况下,将所述多个第一相关度对应的多个第一目标搜索关键词按照预设规则排列,并作为所述第一近义词集合。
3.根据权利要求1所述的方法,其特征在于,所述获取与所述搜索关键词相关的第二近义词集合,包括:
获取所述近义词词库中与所述搜索关键词相关的多个第二目标搜索关键词;
分别计算所述搜索关键词与所述多个第二目标搜索关键词之间的多个第二相关度;
将所述多个第二相关度对应的多个第二目标搜索关键词按照预设规则排列,并作为所述第二近义词集合。
4.根据权利要求1所述的方法,其特征在于,所述根据所述第一近义词集合与所述第二近义词集合,获得所述搜索关键词对应的近义关键词集合,包括:
将所述第一近义词集合与所述第二近义词集合取并集,并按照预设规则排列,作为所述搜索关键词对应的所述近义关键词集合。
5.根据权利要求1所述的方法,其特征在于,所述以所述搜索关键词以及所述近义关键词集合在搜索引擎中进行搜索之后,所述方法包括:
将搜索结果显示给用户。
6.根据权利要求5所述的方法,其特征在于,所述将搜索结果显示给用户之后,所述方法包括:
接收所述用户的搜索选择;
根据所述搜索选择在所述近义关键词集合中查找出所对应的近义关键词;
根据所述近义关键词更新所述近义词词库。
7.一种搜索装置,其特征在于,包括:
第一接收模块,用于接收搜索关键词;
第一获取模块,用于在通用词库中,获取与所述搜索关键词相关的第一近义词集合,其中,所述通用词库为定期更新的词库;
第二获取模块,用于在近义词词库中,获取与所述搜索关键词相关的第二近义词集合;
处理模块,用于根据所述第一近义词集合与所述第二近义词集合,获得所述搜索关键词对应的近义关键词集合;
搜索模块,用于以所述搜索关键词以及所述近义关键词集合在搜索引擎中进行搜索。
8.根据权利要求7所述的装置,其特征在于,所述第一获取模块,包括:
第一获取子模块,用于获取所述通用词库中与所述搜索关键词相关的多个第一目标搜索关键词;
第一计算子模块,用于分别计算所述搜索关键词与所述多个第一目标搜索关键词之间的多个第一相关度;
判断子模块,用于判断所述多个第一相关度是否超过预设相关度阈值;
第一处理子模块,用于在所述多个第一相关度超过所述预设相关度阈值的情况下,将所述多个第一相关度对应的多个第一目标搜索关键词按照预设规则排列,并作为所述第一近义词集合。
9.根据权利要求7所述的装置,其特征在于,所述第二获取模块,包括:
第二获取子模块,用于获取所述近义词词库中与所述搜索关键词相关的多个第二目标搜索关键词;
第二计算子模块,用于分别计算所述搜索关键词与所述多个第二目标搜索关键词之间的多个第二相关度;
第二处理子模块,用于将所述多个第二相关度对应的多个第二目标搜索关键词按照预设规则排列,并作为所述第二近义词集合。
10.根据权利要求7所述的装置,其特征在于,所述处理模块,还用于将所述第一近义词集合与所述第二近义词集合取并集,并按照预设规则排列,作为所述搜索关键词对应的所述近义关键词集合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611250061.9A CN107066497A (zh) | 2016-12-29 | 2016-12-29 | 一种搜索方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611250061.9A CN107066497A (zh) | 2016-12-29 | 2016-12-29 | 一种搜索方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107066497A true CN107066497A (zh) | 2017-08-18 |
Family
ID=59623231
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611250061.9A Pending CN107066497A (zh) | 2016-12-29 | 2016-12-29 | 一种搜索方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107066497A (zh) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107451126A (zh) * | 2017-08-21 | 2017-12-08 | 广州多益网络股份有限公司 | 一种近义词筛选方法及系统 |
CN107734003A (zh) * | 2017-09-26 | 2018-02-23 | 努比亚技术有限公司 | 购物提示方法、终端、服务器及计算机可读存储介质 |
CN107798091A (zh) * | 2017-10-23 | 2018-03-13 | 金蝶软件(中国)有限公司 | 一种数据爬取的方法及其相关设备 |
CN107967258A (zh) * | 2017-11-23 | 2018-04-27 | 广州艾媒数聚信息咨询股份有限公司 | 文本信息的情感分析方法和系统 |
CN108446345A (zh) * | 2018-03-07 | 2018-08-24 | 维沃移动通信有限公司 | 一种数据查找方法及移动终端 |
CN108563713A (zh) * | 2018-03-29 | 2018-09-21 | 阿里巴巴集团控股有限公司 | 关键词规则生成方法及装置和电子设备 |
CN108763555A (zh) * | 2018-06-01 | 2018-11-06 | 北京奇虎科技有限公司 | 基于需求词的画像数据获取方法及装置 |
CN108763556A (zh) * | 2018-06-01 | 2018-11-06 | 北京奇虎科技有限公司 | 基于需求词的用户挖掘方法及装置 |
CN109376219A (zh) * | 2018-10-31 | 2019-02-22 | 北京锐安科技有限公司 | 文本属性字段的匹配方法、装置、电子设备及存储介质 |
CN109712613A (zh) * | 2018-12-27 | 2019-05-03 | 北京百佑科技有限公司 | 语义分析库更新方法、装置及电子设备 |
CN110188301A (zh) * | 2019-04-30 | 2019-08-30 | 北京百度网讯科技有限公司 | 用于网站的信息聚合方法及装置 |
CN110413903A (zh) * | 2019-07-08 | 2019-11-05 | 上海博泰悦臻网络技术服务有限公司 | 车辆导航系统中兴趣点信息检索装置及方法 |
CN110471599A (zh) * | 2019-08-14 | 2019-11-19 | 广东小天才科技有限公司 | 屏幕取词搜索方法、装置、电子设备和存储介质 |
CN111104500A (zh) * | 2019-12-21 | 2020-05-05 | 江西省天轴通讯有限公司 | 一种线索匹配方法、系统、可读存储介质及计算机设备 |
CN112735412A (zh) * | 2020-12-25 | 2021-04-30 | 北京博瑞彤芸科技股份有限公司 | 一种根据语音指令搜索信息的方法和系统 |
CN112988977A (zh) * | 2021-04-25 | 2021-06-18 | 成都索贝数码科技股份有限公司 | 基于近似词的模糊匹配媒资内容库检索方法 |
WO2022226811A1 (zh) * | 2021-04-27 | 2022-11-03 | 华为技术有限公司 | 构建语音识别模型和语音处理的方法和系统 |
CN117112736A (zh) * | 2023-10-24 | 2023-11-24 | 云南瀚文科技有限公司 | 一种基于语义分析模型的信息检索分析方法及系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1959674A (zh) * | 2006-11-09 | 2007-05-09 | 华为技术有限公司 | 网络搜索方法、网络搜索设备和用户终端 |
CN101145153A (zh) * | 2006-09-13 | 2008-03-19 | 阿里巴巴公司 | 一种搜索信息的方法及系统 |
CN102207973A (zh) * | 2011-06-22 | 2011-10-05 | 上海互联网软件有限公司 | 一种模糊检索系统及其检索方法 |
CN103136224A (zh) * | 2011-11-24 | 2013-06-05 | 百度时代网络技术(北京)有限公司 | 一种关键词的推荐方法和装置 |
CN103605665A (zh) * | 2013-10-24 | 2014-02-26 | 杭州电子科技大学 | 一种基于关键词的评审专家智能检索与推荐方法 |
CN104537101A (zh) * | 2015-01-12 | 2015-04-22 | 杏树林信息技术(北京)有限公司 | 医学信息搜索引擎系统和搜索方法 |
CN104598546A (zh) * | 2014-12-21 | 2015-05-06 | 郭和友 | 同义词搜索系统 |
-
2016
- 2016-12-29 CN CN201611250061.9A patent/CN107066497A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101145153A (zh) * | 2006-09-13 | 2008-03-19 | 阿里巴巴公司 | 一种搜索信息的方法及系统 |
CN1959674A (zh) * | 2006-11-09 | 2007-05-09 | 华为技术有限公司 | 网络搜索方法、网络搜索设备和用户终端 |
CN102207973A (zh) * | 2011-06-22 | 2011-10-05 | 上海互联网软件有限公司 | 一种模糊检索系统及其检索方法 |
CN103136224A (zh) * | 2011-11-24 | 2013-06-05 | 百度时代网络技术(北京)有限公司 | 一种关键词的推荐方法和装置 |
CN103605665A (zh) * | 2013-10-24 | 2014-02-26 | 杭州电子科技大学 | 一种基于关键词的评审专家智能检索与推荐方法 |
CN104598546A (zh) * | 2014-12-21 | 2015-05-06 | 郭和友 | 同义词搜索系统 |
CN104537101A (zh) * | 2015-01-12 | 2015-04-22 | 杏树林信息技术(北京)有限公司 | 医学信息搜索引擎系统和搜索方法 |
WO2016112832A1 (zh) * | 2015-01-12 | 2016-07-21 | 杏树林信息技术(北京)有限公司 | 医学信息搜索引擎系统和搜索方法 |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107451126B (zh) * | 2017-08-21 | 2020-07-28 | 广州多益网络股份有限公司 | 一种近义词筛选方法及系统 |
CN107451126A (zh) * | 2017-08-21 | 2017-12-08 | 广州多益网络股份有限公司 | 一种近义词筛选方法及系统 |
CN107734003A (zh) * | 2017-09-26 | 2018-02-23 | 努比亚技术有限公司 | 购物提示方法、终端、服务器及计算机可读存储介质 |
CN107798091A (zh) * | 2017-10-23 | 2018-03-13 | 金蝶软件(中国)有限公司 | 一种数据爬取的方法及其相关设备 |
CN107967258A (zh) * | 2017-11-23 | 2018-04-27 | 广州艾媒数聚信息咨询股份有限公司 | 文本信息的情感分析方法和系统 |
CN107967258B (zh) * | 2017-11-23 | 2021-09-17 | 广州艾媒数聚信息咨询股份有限公司 | 文本信息的情感分析方法和系统 |
CN108446345A (zh) * | 2018-03-07 | 2018-08-24 | 维沃移动通信有限公司 | 一种数据查找方法及移动终端 |
CN108446345B (zh) * | 2018-03-07 | 2021-11-09 | 维沃移动通信有限公司 | 一种数据查找方法及移动终端 |
CN108563713A (zh) * | 2018-03-29 | 2018-09-21 | 阿里巴巴集团控股有限公司 | 关键词规则生成方法及装置和电子设备 |
CN108563713B (zh) * | 2018-03-29 | 2021-08-10 | 创新先进技术有限公司 | 关键词规则生成方法及装置和电子设备 |
CN108763555A (zh) * | 2018-06-01 | 2018-11-06 | 北京奇虎科技有限公司 | 基于需求词的画像数据获取方法及装置 |
CN108763556A (zh) * | 2018-06-01 | 2018-11-06 | 北京奇虎科技有限公司 | 基于需求词的用户挖掘方法及装置 |
CN109376219A (zh) * | 2018-10-31 | 2019-02-22 | 北京锐安科技有限公司 | 文本属性字段的匹配方法、装置、电子设备及存储介质 |
CN109712613A (zh) * | 2018-12-27 | 2019-05-03 | 北京百佑科技有限公司 | 语义分析库更新方法、装置及电子设备 |
CN110188301A (zh) * | 2019-04-30 | 2019-08-30 | 北京百度网讯科技有限公司 | 用于网站的信息聚合方法及装置 |
CN110413903A (zh) * | 2019-07-08 | 2019-11-05 | 上海博泰悦臻网络技术服务有限公司 | 车辆导航系统中兴趣点信息检索装置及方法 |
CN110471599A (zh) * | 2019-08-14 | 2019-11-19 | 广东小天才科技有限公司 | 屏幕取词搜索方法、装置、电子设备和存储介质 |
CN111104500A (zh) * | 2019-12-21 | 2020-05-05 | 江西省天轴通讯有限公司 | 一种线索匹配方法、系统、可读存储介质及计算机设备 |
CN112735412A (zh) * | 2020-12-25 | 2021-04-30 | 北京博瑞彤芸科技股份有限公司 | 一种根据语音指令搜索信息的方法和系统 |
CN112735412B (zh) * | 2020-12-25 | 2022-11-22 | 北京博瑞彤芸科技股份有限公司 | 一种根据语音指令搜索信息的方法和系统 |
CN112988977A (zh) * | 2021-04-25 | 2021-06-18 | 成都索贝数码科技股份有限公司 | 基于近似词的模糊匹配媒资内容库检索方法 |
WO2022226811A1 (zh) * | 2021-04-27 | 2022-11-03 | 华为技术有限公司 | 构建语音识别模型和语音处理的方法和系统 |
WO2022227973A1 (zh) * | 2021-04-27 | 2022-11-03 | 华为技术有限公司 | 构建语音识别模型和语音处理的方法和系统 |
CN117112736A (zh) * | 2023-10-24 | 2023-11-24 | 云南瀚文科技有限公司 | 一种基于语义分析模型的信息检索分析方法及系统 |
CN117112736B (zh) * | 2023-10-24 | 2024-01-05 | 云南瀚文科技有限公司 | 一种基于语义分析模型的信息检索分析方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107066497A (zh) | 一种搜索方法和装置 | |
CN106504280A (zh) | 一种浏览视频的方法及终端 | |
CN104917896A (zh) | 一种推送数据的方法和终端设备 | |
CN104731340B (zh) | 光标位置确定方法及终端设备 | |
CN106776906A (zh) | 一种应用聚类方法及装置 | |
CN105893498A (zh) | 一种实现截屏的方法和装置、查找图片的方法和装置 | |
CN106682964A (zh) | 一种确定应用标签的方法和装置 | |
CN105141507A (zh) | 社交应用的头像显示方法和装置 | |
CN105975545A (zh) | 一种终端控制方法及终端 | |
CN104951514A (zh) | 音频播放方法及装置 | |
CN105357381A (zh) | 一种终端操作方法和智能终端 | |
CN106033468A (zh) | 网页内容抽取方法、装置及系统 | |
CN106708804A (zh) | 一种词向量的生成方法和装置 | |
CN109033263A (zh) | 一种应用推荐方法及终端 | |
CN105897995A (zh) | 一种添加联系人信息的方法和装置 | |
CN105892803A (zh) | 设置项快捷设置方法及移动终端 | |
CN106528576A (zh) | 页面搜索方法、终端及系统 | |
CN105096696A (zh) | 一种基于智能手环的手语翻译装置和方法 | |
CN106024013A (zh) | 语音数据搜索方法及系统 | |
CN104866095A (zh) | 移动终端及其桌面管理方法和装置 | |
CN105096962A (zh) | 一种信息处理方法及终端 | |
CN104898927B (zh) | 信息搜索的方法及装置 | |
CN104915230B (zh) | 应用控制方法及装置 | |
CN106791149A (zh) | 一种移动终端和控制屏幕的方法 | |
CN106777248A (zh) | 一种搜索引擎测试评价方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170818 |