CN108846037B - 提示搜索词的方法和装置 - Google Patents

提示搜索词的方法和装置 Download PDF

Info

Publication number
CN108846037B
CN108846037B CN201810530077.8A CN201810530077A CN108846037B CN 108846037 B CN108846037 B CN 108846037B CN 201810530077 A CN201810530077 A CN 201810530077A CN 108846037 B CN108846037 B CN 108846037B
Authority
CN
China
Prior art keywords
phrases
weight
preset field
search
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810530077.8A
Other languages
English (en)
Other versions
CN108846037A (zh
Inventor
强顺亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin ByteDance Technology Co Ltd
Original Assignee
Tianjin ByteDance Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin ByteDance Technology Co Ltd filed Critical Tianjin ByteDance Technology Co Ltd
Priority to CN201810530077.8A priority Critical patent/CN108846037B/zh
Publication of CN108846037A publication Critical patent/CN108846037A/zh
Application granted granted Critical
Publication of CN108846037B publication Critical patent/CN108846037B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种提示搜索词的方法和装置,其中,方法包括:获取已输入的关键词,其中,关键词为搜索词中的部分字符,根据关键词,在用于存储对预设领域的信息进行信息提取后得到的短语的数据库中搜索,将数据库中与关键词匹配的短语作为候选搜索词,展示候选搜索词,以提示所需输入的搜索词,搜索词用于对预设领域的信息进行搜索。通过对预设领域的信息进行信息提取得到短语,并将短语存储至预设领域的数据库中,当用户对预设领域进行信息检索时,根据用户输入的搜索词在数据库中查询并进行候选搜索词的提示,提高了提示的候选搜索词的准确度,解决了现有技术中,提示关键词与用户需求相关性参差不齐,生成的提示搜索词的准确度较低的技术问题。

Description

提示搜索词的方法和装置
技术领域
本发明涉及移动电子技术领域,尤其涉及一种提示搜索词的方法和装置。
背景技术
随着互联网技术的发展,网络上的信息量暴增,用户需要获取信息时,可以通过搜索方式获取相关的信息。用户在搜索栏中输入关键词进行搜索时,搜索栏的下拉列表中会自动呈现和用户搜索词相关的提示搜索词,协助用户进行搜索,从而提示搜索词的准确度对于用户搜索的准确度来讲意义较大。
现有技术中,提示关键词与用户需求相关性参差不齐,使得生成的提示搜索词的准确度较低。
发明内容
本发明实施例旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明实施例提出一种提示搜索词的方法,通过对预设领域的信息进行信息提取得到短语,并将短语存储至预设领域的数据库中,当用户对预设领域进行信息检索时,根据用户输入的搜索词在数据库中查询并进行候选搜索词的提示,提高了提示的候选搜索词的准确度。
本发明实施例提出一种提示搜索词的装置。
本发明实施例提出一种电子设备。
本发明实施例提出一种非暂态存储介质。
本发明一方面实施例提出了一种提示搜索词的方法,包括:
获取已输入的关键词;所述关键词为搜索词中的部分字符;
根据所述关键词,在数据库中搜索,将所述数据库中与所述关键词匹配的短语作为候选搜索词;其中,所述数据库,用于存储对预设领域的信息进行信息提取后得到的短语;
展示所述候选搜索词,以提示所需输入的搜索词;所述搜索词用于对所述预设领域的信息进行搜索。
本发明又一方面实施例提出了一种提示搜索词的装置,包括:
获取模块,用于获取已输入的关键词;所述关键词为搜索词中的部分字符;
搜索模块,用于根据所述关键词,在数据库中搜索,将所述数据库中与所述关键词匹配的短语作为候选搜索词;其中,所述数据库,用于存储对预设领域的信息进行信息提取后得到的短语;
展示模块,用于展示所述候选搜索词,以提示所需输入的搜索词;所述搜索词用于对所述预设领域的信息进行搜索。
本发明又一方面实施例提出了一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如前述方法实施例所述的提示搜索词的方法。
本发明又一方面实施例提出了一种非暂态存储介质,其上存储有计算机程序,该程序被处理器执行时实现如前述方法实施例所述的提示搜索词的方法。
本发明实施例提供的技术方案可以包含如下的有益效果:
获取已输入的关键词,其中,关键词为搜索词中的部分字符,根据关键词,在用于存储对预设领域的信息进行信息提取后得到的短语的数据库中搜索,将数据库中与关键词匹配的短语作为候选搜索词,展示候选搜索词,以提示所需输入的搜索词,搜索词用于对预设领域的信息进行搜索。通过对预设领域的信息进行信息提取得到短语,并将短语存储至预设领域的数据库中,当用户对预设领域进行信息检索时,根据用户输入的关键词在数据库中查询并进行候选搜索词的提示,提高了生成的候选搜索词的准确度。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例所提供的一种提示搜索词的方法的流程示意图;
图2为本发明实施例所提供的另一种提示搜索词的方法的流程示意图;
图3为本发明实施例提供的候选搜索词的展示示意图;
图4为本发明实施例提供的一种提示搜索词的装置的结构示意图;
图5为本发明实施例所提供的另一种提示搜索词的装置的结构示意图;
图6是图示根据本发明的实施例的非暂态存储介质的示意图;以及
图7是图示根据本发明实施例的电子设备的硬件结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的提示搜索词的方法和装置。
图1为本发明实施例所提供的一种提示搜索词的方法的流程示意图。
如图1所示,该方法包括以下步骤:
步骤101,获取已输入的关键词。
其中,关键词为输入的搜索词中的部分字符。
步骤102,根据关键词,在数据库中搜索,将数据库中与关键词匹配的短语作为候选搜索词。
其中,数据库,用于存储对预设领域的信息进行信息提取后得到的短语。
具体地,根据关键词,确定输入关键词的搜索栏对应的预设领域,根据关键词,在预设领域对应的数据库中搜索,将数据库中搜索到的与关键词匹配的短语作为候选搜索词。
步骤103,展示候选搜索词,以提示所需输入的搜索词。
其中,搜索词用于对预设领域的信息进行搜索。
具体地,数据库中存储有短语的权重,从而可确定候选搜索词的权重,根据各候选搜索词对应的权重,对各候选搜索词进行排序,例如采用升序或者降序排列,依据各候选搜索词的排序,顺序展示各候选搜索词,以提示所需输入的搜索词。
本发明实施例的提示搜索词的方法中,获取已输入的关键词,其中,关键词为搜索词中的部分字符,根据关键词,在用于存储对预设领域的信息进行信息提取后得到的短语的数据库中搜索,将数据库中与关键词匹配的短语作为候选搜索词,展示候选搜索词,以提示所需输入的搜索词,搜索词用于对预设领域的信息进行搜索。通过对预设领域的信息进行信息提取得到短语,并将短语存储至预设领域的数据库中,当用户对预设领域进行信息检索时,根据用户输入的搜索词在数据库中查询并进行候选搜索词的提示,提高了提示的候选搜索词的准确度,解决了现有技术中,提示关键词与用户需求相关性参差不齐,生成的提示搜索词的准确度较低的问题。
上一实施例中说明了,在数据库中存储了对预设领域的信息进行信息提取后得到的短语,在用户进行搜索时,可根据输入的关键词,在数据库中进行搜索,并将数据库中搜索得到的和关键词匹配的短语作为候选关键词,对用户进行提示,为此,本实施例提出另一种提示搜索词的方法的可能的实现方式,说明如何对预设领域的信息进行信息提取生成短语的方法,并以简历检索领域为例,对本实施例的步骤进行说明。
图2为本发明实施例所提供的另一种提示搜索词的方法的流程示意图,如图2所示,该方法可以包括如下步骤:
步骤201,获取预设领域的信息,依据标点符号,对预设领域的信息进行语句划分,并对划分出的语句进行分析,得到多个词条。
具体地,获取预设领域的信息,例如,对应该领域的文章、报刊、语音等信息,将获取到的预设领域的信息转化为文本,依据标点符号,将预设领域的文本信息划分为多个语句,针对每一个语句进行切词处理,根据停用词表去除停用词,如助词、介词等,获取语句中的实词,得到多个词条。
步骤202,对同一语句划分出的词条进行组合,生成多个短语。
具体地,针对得到的每一语句,将该语句中划分出的各词条,确定在该同一个语句中词条出现的顺序,依据在同一个语句中词条出现的顺序,针对每一个词条,将该词条与后续出现的不同个数的词条分别进行组合,生成多个短语,其中,进行组合的词条个数小于阈值个数,以避免短语较长,不利于作为搜索提示词进行显示,且包含的词条太多,使得搜索范围太小,不利于搜索。例如,一般搜索框的下拉框的长度有限,太长的短语不利于单行显示,且显示冗余。
步骤203,根据多个短语在预设领域的信息中重复出现的次数,对多个短语进行筛选,将筛选保留的短语存储至数据库中。
具体地,针对组合得到的每一个短语,根据该短语中包含的词条的个数和每一个词条的初始权重,其中,词条的初始权重,是指在对预设领域的信息进行语句划分得到的词条赋予的初始权重,所有词条的初始权重值相同,生成各短语的权重,各短语的权重是将词条的权重除以各短语中包含的词条个数,例如,短语1包含的词条个数为3,词条的初始权重均为1,则短语1的权重=1/3;短语2包含的词条个数为2,词条的初始权重值相同,也为1,则短语2的权重=1/2。即,各短语的权重与词条个数成反比,短语的权重与初始权重成正比,也就是说,各短语中包含的词条个数越多,该短语的初始权重值就越小。因包含词条较多的短语长短较长,一般情况下出现的概率相对较低,则对应的初始权重值则应较低。
进而,在根据预设领域的信息所生成的短语中,对重复的短语进行合并,并将合并的各短语求权重和,将权重和作为合并后该短语的权重。上一步骤中通过词条的初始权重,计算得到每一个短语的权重,在本步骤中,又通过将重复的短语进行合并,并将合并的各短语的权重相加得到的权重和作为短语的最终的权重值,实现了正确的短语因出现频率较高,对应的短语权重值则较高,而错误的短语或者是较生僻的短语因出现频率较低,对应的短语的权重值则较小,提高了预设领域中对应短语的准确性。
需要说明的是,所谓正确的短语,是指在预设领域的信息中,对于某一事物的描述是被大部分人认可的约定俗成的叫法,从而大部分人均会用相同的短语来称呼,故而正确的短语出现的频率会较高,反之,称为错误的短语或者是较生僻的短语,这部分短语出现的频率则会较低。
更进一步,将合并后短语的权重和预设的阈值权重比较,筛选出权重值高于阈值权重的短语,保留权重值高于阈值权重的短语,并将筛选保留的短语存储至数据库中。实现了出现频率较高的正确的短语的存储。
例如,以简历检索领域为例,对于人们对于“人力资源部(human resources,hr)”一词,人们在该领域的相关描述中提到最多的就是短语hr管理培训生、hr实习生和hr管培生等,那么根据该领域的信息生成的短语中,hr管理培训生、hr实习生和hr管培生出现的概率就较高,对应的权重就会较高,会筛选保留在数据库中。
步骤204,从预设领域的搜索栏中,获取输入的搜索词中的部分字符对应的关键词。
具体地,用户需要检索时,根据检索的需求,可以选择对应的预设领域的搜索栏,如搜索栏以竖向列表的形式排列,用户需要进行简历搜索,则选择简历领域的搜索栏。获取用户在预设领域的搜索栏中输入的搜索词中的部分字符,因用户输入时是逐步输入搜索词的,将已输入的搜索词中的部分字符作为关键词。例如,用户向输入“运营实习生”,当用户输入字符“运营”时,则将“运营”作为获取到的关键词。
步骤205,根据关键词,在数据库中搜索,将数据库中与关键词匹配的短语作为候选搜索词。
具体地,根据获取得到的关键词,在预设领域对应的数据库中进行搜索,将搜索到的和关键词匹配的短语作为候选搜索词。
步骤206,展示候选搜索词,以提示所需输入的搜索词。
具体地,数据库中存储有各短语的权重值,查询确定的候选搜索词对应的短语的权重值,根据各候选搜索词对应的权重,对各候选搜索词进行排序,依据各候选搜索词的排序,顺序展示各候选搜索词,作为搜索词的提示对用户进行提示,以使用户从候选搜索词中选择需要输入的搜索词,对预设领域进行搜索,减少了用户的输入操作,提高了便利度和用户的满意度。
图3为本发明实施例提供的候选搜索词的展示示意图,如图3所示,当获取到用户输入“hr”时,搜索框的下拉列表中顺序展示了和关键词“hr”匹配度最高的候选搜索词,以方便用户选择。
本发明实施例的提示搜索词的方法中,通过对预设领域的信息进行信息提取得到各短语,计算得到各短语的初始权重,并根据各短语在预设领域中重复出现的次数相加求和确定各短语的权重,并将权重符合阈值要求的短语作为提示搜索词存储至预设领域的数据库中,该方法通用性较好,同时生成的提示搜索词对应的短语的准确度较高,当用户对预设领域进行信息检索时,根据获取到的用户输入的关键词在数据库中查询和关键词匹配的短语,将匹配的短语作为候选搜索词,并将候选搜索词依据权重顺序展示,进行搜索词的提示,给用户带来了便利性。
为了实现上述实施例,本发明还提出一种提示搜索词的装置。
图4为本发明实施例提供的一种提示搜索词的装置的结构示意图。
如图4所示,该装置包括:获取模块41、搜索模块42和展示模块43。
获取模块41,用于获取已输入的关键词,其中,关键词为搜索词中的部分字符。
搜索模块42,用于根据关键词,在数据库中搜索,将数据库中与关键词匹配的短语作为候选搜索词,其中,数据库,用于存储对预设领域的信息进行信息提取后得到的短语。
展示模块43,用于展示候选搜索词,以提示所需输入的搜索词,其中,搜索词用于对预设领域的信息进行搜索。
需要说明的是,前述对方法实施例的解释说明也适用于该实施例的装置,此处不再赘述。
本发明实施例的提示搜索词的装置中,获取模块用于获取已输入的关键词,其中,关键词为搜索词中的部分字符,搜索模块用于根据关键词,在用于存储对预设领域的信息进行信息提取后得到的短语的数据库中搜索,将数据库中与关键词匹配的短语作为候选搜索词,展示模块用于展示候选搜索词,以提示所需输入的搜索词,搜索词用于对预设领域的信息进行搜索。通过对预设领域的信息进行信息提取得到短语,并将短语存储至预设领域的数据库中,当用户对预设领域进行信息检索时,根据用户输入的搜索词在数据库中查询并进行候选搜索词的提示,提高了提示的候选搜索词的准确度,解决了现有技术中,提示关键词与用户需求相关性参差不齐,生成的提示搜索词的准确度较低的问题。
基于上述实施例,本发明实施例还提供了一种提示搜索词的装置的可能的实现方式,图5为本发明实施例所提供的另一种提示搜索词的装置的结构示意图,在上一实施例的基础上,如图5所示,该装置还包括:生成模块44、筛选模块45和存储模块46。
生成模块44,用于根据预设领域的信息,生成多个短语。
筛选模块45,用于根据所述多个短语在预设领域的信息中重复出现次数,对多个短语进行筛选。
存储模块46,用于将筛选保留的短语,存储至数据库中。
进一步,作为本实施例的一种可能的实现方式,生成模块44,具体用于
依据标点符号,对预设领域的信息进行语句划分;
对划分出的语句进行分词,得到多个词条;
对同一语句划分出的词条进行组合,生成多个短语。
作为一种可能的实现方式,生成模块44,具体还用于:
将同一语句划分出的各词条,确定在同一语句中出现的顺序,依据在同一语句中出现的顺序,将各词条与后续出现的词条组合,生成多个短语。
作为一种可能的实现方式,生成模块44,具体还可以用于:
针对每一个词条,依据在同一语句中出现的顺序,将各词条与后续出现的不同个数的词条分别组合,其中组合的词条个数小于阈值个数。
作为本实施例的一种可能的实现方式,筛选模块45,具体可以用于:
根据各短语中包含的词条个数和每一词条的初始权重,生成各短语的权重,其中,各短语的权重与词条个数成反比,各短语的权重与初始权重成正比,在根据预设领域的信息所生成的短语中,对重复的短语进行合并,并将合并的各短语求权重和,将权重和作为合并后短语的权重,根据合并后短语的权重,进行筛选,以保留权重高于阈值权重的短语。
作为本实施例的一种可能的实现方式,上述搜索模块42,具体可以用于:
确定输入关键词的搜索栏对应的预设领域,根据关键词,在预设领域对应的数据库中搜索。
作为本实施例的一种可能的实现方式,上述展示模块43,具体可以用于:
根据各候选搜索词对应的权重,对各候选搜索词排序,依据各候选搜索词排序,顺序展示各候选搜索词。
需要说明的是,前述对方法实施例的解释说明也适用于该实施例的装置,此处不再赘述。
本发明实施例的提示搜索词的装置中,通过对预设领域的信息进行信息提取得到各短语,计算得到各短语的初始权重,并根据各短语在预设领域中重复出现的次数相加求和确定各短语的权重,并将权重符合阈值要求的短语作为提示搜索词存储至预设领域的数据库中,该方法通用性较好,同时生成的提示搜索词对应的短语的准确度较高,当用户对预设领域进行信息检索时,根据获取到的用户输入的关键词在数据库中查询和关键词匹配的短语,将匹配的短语作为候选搜索词,并将候选搜索词依据权重顺序展示,进行搜索词的提示,给用户带来了便利性,解决了现有技术中,提示关键词与用户需求相关性参差不齐,生成的提示搜索词的准确度较低的问题。
为了实现上述实施例,本发明实施例还提出一种非暂态存储介质,其上存储有计算机程序,该程序被处理器执行时实现如前述方法实施例所述的提示搜索词的方法。
图6是图示根据本发明的实施例的非暂态存储介质的示意图。如图6所示,根据本发明实施例的非暂态存储介质300,其上存储有非暂态计算机可读指令301。当该非暂态计算机可读指令301由处理器运行时,执行前述的本发明各实施例的提示搜索词的方法的全部或部分步骤。
为了实现上述实施例,本发明实施例还提出一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如前述方法实施例所述的提示搜索词的方法。
图7是图示根据本发明实施例的电子设备的硬件结构示意图。电子设备可以以各种形式来实施,本发明中的电子设备可以包括但不限于诸如移动电话、智能电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、导航装置、车载电子设备、车载显示电子、车载电子后视镜等等的移动电子设备以及诸如数字TV、台式计算机等等的固定电子设备。
如图7所示,电子设备1100可以包括无线通信单元1110、A/V(音频/视频)输入单元1120、用户输入单元1130、感测单元1140、输出单元1150、存储器1160、接口单元1170、控制器1180和电源单元1190等等。图7示出了具有各种组件的电子设备,但是应理解的是,并不要求实施所有示出的组件。可以替代地实施更多或更少的组件。
其中,无线通信单元1110允许电子设备1100与无线通信系统或网络之间的无线电通信。A/V输入单元1120用于接收音频或视频信号。用户输入单元1130可以根据用户输入的命令生成键输入数据以控制电子设备的各种操作。感测单元1140检测电子设备1100的当前状态、电子设备1100的位置、用户对于电子设备1100的触摸输入的有无、电子设备1100的取向、电子设备1100的加速或减速移动和方向等等,并且生成用于控制电子设备1100的操作的命令或信号。接口单元1170用作至少一个外部装置与电子设备1100连接可以通过的接口。输出单元1150被构造为以视觉、音频和/或触觉方式提供输出信号。存储器1160可以存储由控制器1180执行的处理和控制操作的软件程序等等,或者可以暂时地存储己经输出或将要输出的数据。存储器1160可以包括至少一种类型的存储介质。而且,电子设备1100可以与通过网络连接执行存储器1160的存储功能的网络存储装置协作。控制器1180通常控制电子设备的总体操作。另外,控制器1180可以包括用于再现或回放多媒体数据的多媒体模块。控制器1180可以执行模式识别处理,以将在触摸屏上执行的手写输入或者图片绘制输入识别为字符或图像。电源单元1190在控制器1180的控制下接收外部电力或内部电力并且提供操作各元件和组件所需的适当的电力。
本发明提出的提示搜索词的方法的各种实施方式可以以使用例如计算机软件、硬件或其任何组合的计算机可读介质来实施。对于硬件实施,本发明提出的提示搜索词的方法的各种实施方式可以通过使用特定用途集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理装置(DSPD)、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、被设计为执行这里描述的功能的电子单元中的至少一种来实施,在一些情况下,本发明提出的提示搜索词的方法的各种实施方式可以在控制器1180中实施。对于软件实施,本发明提出的提示搜索词的方法的各种实施方式可以与允许执行至少一种功能或操作的单独的软件模块来实施。软件代码可以由以任何适当的编程语言编写的软件应用程序(或程序)来实施,软件代码可以存储在存储器1160中并且由控制器1180执行。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在非暂态存储介质中,如磁碟、光盘、只读存储记忆体(ROM)或随机存储记忆体(RAM)等等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种提示搜索词的方法,其特征在于,所述方法包括以下步骤:
获取已输入的关键词;所述关键词为搜索词中的部分字符;
获取预设领域的信息,依据标点符号,对所述预设领域的信息进行语句划分;
对划分出的语句进行分词,得到多个词条;
确定在同一语句中划分出的词条的出现顺序,根据所述出现顺序,将当前词条与在后的词条分别进行组合以生成多个短语,所述进行组合的词条个数小于阈值个数;
根据所述关键词,在数据库中搜索,将所述数据库中与所述关键词匹配的短语作为候选搜索词;其中,所述数据库,用于存储对预设领域的信息进行信息提取后得到的短语;
展示所述候选搜索词,以提示所需输入的搜索词;所述搜索词用于对所述预设领域的信息进行搜索,
所述根据所述关键词,在数据库中搜索之前,所述方法还包括:
根据所述多个短语在所述预设领域的信息中重复出现次数,对所述多个短语进行筛选;
将筛选保留的短语,存储至所述数据库中。
2.根据权利要求1所述的提示搜索词的方法,其特征在于,所述根据所述多个短语在所述预设领域的信息中重复出现次数,对所述多个短语进行筛选,包括:
根据各短语中包含的词条个数和每一词条的初始权重,生成各短语的权重;其中,各短语的权重与所述词条个数成反比,各短语的权重与所述初始权重成正比,所有词条的初始权重值相同;
在根据所述预设领域的信息所生成的短语中,对重复的短语进行合并,并将合并的各短语求权重和,将所述权重和作为合并后短语的权重;
根据合并后短语的权重,进行筛选,以保留权重高于阈值权重的短语。
3.根据权利要求2所述的提示搜索词的方法,其特征在于,所述数据库中还存储有短语的权重;所述展示所述候选搜索词,以提示所需输入的搜索词,包括:
根据各候选搜索词对应的权重,对各候选搜索词排序;
依据各候选搜索词排序,顺序展示各候选搜索词。
4.根据权利要求1-3任一项所述的提示搜索词的方法,其特征在于,所述根据所述关键词,在数据库中搜索,包括:
确定输入所述关键词的搜索栏对应的预设领域;
根据所述关键词,在所述预设领域对应的数据库中搜索。
5.一种提示搜索词的装置,其特征在于,所述装置包括:
获取模块,用于获取已输入的关键词;所述关键词为搜索词中的部分字符;
生成模块,用于获取预设领域的信息,依据标点符号,对所述预设领域的信息进行语句划分;对划分出的语句进行分词,得到多个词条;确定在同一语句中划分出的词条的出现顺序,根据所述出现顺序,将当前词条与在后的词条分别进行组合以生成多个短语,所述进行组合的词条个数小于阈值个数;
搜索模块,用于根据所述关键词,在数据库中搜索,将所述数据库中与所述关键词匹配的短语作为候选搜索词;其中,所述数据库,用于存储对预设领域的信息进行信息提取后得到的短语;
展示模块,用于展示所述候选搜索词,以提示所需输入的搜索词;所述搜索词用于对所述预设领域的信息进行搜索,
所述装置还包括:
筛选模块,用于根据所述多个短语在所述预设领域的信息中重复出现次数,对所述多个短语进行筛选;
存储模块,用于将筛选保留的短语,存储至所述数据库中。
6.根据权利要求5所述的提示搜索词的装置,其特征在于,所述筛选模块,具体用于:
根据各短语中包含的词条个数和每一词条的初始权重,生成各短语的权重;其中,各短语的权重与所述词条个数成反比,各短语的权重与所述初始权重成正比,所有词条的初始权重值相同;
在根据所述预设领域的信息所生成的短语中,对重复的短语进行合并,并将合并的各短语求权重和,将所述权重和作为合并后短语的权重;
根据合并后短语的权重,进行筛选,以保留权重高于阈值权重的短语。
7.根据权利要求6所述的提示搜索词的装置,其特征在于,所述数据库中还存储有短语的权重;所述展示模块,具体用于:
根据各候选搜索词对应的权重,对各候选搜索词排序;
依据各候选搜索词排序,顺序展示各候选搜索词。
8.根据权利要求5-7任一项所述的提示搜索词的装置,其特征在于,所述搜索模块,具体用于:
确定输入所述关键词的搜索栏对应的预设领域;
根据所述关键词,在所述预设领域对应的数据库中搜索。
9.一种电子设备,其特征在于,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如权利要求1-4中任一所述的提示搜索词的方法。
10.一种非暂态存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-4中任一所述的提示搜索词的方法。
CN201810530077.8A 2018-05-29 2018-05-29 提示搜索词的方法和装置 Active CN108846037B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810530077.8A CN108846037B (zh) 2018-05-29 2018-05-29 提示搜索词的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810530077.8A CN108846037B (zh) 2018-05-29 2018-05-29 提示搜索词的方法和装置

Publications (2)

Publication Number Publication Date
CN108846037A CN108846037A (zh) 2018-11-20
CN108846037B true CN108846037B (zh) 2021-12-10

Family

ID=64209952

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810530077.8A Active CN108846037B (zh) 2018-05-29 2018-05-29 提示搜索词的方法和装置

Country Status (1)

Country Link
CN (1) CN108846037B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109933217B (zh) * 2019-03-12 2020-05-01 北京字节跳动网络技术有限公司 用于推送语句的方法和装置
CN110532567A (zh) * 2019-09-04 2019-12-03 北京百度网讯科技有限公司 短语的提取方法、装置、电子设备及存储介质
CN110807726A (zh) * 2019-11-12 2020-02-18 软通动力信息技术有限公司 一种上报事件处理方法、装置、设备及存储介质
CN110968601A (zh) * 2019-11-28 2020-04-07 中国银行股份有限公司 一种数据查询处理方法及装置
CN111339769A (zh) * 2020-02-14 2020-06-26 深圳市梦网科技发展有限公司 一种信息显示方法、装置及终端设备
CN111339424B (zh) * 2020-03-04 2021-05-14 北京字节跳动网络技术有限公司 基于关键词进行搜索的方法、装置、设备及存储介质
CN112083812B (zh) * 2020-08-24 2024-08-20 珠海格力电器股份有限公司 联想词确定方法、装置、存储介质和电子设备
CN112016298A (zh) * 2020-08-28 2020-12-01 中移(杭州)信息技术有限公司 产品特征信息的提取方法、电子设备及存储介质
CN112650914A (zh) * 2020-12-30 2021-04-13 深圳市世强元件网络有限公司 一种长尾关键词识别方法、关键词搜索方法及计算机设备
CN112948713B (zh) * 2021-02-02 2023-05-30 挂号网(杭州)科技有限公司 建议搜索词确定方法、装置、服务器及介质
CN114625935B (zh) * 2022-02-28 2024-10-01 深圳市世强元件网络有限公司 场景化搜索的方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103425767A (zh) * 2013-08-07 2013-12-04 北京搜狗信息服务有限公司 一种提示数据的确定方法和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011002954A (ja) * 2009-06-17 2011-01-06 Pioneer Electronic Corp 検索語候補出力装置、検索装置、検索語候補出力方法及び検索語候補出力用プログラム並びにデータ構造

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103425767A (zh) * 2013-08-07 2013-12-04 北京搜狗信息服务有限公司 一种提示数据的确定方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
《基于领域本体的信息抽取和知识获取系统毕业设计》;kajizu;《http://www.doc88.com/p-7428819453805.html》;20140507;第3,15,16,18,19页以及图1.1 *

Also Published As

Publication number Publication date
CN108846037A (zh) 2018-11-20

Similar Documents

Publication Publication Date Title
CN108846037B (zh) 提示搜索词的方法和装置
CN108287858B (zh) 自然语言的语义提取方法及装置
CN106774970B (zh) 对输入法的候选项进行排序的方法和装置
CN109190049B (zh) 关键词推荐方法、系统、电子设备和计算机可读介质
CN107408107B (zh) 文本预测整合
CN107305438B (zh) 候选项的排序方法和装置、用于候选项排序的装置
US20150169537A1 (en) Using statistical language models to improve text input
CN107748784B (zh) 一种通过自然语言实现结构化数据搜索的方法
US20170270092A1 (en) System and method for predictive text entry using n-gram language model
WO2008147647A1 (en) Providing relevant text auto-completions
US11238050B2 (en) Method and apparatus for determining response for user input data, and medium
CN108345612B (zh) 一种问题处理方法和装置、一种用于问题处理的装置
US10650195B2 (en) Translated-clause generating method, translated-clause generating apparatus, and recording medium
CN114564666A (zh) 百科信息展示方法、装置、设备和介质
CN109710732A (zh) 信息查询方法、装置、存储介质和电子设备
CN110738997A (zh) 一种信息修正方法、装置、电子设备及存储介质
CN110675871A (zh) 一种语音识别方法及装置
CN110968789A (zh) 电子书推送方法、电子设备及计算机存储介质
CN113254588A (zh) 一种数据搜索方法及系统
CN111444321B (zh) 问答方法、装置、电子设备和存储介质
CN111858880A (zh) 获取查询结果的方法、装置、电子设备和可读存储介质
CN112487159B (zh) 检索方法、检索装置及计算机可读存储介质
US10417332B2 (en) Predicting text by combining attempts
CN111259180B (zh) 图像推送方法、装置、电子设备和存储介质
CN109948155B (zh) 一种多意图的选择方法及装置、终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant