CN108037837A - 一种搜索词的智能提示方法 - Google Patents

一种搜索词的智能提示方法 Download PDF

Info

Publication number
CN108037837A
CN108037837A CN201711090058.XA CN201711090058A CN108037837A CN 108037837 A CN108037837 A CN 108037837A CN 201711090058 A CN201711090058 A CN 201711090058A CN 108037837 A CN108037837 A CN 108037837A
Authority
CN
China
Prior art keywords
candidate phrase
text
search term
content
prompt method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711090058.XA
Other languages
English (en)
Inventor
武爱斌
魏小庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Longkon Wisdom Polytron Technologies Inc
Original Assignee
Longkon Wisdom Polytron Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Longkon Wisdom Polytron Technologies Inc filed Critical Longkon Wisdom Polytron Technologies Inc
Priority to CN201711090058.XA priority Critical patent/CN108037837A/zh
Publication of CN108037837A publication Critical patent/CN108037837A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods
    • G06F3/0237Character input methods using prediction or retrieval techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Computer Interaction (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种搜索词的智能提示方法,利用大量文本组合候选短语;对候选短语建立拼音索引后储存在数据库中;实时获取用户输入的文本内容;从数据库中检索用户输入的文本内容,如存在检索内容,将合适的候选短语按词频降序返回前端展示,不存在检索内容,则通过智能纠错后按词频降序返回前端展示。使用本发明的方法,加快了用户获取期望搜索内容的速度,大大提升了用户搜索体验。

Description

一种搜索词的智能提示方法
技术领域
本发明涉及一种搜索词的智能提示方法。涉及到搜索和自然语言处理技术。
背景技术
如今,随着信息技术的发展,更多的人选择通过网络获取文章,论文等信息。人们选择自己通过搜索文章内容、标题等从而获取想看得到的文章信息。这样的搜索成为人们获取信息的一个极其常见的途径。现有的大多数搜索系统中,虽然有许多系统包含搜索词智能提示的功能,但往往只能在输入搜索词为中文时,才会智能提示,对于拼音、拼音首字母,中文拼音混合,英文等不能做到很到的智能提示效果。这种搜索系统就要求用户的输入一定要规范,且此类提示词往往不能准确地表达出用户真正的搜索目标。这大大地降低了用户的搜索体验,增加了搜索时间。
发明内容
为解决现有技术的不足,本发明的目的在于提供一种搜索词的智能提示方法,能输入实现中文、拼音、拼音首字母、中文拼音、英文等结合的智能提示方法。
为了实现上述目标,本发明采用如下的技术方案:一种搜索词的智能提示方法,其特征在于:包括如下步骤:
步骤一:利用大量文本组合候选短语;大量文本包括使用用户输入频率较高的文本、所在行业及领域的专业语料文本。步骤一包括如下步骤:
步骤1a:;从大量文本中不放回选择采样文本;
步骤1b:将采样文本中每条文本进行分词,再使用改进后的N-gram组合形成候选短语。
步骤二:对候选短语建立拼音索引后储存在数据库中;包括如下步骤:
步骤2a:将候选短语的中文转化为全拼;
步骤2b:将候选短语的中文转化为简拼;
步骤2c:对候选短语的每个字符与其全拼简拼建立映射;
步骤2d:将候选短语字符按中文+全拼、中文+简拼、全拼+简拼模式组合成拼音索引;
步骤2e:存储候选短语和拼音索引。
步骤三:实时获取用户输入的文本内容;
步骤四:从数据库中检索用户输入的文本内容,如存在检索内容,将合适的候选短语按词频降序返回前端展示,不存在检索内容,则通过智能纠错后按词频降序返回前端展示。
前述的一种搜索词的智能提示方法,其特征在于:统计候选短语在所在采样文本中出现的次数,将候选短语到数据库中检索,若候选短语己存在,将统计的词频与数据库中词频相加,若不存在,将候选短语、拼音索引及词频进行存储。
前述的一种搜索词的智能提示方法,其特征在于:步骤四中,智能纠错步骤如下步骤:
将输入内容中的中文转化成拼音;
根据拼音查询数据库中的候选短语索引;
存在合适匹配,将合适的候选短语按词频降序返回。
前述的一种搜索词的智能提示方法,其特征在于:步骤四中,从数据库中检索用户输入的文本内容包括将输入内容与候选短语的拼音索引进行前缀匹配。
前述的一种搜索词的智能提示方法,其特征在于:根据拼音查询数据库中的候选短语索引包括将转化的拼音与候选短语的拼音索引进行前缀匹配。
本发明搜索词的智能提示方法,
改进版N-gram候选短语构建过程:
(1)文本准备:利用搜索系统所在运用领域里常见、重要的文章作为文本;
(2)候选短语构建:保证中文词语的完整性,先对文本进行中文分词,再使用N-gram思想构建候选短语。
中拼索引构建过程:
(1)汉字到拼音的转换:将候选短语中的中文全部转化成拼音并保留每个汉字的拼音首字母;
(2)中拼索引构建:计算出候选短语的中文拼音组合的所有情况作为该候选短语的中拼索引;例如:“中国”构建的中拼索引为:“zg”、“zhongg”、“zhongguo”、“中g”、“中guo”、“中国”。
用户搜索词处理过程:获取用户的输入内容,可以是中文、拼音等;实时检测用户在搜索框的增删操作;及时更新获取的输入内容。
搜索词查询过程:将获取到的搜索词与数据库中的候选短语和中拼索引进行匹配;将能匹配到的候选短语返回。
智能纠错过程:对于未能在数据库中匹配到合适候选短语的输入内容,执行智能纠错过程;即把输入内容转化成中拼索引,通过中拼索引到数据库中匹配;如果存在合适的候选短语,则将候选短语按词频降序返回前端展示。
本发明的有益之处在于:通过用户输入的过程中,实时地调取相应的搜索结果,并直观地展示在搜索框的下拉框中,用户可以直接通过下拉框选择相应的内容,就可直接获取到文章、论文的具体内容,并且,本发明支持了中拼、拼音、英文的智能提示,大大提高了用户搜索体验,使得用户更快的获取到最准确的内容。
附图说明
图1是本发明一种搜索词的智能提示方法流程图;
图2是本发明一种搜索词的智能提示方法具体流程图;
图3是本发明一种搜索词的智能提示方法实施例使用流程图。
具体实施方式
以下结合附图和具体实施例对本发明作具体的介绍。
参照图1、图2所示,本发明一种搜索词的智能提示方法,包括如下步骤:
步骤一:利用大量文本组合候选短语;大量文本包括使用用户输入频率较高的文本、所在行业及领域的专业语料文本。步骤一包括如下步骤:
步骤1a:;从大量文本中不放回选择采样文本;
步骤1b:将采样文本中每条文本进行分词,再使用改进后的N-gram组合形成候选短语。
步骤二:对候选短语建立拼音索引后储存在数据库中;步骤二包括如下步骤:
步骤2a:将候选短语的中文转化为全拼;
步骤2b:将候选短语的中文转化为简拼;
步骤2c:对候选短语的每个字符与其全拼简拼建立映射;
步骤2d:将候选短语字符按中文+全拼、中文+简拼、全拼+简拼模式组合成拼音索引;
步骤2e:存储候选短语和拼音索引。
步骤三:实时获取用户输入的文本内容;
步骤四:从数据库中检索用户输入的文本内容,如存在检索内容,将合适的候选短语按词频降序返回前端展示,不存在检索内容,则通过智能纠错后按词频降序返回前端展示。
统计候选短语在所在采样文本中出现的次数,将候选短语到数据库中检索,若候选短语己存在,将统计的词频与数据库中词频相加,若不存在,将候选短语、拼音索引及词频进行存储。
智能纠错步骤如下步骤:
(1)将输入内容中的中文转化成拼音;
(2)根据拼音查询数据库中的候选短语索引;
(3)存在合适匹配,将合适的候选短语按词频降序返回。
从数据库中检索用户输入的文本内容包括将输入内容与候选短语的拼音索引进行前缀匹配。
根据拼音查询数据库中的候选短语索引包括将转化的拼音与候选短语的拼音索引进行前缀匹配。
本发明一种搜索词的智能提示方法,
改进版N-gram候选短语构建过程:
(1)文本准备:利用搜索系统所在运用领域里常见、重要的文章作为文本;
(2)候选短语构建:保证中文词语的完整性,先对文本进行中文分词,再使用N-gram思想构建候选短语。
中拼索引构建过程:(1)汉字到拼音的转换:将候选短语中的中文全部转化成拼音并保留每个汉字的拼音首字母;
(2)中拼索引构建:计算出候选短语的中文拼音组合的所有情况作为该候选短语的中拼索引;例如:“中国”构建的中拼索引为:“zg”、“zhongg”、“zhongguo”、“中g”、“中guo”、“中国”。
根据图3使用流程图所示:
(1)用户搜索词处理过程:获取用户的输入内容,可以是中文,也可以为拼音、中文拼音混合,拼音首字母、英文等;实时检测用户在搜索框的增删操作;及时更新获取的输入内容。
(2)搜索词查询过程:将获取到的搜索词与数据库中的候选短语和中拼索引进行匹配;将能匹配到的候选短语返回。
(3)如果存在合适的候选短语,则将候选短语按词频降序排序返回前端展示,对于未能在数据库中匹配到合适候选短语的输入内容,执行智能纠错过程,即把输入内容转化成中拼索引,通过中拼索引到数据库中匹配后,将候选短语按词频降序排序返回前端展示。
以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解,上述实施例不以任何形式限制本发明,凡采用等同替换或等效变换的方式所获得的技术方案,均落在本发明的保护范围内。

Claims (8)

1.一种搜索词的智能提示方法,其特征在于:包括如下步骤:
步骤一:利用大量文本组合候选短语;
步骤二:对候选短语建立拼音索引后储存在数据库中;
步骤三:实时获取用户输入的文本内容;
步骤四:从数据库中检索用户输入的文本内容,如存在检索内容,将合适的候选短语按词频降序返回前端展示,不存在检索内容,则通过智能纠错后按词频降序返回前端展示。
2.根据权利要求1所述的一种搜索词的智能提示方法,其特征在于:步骤一中的大量文本包括使用用户输入频率较高的文本、所在行业及领域的专业语料文本。
3.根据权利要求1所述的一种搜索词的智能提示方法,其特征在于:步骤一包括如下步骤:
步骤1a:;从大量文本中不放回选择采样文本;
步骤1b:将采样文本中每条文本进行分词,再使用改进后的N-gram组合形成候选短语。
4.根据权利要求3所述的一种搜索词的智能提示方法,其特征在于:统计候选短语在所在采样文本中出现的次数,将候选短语到数据库中检索,若候选短语已存在,将统计的词频与数据库中词频相加,若不存在,将候选短语、拼音索引及词频进行存储。
5.根据权利要求1所述的一种搜索词的智能提示方法,其特征在于:步骤二包括如下步骤:
步骤2a:将候选短语的中文转化为全拼;
步骤2b:将候选短语的中文转化为简拼;
步骤2c:对候选短语的每个字符与其全拼简拼建立映射;
步骤2d:将候选短语字符按中文+全拼、中文+简拼、全拼+简拼模式组合成拼音索引;
步骤2e:存储候选短语和拼音索引。
6.根据权利要求1所述的一种搜索词的智能提示方法,其特征在于:步骤四中,智能纠错步骤如下步骤:
将输入内容中的中文转化成拼音;
根据拼音查询数据库中的候选短语索引;
存在合适匹配,将合适的候选短语按词频降序返回。
7.根据权利要求1所述的一种搜索词的智能提示方法,其特征在于:步骤四中,从数据库中检索用户输入的文本内容包括将输入内容与候选短语的拼音索引进行前缀匹配。
8.根据权利要求6所述的一种搜索词的智能提示方法,其特征在于:根据拼音查询数据库中的候选短语索引包括将转化的拼音与候选短语的拼音索引进行前缀匹配。
CN201711090058.XA 2017-11-07 2017-11-07 一种搜索词的智能提示方法 Pending CN108037837A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711090058.XA CN108037837A (zh) 2017-11-07 2017-11-07 一种搜索词的智能提示方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711090058.XA CN108037837A (zh) 2017-11-07 2017-11-07 一种搜索词的智能提示方法

Publications (1)

Publication Number Publication Date
CN108037837A true CN108037837A (zh) 2018-05-15

Family

ID=62093799

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711090058.XA Pending CN108037837A (zh) 2017-11-07 2017-11-07 一种搜索词的智能提示方法

Country Status (1)

Country Link
CN (1) CN108037837A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108803894A (zh) * 2018-06-08 2018-11-13 珠海广缘医药有限公司 一种基于pinying.js实现商品名的拼音简写自动生成的方法
CN109614621A (zh) * 2018-12-11 2019-04-12 中国移动通信集团江苏有限公司 一种校正文本的方法、装置及设备
CN111653328A (zh) * 2020-06-04 2020-09-11 医渡云(北京)技术有限公司 病历信息推送方法、装置、存储介质及电子设备
CN112015856A (zh) * 2020-08-26 2020-12-01 海看网络科技(山东)股份有限公司 一种IPTV中基于Elasticsearch实现拼音检索方法
CN112307073A (zh) * 2019-08-30 2021-02-02 北京字节跳动网络技术有限公司 一种信息查询方法、装置、设备和存储介质
CN113535921A (zh) * 2021-07-21 2021-10-22 携程旅游网络技术(上海)有限公司 用于客服的话术输出方法、系统、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1936896A (zh) * 2006-09-20 2007-03-28 网之易信息技术(北京)有限公司 一种基于搜索引擎的信息检索方法及检索系统
CN104199972A (zh) * 2013-09-22 2014-12-10 中科嘉速(北京)并行软件有限公司 一种基于深度学习的命名实体关系抽取与构建方法
CN106649276A (zh) * 2016-12-29 2017-05-10 北京京东尚科信息技术有限公司 标题中核心产品词的识别方法以及装置
CN107193921A (zh) * 2017-05-15 2017-09-22 中山大学 面向搜索引擎的中英混合查询纠错的方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1936896A (zh) * 2006-09-20 2007-03-28 网之易信息技术(北京)有限公司 一种基于搜索引擎的信息检索方法及检索系统
CN104199972A (zh) * 2013-09-22 2014-12-10 中科嘉速(北京)并行软件有限公司 一种基于深度学习的命名实体关系抽取与构建方法
CN106649276A (zh) * 2016-12-29 2017-05-10 北京京东尚科信息技术有限公司 标题中核心产品词的识别方法以及装置
CN107193921A (zh) * 2017-05-15 2017-09-22 中山大学 面向搜索引擎的中英混合查询纠错的方法及系统

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108803894A (zh) * 2018-06-08 2018-11-13 珠海广缘医药有限公司 一种基于pinying.js实现商品名的拼音简写自动生成的方法
CN109614621A (zh) * 2018-12-11 2019-04-12 中国移动通信集团江苏有限公司 一种校正文本的方法、装置及设备
CN109614621B (zh) * 2018-12-11 2023-09-19 中国移动通信集团江苏有限公司 一种校正文本的方法、装置及设备
CN112307073A (zh) * 2019-08-30 2021-02-02 北京字节跳动网络技术有限公司 一种信息查询方法、装置、设备和存储介质
CN111653328A (zh) * 2020-06-04 2020-09-11 医渡云(北京)技术有限公司 病历信息推送方法、装置、存储介质及电子设备
CN111653328B (zh) * 2020-06-04 2023-03-21 医渡云(北京)技术有限公司 病历信息推送方法、装置、存储介质及电子设备
CN112015856A (zh) * 2020-08-26 2020-12-01 海看网络科技(山东)股份有限公司 一种IPTV中基于Elasticsearch实现拼音检索方法
CN113535921A (zh) * 2021-07-21 2021-10-22 携程旅游网络技术(上海)有限公司 用于客服的话术输出方法、系统、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN108037837A (zh) 一种搜索词的智能提示方法
CN103365925B (zh) 获取多音字拼音、基于拼音检索的方法及其相应装置
CN106326303B (zh) 一种口语语义解析系统及方法
CN101286161B (zh) 一种基于概念的智能中文问答系统
CN104021198B (zh) 基于本体语义索引的关系数据库信息检索方法及装置
WO2014209810A2 (en) Methods and apparatuses for mining synonymous phrases, and for searching related content
CN108920447B (zh) 一种面向特定领域的中文事件抽取方法
WO2011079415A1 (en) Generating related input suggestions
CN102651003A (zh) 一种跨语言搜索的方法和装置
WO2012159558A1 (zh) 基于语意识别的自然语言处理方法、装置和系统
CN101359339A (zh) 一种关键词自动扩展查询方法及其装置
CN102541837A (zh) 一种校正输入中文拼写的方法
JP2633824B2 (ja) 仮名漢字変換装置
Ethiraj et al. NELIS-Named Entity and Language Identification System: Shared Task System Description.
CN107153635A (zh) 一种自动提取论文引用内容及对应文后参考文献的方法和系统
CN102122296B (zh) 检索结果聚类方法及装置
CN103377188A (zh) 翻译库的构建方法及系统
CN112949286A (zh) 一种基于句式结构的汉语自动句法分析器
CN107273360A (zh) 基于语义理解的中文实词提取算法
Mohnot et al. Hybrid approach for Part of Speech Tagger for Hindi language
Smith et al. Syntax-based skill extractor for job advertisements
CN102890723A (zh) 一种例句检索的方法及系统
Navigli A quick tour of babelnet 1.1
Srinivasagan et al. An automated system for tamil named entity recognition using hybrid approach
TW201214155A (en) Article based paragraphic online translating system and method thereof

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180515