CN105138511A - 一种对搜索关键词进行语义分析的方法和系统 - Google Patents

一种对搜索关键词进行语义分析的方法和系统 Download PDF

Info

Publication number
CN105138511A
CN105138511A CN201510487571.7A CN201510487571A CN105138511A CN 105138511 A CN105138511 A CN 105138511A CN 201510487571 A CN201510487571 A CN 201510487571A CN 105138511 A CN105138511 A CN 105138511A
Authority
CN
China
Prior art keywords
word
dictionary
algorithm
domain name
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510487571.7A
Other languages
English (en)
Other versions
CN105138511B (zh
Inventor
石川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Si Tech Information Technology Co Ltd
Original Assignee
Beijing Si Tech Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Si Tech Information Technology Co Ltd filed Critical Beijing Si Tech Information Technology Co Ltd
Priority to CN201510487571.7A priority Critical patent/CN105138511B/zh
Publication of CN105138511A publication Critical patent/CN105138511A/zh
Application granted granted Critical
Publication of CN105138511B publication Critical patent/CN105138511B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种对搜索关键词进行语义分析的方法和系统。包括搜索词接收模块、分词模块、语义分析模块、评估模块和结果组装模块;搜索词接收模块接收用户输入的搜索词,并将搜索词发送至分词模块;分词模块对搜索词进行中文分词和去除停用词得到关键词语组,并将关键词语组发送至语义分析模块;语义分析模块接收关键词语组,并通过匹配引擎调取词典索引库中的词语,采用预设算法对关键词语组进行匹配,得到匹配结果;评估模块通过匹配引擎再次调取词典索引库中的词语,对匹配结果进行评分;结果组装模块对评分后的匹配结果进行格式化组合。

Description

一种对搜索关键词进行语义分析的方法和系统
技术领域
本发明涉及信息检索技术,尤其涉及一种对搜索关键词进行语义分析的方法和系统。
背景技术
计算机科学领域的一个重要分支就是“人工智能”,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。
在自然语言处理方面,如何让计算机识别和理解人类的语言,并且模拟人类思维方式去思考、推理问题,是完成“人工智能”这个人类伟大理想的重要举措。不管是中文,英文语言环境中,除了“你”“我”“他”等这类个别的例外以外,词组才是人类表达语义的最小单位。
中文由于其深厚而且博大精深的文化底蕴,“长字符串”形式的书写方式使得计算机在理解中文方面远比理解英文要困难很多。因为英文本身就是以“词”为最小的存在单位,书写方式是以空格区分每个词分割,所以计算机能通过空格来很好的识别英文的一个最小语义表达。
中文的复杂程度、表达语义的能力远远高于英文,同样一个词在不同的语用、语境下表达的意思是完全不同的。比如“乒乓球拍卖完了”,可以理解为“乒乓球_拍卖完了”、也可以是“乒乓球拍_卖完了”,再比如“XXX行贿中国石油公司”和“中国石油公司行贿XXX”。同样的内容不同的分割、不同的顺序,表达的意思就完全不一样。所以若想让计算机识别中文文本,第一步要做的就是告诉计算机在一句话中,哪几个字是一个词组。而这就是分词的过程。而由于中文具有非常强的歧义性,所以准确分词技术是一项非常复杂和具有挑战性的工作。
常见的中文歧义类型有:
1、组合歧义:在分词过程中是最常遇到的,比如:“美国花旗银行”中的“国花”,“苏联想从边境撤军”中的“联想”,“技术和服务”中的“和服”等等非常多。
2、人名歧义:“宁静”、“杨柳”、“黎明”等等,语境歧义
3、语用歧义:“牦牛肉不好吃”,其中的“好”有两种意思,a)“味道不好吃”的意思;b)“不容易吃”的意思;
4、语境歧义:两米二六个头的姚明。并不是说姚明有“26个脑袋”
5、真歧义:真歧义是最难以区分的,包括我们人类若没有上下文语境的判断和知识积累,也很难正确的分词。例如“武汉市长江大桥”就可以分为“武汉_市长_江大桥”或者“武汉市_长江大桥”。
6、分词颗粒问题:“中国人民解放军”可以是一个词,也可以是“中国人民解放军”在不同的应用情景下,分词颗粒度是完全不同的。分词颗粒度的不同,造成语义的完全不同。
7、分词具有领域性:在医药、化工领域的中文表达方式和文字特点与其他领域完全不同,互联网网友的用词方式跟其他领域完全不同。
这类歧义在中文中还有更多更多,若不能正确的分词,计算机就无法正确识别中文文本的内容。但能正确的分词仅仅是中文语义识别的第一步,必须还要能准确的对词义进行解析,让计算机“懂得”词的意义。
现有技术方案中的关键字检索运用最常见的地方是基于关键字检索的客户问答系统,在很多门户网站上均部署有此类机器问答系统,其实此类系统就是传统FAQ(FrequentlyAskedQuestions)的升级,当FAQ过多时用户可能不方便查找自己关心的信息,于是有了这种升级和改进,专注于用户“问什么,答什么”。例如,用户提问:密码忘了怎么办?机器人回复:
尊敬的用户早上好!
如果您忘记了密码可使用保密邮箱重置密码,请点击以下链接并输入您注册时填写的保密邮箱地址:
www.xxx.com/pass?type=rest
上述例子中,系统接收到问本“密码忘了怎么办?”,首先将文本拆分为:“密码”、“忘了”、“怎么办?”,然后对拆分后的词进行关键字检索,最后判断出用户是想知道忘记密码后怎么登陆系统,于是就将预先准备好的回复语返回给客户。
这种识别方法比较简单,成本低见效快,但是准确度不高。如果用户提问为“我的密码是什么?”,系统估计就识别不出来是什么意思了。为了解决这类问题可以使用海量词库来解决。
当根据根据搜到词识别用户意图时,遇到的麻烦更多,见以下场景:1、“iphone5什么时候降价”2、“iphone6什么时候上市”3、“三星合约机”4、“ip6”5、“安卓手机数据线”6、“苹果5手机壳”7、“荣耀6白屏”。
在场景1中,不仅是要识别出用户对iphone5感兴趣,更要识别出用户希望以优惠的价格购机。在场景2中,用户表现出了对iphone6的关心,但是用户不一定想购买。在场景3中,用户表现出了对三星手机的兴趣,但是必须是合约机。在场景4中,用户究竟是搜索“Ipv6(InternetProtocolVersion6)”还是iphone6。在场景5中,用户是想购买安卓手机的数据线而不是手机。在场景6中,用户是想买iphone5的手机壳而不是手机。在场景7中,用户的荣耀6手机发生了白屏故障,而不是想买白色的荣耀6。因此单单使用传统的关键字检索技术是无法满足要求的。
发明内容
本发明所要解决的技术问题是提供一种通过综合语义判断,识别用户搜索意愿的语义分析方法和系统。
本发明解决上述技术问题的技术方案如下:一种对搜索关键词进行语义分析的系统,包括搜索词接收模块、词典索引库、分词模块、语义分析模块、评估模块和结果组装模块;
所述搜索词接收模块,用于接收用户输入的搜索词,并将所述搜索词发送至分词模块;
所述词典索引库,用于存储停用词典、基础词典、正向词典、反向词典和核心词典;
所述分词模块,用于通过匹配引擎调取词典索引库中的词语,对搜索词进行中文分词和去除停用词得到关键词语组,并将所述关键词语组发送至语义分析模块;
所述语义分析模块,用于接收关键词语组,并通过匹配引擎调取词典索引库中的词语,采用预设算法对关键词语组进行匹配,得到匹配结果;
所述评估模块,用于通过匹配引擎再次调取词典索引库中的词语,对匹配结果进行评分;
所述结果组装模块,用于对评分后的匹配结果进行格式化组合。
本发明的有益效果是:本发明对关键字检索切分成三个部分:关键检索、正向检索、反向检索,并辅以语义算法和评分体系,进行综合语义判断,有效识别用户搜索意愿,从而为有效的指导终端营销。
本发明还提供一种对搜索关键词进行语义分析的方法,包括以下步骤,接收用户输入的搜索词;
对搜索词进行中文分词和去除停用词得到关键词语组;
通过匹配引擎调取词典索引库中的词语,采用预设算法对关键词语组进行匹配,得到匹配结果;
通过匹配引擎再次调取词典索引库中的词语,对匹配结果进行评分;
对评分后的匹配结果进行格式化组合。
附图说明
图1为本发明一种对搜索关键词进行语义分析的系统模块关系示意图;
图2为本发明一种对搜索关键词进行语义分析的方法步骤流程图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
如图1所示,一种对搜索关键词进行语义分析的系统,包括搜索词接收模块、分词模块、语义分析模块、评估模块和结果组装模块。搜索词接收模块,用于接收用户输入的搜索词,并将搜索词发送至分词模块。分词模块,用于对搜索词进行中文分词和去除停用词得到关键词语组,并将关键词语组发送至语义分析模块。本发明的分词模块选用了开源的分词工具IKAnalyzer对搜索词进行分词,得到分词结果。语义分析模块,用于接收关键词语组,并通过匹配引擎调取词典索引库中的词语,采用预设算法对关键词语组进行匹配,得到匹配结果。评估模块,用于通过匹配引擎再次调取词典索引库中的词语,对匹配结果进行评分。结果组装模块,用于对评分后的匹配结果进行格式化组合。
上述对搜索关键词进行语义分析的系统,还可以包括词典索引库,用于存储停用词典、基础词典、正向词典、反向词典和核心词典。停用词典,用于存储停用词。停用词用来辅助分词工具切分词语,被人工预存进停用词表中,一般无实际意义,多为语气助词、连词或介词,例如也、啊、又、比、与、但。基础词典,用于存储商品名词。商品名词包括品牌名词、型号名词和/或类别名词。当商品为移动终端时,商品名称可以为苹果、iphone、iphone4s、三星、华为、荣耀6、nokia110。正向词典,用于存储语义正向的辅助词语,例如多少钱、价格、报价、合约、新功能、实体店。反向词典,用于存储语义反向的辅助词语,例如花屏、进水、不亮、怎么用、教程。核心词典选用分词工具IKAnalyzer的核心词典,停用词典、基础词典、正向词典和反向词典中的词语也被添加进核心词典。
预设算法包括核心算法。核心算法包括关键词检索算法、正向检索算法和反向检索算法。关键词检索算法为,在基础词典中对关键词语组中的每个目标关键词语进行逐一匹配。正向检索算法为,在正向词典中对关键词语组中的每个目标关键词语进行逐一匹配。反向检索算法为,利用反向词典中对关键词语组中的非目标关键词语进行过滤。
预设算法还包括辅助算法。辅助算法包括整体匹配算法、循环匹配算法、循环叠加匹配算法和语义结果校正匹配算法,整体匹配算法为,利用基础词典对用户输入的搜索词进行全量不拆分匹配。循环匹配算法为,利用基础词典对关键词语组中的每个关键词语进行循环匹配。循环叠加匹配算法为,对关键词语组中的每个关键字依照先后顺序进行逐步组合,每步组合得到一个组合词语,将组合词语逐步在基础词典中进行循环匹配。语义结果校正匹配算法为,如果对用户输入的搜索词进行全量不拆分匹配时没有在核心词典中命中匹配目标,而对搜索词分词后的关键词语组匹配时在基础词典中命中匹配目标,则检测关键词语与命中的匹配目标是否有业务跨越行为,如果是则抛弃当次匹配结果,如果否则保留当次匹配结果。
评估模块对匹配结果进行评分包括相似度评分、业务关联度评分、域名评分和语义得分校正。
相似度评分为,计算搜索词与词典索引库中的词语的匹配率。例如,用户输入的搜索词的字数为5个,其中只有3个字得到了匹配,因此,其匹配率为60%,即相似度评分为6。
业务关联度评分,将搜索词与基础词库中的模糊性词条进行匹配,模糊性词条预先赋值业务关联分数,搜索词与模糊性词条匹配成功后,拷贝对应的模糊性词条的业务关联分数,没有匹配成功模糊词条的搜索条目给予高于业务关联分数的预定分数。
域名评分为,对用户输入的搜索词的来源域名进行评分,评分过程为,将来源域名与域名表中的预定域名进行匹配,在域名表中预先存储预定域名的预定分数,来源域名与预定域名匹配成功,则来源域名拷贝预定域名所对应的预定分数。
域名表例如:
语义得分校正,对相似度评分、业务关联度评分和域名评分的综合分数进行校正,校正过程为,将分数超过第一预定分数的匹配结果赋值为第一预定分数,将分数低于第二预定分数的匹配结果抛弃。
如图2所示,本发明还提供一种对搜索关键词进行语义分析的方法,包括以下步骤,
接收用户输入的搜索词。
对搜索词进行中文分词和去除停用词得到关键词语组。
通过匹配引擎调取词典索引库中的词语,采用预设算法对关键词语组进行匹配,得到匹配结果。
通过匹配引擎再次调取词典索引库中的词语,对匹配结果进行评分。
对评分后的匹配结果进行格式化组合。
词典索引库,用于存储停用词典、基础词典、正向词典、反向词典和核心词典。停用词典,用于存储停用词。基础词典,用于存储商品名词。商品名词包括品牌名词、型号名词和/或类别名词。正向词典,用于存储语义正向的辅助词语。反向词典,用于存储语义反向的辅助词语。核心词典选用分词工具IKAnalyzer的核心词典。
一种对搜索关键词进行语义分析的方法,预设算法包括核心算法。核心算法包括关键词检索算法、正向检索算法和反向检索算法。关键词检索算法为,在基础词典中对关键词语组中的每个目标关键词语进行逐一匹配。正向检索算法为,在正向词典中对关键词语组中的每个目标关键词语进行逐一匹配。反向检索算法为,利用反向词典中对关键词语组中的非目标关键词语进行过滤。
预设算法还包括辅助算法。辅助算法包括整体匹配算法、循环匹配算法、循环叠加匹配算法和语义结果校正匹配算法,整体匹配算法为,利用基础词典对用户输入的搜索词进行全量不拆分匹配。循环匹配算法为,利用基础词典对关键词语组中的每个关键词语进行循环匹配。循环叠加匹配算法为,对关键词语组中的每个关键字依照先后顺序进行逐步组合,每步组合得到一个组合词语,将组合词语逐步在基础词典中进行循环匹配。例如“12345”被拆分为“1”、“2”、“3”、“4”、“5”,检索过程为:先对“1”进行检索,然后进行叠加操作得到“12”,然后对其进行检索;再然后继续叠加得到“123”,再对其进行检索,后同略。语义结果校正匹配算法为,如果对用户输入的搜索词进行全量不拆分匹配时没有在核心词典中命中匹配目标,而对搜索词分词后的关键词语组匹配时在基础词典中命中匹配目标,则检测关键词语与命中的匹配目标是否有业务跨越行为,如果是则抛弃当次匹配结果,如果否则保留当次匹配结果。例如,用户搜索“T1列车”,分词工具拆分为“T1”、“列车”。其中“T1”识别为终端机型,“列车”识别为歌曲。本次搜索有业务跨越行为,应当抛弃。
对匹配结果进行评分包括相似度评分、业务关联度评分、域名评分和语义得分校正。相似度评分为,计算搜索词与词典索引库中的词语的匹配率。业务关联度评分,将搜索词与基础词库中的模糊性词条进行匹配,模糊性词条例如“手机”、“4G手机”等。模糊性词条预先赋值业务关联分数,搜索词与模糊性词条匹配成功后,拷贝对应的模糊性词条的业务关联分数,没有匹配成功模糊词条的搜索条目应当给予稍高的预定分数。域名评分为,对用户输入的搜索词的来源域名进行评分,评分过程为,将来源域名与域名表中的预定域名进行匹配,在域名表中预先存储预定域名的预定分数,来源域名与预定域名匹配成功,则来源域名拷贝预定域名所对应的预定分数。
语义得分校正,对相似度评分、业务关联度评分和域名评分的综合分数进行校正,校正过程为,将分数超过第一预定分数的匹配结果赋值为第一预定分数,将分数低于第二预定分数的匹配结果抛弃。
实施例一
本实施例以用户输入搜索词“lumia810报价”。
步骤01,搜索词接收模块接收搜索词“lumia810报价”,执行步骤02。
步骤02,分词工具将“lumia810报价”拆分为:“lumia”、“810”、“报价”,执行步骤03。
步骤03,匹配引擎调取反向词典,分别对“lumia”、“810”、“报价”进行反向匹配,最终未匹配成功,执行步骤04。
步骤04,匹配引擎调取基础词典,分别对“lumia”、“810”、“报价”进行基础匹配,最终“lumia”匹配成功“诺基亚”、“nokia”、“lumia”、“怒米亚”、“卢米亚”、“诺基亚非凡系列”,执行步骤05;
步骤05,匹配引擎分别将“lumia”、“810”、“报价”进行正向匹配,最终“报价”匹配成功,进行加分操作,执行步骤06;
步骤06,域名打分服务将“m.taobao.com”进行深度分析打分,经过拆解最终同“taobao.com”匹配成功,进行加分操作,执行步骤07;
步骤07,语义评估器对步骤04、05、06的得分结果进行综合评分,产生该次搜索行为的最终得分,执行步骤08;
步骤08,结果组装器对产生的结果和任务信息进行格式化,最终返回并保存类似以下的结果。
用户号码 语义识别推荐机型 得分
18812345678 Nokia--Lumia--810 9分
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种对搜索关键词进行语义分析的系统,其特征在于,包括搜索词接收模块、词典索引库、分词模块、语义分析模块、评估模块和结果组装模块;
所述搜索词接收模块,用于接收用户输入的搜索词,并将所述搜索词发送至分词模块;
词典索引库,用于预先存储预定词语,并响应匹配引擎的调取;
所述分词模块,用于通过匹配引擎调取词典索引库中的词语,对搜索词进行中文分词和去除停用词得到关键词语组,并将所述关键词语组发送至语义分析模块;
所述语义分析模块,用于接收关键词语组,并通过匹配引擎调取词典索引库中的词语,采用预设算法对关键词语组进行匹配,得到匹配结果;
所述评估模块,用于通过匹配引擎再次调取词典索引库中的词语,对匹配结果进行评分;
所述结果组装模块,用于对评分后的匹配结果进行格式化组合。
2.根据权利要求1所述一种对搜索关键词进行语义分析的系统,其特征在于,所述预定词语,包括停用词、商品名词、语义正向词和语义反向词,所述词典索引库,存储停用词典、基础词典、正向词典、反向词典和核心词典;
所述停用词典,用于存储停用词;
所述基础词典,用于存储商品名词;所述商品名词包括品牌名词、型号名词和/或类别名词;
所述正向词典,用于存储语义正向的辅助词语;
所述反向词典,用于存储语义反向的辅助词语;
核心词典选用分词工具IKAnalyzer的核心词典,所述停用词典、基础词典、正向词典和反向词典被添加进分词工具IKAnalyzer的核心词典中。
3.根据权利要求2所述一种对搜索关键词进行语义分析的系统,其特征在于,所述预设算法包括核心算法和语义结果校正匹配算法;
所述核心算法为,利用词典索引库,对关键词语组中的目标关键词进行逐一匹配,并过滤掉关键词语组中的非目标关键词;
所述语义结果校正匹配算法为,在核心算法中,如果对用户输入的搜索词进行全量不拆分匹配时没有在核心词典中命中匹配目标,而对搜索词分词后的关键词语组匹配时在基础词典中命中匹配目标,则检测关键词语与命中的匹配目标是否有业务跨越行为,如果是则抛弃当次匹配结果,如果否则保留当次匹配结果。
4.根据权利要求3所述一种对搜索关键词进行语义分析的系统,其特征在于,所述核心算法包括关键词检索算法、正向检索算法、反向检索算法、整体匹配算法、循环匹配算法和循环叠加匹配算法;
所述关键词检索算法为,在基础词典中对关键词语组中的每个目标关键词语进行逐一匹配;
所述正向检索算法为,在正向词典中对关键词语组中的每个目标关键词语进行逐一匹配;
所述反向检索算法为,利用反向词典中对关键词语组中的非目标关键词语进行过滤;
所述整体匹配算法为,利用基础词典对用户输入的搜索词进行全量不拆分匹配;
所述循环匹配算法为,利用基础词典对关键词语组中的每个关键词语进行循环匹配;
所述循环叠加匹配算法为,对关键词语组中的每个关键字依照先后顺序进行逐步组合,每步组合得到一个组合词语,将组合词语逐步在基础词典中进行循环匹配。
5.根据权利要求1所述一种对搜索关键词进行语义分析的系统,其特征在于,所述评估模块对匹配结果进行评分包括相似度评分、业务关联度评分、域名评分和语义得分校正;
所述相似度评分为,计算搜索词与词典索引库中的词语的匹配率;
所述业务关联度评分,将搜索词与基础词库中的模糊性词条进行匹配,所述模糊性词条预先赋值业务关联分数,搜索词与所述模糊性词条匹配成功后,拷贝对应的模糊性词条的业务关联分数,没有匹配成功模糊词条的搜索条目给予高于业务关联分数的预定分数;
所述域名评分为,对用户输入的搜索词的来源域名进行评分,评分过程为,将来源域名与域名表中的预定域名进行匹配,在域名表中预先存储预定域名的预定分数,来源域名与预定域名匹配成功,则来源域名拷贝预定域名所对应的预定分数;
所述语义得分校正,对相似度评分、业务关联度评分和域名评分的综合分数进行校正,校正过程为,将分数超过第一预定分数的匹配结果赋值为第一预定分数,将分数低于第二预定分数的匹配结果抛弃。
6.一种对搜索关键词进行语义分析的方法,其特征在于,包括以下步骤,
接收用户输入的搜索词;
对搜索词进行中文分词和去除停用词得到关键词语组;
通过匹配引擎调取词典索引库中的词语,采用预设算法对关键词语组进行匹配,得到匹配结果;
通过匹配引擎再次调取词典索引库中的词语,对匹配结果进行评分;
对评分后的匹配结果进行格式化组合。
7.根据权利要求6所述一种对搜索关键词进行语义分析的方法,其特征在于,所述预定词语,包括停用词、商品名词、语义正向词和语义反向词,所述词典索引库,存储停用词典、基础词典、正向词典、反向词典和核心词典;
所述停用词典,用于存储停用词;
所述基础词典,用于存储商品名词;所述商品名词包括品牌名词、型号名词和/或类别名词;
所述正向词典,用于存储语义正向的辅助词语;
所述反向词典,用于存储语义反向的辅助词语;
核心词典选用分词工具IKAnalyzer的核心词典。
8.根据权利要求6所述一种对搜索关键词进行语义分析的方法,其特征在于,所述预设算法包括核心算法和语义结果校正匹配算法;
所述核心算法为,利用词典索引库,对关键词语组中的目标关键词进行逐一匹配,并过滤掉关键词语组中的非目标关键词
所述语义结果校正匹配算法为,在核心算法中,如果对用户输入的搜索词进行全量不拆分匹配时没有在核心词典中命中匹配目标,而对搜索词分词后的关键词语组匹配时在基础词典中命中匹配目标,则检测关键词语与命中的匹配目标是否有业务跨越行为,如果是则抛弃当次匹配结果,如果否则保留当次匹配结果。
9.根据权利要求8所述一种对搜索关键词进行语义分析的方法,其特征在于,所述核心算法包括关键词检索算法、正向检索算法、反向检索算法整体匹配算法、循环匹配算法和循环叠加匹配算法;
所述关键词检索算法为,在基础词典中对关键词语组中的每个目标关键词语进行逐一匹配;
所述正向检索算法为,在正向词典中对关键词语组中的每个目标关键词语进行逐一匹配;
所述反向检索算法为,利用反向词典中对关键词语组中的非目标关键词语进行过滤;
所述整体匹配算法为,利用基础词典对用户输入的搜索词进行全量不拆分匹配;
所述循环匹配算法为,利用基础词典对关键词语组中的每个关键词语进行循环匹配;
所述循环叠加匹配算法为,对关键词语组中的每个关键字依照先后顺序进行逐步组合,每步组合得到一个组合词语,将组合词语逐步在基础词典中进行循环匹配。
10.根据权利要求6所述一种对搜索关键词进行语义分析的方法,其特征在于,所述对匹配结果进行评分包括相似度评分、业务关联度评分、域名评分和语义得分校正;
所述相似度评分为,计算搜索词与词典索引库中的词语的匹配率;
所述业务关联度评分,将搜索词与基础词库中的模糊性词条进行匹配,所述模糊性词条预先赋值业务关联分数,搜索词与所述模糊性词条匹配成功后,拷贝对应的模糊性词条的业务关联分数,没有匹配成功模糊词条的搜索条目应当给予稍高的预定分数;
所述域名评分为,对用户输入的搜索词的来源域名进行评分,评分过程为,将来源域名与域名表中的预定域名进行匹配,在域名表中预先存储预定域名的预定分数,来源域名与预定域名匹配成功,则来源域名拷贝预定域名所对应的预定分数;
所述语义得分校正,对相似度评分、业务关联度评分和域名评分的综合分数进行校正,校正过程为,将分数超过第一预定分数的匹配结果赋值为第一预定分数,将分数低于第二预定分数的匹配结果抛弃。
CN201510487571.7A 2015-08-10 2015-08-10 一种对搜索关键词进行语义分析的方法和系统 Active CN105138511B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510487571.7A CN105138511B (zh) 2015-08-10 2015-08-10 一种对搜索关键词进行语义分析的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510487571.7A CN105138511B (zh) 2015-08-10 2015-08-10 一种对搜索关键词进行语义分析的方法和系统

Publications (2)

Publication Number Publication Date
CN105138511A true CN105138511A (zh) 2015-12-09
CN105138511B CN105138511B (zh) 2017-12-12

Family

ID=54723862

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510487571.7A Active CN105138511B (zh) 2015-08-10 2015-08-10 一种对搜索关键词进行语义分析的方法和系统

Country Status (1)

Country Link
CN (1) CN105138511B (zh)

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105677725A (zh) * 2015-12-30 2016-06-15 南京途牛科技有限公司 一种用于旅游垂直搜索引擎的前置解析方法
CN105912676A (zh) * 2016-04-13 2016-08-31 北京思特奇信息技术股份有限公司 一种基于互联网检索关键词识别视频偏好的方法及系统
CN105930362A (zh) * 2016-04-12 2016-09-07 晶赞广告(上海)有限公司 搜索目标识别方法、装置及终端
CN106484889A (zh) * 2016-10-18 2017-03-08 合信息技术(北京)有限公司 网络资源的泛搜索方法和装置
CN106570058A (zh) * 2016-09-29 2017-04-19 山东浪潮商用系统有限公司 一种搜索方法和搜索引擎
CN106815356A (zh) * 2017-01-20 2017-06-09 泰华智慧产业集团股份有限公司 基于语义分析的精确目标用户消息推送方法及系统
CN107103066A (zh) * 2017-04-18 2017-08-29 北京思特奇信息技术股份有限公司 一种用户偏好的检索方法及装置
CN107203526A (zh) * 2016-03-16 2017-09-26 高德信息技术有限公司 一种查询串语义需求分析方法及装置
CN107203609A (zh) * 2017-05-17 2017-09-26 东莞市华睿电子科技有限公司 一种快速搜索移动终端短信息的方法和移动终端
CN107562750A (zh) * 2016-06-30 2018-01-09 百度在线网络技术(北京)有限公司 一种用于提供搜索结果的方法和装置
CN108304411A (zh) * 2017-01-13 2018-07-20 中国移动通信集团辽宁有限公司 地理位置语句的语义识别方法和装置
CN108376140A (zh) * 2017-06-30 2018-08-07 勤智数码科技股份有限公司 基于模糊匹配的政务数据梳理方法及装置
CN109192258A (zh) * 2018-08-14 2019-01-11 平安医疗健康管理股份有限公司 医疗数据转化方法、装置、计算机设备和存储介质
CN109447819A (zh) * 2018-09-03 2019-03-08 中国平安人寿保险股份有限公司 一种智能话术提醒方法、系统及终端设备
CN110209765A (zh) * 2019-05-23 2019-09-06 武汉绿色网络信息服务有限责任公司 一种按语义搜索关键词的方法和装置
CN110276071A (zh) * 2019-05-24 2019-09-24 众安在线财产保险股份有限公司 一种文本匹配方法、装置、计算机设备及存储介质
CN110334941A (zh) * 2019-07-01 2019-10-15 百度在线网络技术(北京)有限公司 无人物流车调度方法、装置、电子设备和可读存储介质
CN110347911A (zh) * 2019-05-28 2019-10-18 成都美美臣科技有限公司 一个电子商务网站商品搜索自动推送的方法
CN110399385A (zh) * 2019-06-24 2019-11-01 厦门市美亚柏科信息股份有限公司 一种用于小数据集的语义分析方法和系统
CN110580276A (zh) * 2018-06-08 2019-12-17 百度在线网络技术(北京)有限公司 用于处理信息的方法和装置
CN110674365A (zh) * 2019-09-06 2020-01-10 腾讯科技(深圳)有限公司 一种搜索方法、装置、设备及存储介质
CN110825608A (zh) * 2018-08-08 2020-02-21 北京京东尚科信息技术有限公司 关键语义测试方法、装置、存储介质及电子设备
CN111611471A (zh) * 2019-02-25 2020-09-01 阿里巴巴集团控股有限公司 一种搜索方法、装置及电子设备
CN112749246A (zh) * 2019-10-30 2021-05-04 腾讯科技(深圳)有限公司 搜索短语的评估方法、装置、服务器及存储介质
CN116662374A (zh) * 2023-07-31 2023-08-29 天津市扬天环保科技有限公司 基于相关性分析的信息技术咨询服务系统
CN117216423A (zh) * 2023-08-21 2023-12-12 湖南牙医帮科技有限公司 电商商品的搜索方法、系统、终端设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102591932A (zh) * 2011-12-23 2012-07-18 优视科技有限公司 语音搜索方法及系统、移动终端、中转服务器
CN103353894A (zh) * 2013-07-19 2013-10-16 武汉睿数信息技术有限公司 一种基于语义分析的数据搜索方法和系统
CN103514299A (zh) * 2013-10-18 2014-01-15 北京奇虎科技有限公司 信息搜索方法和装置
CN104699786A (zh) * 2015-03-17 2015-06-10 浪潮通信信息系统有限公司 一种语义智能搜索的通信网络投诉系统
CN104794227A (zh) * 2015-05-04 2015-07-22 郑州悉知信息技术有限公司 一种信息匹配方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102591932A (zh) * 2011-12-23 2012-07-18 优视科技有限公司 语音搜索方法及系统、移动终端、中转服务器
CN103353894A (zh) * 2013-07-19 2013-10-16 武汉睿数信息技术有限公司 一种基于语义分析的数据搜索方法和系统
CN103514299A (zh) * 2013-10-18 2014-01-15 北京奇虎科技有限公司 信息搜索方法和装置
CN104699786A (zh) * 2015-03-17 2015-06-10 浪潮通信信息系统有限公司 一种语义智能搜索的通信网络投诉系统
CN104794227A (zh) * 2015-05-04 2015-07-22 郑州悉知信息技术有限公司 一种信息匹配方法及装置

Cited By (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105677725A (zh) * 2015-12-30 2016-06-15 南京途牛科技有限公司 一种用于旅游垂直搜索引擎的前置解析方法
CN107203526B (zh) * 2016-03-16 2020-11-24 阿里巴巴(中国)有限公司 一种查询串语义需求分析方法及装置
CN107203526A (zh) * 2016-03-16 2017-09-26 高德信息技术有限公司 一种查询串语义需求分析方法及装置
CN105930362A (zh) * 2016-04-12 2016-09-07 晶赞广告(上海)有限公司 搜索目标识别方法、装置及终端
CN105930362B (zh) * 2016-04-12 2019-03-12 晶赞广告(上海)有限公司 搜索目标识别方法、装置及终端
CN105912676A (zh) * 2016-04-13 2016-08-31 北京思特奇信息技术股份有限公司 一种基于互联网检索关键词识别视频偏好的方法及系统
CN107562750A (zh) * 2016-06-30 2018-01-09 百度在线网络技术(北京)有限公司 一种用于提供搜索结果的方法和装置
CN106570058A (zh) * 2016-09-29 2017-04-19 山东浪潮商用系统有限公司 一种搜索方法和搜索引擎
CN106484889A (zh) * 2016-10-18 2017-03-08 合信息技术(北京)有限公司 网络资源的泛搜索方法和装置
CN108304411A (zh) * 2017-01-13 2018-07-20 中国移动通信集团辽宁有限公司 地理位置语句的语义识别方法和装置
CN106815356A (zh) * 2017-01-20 2017-06-09 泰华智慧产业集团股份有限公司 基于语义分析的精确目标用户消息推送方法及系统
CN106815356B (zh) * 2017-01-20 2019-04-26 泰华智慧产业集团股份有限公司 基于语义分析的精确目标用户消息推送方法及系统
CN107103066A (zh) * 2017-04-18 2017-08-29 北京思特奇信息技术股份有限公司 一种用户偏好的检索方法及装置
CN107203609A (zh) * 2017-05-17 2017-09-26 东莞市华睿电子科技有限公司 一种快速搜索移动终端短信息的方法和移动终端
CN108376140A (zh) * 2017-06-30 2018-08-07 勤智数码科技股份有限公司 基于模糊匹配的政务数据梳理方法及装置
CN110580276B (zh) * 2018-06-08 2022-06-28 百度在线网络技术(北京)有限公司 用于处理信息的方法和装置
CN110580276A (zh) * 2018-06-08 2019-12-17 百度在线网络技术(北京)有限公司 用于处理信息的方法和装置
CN110825608B (zh) * 2018-08-08 2024-08-16 北京京东尚科信息技术有限公司 关键语义测试方法、装置、存储介质及电子设备
CN110825608A (zh) * 2018-08-08 2020-02-21 北京京东尚科信息技术有限公司 关键语义测试方法、装置、存储介质及电子设备
CN109192258A (zh) * 2018-08-14 2019-01-11 平安医疗健康管理股份有限公司 医疗数据转化方法、装置、计算机设备和存储介质
CN109192258B (zh) * 2018-08-14 2023-06-20 深圳平安医疗健康科技服务有限公司 医疗数据转化方法、装置、计算机设备和存储介质
CN109447819A (zh) * 2018-09-03 2019-03-08 中国平安人寿保险股份有限公司 一种智能话术提醒方法、系统及终端设备
CN111611471B (zh) * 2019-02-25 2023-12-26 阿里巴巴集团控股有限公司 一种搜索方法、装置及电子设备
CN111611471A (zh) * 2019-02-25 2020-09-01 阿里巴巴集团控股有限公司 一种搜索方法、装置及电子设备
CN110209765A (zh) * 2019-05-23 2019-09-06 武汉绿色网络信息服务有限责任公司 一种按语义搜索关键词的方法和装置
CN110276071A (zh) * 2019-05-24 2019-09-24 众安在线财产保险股份有限公司 一种文本匹配方法、装置、计算机设备及存储介质
CN110276071B (zh) * 2019-05-24 2023-10-13 众安在线财产保险股份有限公司 一种文本匹配方法、装置、计算机设备及存储介质
CN110347911A (zh) * 2019-05-28 2019-10-18 成都美美臣科技有限公司 一个电子商务网站商品搜索自动推送的方法
CN110399385A (zh) * 2019-06-24 2019-11-01 厦门市美亚柏科信息股份有限公司 一种用于小数据集的语义分析方法和系统
CN110334941A (zh) * 2019-07-01 2019-10-15 百度在线网络技术(北京)有限公司 无人物流车调度方法、装置、电子设备和可读存储介质
CN110674365A (zh) * 2019-09-06 2020-01-10 腾讯科技(深圳)有限公司 一种搜索方法、装置、设备及存储介质
CN112749246A (zh) * 2019-10-30 2021-05-04 腾讯科技(深圳)有限公司 搜索短语的评估方法、装置、服务器及存储介质
CN112749246B (zh) * 2019-10-30 2023-11-28 腾讯科技(深圳)有限公司 搜索短语的评估方法、装置、服务器及存储介质
CN116662374B (zh) * 2023-07-31 2023-10-20 天津市扬天环保科技有限公司 基于相关性分析的信息技术咨询服务系统
CN116662374A (zh) * 2023-07-31 2023-08-29 天津市扬天环保科技有限公司 基于相关性分析的信息技术咨询服务系统
CN117216423A (zh) * 2023-08-21 2023-12-12 湖南牙医帮科技有限公司 电商商品的搜索方法、系统、终端设备及存储介质
CN117216423B (zh) * 2023-08-21 2024-06-04 湖南牙医帮科技有限公司 电商商品的搜索方法、系统、终端设备及存储介质

Also Published As

Publication number Publication date
CN105138511B (zh) 2017-12-12

Similar Documents

Publication Publication Date Title
CN105138511A (zh) 一种对搜索关键词进行语义分析的方法和系统
Bafna et al. Feature based summarization of customers’ reviews of online products
US10042896B2 (en) Providing search recommendation
US7412385B2 (en) System for identifying paraphrases using machine translation
CN103646088B (zh) 基于CRFs和SVM的产品评论细粒度情感要素提取
KR20200094627A (ko) 텍스트 관련도를 확정하기 위한 방법, 장치, 기기 및 매체
US9361293B2 (en) Using renaming directives to bootstrap industry-specific knowledge and lexical resources
WO2024131111A1 (zh) 一种智能写作方法、装置、设备及非易失性可读存储介质
CN110457708B (zh) 基于人工智能的词汇挖掘方法、装置、服务器及存储介质
CN111444713B (zh) 新闻事件内实体关系抽取方法及装置
CN107247707A (zh) 基于补全策略的企业关联关系信息提取方法和装置
CN108846138B (zh) 一种融合答案信息的问题分类模型构建方法、装置和介质
WO2014210387A2 (en) Concept extraction
CN102693320B (zh) 一种搜索方法及装置
Hu et al. Self-supervised synonym extraction from the web.
CN105069647A (zh) 一种改进的抽取中文商品评论中评价对象的方法
CN107480197B (zh) 实体词识别方法及装置
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN112183074B (zh) 一种数据增强方法、装置、设备及介质
Manuaba A sentiment analysis model for the COVID-19 vaccine in Indonesia using twitter API v2, TextBlob, and Googletrans
CN113761104A (zh) 知识图谱中实体关系的检测方法、装置和电子设备
CN112115237B (zh) 烟草科技文献数据推荐模型的构建方法及装置
Zhai et al. Extracting opinion features in sentiment patterns
CN114491060A (zh) 动态联想知识网络的更新方法、语义纠错方法
Wang et al. Sweet Apple, company? or food? Adjective-centric commonsense knowledge acquisition with taxonomy-guided induction

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant