CN103678674A - 通过拼音进行纠错搜索的方法、装置及系统 - Google Patents

通过拼音进行纠错搜索的方法、装置及系统 Download PDF

Info

Publication number
CN103678674A
CN103678674A CN201310727035.0A CN201310727035A CN103678674A CN 103678674 A CN103678674 A CN 103678674A CN 201310727035 A CN201310727035 A CN 201310727035A CN 103678674 A CN103678674 A CN 103678674A
Authority
CN
China
Prior art keywords
resource
keyword
phonetic
index field
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310727035.0A
Other languages
English (en)
Inventor
乔磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LeTV Information Technology Beijing Co Ltd
Original Assignee
LeTV Information Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LeTV Information Technology Beijing Co Ltd filed Critical LeTV Information Technology Beijing Co Ltd
Priority to CN201310727035.0A priority Critical patent/CN103678674A/zh
Publication of CN103678674A publication Critical patent/CN103678674A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了通过拼音进行纠错搜索的方法、装置及系统,所述方法包括:接收包含多音字的文字关键词,依据所述多音字的不同读音,将所述文字关键词转换为多个拼音关键词,每个拼音关键词对应包含所述多音字的一种读音;根据每个拼音关键词在拼音词库进行匹配,其中,所述拼音词库中保存有资源的索引字段对应的拼音与所述资源的索引字段的关联关系;根据每个拼音关键词匹配到的资源的索引字段,获取每个拼音关键词对应的资源,并将所获取到的所有资源中权重最高的资源作为所述文字关键词对应的资源;将所述文字关键词对应的资源作为搜索结果进行发送。针对音同字不同的误输入情况,通过转化为拼音关键词来找到用户希望搜索的资源。

Description

通过拼音进行纠错搜索的方法、装置及系统
技术领域
本申请涉及流媒体播放领域,具体涉及一种通过拼音进行纠错搜索的方法、装置及系统。
背景技术
如今,视频网站普遍都支持用户在搜索框输入汉字或者拼音来搜索视频结果。视频网站的服务器会根据输入的汉字或者拼音来自动搜索对应的视频结果。因此只要用户输入的汉字或者拼音正确,往往就可以找到想搜索的视频。
而用户输入的文字关键词中经常带有音同字不同的错别字,例如:用户希望搜索的资源为“白蛇传说”,资源库中保存有“白蛇传说”的视频资源与“白蛇传说”文字的关联关系,但是用户输入的文字关键词却是“白舍传说”,而根据“白舍传说”显然是无法匹配到准确的结果的。另外,对于一些习惯说方言的用户,往往通过拼音输入法输入的文字关键词具有很大困难,经常会输入音不同字也不同的错别字,例如:用户希望搜索的资源为“拆弹专家”,资源库中保存有“拆弹专家”的视频资源与“拆弹专家”文字的关联关系,但是用户输入的文字关键词却是“差弹专家”,而根据“差弹专家”显然是无法匹配到准确的结果的。
而即使进行匹配,“白舍传说”、“差弹专家”这种本身具有歧义的文字关键词进行搜索往往也会搜索到多个结果,此时无法判断出多个结果中的哪个是用户需要的视频。因此,此时如何在多个搜索结果中找出最符合用户搜索本意的搜索结果就成为了一个亟待解决的技术问题。
发明内容
本申请所要解决的技术问题在于提供一种通过拼音进行纠错搜索的方法、装置及系统,在用户无错输入音同字不同的文字或者输入的拼音时,依然可以准确地获取用户希望搜索到的资源。
为了解决上述问题,本申请揭示了一种通过拼音进行纠错搜索的方法,包括:接收包含多音字的文字关键词,依据所述多音字的不同读音,将所述文字关键词转换为多个拼音关键词,每个拼音关键词对应包含所述多音字的一种读音;根据每个拼音关键词在拼音词库进行匹配,其中,所述拼音词库中保存有资源的索引字段对应的拼音与所述资源的索引字段的关联关系;根据每个拼音关键词匹配到的资源的索引字段,获取每个拼音关键词对应的资源,并将所获取到的所有资源中权重最高的资源作为所述文字关键词对应的资源;将所述文字关键词对应的资源作为搜索结果进行发送。
进一步地,接收包含多音字的文字关键词,依据所述多音字的不同读音,将所述文字关键词转换为多个拼音关键词的操作,具体包括:接收包含多音字的文字关键词,根据所述文字关键词在资源库中进行匹配,其中,所述资源库中保存有资源的名称与所述资源的关联关系;根据所述文字关键词在资源库中匹配不到所述资源时,依据所述多音字的不同读音,将所述文字关键词转换为多个拼音关键词。
进一步地,每个资源的权重,根据每个资源被调用的总次数以及在一预设时期内被调用的次数进行加权获得。
进一步地,所述资源的资源名为所述资源的索引字段,或者,所述资源的索引字段为所述资源的资源名的一部分。
为了解决上述问题,本申请还揭示了一种通过拼音进行纠错搜索的装置,包括:接收模块、转换模块、匹配模块、获取模块和发送模块,其中,所述接收模块,用于接收包含多音字的文字关键词;所述转换模块,用于依据所述多音字的不同读音,将所述文字关键词转换为多个拼音关键词,每个拼音关键词对应包含所述多音字的一种读音;所述匹配模块,用于根据每个拼音关键词在拼音词库进行匹配,其中,所述拼音词库中保存有资源的索引字段对应的拼音与所述资源的索引字段的关联关系;所述获取模块,用于根据每个拼音关键词匹配到的资源的索引字段,获取每个拼音关键词对应的资源,并将所获取到的所有资源中权重最高的资源作为所述文字关键词对应的资源;所述发送模块,用于将所述文字关键词对应的资源作为搜索结果进行发送。
进一步地,还包括:适配模块,用于根据所述接收模块接收到的所述文字关键词在资源库中进行适配,其中,所述资源库中保存有资源的名称与所述资源的关联关系;根据所述文字关键词在资源库中适配不到所述资源时,触发所述转换模块。
进一步地,所述获取模块,所获取到的每个资源的权重,根据每个资源被调用的总次数以及在一预设时期内被调用的次数进行加权获得。
进一步地,所述资源的资源名为所述资源的索引字段,或者,所述资源的索引字段为所述资源的资源名的一部分。
为了解决上述问题,本申请还揭示了一种通过拼音进行纠错搜索的系统,包括:一个或多个客户端和服务器,所述一个或多个客户端通过网络接入所述服务器,其中,所述服务器,包括如前所述的通过拼音进行纠错搜索的装置;所述一个或多个客户端,用于识别用户输入的包含多音字的文字关键词,并发送给所述服务器;还用于接收所述服务器发送的所述文字关键词对应的资源作为搜索结果展现。
为了解决上述问题,本申请还揭示了一种通过拼音进行纠错搜索的方法,包括:接收拼音关键词,根据所述拼音关键词在拼音词库进行匹配,其中,所述拼音词库中保存有资源的索引字段对应的拼音与所述资源的索引字段的关联关系,读音相同的资源的索引字段关联到相同的拼音;根据所述拼音关键词匹配到两个以上的资源的索引字段时,获取每个资源的索引字段对应的资源,并将所获取到的所有资源中权重最高的资源作为所述拼音关键词对应的资源;将所述拼音关键词对应的资源作为搜索结果进行发送。
为了解决上述问题,本申请还揭示了一种通过拼音进行纠错搜索的装置,包括:接收模块、匹配模块、获取模块和发送模块,其中,所述接收模块,用于接收拼音关键词;所述匹配模块,用于根据所述拼音关键词在拼音词库进行匹配,其中,所述拼音词库中保存有资源的索引字段对应的拼音与所述资源的索引字段的关联关系,读音相同的资源的索引字段关联到相同的拼音;所述获取模块,用于根据所述拼音关键词匹配到两个以上的资源的索引字段时,获取每个资源的索引字段对应的资源,并将所获取到的所有资源中权重最高的资源作为所述拼音关键词对应的资源;所述发送模块,用于将所述拼音关键词对应的资源作为搜索结果进行发送。
为了解决上述问题,本申请还揭示了一种通过拼音进行纠错搜索的系统,包括:一个或多个客户端和服务器,所述一个或多个客户端通过网络接入所述服务器,其中,所述服务器,包括如前所述的通过拼音进行纠错搜索的装置;所述一个或多个客户端,用于识别用户输入的拼音关键词,并发送给所述服务器;还用于接收所述服务器发送的所述拼音关键词对应的资源作为搜索结果展现。
与现有技术相比,本申请可以获得包括以下技术效果:
1)针对音同字不同的误输入情况,因为用户主要使用拼音输入法,因此所发生的误输入中绝大部分都是音同字不同的情况,但是如果凭借文字关键词去进行检索,因为字发生变化,文字关键词本身是不准确的,显然就无法匹配到资源。而通过转化为拼音关键词,恰好解决了这一问题,很好地利用了“音同字不同“中”音同“的这个特性来找到用户希望搜索的资源。
2)在文字关键词中包含多音字时,还通过多音组读音拆解的方式将文字关键词组成多个拼音组合,尽可能详尽地给出所有组合的可能,尽最大化地匹配,避免发生遗漏,保证了匹配的准确性,最终找到用户希望搜索的资源。
3)针对输入拼音的情况,输入拼音时主要考虑匹配的资源的索引字段可能因为音同字不同的情况而匹配到多个,利用权重可以很好地解决这一问题,权重的加入有助于更好的识别到用户的意图,保证了匹配的准确性,最终找到用户希望搜索的资源。
需要说明的是,以上技术效果并不一定同时达到。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请第一实施例的方法流程图。
图2为本申请第二实施例的方法流程图。
图3a为本申请第三实施例的装置结构图。
图3b为本申请第三实施例的又一装置结构图。
图4为本申请第四实施例的装置结构图。
图5为本申请第五实施例的系统架构图。
具体实施方式
以下将配合附图及实施例来详细说明本申请的实施方式,藉此对本申请如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。
如在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可理解,硬件制造商可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名称的差异来作为区分组件的方式,而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”为一开放式用语,故应解释成“包含但不限定于”。“大致”是指在可接收的误差范围内,本领域技术人员能够在一定误差范围内解决所述技术问题,基本达到所述技术效果。此外,“耦接”一词在此包含任何直接及间接的电性耦接手段。因此,若文中描述一第一装置耦接于一第二装置,则代表所述第一装置可直接电性耦接于所述第二装置,或通过其他装置或耦接手段间接地电性耦接至所述第二装置。说明书后续描述为实施本申请的较佳实施方式,然所述描述乃以说明本申请的一般原则为目的,并非用以限定本申请的范围。本申请的保护范围当视所附权利要求所界定者为准。
实施例一
如图1所示,为本申请第一实施例的方法流程图,包括:
步骤S100,接收包含多音字的文字关键词。
用户在客户端或者浏览器的搜索框中输入文字关键词后,点击搜索,服务器接收所述文字关键词;服务器根据所述文字关键词在资源库中进行匹配,其中,所述资源库中保存有资源的名称与所述资源的关联关系。
而用户输入的文字关键词中有音同字不同的错别字,因此根据所述文字关键词在资源库中匹配不到所述资源。例如:用户希望搜索的资源为“白蛇传说”,资源库中保存有“白蛇传说”的视频资源与“白蛇传说”文字的关联关系,但是用户输入的文字关键词却是“白舍传说”,此时根据资源库显然无法找到相应的视频资源。
另外,用户输入的文字关键词中还可能发生音不同字也不同的错别字,因此根据所述文字关键词在资源库中匹配不到所述资源。例如,资源库中并没有保存“拆弹专家”的视频资源,自然也就没有保存“拆弹专家”的视频资源与“拆弹专家”文字的关联关系;此时用户输入“差弹”,根据资源库显然无法找到相应的视频资源。
在发生上述情况时,因为在资源库中没有找到结果,还需要进行二次匹配,首先制性步骤S102。
另外,在服务器根据所述文字关键词在资源库中进行匹配之前,首先要对所述文字关键词进行去噪处理,根据语义以及资源库中保存的资源的名称对所述文字关键词进行分词,抽取所述文字关键词中与所保存的资源的名称相似度最高且所含字数最多的部分文字,将这部分文字作为文字关键词进行后续的匹配等一系列操作。之后步骤中所述的文字关键词皆为去噪后的文字关键词。例如,用户输入“失练33天中的大老王”,显然在分词后,“失练33天”的字数最多,且“失练33天”与资源库中保存的资源“失恋33天”的名称相似度最高,因此抽取“失练33天”作为文字关键词,而“中的大老王”即为噪声。当然,去噪并非必须的操作,当所述文字关键词本身与所保存的资源的名称相似度极高说明此时所述文字关键词中没有噪点,此时不需要去噪处理,用户输入的即为可以直接进行后续处理的所述文字关键词。
步骤S102,将所述包含多音字的文字关键词转化为拼音关键词。
其中,对于包含多音字的文字关键词,依据所述多音字的不同读音,将所述文字关键词转换为多个拼音关键词,每个拼音关键词对应包含所述多音字的一种读音。例如,用户希望搜索的资源为“白蛇传说”,资源库中保存有“白蛇传说”的视频资源与“白蛇传说”文字的关联关系,但是用户输入的文字关键词却是“白舍传说”,此时根据资源库显然无法找到相应的视频资源。将“白舍传说”转化为拼音关键词,而“传”为多音字,具有“chuan”和“zhuan”两个读音,“说”为多音字,具有“shuo”和“yue”两个读音,因此“白舍传说”转化为拼音后得到四种拼音组合“bai she chuan shuo”、“bai she chuan yue”、“bai she zhuan shuo”和“bai she zhuan yue”。
当然,也有可能文字关键词不包括多音字,这样转化后得到的拼音关键词就是唯一的。举例来说,所述文字关键词为“穿越”,这样转化后的拼音关键词就是“chuan yue”。
步骤S104,根据每个拼音关键词在拼音词库进行匹配,其中,所述拼音词库中保存有资源的索引字段对应的拼音与所述资源的索引字段的关联关系;
所述拼音词库中保存有资源的索引字段对应的拼音与所述资源的索引字段的关联关系,例如表1、表2:
Figure BDA0000446459350000071
表1
表2
步骤S106,根据每个拼音关键词匹配到的资源的索引字段,获取每个拼音关键词对应的资源,并将所获取到的所有资源中权重最高的资源作为所述文字关键词对应的资源;
例如,用户希望搜索的资源为“白蛇传说”,资源库中保存有“白蛇传说”的视频资源与“白蛇传说”文字的关联关系,但是因为用户使用拼音输入法,误操作输入了音同字不同的文字关键词“白舍传说”,此时根据资源库显然无法找到相应的视频资源。将“白舍传说”转化为拼音关键词,而“传”为多音字,具有“chuan”和“zhuan”两个读音,“说”为多音字,具有“shuo”和“yue”两个读音,因此“白舍传说”转化为拼音后得到四种拼音组合“baishe chuan shuo”、“bai she chuan yue”、“bai she zhuan shuo”和“bai she zhuanyue”。分别根据四种拼音组合在如表1中的拼音词库中匹配,其中拼音组合“bai she chuan shuo”匹配到了资源的索引字段“白蛇传说”。根据匹配到的资源的索引字段“白蛇传说”获取对应的“白蛇传说”的视频资源,同时得到了“白蛇传说”的电影视频和电视剧视频,而“白蛇传说”的电影视频的权重较高,因此将“白蛇传说”的电影视频作为用户输入的文字关键词“白舍传说”对应的资源,显然捕捉到了用户的本意。这里需要说明的是,将用户输入的含有多个多音字读音的文字关键词转化为多组拼音组合后,不一定只有一组拼音组合会匹配到了资源的索引字段,有可能会有多组拼音组合会匹配到资源的索引字段,而匹配到的每个资源的索引字段又会分别获取到一个或多个资源。这里通过多音组读音拆解的方式组成多个拼音组合是为了尽可能详尽地给出所有组合的可能,尽最大化地匹配,避免发生遗漏,保证了匹配的准确性,最终找到用户希望搜索的资源。
又例如,对于一些习惯说方言的用户,往往通过拼音输入法输入的文字关键词具有很大困难,经常会输入音不同字也不同的错别字,假设用户希望搜索的资源为“拆弹专家”,资源库中保存有“拆弹专家”的视频资源与“拆弹专家”文字的关联关系,但是用户输入的文字关键词却是“差弹专家”,而根据“差弹专家”显然是无法匹配到准确的结果的。将“差弹专家”转化为拼音关键词,而“差”为多音字,具有“cha”、“chai”和“ci”三个读音,因此“差弹专家”转化为拼音后得到三种拼音组合“cha dan zhuan jia”、“chai dan zhuan jia”和“ci dan zhuan jia”。分别根据三种拼音组合在如表1中的拼音词库中匹配,其中拼音组合“chai dan zhuan jia”匹配到了资源的索引字段“拆弹专家”。根据匹配到的资源的索引字段“拆弹专家”获取对应的视频资源《拆弹专家》,将《拆弹专家》的视频资源作为用户输入的文字关键词“差弹专家”对应的资源,显然捕捉到了用户的本意。
再例如,用户希望搜索的资源为“传说”,而资源库中并没有保存与“传说”有关的视频资源,自然也就没有保存“传说”的视频资源与“传说”文字的关联关系;此时用户输入“传说”,根据资源库显然无法找到相应的视频资源。将“传说”转化为拼音关键词,而“传”为多音字,具有“chuan”和“zhuan”两个读音,“说”为多音字,具有“shuo”和“yue”两个读音,因此“传说”转化为拼音后得到四种拼音组合“chuan shuo”、“chuan yue”、“zhuan shuo”和“zhuan yue”。分别根据四种拼音组合在如表2中的拼音词库中匹配,其中拼音组合“chuan yue”匹配到了资源的索引字段“穿越”,其中拼音组合“zhuan shuo”匹配到了资源的索引字段“篆说”。根据索引字段“穿越”获取对应的包含“穿越”这个文字的两个视频资源:《穿越火线》、《穿越时空的爱恋》;根据索引字段“篆说”获取对应的包含“篆说”这个文字的一个视频资源:《慢语篆说》。对这三个视频资源进行权重排序,《穿越火线》权重最高,《穿越时空的爱恋》权重居中,《慢语篆说》权重最低,将《穿越火线》的视频资源作为用户输入的文字关键词“传说”对应的资源。显然,在“传说”无法找到视频资源的情况,这里通过多音组读音拆解的方式组成多个拼音组合是为了尽可能详尽地给出所有组合的可能,尽最大化地匹配,避免发生遗漏,保证了匹配的准确性,最终找到用户希望搜索的资源。
显然,所述资源的资源名为所述资源的索引字段,或者,所述资源的索引字段为所述资源的资源名的一部分。
另外,上述的每个资源的权重,根据每个资源被调用的总次数以及在一预设时期内被调用的次数进行加权获得。对于视频资源来说,被调用即为被调用播放。在加权时在一预设时期内被调用的次数作为考虑因子的重要性要高于被调用的总次数,一般一预设时期内被调用的次数优选当前日被调用的次数。被调用的次数反应了资源的热度,热度越高的资源显然具有更大的可能性被搜索,因此赋予更高的权重,显然,权重的加入有助于更好的识别到用户的意图,保证了匹配的准确性,最终找到用户希望搜索的资源。
步骤S108,将所述文字关键词对应的资源作为搜索结果进行发送。
可以看到,本实施例主要针对音同字不同的误输入情况,因为用户主要使用拼音输入法,因此所发生的误输入中绝大部分都是音同字不同的情况,但是如果凭借文字关键词去进行检索,因为字发生变化,文字关键词本身是不准确的,显然就无法匹配到资源。而通过转化为拼音关键词,恰好解决了这一问题,很好地利用了“音同字不同“中”音同“的这个特性来找到用户希望搜索的资源。
而且在文字关键词中包含多音字时,还通过多音组读音拆解的方式将文字关键词组成多个拼音组合,尽可能详尽地给出所有组合的可能,尽最大化地匹配,避免发生遗漏,保证了匹配的准确性,最终找到用户希望搜索的资源。
实施例二
如图2所示,为本申请第二实施例的方法流程图,主要针对步骤S102进行细化,包括:
步骤S200,接收拼音关键词;
用户在客户端或者浏览器的搜索框中直接输入拼音关键词后,点击搜索,服务器接收所述拼音关键词;或者现在大多数用户使用拼音输入法,在输入拼音时刚刚键入的拼音没有转化为汉字就敲击回车键,将拼音输入。
可以看到,这种情况下,一般来说用户输入的拼音都是正确的,但是服务器的所述资源库中保存有资源的名称与所述资源的关联关系,并没有拼音库,此时无法在资源库中直接进行匹配。
步骤S202,根据所述拼音关键词在拼音词库进行匹配,其中,所述拼音词库中保存有资源的索引字段对应的拼音与所述资源的索引字段的关联关系,读音相同的资源的索引字段关联到相同的拼音;
所述拼音词库中保存有资源的索引字段对应的拼音与所述资源的索引字段的关联关系,例如表3,显然,读音相同的资源的索引字段会关联到相同的资源,但是读音相同的资源的索引字段有可能字不同,显然不是相同的资源;当然也有可能字相同,但是即使是字相同的资源的索引字段,也有可能对应不同的资源。
Figure BDA0000446459350000111
表3
步骤S204,根据所述拼音关键词匹配到两个以上的资源的索引字段时,获取每个资源的索引字段对应的资源,并将所获取到的所有资源中权重最高的资源作为所述拼音关键词对应的资源;
例如,用户希望搜索的资源为“搜神记”,资源库中保存有“搜神记”的视频资源与“搜神记”文字的关联关系,还存有“搜身记”的视频资源与“搜身记”文字的关联关系。但是因为用户使用拼音输入法,误操作输入了拼音关键词“sou shen ji”,因为资源库中没有拼音索引,此时根据资源库显然无法找到相应的视频资源。根据拼音关键词“sou shen ji”在如表2中的拼音词库中匹配,匹配到了两个资源的索引字段“搜神记”和“搜身记”。根据匹配到的资源的索引字段“搜神记”获取对应的“搜神记”的视频资源,还根据匹配到的资源的索引字段“搜身记”获取对应的“搜身记”的视频资源,而“搜神记”的视频资源的权重较高,因此将“搜神记”的视频资源作为用户输入的拼音关键词“sou shen ji”对应的资源。
上述的每个资源的权重,根据每个资源被调用的总次数以及在一预设时期内被调用的次数进行加权获得。对于视频资源来说,被调用即为被调用播放。在加权时在一预设时期内被调用的次数作为考虑因子的重要性要高于被调用的总次数,一般一预设时期内被调用的次数优选当前日被调用的次数。被调用的次数反应了资源的热度,热度越高的资源显然具有更大的可能性被搜索,因此赋予更高的权重,显然,权重的加入有助于更好的识别到用户的意图,保证了匹配的准确性,最终找到用户希望搜索的资源。
步骤S206,将所述拼音关键词对应的资源作为搜索结果进行发送。
可以看到,本实施例主要针对输入拼音的情况,输入拼音时主要考虑匹配的资源的索引字段可能因为音同字不同的情况而匹配到多个,利用权重可以很好地解决这一问题,权重的加入有助于更好的识别到用户的意图,保证了匹配的准确性,最终找到用户希望搜索的资源。
实施例三
如图3a所示,为本申请第三实施例的装置结构图。通过拼音进行纠错搜索的装置,一般位于服务器侧。所述装置包括:接收模块30、转换模块31、匹配模块32、获取模块33、发送模块34和拼音词库35,其中,
所述接收模块30,用于接收包含多音字的文字关键词;
所述转换模块31,与接收模块30耦接,用于依据所述多音字的不同读音,将所述文字关键词转换为多个拼音关键词,每个拼音关键词对应包含所述多音字的一种读音;
所述匹配模块32,分别与转换模块31和拼音词库35耦接,用于根据每个拼音关键词在所述拼音词库35进行匹配;
所述获取模块33,与匹配模块32耦接,用于根据每个拼音关键词匹配到的资源的索引字段,获取每个拼音关键词对应的资源,并将所获取到的所有资源中权重最高的资源作为所述文字关键词对应的资源;每个资源的权重,根据每个资源被调用的总次数以及在一预设时期内被调用的次数进行加权获得;
所述发送模块34,与获取模块33耦接,用于将所述文字关键词对应的资源作为搜索结果进行发送。
所述拼音词库35,与匹配模块32耦接,用于保存有资源的索引字段对应的拼音与所述资源的索引字段的关联关系。
如图3b所示,为本申请第三实施例的又一装置结构图。所述装置除了包括接收模块30、转换模块31、匹配模块32、获取模块33、发送模块34和拼音词库35,还包括:适配模块36和资源库37。
所述适配模块36,与接收模块30、转换模块31和资源库37耦接,用于根据所述接收模块30接收到的所述文字关键词在资源库37中进行适配,根据所述文字关键词在资源库中适配不到所述资源时,触发所述转换模块31;
所述资源库37,用于保存有资源的名称与所述资源的关联关系。
实施例四
如图4所示,为本申请第四实施例的装置结构图。通过拼音进行纠错搜索的装置,一般位于服务器侧。所述装置包括:接收模块40、匹配模块41、获取模块42、发送模块43和拼音词库44,其中,
所述接收模块40,用于接收拼音关键词;
所述匹配模块41,分别与接收模块40和拼音词库44耦接,用于根据所述拼音关键词在拼音词库44进行匹配;
所述获取模块42,与匹配模块41耦接,用于根据所述拼音关键词匹配到两个以上的资源的索引字段时,获取每个资源的索引字段对应的资源,并将所获取到的所有资源中权重最高的资源作为所述拼音关键词对应的资源;每个资源的权重,根据每个资源被调用的总次数以及在一预设时期内被调用的次数进行加权获得;
所述发送模块43,与获取模块42耦接,用于将所述拼音关键词对应的资源作为搜索结果进行发送;
所述拼音词库44,与匹配模块41耦接,用于保存有资源的索引字段对应的拼音与所述资源的索引字段的关联关系,读音相同的资源的索引字段关联到相同的拼音。
实施例五
如图5所示,为本申请第五实施例的系统架构图,包括:一个或多个客户端500和服务器520,所述一个或多个客户端500通过网络接入所述服务器520,其中,
所述服务器520,安装有如图3a和图3b以及图4中所示出的通过拼音进行搜索的装置,参考实施例三和实施例四,在此不再赘述。
所述客户端500,用于识别用户输入的拼音关键词或文字关键词,并发送给所述服务器520;还用于接收所述服务器520发送的拼音关键词或文字关键词对应的资源作为搜索结果展现给用户。
所述客户端500可以是网络电视、平板电脑、个人电脑、网络视频播放机(网络机顶盒)、手机等,本申请并不限于此。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。
上述说明示出并描述了本申请的若干优选实施例,但如前所述,应当理解本申请并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本申请的精神和范围,则都应在本申请所附权利要求的保护范围内。

Claims (12)

1.一种通过拼音进行纠错搜索的方法,其特征在于,包括:
接收包含多音字的文字关键词,依据所述多音字的不同读音,将所述文字关键词转换为多个拼音关键词,每个拼音关键词对应包含所述多音字的一种读音;
根据每个拼音关键词在拼音词库进行匹配,其中,所述拼音词库中保存有资源的索引字段对应的拼音与所述资源的索引字段的关联关系;
根据每个拼音关键词匹配到的资源的索引字段,获取每个拼音关键词对应的资源,并将所获取到的所有资源中权重最高的资源作为所述文字关键词对应的资源;
将所述文字关键词对应的资源作为搜索结果进行发送。
2.如权利要求1所述的方法,其特征在于,接收包含多音字的文字关键词,依据所述多音字的不同读音,将所述文字关键词转换为多个拼音关键词的操作,具体包括:
接收包含多音字的文字关键词,根据所述文字关键词在资源库中进行匹配,其中,所述资源库中保存有资源的名称与所述资源的关联关系;
根据所述文字关键词在资源库中匹配不到所述资源时,依据所述多音字的不同读音,将所述文字关键词转换为多个拼音关键词。
3.如权利要求1述的方法,其特征在于,
每个资源的权重,根据每个资源被调用的总次数以及在一预设时期内被调用的次数进行加权获得。
4.如权利要求1述的方法,其特征在于,
所述资源的资源名为所述资源的索引字段,或者,所述资源的索引字段为所述资源的资源名的一部分。
5.一种通过拼音进行纠错搜索的装置,其特征在于,包括:接收模块、转换模块、匹配模块、获取模块和发送模块,其中,
所述接收模块,用于接收包含多音字的文字关键词;
所述转换模块,用于依据所述多音字的不同读音,将所述文字关键词转换为多个拼音关键词,每个拼音关键词对应包含所述多音字的一种读音;
所述匹配模块,用于根据每个拼音关键词在拼音词库进行匹配,其中,所述拼音词库中保存有资源的索引字段对应的拼音与所述资源的索引字段的关联关系;
所述获取模块,用于根据每个拼音关键词匹配到的资源的索引字段,获取每个拼音关键词对应的资源,并将所获取到的所有资源中权重最高的资源作为所述文字关键词对应的资源;
所述发送模块,用于将所述文字关键词对应的资源作为搜索结果进行发送。
6.如权利要求5所述的装置,其特征在于,还包括:
适配模块,用于根据所述接收模块接收到的所述文字关键词在资源库中进行适配,其中,所述资源库中保存有资源的名称与所述资源的关联关系;根据所述文字关键词在资源库中适配不到所述资源时,触发所述转换模块。
7.如权利要求5述的装置,其特征在于,
所述获取模块,所获取到的每个资源的权重,根据每个资源被调用的总次数以及在一预设时期内被调用的次数进行加权获得。
8.如权利要求5述的装置,其特征在于,
所述资源的资源名为所述资源的索引字段,或者,所述资源的索引字段为所述资源的资源名的一部分。
9.一种通过拼音进行纠错搜索的系统,其特征在于,包括:一个或多个客户端和服务器,所述一个或多个客户端通过网络接入所述服务器,其中,
所述服务器,包括如权利要求5-8中任一项所述的通过拼音进行纠错搜索的装置;
所述一个或多个客户端,用于识别用户输入的包含多音字的文字关键词,并发送给所述服务器;还用于接收所述服务器发送的所述文字关键词对应的资源作为搜索结果展现。
10.一种通过拼音进行纠错搜索的方法,其特征在于,包括:
接收拼音关键词,根据所述拼音关键词在拼音词库进行匹配,其中,所述拼音词库中保存有资源的索引字段对应的拼音与所述资源的索引字段的关联关系,读音相同的资源的索引字段关联到相同的拼音;
根据所述拼音关键词匹配到两个以上的资源的索引字段时,获取每个资源的索引字段对应的资源,并将所获取到的所有资源中权重最高的资源作为所述拼音关键词对应的资源;
将所述拼音关键词对应的资源作为搜索结果进行发送。
11.一种通过拼音进行纠错搜索的装置,其特征在于,包括:接收模块、匹配模块、获取模块和发送模块,其中,
所述接收模块,用于接收拼音关键词;
所述匹配模块,用于根据所述拼音关键词在拼音词库进行匹配,其中,所述拼音词库中保存有资源的索引字段对应的拼音与所述资源的索引字段的关联关系,读音相同的资源的索引字段关联到相同的拼音;
所述获取模块,用于根据所述拼音关键词匹配到两个以上的资源的索引字段时,获取每个资源的索引字段对应的资源,并将所获取到的所有资源中权重最高的资源作为所述拼音关键词对应的资源;
所述发送模块,用于将所述拼音关键词对应的资源作为搜索结果进行发送。
12.一种通过拼音进行纠错搜索的系统,其特征在于,包括:一个或多个客户端和服务器,所述一个或多个客户端通过网络接入所述服务器,其中,
所述服务器,包括如权利要求11所述的通过拼音进行纠错搜索的装置;
所述一个或多个客户端,用于识别用户输入的拼音关键词,并发送给所述服务器;还用于接收所述服务器发送的所述拼音关键词对应的资源作为搜索结果展现。
CN201310727035.0A 2013-12-25 2013-12-25 通过拼音进行纠错搜索的方法、装置及系统 Pending CN103678674A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310727035.0A CN103678674A (zh) 2013-12-25 2013-12-25 通过拼音进行纠错搜索的方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310727035.0A CN103678674A (zh) 2013-12-25 2013-12-25 通过拼音进行纠错搜索的方法、装置及系统

Publications (1)

Publication Number Publication Date
CN103678674A true CN103678674A (zh) 2014-03-26

Family

ID=50316218

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310727035.0A Pending CN103678674A (zh) 2013-12-25 2013-12-25 通过拼音进行纠错搜索的方法、装置及系统

Country Status (1)

Country Link
CN (1) CN103678674A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016034052A1 (zh) * 2014-09-03 2016-03-10 乐视网信息技术(北京)股份有限公司 一种数据搜索中的纠错装置及其方法
CN106407225A (zh) * 2015-08-03 2017-02-15 北大方正集团有限公司 一种显示拼音的方法及装置
CN106527757A (zh) * 2016-10-28 2017-03-22 上海智臻智能网络科技股份有限公司 一种输入纠错方法及装置
CN106708285A (zh) * 2016-12-27 2017-05-24 Ut斯达康(深圳)技术有限公司 搜索库生成方法及装置
CN107784027A (zh) * 2016-08-31 2018-03-09 北京国双科技有限公司 一种裁判文书检索关键词的提示方法及装置
CN107870919A (zh) * 2016-09-23 2018-04-03 伊姆西Ip控股有限责任公司 管理索引的方法和设备
CN109033370A (zh) * 2018-07-27 2018-12-18 阿里巴巴集团控股有限公司 一种查找相似店铺的方法及装置、店铺接入的方法及装置
CN109101586A (zh) * 2018-07-23 2018-12-28 Oppo广东移动通信有限公司 电影信息获取方法、装置及移动终端
CN109116997A (zh) * 2017-06-23 2019-01-01 北京国双科技有限公司 一种基于拼音的搜索方法及装置
CN109599097A (zh) * 2017-09-30 2019-04-09 北京国双科技有限公司 一种同音词定位的方法及装置
CN109614621A (zh) * 2018-12-11 2019-04-12 中国移动通信集团江苏有限公司 一种校正文本的方法、装置及设备
CN110188171A (zh) * 2019-05-30 2019-08-30 上海联影医疗科技有限公司 一种语音搜索方法、装置、电子设备及存储介质
CN111540353A (zh) * 2020-04-16 2020-08-14 重庆农村商业银行股份有限公司 一种语义理解方法、装置、设备及存储介质
CN113220860A (zh) * 2021-06-02 2021-08-06 中国农业银行股份有限公司 搜索方法和装置
CN113722426A (zh) * 2021-07-30 2021-11-30 福建拓尔通软件有限公司 一种政府网站搜索方法、系统、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101206673A (zh) * 2007-12-25 2008-06-25 北京科文书业信息技术有限公司 网络搜索过程中关键词的智能纠错系统及方法
CN101610393A (zh) * 2009-07-17 2009-12-23 深圳创维数字技术股份有限公司 Iptv系统及其节目信息搜索系统与方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101206673A (zh) * 2007-12-25 2008-06-25 北京科文书业信息技术有限公司 网络搜索过程中关键词的智能纠错系统及方法
CN101610393A (zh) * 2009-07-17 2009-12-23 深圳创维数字技术股份有限公司 Iptv系统及其节目信息搜索系统与方法

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016034052A1 (zh) * 2014-09-03 2016-03-10 乐视网信息技术(北京)股份有限公司 一种数据搜索中的纠错装置及其方法
CN106407225A (zh) * 2015-08-03 2017-02-15 北大方正集团有限公司 一种显示拼音的方法及装置
CN107784027A (zh) * 2016-08-31 2018-03-09 北京国双科技有限公司 一种裁判文书检索关键词的提示方法及装置
CN107870919A (zh) * 2016-09-23 2018-04-03 伊姆西Ip控股有限责任公司 管理索引的方法和设备
CN106527757A (zh) * 2016-10-28 2017-03-22 上海智臻智能网络科技股份有限公司 一种输入纠错方法及装置
CN106708285B (zh) * 2016-12-27 2019-11-08 优地网络有限公司 搜索库生成方法及装置
CN106708285A (zh) * 2016-12-27 2017-05-24 Ut斯达康(深圳)技术有限公司 搜索库生成方法及装置
CN109116997A (zh) * 2017-06-23 2019-01-01 北京国双科技有限公司 一种基于拼音的搜索方法及装置
CN109599097B (zh) * 2017-09-30 2022-10-18 北京国双科技有限公司 一种同音词定位的方法及装置
CN109599097A (zh) * 2017-09-30 2019-04-09 北京国双科技有限公司 一种同音词定位的方法及装置
CN109101586B (zh) * 2018-07-23 2021-11-16 Oppo广东移动通信有限公司 电影信息获取方法、装置及移动终端
CN109101586A (zh) * 2018-07-23 2018-12-28 Oppo广东移动通信有限公司 电影信息获取方法、装置及移动终端
CN109033370A (zh) * 2018-07-27 2018-12-18 阿里巴巴集团控股有限公司 一种查找相似店铺的方法及装置、店铺接入的方法及装置
CN109614621A (zh) * 2018-12-11 2019-04-12 中国移动通信集团江苏有限公司 一种校正文本的方法、装置及设备
CN109614621B (zh) * 2018-12-11 2023-09-19 中国移动通信集团江苏有限公司 一种校正文本的方法、装置及设备
CN110188171A (zh) * 2019-05-30 2019-08-30 上海联影医疗科技有限公司 一种语音搜索方法、装置、电子设备及存储介质
CN111540353A (zh) * 2020-04-16 2020-08-14 重庆农村商业银行股份有限公司 一种语义理解方法、装置、设备及存储介质
CN111540353B (zh) * 2020-04-16 2022-11-15 重庆农村商业银行股份有限公司 一种语义理解方法、装置、设备及存储介质
CN113220860A (zh) * 2021-06-02 2021-08-06 中国农业银行股份有限公司 搜索方法和装置
CN113722426A (zh) * 2021-07-30 2021-11-30 福建拓尔通软件有限公司 一种政府网站搜索方法、系统、设备及介质

Similar Documents

Publication Publication Date Title
CN103678674A (zh) 通过拼音进行纠错搜索的方法、装置及系统
US11636146B2 (en) Content analysis to enhance voice search
US11626101B2 (en) Dynamic language and command recognition
US10559301B2 (en) Generating topic-specific language models
US10366169B2 (en) Real-time natural language processing of datastreams
CN109101481B (zh) 一种命名实体识别方法、装置及电子设备
CN103605808B (zh) 基于搜索的ugc推荐的方法及系统
CN103929666B (zh) 一种连续语音交互方法及装置
CN103678675A (zh) 通过拼音进行搜索的方法、服务器及系统
CN103699640A (zh) 多媒体资源搜索方法、装置及系统
CN105632487A (zh) 一种语音识别方法和装置
US9286405B2 (en) Index-side synonym generation
CN112257415A (zh) 语音搜索词库的方法、系统、电子装置和存储介质
CN112114926A (zh) 基于语音识别的页面操作方法、装置、设备和介质
KR20110127862A (ko) 컨텐츠 검색을 위한 자동 완성 문장 제공 방법 및 시스템
JP2015215681A (ja) キーワード抽出装置およびプログラム
JP7202938B2 (ja) 番組名検索支援装置、及び、番組名検索支援方法
CN113033190A (zh) 字幕生成方法、装置、介质及电子设备
CN111125302A (zh) 用户输入语句检错方法、装置及电子设备
Vasudevan et al. Little by little: Semi supervised stemming through stem set minimization
CN106951423A (zh) 一种实现影视识别的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned

Effective date of abandoning: 20180112

AD01 Patent right deemed abandoned