CN102081638A

CN102081638A - 一种匹配关键词的方法及装置

Info

Publication number: CN102081638A
Application number: CN2010101049426A
Authority: CN
Inventors: 柯宗贵; 柯宗庆
Original assignee: Bluedon Information Security Technologies Co Ltd
Current assignee: Bluedon Information Security Technologies Co Ltd
Priority date: 2010-01-29
Filing date: 2010-01-29
Publication date: 2011-06-01

Abstract

本发明公开了一种匹配关键词的方法及装置，涉及计算机及互联网领域，用以解决现有技术不能对汉字和非汉字字符夹杂情况下的关键词进行检索，并且不能检索到目标关键词的近似词汇的问题。方法包括将关键词中的汉字逐一用汉语拼音编码，生成关键码；将待检索页面中的汉字逐一用汉语拼音编码，生成待检索码流；以关键码对待检索码流进行匹配，得出匹配结果。装置包括：第一编码模块，第二编码模块和匹配模块。本发明可对汉字和非汉字字符夹杂情况下的关键词进行检索，并且可检索到目标关键词的近似词汇。

Description

一种匹配关键词的方法及装置

技术领域

本发明涉及计算机及互联网领域，特别是涉及一种匹配关键词的方法及装置。

背景技术

在检查互联网信息或文本文件的过程中，通常要分析页面内容。现有的做法是搜索页面中包含的一个或多个关键字。即用关键词对页面内容进行匹配，以寻找关键词在页面中的位置。

但是，关键词是作为一个整体参与匹配的，例如：“互联网”，这种技术不能对汉字和非汉字字符夹杂情况下的关键词进行检索，并且不能检索到目标关键词的近似词汇。

发明内容

本发明提供了一种匹配关键词的方法及装置，用以解决现有技术不能对汉字和非汉字字符夹杂情况下的关键词进行检索，并且不能检索到目标关键词的近似词汇的问题。

本发明的匹配关键词的方法，包括下列步骤：生成关键码的步骤：将关键词中的汉字逐一用汉语拼音编码，生成关键码；生成待检索码流的步骤：将待检索页面中的汉字逐一用汉语拼音编码，生成待检索码流；匹配的步骤：以关键码对待检索码流进行匹配，得出匹配结果。

本发明的匹配关键词的装置，包括：第一编码模块，用于将关键词中的汉字逐一用汉语拼音编码，生成关键码；第二编码模块，用于将待检索页面中的汉字逐一用汉语拼音编码，生成待检索码流；匹配模块，用于以所述关键码对待检索码流进行匹配，得出匹配结果。

本发明有益效果如下：

本发明可对汉字和非汉字字符夹杂情况下的关键词进行检索，并且可检索到目标关键词的近似词汇。

附图说明

图1为本发明实施例中的方法步骤流程图；

图2为本发明实施例中的装置结构示意图。

具体实施方式

为了完善现有关键词检索技术不能对汉字和非汉字字符夹杂情况下的关键词进行检索的缺陷，以及不能检索到目标关键词的近似词汇的缺陷，本发明提出了一种匹配关键词的方法及装置，以下通过若干实施例具体说明。

参见图1所示，本发明实施例中的方法包括下列主要步骤：

S1、将关键词中的汉字逐一用汉语拼音编码，生成关键码。

S2、将待检索页面中的汉字逐一用汉语拼音编码，生成待检索码流。

S3、以关键码对待检索码流进行匹配，得出匹配结果。

更为具体的在步骤S1和S2中，关键词中若包含英文字符，则在编码过程中该英文字符作为关键码的一部分予以保留，并且其在关键码中的位置与在原关键词中的位置相同。待检索页面中若包含英文字符，则在编码过程中该英文字符同理作为待检索码流的一部分予以保留，并且其在待检索码流中的位置与在原待检索页面中的位置相同。

更为具体的在步骤S2和S3中，对待检索页面内容的编码和关键字的关键码匹配是同时进行的。即在将待检索页面中的汉字逐一用汉语拼音编码，生成待检索码流的过程中，以关键码实时跟踪匹配，当匹配到相同的编码时，将当前待检索码流尾部与关键码相匹配的编码对应的文字呈现给用户。具体流程为在生成关键码后，按顺序从待检索页面中获取一个字符，该字符可为汉字也可为英文字符，若为汉字，则对该汉字用汉语拼音编码，得到一串英文字符，若为英文字符，则直接将其作为待检索码流的一部分。在得到当前字符的编码后，实时与关键码进行匹配，若关键词为一个字，则可能完整匹配，若关键词为多个字或是中英夹杂，则可能按照关键码从左到右的顺序匹配到关键码的片段，之后在下一字符编码后，继续进行匹配操作，若经过若干个字符编码后，可得到连续的关键码片段并可组成完整的关键码，则判定匹配到一个关键码；之后可将待检索页面中对应的文字实时以高亮方式或其它方式呈现给用户。如此循环，直至将待检索页面的内容全部匹配完毕。

在具体实现中，例如：关键词为“互联网Internet”。待检索页面中的文字内容为“随着时代的发展，互联网Internet已成为人们生活中必不可少的元素”。

对关键词用汉语拼音编码后得到的关键码为“hulianwangInternet”。之后按顺序从待检索页面中逐一获取字符，在得到当前字符的编码后，实时与关键码进行匹配。直至获取当前字符“互”，对其编码后得到“hu”，实时与关键码“hulianwangInternet”进行匹配，则可按照关键码从左到右的顺序匹配到关键码的片段“hu”，之后在下一字符“联”编码后，继续进行匹配操作，其后获取到英文字符“I”时直接将其作为待检索码流的一部分，并进行匹配操作。经过对待检索页面中的文字“互联网Internet”编码和实时匹配后，可匹配到连续的关键码片段并可组成完整的关键码，这时判定匹配到一个关键码。之后可将待检索页面中的文字“互联网Internet”实时以高亮方式或其它方式呈现给用户。如此循环，直至将待检索页面的内容全部匹配完毕。

参见图2所示，本实施中的匹配关键词的装置，包括：第一编码模块、第二编码模块和匹配模块。

其中，第一编码模块，用于将关键词中的汉字逐一用汉语拼音编码，生成关键码。关键词中若包含英文字符，则在编码过程中该英文字符作为关键码的一部分予以保留，并且其在关键码中的位置与在原关键词中的位置相同。

第二编码模块，用于将待检索页面中的汉字逐一用汉语拼音编码，生成待检索码流。待检索页面中若包含英文字符，则在编码过程中该英文字符同理作为待检索码流的一部分予以保留，并且其在待检索码流中的位置与在原待检索页面中的位置相同。

匹配模块，用于以关键码对待检索码流进行匹配，得出匹配结果。

更为具体的，第二编码模块对待检索页面内容的编码和匹配模块的匹配操作是同时进行的。即第二编码模块在将待检索页面中的汉字逐一用汉语拼音编码，生成待检索码流的过程中，匹配模块以第一编码模块输出的关键码实时跟踪匹配，当匹配到相同的编码时，将当前待检索码流尾部与关键码相匹配的编码对应的文字呈现给用户。具体流程为在第一编码模块生成关键码后，第二编码模块按顺序从待检索页面中获取一个字符，该字符可为汉字也可为英文字符，若为汉字，则对该汉字用汉语拼音编码，得到一串英文字符，若为英文字符，则直接将其作为待检索码流的一部分。在得到当前字符的编码后，匹配模块实时与关键码进行匹配，若关键词为一个字，则可能完整匹配，若关键词为多个字或是中英夹杂，则可能按照关键码从左到右的顺序匹配到关键码的片段，之后第二编码模块在对下一字符编码后，匹配模块继续进行匹配操作，若经过若干个字符编码后，可得到连续的关键码片段并可组成完整的关键码，则匹配模块判定匹配到一个关键码；之后可将待检索页面中对应的文字实时以高亮方式或其它方式呈现给用户。如此循环，直至将待检索页面的内容全部匹配完毕。

可见，本发明实施例可实现汉字和非汉字字符夹杂情况下的关键词检索。

并且，由于本发明实施例中采用了将汉字用汉语拼音编码的技术，所以关键词及与其同音词汇的编码是相同的，进而可匹配到与关键词同音的词汇，扩大了检索结果的范围。如果用户输入的关键词不是正确的关键词，但是是同音词汇，则利用本发明实施例同样可得到用户想要的匹配结果，例如：用户输入的关键词为“互连网”，则基于上述实例可匹配到“互联网”，而不会像现有技术那样检索不到任何结果，因此本发明实施例可给用户带来更好的用户感受。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种匹配关键词的方法，其特征在于，包括下列步骤：

生成关键码的步骤：将关键词中的汉字逐一用汉语拼音编码，生成关键码；

生成待检索码流的步骤：将待检索页面中的汉字逐一用汉语拼音编码，生成待检索码流；

匹配的步骤：以所述关键码对待检索码流进行匹配，得出匹配结果。

2.如权利要求1所述匹配关键词的方法，其特征在于，生成待检索码流的步骤和匹配的步骤中具体包括：

在将待检索页面中的汉字逐一用汉语拼音编码，生成待检索码流的过程中，以所述关键码实时跟踪匹配；

当匹配到相同的编码时，将当前待检索码流尾部与关键码相匹配的编码对应的文字呈现给用户。

3.如权利要求1所述匹配关键词的方法，其特征在于，生成关键码的步骤中，关键词中的英文字符在编码过程中作为关键码的一部分。

4.如权利要求1或2所述匹配关键词的方法，其特征在于，生成待检索码流的步骤中，待检索页面中的英文字符在编码过程中作为待检索码流的一部分。

5.一种匹配关键词的装置，其特征在于，包括：

第一编码模块，用于将关键词中的汉字逐一用汉语拼音编码，生成关键码；

第二编码模块，用于将待检索页面中的汉字逐一用汉语拼音编码，生成待检索码流；

匹配模块，用于以所述关键码对待检索码流进行匹配，得出匹配结果。

6.如权利要求5所述匹配关键词的装置，其特征在于，第二编码模块在将待检索页面中的汉字逐一用汉语拼音编码，生成待检索码流的过程中，匹配模块以第一编码模块输出的关键码实时跟踪匹配；

匹配模块判定匹配到相同的编码，则将当前待检索码流尾部与关键码相匹配的编码对应的文字呈现给用户。

7.如权利要求5所述匹配关键词的装置，其特征在于，第一编码模块将关键词中的英文字符作为关键码的一部分。

8.如权利要求5或6所述匹配关键词的装置，其特征在于，第二编码模块将待检索页面中的英文字符作为待检索码流的一部分。