CN102081638A - 一种匹配关键词的方法及装置 - Google Patents
一种匹配关键词的方法及装置 Download PDFInfo
- Publication number
- CN102081638A CN102081638A CN2010101049426A CN201010104942A CN102081638A CN 102081638 A CN102081638 A CN 102081638A CN 2010101049426 A CN2010101049426 A CN 2010101049426A CN 201010104942 A CN201010104942 A CN 201010104942A CN 102081638 A CN102081638 A CN 102081638A
- Authority
- CN
- China
- Prior art keywords
- retrieved
- keyword
- key
- code stream
- coding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
本发明公开了一种匹配关键词的方法及装置,涉及计算机及互联网领域,用以解决现有技术不能对汉字和非汉字字符夹杂情况下的关键词进行检索,并且不能检索到目标关键词的近似词汇的问题。方法包括将关键词中的汉字逐一用汉语拼音编码,生成关键码;将待检索页面中的汉字逐一用汉语拼音编码,生成待检索码流;以关键码对待检索码流进行匹配,得出匹配结果。装置包括:第一编码模块,第二编码模块和匹配模块。本发明可对汉字和非汉字字符夹杂情况下的关键词进行检索,并且可检索到目标关键词的近似词汇。
Description
技术领域
本发明涉及计算机及互联网领域,特别是涉及一种匹配关键词的方法及装置。
背景技术
在检查互联网信息或文本文件的过程中,通常要分析页面内容。现有的做法是搜索页面中包含的一个或多个关键字。即用关键词对页面内容进行匹配,以寻找关键词在页面中的位置。
但是,关键词是作为一个整体参与匹配的,例如:“互联网”,这种技术不能对汉字和非汉字字符夹杂情况下的关键词进行检索,并且不能检索到目标关键词的近似词汇。
发明内容
本发明提供了一种匹配关键词的方法及装置,用以解决现有技术不能对汉字和非汉字字符夹杂情况下的关键词进行检索,并且不能检索到目标关键词的近似词汇的问题。
本发明的匹配关键词的方法,包括下列步骤:生成关键码的步骤:将关键词中的汉字逐一用汉语拼音编码,生成关键码;生成待检索码流的步骤:将待检索页面中的汉字逐一用汉语拼音编码,生成待检索码流;匹配的步骤:以关键码对待检索码流进行匹配,得出匹配结果。
本发明的匹配关键词的装置,包括:第一编码模块,用于将关键词中的汉字逐一用汉语拼音编码,生成关键码;第二编码模块,用于将待检索页面中的汉字逐一用汉语拼音编码,生成待检索码流;匹配模块,用于以所述关键码对 待检索码流进行匹配,得出匹配结果。
本发明有益效果如下:
本发明可对汉字和非汉字字符夹杂情况下的关键词进行检索,并且可检索到目标关键词的近似词汇。
附图说明
图1为本发明实施例中的方法步骤流程图;
图2为本发明实施例中的装置结构示意图。
具体实施方式
为了完善现有关键词检索技术不能对汉字和非汉字字符夹杂情况下的关键词进行检索的缺陷,以及不能检索到目标关键词的近似词汇的缺陷,本发明提出了一种匹配关键词的方法及装置,以下通过若干实施例具体说明。
参见图1所示,本发明实施例中的方法包括下列主要步骤:
S1、将关键词中的汉字逐一用汉语拼音编码,生成关键码。
S2、将待检索页面中的汉字逐一用汉语拼音编码,生成待检索码流。
S3、以关键码对待检索码流进行匹配,得出匹配结果。
更为具体的在步骤S1和S2中,关键词中若包含英文字符,则在编码过程中该英文字符作为关键码的一部分予以保留,并且其在关键码中的位置与在原关键词中的位置相同。待检索页面中若包含英文字符,则在编码过程中该英文字符同理作为待检索码流的一部分予以保留,并且其在待检索码流中的位置与在原待检索页面中的位置相同。
更为具体的在步骤S2和S3中,对待检索页面内容的编码和关键字的关键码匹配是同时进行的。即在将待检索页面中的汉字逐一用汉语拼音编码,生成待检索码流的过程中,以关键码实时跟踪匹配,当匹配到相同的编码时,将当前待检索码流尾部与关键码相匹配的编码对应的文字呈现给用户。具体流程为 在生成关键码后,按顺序从待检索页面中获取一个字符,该字符可为汉字也可为英文字符,若为汉字,则对该汉字用汉语拼音编码,得到一串英文字符,若为英文字符,则直接将其作为待检索码流的一部分。在得到当前字符的编码后,实时与关键码进行匹配,若关键词为一个字,则可能完整匹配,若关键词为多个字或是中英夹杂,则可能按照关键码从左到右的顺序匹配到关键码的片段,之后在下一字符编码后,继续进行匹配操作,若经过若干个字符编码后,可得到连续的关键码片段并可组成完整的关键码,则判定匹配到一个关键码;之后可将待检索页面中对应的文字实时以高亮方式或其它方式呈现给用户。如此循环,直至将待检索页面的内容全部匹配完毕。
在具体实现中,例如:关键词为“互联网Internet”。待检索页面中的文字内容为“随着时代的发展,互联网Internet已成为人们生活中必不可少的元素”。
对关键词用汉语拼音编码后得到的关键码为“hulianwangInternet”。之后按顺序从待检索页面中逐一获取字符,在得到当前字符的编码后,实时与关键码进行匹配。直至获取当前字符“互”,对其编码后得到“hu”,实时与关键码“hulianwangInternet”进行匹配,则可按照关键码从左到右的顺序匹配到关键码的片段“hu”,之后在下一字符“联”编码后,继续进行匹配操作,其后获取到英文字符“I”时直接将其作为待检索码流的一部分,并进行匹配操作。经过对待检索页面中的文字“互联网Internet”编码和实时匹配后,可匹配到连续的关键码片段并可组成完整的关键码,这时判定匹配到一个关键码。之后可将待检索页面中的文字“互联网Internet”实时以高亮方式或其它方式呈现给用户。如此循环,直至将待检索页面的内容全部匹配完毕。
参见图2所示,本实施中的匹配关键词的装置,包括:第一编码模块、第二编码模块和匹配模块。
其中,第一编码模块,用于将关键词中的汉字逐一用汉语拼音编码,生成关键码。关键词中若包含英文字符,则在编码过程中该英文字符作为关键码的一部分予以保留,并且其在关键码中的位置与在原关键词中的位置相同。
第二编码模块,用于将待检索页面中的汉字逐一用汉语拼音编码,生成待检索码流。待检索页面中若包含英文字符,则在编码过程中该英文字符同理作为待检索码流的一部分予以保留,并且其在待检索码流中的位置与在原待检索页面中的位置相同。
匹配模块,用于以关键码对待检索码流进行匹配,得出匹配结果。
更为具体的,第二编码模块对待检索页面内容的编码和匹配模块的匹配操作是同时进行的。即第二编码模块在将待检索页面中的汉字逐一用汉语拼音编码,生成待检索码流的过程中,匹配模块以第一编码模块输出的关键码实时跟踪匹配,当匹配到相同的编码时,将当前待检索码流尾部与关键码相匹配的编码对应的文字呈现给用户。具体流程为在第一编码模块生成关键码后,第二编码模块按顺序从待检索页面中获取一个字符,该字符可为汉字也可为英文字符,若为汉字,则对该汉字用汉语拼音编码,得到一串英文字符,若为英文字符,则直接将其作为待检索码流的一部分。在得到当前字符的编码后,匹配模块实时与关键码进行匹配,若关键词为一个字,则可能完整匹配,若关键词为多个字或是中英夹杂,则可能按照关键码从左到右的顺序匹配到关键码的片段,之后第二编码模块在对下一字符编码后,匹配模块继续进行匹配操作,若经过若干个字符编码后,可得到连续的关键码片段并可组成完整的关键码,则匹配模块判定匹配到一个关键码;之后可将待检索页面中对应的文字实时以高亮方式或其它方式呈现给用户。如此循环,直至将待检索页面的内容全部匹配完毕。
可见,本发明实施例可实现汉字和非汉字字符夹杂情况下的关键词检索。
并且,由于本发明实施例中采用了将汉字用汉语拼音编码的技术,所以关键词及与其同音词汇的编码是相同的,进而可匹配到与关键词同音的词汇,扩大了检索结果的范围。如果用户输入的关键词不是正确的关键词,但是是同音词汇,则利用本发明实施例同样可得到用户想要的匹配结果,例如:用户输入的关键词为“互连网”,则基于上述实例可匹配到“互联网”,而不会像现有技 术那样检索不到任何结果,因此本发明实施例可给用户带来更好的用户感受。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (8)
1.一种匹配关键词的方法,其特征在于,包括下列步骤:
生成关键码的步骤:将关键词中的汉字逐一用汉语拼音编码,生成关键码;
生成待检索码流的步骤:将待检索页面中的汉字逐一用汉语拼音编码,生成待检索码流;
匹配的步骤:以所述关键码对待检索码流进行匹配,得出匹配结果。
2.如权利要求1所述匹配关键词的方法,其特征在于,生成待检索码流的步骤和匹配的步骤中具体包括:
在将待检索页面中的汉字逐一用汉语拼音编码,生成待检索码流的过程中,以所述关键码实时跟踪匹配;
当匹配到相同的编码时,将当前待检索码流尾部与关键码相匹配的编码对应的文字呈现给用户。
3.如权利要求1所述匹配关键词的方法,其特征在于,生成关键码的步骤中,关键词中的英文字符在编码过程中作为关键码的一部分。
4.如权利要求1或2所述匹配关键词的方法,其特征在于,生成待检索码流的步骤中,待检索页面中的英文字符在编码过程中作为待检索码流的一部分。
5.一种匹配关键词的装置,其特征在于,包括:
第一编码模块,用于将关键词中的汉字逐一用汉语拼音编码,生成关键码;
第二编码模块,用于将待检索页面中的汉字逐一用汉语拼音编码,生成待检索码流;
匹配模块,用于以所述关键码对待检索码流进行匹配,得出匹配结果。
6.如权利要求5所述匹配关键词的装置,其特征在于,第二编码模块在将待检索页面中的汉字逐一用汉语拼音编码,生成待检索码流的过程中,匹配模块以第一编码模块输出的关键码实时跟踪匹配;
匹配模块判定匹配到相同的编码,则将当前待检索码流尾部与关键码相匹 配的编码对应的文字呈现给用户。
7.如权利要求5所述匹配关键词的装置,其特征在于,第一编码模块将关键词中的英文字符作为关键码的一部分。
8.如权利要求5或6所述匹配关键词的装置,其特征在于,第二编码模块将待检索页面中的英文字符作为待检索码流的一部分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010101049426A CN102081638A (zh) | 2010-01-29 | 2010-01-29 | 一种匹配关键词的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2010101049426A CN102081638A (zh) | 2010-01-29 | 2010-01-29 | 一种匹配关键词的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102081638A true CN102081638A (zh) | 2011-06-01 |
Family
ID=44087603
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2010101049426A Pending CN102081638A (zh) | 2010-01-29 | 2010-01-29 | 一种匹配关键词的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102081638A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108491324A (zh) * | 2018-03-12 | 2018-09-04 | 威创集团股份有限公司 | 一种软件中的目标词汇搜索方法及装置 |
CN109002423A (zh) * | 2017-06-06 | 2018-12-14 | 北大方正集团有限公司 | 文本搜索方法及装置 |
CN110444199A (zh) * | 2017-05-27 | 2019-11-12 | 腾讯科技(深圳)有限公司 | 一种语音关键词识别方法、装置、终端及服务器 |
-
2010
- 2010-01-29 CN CN2010101049426A patent/CN102081638A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110444199A (zh) * | 2017-05-27 | 2019-11-12 | 腾讯科技(深圳)有限公司 | 一种语音关键词识别方法、装置、终端及服务器 |
CN110444199B (zh) * | 2017-05-27 | 2022-01-07 | 腾讯科技(深圳)有限公司 | 一种语音关键词识别方法、装置、终端及服务器 |
CN109002423A (zh) * | 2017-06-06 | 2018-12-14 | 北大方正集团有限公司 | 文本搜索方法及装置 |
CN108491324A (zh) * | 2018-03-12 | 2018-09-04 | 威创集团股份有限公司 | 一种软件中的目标词汇搜索方法及装置 |
CN108491324B (zh) * | 2018-03-12 | 2022-03-22 | 威创集团股份有限公司 | 一种软件中的目标词汇搜索方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cheng et al. | Relational inference for wikification | |
Zhong et al. | It makes sense: A wide-coverage word sense disambiguation system for free text | |
CN102915299B (zh) | 一种分词方法及装置 | |
CN102455845B (zh) | 一种文字输入方法和装置 | |
CN102662935A (zh) | 一种交互式的机器翻译方法和机器翻译系统 | |
CN111814465A (zh) | 基于机器学习的信息抽取方法、装置、计算机设备及介质 | |
Tschannen et al. | Clippo: Image-and-language understanding from pixels only | |
CN111460797A (zh) | 关键字抽取方法、装置、电子设备及可读存储介质 | |
Kumar et al. | FST based morphological analyzer for Hindi language | |
AU2012201539B2 (en) | Systems and methods for processing documents of unknown or unspecified format | |
Ju et al. | Leveraging information bottleneck for scientific document summarization | |
CN102081638A (zh) | 一种匹配关键词的方法及装置 | |
Aduragba et al. | Sentence contextual encoder with BERT and BiLSTM for automatic classification with imbalanced medication tweets | |
CN102135957A (zh) | 一种翻译短句的方法及装置 | |
Vikram et al. | Development of Prototype Morphological Analyzer for he South Indian Language of Kannada | |
Kim et al. | Extracting clinical relations in electronic health records using enriched parse trees | |
CN101520775A (zh) | 一种融入语义信息的中文句法分析方法 | |
US20130179147A1 (en) | Methods and systems for tokenizing multilingual textual documents | |
Zhu et al. | INTERS: Unlocking the Power of Large Language Models in Search with Instruction Tuning | |
Çetinoğlu et al. | Towards joint morphological analysis and dependency parsing of turkish | |
CN105718441A (zh) | 一种查找不同平台间功能相似ui组件的方法和装置 | |
CN102982029B (zh) | 一种搜索需求识别方法及装置 | |
Brierley et al. | Tools for Arabic Natural Language Processing: a case study in qalqalah prosody | |
Vu et al. | Alpaca: Advanced linguistic pattern and concept analysis framework for software engineering corpora | |
Chang et al. | Is it possible to use chatbot for the Chinese word segmentation? |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
DD01 | Delivery of document by public notice |
Addressee: Wu Bingtang Document name: Notification to Make Rectification |
|
C06 | Publication | ||
PB01 | Publication | ||
DD01 | Delivery of document by public notice |
Addressee: Wu Bingtang Document name: Notification of Passing Examination on Formalities |
|
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20110601 |