CN107145571B - 一种搜索方法及装置 - Google Patents
一种搜索方法及装置 Download PDFInfo
- Publication number
- CN107145571B CN107145571B CN201710312657.5A CN201710312657A CN107145571B CN 107145571 B CN107145571 B CN 107145571B CN 201710312657 A CN201710312657 A CN 201710312657A CN 107145571 B CN107145571 B CN 107145571B
- Authority
- CN
- China
- Prior art keywords
- word
- words
- word segmentation
- matching
- searched
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000011218 segmentation Effects 0.000 claims abstract description 105
- 238000012545 processing Methods 0.000 claims abstract description 42
- 230000010365 information processing Effects 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 13
- 230000008569 process Effects 0.000 description 13
- 238000012015 optical character recognition Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 241000721047 Danaus plexippus Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明适用于信息处理技术领域,提供了一种搜索方法及装置,包括:获取待搜索题目的文本信息;对所述文本信息进行分词处理,并获取经分词处理后的全部分词词语;根据各个分词词语的字数,设置每个分词词语对应的字数权重;基于所述分词词语的字数权重,将分词词语与题库中的题目进行匹配,并基于匹配结果推送搜索结果。通过上述方法能够提高题目搜索的准确率。
Description
技术领域
本发明属于信息处理技术领域,尤其涉及一种搜索方法及装置。
背景技术
随着互联网时代浪潮到来,教育行业也慢慢在开始被颠覆,在线教育产品也随着这个趋势井喷式的爆发出来,在这些产品之中最为突出的产品类型当属题库类和拍照答疑类,为了解决现在学生们作业多,作业中遇到难题等问题,智能终端类产品出现了许多题库类和拍照答疑类的产品解决学生作业难题,如小猿搜题、学霸君、作业帮等等,用户在这类产品上能够搜索到他们想要的题目及其答案解析。然而,当由于目前图像识别技术受限,使用传统方法的拍照答疑类产品拍出来的照片经过图像识别后,对于识别出来的生僻汉字文本,程序无法进行有效处理,而这部份生僻字文本的存在可能使得查找出来的题目与学生们拍照上传的题目不符,影响搜索匹配结果,导致题目搜索匹配的准确率不高。
发明内容
有鉴于此,本发明实施例提供了一种搜索方法及装置,以解决现有技术中对识别出来的生僻汉字文本无法进行有效处理,从而导致题目搜索匹配的准确率不高的问题。
本发明实施例是这样实现的,一种搜索方法,所述搜索方法包括:
获取待搜索题目的文本信息;
对所述文本信息进行分词处理,并获取经分词处理后的全部分词词语;
根据各个分词词语的字数,设置每个分词词语对应的字数权重;
基于所述分词词语的字数权重,将分词词语与题库中的题目进行匹配,并基于匹配结果推送搜索结果。
本发明实施例的另一目的在于提供一种搜索装置,所述搜索装置包括:
信息获取单元,用于获取待搜索题目的文本信息;
分词处理单元,用于对所述文本信息进行分词处理,并获取经分词处理后的全部分词词语;
字数权重设置单元,用于根据各个分词词语的字数,设置每个分词词语对应的字数权重;
匹配推送单元,用于基于所述分词词语的字数权重,将分词词语与题库中的题目进行匹配,并基于匹配结果推送搜索结果。
本发明实施例与现有技术相比存在的有益效果是:本发明实施例通过获取待搜索题目的文本信息,对所述文本信息进行分词处理,并获取经分词处理后的全部分词词语,根据各个分词词语的字数,设置每个分词词语对应的字数权重,基于所述分词词语的字数权重,将分词词语与题库中的题目进行匹配,并基于匹配结果推送搜索结果,由于生僻字单字居多,较难与其他字组成多字词语,,因此,按分词词语的字数对应的第一预设权重设置每个分词词语的权重,降低了生僻字在匹配过程中的影响,从而可提高题目搜索的准确率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种搜索方法的实现流程图;
图2是本发明实施例提供的另一种搜索方法的实现流程图;
图3是本发明实施例提供的一种搜索装置的结构框图;
图4为本发明实施例提供的一种智能终端的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
实施例一:
图1示出了本发明第一实施例提供的一种搜索方法的实现流程图,详述如下:
步骤S101,获取待搜索题目的文本信息。
其中,待搜索题目的文本信息可以是用户输入的文本信息,也可以是待搜索题目的图像经转化后生成的文本信息。
可选地,为获取待搜索题目的文本信息,所述步骤S101具体包括:
A1、获取待搜索题目的图像。
A2、对所述待搜索题目的图像进行图像识别,生成文本信息。
具体地,用户可通过智能终端的摄像头拍摄待搜索题目,获取待搜索题目的图像,并对该图像进行光学字符识别(OpticalCharacterRecognition,OCR)(本地OCR),以将图像上待搜索题目信息识别为文本信息。其中,OCR是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。由于通过本地OCR识别抓取的数据,因此,能够提高数据的识别速度。用户通过拍摄并上传待搜索题目的图像即可进行搜索,无需用户手动输入待搜索题目,提高了搜索效率,同时提高了用户体验。
经过图像识别生成文本信息时,可能会产生大量的乱码、错误字符,导致搜索该文本信息查找出来的题目与用户拍摄上传的待搜索题目不符,因此,可选地,所述步骤A2之后还包括:
A3、若检测到所述文本中存在乱码或错误字符,则删除所述文本信息中的乱码或错误字符。其中,所述错误字符是指无法识别的字符。
在本发明实施例中,对生成的文本信息进行预处理,将所述文本信息中的乱码以及错误删除,从而提高待搜索题目的文本信息的准确性。
步骤S102,对所述文本信息进行分词处理,并获取经分词处理后的全部分词词语。
其中,可采用现有的分词技术对所述文本信息进行分词处理,例如,中文分词法。中文分词方法包括基于字符串匹配的分词方法、基于统计的分词方法。基于字符串的分词方法主要依据词典的信息,按照一定的策略将待切分的汉字串与词典中的词条逐一匹配,若在词典中找到该词条,则匹配成功,否则做其它相应的处理。基于统计的分词方法通过对语料中相邻共现的各个字的组合频度进行统计,计算它们的互现信息,互现信息体现了汉字之间结合关系的紧密程度,当紧密程度高于某一个阈值时,可判定该字组构成一个词。基于统计的分词方法的优点是不受待处理文本领域的限制,不需要专门的词典。进一步地,本发明实施例中,可使用IK分词器进行分词处理。
可选地,基于最小粒度的文本数据对所述文本信息进行分词处理。具体地,分词粒度可选择粗粒度或细粒度,本发明实施例中基于最小粒度的文本数据对所述文本信息进行分词处理。
步骤S103,根据各个分词词语的字数,设置每个分词词语对应的字数权重。
具体地,本发明实施例中,根据经分词处理后的每个分词词语的字数来分别设置每个分词词语的权重,分词词语的字数与权重成正比例关系。可选地,当分词词语的字数小于或等于指定字数时,所述分词词语的字数与权重成正比例关系,即分词词语的字数越少,对应的权重越小,分词词语的字数越多,对应的权重越大。当分词词语的字数大于指定字数时,所述分词词语的权重对应固定权重。例如,当分词词语为1个字时,该分词词语的权重为0.1,当分词词语为2个字时,该分词词语的字数为0.2,当分词词语为3个字时,该分词词语的权重为0.3,当分词词语的字数大于3时,该分词词语的权重为0.5。
在本发明实施例中,由于生僻字很难与其他字组成词语,经过分词处理后,字数少的分词词语存在生僻字的可能更大,因此,根据分词词语的字数设置该分词词语的权重,从而降低生僻字在搜索匹配过程中对搜索结果的影响。
可选地,为提高搜索效率,所述步骤S103包括:
B1、将字数少于或等于预设字数的分词词语删除。
具体地,生僻字为单字的可能性很大,通过直接将字数少于或等于1的分词词语删除,降低生僻字在搜索匹配过程中对搜索结果的影响,并提高搜索匹配的效率。
步骤S104,基于所述分词词语的字数权重,将分词词语与题库中的题目进行匹配,并基于匹配结果推送搜索结果。
其中,题库可以为智能终端的本地题库,也可以为云端题库。可选地,为了提高搜索的全面性以及准确的,本发明实施例中采用云端题库。可选地,为提高搜索推送结果的准确性,所述步骤S104具体包括:
C1、基于所述分词词语的字数权重,计算所述分词词语与题库中的题目匹配的相似度。
C2、将匹配结果按所述相似度从高到低进行排序。
C3、基于排序后的匹配结果推送搜索结果。
具体地,在本发明实施例中,在计算分词词语与题库中的题目匹配的相似度时,结合考虑分词词语的字数权重,根据字数权重计算分词词语在文本信息中的重要程度。一般地,分词词语的字数越少,字数权重越小,该分词词语在该文本信息中的重要程度越低。将相似度参考字数权重后的匹配结果按相似度从高到低排序,根据排序后的匹配结果推送搜索结果。
本发明第一实施例中,通过获取待搜索题目的文本信息,对所述文本信息进行分词处理,并获取经分词处理后的全部分词词语,根据各个分词词语的字数,设置每个分词词语对应的字数权重,基于所述分词词语的权重,将分词词语与题库中的题目进行匹配,并基于匹配结果推送搜索结果,由于生僻字单字居多,较难与其他字组成多字词语,因此,按分词词语的字数对应的第一预设权重设置每个分词词语的权重,降低了生僻字在匹配过程中的影响,从而可提高题目搜索的准确率。同时,还可以将字数少于或等于预设字数的分词词语删除,减少匹配的时间,提高搜索效率。
实施例二:
图2示出了本发明第一实施例提供的一种协议解析方法的实现流程图,详述如下:
步骤S201,获取待搜索题目的文本信息。
步骤S202,对所述文本信息进行分词处理,并获取经分词处理后的全部分词词语。
步骤S203,根据各个分词词语的字数,设置每个分词词语对应的字数权重。
本实施例中,步骤S201至步骤S203的具体步骤参见实施例一步骤S101至步骤S103,在此不再赘述。
步骤S204,基于待搜索题目的文本信息,获取待搜索题目所属的学科。
步骤S205,根据所述学科设置预设字词或符号对应的学科权重。
具体地,在不同学科中,某些特定字词、特殊符号所表达含义、在题目中的重要程度可能不同,因此,预先设置预设字词或符号的在不同学科的学科权重,当所述分词词语为预设字词或符号时,根据学科设置所述预设字词或符号的对应的学科权重。
步骤S206,基于所述分词词语的字数权重与学科权重,将分词词语与题库中的题目进行匹配,并基于匹配结果推送搜索结果。
在本发明实施例中,所述步骤S206具体包括:
D1、基于所述分词词语的字数权重与学科权重,计算所述分词词语与题库中的题目匹配的相似度。
D2、将匹配结果按所述相似度从高到低进行排序。
D3、基于排序后的匹配结果推送搜索结果。
具体地,在本发明实施例中,在计算分词词语与题库中的题目匹配的相似度时,结合考虑分词词语的字数权重,当分词词语中存在预设字词或特殊字符时,则同时结合考虑学科权重。首先,根据字数权重计算分词词语在文本信息中的重要程度。一般地,分词词语的字数越少,字数权重越小,该分词词语在该文本信息中的重要程度越低,但是,若该分词词语为预设字词或特殊字符时,则再根据该分词词语的学科权重计算该分词词语在该文本信息中的重要程度。例如,数字和算术符号在数学学科中的重要程度比在语文学科中的重要程度高。将相似度参考字数权重和学科权重后的匹配结果按相似度从高到低排序,根据排序后的匹配结果推送搜索结果。
本发明第二实施例中,通过获取待搜索题目的文本信息,对所述文本信息进行分词处理,并获取经分词处理后的全部分词词语,根据各个分词词语的字数,设置每个分词词语对应的字数权重,基于至少一个分词词语的语义信息,获取待搜索题目所属的学科,根据所述学科设置预设字词或符号对应的学科权重,基于所述分词词语的字数权重与学科权重,将分词词语与题库中的题目进行匹配,并基于匹配结果推送搜索结果,由于生僻字单字居多,较难与其他字组成多字词语,因此,按分词词语的字数对应的第一预设权重设置每个分词词语的权重,降低了生僻字在匹配过程中的影响,同时考虑不同学科中不同词语含义、重要程度的不同,从而进一步提高题目搜索的准确率。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
实施例三:
对应于上文实施例所述的一种搜索方法,图3示出了本发明实施例提供的装置的结构框图,该搜索装置可应用于智能终端,该智能终端可以包括经无线接入网RAN与一个或多个核心网进行通信的用户设备,该用户设备可以是移动电话(或称为“蜂窝”电话)、具有移动设备的计算机等,例如,用户设备还可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置,它们与无线接入网交换语音和/或数据。又例如,该移动设备可以包括智能手机、平板电脑、个人数字助理PDA或车载电脑等。为了便于说明,仅示出了与本发明实施例相关的部分。
参照图3,该搜索装置包括:其中:信息获取单元31,分词处理单元32,字数权重设置单元33,匹配推送单元34,其中,
信息获取单元31,用于获取待搜索题目的文本信息;
分词处理单元32,用于对所述文本信息进行分词处理,并获取经分词处理后的全部分词词语;
字数权重设置单元33,用于根据各个分词词语的字数,设置每个分词词语对应的字数权重;
匹配推送单元34,用于基于所述分词词语的字数权重,将分词词语与题库中的题目进行匹配,并基于匹配结果推送搜索结果。
可选地,为获取待搜索题目的文本信息,所述信息获取单元31包括:
图像获取模块,用于获取待搜索题目的图像;
信息生成模块,用于对所述待搜索题目的图像进行图像识别,生成文本信息。
可选地,所述信息获取单元31还包括:
乱码删除模块,用于若检测到所述文本中存在乱码或错误字符,则删除所述文本信息中的乱码或错误字符。其中,所述错误字符是指无法识别的字符。
可选地,为提高搜索效率,所述权重设置单元33包括:
删除模块,用于将字数少于或等于预设字数的分词词语删除。
可选地,所述搜索装置还包括:
学科获取单元,用于基于待搜索题目的文本信息,获取待搜索题目所属的学科;
学科权重设置单元,用于根据所述学科设置预设字词或符号对应的学科权重;
所述匹配推送单元34,还用于基于所述分词词语的字数权重和学科权重,将分词词语与题库中的题目进行匹配,并基于匹配结果推送搜索结果。
可选地,所述匹配推送单元34包括:
匹配模块,用于基于所述分词词语的字数权重,计算所述分词词语与题库中的题目匹配的相似度;
排序模块,用于将匹配结果按所述相似度从高到低进行排序;
推送模块,用于基于排序后的匹配结果推送搜索结果。
可选地,所述匹配模块,还用于基于所述分词词语的字数权重与学科权重,计算所述分词词语与题库中的题目匹配的相似度。
本发明第三实施例中,本发明实施例通过获取待搜索题目的文本信息,对所述文本信息进行分词处理,并获取经分词处理后的全部分词词语,根据各个分词词语的字数,设置每个分词词语对应的字数权重,基于所述分词词语的权重,将分词词语与题库中的题目进行匹配,并基于匹配结果推送搜索结果,由于生僻字一般为单字,因此,按分词词语的字数对应的第一预设权重设置每个分词词语的权重,降低了生僻字在匹配过程中的影响,从而可提高题目搜索的准确率。
实施例四:
本发明实施例还提供一种智能终端,下面对本发明实施例中的智能终端进行描述,请参阅图4,本发明实施例中的智能终端400包括:一个或一个以上计算机可读存储介质的存储器401、输入单元402、显示单元403、一个或者一个以上处理核心的处理器404、以及电源405等部件。本领域技术人员可以理解,图4中示出的智能终端结构并不构成对智能终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
存储器401可用于存储软件程序以及模块,处理器404通过运行存储在存储器401的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器401可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据智能终端400的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器401可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器401还可以包括存储器控制器,以提供处理器404和输入单元402对存储器401的访问。
输入单元402可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,输入单元402包括触敏表面4021以及其他输入设备4022。触敏表面4021,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面4021上或在触敏表面4021附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面4021可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器404,并能接收处理器404发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面4021。除了触敏表面4021,输入单元402还可以包括其他输入设备4022。具体地,其他输入设备4022可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元403可用于显示由用户输入的信息或提供给用户的信息以及智能终端400的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元403可包括显示面板4031,可选的,可以采用液晶显示器(LCD,LiquidCrystal Display)、有机发光二极管(OLED,Organic Light-Emitting Diode)等形式来配置显示面板4031。进一步的,触敏表面4021可覆盖显示面板4031,当触敏表面4021检测到在其上或附近的触摸操作后,传送给处理器404以确定触摸事件的类型,随后处理器404根据触摸事件的类型在显示面板4031上提供相应的视觉输出。虽然在图4中,触敏表面4021与显示面板4031是作为两个独立的部件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面4021与显示面板4031集成而实现输入和输出功能。
处理器404是智能终端400的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器401内的软件程序和/或模块,以及调用存储在存储器401内的数据,执行智能终端400的各种功能和处理数据,从而对智能终端400进行整体监控。可选的,处理器404可包括一个或多个处理核心;优选的,处理器404可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器404中。
智能终端400还包括给各个部件供电的电源405(比如电池),优选的,电源可以通过电源管理系统与处理器404逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源405还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
尽管未示出,智能终端400还可以包括RF(Radio Frequency,射频)电路、传感器、音频电路、无线保真(WiFi,wireless fidelity)模块、摄像头、蓝牙模块等,在此不再赘述。具体在本实施例中,智能终端400还包括一个或者一个以上程序存储于存储器401中,且经配置以由一个或者一个以上处理器404执行述一个或者一个以上程序,其中包含用于执行以下操作的指令:
获取待搜索题目的文本信息;
对所述文本信息进行分词处理,并获取经分词处理后的全部分词词语;
根据各个分词词语的字数,设置每个分词词语对应的字数权重;
基于所述分词词语的字数权重,将分词词语与题库中的题目进行匹配,并基于匹配结果推送搜索结果。
假设上述为第一种可能的实施方式,则在第一种可能的实施方式作为基础而提供的第二种可能的实施方式中,上述获取待搜索题目的文本信息,包括:
获取待搜索题目的图像;
对所述待搜索题目的图像进行图像识别,生成文本信息。
在上述第一种可能的实施方式作为基础而提供的第三种可能的实施方式中,上述根据各个分词词语的字数,设置每个分词词语对应的字数权重,包括:
将字数少于或等于预设字数的分词词语删除。
在上述第一种可能的实施方式作为基础而提供的第四种可能的实施方式中,在上述根据各个分词词语的字数,设置每个分词词语对应的字数权重之后,还包括:
基于待搜索题目的文本信息,获取待搜索题目所属的学科;
根据所述学科设置预设字词或符号对应的学科权重;
此时,所述基于所述分词词语的字数权重,将分词词语与题库中的题目进行匹配,并基于匹配结果推送搜索结果,包括:
基于所述分词词语的字数权重和学科权重,将分词词语与题库中的题目进行匹配,并基于匹配结果推送搜索结果。
在上述第一种可能的实施方式或者上述第二种可能的实施方式或者上述第三种可能的实施方式或者上述第四种可能的实施方式作为基础而提供的第五种可能的实施方式中,上述基于所述分词词语的字数权重,将分词词语与题库中的题目进行匹配,并基于匹配结果推送搜索结果,包括:
基于所述分词词语的字数权重,计算所述分词词语与题库中的题目匹配的相似度;
将匹配结果按所述相似度从高到低进行排序;
基于排序后的匹配结果推送搜索结果。
需要说明的是,上述智能终端具体可以是智能手机、平板电脑、PC、PDA、笔记本或其它能够智能终端,此处不作限定。
上述智能终端中可以如上述方法实施例中的智能终端,可以用于实现上述方法实施例中的全部技术方案,其各个功能模块的功能可以根据上述方法实施例中的方法具体实现,其具体实现过程可参照上述实施例中的相关描述,此处不再赘述。
由上可见,本发明实施例通过获取待搜索题目的文本信息,对所述文本信息进行分词处理,并获取经分词处理后的全部分词词语,根据各个分词词语的字数,设置每个分词词语对应的字数权重,基于所述分词词语的字数权重,将分词词语与题库中的题目进行匹配,并基于匹配结果推送搜索结果,由于生僻字一般为单字,因此,按分词词语的字数对应的第一预设权重设置每个分词词语的权重,降低了生僻字在匹配过程中的影响,从而可提高题目搜索的准确率。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明实施例各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (8)
1.一种搜索方法,其特征在于,所述搜索包括:
获取待搜索题目的文本信息;
对所述文本信息进行分词处理,并获取经分词处理后的全部分词词语;
根据各个分词词语的字数,设置每个分词词语对应的字数权重;
基于所述分词词语的字数权重,将分词词语与题库中的题目进行匹配,并基于匹配结果推送搜索结果,具体地,基于所述分词词语的字数权重,计算所述分词词语与题库中的题目匹配的相似度;将匹配结果按所述相似度从高到低进行排序;基于排序后的匹配结果推送搜索结果。
2.如权利要求1所述的搜索方法,其特征在于,所述获取待搜索题目的文本信息,包括:
获取待搜索题目的图像;
对所述待搜索题目的图像进行图像识别,生成文本信息。
3.如权利要求1所述的搜索方法,其特征在于,所述根据各个分词词语的字数,设置每个分词词语对应的字数权重,包括:
将字数少于或等于预设字数的分词词语删除。
4.如权利要求1所述的搜索方法,其特征在于,在所述根据各个分词词语的字数,设置每个分词词语对应的字数权重之后,还包括:
基于待搜索题目的文本信息,获取待搜索题目所属的学科;
根据所述学科设置预设字词或符号对应的学科权重;
此时,所述基于所述分词词语的字数权重,将分词词语与题库中的题目进行匹配,并基于匹配结果推送搜索结果,包括:
基于所述分词词语的字数权重和学科权重,将分词词语与题库中的题目进行匹配,并基于匹配结果推送搜索结果。
5.一种搜索装置,其特征在于,所述搜索装置包括:
信息获取单元,用于获取待搜索题目的文本信息;
分词处理单元,用于对所述文本信息进行分词处理,并获取经分词处理后的全部分词词语;
字数权重设置单元,用于根据各个分词词语的字数,设置每个分词词语对应的字数权重;
匹配推送单元,用于基于所述分词词语的字数权重,将分词词语与题库中的题目进行匹配,并基于匹配结果推送搜索结果;所述匹配推送单元包括:
匹配模块,用于基于所述分词词语的字数权重,计算所述分词词语与题库中的题目匹配的相似度;
排序模块,用于将匹配结果按所述相似度从高到低进行排序;
推送模块,用于基于排序后的匹配结果推送搜索结果。
6.如权利要求5所述的搜索装置,其特征在于,所述信息获取单元包括:
图像获取模块,用于获取待搜索题目的图像;
信息生成模块,用于对所述待搜索题目的图像进行图像识别,生成文本信息。
7.如权利要求5所述的搜索装置,其特征在于,所述权重设置单元包括:
删除模块,用于将字数少于或等于预设字数的分词词语删除。
8.如权利要求5所述的搜索装置,其特征在于,所述搜索装置还包括:
学科获取单元,用于基于待搜索题目的文本信息,获取待搜索题目所属的学科;
学科权重设置单元,用于根据所述学科设置预设字词或符号对应的学科权重;
此时,所述匹配推送单元,还用于基于所述分词词语的字数权重和学科权重,将分词词语与题库中的题目进行匹配,并基于匹配结果推送搜索结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710312657.5A CN107145571B (zh) | 2017-05-05 | 2017-05-05 | 一种搜索方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710312657.5A CN107145571B (zh) | 2017-05-05 | 2017-05-05 | 一种搜索方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107145571A CN107145571A (zh) | 2017-09-08 |
CN107145571B true CN107145571B (zh) | 2020-02-14 |
Family
ID=59776772
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710312657.5A Active CN107145571B (zh) | 2017-05-05 | 2017-05-05 | 一种搜索方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107145571B (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107578659A (zh) * | 2017-09-27 | 2018-01-12 | 广东小天才科技有限公司 | 电子题目的生成方法、生成装置及终端 |
CN108536869A (zh) * | 2018-04-25 | 2018-09-14 | 努比亚技术有限公司 | 一种搜索分词的方法、装置及计算机可读存储介质 |
CN108985289A (zh) * | 2018-07-18 | 2018-12-11 | 百度在线网络技术(北京)有限公司 | 乱码检测方法及装置 |
CN109614552A (zh) * | 2018-12-17 | 2019-04-12 | 广东小天才科技有限公司 | 一种引导式搜索方法及引导式搜索系统 |
CN111079487A (zh) * | 2019-05-22 | 2020-04-28 | 广东小天才科技有限公司 | 一种听写内容的获取方法及电子设备 |
CN110210034B (zh) * | 2019-05-31 | 2024-05-14 | 腾讯科技(深圳)有限公司 | 信息查询方法、装置、终端及存储介质 |
CN110347795A (zh) * | 2019-07-05 | 2019-10-18 | 腾讯科技(深圳)有限公司 | 搜索文本与库文件的相关度计算方法、装置、设备及介质 |
CN110413738A (zh) * | 2019-07-31 | 2019-11-05 | 腾讯科技(深圳)有限公司 | 一种信息处理方法、装置、服务器及存储介质 |
CN110532561B (zh) * | 2019-08-30 | 2022-12-09 | 北京明略软件系统有限公司 | 数据检测方法及装置、存储介质、电子装置 |
CN110941777A (zh) * | 2019-11-29 | 2020-03-31 | 武汉虹旭信息技术有限责任公司 | Web应用的导航方法及装置 |
CN111552777B (zh) * | 2020-04-24 | 2023-09-26 | 北京达佳互联信息技术有限公司 | 一种音频识别方法、装置、电子设备及存储介质 |
CN113392196B (zh) * | 2021-06-04 | 2023-04-21 | 北京师范大学 | 一种基于多模态交叉比较的题目检索方法和系统 |
CN114357116A (zh) * | 2022-01-10 | 2022-04-15 | 北京高途云集教育科技有限公司 | 一种题搜索方法、装置、设备以及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101158971A (zh) * | 2007-11-15 | 2008-04-09 | 深圳市迅雷网络技术有限公司 | 一种基于搜索引擎的搜索结果排序方法及装置 |
CN101315623A (zh) * | 2007-05-29 | 2008-12-03 | 阿里巴巴集团控股有限公司 | 一种文本主题推荐方法和装置 |
CN101968808A (zh) * | 2010-10-26 | 2011-02-09 | 北京理工大学 | 一种基于仿真特定领域的仿真信息自动排序方法 |
CN102929873A (zh) * | 2011-08-08 | 2013-02-13 | 腾讯科技(深圳)有限公司 | 一种基于情境搜索提取搜索价值词的方法及装置 |
CN103136300A (zh) * | 2011-12-05 | 2013-06-05 | 北京百度网讯科技有限公司 | 一种文本相关主题的推荐方法和装置 |
CN104219575A (zh) * | 2013-05-29 | 2014-12-17 | 酷盛(天津)科技有限公司 | 相关视频推荐方法及系统 |
-
2017
- 2017-05-05 CN CN201710312657.5A patent/CN107145571B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101315623A (zh) * | 2007-05-29 | 2008-12-03 | 阿里巴巴集团控股有限公司 | 一种文本主题推荐方法和装置 |
CN101158971A (zh) * | 2007-11-15 | 2008-04-09 | 深圳市迅雷网络技术有限公司 | 一种基于搜索引擎的搜索结果排序方法及装置 |
CN101968808A (zh) * | 2010-10-26 | 2011-02-09 | 北京理工大学 | 一种基于仿真特定领域的仿真信息自动排序方法 |
CN102929873A (zh) * | 2011-08-08 | 2013-02-13 | 腾讯科技(深圳)有限公司 | 一种基于情境搜索提取搜索价值词的方法及装置 |
CN103136300A (zh) * | 2011-12-05 | 2013-06-05 | 北京百度网讯科技有限公司 | 一种文本相关主题的推荐方法和装置 |
CN104219575A (zh) * | 2013-05-29 | 2014-12-17 | 酷盛(天津)科技有限公司 | 相关视频推荐方法及系统 |
Non-Patent Citations (1)
Title |
---|
一种面向主题的关键词查询扩展方法;王力 等;《计算机应用与软件》;20111231;第28卷(第12期);第29-32页 * |
Also Published As
Publication number | Publication date |
---|---|
CN107145571A (zh) | 2017-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107145571B (zh) | 一种搜索方法及装置 | |
CN107943860B (zh) | 模型的训练方法、文本意图的识别方法及装置 | |
CN107436691B (zh) | 一种输入法进行纠错的方法、客户端、服务器及装置 | |
CN110020422A (zh) | 特征词的确定方法、装置和服务器 | |
WO2008145055A1 (fr) | Procédé pour obtenir une information de mot de restriction et pour optimiser le système du procédé d'entrée et de sortie | |
CN106325488B (zh) | 一种输入方法、输入装置、服务器和输入系统 | |
US11409374B2 (en) | Method and device for input prediction | |
CN112395385A (zh) | 基于人工智能的文本生成方法、装置、计算机设备及介质 | |
CN110069769B (zh) | 应用标签生成方法、装置及存储设备 | |
CN107305438A (zh) | 候选项的排序方法和装置、用于候选项排序的装置 | |
WO2012088772A1 (zh) | 一种手持设备高效联系人查找方法 | |
CN108803890A (zh) | 一种输入方法、输入装置和用于输入的装置 | |
CN112199588A (zh) | 舆情文本筛选方法及装置 | |
CN104281275B (zh) | 一种英文的输入方法和装置 | |
CN107797676B (zh) | 一种单字输入方法及装置 | |
WO2022105754A1 (zh) | 输入文字的方法、装置和电子设备 | |
CN111400439A (zh) | 网络不良数据监控方法、装置及存储介质 | |
CN114253866A (zh) | 恶意代码检测的方法、装置、计算机设备及可读存储介质 | |
CN114428842A (zh) | 一种扩充问答库的方法、装置、电子设备及可读存储介质 | |
CN112684910A (zh) | 输入法候选词显示方法、装置及电子设备 | |
CN111553163A (zh) | 文本相关度的确定方法、装置、存储介质及电子设备 | |
CN116955610A (zh) | 一种文本数据的处理方法、装置以及存储介质 | |
CN112084780B (zh) | 自然语言处理中共指消解方法、装置、设备及介质 | |
CN112435671B (zh) | 汉语精准识别的智能化语音控制方法及系统 | |
CN110263347B (zh) | 一种同义词的构建方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20230830 Address after: 523860 No. 168 Dongmen Middle Road, Xiaobian Community, Chang'an Town, Dongguan City, Guangdong Province Patentee after: Guangdong GENIUS Technology Co., Ltd. Address before: Room 101, 1st Floor, Office Building A, No. 76 Xingfa Road, Wusha Liwu Industrial Zone, Chang'an Town, Dongguan City, Guangdong Province, 523000 Patentee before: GUANGDONG AIMENG ELECTRONIC TECHNOLOGY CO.,LTD. |