CN112445959A - 检索方法、检索装置、计算机可读介质及电子设备 - Google Patents
检索方法、检索装置、计算机可读介质及电子设备 Download PDFInfo
- Publication number
- CN112445959A CN112445959A CN201910754542.0A CN201910754542A CN112445959A CN 112445959 A CN112445959 A CN 112445959A CN 201910754542 A CN201910754542 A CN 201910754542A CN 112445959 A CN112445959 A CN 112445959A
- Authority
- CN
- China
- Prior art keywords
- retrieval
- word segmentation
- items
- word
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 230000011218 segmentation Effects 0.000 claims abstract description 135
- 238000012545 processing Methods 0.000 claims abstract description 36
- 230000008569 process Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 9
- 238000012216 screening Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 9
- 241000830535 Ligustrum lucidum Species 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000008520 organization Effects 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 4
- 238000001914 filtration Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 241000735234 Ligustrum Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 235000011888 snacks Nutrition 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9532—Query formulation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开实施例提供了一种检索方法、检索装置、计算机可读介质及电子设备,涉及数据处理技术领域。该检索方法包括:获取用户输入的检索语句;对所述检索语句进行分词处理,确定分词结果,所述分词结果中包含多个分词项;将满足预设条件的分词项进行合并,获得关键词;分别确定所述分词项与所述关键词的优先级,基于所述优先级进行检索,以获取检索结果。本公开实施例的技术方案在通过检索语句确定关键词,利用关键词提高检索的精确率。
Description
技术领域
本公开涉及数据处理技术领域,具体而言,涉及一种检索方法、检索装置、计算机可读介质及电子设备。
背景技术
互联网的快速发展使得数据量呈指数增长,从大量的数据中过滤出有用的信息成为了人们关注的焦点。检索作为过滤信息的主要手段被广泛地应用到各个场景,例如检索习题、检索景点等。
在检索信息时检索文本由用户输入,每个用户对同一目标输入的文本也可能不同,例如“如何使冰块融化”、“冰块融化”、“融化冰”等。检索文本中大多包含了很多无意义的词,因此对检索文本进行分词得到的分词项中也包括一些无意义的分词项,在匹配信息时,会分别采用每个分词项匹配信息,进而将匹配到的信息展示给用户,这些无意义的分词项可能会影响检索效果,导致检索的精确率不高。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开实施例的目的在于提供一种检索方法、检索装置、计算机可读介质及电子设备,进而至少在一定程度上克服检索精度低的问题。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开实施例的第一方面,提供了一种检索方法,包括:获取用户输入的检索语句;对所述检索语句进行分词处理,确定分词结果,所述分词结果中包含多个分词项;将满足预设条件的分词项进行合并,获得关键词;分别确定所述分词项与所述关键词的优先级,基于所述优先级进行检索,以获取检索结果。
在本公开的一种示例性实施例中,所述对所述检索语句进行分词处理,确定分词结果,包括:基于分词算法对所述检索语句进行分词处理,确定分词结果。
在本公开的一种示例性实施例中,对所述检索语句进行分词处理,确定分词结果之后,还包括:从所述分词结果中确定所述分词算法对应的检索词典匹配到的分词项为常用词。
在本公开的一种示例性实施例中,从所述分词结果中确定所述分词算法对应的检索词典匹配到的分词项为常用词,包括:根据所述检索词典中包含的词汇以及各词汇的词性,从所述分词结果中筛选与目标词性匹配的分词项为常用词。
在本公开的一种示例性实施例中,从所述分词结果中确定所述分词算法对应的检索词典匹配到的分词项为常用词,包括:如果所述检索语句为专有名称,则根据所述专有名称的属性特征构建与所述属性特征对应的第一词典;从所述分词结果中筛选出与所述第一词典中包含的词汇匹配的分词项,得到常用词。
在本公开的一种示例性实施例中,所述将满足预设条件的分词项进行合并,获得关键词,包括:将所述分词结果中除所述常用词之外的分词项作为目标分词项,将所述目标分词项进行合并,获得第一关键词。
在本公开的一种示例性实施例中,所述将满足预设条件的分词项进行合并,获得关键词,包括:如果所述关键词的长度超过预设值,则对所述关键词再次进行分词处理,以重新确定关键词。
在本公开的一种示例性实施例中,所述分别确定所述分词项与所述关键词的优先级,基于所述优先级进行检索,以获取检索结果,包括:确定所述关键词为第一优先级,确定所述分词项为第二优先级,其中,所述第一优先级大于所述第二优先级;基于优先级的大小,对所述关键词以及所述分词项进行检索,获取检索结果。
在本公开的一种示例性实施例中,基于优先级的大小,对所述关键词以及所述分词项进行检索,获取检索结果之后,还包括:根据获取所述检索结果的顺序,将所述检索结果进行排列,以显示给所述用户。
在本公开的一种示例性实施例中,所述检索语句符合预设形式。
在本公开的一种示例性实施例中,所述检索语句包括针对医院的专有名称。
根据本公开实施例的第二方面,提供了一种检索装置,包括:用户输入单元,用于获取用户输入的检索语句;分词处理单元,用于对所述检索语句进行分词处理,确定分词结果,所述分词结果中包含多个分词项;关键词确定单元,用于将满足预设条件的分词项进行合并,获得关键词;检索单元,用于分别确定所述分词项与所述关键词的优先级,基于所述优先级进行检索,以获取检索结果。
根据本公开实施例的第三方面,提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述实施例中第一方面所述的检索方法。
根据本公开实施例的第四方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述实施例中第一方面所述的检索方法。
本公开实施例提供的技术方案可以包括以下有益效果:
在本公开的一些实施例所提供的技术方案中,一方面,通过对用户输入的检索语句进行分词处理得到多个分词项,并且通过分词项获得关键词,可以利用关键词进行检索,相比用多个分词项一一进行检索,利用关键词进行检索可以大大节省时间,从而提高检索效率。另一方面,对关键词与分词项确定的优先级不同,可以保证在关键词与分词项有优先顺序的情况下,更加全面的进行检索,提供检索的召回率。再一方面,通过关键词检索对于检索结果的命中率更高,能够提高准确率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示意性示出了根据本公开的实施例中用于实现检索方法的系统架构示意图;
图2示意性示出了根据本公开的实施例的检索方法的流程图;
图3示意性示出了根据本公开的另一实施例的检索方法的流程图;
图4示意性示出了根据本公开的实施例的检索装置的框图;
图5示出了适于用来实现本公开实施例的检索方法的电子设备的计算机系统的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本公开的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
本发明人发现,通过分词算法对检索语句进行分词,再使用分词项进行检索的方法过于依赖词典。对于一些可自定义的专用名称,大部分都没有维护到词典中,因此导致在检索语句中包含专用名称时,检索的准确性大大降低。
例如,用户输入医院名称来进行医院信息查找时,若用户输入“北京华信医院”,在分词时可以分为“北京、医院、华、信”,由于词典中有“北京”和“医院”这两个词,而没有“华信”这个词,因此华和信将会被分开为单字。再使用“华”和“信”去搜索时,会搜索到很多不相关的内容,影响到搜索结果。
基于此,本公开的示例性实施例中首先提供一种用于实现检索方法的系统架构。参考图1所示,该系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送请求指令等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的购物类网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的产品信息查询请求等数据进行分析等处理,并将处理结果(例如目标推送信息、产品信息--仅为示例)反馈给终端设备。
需要说明的是,本公开实施方式所提供的检索方法一般由服务器105执行,相应地,检索装置一般设置于终端设备101中。
基于上述系统架构100,本公开示例性实施例中提出一种检索方法,如图2所示,该方法可以包括以下步骤:
步骤S210,获取用户输入的检索语句;
步骤S220,对所述检索语句进行分词处理,确定分词结果,所述分词结果中包含多个分词项;
步骤S230,将满足预设条件的分词项进行合并,获得关键词;
步骤S240,分别确定所述分词项与所述关键词的优先级,基于所述优先级进行检索,以获取检索结果。
在图2示例的实施例所提供的技术方案中,一方面,通过对用户输入的检索语句进行分词处理得到多个分词项,并且通过分词项获得关键词,可以利用关键词进行检索,相比用多个分词项一一进行检索,利用关键词进行检索可以大大节省时间,从而提高检索效率。另一方面,对关键词与分词项确定的优先级不同,可以保证在关键词与分词项有优先顺序的情况下,更加全面的进行检索,提供检索的召回率。再一方面,通过关键词检索对于检索结果的命中率更高,能够提高准确率。
以下对图2示例的实施例中的各个步骤的具体实施方式进行详细阐述。
首先,对于步骤S210,获取用户输入的检索语句。
示例性的,可以对用户提供一用户界面,在该用户界面中包括一输入框,检索语句可以指用户在输入框中输入的内容。用户输入完成后可以点击该用户界面的按钮将输入的内容进行提交。
检索语句可以包括专用名称,例如公司的名称、机构的名称,或者其他事物的名称。大多数专用名称的命名都符合某种特定的形式,例如北京第一医院、北京实验小学、重庆特色小吃店等,均是采用“地名/人名+对象类型”、“地名+自定义字词+对象类型”这样的形式。因此,检索语句可以满足某种形式。这种形式可以是以人名、地名等类型的词作为开头词,以命名对象所属的类型作为结尾词,以自定义的字或者词作为中间词的形式。即检索语句包括符合“开头词+中间词+结尾词”形式的语句。
开头词除了包括人名、地名、机构名以外,还可以包括与人名、地名、机构名相关的命名,例如人名相关的“马克思主义”、机构名相关的“医科大学”等等。结尾词可以表示命名对象类型的词,例如医院、公司、单位等。
参考图2,在步骤S220中,对检索语句进行分词处理可以得到分词结果,该分词结果中包括多个分词项。
分词处理是指按照一定的规范组成成词序列的过程。即,将句子进行拆分组合成词的处理过程。示例性实施例中,可以采用分词算法对检索语句进行分词处理,从而确定分词结果。分词算法可以包括通过字符匹配的分词算法。字符匹配的分词算法主要是通过词典中包含的大量词汇对语句进行匹配,与词典中词汇相匹配的词被划分在一起。分词算法还可以包括基于机器学习的分词算法,或者其他算法,例如mmseg分词算法、最大正向匹配算法等。
示例性实施例中,由于检索语句是用户手动输入,其中可能包含一些标点符合、空格等干扰因素,因此可以在对检索语句进行分词处理之前,先将检索语句中的干扰符号去除。利用正则表达式可以去除干扰符号,当然,也可以通过其他算法,例如KMP算法等。
在利用分词算法对检索语句进行分词处理时,可以根据分词算法对应的检索词典对检索语句进行字符匹配。将检索语句中能够与检索词典相匹配的字符划分为分词项,从而得到多个分词项,分词结果包括所有的分词项。例如利用mmseg分词算法对“北京佑安医院”进行分词时,词典能够匹配到“北京”、“医院”,则将北京划分为一分词项,将医院划分为一分词项,剩下的“佑安”由于词典中没有该词,因此不能组合则拆分为单字“佑”和“安”,从而得到四个分词项,这四个分词项即为分词结果。
其中,检索词典可以包括集成在分词算法中的词典。大多数的分词算法都已经集成了常用词典,常用词典包括日常生活中经常会用到的词。此外,在检索词典中还可以标注各个词汇的词性,如表1所示。例如,北京的标注为ns、表示地名,马克思、白求恩等著名人名的标注为nr、表示人名,医院、大学、学院等的标注为nt、表示机构团体名。
表1
分词结果中可以包括与检索词典中包含的词汇匹配的分词项,也可以包括不与检索词典匹配的分词项。可以将能与检索词典匹配中的词汇相匹配的分词项确定为常用词。具体的,可以根据检索词典中包含的词汇的词性,将分词结果中与目标词性的词汇相匹配的分词项确定为常用词。目标词性可以根据实际情况确定,例如将词性为人名、地名、机构团体名等确定为目标词性。因此,根据目标词性确定的常用词可以是检索语句中的开头词。可选的,对属于开头词的分词项可以进行标记,例如标记为“开头词”。
示例性实施例中,确定常用词的过程还可以包括以下步骤:
步骤S301,如果所述检索语句为专有名称,则根据所述专有名称的属性特征构建与所述属性特征对应的第一词典;
步骤S302,从所述分词结果中筛选出与所述第一词典中包含的词汇匹配的分词项,得到常用词。
根据实际需要可以构建词典,将使用频率较高的词组通过词典定义使得在检索时能够使用该词典对检索语句进行匹配。专有名称的属性特征可以包括专有名称的命名对象的类型,例如命名对象为学校时,其类型可以为教育机构。当然,属性特征也可以包括命名对象的其他特征,例如,命名对象的用途特征等。通过专有名称的属性特征可以构建与该属性特征对应的第一词典。通过列举该属性特征对应的常用词汇可以得到多个词组,然后将这些词组定义在词典中,得到该属性特征对应的第一词典。举例而言,属性特征为教育机构,则其对应的常用词汇可以包括学校、示范小学、师范中学、附属小学等。如命名对象为医院,则该类型常用的词汇可以包括医院、总医院、附属医院、中医院、保健院、卫生院等。对于根据命名对象所属的类型确定的这些常用词汇,其词性也可以自定义标注,例如命名对象所属的类型为医院时,对该类型的词汇的词性标注为医院,或标注为专用名等。在实际使用中,可以不断地统计用户实际检索专有名称时使用的词的频率,将频率较高的词更新至该第一词典中,以使得第一词典更加完整。检索词典可以包括第一词典,也可以包括其他词典,根据实际需要可以自定义词典作为检索词典。
将分词结果中与第一词典中包含的词汇匹配的分词项删选出来可以得到常用词。由上可知,如果检索语言为专有名称,则根据专有名称属性特征确定的常用词可以是结尾词。可选的,可以将属于结尾词的分词项进行标记,例如标记为“结尾词”。
综上所述,如果专有名称满足上述“地名+自定义字词+对象类型”的形式时,常用词可以包括其开头词与结尾词。当然,常用词还可以包括检索词典中定义的其他词,例如形容词、动词等。
在步骤S230中,将满足预设条件的分词项进行合并,获得关键词。
满足预设条件的分词项可以包括不是常用词的分词项。筛选出常用词后,可以得到检索语句中的关键词。具体的,将分词结果中除常用词之外的分词项作为目标分词项,将目标分词项进行合并,从而得到关键词。也就是说,预设条件例如,对“北京佑安医院”进行分词处理时,从检索词典可以匹配到“北京”和“医院”,则剩余的两个字作为两个分词项,分词结果为“北京/佑/安/医院”则将词典匹配到的分词项确定为常用词后,除常用词以外的分词项为“佑”和“安”,则将这两个分词项进行合并得到“佑安”为关键词。
在示例性实施例中,判断关键词的长度是否超过预设值,如果关键词长度超过预设值,则对关键词再次进行分词处理,重新获取关键词。
其中,关键词的长度是指目标分词项合并后得到的词组的字符长度。举例来说,“首都医科大学附属北京安贞医院”第一次分词处理后得到的分词项为:“首都”、“医科大学”、“附属”、“北京”、“安”、“贞”、“医院”,则常用词包括属于开头词的地名相关的“首都”、机构名相关的“医科大学”以及属于结尾词的“医院”,那么除常用词以外的分词项“附属”、“北京”、“安贞”则为目标分词项,对目标分词项进行合并得到“附属北京安贞”为关键词,该关键词的长度为6。
预设值可以包括2、3等数字,也可以根据实际需要设定为其他数字,例如4、5等,本示例实施例对此不做特殊限定。
如果关键词超过预设值,则需要对关键词再次进行分词处理,重新确定关键词。例如关键词为“附属北京安贞”,若预设值为3,其长度超过预设值,则对“附属北京安贞”进行分词处理得到分词项“附属”、“北京”、“安”、“贞”。根据上述步骤中所述的确定常用词的方法,再次进行分词处理得到的分词项中词典能够匹配到的词可以包括“附属”、“北京”,则将这两个分词项确定为常用词,将剩下的“安”和“贞”进行合并得到关键词“安贞”。
在示例性的实施例中,如果重新确定的关键词的长度仍然超过预设值,则还可以对重新确定的关键词进行第三次分词处理,并对第三次分词处理后得到的分词项中满足预设条件的分词项关键词。
常用词由于每个用户都有可能用到,因此对于单独的用户来说,针对性并不强,对于信息的过滤作用并不大,如果利用常用词去匹配信息,得到的信息的数量可能非常多,因此对常用词去检索得到的信息比较全面,但准确率并不高。而,关键词往往是用户的检索语句中比较重要的词,利用关键词去匹配信息,能够使得匹配到的信息被用户采纳的概率较高,从而提高检索的精确性。
在步骤S240中,分别确定分词项与关键词的优先级,基于优先级进行检索,获取检索结果。
在本实施例中,对检索语句进行分词处理后得到的分词项,以及通过步骤S230得到的关键词,分别确定不同的优先级。对关键词确定第一优先级,对分词项确定第二优先级。例如,对“北京佑安医院”进行分词处理,得到的分词项包括“北京”、“佑”、“安”、“医院”,关键词为“佑安”,则对上述四个分词项确定第二优先级,对关键词“佑安”确定第一优先级。其中,第一优先级大于第二优先级。
确定分词项与关键词的优先级后,可以基于优先级的大小进行检索。具体的,先使用优先级大的词进行检索,在使用优先级小的词进行检索,也就是说,先对关键词进行检索,在对分词项进行检索。例如,先检索与关键词“佑安”匹配的信息,得到检索结果,在对其他分词项进行检索,得到检索结果。
检索结果是与关键词或分词项匹配的信息,在确定了检索语句的关键词和多个分词项后,会分别采用关键词和分词项去匹配信息,得到与关键词匹配的信息以及与分词项匹配的信息。示例性实施例中,按照优先级对关键词和分词项进行检索,可以获得多个检索结果。多个检索结果可以按照获取的顺序进行排列,先获取的检索结果排在后获取的检索结果的前面,也就是说,优先级大的词对应的匹配信息的位置靠前,从而使得先对关键词进行检索得到的检索结果会排在前面,用户可以首先看到关键词对应的检索结果,从而快速的获取用户需要的信息,提高检索的速度。
以下介绍本公开的装置实施例,可以用于执行本公开上述的检索方法。如图4所示,该检索装置400可以包括:用户输入单元410、分词处理单元420、关键词确定单元430以及检索单元440。
具体地,用户输入单元410用于获取用户输入的检索语句;分词处理单元420,用于对所述检索语句进行分词处理,确定分词结果,所述分词结果中包含多个分词项;关键词确定单元430,用于将满足预设条件的分词项进行合并,获得关键词;检索单元440,用于分别确定所述分词项与所述关键词的优先级,基于所述优先级进行检索,以获取检索结果。
在本公开的一种示例性实施例中,分词处理单元420还可以用于:基于分词算法对所述检索语句进行分词处理,确定分词结果。
在本公开的一种示例性实施例中,该检索装置还可以包括:词典匹配第一单元,用于从所述分词结果中确定所述分词算法对应的检索词典匹配到的分词项为常用词。
在本公开的一种示例性实施例中,该词典匹配单元还可以用于:根据所述检索词典中包含的词汇以及各词汇的词性,从所述分词结果中筛选与目标词性匹配的分词项为常用词。
在本公开的一种示例性实施例中,词典匹配单元还可以包括:词典构建单元,用于如果所述检索语句为专有名称,则根据所述专有名称的属性特征构建与所述属性特征对应的第一词典;词典匹配第二单元,用于从所述分词结果中筛选出与所述第一词典中包含的词汇匹配的分词项,得到常用词。
在本公开的一种示例性实施例中,关键词确定单元430可以用于:将所述分词结果中除所述常用词之外的分词项作为目标分词项,将所述目标分词项进行合并,获得第一关键词。
在本公开的一种示例性实施例中,关键词确定单元430可以用于:如果所述关键词的长度超过预设值,则对所述关键词再次进行分词处理,以重新确定关键词。
在本公开的一种示例性实施例中,检索单元440可以包括:优先级确定单元,用于确定所述关键词为第一优先级,确定所述分词项为第二优先级,其中,所述第一优先级大于所述第二优先级;检索结果确定单元,用于基于优先级的大小,对所述关键词以及所述分词项进行检索,获取检索结果。
在本公开的一种示例性实施例中,检索装置还包括:显示单元,用于根据获取所述检索结果的顺序,将所述检索结果进行排列,以显示给所述用户。
在本公开的一种示例性实施例中,所述检索语句符合预设形式。
在本公开的一种示例性实施例中,所述检索语句包括针对医院的专有名称。
由于本公开的示例实施例的检索装置的各个功能模块与上述检索方法的示例实施例的步骤对应,因此对于本公开装置实施例中未披露的细节,请参照本公开上述的检索装置的实施例。
下面参考图5,其示出了适于用来实现本公开实施例的电子设备的计算机系统500的结构示意图。图5示出的电子设备的计算机系统500仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图5所示,计算机系统500包括中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有系统操作所需的各种程序和数据。CPU501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分509从网络上被下载和安装,和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时,执行本申请的系统中限定的上述功能。
需要说明的是,本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如上述实施例中所述的检索方法。
例如,所述的电子设备可以实现如图2中所示的:步骤S210,获取用户输入的检索语句;步骤S220,对所述检索语句进行分词处理,确定分词结果,所述分词结果中包含多个分词项;步骤S230,将满足预设条件的分词项进行合并,获得关键词;步骤S240,分别确定所述分词项与所述关键词的优先级,基于所述优先级进行检索,以获取检索结果。
又如,所述的电子设备可以实现如图3所示的各个步骤。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (14)
1.一种检索方法,其特征在于,包括:
获取用户输入的检索语句;
对所述检索语句进行分词处理,确定分词结果,所述分词结果中包含多个分词项;
将满足预设条件的分词项进行合并,获得关键词;
分别确定所述分词项与所述关键词的优先级,基于所述优先级进行检索,以获取检索结果。
2.根据权利要求1所述的方法,其特征在于,所述对所述检索语句进行分词处理,确定分词结果,包括:
基于分词算法对所述检索语句进行分词处理,确定分词结果。
3.根据权利要求2所述的方法,其特征在于,对所述检索语句进行分词处理,确定分词结果之后,还包括:
从所述分词结果中确定所述分词算法对应的检索词典匹配到的分词项为常用词。
4.根据权利要求3所述的方法,其特征在于,从所述分词结果中确定所述分词算法对应的检索词典匹配到的分词项为常用词,包括:
根据所述检索词典中包含的词汇以及各词汇的词性,从所述分词结果中筛选与目标词性匹配的分词项为常用词。
5.根据权利要求3所述的方法,其特征在于,从所述分词结果中确定所述分词算法对应的检索词典匹配到的分词项为常用词,包括:
如果所述检索语句为专有名称,则根据所述专有名称的属性特征构建与所述属性特征对应的第一词典;
从所述分词结果中筛选出与所述第一词典中包含的词汇匹配的分词项,得到常用词。
6.根据权利要求3所述的方法,其特征在于,所述将满足预设条件的分词项进行合并,获得关键词,包括:
将所述分词结果中除所述常用词之外的分词项作为目标分词项,将所述目标分词项进行合并,获得第一关键词。
7.根据权利要求6所述的方法,其特征在于,所述将满足预设条件的分词项进行合并,获得关键词,包括:
如果所述关键词的长度超过预设值,则对所述关键词再次进行分词处理,以重新确定关键词。
8.根据权利要求1所述的方法,其特征在于,所述分别确定所述分词项与所述关键词的优先级,基于所述优先级进行检索,以获取检索结果,包括:
确定所述关键词为第一优先级,确定所述分词项为第二优先级,其中,所述第一优先级大于所述第二优先级;
基于优先级的大小,对所述关键词以及所述分词项进行检索,获取检索结果。
9.根据权利要求8所述的方法,其特征在于,基于优先级的大小,对所述关键词以及所述分词项进行检索,获取检索结果之后,还包括:
根据获取所述检索结果的顺序,将所述检索结果进行排列,以显示给所述用户。
10.根据权利要求1所述的方法,其特征在于,所述检索语句符合预设形式。
11.根据权利要求1所述的方法,其特征在于,所述检索语句包括针对医院的专有名称。
12.一种检索装置,其特征在于,包括:
用户输入单元,用于获取用户输入的检索语句;
分词处理单元,用于对所述检索语句进行分词处理,确定分词结果,所述分词结果中包含多个分词项;
关键词确定单元,用于将满足预设条件的分词项进行合并,获得关键词;
检索单元,用于分别确定所述分词项与所述关键词的优先级,基于所述优先级进行检索,以获取检索结果。
13.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1至11中任一项所述的检索方法。
14.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至11中任一项所述的检索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910754542.0A CN112445959A (zh) | 2019-08-15 | 2019-08-15 | 检索方法、检索装置、计算机可读介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910754542.0A CN112445959A (zh) | 2019-08-15 | 2019-08-15 | 检索方法、检索装置、计算机可读介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112445959A true CN112445959A (zh) | 2021-03-05 |
Family
ID=74740899
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910754542.0A Pending CN112445959A (zh) | 2019-08-15 | 2019-08-15 | 检索方法、检索装置、计算机可读介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112445959A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114048304A (zh) * | 2021-10-26 | 2022-02-15 | 盐城金堤科技有限公司 | 有效关键词确定方法、装置、存储介质和电子设备 |
CN114065757A (zh) * | 2021-11-11 | 2022-02-18 | 东方财富信息股份有限公司 | 一种分词方法、装置、系统及设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000259673A (ja) * | 1999-01-06 | 2000-09-22 | Matsushita Electric Ind Co Ltd | 単語分割方法と装置 |
CN101739393A (zh) * | 2008-11-20 | 2010-06-16 | 苗玉水 | 汉语文本智能分词法 |
CN107844580A (zh) * | 2017-11-10 | 2018-03-27 | 北京酷我科技有限公司 | 一种搜索词匹配方法 |
CN108304377A (zh) * | 2017-12-28 | 2018-07-20 | 东软集团股份有限公司 | 一种长尾词的提取方法及相关装置 |
-
2019
- 2019-08-15 CN CN201910754542.0A patent/CN112445959A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000259673A (ja) * | 1999-01-06 | 2000-09-22 | Matsushita Electric Ind Co Ltd | 単語分割方法と装置 |
CN101739393A (zh) * | 2008-11-20 | 2010-06-16 | 苗玉水 | 汉语文本智能分词法 |
CN107844580A (zh) * | 2017-11-10 | 2018-03-27 | 北京酷我科技有限公司 | 一种搜索词匹配方法 |
CN108304377A (zh) * | 2017-12-28 | 2018-07-20 | 东软集团股份有限公司 | 一种长尾词的提取方法及相关装置 |
Non-Patent Citations (1)
Title |
---|
刘雯;张晓如;: "一种基于规则和统计的连动句识别方法", 电子设计工程, no. 22, 20 November 2017 (2017-11-20), pages 18 - 22 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114048304A (zh) * | 2021-10-26 | 2022-02-15 | 盐城金堤科技有限公司 | 有效关键词确定方法、装置、存储介质和电子设备 |
CN114065757A (zh) * | 2021-11-11 | 2022-02-18 | 东方财富信息股份有限公司 | 一种分词方法、装置、系统及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11868386B2 (en) | Method and system for sentiment analysis of information | |
US11403680B2 (en) | Method, apparatus for evaluating review, device and storage medium | |
US10713571B2 (en) | Displaying quality of question being asked a question answering system | |
US20170330084A1 (en) | Clarification of Submitted Questions in a Question and Answer System | |
JP5379138B2 (ja) | 領域辞書の作成 | |
US11651015B2 (en) | Method and apparatus for presenting information | |
US11977589B2 (en) | Information search method, device, apparatus and computer-readable medium | |
CN110162768B (zh) | 实体关系的获取方法、装置、计算机可读介质及电子设备 | |
CN107798622B (zh) | 一种识别用户意图的方法和装置 | |
EP3762876A1 (en) | Intelligent knowledge-learning and question-answering | |
US20220365956A1 (en) | Method and apparatus for generating patent summary information, and electronic device and medium | |
CN115510247A (zh) | 一种电碳政策知识图谱构建方法、装置、设备及存储介质 | |
CN111538830A (zh) | 法条检索方法、装置、计算机设备及存储介质 | |
CN112445959A (zh) | 检索方法、检索装置、计算机可读介质及电子设备 | |
CN110717008A (zh) | 基于语意识别的搜索结果排序方法及相关装置 | |
CN114141384A (zh) | 用于检索医学数据的方法、设备和介质 | |
CN114298007A (zh) | 一种文本相似度确定方法、装置、设备及介质 | |
CN112182239B (zh) | 信息检索方法和装置 | |
CN111126073A (zh) | 语义检索方法和装置 | |
US20230090601A1 (en) | System and method for polarity analysis | |
CN108763258B (zh) | 文档主题参数提取方法、产品推荐方法、设备及存储介质 | |
US11928180B2 (en) | Automatic ground truth selection | |
CN111368036B (zh) | 用于搜索信息的方法和装置 | |
CN112926295A (zh) | 模型推荐方法和装置 | |
Sheikh et al. | Implementing Sentiment Analysis on Real-Time Twitter Data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |