CN112445895A - 一种识别用户搜索场景的方法及系统 - Google Patents

一种识别用户搜索场景的方法及系统 Download PDF

Info

Publication number
CN112445895A
CN112445895A CN202011278824.7A CN202011278824A CN112445895A CN 112445895 A CN112445895 A CN 112445895A CN 202011278824 A CN202011278824 A CN 202011278824A CN 112445895 A CN112445895 A CN 112445895A
Authority
CN
China
Prior art keywords
speech
lemmas
effective
search
filtering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011278824.7A
Other languages
English (en)
Other versions
CN112445895B (zh
Inventor
卢再武
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Sekorm Component Network Co Ltd
Original Assignee
Shenzhen Sekorm Component Network Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Sekorm Component Network Co Ltd filed Critical Shenzhen Sekorm Component Network Co Ltd
Priority to CN202011278824.7A priority Critical patent/CN112445895B/zh
Publication of CN112445895A publication Critical patent/CN112445895A/zh
Priority to EP21208044.4A priority patent/EP4002157A1/en
Priority to US17/524,770 priority patent/US20220156332A1/en
Priority to JP2021185673A priority patent/JP2022079442A/ja
Application granted granted Critical
Publication of CN112445895B publication Critical patent/CN112445895B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3322Query formulation using system suggestions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种识别用户搜索场景的方法及系统,该方法包括以下步骤:接收搜索文本,查找出搜索文本中的一个或多个有效词元;对有效词元进行级别过滤以及词性过滤,得到具有单一词性的价值词元;根据价值词元的词性或者词性组合,为搜索文本设置相对应的搜索场景标签。通过实施本发明,可根据用户的搜索场景在海量的数据里面提取出用户需要的数据,可以准确识别出用户的搜索诉求,给用户搜索出相对应的内容,快速解决用户的诉求,提高用户的搜索体验。

Description

一种识别用户搜索场景的方法及系统
技术领域
本发明涉及计算机搜索技术领域,尤其涉及一种识别用户搜索场景的方法及系统。
背景技术
随着互联网技术的发展,每天在我们所生活的这个世界出现了大量的信息,信息的增长速度已经以几何级别的增长。在信息大爆炸的时代,由于信息缺乏管理或管理不善,信息的发布、传播失去控制,产生了大量虚假信息、无用信息,造成信息环境的污染和“信息垃圾”的产生。因为在网络上任何人都可以自由发表意见,并且发布的成本几乎可以忽略,在某种意义上,每个人都可成为全球范围的信息制造者,从而增加了人们利用信息的困难。
发明内容
本发明要解决的技术问题在于,针对现有技术的缺陷,提供一种识别用户搜索场景的方法及系统。
本发明解决其技术问题所采用的技术方案是:构造一种识别用户搜索场景的方法,包括以下步骤:
接收搜索文本,查找出所述搜索文本中的一个或多个有效词元;
对所述有效词元进行级别过滤以及词性过滤,得到具有单一词性的价值词元;
根据所述价值词元的词性或者词性组合,为所述搜索文本设置相对应的搜索场景标签。
优选地,在本发明所述的识别用户搜索场景的方法中,所述步骤根据接收到的搜索文本,查找出所述搜索文本中的一个或多个有效词元,包括:
接收搜索文本,查找出所述搜索文本中的一个或多个词元;
根据预存的多个有效词元,对查找出的词元进行词元过滤,得到一个或多个有效词元。
优选地,在本发明所述的识别用户搜索场景的方法中,所述步骤对所述有效词元进行级别过滤,包括:
根据词元搜索价值,为每一预存的有效词元预设一词元级别标签;
根据词元级别标签顺序对查找出的所述有效词元进行级别过滤,得到价值词元。
优选地,在本发明所述的识别用户搜索场景的方法中,所述步骤对所述有效词元进行词性过滤,包括:
根据词性搜索价值,为每一预存的有效词元预设一种或多种词性以及对应的词性级别标签;
根据词性级别标签顺序对查找出的具有多词性的所述有效词元进行词性过滤,保留单一词性。
优选地,在本发明所述的识别用户搜索场景的方法中,所述步骤根据词性级别标签顺序对具有多词性的查找出的所述有效词元进行词性过滤,保留单一词性,包括:
根据查找出的所述有效词元所具有的词性进行分组,判断各组之间是否存在相同的有效词元,若是,则根据词性级别标签顺序对查找出的具有多词性的所述有效词元进行词性过滤,保留单一词性。
本发明还构造了一种识别用户搜索场景的系统,包括:
词元查找模块,用于接收搜索文本,查找出所述搜索文本中的一个或多个有效词元;
词元分析模块,对所述有效词元进行级别过滤以及词性过滤,得到具有单一词性的价值词元;
搜索场景设置模块,用于根据所述价值词元的词性或者词性组合,为所述搜索文本设置相对应的搜索场景标签。
优选地,在本发明所述的识别用户搜索场景的系统中,所述系统还包括:有效词元存储模块,用于预存多个有效词元;
所述词元查找模块,用于接收搜索文本,查找出所述搜索文本中的一个或多个词元;根据预存的多个有效词元,对查找出的词元进行词元过滤,得到一个或多个有效词元。
优选地,在本发明所述的识别用户搜索场景的系统中,所述系统还包括:词元级别设置模块,用于根据词元搜索价值,为每一预存的有效词元预设一词元级别标签;
所述词元分析模块包括:词元过滤模块,用于根据所述词元级别设置模块设置的词元级别标签顺序对查找出的所述有效词元进行级别过滤,得到价值词元。
优选地,在本发明所述的识别用户搜索场景的系统中,所述系统还包括:词元词性设置模块,用于根据词性搜索价值,为每一预存的有效词元预设一种或多种词性以及对应的词性级别标签;
所述词元分析模块包括:
词性过滤模块,根据词性级别标签顺序对查找出的具有多词性的所述有效词元进行词性过滤,保留单一词性。
优选地,在本发明所述的识别用户搜索场景的系统中,所述词元分析模块还包括:
词元分组模块,用于根据查找出的所述有效词元所具有的词性进行分组,判断各组之间是否存在相同的有效词元,若是,则执行所述词性过滤模块。
通过实施本发明,具有以下有益效果:
本发明通过接收搜索文本,查找出搜索文本中的一个或多个有效词元;对有效词元进行级别过滤以及词性过滤,得到具有单一词性的价值词元;根据价值词元的词性或者词性组合,为搜索文本设置相对应的搜索场景标签,从而根据用户的搜索场景在海量的数据里面提取出用户需要的数据,可以准确识别出用户的搜索诉求,给用户搜索出相对应的内容,快速解决用户的诉求,提高用户的搜索体验。
附图说明
下面将结合附图及实施例对本发明作进一步说明,附图中:
图1是本发明识别用户搜索场景方法的流程图;
图2是本发明识别用户搜索场景方法的详细流程图;
图3本发明识别用户搜索场景系统的模块框图。
具体实施方式
为了对本发明的技术特征、目的和效果有更加清楚的理解,现对照附图详细说明本发明的具体实施方式。
在第一实施例中,如图1所示,本发明构造了一种识别用户搜索场景的方法,包括以下步骤:
接收搜索文本,查找出搜索文本中的一个或多个有效词元;
对有效词元进行级别过滤以及词性过滤,得到具有单一词性的价值词元;
根据价值词元的词性或者词性组合,为搜索文本设置相对应的搜索场景标签。
在本实施例中,如图2所示,所述步骤根据接收到的搜索文本,查找出搜索文本中的一个或多个有效词元,包括:
接收搜索文本,查找出搜索文本中的一个或多个词元;
根据预存的多个有效词元,对查找出的词元进行词元过滤,得到一个或多个有效词元。
具体地,搜索文本包括计算机语言下的搜索词、搜索词语、搜索语句、具有标点符号的搜索语句;词元为计算机语言下的词或词语;有效词元为计算机语言下的系统预存的按照搜索习惯、记录、热度、数据库数据、名词、动词等设置的词或词语。
例如搜索文本为“传感器的种类”,对计算机而言,接收搜索文本,将搜索文本转换为计算机语言,查找出搜索文本中的一个或多个词元,包括“传感器”、“的”、“种类”。但为了搜索的准确性,系统预存多个有效词元,用来判断词元对搜索的有用性,通过预存的有效词元过滤掉对搜索无用的词元,保留对搜索有用的词元,例如查找出的词元中“的”该类无意思表示的词语,会被认定为对搜索无用的词元,因此会被过滤掉,保留有效词元,例如“传感器”、“种类”。
在本实施例中,所述步骤对所述有效词元进行级别过滤,包括:
根据词元搜索价值,为每一预存的有效词元预设一词元级别标签;
根据词元级别标签顺序对查找出的有效词元进行级别过滤,得到价值词元。
具体地,词元搜索价值是指系统根据搜索习惯、搜索记录、搜索热度、数据库数据等得出的权重,表明该词元的搜索热点程度或数据热点程度,因此为每一预存的有效词元预设一词元级别标签,例如1级、2级、3级等,等级越高,词元的搜索价值越高。系统查找出多个有效词元时,过多的词元会对搜索的准确性带来影响,因此可根据词元级别标签顺序对查找出的有效词元进行级别过滤,得到价值词元。在一些实施例中,可设置级别过滤条件,例如是级别标签顺序中的一级别,低于该级别的有效词元,则进行过滤;保留高于该级别的词元,则保留为价值词元。例如查找出4个有效词元,其词元等级标签分别为1级、2级、3级、4级,则预设级别过滤条件为2级,高于2级的词元为价值词元。
在本实施例中,所述步骤对有效词元进行词性过滤,包括:
根据词性搜索价值,为每一预存的有效词元预设一种或多种词性以及对应的词性级别标签;
根据词性级别标签顺序对具有多词性的查找出的有效词元进行词性过滤,保留单一词性。
其中,可先根据词元级别标签顺序对查找出的有效词元进行级别过滤,得到价值词元;然后再根据词性级别标签顺序对具有多词性的查找出的价值词元进行词性过滤,保留单一词性,得到具有单一词性的价值词元。
另外,也可先根据词性级别标签顺序对具有多词性的查找出的有效词元进行词性过滤,保留单一词性;然后再根据词元级别标签顺序对查找出的有效词元进行级别过滤,保留价值词元,最终得到具有单一词性的价值词元。
具体地,词性为词元的类别;词性搜索价值是指系统根据搜索习惯、搜索记录、搜索热度、数据库数据等得出的权重,表明该词性的搜索热点程度或数据热点程度,因此为每一预存的有效词元预设一种或多种词性以及对应的词性级别标签,例如1级、2级、3级等,等级越高,词性的搜索价值越高。又例如,型号词>品类词>厂牌词>应用词>资源词。
在一些实施例中,所述根据词性级别标签顺序对具有多词性的查找出的有效词元进行词性过滤,保留单一词性,包括:
当查找出多个有效词元时,可根据查找出的有效词元所具有的词性进行分组,判断各组之间是否存在相同的有效词元,若是,则根据词性级别标签顺序对查找出的具有多词性的有效词元进行词性过滤,保留单一词性,即保留级别最高的词性。进一步地,可在分组前或后,根据词元级别标签顺序对查找出的有效词元进行级别过滤,得到价值词元。
在一些实施例中,所述根据词性级别标签顺序对具有多词性的查找出的有效词元进行词性过滤,保留单一词性,包括:
当查找出有效词元时,可获取有效词元所对应的词性个数,根据词性级别标签顺序对具有多词性的有效词元进行词性过滤,保留单一词性,即保留级别最高的词性。
在另外一些实施例中,还可根据词性相关性,为每一预存的有效词元预设一种或多种词性以及对应的与其他词性的相关性;
根据词元级别标签顺序对查找出的有效词元进行级别过滤和排序,得到价值词元,包括价值最高的词元以及其他价值词元;
可通过上述两个实施例中分组或计数的方式来根据词性级别标签顺序对具有多词性的价值最高的词元进行词性过滤,保留单一词性。具体地,当查找出价值词元时,可根据查找出的价值词元所具有的词性进行分组,判断各组之间是否存在相同的价值最高的词元,若是,则根据词性级别标签顺序对查找出的具有多词性的价值最高的词元进行词性过滤,保留单一词性,即保留级别最高的词性。或者,当查找价值最高的词元时,可获取价值最高的词元所对应的词性个数,根据词性级别标签顺序对具有多词性的价值最高的词元进行词性过滤,保留单一词性,即保留级别最高的词性;
并且,根据该价值最高的词元的词性与其他词性的相关性,过滤其他价值词元的词性,得到其他价值词元中与价值最高的词元的词性最为相关的单一词性。
例如,用户输入搜索文本为“大米手机”,由于有效词元“大米”具有品牌的词性和食物的词性,有效词元“手机”具有品类的词性,因此当“手机”该有效词元的级别为最高时,可通过该价值最高的词元的词性与其他词性的相关性,即品类与品牌之间的相关性、品类与食物之间的相关性,来判断“大米”的词性中与“手机”的词性最为相关的词性是哪一个,例如,“大米”的品牌词性是与“手机”的品类词性是最为相关的。
在本实施例中,如图2所示,所述识别用户搜索场景的方法还包括:
判断词元或有效词元的个数是否为零,若是,则为搜索文本设置一预设的默认场景标签;若否,则对有效词元进行级别过滤以及词性过滤,得到具有单一词性的价值词元;
判断价值词元的个数是否符合预设条件,若是,则为搜索文本设置一预设的默认场景标签;若否,则根据价值词元的词性或者词性组合,为搜索文本设置相对应的搜索场景标签。在一些实施例中,可判断价值词元的个数是否小于1或者大于2,若是,则为搜索文本设置一预设的默认场景标签;若否,则根据价值词元的词性或者词性组合,为搜索文本设置相对应的搜索场景标签。具体地:首先对价值词元个数进行判断,如果价值词元总数大于2或者小于1直接赋予默认场景标签,即普通场景。如果价值词元总数等于1,根据价值词元的词性赋予搜索场景标签(厂牌词=厂牌场景;应用词=应用词场景;品类词=品类词场景;型号词=型号词场景),如果价值词元总数等于2,根据价值词元的词性组合赋予搜索场景标签(厂牌词+供应资源词=厂牌+供应资源词场景;厂牌词+商务资源词=厂牌+商务资源词场景;厂牌词+内容资源词=厂牌+内容资源词场景;厂牌词+品类词=厂牌+品类场景;应用词+品类词=应用+品类场景;品类词+内容资源词=品类+内容资源词场景;型号词+内容资源词=型号+内容资源词场景;型号词+供应资源词=型号+供应资源词场景)。
在第二实施例中,如图3所示,本发明还构造了一种识别用户搜索场景的系统,包括:
词元查找模块,用于接收搜索文本,查找出搜索文本中的一个或多个有效词元;
词元分析模块,对有效词元进行级别过滤以及词性过滤,得到具有单一词性的价值词元;
搜索场景设置模块,用于根据价值词元的词性或者词性组合,为搜索文本设置相对应的搜索场景标签。
在本实施例中,该系统还包括:有效词元存储模块,用于预存多个有效词元;
词元查找模块,用于接收搜索文本,查找出搜索文本中的一个或多个词元;根据预存的多个有效词元,对查找出的词元进行词元过滤,得到一个或多个有效词元。
具体地,搜索文本包括计算机语言下的搜索词、搜索词语、搜索语句、具有标点符号的搜索语句;词元为计算机语言下的词或词语;有效词元为计算机语言下的系统预存的按照搜索习惯、记录、热度、数据库数据、名词、动词等设置的词或词语。
例如搜索文本为“传感器的种类”,对计算机而言,接收搜索文本,将搜索文本转换为计算机语言,查找出搜索文本中的一个或多个词元,包括“传感器”、“的”、“种类”。但为了搜索的准确性,系统预存多个有效词元,用来判断词元对搜索的有用性,通过预存的有效词元过滤掉对搜索无用的词元,保留对搜索有用的词元,例如查找出的词元中“的”该类无意思表示的词语,会被认定为对搜索无用的词元,因此会被过滤掉,保留有效词元,例如“传感器”、“种类”。
在本实施例中,该系统还包括:词元级别设置模块,用于根据词元搜索价值,为每一预存的有效词元预设一词元级别标签;
词元分析模块包括:词元过滤模块,用于根据词元级别设置模块设置的词元级别标签顺序对查找出的有效词元进行级别过滤,得到价值词元。
具体地,词元搜索价值是指系统根据搜索习惯、搜索记录、搜索热度、数据库数据等得出的权重,表明该词元的搜索热点程度或数据热点程度,因此为每一预存的有效词元预设一词元级别标签,例如1级、2级、3级等,等级越高,词元的搜索价值越高。系统查找出多个有效词元时,过多的词元会对搜索的准确性带来影响,因此可根据词元级别标签顺序对查找出的有效词元进行级别过滤,得到价值词元。在一些实施例中,可设置级别过滤条件,例如是级别标签顺序中的一级别,低于该级别的有效词元,则进行过滤;保留高于该级别的词元,则保留为价值词元。例如查找出4个有效词元,其词元等级标签分别为1级、2级、3级、4级,则预设级别过滤条件为2级,高于2级的词元为价值词元。
该系统还包括:词元词性设置模块,用于根据词性搜索价值,为每一预存的有效词元预设一种或多种词性以及对应的词性级别标签;
词元分析模块包括:词性过滤模块,根据词性级别标签顺序对查找出的具有多词性的有效词元进行词性过滤,保留单一词性。
其中,可先执行词元过滤模块,根据词元级别标签顺序对查找出的有效词元进行级别过滤,得到价值词元;然后再执行词性过滤模块,根据词性级别标签顺序对具有多词性的查找出的价值词元进行词性过滤,保留单一词性,得到具有单一词性的价值词元。
另外,也可先执行词性过滤模块,根据词性级别标签顺序对具有多词性的查找出的有效词元进行词性过滤,保留单一词性;然后再执行词元过滤模块,根据词元级别标签顺序对查找出的有效词元进行级别过滤,保留价值词元,最终得到具有单一词性的价值词元。
具体地,词性为词元的类别;词性搜索价值是指系统根据搜索习惯、搜索记录、搜索热度、数据库数据等得出的权重,表明该词性的搜索热点程度或数据热点程度,因此为每一预存的有效词元预设一种或多种词性以及对应的词性级别标签,例如1级、2级、3级等,等级越高,词性的搜索价值越高。又例如,型号词>品类词>厂牌词>应用词>资源词。
在一些实施例中,词元分析模块还包括:词元分组模块,用于根据查找出的有效词元所具有的词性进行分组,判断各组之间是否存在相同的有效词元,若是,则执行词性过滤模块,用于根据词性级别标签顺序对查找出的具有多词性的有效词元进行词性过滤,保留单一词性,即保留级别最高的词性。进一步地,可在分组前或后,执行词元过滤模块,根据词元级别标签顺序对查找出的有效词元进行级别过滤,得到价值词元。
在一些实施例中,词性过滤模块还用于当查找出有效词元时,可获取有效词元所对应的词性个数,根据词性级别标签顺序对具有多词性的有效词元进行词性过滤,保留单一词性,即保留级别最高的词性。
在另外一些实施例中,词元词性设置模块还可根据词性相关性,为每一预存的有效词元预设一种或多种词性以及对应的与其他词性的相关性;
词元过滤模块还用于根据词元级别标签顺序对查找出的有效词元进行级别过滤和排序,得到价值词元,包括价值最高的词元以及其他价值词元;
可通过上述两个实施例中分组或计数的方式来令词性过滤模块用于根据词性级别标签顺序对具有多词性的价值最高的词元进行词性过滤,保留单一词性。具体地,词元分组模块用于当查找出价值词元时,根据查找出的价值词元所具有的词性进行分组,判断各组之间是否存在相同的价值最高的词元,若是,则执行词性过滤模块,根据词性级别标签顺序对查找出的具有多词性的价值最高的词元进行词性过滤,保留单一词性,即保留级别最高的词性。或者,词性过滤模块用于当查找价值最高的词元时,获取价值最高的词元所对应的词性个数,根据词性级别标签顺序对具有多词性的价值最高的词元进行词性过滤,保留单一词性,即保留级别最高的词性;
并且,词性过滤模块还用于根据该价值最高的词元的词性与其他词性的相关性,过滤其他价值词元的词性,得到其他价值词元中与价值最高的词元的词性最为相关的单一词性。
例如,用户输入搜索文本为“大米手机”,由于有效词元“大米”具有品牌的词性和食物的词性,有效词元“手机”具有品类的词性,因此当“手机”该有效词元的级别为最高时,可通过该价值最高的词元的词性与其他词性的相关性,即品类与品牌之间的相关性、品类与食物之间的相关性,来判断“大米”的词性中与“手机”的词性最为相关的词性是哪一个,例如,“大米”的品牌词性是与“手机”的品类词性是最为相关的。
在本实施例中,该系统还包括:默认场景设置模块,用于判断词元或有效词元的个数是否为零,若是,则为搜索文本设置一预设的默认场景标签;若否,则执行词元分析模块。
默认场景设置模块,还用于判断价值词元的个数是否符合预设条件,若是,则为搜索文本设置一预设的默认场景标签;若否,则执行词元分析模块。在一些实施例中,可判断价值词元的个数是否小于1或者大于2,若是,则为搜索文本设置一预设的默认场景标签;若否,则根据价值词元的词性或者词性组合,为搜索文本设置相对应的搜索场景标签。具体地:首先对价值词元个数进行判断,如果价值词元总数大于2或者小于1直接赋予默认场景标签,即普通场景。如果价值词元总数等于1,根据价值词元的词性赋予搜索场景标签(厂牌词=厂牌场景;应用词=应用词场景;品类词=品类词场景;型号词=型号词场景),如果价值词元总数等于2,根据价值词元的词性组合赋予搜索场景标签(厂牌词+供应资源词=厂牌+供应资源词场景;厂牌词+商务资源词=厂牌+商务资源词场景;厂牌词+内容资源词=厂牌+内容资源词场景;厂牌词+品类词=厂牌+品类场景;应用词+品类词=应用+品类场景;品类词+内容资源词=品类+内容资源词场景;型号词+内容资源词=型号+内容资源词场景;型号词+供应资源词=型号+供应资源词场景)。
通过实施本发明,具有以下有益效果:
本发明通过接收搜索文本,查找出搜索文本中的一个或多个有效词元;对有效词元进行级别过滤以及词性过滤,得到具有单一词性的价值词元;根据价值词元的词性或者词性组合,为搜索文本设置相对应的搜索场景标签,从而根据用户的搜索场景在海量的数据里面提取出用户需要的数据,可以准确识别出用户的搜索诉求,给用户搜索出相对应的内容,快速解决用户的诉求,提高用户的搜索体验。
可以理解的,以上实施例仅表达了本发明的优选实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制;应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,可以对上述技术特点进行自由组合,还可以做出若干变形和改进,这些都属于本发明的保护范围;因此,凡跟本发明权利要求范围所做的等同变换与修饰,均应属于本发明权利要求的涵盖范围。

Claims (10)

1.一种识别用户搜索场景的方法,其特征在于,包括以下步骤:
接收搜索文本,查找出所述搜索文本中的一个或多个有效词元;
对所述有效词元进行级别过滤以及词性过滤,得到具有单一词性的价值词元;
根据所述价值词元的词性或者词性组合,为所述搜索文本设置相对应的搜索场景标签。
2.根据权利要求1所述的识别用户搜索场景的方法,其特征在于,所述步骤根据接收到的搜索文本,查找出所述搜索文本中的一个或多个有效词元,包括:
接收搜索文本,查找出所述搜索文本中的一个或多个词元;
根据预存的多个有效词元,对查找出的词元进行词元过滤,得到一个或多个有效词元。
3.根据权利要求1或2所述的识别用户搜索场景的方法,其特征在于,所述步骤对所述有效词元进行级别过滤,包括:
根据词元搜索价值,为每一预存的有效词元预设一词元级别标签;
根据词元级别标签顺序对查找出的所述有效词元进行级别过滤,得到价值词元。
4.根据权利要求1或2所述的识别用户搜索场景的方法,其特征在于,所述步骤对所述有效词元进行词性过滤,包括:
根据词性搜索价值,为每一预存的有效词元预设一种或多种词性以及对应的词性级别标签;
根据词性级别标签顺序对查找出的具有多词性的所述有效词元进行词性过滤,保留单一词性。
5.根据权利要求4所述的识别用户搜索场景的方法,其特征在于,所述步骤根据词性级别标签顺序对具有多词性的查找出的所述有效词元进行词性过滤,保留单一词性,包括:
根据查找出的所述有效词元所具有的词性进行分组,判断各组之间是否存在相同的有效词元,若是,则根据词性级别标签顺序对查找出的具有多词性的所述有效词元进行词性过滤,保留单一词性。
6.一种识别用户搜索场景的系统,其特征在于,包括:
词元查找模块,用于接收搜索文本,查找出所述搜索文本中的一个或多个有效词元;
词元分析模块,对所述有效词元进行级别过滤以及词性过滤,得到具有单一词性的价值词元;
搜索场景设置模块,用于根据所述价值词元的词性或者词性组合,为所述搜索文本设置相对应的搜索场景标签。
7.根据权利要求6所述的识别用户搜索场景的系统,其特征在于,所述系统还包括:有效词元存储模块,用于预存多个有效词元;
所述词元查找模块,用于接收搜索文本,查找出所述搜索文本中的一个或多个词元;根据预存的多个有效词元,对查找出的词元进行词元过滤,得到一个或多个有效词元。
8.根据权利要求6或7所述的识别用户搜索场景的系统,其特征在于,所述系统还包括:词元级别设置模块,用于根据词元搜索价值,为每一预存的有效词元预设一词元级别标签;
所述词元分析模块包括:词元过滤模块,用于根据所述词元级别设置模块设置的词元级别标签顺序对查找出的所述有效词元进行级别过滤,得到价值词元。
9.根据权利要求6或7所述的识别用户搜索场景的系统,其特征在于,所述系统还包括:词元词性设置模块,用于根据词性搜索价值,为每一预存的有效词元预设一种或多种词性以及对应的词性级别标签;
所述词元分析模块包括:
词性过滤模块,根据词性级别标签顺序对查找出的具有多词性的所述有效词元进行词性过滤,保留单一词性。
10.根据权利要求9所述的识别用户搜索场景的系统,其特征在于,所述词元分析模块还包括:
词元分组模块,用于根据查找出的所述有效词元所具有的词性进行分组,判断各组之间是否存在相同的有效词元,若是,则执行所述词性过滤模块。
CN202011278824.7A 2020-11-16 2020-11-16 一种识别用户搜索场景的方法及系统 Active CN112445895B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202011278824.7A CN112445895B (zh) 2020-11-16 2020-11-16 一种识别用户搜索场景的方法及系统
EP21208044.4A EP4002157A1 (en) 2020-11-16 2021-11-12 Method and system for identifying user search scenario
US17/524,770 US20220156332A1 (en) 2020-11-16 2021-11-12 Method and system for identifying user search scenario
JP2021185673A JP2022079442A (ja) 2020-11-16 2021-11-15 ユーザの検索シーンを識別する方法及びシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011278824.7A CN112445895B (zh) 2020-11-16 2020-11-16 一种识别用户搜索场景的方法及系统

Publications (2)

Publication Number Publication Date
CN112445895A true CN112445895A (zh) 2021-03-05
CN112445895B CN112445895B (zh) 2024-04-19

Family

ID=74737060

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011278824.7A Active CN112445895B (zh) 2020-11-16 2020-11-16 一种识别用户搜索场景的方法及系统

Country Status (4)

Country Link
US (1) US20220156332A1 (zh)
EP (1) EP4002157A1 (zh)
JP (1) JP2022079442A (zh)
CN (1) CN112445895B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114625935A (zh) * 2022-02-28 2022-06-14 深圳市世强元件网络有限公司 场景化搜索的方法及系统

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030171914A1 (en) * 2000-04-18 2003-09-11 Il-Hyung Jung Method and system for retrieving information based on meaningful core word
CN101547326A (zh) * 2008-03-27 2009-09-30 株式会社东芝 通知内容场景出现的装置和方法
US20110161309A1 (en) * 2009-12-29 2011-06-30 Lx1 Technology Limited Method Of Sorting The Result Set Of A Search Engine
CN103049435A (zh) * 2013-01-04 2013-04-17 浙江工商大学 文本细粒度情感分析方法及装置
KR20140109681A (ko) * 2013-03-06 2014-09-16 주식회사 다음커뮤니케이션 검색 시스템 및 그의 검색 방법
US20140280081A1 (en) * 2013-03-14 2014-09-18 Microsoft Corporation Part-of-speech tagging for ranking search results
CN105956148A (zh) * 2016-05-12 2016-09-21 北京奇艺世纪科技有限公司 资源信息的推荐方法和装置
CN109582768A (zh) * 2018-11-23 2019-04-05 北京搜狗科技发展有限公司 一种文本输入方法和装置
CN110490712A (zh) * 2019-08-21 2019-11-22 浙江中国轻纺城网络有限公司 一种商品类目搜索方法、系统及存储介质
CN110688572A (zh) * 2019-09-24 2020-01-14 四川新网银行股份有限公司 冷启动状态下搜索意图的识别方法
CN111552780A (zh) * 2020-04-29 2020-08-18 微医云(杭州)控股有限公司 医用场景的搜索处理方法、装置、存储介质及电子设备

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0785101A (ja) * 1993-09-20 1995-03-31 Fujitsu F I P Kk キーワード抽出処理装置
JPH07319882A (ja) * 1994-05-20 1995-12-08 Nec Corp キーワードの判定方法
JPH10177575A (ja) * 1996-10-15 1998-06-30 Ricoh Co Ltd 語句抽出装置および方法、情報記憶媒体
US6675159B1 (en) * 2000-07-27 2004-01-06 Science Applic Int Corp Concept-based search and retrieval system
JP2002189734A (ja) * 2000-12-21 2002-07-05 Ricoh Co Ltd 検索語抽出装置および検索語抽出方法
JP2002259426A (ja) * 2001-02-28 2002-09-13 Toshiba Corp 類似文書検索装置、類似文書検索方法、類似文書検索プログラムを記録した記録媒体及び類似文書検索プログラム
JP4496797B2 (ja) * 2004-02-18 2010-07-07 富士ゼロックス株式会社 文書管理装置および方法
JP2006227823A (ja) * 2005-02-16 2006-08-31 Canon Inc 情報処理装置及びその制御方法
US20090248669A1 (en) * 2008-04-01 2009-10-01 Nitin Mangesh Shetti Method and system for organizing information
US9047283B1 (en) * 2010-01-29 2015-06-02 Guangsheng Zhang Automated topic discovery in documents and content categorization
JP7176233B2 (ja) * 2018-06-04 2022-11-22 富士通株式会社 検索方法、検索プログラムおよび検索装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030171914A1 (en) * 2000-04-18 2003-09-11 Il-Hyung Jung Method and system for retrieving information based on meaningful core word
CN101547326A (zh) * 2008-03-27 2009-09-30 株式会社东芝 通知内容场景出现的装置和方法
US20110161309A1 (en) * 2009-12-29 2011-06-30 Lx1 Technology Limited Method Of Sorting The Result Set Of A Search Engine
CN103049435A (zh) * 2013-01-04 2013-04-17 浙江工商大学 文本细粒度情感分析方法及装置
KR20140109681A (ko) * 2013-03-06 2014-09-16 주식회사 다음커뮤니케이션 검색 시스템 및 그의 검색 방법
US20140280081A1 (en) * 2013-03-14 2014-09-18 Microsoft Corporation Part-of-speech tagging for ranking search results
CN105956148A (zh) * 2016-05-12 2016-09-21 北京奇艺世纪科技有限公司 资源信息的推荐方法和装置
CN109582768A (zh) * 2018-11-23 2019-04-05 北京搜狗科技发展有限公司 一种文本输入方法和装置
CN110490712A (zh) * 2019-08-21 2019-11-22 浙江中国轻纺城网络有限公司 一种商品类目搜索方法、系统及存储介质
CN110688572A (zh) * 2019-09-24 2020-01-14 四川新网银行股份有限公司 冷启动状态下搜索意图的识别方法
CN111552780A (zh) * 2020-04-29 2020-08-18 微医云(杭州)控股有限公司 医用场景的搜索处理方法、装置、存储介质及电子设备

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114625935A (zh) * 2022-02-28 2022-06-14 深圳市世强元件网络有限公司 场景化搜索的方法及系统

Also Published As

Publication number Publication date
CN112445895B (zh) 2024-04-19
US20220156332A1 (en) 2022-05-19
EP4002157A1 (en) 2022-05-25
JP2022079442A (ja) 2022-05-26

Similar Documents

Publication Publication Date Title
CN104850574B (zh) 一种面向文本信息的敏感词过滤方法
US8645385B2 (en) System and method for automating categorization and aggregation of content from network sites
US8630972B2 (en) Providing context for web articles
US10552467B2 (en) System and method for language sensitive contextual searching
KR101040119B1 (ko) 콘텐츠 검색 장치 및 방법
TWI645303B (zh) 字串驗證方法、字串擴充方法與驗證模型訓練方法
CN102135967A (zh) 网页关键词提取方法、装置及系统
CN111125086B (zh) 获取数据资源的方法、装置、存储介质及处理器
EP1590798A2 (en) Method for automatic and semi-automatic classification and clustering of non-deterministic texts
US10621252B2 (en) Method for searching in a database
CN111369294B (zh) 软件造价估算方法及装置
CN105653701A (zh) 模型生成方法及装置、词语赋权方法及装置
KR20220134695A (ko) 인공지능 학습 모델을 이용한 저자 식별 시스템 및 그 방법
CN112328936A (zh) 一种网站识别方法、装置、设备及计算机可读存储介质
CN112818200A (zh) 基于静态网站的数据爬取及事件分析方法及系统
CN114330329A (zh) 一种业务内容搜索方法、装置、电子设备及存储介质
CN109657043B (zh) 自动生成文章的方法、装置、设备及存储介质
CN102902790A (zh) 网页分类系统及方法
CN112445895B (zh) 一种识别用户搜索场景的方法及系统
Zhang et al. Informing the curious negotiator: Automatic news extraction from the internet
CN109948015B (zh) 一种元搜索列表结果抽取方法及系统
CN111401047A (zh) 法律文书的争议焦点生成方法、装置及计算机设备
CN103870590A (zh) 具有报错特征的网页识别方法和装置
Yin et al. Research of integrated algorithm establishment of a spam detection system
CN114706948A (zh) 新闻处理方法、装置、存储介质以及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant