CN113515940B - 一种用于文本搜索的方法及设备 - Google Patents

一种用于文本搜索的方法及设备 Download PDF

Info

Publication number
CN113515940B
CN113515940B CN202110795549.4A CN202110795549A CN113515940B CN 113515940 B CN113515940 B CN 113515940B CN 202110795549 A CN202110795549 A CN 202110795549A CN 113515940 B CN113515940 B CN 113515940B
Authority
CN
China
Prior art keywords
text
search
search result
word
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110795549.4A
Other languages
English (en)
Other versions
CN113515940A (zh
Inventor
吴鹏
王夷
张剑
李东晓
俞楠
吴翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Xinyi Intelligent Technology Co ltd
Original Assignee
Shanghai Xinyi Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Xinyi Intelligent Technology Co ltd filed Critical Shanghai Xinyi Intelligent Technology Co ltd
Priority to CN202110795549.4A priority Critical patent/CN113515940B/zh
Publication of CN113515940A publication Critical patent/CN113515940A/zh
Application granted granted Critical
Publication of CN113515940B publication Critical patent/CN113515940B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本申请提供一种用于文本搜索的技术方案,获取输入文本;基于预设词典,对输入文本进行预处理,以获得候选文本集,其中的每个候选文本包含若干词元,其中,每个词元包含词文本、词文本的标注词性及在候选文本中的位置信息;基于候选文本集及预设语料库,识别用户搜索意图,并确定候选文本集中的相关词元及其权重;根据用户搜索意图,遍历每个候选文本进行文本搜索,并基于相关词元的权重及其位置信息,对获得的搜索结果进行评分,以获得搜索结果集,其中每个搜索结果关联一个第一得分;根据每个搜索结果的第一得分对搜索结果集排序,并返回排序前N个搜索结果,其中,N是预设值。本申请的技术方案可返回精准度较高的搜索结果。

Description

一种用于文本搜索的方法及设备
技术领域
本申请涉及计算机数据处理技术领域,尤其涉及一种用于文本搜索的技术。
背景技术
随着互联网的飞速发展,人们越来越多地通过连接到互联网的计算机或智能终端设备获取信息。常用的人机交互方式是用户输入要搜索的文本,由计算机或智能终端设备采用搜索引擎或专用应用程序完成搜索,返回搜索结果。
如何使得返回的搜索结果更精准是一个要面对的技术问题。
发明内容
本申请的目的是提供一种用于文本搜索的方法及设备,用以解决如何获得精准度更高的搜索结果的技术问题。
根据本申请的一个方面,提供了一种用于文本搜索的方法,其特征在于,所述方法包括:
获取输入文本;
基于预设词典,对所述输入文本进行预处理,以获得候选文本集,其中,所述候选文本集中的每个候选文本包含若干词元,其中,每个词元包含词文本、该词文本的标注词性及该词文本在该候选文本中的位置信息;
基于所述候选文本集及预设语料库,识别用户搜索意图,并确定所述候选文本集中的相关词元及其权重;
根据用户搜索意图,遍历每个候选文本进行文本搜索,并基于所述相关词元的权重及所述相关词元的位置信息,对获得的搜索结果进行评分,以获得搜索结果集,其中,所述搜索结果集中每个搜索结果关联一个第一得分;
根据每个搜索结果的第一得分对所述搜索结果集中的搜索结果排序,并返回排序前N个搜索结果,其中,N是预设值。
可选地,其中,所述基于预设词典,对所述输入文本进行预处理,以获得候选文本集包括:
基于预设词典,对所述输入文本进行分词,以获得若干词文本;
对每个词文本进行词性标注及确定该词文本在所述输入文本中的位置信息,以获得若干词元;
确定所述若干词文本中的一个或若干个为关键词,并确定所述关键词的关联词;
基于所述若干词元及所述关联词,获得候选文本集。
可选地,所述基于所述候选文本集及预设语料库,识别用户搜索意图包括:
分别对每个候选文本进行语义分析,获得语义分析结果;
基于预设语料库生成分类规则,并根据所述分类规则及所述语义分析结果,识别用户搜索意图。
可选地,其中,所述基于预设语料库生成分类规则,并根据所述分类规则及所述语义分析结果,识别用户搜索意图包括:
基于预设语料库生成分类规则,并对所述分类规则进行审核;
根据通过审核的分类规则及所述语义分析结果,识别用户搜索意图。
可选地,其中,所述相关词元的权重的确定包括以下至少一项:
根据相关词元的标注词性,确定相关词元权重;
对相关词元的词文本进行热词分析,并基于热词分析结果,确定相关词元权重;
基于用户历史搜索特征,确定相关词元权重。
可选地,其中,所述基于所述相关词元的权重及所述相关词元的位置信息,对获得的搜索结果进行评分还包括:
根据每个搜索结果与所述预设语料库中语料数据的相似度,确定每个搜索结果的第二得分;
根据每个搜索结果与预设用户行为特征库中数据的匹配度,确定每个搜索结果的第三得分;
其中,所述每个搜索结果的第一得分对所述搜索结果集中的搜索结果排序包括:
基于所述第一得分、第二得分及第三得分,确定每个搜索结果的第四得分;
根据每个搜索结果的第四得分对所述搜索结果集中的搜索结果排序。
可选地,所述一种用于文本搜索的方法还包括:
基于所述候选文本集及所述搜索结果集,确定用户行为特征,并作为样本添加至所述预设用户行为特征库。
进一步地,为了后续用于文本搜索的预设语料库涵盖的语料数据更丰富,所述一种用于文本搜索的方法还可以包括:将所述候选文本集中的候选文本作为样本,添加至所述预设语料库,和/或将返回的搜索结果作为样本,添加至所述预设语料库。
根据本申请的另一方面,还提供了一种用于文本搜索的系统,其中,所述系统包括:
第一模块,用于获取输入文本;
第二模块,用于基于预设词典,对所述输入文本进行预处理,以获得候选文本集,其中,所述候选文本集中的每个候选文本包含若干词元,其中,每个词元包含词文本、该词文本的标注词性及该词文本在该候选文本中的位置信息;
第三模块,用于基于所述候选文本集及预设语料库,识别用户搜索意图,并确定所述候选文本集中的相关词元及其权重;
第四模块,用于根据用户搜索意图,遍历每个候选文本进行文本搜索,并基于所述相关词元的权重及所述相关词元的位置信息,对获得的搜索结果进行评分,以获得搜索结果集,其中,所述搜索结果集中每个搜索结果关联一个第一得分;
第五模块,用于根据每个搜索结果的第一得分对所述搜索结果集中的搜索结果排序,并返回排序前N个搜索结果,其中,N是预设值。
可选地,其中,所述第四模块还用于:
根据每个搜索结果与所述预设语料库中语料数据的相似度,确定每个搜索结果的第二得分;
根据每个搜索结果与预设用户行为特征库中数据的匹配度,确定每个搜索结果的第三得分;
其中,所述第五模块用于:
基于所述第一得分、第二得分及第三得分,确定每个搜索结果的第四得分;
根据每个搜索结果的第四得分对所述搜索结果集中的搜索结果排序,并返回排序前N的搜索结果,其中,N是预设值。
与现有技术相比,本申请提供一种用于文本搜索的技术方案,该技术方案首先获取输入文本;接着基于预设词典,对输入文本进行预处理,以获得候选文本集,其中,所述候选文本集中的每个候选文本包含若干词元,其中,每个词元包含词文本、该词文本的标注词性及该词文本在该候选文本中的位置信息;再基于所述候选文本集及预设语料库,识别用户搜索意图,并确定所述候选文本集中的相关词元及其权重;然后根据用户搜索意图,遍历每个候选文本进行文本搜索,并基于所述相关词元的权重及所述相关词元的位置信息,对获得的搜索结果进行评分,以获得搜索结果集,其中,所述搜索结果集中每个搜索结果关联一个第一得分;最后根据每个搜索结果的第一得分对所述搜索结果集中的搜索结果排序,并返回排序前N个搜索结果,其中,N是预设值。本申请的技术方案可返回精准度较高的搜索结果。进一步地,引入语料库及用户特征库可对搜索结果再次评分、进行优化,可使得返回的搜索结果的精准度更高。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1示出根据本申请一个方面的一种用于文本搜索的方法流程图;
图2示出根据本申请另一个方面一种用于文本搜索的系统示意图;
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
为使本申请的目的、请求保护的技术方案和效果更加明确,下面结合实施例及附图对本申请请求保护的技术方案进行清楚、完整地描述。显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应属于本申请保护的范围。
在本申请实施例的典型配置中,系统各模块、设备和/或可信方可包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体,可以通过相关方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质可以包括但不限于:相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
为更进一步阐述本申请所采取的技术手段及取得的效果,下面结合附图及可选实施例,对本申请的技术方案,进行清楚和完整的描述。
图1示出本申请一个方面的一种用于文本搜索的方法流程图,其中,一个实施例的方法包括:
S11获取输入文本;
S12基于预设词典,对所述输入文本进行预处理,以获得候选文本集,其中,所述候选文本集中的每个候选文本包含若干词元,其中,每个词元包含词文本、该词文本的标注词性及该词文本在该候选文本中的位置信息;
S13基于所述候选文本集及预设语料库,识别用户搜索意图,并确定所述候选文本集中的相关词元及其权重;
S14根据用户搜索意图,遍历每个候选文本进行文本搜索,并基于所述相关词元的权重及所述相关词元的位置信息,对获得的搜索结果进行评分,以获得搜索结果集,其中,所述搜索结果集中每个搜索结果关联一个第一得分;
S15根据每个搜索结果的第一得分对所述搜索结果集中的搜索结果排序,并返回排序前N个搜索结果,其中,N是预设值。
在本申请中,所述方法通过的设备1执行,所述设备1为具有文本搜索功能或安装有文本搜索应用程序的智能终端设备、计算机设备和/或云。所述智能终端设备包括但不限于智能手机、平板电脑、智能可穿戴设备、智能机器人;所述计算机设备包括但不限于个人计算机、笔记本电脑、工业计算机、网络主机、单个网络服务器、多个网络服务器集;所述云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个虚拟超级计算机。
在此,所述智能终端设备、计算机设备和/或云仅为举例,其他现有的或者今后可能出现的设备和/或资源共享平台如适用于本申请也应包含在本申请的保护范围内,在此,以引用的方式包含于此。
在该实施例中,所述设备1中预先构建有词典、语料库、用户行为特征库。其中,构建的词典可用于确定通用词的关联词,还可用于确定针对垂直行业或专业应用场景中专用词的关联词。预先构建的语料库可以包括但不限于:国家语委的现代汉语语料库、北京大学汉语语言学研究中心的语料库、哈尔滨工业大学信息检索研究室的对外共享语料库资源、搜狗实验室的互联网语料库等通用语料库;还可以包括面向行业的垂直化语料库,如面向金融行业的SmoothNLP金融文本数据集;也可以立足于自身行业,预先通过收集自身行业的行业数据、行业专家知识、行业客户需求等,整理成行业数据集并进行标注后,再采用基于机器学习算法的NLP(Natural Language Processing,自然语言处理)技术,比如谷歌的BERT模型,自行构建面向自身行业的垂直化语料库。预先通过对不同用户的文本搜索的历史搜索轨迹数据进行挖掘,获取用户行为特征,包括但不限于:基本用户特征(如用户的性别、年龄、活跃度、职业、爱好、所处行业等)、时空特征(如历史文本包含的时间和/或地理信息)、喜好特征,整合获取的用户行为特征来构建用户行为特征库。
在所述步骤S11中,所述设备1获取用户输入的搜索文本,其中,用户可以是直接输入文字文本,若设备1具有的文本搜索功能或安装的文本搜索应用程序支持语音文本转文字文本功能,用户还可以输入语音文本,设备1将输入的语音文本先转换成文字文本。其他现有的或者今后可能出现的文本输入方式如适用于本申请也应包含在本申请的保护范围内。
继续在所述实施例中,在所述步骤S12中,设备1基于预设词典,对用户输入的文本进行预处理,以获得候选文本集,其中,所述候选文本集中的每个候选文本包含若干词元,其中,每个词元包含词文本、该词文本的标注词性及该词文本在该候选文本中的位置信息。
可选地,在所述步骤S12中,所述基于预设词典,对所述输入文本进行预处理,以获得候选文本集包括:
基于预设词典,对用户输入的文本进行分词,以获得若干词文本;
对每个词文本进行词性标注,以及确定该词文本在该用户输入的文本中的位置信息,以获得若干词元;
确定所述若干词文本中的一个或若干个为关键词,并确定所述关键词的关联词;
基于所述若干词元及所述关联词,获得候选文本集。
其中,设备1可以基于预设词典,采用基于机器学习算法的NLP技术,对用户输入的文本进行分词,得到若干词文本,在对各词文本进行词性标注及位置信息标注,得到若干词元,其中,每个词元包括词文本、标注的词性及在用户输入的文本中的位置信息。比如,采用包含预设词典的HanLP(Han Language Processing,汉语言处理)工具包,对于通用场景的输入文本,具有很好的分词及标注效果,而对于面向具体行业的输入文本,可能针对通用场景的HanLP的分词及标注效果就不一定很好,还需要采用适用面向具体行业的预设词典来辅助,从而获得更好效果。
上述实施例的一个应用场景中,比如,用户输入的文本为“xxx的妻子”,其中xxx为某个名人的名字,则设备1对该输入文本进行预处理,可分成“xxx”、“的”、“妻子”3个词文本,对应的标注词性分别为人名名词(比如用/nr符号标注)、助词(比如用/nj符号标注)、人称名词(比如用/nd符号标注),确定的对应位置信息分别为1、2、3,其中,可以确定其中的关键词为“xxx”、“妻子”,“xxx”的关联词可以是明星(或著名运动员、著名足球/篮球运动员)、歌星、娱乐明星等,“妻子”的关联词可以是夫人、老婆等,这样,就可以获得3个词元及相应的关联词:(xxx,/nr,1)及其关联词、(的,/nj,2)和(老婆,/nd,3)及其关联词。根据这3个词元及相应的关联词,可以获得候选文本集,其中包括若干候选文本,比如“xxx的妻子”、“明星的妻子”、“xxx的老婆”、“xxx的夫人”,甚至还可以是“xxx的妻子是谁”、“xxx的老婆叫什么”等等,以及每个候选文本对应的词元(没给词元同样包括词文本、标注的词性及其位置信息)。
继续在该实施例中,在所述步骤S13中,设备1基于所述候选文本集及预设语料库,识别用户搜索意图,并确定所述候选文本集中的相关词元及其权重。
其中,设备1根据前述步骤获得的候选文本集,结合预设的通用语料库和/或面向具体行业的垂直化语料库,可识别用户的搜索意图,优化搜索,并可在通过关联词扩大搜索范围的基础上,还可确定对进一步优化将返回的搜索结果有帮助的所述候选文本集中的相关词元及其权重。
可选地,在所述步骤S13中,所述基于所述候选文本集及预设语料库,识别用户搜索意图包括:
分别对每个候选文本进行语义分析,获得语义分析结果;
基于预设语料库生成分类规则,并根据所述分类规则及所述语义分析结果,识别用户搜索意图。
比如,采用贝叶斯分类器,对各候选文本进行语义分析,参照基于预设语料库生成的分类规则,进行贝叶斯分类,可初步确定用户的搜索意图是针对人、物、时间或者事件。比如上述实施例的一个应用场景,用户输入文本是“xxx的妻子”,经过预处理得到候选文本集,经过语义分析,参照基于预设语料库生成的分类规则,进行贝叶斯分类,可以初步确定用户的搜索意图是针对人或者事件。
可选地,为了进一步提高对语义分析结果分类的可解释性和/或准确性,其中,所述基于预设语料库生成分类规则,并根据所述分类规则及所述语义分析结果,识别用户搜索意图包括:
基于预设语料库生成分类规则,并对所述分类规则进行审核;
根据通过审核的分类规则及所述语义分析结果,识别用户搜索意图。
比如,对基于预设语料库生成的分类规则进行人工审核,和/或基于预设模板的审核,将通过审核的分类规则确定为用于对语义分析结果进行分类,以获得更具备可解释性和/或更准确的用户搜索意图识别效果。
可选地,在所述步骤S13中,所述相关词元的权重的确定包括以下至少一项:
根据相关词元的标注词性,确定相关词元权重;
对相关词元的词文本进行热词分析,并基于热词分析结果,确定相关词元权重;
基于用户历史搜索特征,确定相关词元权重。
所述实施例的一个应用场景中,比如,用户输入的搜索文本若为“xxx的妻子”,其中,标注词性为人名名词、人称名词要比连词具有更高权重;用户输入的搜索文本若为“新冠肺炎疫情”,通过预处理,可得到关联词如“covid-19”、“delta”、“新冠疫苗”、“灭活疫苗”等关联词,可根据一周、一个月等不同时间段内的搜索次数,比如,近一周“delta”的搜索很频繁,可根据搜索次数和时间两个维度赋予该热词以相应更高权重;可根据用户搜索历史和/或预设用户行文特征库,确定的用户历史搜索特征,比如用户经常搜索名人的信息,可给人名分配更高权重。
继续在所述实施例中,在所述步骤S14中,设备1根据确定的用户搜索意图,遍历每个候选文本进行文本搜索,并基于所述相关词元的权重及所述相关词元的位置信息,对获得的搜索结果进行评分,以获得搜索结果集,其中,所述搜索结果集中每个搜索结果关联一个第一得分,可标记为S1。
其中,设备1结合用户搜索意图,针对每个候选文本进行搜索,并结合前述的相关词元的权重,以及位置信息,对所有获得的每一个搜索结果进行评分,以获得搜索结果集。
继续在索索实施例中,在所述步骤S15中,设备1根据每个搜索结果的第一得分S1对所述搜索结果集中的搜索结果排序,并返回排序前N个搜索结果,其中,N是预设值。
通常,搜索结果可能非常多,全部返回给用户,用户的体验不会很好。可根据每一个搜索结果的得分从高到低进行排序,将搜索结果集中排序前N个搜索结果返回给用户,其中,N是预设的自然数。
可选地,为了进一步优化返回给用户的搜索结果,以使用户获得更好的体验,所述步骤S14还包括:
根据每个搜索结果与所述预设语料库中语料数据的相似度,确定每个搜索结果的第二得分;
根据每个搜索结果与预设用户行为特征库中数据的匹配度,确定每个搜索结果的第三得分;
其中,所述步骤S15包括:
基于所述第一得分、第二得分及第三得分,确定每个搜索结果的第四得分;
根据每个搜索结果的第四得分对所述搜索结果集中的搜索结果排序,并返回排序前N的搜索结果,其中,N是预设值。
其中,在根据相关词元权重及其位置信息对每个搜索结果进行评分获得第一得分S1后,还可以根据每个搜索结果与预设语料库中语料数据的相似度进行评分,确定每个搜索结果的第二得分S2,比如,采用TF-IDF(Term Frequency-Inverse Document Frequency,词频-逆文本频率指数)统计算法,若搜索结果与预设语料库中语料数据越相似,第二得分S2越高;还可以根据每个搜索结果与预设用户行为特征库中数据的匹配度,确定每个搜索结果的第三得分S3,比如,若搜索结果是用户经常搜索或与用户经常输入的搜索匹配度高,则第三得分S3也高。
其中,设备1根据每个搜索结果的第一得分S1、第二得分S2及第三得分S3,确定每个搜索结果的第四得分S4,S4可以采用如下公式确定:
S4=(S1+S2+S3)/(S1+S2+S3+1)
然后设备1根据每个搜索结果的第四得分S4对所有搜索结果进行由高向低的排序,将搜索结果集中排序前预设个数的搜索结果返回给用户。
可选地,所述一种用于文本搜索的方法还包括:
S16(未示出)基于所述候选文本集及所述搜索结果集,确定用户行为特征,并作为样本添加至所述预设用户行为特征库。
比如,结合搜索文本及返回的搜索结果,将其中人名、人称等关键词词及其关联词确定为用户的喜好特征,并作为样本添加至前述预设用户行为特征库。
进一步地,为了后续用于文本搜索的预设语料库涵盖的语料数据更丰富,所述一种用于文本搜索的方法还可以包括:将所述候选文本集中的候选文本作为样本,添加至所述预设语料库,和/或将返回的搜索结果作为样本,添加至所述预设语料库。
图2示出根据本申请另一个方面的一种用于文本搜索的系统示意图,其中,所述系统包括:
第一模块21,用于获取输入文本;
第二模块22,用于基于预设词典,对所述输入文本进行预处理,以获得候选文本集,其中,所述候选文本集中的每个候选文本包含若干词元,其中,每个词元包含词文本、该词文本的标注词性及该词文本在该候选文本中的位置信息;
第三模块23,用于基于所述候选文本集及预设语料库,识别用户搜索意图,并确定所述候选文本集中的相关词元及其权重;
第四模块24,用于根据用户搜索意图,遍历每个候选文本进行文本搜索,并基于所述相关词元的权重及所述相关词元的位置信息,对获得的搜索结果进行评分,以获得搜索结果集,其中,所述搜索结果集中每个搜索结果关联一个第一得分;
第五模块25,用于根据每个搜索结果的第一得分对所述搜索结果集中的搜索结果排序,并返回排序前N个搜索结果,其中,N是预设值。
在该实施例中,所述系统用于实施前述实施例的方法,所述系统集成在与前述设备1软硬件配置环境相同的设备中。
其中,该系统的第一模块21获取用户输入的搜索文本。该系统的第二模块22基于预设词典,对用户输入的文本进行预处理,以获得候选文本集,其中,所述候选文本集中的每个候选文本包含若干词元,其中,每个词元包含词文本、该词文本的标注词性及该词文本在该候选文本中的位置信息。该系统的第三模块23基于所述候选文本集及预设语料库,识别用户搜索意图,并确定所述候选文本集中的相关词元及其权重。该系统的第四模块24根据确定的用户搜索意图,遍历每个候选文本进行文本搜索,并基于所述相关词元的权重及所述相关词元的位置信息,对获得的搜索结果进行评分,以获得搜索结果集,其中,所述搜索结果集中每个搜索结果关联一个第一得分,可标记为S1。该系统的第五模块25根据每个搜索结果的第一得分S1对所述搜索结果集中的搜索结果排序,并返回排序前预设个数搜索结果。
可选地,所述第四模块24还用于:
根据每个搜索结果与所述预设语料库中语料数据的相似度,确定每个搜索结果的第二得分;
根据每个搜索结果与预设用户行为特征库中数据的匹配度,确定每个搜索结果的第三得分;
其中,所述第五模块25用于:
基于所述第一得分、第二得分及第三得分,确定每个搜索结果的第四得分;
根据每个搜索结果的第四得分对所述搜索结果集中的搜索结果排序,并返回排序前N的搜索结果,其中,N是预设值。
其中,第四模块24在根据相关词元权重及其位置信息对每个搜索结果进行评分获得第一得分S1后,还可以根据每个搜索结果与预设语料库中语料数据的相似度进行评分,确定每个搜索结果的第二得分S2,比如,采用TF-IDF统计算法,若搜索结果与预设语料库中语料数据越相似,第二得分S2越高;还可以根据每个搜索结果与预设用户行为特征库中数据的匹配度,确定每个搜索结果的第三得分S3,比如,若搜索结果是用户经常搜索或与用户经常输入的搜索匹配度高,则第三得分S3也高。
其中,第五模块25根据每个搜索结果的第一得分S1、第二得分S2及第三得分S3,确定每个搜索结果的第四得分S4,S4可以采用如下公式确定:
S4=(S1+S2+S3)/(S1+S2+S3+1)
然后根据每个搜索结果的第四得分S4对所有搜索结果进行由高向低的排序,将搜索结果集中排序前预设个数的搜索结果返回给用户。
可选地,所述一种用于文本搜索的系统还包括:
第六模块26(未示出),用于基于所述候选文本集及所述搜索结果集,确定用户行为特征,并作为样本添加至所述预设用户行为特征库。
进一步地,为了后续用于文本搜索的预设语料库涵盖的语料数据更丰富,所述系统的第六模块26还用于将所述候选文本集中的候选文本作为样本,添加至所述预设语料库,和/或将返回的搜索结果作为样本,添加至所述预设语料库。
根据本申请的又一方面,还提供了一种计算机可读介质,所述计算机可读介质存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现前述方法。
需要注意的是,本申请可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本申请中涉及的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中。另外,本申请的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本申请的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本申请的一个实施例包括一个设备,该设备包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该设备运行基于前述根据本申请的多个实施例的方法和/或技术方案。
根据本申请的还一方面,还提供了一种用于文本搜索的设备,其中,该设备包括:
一个或多个处理器;以及
存储有计算机可读指令的存储器,所述计算机可读指令在被执行时使所述处理器执行如前述方法的操作。
例如,计算机可读指令在被执行时使所述一个或多个处理器:获取输入文本;基于预设词典,对所述输入文本进行预处理,以获得候选文本集;基于所述候选文本集及预设语料库,识别用户搜索意图,并确定所述候选文本集中的相关词元及其权重;根据用户搜索意图,遍历每个候选文本进行文本搜索,并基于所述相关词元的权重及所述相关词元的位置信息,对获得的搜索结果进行评分,以获得搜索结果集,其中,所述搜索结果集中每个搜索结果关联一个第一得分;根据每个搜索结果的第一得分对所述搜索结果集中的搜索结果排序,并返回排序前预设个数搜索结果。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件和/或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (9)

1.一种用于文本搜索的方法,其特征在于,所述方法包括:
获取输入文本;
基于预设词典,对所述输入文本进行预处理,以获得候选文本集,其中,所述候选文本集中的每个候选文本包含若干词元,其中,每个词元包含词文本、该词文本的标注词性及该词文本在该候选文本中的位置信息;
基于所述候选文本集及预设语料库,识别用户搜索意图,并确定所述候选文本集中的相关词元及其权重;
根据用户搜索意图,遍历每个候选文本进行文本搜索,并基于所述相关词元的权重及所述相关词元的位置信息,对获得的搜索结果进行评分,以获得搜索结果集,其中,所述搜索结果集中每个搜索结果关联一个第一得分,根据每个搜索结果与所述预设语料库中语料数据的相似度,确定每个搜索结果的第二得分,根据每个搜索结果与预设用户行为特征库中数据的匹配度,确定每个搜索结果的第三得分,基于所述第一得分、第二得分及第三得分,确定每个搜索结果的第四得分;
根据每个搜索结果的第四得分对所述搜索结果集中的搜索结果排序,并返回排序前N个搜索结果,其中,N是预设值。
2.根据权利要求1所述的方法,其特征在于,所述基于预设词典,对所述输入文本进行预处理,以获得候选文本集包括:
基于预设词典,对所述输入文本进行分词,以获得若干词文本;
对每个词文本进行词性标注及确定该词文本在所述输入文本中的位置信息,以获得若干词元;
确定所述若干词文本中的一个或若干个为关键词,并确定所述关键词的关联词;
基于所述若干词元及所述关联词,获得候选文本集。
3.根据权利要求1所述的方法,其特征在于,所述基于所述候选文本集及预设语料库,识别用户搜索意图包括:
分别对每个候选文本进行语义分析,获得语义分析结果;
基于预设语料库生成分类规则,并根据所述分类规则及所述语义分析结果,识别用户搜索意图。
4.根据权利要求3所述的方法,其特征在于,所述基于预设语料库生成分类规则,并根据所述分类规则及所述语义分析结果,识别用户搜索意图包括:
基于预设语料库生成分类规则,并对所述分类规则进行审核;
根据通过审核的分类规则及所述语义分析结果,识别用户搜索意图。
5.根据权利要求1所述的方法,其特征在于,所述相关词元的权重的确定包括以下至少一项:
根据相关词元的标注词性,确定相关词元权重;
对相关词元的词文本进行热词分析,并基于热词分析结果,确定相关词元权重;
基于用户历史搜索特征,确定相关词元权重。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于所述候选文本集及所述搜索结果集,确定用户行为特征,并作为样本添加至所述预设用户行为特征库。
7.一种用于文本搜索的系统,其特征在于,所述系统包括:
第一模块,用于获取输入文本;
第二模块,用于基于预设词典,对所述输入文本进行预处理,以获得候选文本集,其中,所述候选文本集中的每个候选文本包含若干词元,其中,每个词元包含词文本、该词文本的标注词性及该词文本在该候选文本中的位置信息;
第三模块,用于基于所述候选文本集及预设语料库,识别用户搜索意图,并确定所述候选文本集中的相关词元及其权重;
第四模块,用于根据用户搜索意图,遍历每个候选文本进行文本搜索,并基于所述相关词元的权重及所述相关词元的位置信息,对获得的搜索结果进行评分,以获得搜索结果集,其中,所述搜索结果集中每个搜索结果关联一个第一得分,根据每个搜索结果与所述预设语料库中语料数据的相似度,确定每个搜索结果的第二得分,根据每个搜索结果与预设用户行为特征库中数据的匹配度,确定每个搜索结果的第三得分,基于所述第一得分、第二得分及第三得分,确定每个搜索结果的第四得分;
第五模块,用于根据每个搜索结果的第四得分对所述搜索结果集中的搜索结果排序,并返回排序前N个搜索结果,其中,N是预设值。
8.一种计算机可读介质,其特征在于,
其上存储有计算机可读指令,所述计算机可读指令被处理器执行以实现如权利要求1至6中任一项所述的方法。
9.一种用于文本搜索的设备,其特征在于,该设备包括:
一个或多个处理器;以及
存储有计算机可读指令的存储器,所述计算机可读指令在被执行时使所述处理器执行如权利要求1至6中任一项所述方法的操作。
CN202110795549.4A 2021-07-14 2021-07-14 一种用于文本搜索的方法及设备 Active CN113515940B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110795549.4A CN113515940B (zh) 2021-07-14 2021-07-14 一种用于文本搜索的方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110795549.4A CN113515940B (zh) 2021-07-14 2021-07-14 一种用于文本搜索的方法及设备

Publications (2)

Publication Number Publication Date
CN113515940A CN113515940A (zh) 2021-10-19
CN113515940B true CN113515940B (zh) 2022-12-13

Family

ID=78067129

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110795549.4A Active CN113515940B (zh) 2021-07-14 2021-07-14 一种用于文本搜索的方法及设备

Country Status (1)

Country Link
CN (1) CN113515940B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101158971A (zh) * 2007-11-15 2008-04-09 深圳市迅雷网络技术有限公司 一种基于搜索引擎的搜索结果排序方法及装置
CN108509474A (zh) * 2017-09-15 2018-09-07 腾讯科技(深圳)有限公司 搜索信息的同义词扩展方法及装置
CN109189990A (zh) * 2018-07-25 2019-01-11 北京奇艺世纪科技有限公司 一种搜索词的生成方法、装置及电子设备
CN109657044A (zh) * 2018-12-14 2019-04-19 北京向上心科技有限公司 数据检索方法、数据排序方法、装置、终端以及存储介质
CN113434789A (zh) * 2021-06-29 2021-09-24 平安科技(深圳)有限公司 基于多维度文本特征的搜索排序方法及相关设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598445B (zh) * 2013-11-01 2019-05-10 腾讯科技(深圳)有限公司 自动问答系统和方法
CN104731797B (zh) * 2013-12-19 2018-09-18 北京新媒传信科技有限公司 一种提取关键词的方法及装置
CN110276067B (zh) * 2019-05-07 2022-11-22 创新先进技术有限公司 文本意图确定方法以及装置
CN112035730B (zh) * 2020-11-05 2021-02-02 北京智源人工智能研究院 一种语义检索方法、装置及电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101158971A (zh) * 2007-11-15 2008-04-09 深圳市迅雷网络技术有限公司 一种基于搜索引擎的搜索结果排序方法及装置
CN108509474A (zh) * 2017-09-15 2018-09-07 腾讯科技(深圳)有限公司 搜索信息的同义词扩展方法及装置
CN109189990A (zh) * 2018-07-25 2019-01-11 北京奇艺世纪科技有限公司 一种搜索词的生成方法、装置及电子设备
CN109657044A (zh) * 2018-12-14 2019-04-19 北京向上心科技有限公司 数据检索方法、数据排序方法、装置、终端以及存储介质
CN113434789A (zh) * 2021-06-29 2021-09-24 平安科技(深圳)有限公司 基于多维度文本特征的搜索排序方法及相关设备

Also Published As

Publication number Publication date
CN113515940A (zh) 2021-10-19

Similar Documents

Publication Publication Date Title
US11514235B2 (en) Information extraction from open-ended schema-less tables
US11030199B2 (en) Systems and methods for contextual retrieval and contextual display of records
US10025819B2 (en) Generating a query statement based on unstructured input
JP5936698B2 (ja) 単語意味関係抽出装置
US8073877B2 (en) Scalable semi-structured named entity detection
US7269544B2 (en) System and method for identifying special word usage in a document
US20130060769A1 (en) System and method for identifying social media interactions
EP3977332A1 (en) Keyphrase extraction beyond language modeling
US20170300565A1 (en) System and method for entity extraction from semi-structured text documents
WO2015149533A1 (zh) 一种基于网页内容分类进行分词处理的方法和装置
US11216618B2 (en) Query processing method, apparatus, server and storage medium
EP4113329A1 (en) Method, apparatus and device used to search for content, and computer-readable storage medium
CN110162778B (zh) 文本摘要的生成方法及装置
CN111767738A (zh) 一种标签校验方法、装置、设备和存储介质
EP2707808A2 (en) Exploiting query click logs for domain detection in spoken language understanding
CN109344397B (zh) 文本特征词语的提取方法及装置、存储介质及程序产品
CN113515940B (zh) 一种用于文本搜索的方法及设备
WO2019231635A1 (en) Method and apparatus for generating digest for broadcasting
Hung et al. Aafndl-an accurate fake information recognition model using deep learning for the vietnamese language
KR102625347B1 (ko) 동사와 형용사와 같은 품사를 이용한 음식 메뉴 명사 추출 방법과 이를 이용하여 음식 사전을 업데이트하는 방법 및 이를 위한 시스템
Nimavat et al. QUERY-BASED SUMMARIZATION METHODS FOR CONVERSATIONAL AGENTS: AN OVERVIEW.
US20240046039A1 (en) Method for News Mapping and Apparatus for Performing the Method
Sivashankari et al. NLP-MTFLR: document-level prioritization and identification of dominant multi-word named products in customer reviews
Yang et al. Sentiment Classification for Web Search Results
Miao et al. Entity attribute discovery and clustering from online reviews

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 200331 room e176, 1f, 406 Gulang Road, Putuo District, Shanghai

Applicant after: Shanghai Xinyi Intelligent Technology Co.,Ltd.

Address before: 200080 7th floor, No.137 Haining Road, Hongkou District, Shanghai

Applicant before: Shanghai Xinyi Intelligent Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant