CN111966869A - 短语提取方法、装置、电子设备及存储介质 - Google Patents
短语提取方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN111966869A CN111966869A CN202010648123.1A CN202010648123A CN111966869A CN 111966869 A CN111966869 A CN 111966869A CN 202010648123 A CN202010648123 A CN 202010648123A CN 111966869 A CN111966869 A CN 111966869A
- Authority
- CN
- China
- Prior art keywords
- phrase
- document
- matching
- query
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 23
- 230000011218 segmentation Effects 0.000 claims abstract description 31
- 238000000034 method Methods 0.000 claims abstract description 13
- 230000006870 function Effects 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 8
- 230000015654 memory Effects 0.000 claims description 7
- 238000012795 verification Methods 0.000 claims description 3
- 238000009941 weaving Methods 0.000 description 11
- 238000013145 classification model Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000009944 hand knitting Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 235000012149 noodles Nutrition 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种短语提取方法、装置、电子设备及存储介质,该方法包括:获取用户查询语句对应的搜索日志,所述搜索日志包括与所述用户查询语句对应的文档集合,所述文档集合中的文档包括至少两个字段;根据所述搜索日志,确定所述用户查询语句与所述文档的匹配结果,所述匹配结果包括所述文档的匹配字段和匹配的查询子串;根据所述匹配结果,通过超参数不同的至少一个整数线性规划模型分别对所述用户查询语句进行切分,并将切分得到的查询子串与文档的各个字段进行匹配,生成至少一个候选短语;分别对所述至少一个候选短语进行校验,并将校验成功的候选短语保存至短语库中。本申请实施例实现了对多个字段的匹配,提高了匹配的灵活性。
Description
技术领域
本申请实施例及互联网技术领域,特别是涉及一种短语提取方法、装置、电子设备及存储介质。
背景技术
查询实体识别模块是搜索系统的基本处理模块,该模块的输入是用户的自然语言查询,输出是切分后的短语以及短语类型;召回模块会利用查询实体识别模块输出的短语以及短语类型生成召回语法,从数据库表中检索相关记录。查询实体识别依赖离线挖掘的查询短语库,短语库是否全面准确会影响实体识别效果。如果查询中的短语未出现在短语库,那么实体识别输出会将该短语被标记为“未知”。在召回阶段,“未知”短语会按照默认召回语法进行召回,而默认召回语法可能带来误召回,如图1所示。
为了降低误召回对搜索结果相关性的影响,需要提升实体短语库对查询短语的覆盖。可以从搜索日志中挖掘实体短语。现有技术中,在网页搜索中使用匹配信息生成候选短语,即用户点击过的搜索结果与原始查询的公共子串代表候选查询短语;使用贝叶斯模型计算候选短语概率;使用候选短语的出现频次以及候选短语在网页集合中的先验概率(基于Web N-gram统计频次)推断候选短语概率;候选短语概率集成到概率排序模型,提升排序结果的相关性。
由于网页搜索中只需要匹配用户查询与搜索结果的文档标题,即通过搜索日志挖掘短语只需要匹配一个字段,而实际上,搜索引擎不只包含一个索引字段,往往包含多个字段,从而匹配信息也需要包含多个字段的匹配,而现有技术显然不适用于多个字段的匹配,导致短语匹配效果较差,而且贝叶斯模型限定了对模型目标进行调整的空间,只能优化最大似然,而无法调整较多的参数,灵活性较差。
发明内容
本申请实施例提供一种短语提取方法、装置、电子设备及存储介质,以实现对多个字段的匹配,提高匹配灵活性。
为了解决上述问题,第一方面,本申请实施例提供了一种短语提取方法,包括:
获取用户查询语句对应的搜索日志,所述搜索日志包括与所述用户查询语句对应的文档集合,所述文档集合中的文档包括至少两个字段;
根据所述搜索日志,确定所述用户查询语句与所述文档的匹配结果,所述匹配结果包括所述文档的匹配字段和匹配的查询子串;
根据所述匹配结果,通过超参数不同的至少一个整数线性规划模型分别对所述用户查询语句进行切分,并将切分得到的查询子串与文档的各个字段进行匹配,生成至少一个候选短语;
分别对所述至少一个候选短语进行校验,并将校验成功的候选短语保存至短语库中。
第二方面,本申请实施例提供了一种短语提取装置,包括:
搜索日志获取模块,用于获取用户查询语句对应的搜索日志,所述搜索日志包括与所述用户查询语句对应的文档集合,所述文档集合中的文档包括至少两个字段;
匹配结果确定模块,用于根据所述搜索日志,确定所述用户查询语句与所述文档的匹配结果,所述匹配结果包括所述文档的匹配字段和匹配的查询子串;
候选短语生成模块,用于根据所述匹配结果,通过超参数不同的至少一个整数线性规划模型分别对所述用户查询语句进行切分,并将切分得到的查询子串与文档的各个字段进行匹配,生成至少一个候选短语;
短语保存模块,用于分别对所述至少一个候选短语进行校验,并将校验成功的候选短语保存至短语库中。
第三方面,本申请实施例还提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本申请实施例所述的短语提取方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时本申请实施例公开的短语提取方法的步骤。
本申请实施例提供的短语提取方法、装置、电子设备及存储介质,通过根据用户查询语句对应的搜索日志,确定用户查询语句与搜索日志中文档的匹配结果,根据匹配结果,通过超参数不同的至少一个整数线性规划模型对用户查询语句进行切分,并将切分得到的查询子串与文档的各个字段进行匹配,生成至少一个候选短语,分别对至少一个候选短语进行校验,并将校验成功的候选短语保存至短语库中,由于通过整数线性规划模型可以对文档的多个字段进行匹配,从而实现了对多个字段的匹配,提高了匹配的灵活性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是现有技术中短语库不全面导致误召回的示意图;
图2是本申请实施例一的短语提取方法流程图;
图3是本申请实施例二的短语提取装置的结构示意图;
图4是本申请实施例三的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例一
本实施例提供的一种短语提取方法,如图2所示,该方法包括:步骤210至步骤240。
步骤210,获取用户查询语句对应的搜索日志,所述搜索日志包括与所述用户查询语句对应的文档集合,所述文档集合中的文档包括至少两个字段。
其中,用户查询语句是用户输入的查询语句,可以是被实体识别模块标记为“未知”的短语,即在短语库中不存在该用户查询语句中的短语。用户查询语句对应的搜索日志是包括该用户查询语句的搜索日志。搜索日志包括用户标识、用户查询语句、文档标识和用户点击信息,用户点击信息是用户是否点击该文档标识对应的文档。所述至少两个字段例如包括商家名和地址等。
对于一个用户查询语句,在搜索日志中搜索包括该用户查询语句的日志,得到该用户查询语句对应的搜索日志,所述搜索日志中包括使用过该用户查询语句进行搜索的所有用户的用户标识,对应的文档集合,文档集合包括所有召回的文档标识,用户对每个文档的点击信息,即将用户查询语句对应的搜索日志整理为用户标识、用户查询语句、文档标识和用户点击信息的对应关系,该对应关系可以表示为如表1所示的形式,在表1中,用户点击信息为0表示用户未点击该文档,用户点击信息为1表示用户点击了该文档。
表1与用户查询语句对应的搜索日志
用户标识 | 用户查询语句 | 文档标识 | 用户点击信息 |
u1 | Q | d1 | 0 |
u1 | Q | d2 | 1 |
u2 | Q | d1 | 1 |
u2 | Q | d2 | 1 |
步骤220,根据所述搜索日志,确定所述用户查询语句与所述文档的匹配结果,所述匹配结果包括所述文档的匹配字段和匹配的查询子串。
根据所述搜索日志中的文档集合,获取文档集合中每个文档标识对应的至少两个字段,针对每个文档标识,确定用户查询语句与该文档标识对应文档的匹配结果,即确定用户查询语句与该文档的匹配字段,以及用户查询语句中与该匹配字段匹配的查询子串。
例如,文档包括三个字段,分别为商家名、团单、地址,用户查询语句是“手工编织”,召回的文档集合中包括文档d1和文档d2,文档d1和文档d2分别如下:
文档:d1
商家名:OK蛋糕坊
团单:纯手工制作
地址:塑料编织厂旁100米
文档:d2
商家名:本真手工编织
团单:手工编织
地址:北京朝阳劲松
在上述两个文档中,对于文档d1,用户查询语句中的查询子串“手工”出现在字段“团单”,用户查询语句中的查询子串“编织”出现在字段“地址”;对于文档2,用户查询语句中的查询子串“手工编织”同时出现在字段“商家名”和“团单”。
步骤230,根据所述匹配结果,通过超参数不同的至少一个整数线性规划模型分别对所述用户查询语句进行切分,并将切分得到的查询子串与文档的各个字段进行匹配,生成至少一个候选短语。
其中,整数线性规划(Integer Linear Programmingm,ILP)模型中的变量是取整数值的。本申请实施例中,整数线性规划模型的变量是切分得到的查询子串是否为短语,从而变量的值可以为两个整数,例如可以用0和1来分别表示切分得到的查询子串不是短语和切分得到的查询子串是短语。
通过每个整数线性规划模型分别对用户查询语句进行切分,并将切分得到的查询子串与文档的各个字段进行匹配,结合用户查询语句与文档的匹配结果,来对整数线性规划模型的目标函数进行优化,确定一种最优切分方式,根据该最优切分方式,生成至少一个候选短语。每个整数线性规划模型对应一种最优切分方式,生成至少一个候选短语,从而超参数不同的至少一个整数线性规划模型对应至少一种最优切分方式,可以生成至少一个候选短语。超参数不同的整数线性规划模型对应的最优切分方式不同。
在本申请的一个实施例中,所述整数线性规划模型包括目标函数和约束条件,所述目标函数和所述约束条件包括超参数;
所述生成至少一个候选短语,包括:
在约束条件的约束下,确定目标函数值最大时的切分方式,并生成与该切分方式对应的候选短语。
整数线性规划模型是在约束条件的约束下,求取目标函数值的最大值,并确定目标函数值最大时的切分方式,并使用该切分方式对用户查询语句进行切分,得到与该切分方式对应的候选短语。
其中,所述匹配结果还包括所述查询子串在所述用户查询语句中的匹配开始位置和匹配终止位置;
所述目标函数表示如下:
所述约束条件为:
xij-xijpf≥0 0≤i≤j≤N如 果ymnpf=1
xij∈{0,1} 1≤i≤j≤N
其中,S表示所述文档集合,p表示文档,f表示字段,ωp表示文档p的权重,ωf表示字段f的权重,xij是变量,表示查询子串Qij是否为短语,xij=1表示查询子串Qij是短语,xij=0表示查询子串Qij不是短语,xijpf表示查询子串Qij是否出现在文档p的f字段,Score(xijpf)表示切分方式对应的匹配得分,ω(xij)表示切分后的查询子串Qij对应的权重,ymnpf是一个所述匹配结果,即用户查询语句中从匹配开始位置m到匹配终止位置n的查询子串Qmn出现在文档p的f字段中,xmax表示查询的最大短语数,Qij表示所述用户查询语句中从位置i到j构成的查询子串,N为用户查询语句的长度,xmax、ωp、ωf、ω(xij)为所述整数线性规划模型的超参数。
根据搜索日志确定的用户查询语句与文档的匹配结果中还包括匹配到的查询子串在用户查询语句中的匹配开始位置和匹配终止位置。例如,对于上述“手工编织”的用户查询语句,对于文档d1,用户查询语句中的查询子串“手工”出现在字段“团单”,而查询子串“手工”在用户查询语句“手工编织”的匹配开始位置为0,匹配终止位置为2,而用户查询语句中的查询子串“编织”出现在字段“地址”,而查询子串“编织”在用户查询语句“手工编织”的匹配开始位置为2,匹配终止位置为4;对于文档2,用户查询语句中的查询子串“手工编织”同时出现在字段“商家名”和“团单”,而查询子串“手工编织”在用户查询语句“手工编织”的匹配开始位置为0,匹配终止位置为4。用户查询语句与文档的匹配结果可以表示为如表2所示的形式。
表2用户查询语句与文档的匹配结果
在通过整数线性规划模型来确定切分方式时,主要是在约束条件的约束下,求取目标函数值最大时的切分方式,而不同的切分方式会使得变量xijpf取不同的值,变量xijpf在不同切分方式下的取值还和搜索日志中得到的用户查询语句与文档的匹配结果有关,即约束条件是在用户查询语句与文档的匹配结果的约束下确定变量xijpf的取值。
约束条件中第一条约束条件即是指在对用户查询语句进行切分时,不能重复切分,即不能切分为字符重复的多个短语,比如用户查询语句为“手工编织”,在一次切分中,将“手工编织”切分为“手工”和“编织”,就不能再切分出短语“工编”,因为该短语“工编”与“手工”和“编织”均存在重复字符。约束条件第二条即xij-xijpf≥0是指在用户查询语句与文档有匹配的查询子串时,该用户查询语句存在可以切分出的短语。约束条件第三条即是指在用户查询语句与文档有匹配的查询子串时,在该查询子串中切分时最多只会存在一个短语。约束条件第四条即是指对用户查询语句切分出的短语数不能超过最大短语数。约束条件第六条即最后一条是指在用户查询语句与文档有匹配的查询子串时,在该匹配的查询子串中切分时可以存在短语,而其他的子串中不存在短语。
超参数xmax、ωp、ωf、ω(xij)可以根据不同的设置方式来设置具体的值或者设置获取超参数值的方式,不同设置方式的组合可以对应不同的整数线性规划模型。当然,也可以根据需要只设置一种超参数的组合方式,从而获得满足需求的候选短语。超参数的不同决定了得到的候选短语的不同,从而根据需求灵活调整超参数,可以获得不同的候选短语。查询的最大短语数xmax可以是预先设置的值,例如可以为2或者3等。文档的权重ωp可以根据点击率来确定,或者也可以根据其他方式来进行设置。字段的权重ωf可以用户的查询意图来确定权重,即对用户查询语句进行理解,确定用户的查询意图,比如用户查询语句为“金百万”,通过识别,金百万为商家名,则将商家名这个字段的权重设置的较高,其他字段的权重设置的相对较低。查询子串的权重ω(xij)可以是子串长度的函数,也可以设置为其他的值。
在本申请的一个实施例中,所述方法还包括:
从所述搜索日志中获取文档的点击信息,并根据所述点击信息确定文档的点击率,将所述点击率作为文档的权重;或者
将文档对应的预设得分,作为文档的权重。
在确定文档的权重时,可以将文档的点击率作为文档的权重,或者,还可以将文档对应的预设得分作为文档的权重。文档对应的预设得分可以是设置每个文档对应的预设得分,或者,还可以是将文档分为不同的级别,每个级别对应一个预设得分,从而可以在确定文档的预设得分时,可以确定该文档的级别,从而获取到该文档对应的预设得分。例如,在外卖领域,用户查询语句一般是搜索的商家名或者菜品等,这时每个商家会对应一个商家级别,每个商家级别对应一个预设得分,从而将该预设得分作为商家的预设得分。
当然,除了上述两种确定文档的权重的方式外,还可以采用其他的方式确定文档的权重。
在本申请的一个实施例中,ω(xij)为关于查询子串长度的函数,表示如下:
ω(xij)=αj-i
其中,α是大于0且小于1的预设系数,或者是大于1的预设系数,i为查询子串在用户查询语句中的起始位置,j为查询子串在用户查询语句中的终止位置。
查询子串的权重可以是关于查询子串长度的函数,即查询子串的权重与查询子串的长度有关,例如若倾向于选择短的子串,则将预设系数α设置为大于0且小于1的值,若倾向于选择长的子串,则将预设系数α设置为大于1的预设系数。通过根据将关于查询子串长度的函数来确定查询子串的权重,不同的帧数线性规划模型可以使用不同预设系数来确定查询子串的权重,从而可以生成不同长度的候选短语。
步骤240,分别对所述至少一个候选短语进行校验,并将校验成功的候选短语保存至短语库中。
在通过超参数不同的至少一个整数线性规划模型生成至少一个候选短语后,有的候选短语可能不符合需求,可以先对候选短语进行校验,将校验成功的候选短语保存至短语库中,从而在接收到用户使用所述用户查询语句进行搜索时,查询实体识别模块可以从短语库中获取到该用户查询语句切分后的短语,从而召回模块可以召回较为准确的搜索结果。
在本申请的一个实施例中,所述分别对所述至少一个候选短语进行校验,并将校验成功的候选短语保存至短语库中,可选包括:按照预设校验方式分别对所述至少一个候选短语进行校验,并将校验成功的候选短语作为目标短语;确定所述目标短语的短语标签,并将所述目标短语和短语标签对应保存至短语库中。
其中,所述短语标签可以是短语类型的标签。例如,在外卖搜索领域汇总,短语标签可以是火锅、香锅、面条、辣味菜品、不辣菜品等。
为了避免整数线性规划模型生成的候选短语不是真正需要的短语,需要按照预设校验方式分别对整数线性规划模型生成的至少一个候选短语进行校验,以将校验成功的候选短语作为目标短语,并将该目标短语保存至短语库中。可以根据需求预先设置校验方式,作为预设校验方式,以在对候选短语进行校验时获取到满足需求的短语。在将目标短语保存至短语库时,需要确定目标短语的短语标签,可以使用统计分类模型来对目标短语进行分类,得到目标短语对应的短语标签,从而将目标短语和短语标签对应保存至短语库中。通过对候选短语进行校验,提高了保存的目标短语的正确性,从而避免了保存不需要的短语占用过多的空间。其中,统计分类模型可以基于短语库(包含短语和短语标签)来构建;分类模型也可以引入其他数据源进行预测,如短语在其他语料(如用户评论、网页集合)中出现的上下文信息等。
其中,所述预设校验方式包括:
所述候选短语在预设时间内的搜索日志中出现的频次大于或等于预设频次阈值;和/或
所述候选短语随机切分的互信息小于或等于预设互信息阈值。
其中,预设时间内的搜索日志是指搜索日志的时间在预设时间内的所有搜索日志,例如在最近一年内的搜索日志,这里预设时间内的搜索日志和上述用户查询语句对应的搜索日志是不同的,用户查询语句对应的搜索日志是只包含某一个用户查询语句的搜索日志。
获取预设时间内的搜索日志,并统计候选短语在预设时间内的搜索日志中出现的频次,也就是统计候选短语作为用户查询语句在预设时间内被用户搜索的频次,并将频次大于或等于预设频次阈值的候选短语作为目标短语。通过该预设校验样式,可以保留搜索量较高的短语,减少短语库的规模。
在通过候选短语的互信息对候选短语进行校验时,首先计算候选短语随机切分的互信息,可以按照如下公式计算候选短语随机切分的互信息:
其中,v表示候选短语,<ul,ur>表示候选短语v的任意切分得到的两个子串,p(v)表示候选短语v在预设时间内的搜索日志中出现的概率,p(ul)表示子串ul在预设时间内的搜索日志中出现的概率,p(ur)表示子串ur在预设时间内的搜索日志中出现的概率。
互信息PMI反映了候选短语概率足够大,并不是高频词随机共现所导致,从而提高了筛选出的目标短语的正确性。
本申请实施例提供的短语提取方法,通过根据用户查询语句对应的搜索日志,确定用户查询语句与搜索日志中文档的匹配结果,根据匹配结果,通过超参数不同的至少一个整数线性规划模型对用户查询语句进行切分,并将切分得到的查询子串与文档的各个字段进行匹配,生成至少一个候选短语,分别对至少一个候选短语进行校验,并将校验成功的候选短语保存至短语库中,由于通过整数线性规划模型可以对文档的多个字段进行匹配,从而实现了对多个字段的匹配,提高了匹配的灵活性。
实施例二
本实施例提供的一种短语提取装置,如图3所示,所述短语提取装置300包括:
搜索日志获取模块310,用于获取用户查询语句对应的搜索日志,所述搜索日志包括与所述用户查询语句对应的文档集合,所述文档集合中的文档包括至少两个字段;
匹配结果确定模块320,用于根据所述搜索日志,确定所述用户查询语句与所述文档的匹配结果,所述匹配结果包括所述文档的匹配字段和匹配的查询子串;
候选短语生成模块330,用于根据所述匹配结果,通过超参数不同的至少一个整数线性规划模型分别对所述用户查询语句进行切分,并将切分得到的查询子串与文档的各个字段进行匹配,生成至少一个候选短语;
短语保存模块340,用于分别对所述至少一个候选短语进行校验,并将校验成功的候选短语保存至短语库中。
可选的,所述整数线性规划模型包括目标函数和约束条件,所述目标函数和所述约束条件包括超参数;
所述候选短语生成模块包括:
目标优化单元,用于在约束条件的约束下,确定目标函数值最大时的切分方式,并生成与该切分方式对应的候选短语。
可选的,所述匹配结果还包括所述查询子串在所述用户查询语句中的匹配开始位置和匹配终止位置;
所述目标函数表示如下:
所述约束条件为:
xij-xijpf≥0 0≤i≤j≤N 如果ymnpf=1
xij∈{0,1} 1≤i≤j≤N
其中,S表示所述文档集合,p表示文档,f表示字段,ωp表示文档p的权重,ωf表示字段f的权重,xij是变量,表示查询子串Qij是否为短语,xij=1表示查询子串Qij是短语,xij=0表示查询子串Qij不是短语,xijpf表示查询子串Qij是否出现在文档p的f字段,Score(xijpf)表示切分方式对应的匹配得分,ω(xij)表示切分后的查询子串Qij对应的权重,ymnpf是一个所述匹配结果,即用户查询语句中从匹配开始位置m到匹配终止位置n的查询子串Qmn出现在文档p的f字段中,xmax表示查询的最大短语数,Qij表示所述用户查询语句中从位置i到j构成的查询子串,N为用户查询语句的长度,xmax、ωp、ωf、ω(xij)为所述整数线性规划模型的超参数。
可选的,所述装置还包括:
文档权重确定模块,用于从所述搜索日志中获取文档的点击信息,并根据所述点击信息确定文档的点击率,将所述点击率作为文档的权重;或者,将文档对应的预设得分,作为文档的权重。
可选的,ω(xij)为关于查询子串长度的函数,表示如下:
ω(xij)=αj-i
其中,α是大于0且小于1的预设系数,或者是大于1的预设系数,i为查询子串在用户查询语句中的起始位置,j为查询子串在用户查询语句中的终止位置。
可选的,所述短语保存模块包括:
短语校验单元,用于按照预设校验方式分别对所述至少一个候选短语进行校验,并将校验成功的候选短语作为目标短语;
短语保存单元,用于确定所述目标短语的短语标签,并将所述目标短语和短语标签对应保存至短语库中。
可选的,所述预设校验方式包括:
所述候选短语在预设时间内的搜索日志中出现的频次大于或等于预设频次阈值;和/或
所述候选短语随机切分的互信息小于或等于预设互信息阈值。
本申请实施例提供的短语提取装置,用于实现本申请实施例一中所述的短语提取方法的各步骤,装置的各模块的具体实施方式参见相应步骤,此处不再赘述。
本申请实施例提供的短语提取装置,通过根据用户查询语句对应的搜索日志,确定用户查询语句与搜索日志中文档的匹配结果,根据匹配结果,通过超参数不同的至少一个整数线性规划模型对用户查询语句进行切分,并将切分得到的查询子串与文档的各个字段进行匹配,生成至少一个候选短语,分别对至少一个候选短语进行校验,并将校验成功的候选短语保存至短语库中,由于通过整数线性规划模型可以对文档的多个字段进行匹配,从而实现了对多个字段的匹配,提高了匹配的灵活性。
实施例三
本申请实施例还提供了一种电子设备,如图4所示,该电子设备400可以包括一个或多个处理器410以及与处理器410连接的一个或多个存储器420。电子设备400还可以包括输入接口430和输出接口440,用于与另一装置或系统进行通信。被处理器410执行的程序代码可存储在存储器420中。
电子设备400中的处理器410调用存储在存储器420的程序代码,以执行上述实施例中的短语提取方法。
上述电子设备中的上述元件可通过总线彼此连接,总线例如数据总线、地址总线、控制总线、扩展总线和局部总线之一或其任意组合。
本申请实施例还公提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请实施例一所述的短语提取方法的步骤。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上对本申请实施例提供的一种短语提取方法、装置、电子设备及存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
Claims (10)
1.一种短语提取方法,包括:
获取用户查询语句对应的搜索日志,所述搜索日志包括与所述用户查询语句对应的文档集合,所述文档集合中的文档包括至少两个字段;
根据所述搜索日志,确定所述用户查询语句与所述文档的匹配结果,所述匹配结果包括所述文档的匹配字段和匹配的查询子串;
根据所述匹配结果,通过超参数不同的至少一个整数线性规划模型分别对所述用户查询语句进行切分,并将切分得到的查询子串与文档的各个字段进行匹配,生成至少一个候选短语;
分别对所述至少一个候选短语进行校验,并将校验成功的候选短语保存至短语库中。
2.根据权利要求1所述的方法,所述整数线性规划模型包括目标函数和约束条件,所述目标函数和所述约束条件包括超参数;
所述生成至少一个候选短语,包括:
在约束条件的约束下,确定目标函数值最大时的切分方式,并生成与该切分方式对应的候选短语。
3.根据权利要求2所述的方法,所述匹配结果还包括所述查询子串在所述用户查询语句中的匹配开始位置和匹配终止位置;
所述目标函数表示如下:
所述约束条件为:
xij-xijpf≥0 0≤i≤j≤N如果ymnpf=1
xij∈{0,1} 1≤i≤j≤N
其中,S表示所述文档集合,p表示文档,f表示字段,ωp表示文档p的权重,ωf表示字段f的权重,xij是变量,表示查询子串Qij是否为短语,xij=1表示查询子串Qij是短语,xij=0表示查询子串Qij不是短语,xijpf表示查询子串Qij是否出现在文档p的f字段,Score(xijpf)表示切分方式对应的匹配得分,ω(xij)表示切分后的查询子串Qij对应的权重,ymnpf是一个所述匹配结果,即用户查询语句中从匹配开始位置m到匹配终止位置n的查询子串Qmn出现在文档p的f字段中,xmax表示查询的最大短语数,Qij表示所述用户查询语句中从位置i到j构成的查询子串,N为用户查询语句的长度,xmax、ωp、ωf、ω(xij)为所述整数线性规划模型的超参数。
4.根据权利要求3所述的方法,还包括:
从所述搜索日志中获取文档的点击信息,并根据所述点击信息确定文档的点击率,将所述点击率作为文档的权重;或者
将文档对应的预设得分,作为文档的权重。
5.根据权利要求3所述的方法,ω(xij)为关于查询子串长度的函数,表示如下:
ω(xij)=αj-i
其中,α是大于0且小于1的预设系数,或者是大于1的预设系数,i为查询子串在用户查询语句中的起始位置,j为查询子串在用户查询语句中的终止位置。
6.根据权利要求1所述的方法,所述分别对所述至少一个候选短语进行校验,并将校验成功的候选短语保存至短语库中,包括:
按照预设校验方式分别对所述至少一个候选短语进行校验,并将校验成功的候选短语作为目标短语;
确定所述目标短语的短语标签,并将所述目标短语和短语标签对应保存至短语库中。
7.根据权利要求6所述的方法,所述预设校验方式包括:
所述候选短语在预设时间内的搜索日志中出现的频次大于或等于预设频次阈值;和/或
所述候选短语随机切分的互信息小于或等于预设互信息阈值。
8.一种短语提取装置,包括:
搜索日志获取模块,用于获取用户查询语句对应的搜索日志,所述搜索日志包括与所述用户查询语句对应的文档集合,所述文档集合中的文档包括至少两个字段;
匹配结果确定模块,用于根据所述搜索日志,确定所述用户查询语句与所述文档的匹配结果,所述匹配结果包括所述文档的匹配字段和匹配的查询子串;
候选短语生成模块,用于根据所述匹配结果,通过超参数不同的至少一个整数线性规划模型分别对所述用户查询语句进行切分,并将切分得到的查询子串与文档的各个字段进行匹配,生成至少一个候选短语;
短语保存模块,用于分别对所述至少一个候选短语进行校验,并将校验成功的候选短语保存至短语库中。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1至7任意一项所述的短语提取方法。
10.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现权利要求1至7任意一项所述的短语提取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010648123.1A CN111966869B (zh) | 2020-07-07 | 短语提取方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010648123.1A CN111966869B (zh) | 2020-07-07 | 短语提取方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111966869A true CN111966869A (zh) | 2020-11-20 |
CN111966869B CN111966869B (zh) | 2024-05-24 |
Family
ID=
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112925883A (zh) * | 2021-02-19 | 2021-06-08 | 北京百度网讯科技有限公司 | 搜索请求处理方法、装置、电子设备及可读存储介质 |
CN115114915A (zh) * | 2022-05-25 | 2022-09-27 | 腾讯科技(深圳)有限公司 | 短语识别方法、装置、设备和介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013101489A1 (en) * | 2011-12-29 | 2013-07-04 | Microsoft Corporation | Extracting search-focused key n-grams and/or phrases for relevance rankings in searches |
CN107436911A (zh) * | 2017-05-24 | 2017-12-05 | 阿里巴巴集团控股有限公司 | 模糊查询方法、装置及查询系统 |
CN107491547A (zh) * | 2017-08-28 | 2017-12-19 | 北京百度网讯科技有限公司 | 基于人工智能的搜索方法和装置 |
CN110196901A (zh) * | 2019-06-28 | 2019-09-03 | 北京百度网讯科技有限公司 | 对话系统的构建方法、装置、计算机设备和存储介质 |
CN110727862A (zh) * | 2019-09-24 | 2020-01-24 | 苏宁云计算有限公司 | 一种商品搜索的查询策略的生成方法及装置 |
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013101489A1 (en) * | 2011-12-29 | 2013-07-04 | Microsoft Corporation | Extracting search-focused key n-grams and/or phrases for relevance rankings in searches |
CN107436911A (zh) * | 2017-05-24 | 2017-12-05 | 阿里巴巴集团控股有限公司 | 模糊查询方法、装置及查询系统 |
CN107491547A (zh) * | 2017-08-28 | 2017-12-19 | 北京百度网讯科技有限公司 | 基于人工智能的搜索方法和装置 |
CN110196901A (zh) * | 2019-06-28 | 2019-09-03 | 北京百度网讯科技有限公司 | 对话系统的构建方法、装置、计算机设备和存储介质 |
CN110727862A (zh) * | 2019-09-24 | 2020-01-24 | 苏宁云计算有限公司 | 一种商品搜索的查询策略的生成方法及装置 |
Non-Patent Citations (1)
Title |
---|
李宇;刘波;: "文档检索中文本片段化机制的研究", 计算机科学与探索, no. 04 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112925883A (zh) * | 2021-02-19 | 2021-06-08 | 北京百度网讯科技有限公司 | 搜索请求处理方法、装置、电子设备及可读存储介质 |
CN112925883B (zh) * | 2021-02-19 | 2024-01-19 | 北京百度网讯科技有限公司 | 搜索请求处理方法、装置、电子设备及可读存储介质 |
CN115114915A (zh) * | 2022-05-25 | 2022-09-27 | 腾讯科技(深圳)有限公司 | 短语识别方法、装置、设备和介质 |
CN115114915B (zh) * | 2022-05-25 | 2024-04-12 | 腾讯科技(深圳)有限公司 | 短语识别方法、装置、设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6526329B2 (ja) | ウェブページトレーニング方法及び装置、検索意図識別方法及び装置 | |
CN106874441B (zh) | 智能问答方法和装置 | |
US9043197B1 (en) | Extracting information from unstructured text using generalized extraction patterns | |
CN104199965B (zh) | 一种语义信息检索方法 | |
US8204874B2 (en) | Abbreviation handling in web search | |
US8787683B1 (en) | Image classification | |
CN108038096A (zh) | 知识库文档快速检索方法、应用服务器计算机可读存储介质 | |
CN103678576A (zh) | 基于动态语义分析的全文检索系统 | |
US10528662B2 (en) | Automated discovery using textual analysis | |
CN108647322B (zh) | 基于词网识别大量Web文本信息相似度的方法 | |
CN110909160A (zh) | 正则表达式生成方法、服务器及计算机可读存储介质 | |
CN110059163B (zh) | 生成模板的方法和装置、电子设备、计算机可读介质 | |
US10565253B2 (en) | Model generation method, word weighting method, device, apparatus, and computer storage medium | |
CN105653562A (zh) | 一种文本内容与查询请求之间相关性的计算方法及装置 | |
CN111078832A (zh) | 一种智能客服的辅助应答方法及系统 | |
CN109948154B (zh) | 一种基于邮箱名的人物获取及关系推荐系统和方法 | |
CN106844482B (zh) | 一种基于搜索引擎的检索信息匹配方法及装置 | |
CN115905489A (zh) | 一种提供招投标信息搜索服务的方法 | |
CN115422372A (zh) | 一种基于软件测试的知识图谱构建方法和系统 | |
CN115422371A (zh) | 一种基于软件测试知识图谱的检索方法 | |
CN112579729B (zh) | 文档质量评价模型的训练方法、装置、电子设备和介质 | |
CN111324705A (zh) | 自适应性调整关连搜索词的系统及其方法 | |
CN111382385A (zh) | 网页所属行业分类方法及装置 | |
CN113449063B (zh) | 一种构建文档结构信息检索库的方法及装置 | |
CN111966869A (zh) | 短语提取方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |