CN104376065B - 检索词重要度的确定方法和装置 - Google Patents

检索词重要度的确定方法和装置 Download PDF

Info

Publication number
CN104376065B
CN104376065B CN201410636024.6A CN201410636024A CN104376065B CN 104376065 B CN104376065 B CN 104376065B CN 201410636024 A CN201410636024 A CN 201410636024A CN 104376065 B CN104376065 B CN 104376065B
Authority
CN
China
Prior art keywords
term
query statement
importance weight
machine learning
learning model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410636024.6A
Other languages
English (en)
Other versions
CN104376065A (zh
Inventor
石磊
张鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201410636024.6A priority Critical patent/CN104376065B/zh
Publication of CN104376065A publication Critical patent/CN104376065A/zh
Application granted granted Critical
Publication of CN104376065B publication Critical patent/CN104376065B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种检索词重要度的确定方法和装置。该方法包括:接收用户输入的查询语句,提取该查询语句中的检索词;获取所述检索词的特征信息;将所述查询语句和所述查询语句中检索词的特征信息输入预先得到的机器学习模型,获得所述机器学习模型输出的所述查询语句中检索词的重要性权值;其中,所述机器学习模型是对包含已标注重要性权值的检索词的样本查询语句以及所述已标注重要性权值的检索词的特征信息进行学习训练得到的。本方案结合用户输入的查询语句中检索词的特征信息,能够动态地得到用户输入的查询语句中不同特征信息的检索词的重要性权值,提高了得到的用户输入的查询语句中检索词的重要性权值的准确率。

Description

检索词重要度的确定方法和装置
技术领域
本发明实施例涉及信息检索技术领域,尤其涉及一种检索词重要度的确定方法和装置。
背景技术
现有技术中需要对用户输入的查询语句中的检索词在查询语句中的重要程度进行确定,从而根据确定结果检索到与查询语句相关度较高的网页内容。
现有的确定检索词的重要度的方法为:计算检索词的逆文档频率(InverseDocument Frequency,IDF)值,将IDF值作为反映检索词重要度的数值。
上述确定检索词的重要度的方法存在的缺陷在于:第一,IDF值是通过直接统计得到的,如果统计的数据量较小,则会影响IDF值的准确性;第二,IDF值的计算过程与检索过程脱离,导致得到的IDF的准确性低;第三,IDF值是静态的,导致对于同一个检索词,在不同查询语句中的IDF值相同,也即在不同的查询语句中同一个检索词的重要程度一样,例如“的”由于是停用词,IDF值通常很低,假设为1,静态的IDF值会导致该检索词“的”在查询语句“的的英文翻译”和查询语句“下载美女的图片”中的重要性相同,进而会导致查询结果的准确性低。
发明内容
本发明实施例提供一种检索词重要度的确定方法和装置,以动态确定用户输入的查询语句中检索词的重要性权值,提高检索词的重要性权值的准确性。
第一方面,本发明实施例提供了一种检索词重要度的确定方法,包括:
接收用户输入的查询语句,提取该查询语句中的检索词;
获取所述检索词的特征信息;
将所述查询语句和所述查询语句中检索词的特征信息输入预先得到的机器学习模型,获得所述机器学习模型输出的所述查询语句中检索词的重要性权值;
其中,所述机器学习模型是对包含已标注重要性权值的检索词的样本查询语句以及所述已标注重要性权值的检索词的特征信息进行学习训练得到的。
第二方面,本发明实施例提供了一种检索词重要度的确定装置,包括:
检索词获取模块,用于接收用户输入的查询语句,提取该查询语句中的检索词;
检索词特征信息获取模块,用于获取所述检索词的特征信息;
检索词重要性权值确定模块,用于将所述查询语句和所述查询语句中检索词的特征信息输入预先得到的机器学习模型,获得所述机器学习模型输出的所述查询语句中检索词的重要性权值;
其中,所述机器学习模型是对包含已标注重要性权值的检索词的样本查询语句以及所述已标注重要性权值的检索词的特征信息进行学习训练得到的。
本发明实施例提供的检索词重要度的确定方法和装置,预先对包含已标注重要性权值的检索词的样本查询语句以及所述已标注重要性权值的检索词的特征信息学习训练,得到机器学习模型,再根据用户输入的查询语句中检索词以及对应的特征信息,利用机器学习模型,从而得到用户输入的查询语句中检索词的重要性权值。由于训练机器学习模型利用了样本查询语句中检索词的特征信息,因此利用训练得到的机器学习模型,结合用户输入的查询语句中检索词的特征信息,能够动态地得到用户输入的查询语句中不同特征信息的检索词的重要性权值,提高了得到的用户输入的查询语句中检索词的重要性权值的准确率。
附图说明
为了更清楚地说明本发明,下面将对本发明中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1a为本发明实施例一提供的一种检索词重要度的确定方法的流程图;
图1b为本发明实施例一提供的一种短语生成树的示意图;
图1c为采用现有技术得到的一种搜索结果图;
图1d为采用本发明实施例的方法得到的与图1c对应的搜索结果图;
图1e为采用现有技术得到的另一种搜索结果图;
图1f为图1e中第一条搜索结果的示意图;
图1g为采用本发明实施例的方法得到的与图1e对应的搜索结果图;
图1h为图1g中第一条搜索结果的示意图;
图1i为采用现有技术得到的又一种搜索结果图;
图1j为采用本发明实施例的方法得到的与图1i对应的搜索结果图;
图2为本实施例提供三提供的一种检索词重要度的确定方法的流程图;
图3为本发明实施例四提供的一种检索词重要度的确定装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施例中的技术方案作进一步详细描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。可以理解的是,此处所描述的具体实施例仅用于解释本发明,而非对本发明的限定,基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。
实施例一
请参阅图1a,为本发明实施例一提供的一种检索词重要度的确定方法的流程图。本发明实施例的方法可以由配置以硬件和/或软件实现的检索词重要度的确定装置来执行,该实现装置典型的是配置于能够提供检索服务的搜索引擎中。
该方法包括:
110、接收用户输入的查询语句,提取该查询语句中的检索词。
通常,搜索引擎会提供搜索框,用户在搜索框内输入查询语句后,搜索引擎即接收到用户输入的查询语句。输入查询语句的方式除了通过搜索框主动输入之外,还可以通过搜索引擎提供给用户的语音输入动作入口实现,通过语音识别技术对用户输入的语音进行识别,从而得到用户输入的查询语句。
检索词是查询语句中的基本单位,利用切词技术,可以提取用户输入的查询语句中的检索词。
120、获取所述检索词的特征信息。
本操作具体是获取用户输入的查询语句中每个检索词对应的特征信息。本操作中既可以获取所述检索词的查询语句无关特征,也还可获取所述检索词的查询语句相关特征,还可以获取所述检索词的查询语句无关特征和查询语句相关特征。优选是,获取所述检索词的查询语句相关特征,或者,获取所述检索词的查询语句无关特征和查询语句相关特征。
所述查询语句无关特征可以包括:逆文档频率(inverse document frequency,IDF)、逆查询频率(inverse queryfrequency,IQF)、独立检索比、是否是标点、是否是英文、是否是ASCII字符串、是否是数字、查询词长度比中的至少一个。通过所述查询语句无关特征可以描述查询语句中检索词的基础重要性。
其中,检索词的独立检索比=检索词本身作为查询语句的检索频次(freq)/所有包含检索词的查询语句的检索频次;例如:检索词为“淘宝”,查询语句“淘宝”的freq为10,查询语句“淘宝双十一”的freq为5,查询语句“淘宝马云”的freq为5时,检索词“淘宝”的独立检索比=10/(10+5+5)=0.5。
查询词长度比=检索词的字节长度/查询语句的字节长度;例如:检索词“淘宝”的GB编码字节长度为4,查询语句“淘宝双十一”的GB编码字节长度为21时,检索词“淘宝”的查询词长度比=4/21=0.19。
其中,检索词的IDF越高,则对应的出现频次越低,即对应的重要性权值越低;反之,检索词的IDF越低,则对应的出现频次越高,即对应的重要性权值越高。
所述查询语句相关特征可以包括:短语生成树重要性特征值、词性、是否是专名中的至少一个。通过所述查询语句相关特征可以描述查询语句中检索词在所属的查询语句上下文中的重要程度。
下面结合图1b说明短语生成树重要性特征值。
如图1b所示的短语生成树的根为“淘宝马云双十一”,对应用户输入的查询语句,以“淘宝马云双十一”为根的子树覆盖了“淘宝马云双十一”中至少两个查询词的组合情况,换言之,以“淘宝马云双十一”为根的子树包括“淘宝双十一”子查询语句、“淘宝马云”子查询语句和“马云双十一”子查询语句;以“淘宝双十一”子查询语句为根的子树覆盖了“淘宝”和“双十一”两个检索词,以“淘宝马云”子查询语句为根的子树覆盖了“淘宝”和“马云”两个检索词,以“马云双十一”子查询语句为根的子树覆盖了“马云”和“双十一”两个检索词。
可以采用下述公式计算用户输入的查询语句“淘宝马云双十一”中每一个检索词的短语生成树重要性特征值:
其中:t代表检索词;
QF@-1(t)为检索词的短语生成树重要性特征值;
logR为以查询语句作为根的频次的log值;
logSi为检索词对应的第i个子查询语句的频次的log值;
wdr(t)为检索词的重要性词典值(rankdict);
α(t)为缩放因子,一般取1或者t的独立检索比。
130、将所述查询语句和所述查询语句中检索词的特征信息输入预先得到的机器学习模型,获得所述机器学习模型输出的所述查询语句中检索词的重要性权值;其中,所述机器学习模型是对包含已标注重要性权值的检索词的样本查询语句以及所述已标注重要性权值的检索词的特征信息进行学习训练得到的。
本操作中,所述样本查询语句可以包括监督样本查询语句和半监督样本查询语句,其中监督样本查询语句可以包括历史查询语句,半监督样本查询语句可以包括标注查询语句和/或聚类查询语句。
其中,所述历史查询语句可以从用户点击日志中获取,所述历史查询语句所包含的检索词的重要性权值通过将所述历史查询语句中的检索词与被用户点击的与所述历史查询语句对应的检索结果中的标题内容进行对比,并根据对比结果确定。具体地,在所述标题内容中出现的检索词的重要性权值高于在所述标题内容中未出现的检索词的重要性权值;或者,在所述标题内容中位置靠前的检索词的重要性权值高于在所述标题内容中位置靠后的检索词的重要性权值。
其中,所述标注查询语句所包含的检索词的重要性权值通过人工标注。
其中,所述聚类查询语句所包含的检索词的重要性权值根据所述聚类查询语句所属的聚类簇中各检索词的频率确定。一个聚类簇中包含的查询语句所表达的含义相同或相近,例如,查询语句“download lady gaga music”、查询语句“lady gaga music”和查询语句“lady gaga music latest”所属同一个聚类簇,根据各检索词的频率可以确定检索词“lady gaga”和检索词“music”的重要性权值高于其他检索词。也即,聚类查询语句是从聚类簇中提取的多条语句,通过将多条语句进行比对获得各条语句所包含检索词的重要性权值;举例说明,在多条语句中出现次数多的检索词的重要性权值高于在多条语句中出现次数少的检索词的重要性权值,比如在多条语句中均出现的检索词的重要性权值高于仅在其中一条语句中出现的检索词的重要性权值。
需要说明的是,所述历史查询语句对应监督样本,所述标注查询语句和所述聚类查询语句对应半监督样本。监督样本利用了高质量的历史查询语句和对应的检索结果,例如,“download(0.1)lady gaga(0.5)music(0.3)latest(0.1)”,括号中为各检索词的重要性权值。
还需要说明的是,现有技术中,通过IDF值确定检索词重要程度,其中IDF值只能从单一数据源统计。而本步骤中使用多种样本数据训练机器学习模型,避免了单一数据源错误可能导致的确定的检索词的重要性权值不准确的问题,本步骤通过融合监督样本和半监督样本,由于监督样本语句和半监督样本语句中检索词的重要性权值可能不同,因此结合用户输入的查询语句中检索词的特征信息,能够有效修正用户输入的查询语句中检索词的重要性权值,提高准确率,进而提高搜索引擎返回的前序搜索结果的相关性。
获得所述机器学习模型所采用的学习训练方法可以包括:GBrank模型训练方法,可以保证检索词的顺序的正确率,为了使得检索词对应的重要性权值位于0-1之间,可以利用softmax函数将GBrank模型输出结果归一化在0-1之间。以GBrank模型训练方法作为理论依据提高了机器学习模型的精度,从而提高了得到的用户输入的查询语句中检索词的重要性权值的准确度。
本实施例的技术方案,预先对包含已标注重要性权值的检索词的样本查询语句以及所述已标注重要性权值的检索词的特征信息学习训练,得到机器学习模型,再根据用户输入的查询语句中检索词以及对应的特征信息,利用机器学习模型,从而得到用户输入的查询语句中检索词的重要性权值。由于训练机器学习模型利用了样本查询语句中检索词的特征信息,因此利用训练得到的机器学习模型,结合用户输入的查询语句中检索词的特征信息,能够动态地得到用户输入的查询语句中不同特征信息的检索词的重要性权值,提高了得到的用户输入的查询语句中检索词的重要性权值的准确率。
下面通过图1c-图1j对比说明采用本实施例方法得到的检索结果。
示例1
用户在搜索引擎中获取信息的主要途径是主动输入查询语句,由于用户知识背景和表达方式的局限,用户习惯以自然语言的方式输入查询语句,例如,用户通过葡萄牙语输入查询语句“gta cidade de deus desenho da peppa”,直译是“电子游戏上帝之城图片粉红色小猪”,也即用户要搜的是GTA上帝之城中人物头像是粉红色小猪的图片,采用现有的静态的IDF值确定查询语句中的检索词的重要性权值,搜索引擎返回给用户的检索结果如图1c,可以看出搜索引擎返回的检索结果与表达用户意图的查询语句相关性很小。而采用本实施例的方法,得到检索词“gta”和检索词“peppa”的重要性权值高于其他检索词的重要性权值,搜索引擎根据确定的各检索词的重要性权值返回相应的检索结果如图1b所示,可以看出前两条检索结果与表达用户意图的查询语句相关性非常高,从而提升了用户的搜索体验。
示例2
用户输入的查询语句为“como se vais o papagaio com pneu de carro passoa passo”,直译是“如何一步一步用汽车轮胎制作鹦鹉”,其中检索词“vais”拼写错误,正确写法为“faz”,但现有技术和本实施例中搜索引擎均未正确纠错。采用现有的静态的IDF值确定查询语句中的检索词的重要性权值,由于检索词“vais”是个错误检索词,对应的IDF值很高,导致检索词“vais”和检索词“papagaio”的重要性权值高于其他检索词,并以此返回检索结果如图1e,其中第一条检索结果对应的内容如图1f所示,可以看出搜索引擎返回的检索结果与表达用户意图的查询语句相关性非常小。而采用本实施例的方法,得到检索词“papagaio”和检索词“pneu”的重要性权值高于其他检索词的重要性权值,搜索引擎根据确定的各检索词的重要性权值返回相应的检索结果如图1g所示,其中第一条检索结果对应的具体内容如图1h所示,可以看出检索结果与表达用户意图的查询语句相关性非常高,包含了用汽车轮胎制作鹦鹉的详细步骤以及成品。
示例3
用户输入的查询语句为“personagens biblicos que sao formados emprofissoes”,直译是“圣经中训练有素的人物”,采用现有的静态的IDF值确定查询语句中的检索词的重要性权值,导致检索词“formados”和检索词“profissoes”的IDF值较高并以此返回检索结果如图1i,可以看出搜索引擎返回的前几条检索结果均为出现“biblicos”这个检索词,与表达用户意图的查询语句相关性非常小。而采用本实施例的方法,得到检索词“biblicos”的重要性权值高于其他检索词的重要性权值,搜索引擎根据确定的各检索词的重要性权值返回相应的检索结果如图1j所示,可以看出前几条检索结果基本都包含检索词“biblicos”,与表达用户意图的查询语句相关性非常高。
在本实施例中,在获得所述机器学习模型输出的所述查询语句中检索词的重要性权值之后,所述方法还优选包括:
140、对所述机器学习模型输出的所述查询语句中检索词的重要性权值进行至少一次优化处理。
操作140有多种实施方式,不同的优化处理具有不同的有益效果,下面通过具体实施例分别进行说明。
实施例二
本实施例提供一种检索词重要度的确定方法。本实施例在上述实施例的基础上,提供了对所述机器学习模型输出的用户输入的查询语句中检索词的重要性权值进行至少一次优化处理的优选方案。
该优选方法包括:采用下述公式对所述机器学习模型输出的所述查询语句中检索词的重要性权值进行优化处理:
其中:为优化后的第i条查询语句的第j个检索词的重要性权值;
exp()为以自然常数e为底的指数函数;
xij为第i条查询语句的第j个检索词对应的特征向量;
f(xij)为所述机器学习模型输出的第i条查询语句的第j个检索词的重要性权值;
α为控制f(xij)区分度的参数。
通过参数α有利于增大用户输入的查询语句中各检索词对应的重要性权值的区分度,例如,机器学习模型输出的用户输入的查询语句“download(0.1)lady gaga(0.5)music(0.3)latest(0.1)”中检索词的重要性权值的区分度为0.1-0.5,通过参数α和上述优化公式,得到“download(0.1)lady gaga(0.7)music(0.5)latest(0.1)”,将用户输入的查询语句中检索词的重要性权值的区分度扩大为0.1-0.7。
本实施例的技术方案,在获得所述机器学习模型输出的所述查询语句中检索词的重要性权值之后,进行优化处理,增大用户输入的查询语句中各检索词对应的重要性权值的区分度,从而提高搜索引擎返回的检索结果的相关性。
在本实施例中,α值优选采用下述公式确定:
其中:为优化后的第i条查询语句的第j个检索词的重要性权值;
yij为对所述机器学习模型进行模型训练时使用的第i条查询语句的第j个检索词的已标注重要性权值;
li为第i个查询语句包含的检索词的数量;
N为查询语句的总数目;
λ为人为设定参数,在0-1中取值;
var()为对括号中的数据取方差值。
上述公式提供了参数α的优化理论,优化了机器学习模型输出的用户输入查询语句中检索词的重要性权值与样本查询语句包含的检索词的已标注重要性权值之间的误差,也即使机器学习模型的输出值回归样本查询语句中的标注值,同时还优化了机器学习模型输出的用户输入查询语句中检索词的重要性权值的方差与样本查询语句包含的检索词的已标注重要性权值的方差之间的误差,换言之,使得机器学习模型输出的用户输入查询语句中检索词的重要性权值更加接近于样本查询语句包含的检索词的已标注重要性权值,同时通过参数α有利于控制用户输入查询语句中检索词的重要性权值的区分度。
实际计算中λ可以取0.9,目的在于增大用户输入查询语句中检索词的重要性权值的区分度。
本实施方式,避免了现有技术中IDF值计算涉及的人工调整参数,缺少理论和数据支撑的缺陷,提供了参数α的优化理论,通过训练和控制参数α,使得机器学习模型输出的用户输入查询语句中检索词的重要性权值更加接近于样本查询语句包含的检索词的已标注重要性权值,同时有利于控制用户输入的查询语句中各检索词对应的重要性权值的区分度,从而提高搜索引擎返回的检索结果的相关性。
实施例三
请参阅图2,为本实施例提供三提供的一种检索词重要度的确定方法的流程图。本实施例在实施例一的基础上,提供了对所述机器学习模型输出的用户输入的查询语句中检索词的重要性权值进行至少一次优化处理的优选方案。
该优选方法包括下述至少一项:
210、根据用户输入的查询语句中的检索词的词性,调整机器学习模型输出的该检索词的重要性权值。
具体地,若用户输入的查询语句中的检索词为停用词,则将机器学习模型输出的该检索词的重要性权值调低;若所述查询语句中的检索词为否定词,则将机器学习模型输出的该检索词的重要性权值调高;若所述查询语句中的检索词为特殊修饰词,如“最新”、“目前”和“欢迎”,则将机器学习模型输出的该检索词的重要性权值调低。例如,用户输入的查询语句为“下载王菲音乐最新”,则将检索词“最新”的重要性权值调低。
220、根据用户输入的查询语句中的检索词的重要性词典值,调整机器学习模型输出的该检索词的重要性权值。
具体地,对于重要性词典值最高但重要性权值不是最高的检索词,将机器学习模型输出的该检索词的重要性权值调高。
230、根据用户输入的查询语句中的检索词的独立检索比值,调整机器学习模型输出的该检索词的重要性权值。
具体地,对于独立检索比值高但重要性权值低的检索词,将机器学习模型输出的该检索词的重要性权值调高。
240、对于属于用户输入的查询语句的主干词或强限定词的检索词,将机器学习模型输出的该检索词的重要性权值调高。
本实施例的技术方案,在获得机器学习模型输出的用户输入的查询语句中检索词的重要性权值之后,通过用户输入的查询语句中检索词的特征信息,对机器学习模型输出的用户输入的查询语句中检索词的重要性权值进行优化处理,避免了由于样本查询语句中标注数据稀疏、存在噪声以及特征覆盖面较窄等多方面的缺陷,修正了机器学习模型直接输出的用户输入的查询语句中检索词的重要性权值的准确性。
需要说明的是,在本实施例中,操作210-操作240都是相互独立的,都是对所述机器学习模型输出的所述查询语句中检索词的重要性权值进行至少一次优化处理的优选方案。可以单独执行,也可以组合,当执行多项操作时,执行顺序不限。
实施例四
请参阅图3,为本发明实施例四提供的一种检索词重要度的确定装置的结构示意图。该装置包括:检索词获取模块310、检索词特征信息获取模块320和检索词重要性权值确定模块330。
其中,检索词获取模块310用于接收用户输入的查询语句,提取该查询语句中的检索词;检索词特征信息获取模块320用于获取所述检索词的特征信息;检索词重要性权值确定模块330用于将所述查询语句和所述查询语句中检索词的特征信息输入预先得到的机器学习模型,获得所述机器学习模型输出的所述查询语句中检索词的重要性权值;其中,所述机器学习模型是对包含已标注重要性权值的检索词的样本查询语句以及所述已标注重要性权值的检索词的特征信息进行学习训练得到的。
在上述方案中,所述检索词特征信息获取模块320用于执行:获取所述检索词的查询语句无关特征和查询语句相关特征中的至少一个。
进一步地,所述查询语句无关特征可以包括:逆文档频率IDF、逆查询频率IQF和/或独立检索比;所述查询语句相关特征可以包括:短语生成树重要性特征值和/或词性。
在上述方案中,所述样本查询语句可以包括:历史查询语句、标注查询语句和/或聚类查询语句。
其中,所述历史查询语句所包含的检索词的重要性权值通过将所述历史查询语句中的检索词与被用户点击的与所述历史查询语句对应的检索结果中的标题内容进行对比,并根据对比结果确定。
所述标注查询语句所包含的检索词的重要性权值通过人工标注。
所述聚类查询语句所包含的检索词的重要性权值根据所述聚类查询语句所属的聚类簇中各检索词的频率确定。
在上述方案中,获得所述机器学习模型所采用的学习训练方法可以包括:GBrank模型训练方法。
在上述方案中,所述装置还优选包括:优化处理模块340,用于在所述检索词重要性权值确定模块330获得所述机器学习模型输出的所述查询语句中检索词的重要性权值之后,对所述机器学习模型输出的所述查询语句中检索词的重要性权值进行至少一次优化处理。
作为一种优选的优化处理的实施方式,所述优化处理模块340采用下述公式对所述机器学习模型输出的所述查询语句中检索词的重要性权值进行优化处理:
其中:为优化后的第i条查询语句的第j个检索词的重要性权值;
exp()为以自然常数e为底的指数函数;
xij为第i条查询语句的第j个检索词对应的特征向量;
f(xij)为所述机器学习模型输出的第i条查询语句的第j个检索词的重要性权值;
α为控制f(xij)区分度的参数。
进一步地,α值优选采用下述公式确定:
其中:为优化后的第i条查询语句的第j个检索词的重要性权值;
yij为对所述机器学习模型进行模型训练时使用的第i条查询语句的第j个检索词的已标注重要性权值;
li为第i个查询语句包含的检索词的数量;
N为查询语句的总数目;
λ为人为设定参数,在0-1中取值;
var()为对括号中的数据取方差值。
作为另一种优选的优化处理的实施方式,所述优化处理模块340可以包括第一优化处理单元、第二优化处理单元、第三优化处理单元和第四优化处理单元中的至少一项。
其中,第一优化处理单元用于根据所述查询语句中的检索词的词性,调整机器学习模型输出的该检索词的重要性权值;第二优化处理单元用于根据所述查询语句中的检索词的重要性词典值,调整机器学习模型输出的该检索词的重要性权值;第三优化处理单元用于根据所述查询语句中的检索词的独立检索比值,调整机器学习模型输出的该检索词的重要性权值;第四优化处理单元用于对于属于所述查询语句的主干词或强限定词的检索词,将机器学习模型输出的该检索词的重要性权值调高。
本发明实施例提供的检索词重要度的确定装置可执行本发明任意实施例所提供的检索词重要度的确定方法,具备执行方法相应的功能模块和有益效果。
最后应说明的是:以上各实施例仅用于说明本发明的技术方案,而非对其进行限制;实施例中优选的实施方式,并非对其进行限制,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (18)

1.一种检索词重要度的确定方法,其特征在于,包括:
接收用户输入的查询语句,提取该查询语句中的检索词;
获取所述检索词的特征信息,所述特征信息包括所述检索词的查询语句相关特征,其中,所述查询语句相关特征为通过对所述查询语句进行分析得到,用于表示所述检索词在所属查询语句上下文中的重要性程度;
将所述查询语句和所述查询语句中检索词的特征信息输入预先得到的机器学习模型,获得所述机器学习模型输出的所述查询语句中检索词的重要性权值;
其中,所述机器学习模型是对包含已标注重要性权值的检索词的样本查询语句以及所述已标注重要性权值的检索词的特征信息进行学习训练得到的。
2.根据权利要求1所述的方法,其特征在于,所述特征信息,还包括:
所述检索词的查询语句无关特征。
3.根据权利要求2所述的方法,其特征在于,所述查询语句无关特征包括:逆文档频率IDF、逆查询频率IQF和/或独立检索比;
所述查询语句相关特征包括:短语生成树重要性特征值和/或词性。
4.根据权利要求1所述的方法,其特征在于,所述样本查询语句包括:历史查询语句、标注查询语句和/或聚类查询语句;
其中,所述历史查询语句所包含的检索词的重要性权值通过将所述历史查询语句中的检索词与被用户点击的与所述历史查询语句对应的检索结果中的标题内容进行对比,并根据对比结果确定;
所述标注查询语句所包含的检索词的重要性权值通过人工标注;
所述聚类查询语句所包含的检索词的重要性权值根据所述聚类查询语句所属的聚类簇中各检索词的频率确定。
5.根据权利要求1所述的方法,其特征在于,获得所述机器学习模型所采用的学习训练方法包括:GBrank模型训练方法。
6.根据权利要求1-5中任一所述的方法,其特征在于,在获得所述机器学习模型输出的所述查询语句中检索词的重要性权值之后,所述方法还包括:
对所述机器学习模型输出的所述查询语句中检索词的重要性权值进行至少一次优化处理。
7.根据权利要求6所述的方法,其特征在于,采用下述公式对所述机器学习模型输出的所述查询语句中检索词的重要性权值进行优化处理:
其中:为优化后的第i条查询语句的第j个检索词的重要性权值;
exp()为以自然常数e为底的指数函数;
xij为第i条查询语句的第j个检索词对应的特征向量;
f(xij)为所述机器学习模型输出的第i条查询语句的第j个检索词的重要性权值;
α为控制f(xij)区分度的参数。
8.根据权利要求7所述的方法,其特征在于,α值采用下述公式确定:
其中:为优化后的第i条查询语句的第j个检索词的重要性权值;
yij为对所述机器学习模型进行模型训练时使用的第i条查询语句的第j个检索词的已标注重要性权值;
li为第i个查询语句包含的检索词的数量;
N为查询语句的总数目;
λ为人为设定参数,在0-1中取值;
var()为对括号中的数据取方差值。
9.根据权利要求6所述的方法,其特征在于,对所述机器学习模型输出的所述查询语句中检索词的重要性权值进行至少一次优化处理,包括下述至少一项:
根据所述查询语句中的检索词的词性,调整机器学习模型输出的该检索词的重要性权值;
根据所述查询语句中的检索词的重要性词典值,调整机器学习模型输出的该检索词的重要性权值;
根据所述查询语句中的检索词的独立检索比值,调整机器学习模型输出的该检索词的重要性权值;
对于属于所述查询语句的主干词或强限定词的检索词,将机器学习模型输出的该检索词的重要性权值调高。
10.一种检索词重要度的确定装置,其特征在于,包括:
检索词获取模块,用于接收用户输入的查询语句,提取该查询语句中的检索词;
检索词特征信息获取模块,用于获取所述检索词的特征信息,所述特征信息包括所述检索词的查询语句相关特征,其中,所述查询语句相关特征为通过对所述查询语句进行分析得到,用于表示所述检索词在所属查询语句上下文中的重要性程度;
检索词重要性权值确定模块,用于将所述查询语句和所述查询语句中检索词的特征信息输入预先得到的机器学习模型,获得所述机器学习模型输出的所述查询语句中检索词的重要性权值;
其中,所述机器学习模型是对包含已标注重要性权值的检索词的样本查询语句以及所述已标注重要性权值的检索词的特征信息进行学习训练得到的。
11.根据权利要求10所述的装置,其特征在于,所述特征信息,还包括:
所述检索词的查询语句无关特征。
12.根据权利要求11所述的装置,其特征在于,所述查询语句无关特征包括:逆文档频率IDF、逆查询频率IQF和/或独立检索比;
所述查询语句相关特征包括:短语生成树重要性特征值和/或词性。
13.根据权利要求10所述的装置,其特征在于,所述样本查询语句包括:历史查询语句、标注查询语句和/或聚类查询语句;
其中,所述历史查询语句所包含的检索词的重要性权值通过将所述历史查询语句中的检索词与被用户点击的与所述历史查询语句对应的检索结果中的标题内容进行对比,并根据对比结果确定;
所述标注查询语句所包含的检索词的重要性权值通过人工标注;
所述聚类查询语句所包含的检索词的重要性权值根据所述聚类查询语句所属的聚类簇中各检索词的频率确定。
14.根据权利要求10所述的装置,其特征在于,获得所述机器学习模型所采用的学习训练方法包括:GBrank模型训练方法。
15.根据权利要求10所述的装置,其特征在于,所述装置还包括:
优化处理模块,用于在所述检索词重要性权值确定模块获得所述机器学习模型输出的所述查询语句中检索词的重要性权值之后,对所述机器学习模型输出的所述查询语句中检索词的重要性权值进行至少一次优化处理。
16.根据权利要求15所述的装置,其特征在于,所述优化处理模块采用下述公式对所述机器学习模型输出的所述查询语句中检索词的重要性权值进行优化处理:
其中:为优化后的第i条查询语句的第j个检索词的重要性权值;
exp()为以自然常数e为底的指数函数;
xij为第i条查询语句的第j个检索词对应的特征向量;
f(xij)为所述机器学习模型输出的第i条查询语句的第j个检索词的重要性权值;
α为控制f(xij)区分度的参数。
17.根据权利要求16所述的装置,其特征在于,α值采用下述公式确定:
其中:为优化后的第i条查询语句的第j个检索词的重要性权值;
yij为对所述机器学习模型进行模型训练时使用的第i条查询语句的第j个检索词的已标注重要性权值;
li为第i个查询语句包含的检索词的数量;
N为查询语句的总数目;
λ为人为设定参数,在0-1中取值;
var()为对括号中的数据取方差值。
18.根据权利要求15所述的装置,其特征在于,所述优化处理模块包括下述至少一项:
第一优化处理单元,用于根据所述查询语句中的检索词的词性,调整机器学习模型输出的该检索词的重要性权值;
第二优化处理单元,用于根据所述查询语句中的检索词的重要性词典值,调整机器学习模型输出的该检索词的重要性权值;
第三优化处理单元,用于根据所述查询语句中的检索词的独立检索比值,调整机器学习模型输出的该检索词的重要性权值;
第四优化处理单元,用于对于属于所述查询语句的主干词或强限定词的检索词,将机器学习模型输出的该检索词的重要性权值调高。
CN201410636024.6A 2014-11-05 2014-11-05 检索词重要度的确定方法和装置 Active CN104376065B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410636024.6A CN104376065B (zh) 2014-11-05 2014-11-05 检索词重要度的确定方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410636024.6A CN104376065B (zh) 2014-11-05 2014-11-05 检索词重要度的确定方法和装置

Publications (2)

Publication Number Publication Date
CN104376065A CN104376065A (zh) 2015-02-25
CN104376065B true CN104376065B (zh) 2018-09-18

Family

ID=52554972

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410636024.6A Active CN104376065B (zh) 2014-11-05 2014-11-05 检索词重要度的确定方法和装置

Country Status (1)

Country Link
CN (1) CN104376065B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105893397B (zh) * 2015-06-30 2019-03-15 北京爱奇艺科技有限公司 一种视频推荐方法及装置
CN105721207A (zh) * 2016-01-29 2016-06-29 国家电网公司 电力通信网中通信节点重要度的确定方法和装置
CN105893533B (zh) * 2016-03-31 2021-05-07 北京奇艺世纪科技有限公司 一种文本匹配方法及装置
CN107515876B (zh) * 2016-06-16 2020-12-04 阿里巴巴集团控股有限公司 一种特征模型的生成、应用方法及装置
CN110019658B (zh) 2017-07-31 2023-01-20 腾讯科技(深圳)有限公司 检索项的生成方法及相关装置
CN107885879A (zh) * 2017-11-29 2018-04-06 北京小度信息科技有限公司 语义分析方法、装置、电子设备及计算机可读存储介质
CN108763573A (zh) * 2018-06-06 2018-11-06 众安信息技术服务有限公司 一种基于机器学习的olap引擎路由方法及系统
CN109815396B (zh) * 2019-01-16 2021-09-21 北京搜狗科技发展有限公司 搜索词权重确定方法及装置
CN110991181B (zh) * 2019-11-29 2023-03-31 腾讯科技(深圳)有限公司 用于增强已标注样本的方法和设备
CN111190947B (zh) * 2019-12-26 2024-02-23 航天信息股份有限公司企业服务分公司 一种基于反馈的有序分级排序方法
CN111831922B (zh) * 2020-07-14 2021-02-05 深圳市众创达企业咨询策划有限公司 一种基于互联网信息的推荐系统与方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011037603A1 (en) * 2009-09-27 2011-03-31 Alibaba Group Holding Limited Searching for information based on generic attributes of the query
CN102467541A (zh) * 2010-11-11 2012-05-23 腾讯科技(深圳)有限公司 一种情境搜索方法及系统
CN103455487A (zh) * 2012-05-29 2013-12-18 腾讯科技(深圳)有限公司 一种搜索词的提取方法及装置
CN103699625A (zh) * 2013-12-20 2014-04-02 北京百度网讯科技有限公司 基于关键词进行检索的方法及装置
CN104111933A (zh) * 2013-04-17 2014-10-22 阿里巴巴集团控股有限公司 获取业务对象标签、建立训练模型的方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011037603A1 (en) * 2009-09-27 2011-03-31 Alibaba Group Holding Limited Searching for information based on generic attributes of the query
CN102467541A (zh) * 2010-11-11 2012-05-23 腾讯科技(深圳)有限公司 一种情境搜索方法及系统
CN103455487A (zh) * 2012-05-29 2013-12-18 腾讯科技(深圳)有限公司 一种搜索词的提取方法及装置
CN104111933A (zh) * 2013-04-17 2014-10-22 阿里巴巴集团控股有限公司 获取业务对象标签、建立训练模型的方法及装置
CN103699625A (zh) * 2013-12-20 2014-04-02 北京百度网讯科技有限公司 基于关键词进行检索的方法及装置

Also Published As

Publication number Publication date
CN104376065A (zh) 2015-02-25

Similar Documents

Publication Publication Date Title
CN104376065B (zh) 检索词重要度的确定方法和装置
CN107330011B (zh) 多策略融合的命名实体的识别方法及装置
CN109408526B (zh) Sql语句生成方法、装置、计算机设备及存储介质
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
US9483459B1 (en) Natural language correction for speech input
CN106997341B (zh) 一种创新方案匹配方法、装置、服务器及系统
CN110895559B (zh) 模型训练、文本处理方法、装置以及设备
US11907671B2 (en) Role labeling method, electronic device and storage medium
CN103324621B (zh) 一种泰语文本拼写纠正方法及装置
CN106815252A (zh) 一种搜索方法和设备
CN104573028A (zh) 实现智能问答的方法和系统
CN106202153A (zh) 一种es搜索引擎的拼写纠错方法及系统
EP3799640A1 (en) Semantic parsing of natural language query
WO2019169858A1 (zh) 一种基于搜索引擎技术的数据分析方法及系统
CN107870901A (zh) 从翻译源原文生成相似文的方法、程序、装置以及系统
CN109408743A (zh) 文本链接嵌入方法
CN111666764B (zh) 一种基于XLNet的自动摘要方法与装置
JP6817556B2 (ja) 類似文生成方法、類似文生成プログラム、類似文生成装置及び類似文生成システム
US20220067292A1 (en) Guided text generation for task-oriented dialogue
CN106959943B (zh) 语种识别更新方法及装置
CN111159381B (zh) 数据搜索方法及装置
CN111339424B (zh) 基于关键词进行搜索的方法、装置、设备及存储介质
US11379527B2 (en) Sibling search queries
CN115526171A (zh) 一种意图识别方法、装置、设备及计算机可读存储介质
KR20210108557A (ko) 음성 인식률의 향상을 위한 음성 인식 지원 방법 및 시스템

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant