CN103268326A

CN103268326A - 一种个性化的跨语言检索方法及装置

Info

Publication number: CN103268326A
Application number: CN2013101576822A
Authority: CN
Inventors: 何伯磊; 马艳军; 吴华; 王海峰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2013-05-02
Filing date: 2013-05-02
Publication date: 2013-08-28

Abstract

本发明提供了一种个性化的跨语言检索方法及装置，其中所述方法包括：A.获取用户查询词；B.在目标语言网页集合中获取与所述查询词相匹配的检索结果；C.确定所述用户的目标语言水平以及所述检索结果在目标语言上的整体难度，并根据所述用户的目标语言水平与所述整体难度之间的匹配度对所述检索结果进行返回。通过上述方式，本发明能够提高用户与检索结果之间的匹配度，满足用户的个性化需要。

Description

一种个性化的跨语言检索方法及装置

【技术领域】

本发明涉及检索技术，特别涉及一种个性化的跨语言检索方法及装置。

【背景技术】

搜索引擎技术的出现，极大地改变了人们的生活，人们通过搜索引擎，就可以自由地在互联网上获取自己需要的信息，满足自己工作或学习的需要。

在互联网上有价值的信息，有可能并不是以用户的母语形式表示的，在这种情况下，通过跨语言检索，用户可以找到其他语言表示的文本，并且这些文本经过机器翻译就可以用户的母语形式表示出来，方便用户阅读。

在上述传统的跨语言检索方法中，向用户展示哪些检索结果，是由检索结果与查询词之间的匹配度决定的，不能满足用户的个性化需求。

【发明内容】

本发明所要解决的技术问题是提供一种个性化的跨语言检索方法及装置，以提高用户与检索结果之间的匹配度。

本发明为解决技术问题而采用的技术方案是提供一种个性化的跨语言检索方法，包括：A.获取用户查询词；B.在目标语言网页集合中获取与所述查询词相匹配的检索结果；C.确定所述用户的目标语言水平以及所述检索结果在目标语言上的整体难度，并根据所述用户的目标语言水平与所述整体难度之间的匹配度对所述检索结果进行返回。

根据本发明之一优选实施例，所述查询词包括以源语言表示的查询词或以目标语言表示的查询词。

根据本发明之一优选实施例，所述步骤C中，采用第一评分模型对所述用户的目标语言水平进行评分，其中所述第一评分模型的评分参数至少包括所述用户的历史查询词与预设的各难度级别词库之间的匹配率。

根据本发明之一优选实施例，所述步骤C中，采用第二评分模型对所述检索结果在目标语言上的整体难度进行评分，其中所述第二评分模型的评分参数至少包括以下一种：所述检索结果包含的词语与预设的各难度级别词库之间的匹配率、所述检索结果包含的句子所属句型类型以及所述检索结果来源网站类型。

根据本发明之一优选实施例，根据所述用户的目标语言水平与所述整体难度之间的匹配度对所述检索结果进行返回的步骤包括：对所述检索结果在目标语言上的局部难度进行评估，并对所述局部难度与所述用户的目标语言水平之间的匹配度低于预设值的文本进行标注；按照所述用户的目标语言水平与所述整体难度之间的匹配度对所述检索结果进行排序并返回。

根据本发明之一优选实施例，所述方法进一步包括：当探测到所述用户的鼠标移入所述检索结果的标注文本时，触发机器翻译将所述标注文本翻译为源语言。

本发明还提供了一种个性化的跨语言检索装置，包括：输入单元，用于获取用户查询词；检索单元，用于在目标语言网页集合中获取与所述查询词相匹配的检索结果；确定单元，用于确定所述用户的目标语言水平以及所述检索结果在目标语言上的整体难度；返回单元，用于根据所述用户的目标语言水平与所述整体难度之间的匹配度对所述检索结果进行返回。

根据本发明之一优选实施例，所述确定单元采用第一评分模型对所述用户的目标语言水平进行评分，其中所述第一评分模型的评分参数至少包括所述用户的历史查询词与预设的各难度级别词库之间的匹配率。

根据本发明之一优选实施例，所述确定单元采用第二评分模型对所述检索结果在目标语言上的整体难度进行评分，其中所述第二评分模型的评分参数至少包括以下一种：所述检索结果包含的词语与预设的各难度级别词库之间的匹配率、所述检索结果包含的句子所属句型类型以及所述检索结果来源网站类型。

根据本发明之一优选实施例，所述返回单元包括：标注单元，用于对所述检索结果在目标语言上的局部难度进行评估，并对所述局部难度与所述用户的目标语言水平之间的匹配度低于预设值的文本进行标注；排序单元，用于按照所述用户的目标语言水平与所述整体难度之间的匹配度对所述检索结果进行排序并返回。

根据本发明之一优选实施例，所述装置进一步包括：翻译单元，用于当探测到所述用户的鼠标移入所述检索结果的标注文本时，触发机器翻译将所述标注文本翻译为源语言。

由以上技术方案可以看出，本发明通过对用户的目标语言水平和检索结果在目标语言上的整体难度进行评估，能够在跨语言检索时，根据用户的目标语言水平向用户返回难度适宜的检索结果，提高了用户与检索结果之间的匹配度，满足了用户的个性化需要。

【附图说明】

图1为本发明中个性化的跨语言检索方法的实施例的流程示意图；

图2为本发明中个性化的跨语言检索装置的实施例一的结构示意框图；

图3为本发明中返回单元104的一个实施例的结构示意框图；

图4为本发明中个性化的跨语言检索装置的实施例二的结构示意框图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

请参考图1，图1为本发明中个性化的跨语言检索方法的实施例的流程示意图。如图1所示，该方法包括：

步骤S1：获取用户查询词。

步骤S2：在目标语言网页集合中获取与所述查询词相匹配的检索结果。

步骤S3：确定用户的目标语言水平以及检索结果的目标语言难度，并根据用户的目标语言水平与上述整体难度之间的匹配度对检索结果进行返回。

下面对上述步骤进行详细说明。

在本发明的实施例中所指的源语言，是指用户的母语言或熟练掌握的一门语言，在本发明的实施例中所指的目标语言，指的是信息源本身所使用的语言。例如对汉语用户而言，源语言通常指的是汉语，而如果其在英语网页集合中进行检索，则目标语言就是英语。

步骤S1中，用户查询词可以源语言或目标语言的形式表示，例如中文用户输入的查询词为“世界大战”或“the world war”，用以表示其想要获取跟世界大战有关的信息。如果用户输入的查询词是以源语言形式表示的，在步骤S1中进一步可以通过机器翻译将以源语言形式表示的查询词翻译为以目标语言表示的查询词。

步骤S2中，获取与查询词相匹配的检索结果，可以通过调用一个目标语言搜索引擎来实现，由于这与现有技术没有区别，在此不再详述。

步骤S3中，作为一种实施方式，在确定用户的目标语言水平时，可以根据用户的注册信息对用户的目标语言水平进行评分。

假设目标语言为英语，从当前用户的注册信息中可以看出该用户的学历为本科，或者其通过了cet4级考试，则将该用户的英语水平评为70分，如果当前用户学历为研究生，或者其通过了cet6级考试，则将该用户的英语水平评为80。

作为一种优选实施方式，在步骤S3中，还可以通过一个评分模型对用户的目标语言水平进行评分，这里称之为第一评分模型。

第一评分模型的训练和使用过程可以表示为下面的形式：

s=f(T_i)，其中T_i表示以特征形式表示的用户，s表示用户的目标语言水平的得分，f表示第一评分模型。

在训练阶段，f未知，但有大量标注好的以特征形式表示的用户及对应得分作为样本（即已知大量T_i及对应的s），通过这些样本可以归纳得到f。这样，在第一评分模型的使用阶段，对待评分用户而言，f和T_i已知，则可以求得该用户的目标语言水平得分。第一评分模型具体的训练和使用过程都可通过现有的机器学习算法进行，因此不再对其进行赘述。

用户的特征是由选定的评分模型的参数决定的，在本发明中，第一评分模型可采用的评分参数至少包括用户的历史查询词与预设的各难度级别词库之间的匹配率。例如对英语而言，一种实施方式为将词语划分为四级词库，六级词库和八级词库，则用户的历史查询词可以与这三个预设的词库进行匹配，从而得到该用户的历史查询词在这三个词库上的匹配率，作为该用户的特征。

作为一种实施方式，在步骤S3中，还可以通过第二评分模型对检索结果在目标语言上的整体难度进行评分。

第二评分模型与第一评分模型的训练和使用过程是类似的，但是为了对检索结果在目标语言上的整体难度进行评分，本发明中的第二评分模型的评分参数则与第一评分模型的评分参数不同。在本发明中，第二评分模型的评分参数至少包括以下一种：（1）检索结果包含的词语与预设的各难度级别词库之间的匹配率；（2）检索结果包含的句子所属句型类型；（3）检索结果来源网站类型。

针对参数（1），仍以前面英语的四级、六级、八级词库为例，对检索结果进行分词后，可以确定检索结果包含的所有词语与这三个词库之间分别进行匹配时得到的匹配率，作为该检索结果的特征。

针对参数（2），则需要对检索结果的句型进行解析，这可以通过调用句型解析接口得到。以英语为例，句子的类型可分为简单句、重句等，这个具体类型可作为检索结果的特征。

针对参数（3），检索结果来源网站可分为社交型或学术型，这个具体类型可作为检索结果特征。

在步骤S3中，由于对用户的目标语言水平和检索结果在目标语言上的整体难度进行了评分，因此，就可以确定两者之间的匹配度。例如用户的目标语言水平为90分，第一篇检索结果在目标语言上的整体难度为92分，第二篇检索结果在目标语言上的整体难度为70分，则用户的目标语言水平与第一篇检索结果之间的匹配度高于第二篇检索结果之间的匹配度，这时可以优先返回第一篇检索结果给用户。实际上，用户的目标语言水平得分较高，说明用户的目标语言水平较好，因此向用户返回目标语言整体难度较高的检索结果是合理的。

作为一种优选的实施方式，步骤S3中对检索结果进行返回的步骤具体包括：

S31：对检索结果在目标语言上的局部难度进行评估，并对局部难度与用户的目标语言水平之间的匹配度低于预设值的文本进行标注。

S32：按照用户的目标语言水平与整体难度之间的匹配度对检索结果进行排序并返回。

具体地，对检索结果的局部难度进行评估，一种方式是采用第二评分模型分别对检索结果的各个段落进行评分，从而得到检索结果各个部分的难度得分。更细粒度的，甚至可以对检索结果中的每一句单独进行评分，从而评估检索结果的局部难度。

此外，也可以根据预设难度词库对检索结果的局部难度进行评估，例如英语的八级词库中的词语，其局部难度得分可以大大高于四级词库中的词语。

通过步骤S31和S32的这种实施方式，不仅在返回给用户检索结果时，检索结果可以根据用户的语言水平进行排列，更重要的是，每一篇检索结果中，相较用户的语言水平而言比较难的部分也进行了标注，这样有利于用户进行有选择地阅读，提高阅读效率。此外，本发明进一步还可以在探测到用户的鼠标移入检索结果的标注文本时，触发机器翻译将该标注文本翻译为源语言。

在现有的跨语言检索中，对所有的检索结果都采用机器翻译转化为源语言，但是由于机器翻译的质量不能与人相比，这种方式常常造成理解上的困难。通过本发明，有目标语言基础的用户，可以自行阅读适合自己水平的目标语言信息，同时对自己难以理解的部分，又可以得到机器翻译的帮助，从而满足了个性化的需求，大大提高了获取信息的质量和效率。

请参考图2，图2为本发明中个性化的跨语言检索装置的实施例一的结构示意框图。如图2所示，该装置包括：输入单元101、检索单元102和确定单元103以及返回单元104。

其中，输入单元101，用于获取用户查询词。用户查询词可以源语言或目标语言的形式表示，例如中文用户输入的查询词为“世界大战”或“the worldwar”，用以表示其想要获取跟世界大战有关的信息。如果用户输入的查询词是以源语言形式表示的，则输入单元101进一步可以通过机器翻译将以源语言形式表示的查询词翻译为以目标语言表示的查询词。

检索单元102，用于在目标语言网页集合中获取与查询词相匹配的检索结果。检索单元102可以通过调用一个目标语言搜索引擎来获取相匹配的检索结果，由于这与现有技术没有区别，在此不再详述。

确定单元103，用于确定用户的目标语言水平以及检索结果在目标语言上的整体难度。

作为一种实施方式，确定单元103在确定用户的目标语言水平时，可以根据用户的注册信息对用户的目标语言水平进行评分。

作为一种优选实施方式，确定单元103还可以通过一个评分模型对用户的目标语言水平进行评分，这里称之为第一评分模型。

第一评分模型的训练和使用过程可以表示为下面的形式：

s=f(T_i)，其中T_i表示以特征形式表示的用户，s表示用户的目标语言水平的评分，f表示第一评分模型。

在训练阶段，f未知，但有大量标注好的以特征形式表示的用户及对应评分作为样本（即已知大量T_i及对应的s），通过这些样本可以归纳得到f。这样，在第一评分模型的使用阶段，对待评分用户而言，f和T_i已知，则可以求得该用户的目标语言水平得分。第一评分模型具体的训练和使用过程都可通过现有的机器学习算法进行，因此不再对其进行赘述。

用户的特征是由选定的评分模型的参数决定的，在本发明中，第一评分模型可采用的评分参数至少包括用户的历史查询词与预设的各难度级别词库之间的匹配率。例如对英语而言，一种实施方式为将词语可划分为四级词库，六级词库和八级词库，则用户的历史查询词可以与这三个预设的词库进行匹配，从而得到该用户的历史查询词在这三个词库上的匹配率，作为该用户的特征。

作为一种实施方式，确定单元103还可以通过第二评分模型对检索结果在目标语言上的整体难度进行评分。

由于确定单元103对用户的目标语言水平和检索结果在目标语言上的整体难度进行了评分，因此，返回单元104就可以确定两者之间的匹配度。

返回单元104，用于根据用户的目标语言水平与上述整体难度之间的匹配度对检索结果进行返回。

例如用户的目标语言水平为90分，第一篇检索结果在目标语言上的整体难度为92分，第二篇检索结果在目标语言上的整体难度为70分，则用户的目标语言水平与第一篇检索结果之间的匹配度高于第二篇检索结果之间的匹配度，这时可以优先返回第一篇检索结果给用户。实际上，用户的目标语言水平得分较好，说明用户的目标语言水平较好，因此向用户返回目标语言整体难度较高的检索结果是合理的。

请参考图3，图3为本发明中返回单元104的一个实施例的结构示意框图。如图3所示，返回单元104具体包括：

标注单元1041，用于对检索结果在目标语言上的局部难度进行评估，并对局部难度与用户的目标语言水平之间的匹配度低于预设值的文本进行标注。

排序单元1042，用于按照用户的目标语言水平与整体难度之间的匹配度对检索结果进行排序并返回。

具体地，标注单元1041对检索结果的局部难度进行评估，一种方式是采用第二评分模型分别对检索结果的各个段落分别进行评分，从而得到检索结果各个部分的难度得分。更细粒度的，标注单元1041甚至可以对检索结果中的每一句单独进行评分，从而评估检索结果的局部难度。

此外，标注单元1041也可以根据预设难度词库对检索结果的局部难度进行评估，例如英语的八级词库中的词语，其局部难度得分可以大大高于四级词库中的词语。

通过图3所示的实施例，不仅在返回给用户检索结果时，检索结果可以根据用户的语言水平进行排列，更重要的是，每一篇检索结果中，相较用户的语言水平而言比较难的部分也进行了标注，这样有利于用户进行有选择地阅读，提高阅读效率。

请参考图4，图4为本发明中个性化的跨语言检索装置的实施例二的结构示意框图。如图4所示，该实施例进一步还包括翻译单元105，用于当探测到用户的鼠标移入检索结果的标注文本时，触发机器翻译将标注文本翻译为源语言。

通过图4所示的实施例，本发明能够让用户在自行阅读适合自己水平的目标语言信息与获取机器翻译帮助之间取得平衡，满足了用户的个性化需求，提高了获取信息的质量和效率。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种个性化的跨语言检索方法，包括：

A.获取用户查询词；

B.在目标语言网页集合中获取与所述查询词相匹配的检索结果；

C.确定所述用户的目标语言水平以及所述检索结果在目标语言上的整体难度，并根据所述用户的目标语言水平与所述整体难度之间的匹配度对所述检索结果进行返回。

2.根据权利要求1所述的方法，其特征在于，所述查询词包括以源语言表示的查询词或以目标语言表示的查询词。

3.根据权利要求1所述的方法，其特征在于，所述步骤C中，采用第一评分模型对所述用户的目标语言水平进行评分，其中所述第一评分模型的评分参数至少包括所述用户的历史查询词与预设的各难度级别词库之间的匹配率。

4.根据权利要求1所述的方法，其特征在于，所述步骤C中，采用第二评分模型对所述检索结果在目标语言上的整体难度进行评分，其中所述第二评分模型的评分参数至少包括以下一种：所述检索结果包含的词语与预设的各难度级别词库之间的匹配率、所述检索结果包含的句子所属句型类型以及所述检索结果来源网站类型。

5.根据权利要求1所述的方法，其特征在于，根据所述用户的目标语言水平与所述整体难度之间的匹配度对所述检索结果进行返回的步骤包括：

对所述检索结果在目标语言上的局部难度进行评估，并对所述局部难度与所述用户的目标语言水平之间的匹配度低于预设值的文本进行标注；

按照所述用户的目标语言水平与所述整体难度之间的匹配度对所述检索结果进行排序并返回。

6.根据权利要求5所述的方法，其特征在于，所述方法进一步包括：当探测到所述用户的鼠标移入所述检索结果的标注文本时，触发机器翻译将所述标注文本翻译为源语言。

7.一种个性化的跨语言检索装置，包括：

输入单元，用于获取用户查询词；

检索单元，用于在目标语言网页集合中获取与所述查询词相匹配的检索结果；

确定单元，用于确定所述用户的目标语言水平以及所述检索结果在目标语言上的整体难度；

返回单元，用于根据所述用户的目标语言水平与所述整体难度之间的匹配度对所述检索结果进行返回。

8.根据权利要求7所述的装置，其特征在于，所述查询词包括以源语言表示的查询词或以目标语言表示的查询词。

9.根据权利要求7所述的装置，其特征在于，所述确定单元采用第一评分模型对所述用户的目标语言水平进行评分，其中所述第一评分模型的评分参数至少包括所述用户的历史查询词与预设的各难度级别词库之间的匹配率。

10.根据权利要求7所述的装置，其特征在于，所述确定单元采用第二评分模型对所述检索结果在目标语言上的整体难度进行评分，其中所述第二评分模型的评分参数至少包括以下一种：所述检索结果包含的词语与预设的各难度级别词库之间的匹配率、所述检索结果包含的句子所属句型类型以及所述检索结果来源网站类型。

11.根据权利要求7所述的装置，其特征在于，所述返回单元包括：

标注单元，用于对所述检索结果在目标语言上的局部难度进行评估，并对所述局部难度与所述用户的目标语言水平之间的匹配度低于预设值的文本进行标注；

排序单元，用于按照所述用户的目标语言水平与所述整体难度之间的匹配度对所述检索结果进行排序并返回。

12.根据权利要求11所述的装置，其特征在于，所述装置进一步包括：

翻译单元，用于当探测到所述用户的鼠标移入所述检索结果的标注文本时，触发机器翻译将所述标注文本翻译为源语言。