CN113220975A

CN113220975A - 一种基于图谱的搜索分析方法及系统

Info

Publication number: CN113220975A
Application number: CN202110553773.2A
Authority: CN
Inventors: 王绪刚; 李珏; 李新贵
Original assignee: Beijing Oula Cognitive Intelligent Technology Co ltd
Current assignee: Beijing Oula Cognitive Intelligent Technology Co ltd
Priority date: 2021-05-20
Filing date: 2021-05-20
Publication date: 2021-08-06

Abstract

本发明提供一种基于图谱的搜索分析方法及系统，涉及计算机技术领域，包括搜集数据集，获取到中英对齐的中英双语句子；构建Tr_an_sf_orm_er翻译模型，将获取到的中英双语句子输入Tr_an_sf_orm_er翻译模型进行训练，得到训练好的中英翻译模型；基于中英翻译模型进行实体抽取、翻译，得到对齐的中英双语实体；根据中英双语实体构建关联关系，经映射获得底层关系图谱；根据用户输入的搜索语句进行实体抽取、翻译，并与底层关系图谱进行匹配，得到搜索结果。本发明通过构建中英翻译模型，提供一个供应用层调用的底层关系图谱，在用户输入搜索语句后，基于底层关系图谱实现对搜索语句的双语言精准搜索，有效解决跨语言搜索的问题，提高了翻译搜索结果的准确率。

Description

一种基于图谱的搜索分析方法及系统

技术领域

本发明涉及计算机技术领域，尤其是涉及一种基于图谱的搜索分析方法及系统。

背景技术

随着互联网网站页面的激增和用户队伍的不断壮大，搜索引擎越来越成为人们上网浏览时的重要工具，与此同时，人们也不再满足于传统的搜索服务模式，即仅仅返回与用户搜索查询相关的若干文档链接，而是更希望获得针对其所提出的问题的准确答案。因此，基于图谱的跨语言搜索分析应运而生。

自然语言处理领域许多应用都提出了跨语言搜索的需求，如文献翻译、机器翻译等方法用于解决跨语言的问题，但仍然未能达到让用户满意的效果，不能满足当前全球化背景下的跨语言信息交互需求。

发明内容

针对上述问题，本发明提供了一种基于图谱的搜索分析方法及系统，通过跨语言知识图谱为新一代人工智能技术驱动的跨语言交际搭建桥梁，满足当前全球化背景下的跨语言信息交互需求，实现互联网信息的精准搜索。

为实现上述目的，本发明提供了一种基于图谱的搜索分析方法，包括：

搜集数据集，获取到中英双语句子；

构建Transformer翻译模型，将获取到的所述中英双语句子输入所述Transformer翻译模型进行训练，得到训练好的中英翻译模型；

基于所述中英翻译模型进行实体抽取、翻译，得到对齐的中英双语实体；

根据所述中英双语实体构建关联关系，经映射获得底层关系图谱；

根据用户输入的搜索语句进行实体抽取、翻译，并与所述底层关系图谱进行匹配，得到搜索结果。

作为本发明的进一步改进，所述搜集数据集包括：在corpus中文语料集和斯坦福数据集中分别获取中文和英文数据，得到中英对齐的中英双语句子。

作为本发明的进一步改进，所述中英双语句子中，汉语句子中存在的实体都可在英语句子中找到相对应的实体。

作为本发明的进一步改进，所述将获取到的所述中英双语句子输入所述Transformer翻译模型进行训练，包括：

分别对中英双语句子中不同类型的实体进行抽取、筛分、过滤得到所需实体；

基于所述Transformer翻译模型对所述所需实体进行机器翻译，得到中英翻译模型。

作为本发明的进一步改进，所述基于所述中英翻译模型进行实体抽取、翻译，得到对齐的中英双语实体；包括：

抽取所述中英双语句子中一种语言句子的实体；

基于所述中英翻译模型对抽取出的所述实体进行翻译，从而匹配出另一种语言的实体，将中英语言实体对齐。

作为本发明的进一步改进，所述根据所述中英双语实体构建关联关系，经映射获得底层关系图谱；包括：

计算实体之间的关联关系；

基于图表示模型，将得到的实体关联关系进行图谱表示。

作为本发明的进一步改进，所述根据用户输入的搜索语句进行实体抽取，包括：

采用开源的汉语实体抽取工具或汉语命名实体识别模型抽取所述中英双语模型中的汉语句子中的实体。

作为本发明的进一步改进，根据用户输入的搜索语句进行实体抽取、翻译，其中，所述翻译包括：

采用翻译软件与Transformer翻译模型相结合，对抽取到的所述实体进行翻译。

作为本发明的进一步改进，将翻译后的实体与所述底层关系图谱进行匹配，分析匹配结果进行推荐。

本发明还公开了一种基于图谱的搜索分析系统，包括：数据搜集模块、Transformer翻译模型构建与训练模块、实体对齐模块、图谱构建模块和数据搜索模块；

所述数据搜集模块，用于：

搜集数据集，获取到中英双语句子；

所述Transformer翻译模型构建与训练模块，用于：

所述实体对齐模块，用于：

所述图谱构建模块，用于：

所述数据搜索模块，用于：

与现有技术相比，本发明的有益效果为：

本发明基于图谱的搜索分析方法，通过构建中英翻译模型，提供一个供应用层调用的底层关系图谱，在用户输入搜索语句后，基于底层关系图谱实现对搜索语句的实体翻译和转换，基于翻译后的实体进行中英文的双语言精准搜索，有效解决现有技术中跨语言搜索的问题，提高了翻译搜索结果的准确率以及翻译搜索结果与目标语言搜索结果之间的一致性。

附图说明

图1为本发明一种实施例公开的基于图谱的搜索分析方法流程图；

图2为本发明一种实施例公开的基于图谱的搜索分析系统示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图对本发明做进一步的详细描述：

如图1所示，本发明提供的一种基于图谱的搜索分析方法，包括：

S1、搜集数据集，获取到中英双语句子；

其中，

在corpus中文语料集和斯坦福数据集中分别获取中文和英文数据，得到中英对齐的中英双语句子；

中英双语句子中，汉语句子中存在的实体都可在英语句子中找到相对应的实体。

S2、构建Transformer翻译模型，将获取到的中英双语句子输入Transformer翻译模型进行训练，得到训练好的中英翻译模型；

其中，

Transform是完全基于注意力机制来加速深度学习训练过程的现有算法模型，主要分为编码和解码两个模块；通过将句子输入到编码器中不断计算，直到计算到最后一层，再映射到解码模块中进行解码，最后输出结果。

因此，分别对中英双语句子中不同类型(包括基于不同语言的文字、图片、表格)的实体进行抽取、筛分、过滤得到所需实体；

基于Transformer翻译模型对所需实体进行机器翻译，得到中英翻译模型。

S3、基于中英翻译模型进行实体抽取、翻译，得到对齐的中英双语实体；

其中，

抽取中英双语句子中一种语言句子的实体；

基于中英翻译模型对抽取出的实体进行翻译，从而匹配出另一种语言的实体，将中英语言实体对齐。

S4、根据中英双语实体构建关联关系，经映射获得底层关系图谱；

其中，

计算实体之间的关联关系；

基于图表示模型，将得到的实体关联关系进行图谱表示。

S5、根据用户输入的搜索语句进行实体抽取、翻译，并与底层关系图谱进行匹配，得到搜索结果。

其中，

采用开源的汉语实体抽取工具或汉语命名实体识别模型抽取中英双语模型中的汉语句子中的实体；

采用翻译软件与Transformer翻译模型相结合，对抽取到的实体进行翻译；

将翻译后的实体与底层关系图谱进行匹配，分析匹配结果进行推荐。

如图2所示，本发明还提供了一种基于图谱的搜索分析系统，包括：数据搜集模块、Transformer翻译模型构建与训练模块、实体对齐模块、图谱构建模块和数据搜索模块；

数据搜集模块，用于：

搜集数据集，获取到中英双语句子；

Transformer翻译模型构建与训练模块，用于：

构建Transformer翻译模型，将获取到的中英双语句子输入Transformer翻译模型进行训练，得到训练好的中英翻译模型；

实体对齐模块，用于：

基于中英翻译模型进行实体抽取、翻译，得到对齐的中英双语实体；

图谱构建模块，用于：

根据中英双语实体构建关联关系，经映射获得底层关系图谱；

数据搜索模块，用于：

根据用户输入的搜索语句进行实体抽取、翻译，并与底层关系图谱进行匹配，得到搜索结果。

实施例1：

步骤1、搜集数据集，在corpus中文语料集和斯坦福数据集中分别获取中文和英文数据，得到中英对齐的中英双语句子；

例如，

中文句子：苹果公司是一家以手机、电脑、平板为核心的高科技公司，由乔布斯创立，现任CEO是蒂姆·库克。

英文句子：Apple is a high-tech company with mobile phones,computersand tablets as its core.It was founded by jobs and its current CEO is TimCook.

步骤2、构建Transformer翻译模型，将获取到的中英双语句子输入Transformer翻译模型进行训练，得到训练好的中英翻译模型；

其中，

分别对中英双语句子中不同类型(包括基于不同语言的文字、图片、表格)的实体进行抽取、筛分、过滤得到所需实体；

步骤3、基于中英翻译模型进行实体抽取、翻译，得到对齐的中英双语实体；

抽取中英双语句子中一种语言句子的实体；

如：抽取中文句子中的实体“苹果”“高科技”“公司”“手机”“电脑”“平板”“乔布斯”“库克”；

基于中英翻译模型对抽取出的实体进行翻译，从而匹配出另一种语言的实体；

如：“Apple”“high-tech”“company”“mobile phones”“computers”“tablets”“jobs”“Tim Cook”

将中英语言实体对齐，得到：

“苹果-Apple”“高科技-high-tech”“公司-company”“手机-mobile phones”“电脑-computers”“平板-tablets”“乔布斯-jobs”“库克-Tim Cook”

步骤4、根据中英双语实体构建关联关系，经映射获得底层关系图谱；

其中，

计算实体之间的关联关系，如分别计算：“苹果”、“高科技”、“公司”、“手机”、“电脑”、“平板”、“乔布斯”、“库克”；

基于图表示模型，将得到的实体关联关系进行图谱表示。

如包括：苹果-创始人-乔布斯；苹果-CEO-库克；苹果-核心业务-电脑、手机、平板；苹果-公司；

步骤5、用户输入“苹果公司”进行实体抽取、翻译，并与底层关系图谱进行匹配，得到搜索结果。

其中，

采用汉语命名实体识别模型抽取实体“苹果”、“手机”；

采用Transformer翻译模型对抽取到的实体进行翻译“Apple”、“mobile phones”；

将翻译后的实体与底层关系图谱进行匹配，拼配到与“苹果”及“Apple”相关的信息，包括“苹果-创始人-乔布斯；苹果-CEO-库克；苹果-核心业务-电脑、手机、平板；苹果-公司”；拼配到与“手机”及“mobile phones”相关的信息，包括“苹果-核心业务-电脑、手机、平板”；

分析匹配结果进行推荐，此处通过排序推荐，将“苹果-核心业务-电脑、手机、平板”排在搜索结果的最前面。

本发明的优点：

基于图谱的搜索分析方法，通过构建中英翻译模型，提供一个供应用层调用的底层关系图谱，在用户输入搜索语句后，基于底层关系图谱实现对搜索语句的实体翻译和转换，基于翻译后的实体进行中英文的双语言精准搜索，有效解决现有技术中跨语言搜索的问题，提高了翻译搜索结果的准确率以及翻译搜索结果与目标语言搜索结果之间的一致性。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于图谱的搜索分析方法，其特征在于，包括：

搜集数据集，获取到中英双语句子；

2.根据权利要求1所述的搜索分析方法，其特征在于：所述搜集数据集包括：在corpus中文语料集和斯坦福数据集中分别获取中文和英文数据，得到中英对齐的中英双语句子。

3.根据权利要求1所述的搜索分析方法，其特征在于：所述中英双语句子中，汉语句子中存在的实体都可在英语句子中找到相对应的实体。

4.根据权利要求1所述的搜索分析方法，其特征在于：所述将获取到的所述中英双语句子输入所述Transformer翻译模型进行训练，包括：

5.根据权利要求1所述的搜索分析方法，其特征在于：所述基于所述中英翻译模型进行实体抽取、翻译，得到对齐的中英双语实体；包括：

抽取所述中英双语句子中一种语言句子的实体；

6.根据权利要求1所述的搜索分析方法，其特征在于：所述根据所述中英双语实体构建关联关系，经映射获得底层关系图谱；包括：

计算实体之间的关联关系；

基于图表示模型，将得到的实体关联关系进行图谱表示。

7.根据权利要求1所述的搜索分析方法，其特征在于：所述根据用户输入的搜索语句进行实体抽取，包括：

8.根据权利要求1所述的搜索分析方法，其特征在于：根据用户输入的搜索语句进行实体抽取、翻译，其中，所述翻译包括：

9.根据权利要求1所述的搜索分析方法，其特征在于：将翻译后的实体与所述底层关系图谱进行匹配，分析匹配结果进行推荐。

10.一种用于实现如权利要求1～9任一项所述的搜索分析方法的系统，其特征在于，包括：数据搜集模块、Transformer翻译模型构建与训练模块、实体对齐模块、图谱构建模块和数据搜索模块；

所述数据搜集模块，用于：

搜集数据集，获取到中英双语句子；

所述Transformer翻译模型构建与训练模块，用于：

所述实体对齐模块，用于：

所述图谱构建模块，用于：

所述数据搜索模块，用于：