CN113220975A - 一种基于图谱的搜索分析方法及系统 - Google Patents

一种基于图谱的搜索分析方法及系统 Download PDF

Info

Publication number
CN113220975A
CN113220975A CN202110553773.2A CN202110553773A CN113220975A CN 113220975 A CN113220975 A CN 113220975A CN 202110553773 A CN202110553773 A CN 202110553773A CN 113220975 A CN113220975 A CN 113220975A
Authority
CN
China
Prior art keywords
chinese
english
search
entities
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110553773.2A
Other languages
English (en)
Inventor
王绪刚
李珏
李新贵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Oula Cognitive Intelligent Technology Co ltd
Original Assignee
Beijing Oula Cognitive Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Oula Cognitive Intelligent Technology Co ltd filed Critical Beijing Oula Cognitive Intelligent Technology Co ltd
Priority to CN202110553773.2A priority Critical patent/CN113220975A/zh
Publication of CN113220975A publication Critical patent/CN113220975A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种基于图谱的搜索分析方法及系统,涉及计算机技术领域,包括搜集数据集,获取到中英对齐的中英双语句子;构建Transformer翻译模型,将获取到的中英双语句子输入Transformer翻译模型进行训练,得到训练好的中英翻译模型;基于中英翻译模型进行实体抽取、翻译,得到对齐的中英双语实体;根据中英双语实体构建关联关系,经映射获得底层关系图谱;根据用户输入的搜索语句进行实体抽取、翻译,并与底层关系图谱进行匹配,得到搜索结果。本发明通过构建中英翻译模型,提供一个供应用层调用的底层关系图谱,在用户输入搜索语句后,基于底层关系图谱实现对搜索语句的双语言精准搜索,有效解决跨语言搜索的问题,提高了翻译搜索结果的准确率。

Description

一种基于图谱的搜索分析方法及系统
技术领域
本发明涉及计算机技术领域,尤其是涉及一种基于图谱的搜索分析方法及系统。
背景技术
随着互联网网站页面的激增和用户队伍的不断壮大,搜索引擎越来越成为人们上网浏览时的重要工具,与此同时,人们也不再满足于传统的搜索服务模式,即仅仅返回与用户搜索查询相关的若干文档链接,而是更希望获得针对其所提出的问题的准确答案。因此,基于图谱的跨语言搜索分析应运而生。
自然语言处理领域许多应用都提出了跨语言搜索的需求,如文献翻译、机器翻译等方法用于解决跨语言的问题,但仍然未能达到让用户满意的效果,不能满足当前全球化背景下的跨语言信息交互需求。
发明内容
针对上述问题,本发明提供了一种基于图谱的搜索分析方法及系统,通过跨语言知识图谱为新一代人工智能技术驱动的跨语言交际搭建桥梁,满足当前全球化背景下的跨语言信息交互需求,实现互联网信息的精准搜索。
为实现上述目的,本发明提供了一种基于图谱的搜索分析方法,包括:
搜集数据集,获取到中英双语句子;
构建Transformer翻译模型,将获取到的所述中英双语句子输入所述Transformer翻译模型进行训练,得到训练好的中英翻译模型;
基于所述中英翻译模型进行实体抽取、翻译,得到对齐的中英双语实体;
根据所述中英双语实体构建关联关系,经映射获得底层关系图谱;
根据用户输入的搜索语句进行实体抽取、翻译,并与所述底层关系图谱进行匹配,得到搜索结果。
作为本发明的进一步改进,所述搜集数据集包括:在corpus中文语料集和斯坦福数据集中分别获取中文和英文数据,得到中英对齐的中英双语句子。
作为本发明的进一步改进,所述中英双语句子中,汉语句子中存在的实体都可在英语句子中找到相对应的实体。
作为本发明的进一步改进,所述将获取到的所述中英双语句子输入所述Transformer翻译模型进行训练,包括:
分别对中英双语句子中不同类型的实体进行抽取、筛分、过滤得到所需实体;
基于所述Transformer翻译模型对所述所需实体进行机器翻译,得到中英翻译模型。
作为本发明的进一步改进,所述基于所述中英翻译模型进行实体抽取、翻译,得到对齐的中英双语实体;包括:
抽取所述中英双语句子中一种语言句子的实体;
基于所述中英翻译模型对抽取出的所述实体进行翻译,从而匹配出另一种语言的实体,将中英语言实体对齐。
作为本发明的进一步改进,所述根据所述中英双语实体构建关联关系,经映射获得底层关系图谱;包括:
计算实体之间的关联关系;
基于图表示模型,将得到的实体关联关系进行图谱表示。
作为本发明的进一步改进,所述根据用户输入的搜索语句进行实体抽取,包括:
采用开源的汉语实体抽取工具或汉语命名实体识别模型抽取所述中英双语模型中的汉语句子中的实体。
作为本发明的进一步改进,根据用户输入的搜索语句进行实体抽取、翻译,其中,所述翻译包括:
采用翻译软件与Transformer翻译模型相结合,对抽取到的所述实体进行翻译。
作为本发明的进一步改进,将翻译后的实体与所述底层关系图谱进行匹配,分析匹配结果进行推荐。
本发明还公开了一种基于图谱的搜索分析系统,包括:数据搜集模块、Transformer翻译模型构建与训练模块、实体对齐模块、图谱构建模块和数据搜索模块;
所述数据搜集模块,用于:
搜集数据集,获取到中英双语句子;
所述Transformer翻译模型构建与训练模块,用于:
构建Transformer翻译模型,将获取到的所述中英双语句子输入所述Transformer翻译模型进行训练,得到训练好的中英翻译模型;
所述实体对齐模块,用于:
基于所述中英翻译模型进行实体抽取、翻译,得到对齐的中英双语实体;
所述图谱构建模块,用于:
根据所述中英双语实体构建关联关系,经映射获得底层关系图谱;
所述数据搜索模块,用于:
根据用户输入的搜索语句进行实体抽取、翻译,并与所述底层关系图谱进行匹配,得到搜索结果。
与现有技术相比,本发明的有益效果为:
本发明基于图谱的搜索分析方法,通过构建中英翻译模型,提供一个供应用层调用的底层关系图谱,在用户输入搜索语句后,基于底层关系图谱实现对搜索语句的实体翻译和转换,基于翻译后的实体进行中英文的双语言精准搜索,有效解决现有技术中跨语言搜索的问题,提高了翻译搜索结果的准确率以及翻译搜索结果与目标语言搜索结果之间的一致性。
附图说明
图1为本发明一种实施例公开的基于图谱的搜索分析方法流程图;
图2为本发明一种实施例公开的基于图谱的搜索分析系统示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图对本发明做进一步的详细描述:
如图1所示,本发明提供的一种基于图谱的搜索分析方法,包括:
S1、搜集数据集,获取到中英双语句子;
其中,
在corpus中文语料集和斯坦福数据集中分别获取中文和英文数据,得到中英对齐的中英双语句子;
中英双语句子中,汉语句子中存在的实体都可在英语句子中找到相对应的实体。
S2、构建Transformer翻译模型,将获取到的中英双语句子输入Transformer翻译模型进行训练,得到训练好的中英翻译模型;
其中,
Transform是完全基于注意力机制来加速深度学习训练过程的现有算法模型,主要分为编码和解码两个模块;通过将句子输入到编码器中不断计算,直到计算到最后一层,再映射到解码模块中进行解码,最后输出结果。
因此,分别对中英双语句子中不同类型(包括基于不同语言的文字、图片、表格)的实体进行抽取、筛分、过滤得到所需实体;
基于Transformer翻译模型对所需实体进行机器翻译,得到中英翻译模型。
S3、基于中英翻译模型进行实体抽取、翻译,得到对齐的中英双语实体;
其中,
抽取中英双语句子中一种语言句子的实体;
基于中英翻译模型对抽取出的实体进行翻译,从而匹配出另一种语言的实体,将中英语言实体对齐。
S4、根据中英双语实体构建关联关系,经映射获得底层关系图谱;
其中,
计算实体之间的关联关系;
基于图表示模型,将得到的实体关联关系进行图谱表示。
S5、根据用户输入的搜索语句进行实体抽取、翻译,并与底层关系图谱进行匹配,得到搜索结果。
其中,
采用开源的汉语实体抽取工具或汉语命名实体识别模型抽取中英双语模型中的汉语句子中的实体;
采用翻译软件与Transformer翻译模型相结合,对抽取到的实体进行翻译;
将翻译后的实体与底层关系图谱进行匹配,分析匹配结果进行推荐。
如图2所示,本发明还提供了一种基于图谱的搜索分析系统,包括:数据搜集模块、Transformer翻译模型构建与训练模块、实体对齐模块、图谱构建模块和数据搜索模块;
数据搜集模块,用于:
搜集数据集,获取到中英双语句子;
Transformer翻译模型构建与训练模块,用于:
构建Transformer翻译模型,将获取到的中英双语句子输入Transformer翻译模型进行训练,得到训练好的中英翻译模型;
实体对齐模块,用于:
基于中英翻译模型进行实体抽取、翻译,得到对齐的中英双语实体;
图谱构建模块,用于:
根据中英双语实体构建关联关系,经映射获得底层关系图谱;
数据搜索模块,用于:
根据用户输入的搜索语句进行实体抽取、翻译,并与底层关系图谱进行匹配,得到搜索结果。
实施例1:
步骤1、搜集数据集,在corpus中文语料集和斯坦福数据集中分别获取中文和英文数据,得到中英对齐的中英双语句子;
例如,
中文句子:苹果公司是一家以手机、电脑、平板为核心的高科技公司,由乔布斯创立,现任CEO是蒂姆·库克。
英文句子:Apple is a high-tech company with mobile phones,computersand tablets as its core.It was founded by jobs and its current CEO is TimCook.
中英双语句子中,汉语句子中存在的实体都可在英语句子中找到相对应的实体。
步骤2、构建Transformer翻译模型,将获取到的中英双语句子输入Transformer翻译模型进行训练,得到训练好的中英翻译模型;
其中,
分别对中英双语句子中不同类型(包括基于不同语言的文字、图片、表格)的实体进行抽取、筛分、过滤得到所需实体;
基于Transformer翻译模型对所需实体进行机器翻译,得到中英翻译模型。
步骤3、基于中英翻译模型进行实体抽取、翻译,得到对齐的中英双语实体;
抽取中英双语句子中一种语言句子的实体;
如:抽取中文句子中的实体“苹果”“高科技”“公司”“手机”“电脑”“平板”“乔布斯”“库克”;
基于中英翻译模型对抽取出的实体进行翻译,从而匹配出另一种语言的实体;
如:“Apple”“high-tech”“company”“mobile phones”“computers”“tablets”“jobs”“Tim Cook”
将中英语言实体对齐,得到:
“苹果-Apple”“高科技-high-tech”“公司-company”“手机-mobile phones”“电脑-computers”“平板-tablets”“乔布斯-jobs”“库克-Tim Cook”
步骤4、根据中英双语实体构建关联关系,经映射获得底层关系图谱;
其中,
计算实体之间的关联关系,如分别计算:“苹果”、“高科技”、“公司”、“手机”、“电脑”、“平板”、“乔布斯”、“库克”;
基于图表示模型,将得到的实体关联关系进行图谱表示。
如包括:苹果-创始人-乔布斯;苹果-CEO-库克;苹果-核心业务-电脑、手机、平板;苹果-公司;
步骤5、用户输入“苹果公司”进行实体抽取、翻译,并与底层关系图谱进行匹配,得到搜索结果。
其中,
采用汉语命名实体识别模型抽取实体“苹果”、“手机”;
采用Transformer翻译模型对抽取到的实体进行翻译“Apple”、“mobile phones”;
将翻译后的实体与底层关系图谱进行匹配,拼配到与“苹果”及“Apple”相关的信息,包括“苹果-创始人-乔布斯;苹果-CEO-库克;苹果-核心业务-电脑、手机、平板;苹果-公司”;拼配到与“手机”及“mobile phones”相关的信息,包括“苹果-核心业务-电脑、手机、平板”;
分析匹配结果进行推荐,此处通过排序推荐,将“苹果-核心业务-电脑、手机、平板”排在搜索结果的最前面。
本发明的优点:
基于图谱的搜索分析方法,通过构建中英翻译模型,提供一个供应用层调用的底层关系图谱,在用户输入搜索语句后,基于底层关系图谱实现对搜索语句的实体翻译和转换,基于翻译后的实体进行中英文的双语言精准搜索,有效解决现有技术中跨语言搜索的问题,提高了翻译搜索结果的准确率以及翻译搜索结果与目标语言搜索结果之间的一致性。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于图谱的搜索分析方法,其特征在于,包括:
搜集数据集,获取到中英双语句子;
构建Transformer翻译模型,将获取到的所述中英双语句子输入所述Transformer翻译模型进行训练,得到训练好的中英翻译模型;
基于所述中英翻译模型进行实体抽取、翻译,得到对齐的中英双语实体;
根据所述中英双语实体构建关联关系,经映射获得底层关系图谱;
根据用户输入的搜索语句进行实体抽取、翻译,并与所述底层关系图谱进行匹配,得到搜索结果。
2.根据权利要求1所述的搜索分析方法,其特征在于:所述搜集数据集包括:在corpus中文语料集和斯坦福数据集中分别获取中文和英文数据,得到中英对齐的中英双语句子。
3.根据权利要求1所述的搜索分析方法,其特征在于:所述中英双语句子中,汉语句子中存在的实体都可在英语句子中找到相对应的实体。
4.根据权利要求1所述的搜索分析方法,其特征在于:所述将获取到的所述中英双语句子输入所述Transformer翻译模型进行训练,包括:
分别对中英双语句子中不同类型的实体进行抽取、筛分、过滤得到所需实体;
基于所述Transformer翻译模型对所述所需实体进行机器翻译,得到中英翻译模型。
5.根据权利要求1所述的搜索分析方法,其特征在于:所述基于所述中英翻译模型进行实体抽取、翻译,得到对齐的中英双语实体;包括:
抽取所述中英双语句子中一种语言句子的实体;
基于所述中英翻译模型对抽取出的所述实体进行翻译,从而匹配出另一种语言的实体,将中英语言实体对齐。
6.根据权利要求1所述的搜索分析方法,其特征在于:所述根据所述中英双语实体构建关联关系,经映射获得底层关系图谱;包括:
计算实体之间的关联关系;
基于图表示模型,将得到的实体关联关系进行图谱表示。
7.根据权利要求1所述的搜索分析方法,其特征在于:所述根据用户输入的搜索语句进行实体抽取,包括:
采用开源的汉语实体抽取工具或汉语命名实体识别模型抽取所述中英双语模型中的汉语句子中的实体。
8.根据权利要求1所述的搜索分析方法,其特征在于:根据用户输入的搜索语句进行实体抽取、翻译,其中,所述翻译包括:
采用翻译软件与Transformer翻译模型相结合,对抽取到的所述实体进行翻译。
9.根据权利要求1所述的搜索分析方法,其特征在于:将翻译后的实体与所述底层关系图谱进行匹配,分析匹配结果进行推荐。
10.一种用于实现如权利要求1~9任一项所述的搜索分析方法的系统,其特征在于,包括:数据搜集模块、Transformer翻译模型构建与训练模块、实体对齐模块、图谱构建模块和数据搜索模块;
所述数据搜集模块,用于:
搜集数据集,获取到中英双语句子;
所述Transformer翻译模型构建与训练模块,用于:
构建Transformer翻译模型,将获取到的所述中英双语句子输入所述Transformer翻译模型进行训练,得到训练好的中英翻译模型;
所述实体对齐模块,用于:
基于所述中英翻译模型进行实体抽取、翻译,得到对齐的中英双语实体;
所述图谱构建模块,用于:
根据所述中英双语实体构建关联关系,经映射获得底层关系图谱;
所述数据搜索模块,用于:
根据用户输入的搜索语句进行实体抽取、翻译,并与所述底层关系图谱进行匹配,得到搜索结果。
CN202110553773.2A 2021-05-20 2021-05-20 一种基于图谱的搜索分析方法及系统 Pending CN113220975A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110553773.2A CN113220975A (zh) 2021-05-20 2021-05-20 一种基于图谱的搜索分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110553773.2A CN113220975A (zh) 2021-05-20 2021-05-20 一种基于图谱的搜索分析方法及系统

Publications (1)

Publication Number Publication Date
CN113220975A true CN113220975A (zh) 2021-08-06

Family

ID=77093429

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110553773.2A Pending CN113220975A (zh) 2021-05-20 2021-05-20 一种基于图谱的搜索分析方法及系统

Country Status (1)

Country Link
CN (1) CN113220975A (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200026722A1 (en) * 2018-03-29 2020-01-23 Aurora Innovation, Inc. Autonomous Vehicle Relative Atlas Incorporating Hypergraph Data Structure
CN111723587A (zh) * 2020-06-23 2020-09-29 桂林电子科技大学 一种面向跨语言知识图谱的汉泰实体对齐方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200026722A1 (en) * 2018-03-29 2020-01-23 Aurora Innovation, Inc. Autonomous Vehicle Relative Atlas Incorporating Hypergraph Data Structure
CN111723587A (zh) * 2020-06-23 2020-09-29 桂林电子科技大学 一种面向跨语言知识图谱的汉泰实体对齐方法

Similar Documents

Publication Publication Date Title
CN110399457B (zh) 一种智能问答方法和系统
KR101130444B1 (ko) 기계번역기법을 이용한 유사문장 식별 시스템
Chen et al. Learning a dual-language vector space for domain-specific cross-lingual question retrieval
KR20160060253A (ko) 자연어 질의 응답 시스템 및 방법
CN110674271A (zh) 一种问答处理方法及装置
CN111190920B (zh) 一种基于自然语言的数据交互查询方法及其系统
US20190171713A1 (en) Semantic parsing method and apparatus
CN106502991B (zh) 出版物处理方法和装置
CN110334343B (zh) 一种合同中个人隐私信息抽取的方法和系统
Mittal et al. Versatile question answering systems: seeing in synthesis
US11699034B2 (en) Hybrid artificial intelligence system for semi-automatic patent infringement analysis
CN1492354A (zh) 多国文字信息搜索方法和多国文字信息搜索引擎系统
CN115759037A (zh) 建筑施工方案智能审核框架及审核方法
CN111831624A (zh) 数据表创建方法、装置、计算机设备及存储介质
Ahmed et al. Pre-processing and resource modelling for english-assamese nmt system
CN111401085A (zh) 基于混合策略的移动设备机器翻译系统
CN117095419A (zh) 一种pdf文档数据处理与信息抽取装置及方法
KR101069207B1 (ko) 전자 문서에 의미 정보를 부착하는 시스템 및 방법
Nghiem et al. Using MathML parallel markup corpora for semantic enrichment of mathematical expressions
Al-Sultany et al. Enriching tweets for topic modeling via linking to the wikipedia
CN113220975A (zh) 一种基于图谱的搜索分析方法及系统
CN113449038B (zh) 一种基于自编码器的矿山智能问答系统及方法
Sridhar et al. A Scalable Approach to Building a Parallel Corpus from the Web.
CN111949781A (zh) 一种基于自然语句句法分析的智能交互方法及装置
Blancafort et al. TTC Web platform: from corpus compilation to bilingual terminologies for MT and CAT tools

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210806