CN108153866A - 一种多语体育术语知识库的构建方法 - Google Patents

一种多语体育术语知识库的构建方法 Download PDF

Info

Publication number
CN108153866A
CN108153866A CN201711419037.8A CN201711419037A CN108153866A CN 108153866 A CN108153866 A CN 108153866A CN 201711419037 A CN201711419037 A CN 201711419037A CN 108153866 A CN108153866 A CN 108153866A
Authority
CN
China
Prior art keywords
sport
term
knowledge base
lingual
construction method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711419037.8A
Other languages
English (en)
Inventor
梁镇爽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Global Tone Communication Technology Qingdao Co Ltd
Original Assignee
Global Tone Communication Technology Qingdao Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Global Tone Communication Technology Qingdao Co Ltd filed Critical Global Tone Communication Technology Qingdao Co Ltd
Priority to CN201711419037.8A priority Critical patent/CN108153866A/zh
Publication of CN108153866A publication Critical patent/CN108153866A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

一种多语体育术语知识库的构建方法,包括在数据库中构件体育术语字典,该菜单字典包括多个与体育术语有关的词条,根据体育术语字典的要求搜集体育术语信息,将搜集到的体育术语信息根据国家或地区进行分类,将体育术语信息转换为多个语种,将体育术语信息存入数据库,形成完整的体育术语知识库,使其能够涵盖各种体育运动、各个国家和地区的语言,有助于促进各国体育文化交融,可扩展至一些上游应用。如翻译系统及设备、外语辅助学习系统等。

Description

一种多语体育术语知识库的构建方法
技术领域
本发明涉及一种多语体育术语知识库的构建方法。
背景技术
随着全球化进程的加剧,体育作为人类的共同语言,也必将伴随经济全球化实现全球推广。体育全球化超越国界和地域,打破了地域环境与人文壁垒,使不同地域、民族的体育以丰富的个性进行多元融合、相互吸纳,发展成为新的世界文化模式。
在体育全球化的同时,也同样需要注意不同国家和地区之间的文化差异。首当其冲的就是语言交流问题。以足球运动为例,足球是世界上产值最高、受众最广泛、影响力最大的体育运动,为体育产业最大的单一项目。欧洲又是足球世界中产业规模最大、竞技水平最强的地区。有报告显示,2014-2015赛季,欧洲足球市场规模达到221亿欧元,预计2015-2016赛季将会达到250亿欧元。根据欧洲各大联赛的规则,欧盟国家内的任何一支球队都不对欧盟球员人数做出限制。因此,就产生了一支球队的队员语言五花八门的情况,语言的沟通问题就变得尤为突出。
发明内容
针对以上问题,本发明提供一种多语体育术语知识库的构建方法,需要采用技术方案是,
一种多语体育术语知识库的构建方法,其特征在于,包括以下步骤,
(1)在数据库中构件体育术语字典,该菜单字典包括多个与体育术语有关的词条;
(2)根据体育术语字典的要求搜集体育术语信息;
(3)将搜集到的体育术语信息根据国家或地区进行分类;
(4)将体育术语信息转换为多个语种;
(5)将体育术语信息存入数据库,形成完整的体育术语知识库。
在采用以上技术方案的同时,本发明还需采用进一步的技术方案,
该方法还包括与外部设备建立数据连接并实现信息反馈的步骤,
(1)通过数据接口连接外部录入设备;
(2)对外部录入设备所录入的信息进行分析比对;
(3)根据比对结果输出对应的体育术语信息。
外部录入设备包括键盘输入端和视频输入端。
所述视频输入端包括摄像头、动作对比系统。
所述动作对比系统根据动作库中记录对摄像头捕捉的视频进行分析,并输出多个/单个体育术语。
所述输出多个/单独体育术语,是通过动作对比系统将可能的结果进行输出。
所述文字词条和语言词条至少包括:术语名称、所属运动、发源地、流行国家、术语说明、历史记录、语种版本。
该构建方法在构建多语体育术语知识库时,对体育术语知识库中的每个词条进行不同的标记,确保所搜集到的菜品信息与体育术语知识库中的标识一一对应。
将与体育术语标记最接近的词条作为唯一的主要关键字,将其余的词条作为周边关键字。
将体育术语信息转换为多个语种,其中的多个语种至少包括中文、英文、德文、日文、韩文、法文、西班牙文、阿拉伯文。
本发明的有益效果是,1)构建一种多语体育术语知识库,使其能够涵盖各种体育运动、各个国家和地区的语言,2)本知识库可通过数据接口延伸扩展至一些上游应用。如翻译系统及设备、外语辅助学习系统等,3)本知识库有助于促进各国体育文化交融,4)目前全球范围内并无任何一家公开的多语体育术语知识库系统。但随着全球化的推进,体育运动与竞技也会越来越贴近人们的生活。因此,构建一种较为全面的多语体育术语知识库是时代所需。
附图说明
图1是本发明的流程图。
图2是本发明字典的内容。
具体实施方式
一种多语体育术语知识库的构建方法,其特征在于,包括以下步骤,
(1)在数据库中构件体育术语字典,该菜单字典包括多个与体育术语有关的词条;
如图2所示,所述文字词条和语言词条至少包括一下信息:术语名称,所属运动,发源,流行国家,根据民众参与程度进行排序,术语说明,记录术语的来源,历史记录,记录运动的发展过程,语种版本,不同国家的不同竞技方式,视频演示。
在建立好知识库的数据架构之后,对这些词条添加标记。
(2)根据体育术语字典的要求搜集体育术语信息;
根据收集到的文字体育术语信息,对不同的术语设置多个周边关键字和一个主要关键字,主要关键字和周边关键字是根据关键字与体育术语的接近程度来区分的;
根据收集到的视频信息,对不同的视频进行整合,提取视频中的关键步骤。
(3)将搜集到的体育术语信息根据国家或地区进行分类;
这一步是为了将菜品信息翻译成相应的语种而作的准备。
(4)将体育术语信息转换为多个语种;
将体育术语信息转换为多个语种,其中的多个语种至少包括中文、英文、德文、日文、韩文、法文、西班牙文、阿拉伯文(此处还可以继续补充常用语种),为了节省初期的构建成本,在最初翻译的时候,通常需要选择几个常用语种进行翻译,对于不常用的语种,在使用到的时候可以进行即时翻译,将翻译后的词条存入数据库,从而丰富和完善数据库的内容。
(5)将体育术语信息存入数据库,形成完整的体育术语知识库。
实施例一,标枪。
(1)收集信息,术语名称:掷标枪,所属运动:多轴性旋转投掷项目,发源:人类早期的一种捕猎工具,流行国家,瑞典、中国等,术语说明:镖头由金属打制而成,一般有锥形和长水滴形等形式,套装在枪杆上,用于投掷比赛,历史记录:标枪是人类历史上有据可靠的最早的远程兵器之一,直到13世纪,标枪仍然是世界许多国家军队的制式装备,在完全退出军事舞台之后,标枪成为了一个纯粹的田径运动项目,1792年,瑞典举行了世界上的第一次现代标枪比赛,1908年和1932年被列为现代奥运会比赛项目,语种版本:中文、英文、西班牙文,视频演示。
在建立好知识库的数据架构之后,对这些词条添加“掷标枪”的标记。
(2)根据收集到的文字体育术语信息,将橄榄球设为主要关键字,将其余与橄榄球相关的关键字设为周边关键字。
根据收集到的视频信息,对不同的视频进行整合,提取视频中的关键步骤:抱球动作投掷动作掩护动作。
(3)在收集资料柜的过程中,查到了多种语言的相关标枪的信息,将搜集到的相关标枪的信息根据国家或地区进行分类;
(4)将收集到的相关的标枪信息进行多种语言的相互翻译。
(5)将体育术语信息存入数据库;
(6)将多语种体育术语信息的数据接口对外开放,形成完整的体育术语知识库。
实施例二,橄榄球。
(1)收集信息,术语名称:橄榄球,所属运动:球类运动,发源:足球的衍生球类运动,流行国家,英国、美国、加拿大、澳大利亚、新西兰、日本等国家,术语说明:因其球形似橄榄,在中国称为橄榄球,历史记录:1987年国际橄榄球理事会举办了第一届世界杯男子橄榄球锦标赛,1991年又举办了第一届世界女子橄榄球锦标赛,语种版本:英语、中文,视频演示。
在建立好知识库的数据架构之后,对这些词条添加“橄榄球”的标记。
(2)根据收集到的文字体育术语信息,将掷标枪设为主要关键字,将其余与标枪相关的关键字设为周边关键字。
根据收集到的视频信息,对不同的视频进行整合,提取视频中的关键步骤:助跑投掷动作收尾动作。
(3)在收集资料柜的过程中,查到了多种语言的相关标枪的信息,将搜集到的相关标枪的信息根据国家或地区进行分类;
(4)将收集到的相关的标枪信息进行多种语言的相互翻译。
(5)将体育术语信息存入数据库,形成完整的体育术语知识库。

Claims (10)

1.一种多语体育术语知识库的构建方法,其特征在于,包括以下步骤,
(1)在数据库中构件体育术语字典,该菜单字典包括多个与体育术语有关的词条;
(2)根据体育术语字典的要求搜集体育术语信息;
(3)将搜集到的体育术语信息根据国家或地区进行分类;
(4)将体育术语信息转换为多个语种;
(5)将体育术语信息存入数据库,形成完整的体育术语知识库。
2.根据权利要求1所述的一种多语体育术语知识库的构建方法,其特征在于,所述词条包括文字词条、语言词条和动作词条。
3. 根据权利要求1所述的一种多语体育术语知识库的构建方法,其特征在于, 该方法还包括与外部设备建立数据连接并实现信息反馈的步骤,
(1)通过数据接口连接外部录入设备;
(2)对外部录入设备所录入的信息进行分析比对;
(3)根据比对结果输出对应的体育术语信息。
4.根据权利要求3所述的一种多语体育术语知识库的构建方法,其特征在于,外部录入设备包括键盘输入端和视频输入端。
5.根据权利要求4所述的一种多语体育术语知识库的构建方法,其特征在于,所述视频输入端包括摄像头和动作对比系统。
6.根据权利要求5所述的一种多语体育术语知识库的构建方法,其特征在于,所述动作对比系统根据动作库中记录对摄像头捕捉的视频进行分析,并输出多个/单个体育术语。
7.根据权利要求1所述的一种多语体育术语知识库的构建方法,其特征在于,所述文字词条和语言词条至少包括:术语名称、所属运动、发源地、流行国家、术语说明、历史记录、语种版本。
8.根据权利要求1所述的一种多语体育术语知识库的构建方法,其特征在于,该构建方法在构建多语体育术语知识库时,对体育术语知识库中的每个词条进行不同的标记,确保所搜集到的菜品信息与体育术语知识库中的标识一一对应。
9.根据权利要求8所述的一种多语体育术语知识库的构建方法,其特征在于,将与体育术语标记最接近的词条作为唯一的主要关键字,将其余的词条作为周边关键字。
10.根据权利要求1所述的一种多语体育术语知识库的构建方法,其特征在于,将体育术语信息转换为多个语种,其中的多个语种至少包括中文、英文、德文、日文、韩文、法文、西班牙文、阿拉伯文。
CN201711419037.8A 2017-12-25 2017-12-25 一种多语体育术语知识库的构建方法 Pending CN108153866A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711419037.8A CN108153866A (zh) 2017-12-25 2017-12-25 一种多语体育术语知识库的构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711419037.8A CN108153866A (zh) 2017-12-25 2017-12-25 一种多语体育术语知识库的构建方法

Publications (1)

Publication Number Publication Date
CN108153866A true CN108153866A (zh) 2018-06-12

Family

ID=62464421

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711419037.8A Pending CN108153866A (zh) 2017-12-25 2017-12-25 一种多语体育术语知识库的构建方法

Country Status (1)

Country Link
CN (1) CN108153866A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106464957A (zh) * 2014-06-30 2017-02-22 苹果公司 实时数字助理知识更新
CN107423274A (zh) * 2017-06-07 2017-12-01 北京百度网讯科技有限公司 基于人工智能的比赛解说内容生成方法、装置及存储介质
CN107480232A (zh) * 2017-08-07 2017-12-15 中译语通科技(青岛)有限公司 一种多语菜单知识库系统的构建方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106464957A (zh) * 2014-06-30 2017-02-22 苹果公司 实时数字助理知识更新
CN107423274A (zh) * 2017-06-07 2017-12-01 北京百度网讯科技有限公司 基于人工智能的比赛解说内容生成方法、装置及存储介质
CN107480232A (zh) * 2017-08-07 2017-12-15 中译语通科技(青岛)有限公司 一种多语菜单知识库系统的构建方法

Similar Documents

Publication Publication Date Title
US20210303921A1 (en) Cross-modality processing method and apparatus, and computer storage medium
Plummer et al. Flickr30k entities: Collecting region-to-phrase correspondences for richer image-to-sentence models
US11550998B2 (en) Method and apparatus for generating a competition commentary based on artificial intelligence, and storage medium
Qi et al. Sports video captioning via attentive motion representation and group relationship modeling
Gomez et al. Icdar2017 robust reading challenge on coco-text
CN101021850B (zh) 单词检索设备和单词检索方法
CN104102720B (zh) 高效输入的预测方法和装置
Xu et al. Using webcast text for semantic event detection in broadcast sports video
WO2019136841A1 (zh) 直播间内容标签提取方法、存储介质、电子设备及系统
US9519643B1 (en) Machine map label translation
CN103760991B (zh) 一种实体输入方法和装置
JP4737435B2 (ja) ラベル付与システム、ラベリングサービスシステム、ラベル付与方法およびラベル付与プログラム
CN107690634B (zh) 自动查询模式生成方法及系统
US20180060295A1 (en) Method and device for context-based forward input error correction
CN106156012A (zh) 一种字幕生成方法及装置
CN105956206A (zh) 一种基于关键词树的视频检索方法及系统
CN103778124A (zh) 一种树形结构查询方法及装置
CN1327316C (zh) 一种基于五键的汉字输入系统
CN106066862A (zh) 新闻事件显示方法及装置
Kaneko et al. Visual event mining from geo-tweet photos
CN102550049B (zh) 通过动态学习提取规则来获取词表外的翻译
US20160154885A1 (en) Method for searching a database
CN101763403A (zh) 面向多语言信息检索系统的查询翻译方法
CN108153866A (zh) 一种多语体育术语知识库的构建方法
CN111949820A (zh) 视频关联兴趣点的处理方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180612