CN105005561B - 一种基于语料库的双语检索统计翻译系统 - Google Patents

一种基于语料库的双语检索统计翻译系统 Download PDF

Info

Publication number
CN105005561B
CN105005561B CN201510411553.0A CN201510411553A CN105005561B CN 105005561 B CN105005561 B CN 105005561B CN 201510411553 A CN201510411553 A CN 201510411553A CN 105005561 B CN105005561 B CN 105005561B
Authority
CN
China
Prior art keywords
data
module
statistics
translation
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201510411553.0A
Other languages
English (en)
Other versions
CN105005561A (zh
Inventor
刘改琳
李定顺
张永强
王瑛
张静华
潘婉莹
杨薇
高业艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201510411553.0A priority Critical patent/CN105005561B/zh
Publication of CN105005561A publication Critical patent/CN105005561A/zh
Application granted granted Critical
Publication of CN105005561B publication Critical patent/CN105005561B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种基于语料库的双语检索统计翻译系统,包括数据库,用于储存各类相关词表、语句、单词以及每个单词、语句对应的解释和应用案例数据;数据库更新模块、人机操作模块,包括键盘输入模块、手写输入模块以及语音输入模块,用于输入需要查询的英语数据或汉语数据,并将数据发送到数据识别单元;同时还用于输入信息调用命令;数据识别单元,数据分割单元,数据翻译模块,检索功能模块,词表功能模块,搭配词功能模块,词簇功能模块,主题性功能模块,词汇分类功能模块和自学功能模块。本发明可以选择不同的输入模式,检索过程简单快速,在得到检索结果时,可以得到该文本数据的分类、词句以及应用案例等数据,减省了用户的时间,使用方便。

Description

一种基于语料库的双语检索统计翻译系统
技术领域
本发明涉及搜索引擎领域,具体涉及一种基于语料库的双语检索统计翻译系统。
背景技术
随着互联网应用的发展、以及各种类型的数字化内容(文本、图片、音频和视频等)以指数级的形式呈现出爆炸性的增长,如何根据用户的输入在海量信息中准确地查找相关内容,是一个非常基础而又具有重大意义的技术挑战。目前,以Google、百度等为代表的通用搜索引擎在一定程度上已经较好地解决了这一难题。
然而以通用搜索引擎为代表及其他基于传统的文本检索系统的软件、网络应用等,在针对各类双语搜索上仍然具有很大的局限性,一方面其单单存在翻译功能,而不具备检索功能,另一方面,相关词句的介绍以及应用案例等,都需要重新去查询,这无疑增加了用户的工作量。
且,在具体使用过程中,由于单词由均为多个字母构成,很容易导致使用者在检索时,拼写错误,或者无法拼写的情况的发生,而导致无法进行检索。
发明内容
为解决上述问题,本发明提供了一种基于语料库的双语检索统计翻译系统,命名为Word Smart语料库教学与研究系统。
为实现上述目的,本发明采取的技术方案为:
一种基于语料库的双语检索统计翻译系统,包括
数据库,用于储存各类相关词表、语句、单词以及每个单词、语句对应的解释和应用案例数据;
数据库更新模块,用于通过3G网络、Wi-Fi网络方式更新数据库;
人机操作模块,包括键盘输入模块、手写输入模块以及语音输入模块,用于输入需要查询的英语数据或汉语数据,并将数据发送到数据识别单元;同时还用于输入信息调用命令;
数据识别单元,用于接收人机操作模块发送来的数据,并判断数据属于英语还是汉语,并将汉语数据发送到数据分割单元,将英语数据发送到检索处理模块;
数据分割单元,用于将接收的汉语数据进行分割,识别所述汉语数据中的标点,以句号为分割位置,得到以句子为单位的文本信息并将该文本信息发送到数据翻译模块;
数据翻译模块,用于将获取的文本信息进行数据库搜索,查找是否有对应或类似的翻译目标语句,并将翻译结果通过电子显示屏显示,若未查询到,文本信息会传送到联网模块,通过联网模块进行翻译结果查询,并将翻译结果储存在数据库内,且通过电子显示屏显示;
检索处理模块,包括
检索功能模块,用于接收数据识别单元以及数据翻译模块发来的文本数据,将文本数据与公式数据库中的公式数据进行类似度对比,并将比对结果按照相似度进行升序或降序排序后,通过电子显示屏显示;
词表功能模块,对导入文件进行词表统计与显示;
搭配词功能模块,用于实现对某一词的搭配信息的统计与显示功能;
词簇功能模块,用于实现多词词表的统计与显示;
主题性功能模块,用于通过词表对比,统计出导入文本的主题性信息;
词汇分类功能模块,用于实现对导入文本的词性、水平级别的统计与分类;
中央处理器,用于根据信息调用命令,从数据库中调用人们所需的数据信息,并用于添加用户、删除用户、密码修改、权限管理;
液晶显示屏,用于显示检索功能模块的检索结果以及输入的文本数据;
语音单元,用于语音播放检索功能模块的检索结果;
自学功能模块,用于就某一文件,自动生成具有交互性的测试内容,供学生练习。
其中,还包括资源共享模块,用于下载检索结果。
其中,所述语音输入模块采用麦克风。
其中,所述联网模块包括一网络爬虫进程,用于在网络中查找与输入文本相关的网页或文档。
其中,所述电子显示屏为触摸屏。
本发明具有以下有益效果:
可以选择不同的输入模式,检索过程简单快速,在得到检索结果时,可以得到该文本数据的分类、词句以及应用案例等数据,减省了用户的时间,使用方便。
附图说明
图1为本发明实施例一种基于语料库的双语检索统计翻译系统的结构示意图。
具体实施方式
为了使本发明的目的及优点更加清楚明白,以下结合实施例对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明实施例提供了一种基于语料库的双语检索统计翻译系统,包括
数据库,用于储存各类相关词表、语句、单词以及每个单词、语句对应的解释和应用案例数据;
数据库更新模块,用于通过3G网络、Wi-Fi网络方式更新数据库;
人机操作模块,包括键盘输入模块、手写输入模块以及语音输入模块,用于输入需要查询的英语数据或汉语数据,并将数据发送到数据识别单元;同时还用于输入信息调用命令;
数据识别单元,用于接收人机操作模块发送来的数据,并判断数据属于英语还是汉语,并将汉语数据发送到数据分割单元,将英语数据发送到检索处理模块;
数据分割单元,用于将接收的汉语数据进行分割,识别所述汉语数据中的标点,以句号为分割位置,得到以句子为单位的文本信息并将该文本信息发送到数据翻译模块;
数据翻译模块,用于将获取的文本信息进行数据库搜索,查找是否有对应或类似的翻译目标语句,并将翻译结果通过电子显示屏显示,若未查询到,文本信息会传送到联网模块,通过联网模块进行翻译结果查询,并将翻译结果储存在数据库内,且通过电子显示屏显示;
检索处理模块,包括
检索功能模块,用于接收数据识别单元以及数据翻译模块发来的文本数据,将文本数据与公式数据库中的公式数据进行类似度对比,并将比对结果按照相似度进行升序或降序排序后,通过电子显示屏显示;
词表功能模块,对导入文件进行词表统计与显示;
搭配词功能模块,用于实现对某一词的搭配信息的统计与显示功能;
词簇功能模块,用于实现多词词表的统计与显示;
主题性功能模块,用于通过词表对比,统计出导入文本的主题性信息;
词汇分类功能模块,用于实现对导入文本的词性、水平级别的统计与分类;
中央处理器,用于根据信息调用命令,从数据库中调用人们所需的数据信息,并用于添加用户、删除用户、密码修改、权限管理;
液晶显示屏,用于显示检索功能模块的检索结果以及输入的文本数据;
语音单元,用于语音播放检索功能模块的检索结果;
自学功能模块,用于就某一文件,自动生成具有交互性的测试内容,供学生练习。
还包括资源共享模块,用于下载检索结果。
所述语音输入模块采用麦克风。
所述联网模块包括一网络爬虫进程,用于在网络中查找与输入文本相关的网页或文档。
所述电子显示屏为触摸屏。
本发明具有以下有益效果:
可以选择不同的输入模式,检索过程简单快速,在得到检索结果时,可以得到该文本数据的分类、词句以及应用案例等数据,减省了用户的时间,使用方便
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (5)

1.一种基于语料库的双语检索统计翻译系统,其特征在于,包括
数据库,用于储存各类相关词表、语句、单词以及每个单词、语句对应的解释和应用案例数据;
数据库更新模块,用于通过3G网络、Wi-Fi网络方式更新数据库;
人机操作模块,包括键盘输入模块、手写输入模块以及语音输入模块,用于输入需要查询的英语数据或汉语数据,并将数据发送到数据识别单元;同时还用于输入信息调用命令;
数据识别单元,用于接收人机操作模块发送来的数据,并判断数据属于英语还是汉语,并将汉语数据发送到数据分割单元,将英语数据发送到检索处理模块;
数据分割单元,用于将接收的汉语数据进行分割,识别所述汉语数据中的标点,以句号为分割位置,得到以句子为单位的文本信息并将该文本信息发送到数据翻译模块;
数据翻译模块,用于将获取的文本信息进行数据库搜索,查找是否有对应或类似的翻译目标语句,并将翻译结果通过电子显示屏显示,若未查询到,文本信息会传送到联网模块,通过联网模块进行翻译结果查询,并将翻译结果储存在数据库内,且通过电子显示屏显示;
检索处理模块,包括
检索功能模块,用于接收数据识别单元以及数据翻译模块发来的文本数据,将文本数据与公式数据库中的公式数据进行类似度对比,并将比对结果按照相似度进行升序或降序排序后,通过电子显示屏显示;
词表功能模块,对导入文件进行词表统计与显示;
搭配词功能模块,用于实现对某一词的搭配信息的统计与显示功能;
词簇功能模块,用于实现多词词表的统计与显示;
主题性功能模块,用于通过词表对比,统计出导入文本的主题性信息;
词汇分类功能模块,用于实现对导入文本的词性、水平级别的统计与分类;
中央处理器,用于根据信息调用命令,从数据库中调用人们所需的数据信息,并用于添加用户、删除用户、密码修改、权限管理;
液晶显示屏,用于显示检索功能模块的检索结果以及输入的文本数据;
语音单元,用于语音播放检索功能模块的检索结果;
自学功能模块,用于就某一文件,自动生成具有交互性的测试内容,供学生练习。
2.根据权利要求1所述的一种基于语料库的双语检索统计翻译系统,其特征在于,还包括资源共享模块,用于下载检索结果。
3.根据权利要求1所述的一种基于语料库的双语检索统计翻译系统,其特征在于,所述语音输入模块采用麦克风。
4.根据权利要求1所述的一种基于语料库的双语检索统计翻译系统,其特征在于,所述联网模块包括一网络爬虫进程,用于在网络中查找与输入文本相关的网页或文档。
5.根据权利要求1所述的一种基于语料库的双语检索统计翻译系统,其特征在于,所述电子显示屏为触摸屏。
CN201510411553.0A 2015-07-07 2015-07-07 一种基于语料库的双语检索统计翻译系统 Expired - Fee Related CN105005561B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510411553.0A CN105005561B (zh) 2015-07-07 2015-07-07 一种基于语料库的双语检索统计翻译系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510411553.0A CN105005561B (zh) 2015-07-07 2015-07-07 一种基于语料库的双语检索统计翻译系统

Publications (2)

Publication Number Publication Date
CN105005561A CN105005561A (zh) 2015-10-28
CN105005561B true CN105005561B (zh) 2018-11-16

Family

ID=54378237

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510411553.0A Expired - Fee Related CN105005561B (zh) 2015-07-07 2015-07-07 一种基于语料库的双语检索统计翻译系统

Country Status (1)

Country Link
CN (1) CN105005561B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107315732B (zh) * 2016-04-27 2021-03-23 科大讯飞股份有限公司 一种中式英语的发现方法及系统
CN105844978A (zh) * 2016-05-18 2016-08-10 华中师范大学 一种小学语文词语学习辅助语音机器人装置及其工作方法
CN106951416A (zh) * 2017-03-21 2017-07-14 成都星阵地科技有限公司 基于大数据处理及人工干预的多语言即时翻译系统
CN106991086A (zh) * 2017-06-08 2017-07-28 黑龙江工业学院 一种英语和俄语的互译方法
JP7110644B2 (ja) * 2018-03-22 2022-08-02 カシオ計算機株式会社 情報表示装置、情報表示方法及び情報表示プログラム
CN108664545A (zh) * 2018-03-26 2018-10-16 商洛学院 一种英语翻译学习用数据处理方法
CN110136512A (zh) * 2019-04-17 2019-08-16 许昌学院 一种英语等级考试习题及答案解析的自动归类系统
CN110046261B (zh) * 2019-04-22 2022-01-21 山东建筑大学 一种建筑工程多模态双语平行语料库的构建方法
CN112784614A (zh) * 2021-03-03 2021-05-11 北京雅信诚医学信息科技有限公司 一种计算机语言翻译系统
CN112800784A (zh) * 2021-03-03 2021-05-14 北京雅信诚医学信息科技有限公司 一种利用在线翻译服务的翻译系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1707476A (zh) * 2005-05-06 2005-12-14 贺方升 辅助翻译搜索引擎系统及其方法
CN1716241A (zh) * 2005-07-04 2006-01-04 张�杰 采用声频数据比较的自动翻译处理方法及自动翻译器
CN102270198A (zh) * 2011-08-16 2011-12-07 上海交通大学出版社有限公司 计算机辅助翻译系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1707476A (zh) * 2005-05-06 2005-12-14 贺方升 辅助翻译搜索引擎系统及其方法
CN1716241A (zh) * 2005-07-04 2006-01-04 张�杰 采用声频数据比较的自动翻译处理方法及自动翻译器
CN102270198A (zh) * 2011-08-16 2011-12-07 上海交通大学出版社有限公司 计算机辅助翻译系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于语料库的《新高中英语》教材词汇的广度和深度研究;梁健丽等;《基础英语教育》;20090430;第11卷(第2期);第84-85页 *
语料库方法在大学英语词汇教学中的应用;奚丽云等;《云南农业大学学报》;20131231;第7卷(第2期);第102-107页 *

Also Published As

Publication number Publication date
CN105005561A (zh) 2015-10-28

Similar Documents

Publication Publication Date Title
CN105005561B (zh) 一种基于语料库的双语检索统计翻译系统
US11669579B2 (en) Method and apparatus for providing search results
WO2015185019A1 (zh) 一种基于语义理解的表情输入方法和装置
US10192544B2 (en) Method and system for constructing a language model
US9626622B2 (en) Training a question/answer system using answer keys based on forum content
KR102491172B1 (ko) 자연어 질의응답 시스템 및 그 학습 방법
US10878044B2 (en) System and method for providing content recommendation service
CN111046656B (zh) 文本处理方法、装置、电子设备及可读存储介质
US10394886B2 (en) Electronic device, computer-implemented method and computer program
CN108090351B (zh) 用于处理请求消息的方法和装置
US20180293302A1 (en) Natural question generation from query data using natural language processing system
US20200301919A1 (en) Method and system of mining information, electronic device and readable storable medium
CN105574138A (zh) 一种信息检索系统
CN102880723A (zh) 一种识别用户检索意图的搜索方法和系统
CN102542042A (zh) 一种在移动设备上搜索应用程序的方法及系统
Zuo et al. Complementary aspect-based opinion mining
CN110096599B (zh) 知识图谱的生成方法及装置
Mohammed Extracting word synonyms from text using neural approaches.
CN113656763B (zh) 确定小程序特征向量的方法、装置和电子设备
Wali et al. A bootstrapping approach for developing a cyber-security ontology using textbook index terms
CN115438149A (zh) 一种端到端模型训练方法、装置、计算机设备及存储介质
CN111966781A (zh) 数据查询的交互方法及装置、电子设备和存储介质
Palogiannidi et al. Valence, arousal and dominance estimation for English, German, Greek, Portuguese and Spanish lexica using semantic models.
CN114722174A (zh) 提词方法和装置、电子设备及存储介质
CN110008314B (zh) 一种意图解析方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20181116

Termination date: 20190707