CN113591497A - 一种基于词素媒介的蒙汉机器翻译方法 - Google Patents
一种基于词素媒介的蒙汉机器翻译方法 Download PDFInfo
- Publication number
- CN113591497A CN113591497A CN202110861033.5A CN202110861033A CN113591497A CN 113591497 A CN113591497 A CN 113591497A CN 202110861033 A CN202110861033 A CN 202110861033A CN 113591497 A CN113591497 A CN 113591497A
- Authority
- CN
- China
- Prior art keywords
- information
- dialect
- morpheme
- language
- mongolian
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000000605 extraction Methods 0.000 claims abstract description 4
- 241001672694 Citrus reticulata Species 0.000 claims description 11
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 230000000877 morphologic effect Effects 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 210000002105 tongue Anatomy 0.000 description 4
- 230000004069 differentiation Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000003997 social interaction Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于词素媒介的蒙汉机器翻译方法,涉及蒙汉互译技术领域,包括信息输入:将需要进行翻译的信息输入至系统内,输入信息可以为文字形式或者语言形式;S2、词素提取:将输入到系统中的信息进行分解,并提取出信息中的词素信息;S3、词素组合:对分解的词素分为多种词素组合进行拼接,并将其转换为需要被翻译的语音进行组合,本发明的有益效果为:该基于词素媒介的蒙汉机器翻译方法,通过采用语言以及文字双重输入的方式,可以根据使用者的使用要求切换不同的使用方式,并且在进行翻译的时候是利用词素作为媒介进行翻译,可以在保证语句原意的情况下对语句进行分解,并且再将翻译为中文后进行组合,避免翻译出现语义不同的情况。
Description
技术领域
本发明涉及蒙汉互译技术领域,具体为一种基于词素媒介的蒙汉机器翻译方法。
背景技术
随着时代的发展以及社会的进步,社会各行业人群之间交往也逐渐密切,并且随着物流业和交通业的发展,并在通讯业发达的前提下,跨国之间的贸易也逐渐增加,其中,部分农民在进行跨国贸易的时候语言的不便成为了主要的障碍之一,为此,语言互译的app以及网站起到了重大作用,但是某些农民的文化程度较低,对于电子设备的掌控和熟悉性较低,并且由于长年在同一地点劳作,其方言口音较重,在使用语言互译软件的时候不能很好的得到良好的翻译,为此,我们提出了一种基于词素媒介的蒙汉机器翻译方法。
发明内容
针对现有技术的不足,本发明提供了一种基于词素媒介的蒙汉机器翻译方法,解决了上述背景技术中提出的问题。
为实现以上目的,本发明通过以下技术方案予以实现:一种基于词素媒介的蒙汉机器翻译方法,包括以下步骤:
S1、信息输入:将需要进行翻译的信息输入至系统内,输入信息可以为文字形式或者语言形式;
S2、词素提取:将输入到系统中的信息进行分解,并提取出信息中的词素信息;
S3、词素组合:对分解的词素分为多种词素组合进行拼接,并将其转换为需要被翻译的语音进行组合;
S4、词素分析;结合初始输入信息与拼接后的多组信息进行对比,并且将语义相同的一项提取出;
S5、词素翻译;将被选出的那一项信息组合并根据其文字的书写以及语言习惯进行组合转换;
S6、文字显示:将经过组合转换的文字利用显示屏或者语言的方式进行展示。
优选的,所述S1中对蒙语的输入可以利用文字直接进行输入或者利用语言的方式进行输入,并且在利用语言进行输入后将其转换为蒙语文字。
优选的,所述S1中对汉语进行输入可以直接利用汉字进行输入,或者利用汉语普通话或者各地方言进行输入。
优选的,所述S1中利用方言进行输入的时候包括以下步骤:
S11、中文方言输入:利用语音的方式利用中国各地方言进行输入;
S12、方言区域区分:通过利用方言的主要特征对方言的位置进行确定;
S13、方言语句翻译:将方言语句转化为普通话语句。
优选的,所述S12中对方言区域区分,可以利用方言中前后鼻音的区分以及重点、声调的检测和平翘舌的检测确认其所属语系,并且在此过程中也可以利用卫星定位其信号作为辅助参考目标。
优选的,所述S13中对方言语句翻译时,可以将确认了所属语系的方言信息导入到对应的方言语库中,并且将方言信息与语库中记载的句意进行对比组合,并在寻找到对应的语句过后将其翻译为普通话。
优选的,所述S1中对词素进行综合分析时先提出名词信息,并且根据名词信息确定时态、形容词和动词信息,并根据信息进行组合分析。
本发明提供了一种基于词素媒介的蒙汉机器翻译方法,具备以下有益效果:
1、该基于词素媒介的蒙汉机器翻译方法,通过采用语言以及文字双重输入的方式,可以根据使用者的使用要求切换不同的使用方式,并且在进行翻译的时候是利用词素作为媒介进行翻译,可以在保证语句原意的情况下对语句进行分解,并且再将翻译为中文后进行组合,避免翻译出现语义不同的情况。
2、该基于词素媒介的蒙汉机器翻译方法,通过采用方言识别的方式,利用语言信息中的音调信息、前后鼻音信息以及平翘舌信息等,对语言中方言的所处位置进行计算,并且在计算时可以利用地理位置信息进行辅助计算,进一步的确认所说方言所处位置,并且在方言的基础上利用当属的方言词库进行。
附图说明
图1为本发明的流程示意图;
图2为本发明方言区域区分的流程示意图;
图3为本发明方言语句翻译的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
请参阅图1至图3,本发明提供一种技术方案:一种基于词素媒介的蒙汉机器翻译方法,包括以下步骤:
S1、信息输入:将需要进行翻译的信息输入至系统内,输入信息可以为文字形式或者语言形式;
S2、词素提取:将输入到系统中的信息进行分解,并提取出信息中的词素信息;
S3、词素组合:对分解的词素分为多种词素组合进行拼接,并将其转换为需要被翻译的语音进行组合;
S4、词素分析;结合初始输入信息与拼接后的多组信息进行对比,并且将语义相同的一项提取出;
S5、词素翻译;将被选出的那一项信息组合并根据其文字的书写以及语言习惯进行组合转换;
S6、文字显示:将经过组合转换的文字利用显示屏或者语言的方式进行展示。
其中,S1中对蒙语的输入可以利用文字直接进行输入或者利用语言的方式进行输入,并且在利用语言进行输入后将其转换为蒙语文字,增加了蒙语的输入选项,可供使用者自由选择。
其中,S1中对汉语进行输入可以直接利用汉字进行输入,或者利用汉语普通话或者各地方言进行输入,增加了汉语的输入选项,增加了本发明,的适用性。
其中,S1中利用方言进行输入的时候包括以下步骤:
S11、中文方言输入:利用语音的方式利用中国各地方言进行输入;
S12、方言区域区分:通过利用方言的主要特征对方言的位置进行确定;
S13、方言语句翻译:将方言语句转化为普通话语句。
其中,S12中对方言区域区分,可以利用方言中前后鼻音的区分以及重点、声调的检测和平翘舌的检测确认其所属语系,并且在此过程中也可以利用卫星定位其信号作为辅助参考目标,利用声音中体现出的地域特点对此方言所处语系进行确认,并且由于大部分农民耕种地都处于出生地附近,所以利用方言可以更好的根据卫星的定位确认使用者所处位置。
其中,S13中对方言语句翻译时,可以将确认了所属语系的方言信息导入到对应的方言语库中,并且将方言信息与语库中记载的句意进行对比组合,并在寻找到对应的语句过后将其翻译为普通话,将所说方言与方言库中的信息进行比对,并方便更换为普通话信息。
其中,S1中对词素进行综合分析时先提出名词信息,并且根据名词信息确定时态、形容词和动词信息,并根据信息进行组合分析,可以更加全面的分析和确认出语义。
综上所述,该基于词素媒介的蒙汉机器翻译方法,使用时,首先将需要进行翻译的信息利用文字形式或者语言形式输入至系统内,并且将输入到系统中的信息进行分解,并提取出信息中的词素信息,随后将分解的词素分为多种词素组合进行拼接,并将其转换为需要被翻译的语音进行组合,结合初始输入信息与拼接后的多组信息进行对比,将语义相同的一项提取出并根据其文字的书写以及语言习惯进行组合转换,最后将经过组合转换的文字利用显示屏或者语言的方式进行展示,在利用方言进行输入的时候,利用方言中前后鼻音的区分以及重点、声调的检测和平翘舌的检测确认其所属语系,并且在此过程中也可以利用卫星定位其信号作为辅助参考目标,当计算得出的区域与卫星定位区域进行比对,如果重合则可以进一步的提高位置的精准度,如果不相同则以计算位置为最终区域,随后将确认了所属语系的方言信息导入到对应的方言语库中,并且将方言信息与语库中记载的句意进行对比组合,并在寻找到对应的语句过后将其翻译为普通话。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (7)
1.一种基于词素媒介的蒙汉机器翻译方法,其特征在于:包括以下步骤:
S1、信息输入:将需要进行翻译的信息输入至系统内,输入信息可以为文字形式或者语言形式;
S2、词素提取:将输入到系统中的信息进行分解,并提取出信息中的词素信息;
S3、词素组合:对分解的词素分为多种词素组合进行拼接,并将其转换为需要被翻译的语音进行组合;
S4、词素分析;结合初始输入信息与拼接后的多组信息进行对比,并且将语义相同的一项提取出;
S5、词素翻译;将被选出的那一项信息组合并根据其文字的书写以及语言习惯进行组合转换;
S6、文字显示:将经过组合转换的文字利用显示屏或者语言的方式进行展示。
2.根据权利要求1所述的一种基于词素媒介的蒙汉机器翻译方法,其特征在于:所述S1中对蒙语的输入可以利用文字直接进行输入或者利用语言的方式进行输入,并且在利用语言进行输入后将其转换为蒙语文字。
3.根据权利要求1所述的一种基于词素媒介的蒙汉机器翻译方法,其特征在于:所述S1中对汉语进行输入可以直接利用汉字进行输入,或者利用汉语普通话或者各地方言进行输入。
4.根据权利要求1所述的一种基于词素媒介的蒙汉机器翻译方法,其特征在于:所述S1中利用方言进行输入的时候包括以下步骤:
S11、中文方言输入:利用语音的方式利用中国各地方言进行输入;
S12、方言区域区分:通过利用方言的主要特征对方言的位置进行确定;
S13、方言语句翻译:将方言语句转化为普通话语句。
5.根据权利要求4所述的一种基于词素媒介的蒙汉机器翻译方法,其特征在于:所述S12中对方言区域区分,可以利用方言中前后鼻音的区分以及重点、声调的检测和平翘舌的检测确认其所属语系,并且在此过程中也可以利用卫星定位其信号作为辅助参考目标。
6.根据权利要求4所述的一种基于词素媒介的蒙汉机器翻译方法,其特征在于:所述S13中对方言语句翻译时,可以将确认了所属语系的方言信息导入到对应的方言语库中,并且将方言信息与语库中记载的句意进行对比组合,并在寻找到对应的语句过后将其翻译为普通话。
7.根据权利要求1所述的一种基于词素媒介的蒙汉机器翻译方法,其特征在于:所述S1中对词素进行综合分析时先提出名词信息,并且根据名词信息确定时态、形容词和动词信息,并根据信息进行组合分析。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110861033.5A CN113591497A (zh) | 2021-07-29 | 2021-07-29 | 一种基于词素媒介的蒙汉机器翻译方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110861033.5A CN113591497A (zh) | 2021-07-29 | 2021-07-29 | 一种基于词素媒介的蒙汉机器翻译方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113591497A true CN113591497A (zh) | 2021-11-02 |
Family
ID=78251424
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110861033.5A Pending CN113591497A (zh) | 2021-07-29 | 2021-07-29 | 一种基于词素媒介的蒙汉机器翻译方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113591497A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115796194A (zh) * | 2022-11-17 | 2023-03-14 | 吉林农业科技学院 | 一种基于机器学习的英语翻译系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007072877A (ja) * | 2005-09-08 | 2007-03-22 | Sharp Corp | 翻訳装置および翻訳方法、プログラム |
CN103544145A (zh) * | 2012-07-12 | 2014-01-29 | 北京蚂蜂窝网络科技有限公司 | 一种外出旅行多语言翻译系统及方法 |
US20180293228A1 (en) * | 2017-04-11 | 2018-10-11 | Samsung Electronics Co., Ltd. | Device and method for converting dialect into standard language |
CN109979432A (zh) * | 2019-04-02 | 2019-07-05 | 科大讯飞股份有限公司 | 一种方言翻译方法及装置 |
CN111798839A (zh) * | 2020-07-27 | 2020-10-20 | 中国平安财产保险股份有限公司 | 语音识别方法、装置、移动终端及计算机可读存储介质 |
CN112347796A (zh) * | 2020-11-10 | 2021-02-09 | 内蒙古工业大学 | 一种基于蒸馏BERT与改进Transformer相结合的蒙汉神经机器翻译方法 |
-
2021
- 2021-07-29 CN CN202110861033.5A patent/CN113591497A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007072877A (ja) * | 2005-09-08 | 2007-03-22 | Sharp Corp | 翻訳装置および翻訳方法、プログラム |
CN103544145A (zh) * | 2012-07-12 | 2014-01-29 | 北京蚂蜂窝网络科技有限公司 | 一种外出旅行多语言翻译系统及方法 |
US20180293228A1 (en) * | 2017-04-11 | 2018-10-11 | Samsung Electronics Co., Ltd. | Device and method for converting dialect into standard language |
CN109979432A (zh) * | 2019-04-02 | 2019-07-05 | 科大讯飞股份有限公司 | 一种方言翻译方法及装置 |
CN111798839A (zh) * | 2020-07-27 | 2020-10-20 | 中国平安财产保险股份有限公司 | 语音识别方法、装置、移动终端及计算机可读存储介质 |
CN112347796A (zh) * | 2020-11-10 | 2021-02-09 | 内蒙古工业大学 | 一种基于蒸馏BERT与改进Transformer相结合的蒙汉神经机器翻译方法 |
Non-Patent Citations (1)
Title |
---|
"面向受限领域的汉蒙统计机器翻译", 《中国优秀博士学位论文全文数据库 信息科技辑》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115796194A (zh) * | 2022-11-17 | 2023-03-14 | 吉林农业科技学院 | 一种基于机器学习的英语翻译系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11915692B2 (en) | Facilitating end-to-end communications with automated assistants in multiple languages | |
US8924210B2 (en) | Text processing using natural language understanding | |
CN107305768B (zh) | 语音交互中的易错字校准方法 | |
US8700396B1 (en) | Generating speech data collection prompts | |
US8165887B2 (en) | Data-driven voice user interface | |
US20050154580A1 (en) | Automated grammar generator (AGG) | |
US20140316764A1 (en) | Clarifying natural language input using targeted questions | |
WO2010046782A2 (en) | Hybrid machine translation | |
JP2001188777A (ja) | 音声をテキストに関連付ける方法、音声をテキストに関連付けるコンピュータ、コンピュータで文書を生成し読み上げる方法、文書を生成し読み上げるコンピュータ、コンピュータでテキスト文書の音声再生を行う方法、テキスト文書の音声再生を行うコンピュータ、及び、文書内のテキストを編集し評価する方法 | |
CN104850543A (zh) | 语音对话支持装置和语音对话支持方法 | |
JP2013190985A (ja) | 知識応答システム、方法およびコンピュータプログラム | |
Graham et al. | Evaluating OpenAI's Whisper ASR: Performance analysis across diverse accents and speaker traits | |
US8527270B2 (en) | Method and apparatus for conducting an interactive dialogue | |
CN113591497A (zh) | 一种基于词素媒介的蒙汉机器翻译方法 | |
Rosso et al. | On the voice-activated question answering | |
Prasad et al. | BBN TransTalk: Robust multilingual two-way speech-to-speech translation for mobile platforms | |
Markl et al. | Automatic transcription and (de) standardisation | |
WO2021161856A1 (ja) | 情報処理装置及び情報処理方法 | |
JP5300576B2 (ja) | 検索装置、検索方法、および検索プログラム | |
JP2004118720A (ja) | 翻訳装置、翻訳方法及び翻訳プログラム | |
WO2021161908A1 (ja) | 情報処理装置及び情報処理方法 | |
Deng et al. | An Analysis of Modal Adverbs of Certainty in Linguistic Academic Discourse | |
KR100992073B1 (ko) | 관용어 및 사용자 발성패턴을 이용한 문법 자동 생성 장치 및 방법 | |
Begum Mustafa et al. | Code-Switching in Automatic Speech Recognition: The Issues and Future Directions | |
Kamaraj et al. | Enhancing Automatic Speech Recognition and Speech Translation Using Google Translate |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20211102 |
|
RJ01 | Rejection of invention patent application after publication |