CN111178095A - 一种面向子词切分的BPE-Learn加速方法 - Google Patents
一种面向子词切分的BPE-Learn加速方法 Download PDFInfo
- Publication number
- CN111178095A CN111178095A CN201911323647.7A CN201911323647A CN111178095A CN 111178095 A CN111178095 A CN 111178095A CN 201911323647 A CN201911323647 A CN 201911323647A CN 111178095 A CN111178095 A CN 111178095A
- Authority
- CN
- China
- Prior art keywords
- byte
- frequency
- sub
- pairs
- main process
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 92
- 230000001133 acceleration Effects 0.000 title claims abstract description 19
- 238000013138 pruning Methods 0.000 claims abstract description 22
- 230000011218 segmentation Effects 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 16
- 238000004891 communication Methods 0.000 claims abstract description 12
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 238000013519 translation Methods 0.000 abstract description 10
- 230000001537 neural effect Effects 0.000 abstract description 7
- 238000010586 diagram Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Machine Translation (AREA)
Abstract
Description
统计轮数 | 最高频字节对 | 传统法耗时(秒) | 本发明耗时(秒) |
1 | (t,h) | 14.155849 | 5.049770 |
2 | (i,n) | 1.172236 | 0.487818 |
3 | (th,e</w>) | 4.438514 | 0.543465 |
4 | (a,n) | 0.688112 | 0.024234 |
5 | (r,e) | 5.057595 | 0.625184 |
Claims (5)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911323647.7A CN111178095B (zh) | 2019-12-20 | 2019-12-20 | 一种面向子词切分的BPE-Learn加速方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911323647.7A CN111178095B (zh) | 2019-12-20 | 2019-12-20 | 一种面向子词切分的BPE-Learn加速方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111178095A true CN111178095A (zh) | 2020-05-19 |
CN111178095B CN111178095B (zh) | 2023-06-27 |
Family
ID=70657613
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911323647.7A Active CN111178095B (zh) | 2019-12-20 | 2019-12-20 | 一种面向子词切分的BPE-Learn加速方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111178095B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112256841A (zh) * | 2020-11-26 | 2021-01-22 | 支付宝(杭州)信息技术有限公司 | 文本匹配和对抗文本识别方法、装置及设备 |
CN113255337A (zh) * | 2021-05-21 | 2021-08-13 | 广州欢聚时代信息科技有限公司 | 词表构建方法、机器翻译方法及其装置、设备与介质 |
CN115130472A (zh) * | 2022-08-31 | 2022-09-30 | 北京澜舟科技有限公司 | 一种基于bpe的子词分割方法、系统及可读存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080077548A1 (en) * | 2006-09-21 | 2008-03-27 | Philippe Michelin | Methods and systems for interpreting text using intelligent glossaries |
CN108197116A (zh) * | 2018-01-31 | 2018-06-22 | 天闻数媒科技(北京)有限公司 | 一种中文文本分词的方法、装置、分词设备及存储介质 |
CN109508462A (zh) * | 2018-10-25 | 2019-03-22 | 内蒙古工业大学 | 一种基于编码器-解码器的神经网络蒙汉机器翻译方法 |
CN109871550A (zh) * | 2019-01-31 | 2019-06-11 | 沈阳雅译网络技术有限公司 | 一种基于后处理技术的提高数字翻译质量的方法 |
US10388272B1 (en) * | 2018-12-04 | 2019-08-20 | Sorenson Ip Holdings, Llc | Training speech recognition systems using word sequences |
CN110502759A (zh) * | 2019-07-15 | 2019-11-26 | 昆明理工大学 | 融入分类词典的汉越混合网络神经机器翻译集外词处理方法 |
-
2019
- 2019-12-20 CN CN201911323647.7A patent/CN111178095B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080077548A1 (en) * | 2006-09-21 | 2008-03-27 | Philippe Michelin | Methods and systems for interpreting text using intelligent glossaries |
CN108197116A (zh) * | 2018-01-31 | 2018-06-22 | 天闻数媒科技(北京)有限公司 | 一种中文文本分词的方法、装置、分词设备及存储介质 |
CN109508462A (zh) * | 2018-10-25 | 2019-03-22 | 内蒙古工业大学 | 一种基于编码器-解码器的神经网络蒙汉机器翻译方法 |
US10388272B1 (en) * | 2018-12-04 | 2019-08-20 | Sorenson Ip Holdings, Llc | Training speech recognition systems using word sequences |
CN109871550A (zh) * | 2019-01-31 | 2019-06-11 | 沈阳雅译网络技术有限公司 | 一种基于后处理技术的提高数字翻译质量的方法 |
CN110502759A (zh) * | 2019-07-15 | 2019-11-26 | 昆明理工大学 | 融入分类词典的汉越混合网络神经机器翻译集外词处理方法 |
Non-Patent Citations (4)
Title |
---|
FARES AQLAN: ""Arabic–Chinese Neural Machine Translation: Romanized Arabic as Subword Unit for Arabic-sourced Translation"" * |
哈里旦木・阿布都克里木;刘洋;孙茂松;: "神经机器翻译系统在维吾尔语-汉语翻译中的性能对比", no. 08 * |
张飚: ""神经机器翻译网络结构建模研究"" * |
李卫红,万建成: "书面汉语全切分算法中的并发检索模型", no. 05 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112256841A (zh) * | 2020-11-26 | 2021-01-22 | 支付宝(杭州)信息技术有限公司 | 文本匹配和对抗文本识别方法、装置及设备 |
CN112256841B (zh) * | 2020-11-26 | 2024-05-07 | 支付宝(杭州)信息技术有限公司 | 文本匹配和对抗文本识别方法、装置及设备 |
CN113255337A (zh) * | 2021-05-21 | 2021-08-13 | 广州欢聚时代信息科技有限公司 | 词表构建方法、机器翻译方法及其装置、设备与介质 |
CN113255337B (zh) * | 2021-05-21 | 2024-02-02 | 广州欢聚时代信息科技有限公司 | 词表构建方法、机器翻译方法及其装置、设备与介质 |
CN115130472A (zh) * | 2022-08-31 | 2022-09-30 | 北京澜舟科技有限公司 | 一种基于bpe的子词分割方法、系统及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111178095B (zh) | 2023-06-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111178095B (zh) | 一种面向子词切分的BPE-Learn加速方法 | |
CN107066621B (zh) | 一种相似视频的检索方法、装置和存储介质 | |
CN108875040B (zh) | 词典更新方法及计算机可读存储介质 | |
CN110321925B (zh) | 一种基于语义聚合指纹的文本多粒度相似度比对方法 | |
CN108897842B (zh) | 计算机可读存储介质及计算机系统 | |
WO2012147428A1 (ja) | テキストクラスタリング装置、テキストクラスタリング方法、およびコンピュータ読み取り可能な記録媒体 | |
US20180068652A1 (en) | Apparatus and method for training a neural network language model, speech recognition apparatus and method | |
CN106844356B (zh) | 一种基于数据选择改善英中机器翻译质量的方法 | |
CN110928981A (zh) | 一种文本标签体系搭建及完善迭代的方法、系统及存储介质 | |
CN108021551B (zh) | 一种语料扩展方法及装置 | |
CN104951469A (zh) | 优化语料库的方法和装置 | |
CN111353303A (zh) | 词向量构建方法、装置、电子设备及存储介质 | |
CN113901214A (zh) | 表格信息的提取方法、装置、电子设备及存储介质 | |
CN110705298A (zh) | 一种改进的前缀树与循环神经网络结合的领域分类方法 | |
CN114036907B (zh) | 一种基于领域特征的文本数据扩增方法 | |
CN106156142A (zh) | 一种文本聚类的处理方法、服务器及系统 | |
CN113901216A (zh) | 数据标注、表格信息的提取方法、装置及电子设备 | |
CN107436865A (zh) | 一种词对齐训练方法、机器翻译方法及系统 | |
CN111178018B (zh) | 一种基于深度学习的目标软文的生成方法及装置 | |
CN103117748A (zh) | 一种bwt实现方法中对后缀进行排序的方法及系统 | |
CN114461530A (zh) | 针对app的测试用例智能推荐处理系统、方法、装置、处理器及计算机可读存储介质 | |
CN110929509A (zh) | 一种基于louvain社区发现算法的领域事件触发词聚类方法 | |
CN110826343B (zh) | 基于专利数据的半自动化翻译双语模板的构建方法及系统 | |
CN115019801A (zh) | 基于ResNet-GAU模型的PCVCs端到端语音识别方法 | |
CN115729360A (zh) | 输入法词库更新方法、装置、设备及服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information |
Inventor after: Du Quan Inventor after: Liu Xingyu Inventor before: Du Quan Inventor before: Liu Xingyu Inventor before: Zhu Jingbo Inventor before: Xiao Tong Inventor before: Zhang Chunliang |
|
CB03 | Change of inventor or designer information | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: A BPE Learn acceleration method for sub word segmentation Granted publication date: 20230627 Pledgee: China Construction Bank Shenyang Hunnan sub branch Pledgor: SHENYANG YAYI NETWORK TECHNOLOGY CO.,LTD. Registration number: Y2024210000102 |
|
PE01 | Entry into force of the registration of the contract for pledge of patent right |