CN112257389A - 一种多语言文字数字转阿拉伯数字的转换方法、装置、计算机装置及计算机可读存储介质 - Google Patents

一种多语言文字数字转阿拉伯数字的转换方法、装置、计算机装置及计算机可读存储介质 Download PDF

Info

Publication number
CN112257389A
CN112257389A CN202011185870.2A CN202011185870A CN112257389A CN 112257389 A CN112257389 A CN 112257389A CN 202011185870 A CN202011185870 A CN 202011185870A CN 112257389 A CN112257389 A CN 112257389A
Authority
CN
China
Prior art keywords
text
keywords
arabic numerals
storage area
condition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011185870.2A
Other languages
English (en)
Inventor
赫中翮
左凌峰
王志超
李敬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Xinghan Shuzhi Technology Co ltd
Original Assignee
Hunan Xinghan Shuzhi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Xinghan Shuzhi Technology Co ltd filed Critical Hunan Xinghan Shuzhi Technology Co ltd
Priority to CN202011185870.2A priority Critical patent/CN112257389A/zh
Publication of CN112257389A publication Critical patent/CN112257389A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明适用于互联网技术领域,提供了一种多语言文字数字转阿拉伯数字的转换方法、装置、计算机装置及计算机可读存储介质,该方法包括:接收文本,遍历所述文本的词汇,判断所述文本是否存在预先设置的关键词,所述关键词为预先设置的多语言文字数字词汇;在所述文本中存在所述关键词的情况下,将所述文本中存在的关键词转换为阿拉伯数字;将所述文本中存在的关键词替换成对应转换的阿拉伯数字,得到转换后的文本。本发明提供的多语言文字数字转阿拉伯数字的转换方法,无需人工操作,能够实现多语言文本数字转阿拉伯数字,减少语言文本数字转阿拉伯数字耗费时间,提高语言文本数字转阿拉伯数字的效率。

Description

一种多语言文字数字转阿拉伯数字的转换方法、装置、计算机 装置及计算机可读存储介质
技术领域
本发明属于文本处理领域,尤其涉及一种多语言文字数字转阿拉伯数字的转换方法、装置、计算机装置及计算机可读存储介质。
背景技术
现有大多数基于数字处理的工具都是基于阿拉伯数字进行处理,阿拉伯数字作为通用数字广泛用于各种处理场合,一旦碰到其他语言表达的数字就需要额外做适配,或者进行转换后才能处理。现有技术一般是针对语言文本的文本数字词汇进行阿拉伯数字转换,需要人工将一段语言文本中的文本数字词汇提取出来,将文本数字词汇输入特定转换工具,将文本数字词汇转换为阿拉伯数字,一个系统只能对应一种语言,不能对多种语言进行转换。例如,一段文本为“他昨天中了一千二百万的大奖”,享有系统只能输入数字部分,需要人工把“一千二百万”部分提取出来,人工输入系统后,系统才能转换为对应的1200000的阿拉伯数字。由此可知,现有技术中多语言文字数字转阿拉伯数字存在转换耗时久,效率低的问题。
发明内容
本发明实施例提供一种多语言文字数字转阿拉伯数字的转换方法,旨在解决现有技术中多语言文字数字转阿拉伯数字存在转换耗时久,效率低的问题。
本发明是这样实现的,一种多语言文字数字转阿拉伯数字的转换方法,包括:
接收文本,遍历所述文本的词汇,判断所述文本是否存在预先设置的关键词,所述关键词为预先设置的多语言文字数字词汇;
在所述文本中存在所述关键词的情况下,将所述文本中存在的关键词转换为阿拉伯数字;
将所述文本中存在的关键词替换成对应转换的阿拉伯数字,得到转换后的文本。
可选的,所述判断所述文本是否存在预先设置的关键词包括以下过程:
判断所述文本是否为中文文本;
在所述文本为中文文本的情况下,获取预先设置的中文文本关键词,遍历所述文本的词汇,判断所述文本是否存在所述中文文本关键词;
所述在所述文本中存在所述关键词的情况下,将所述文本中存在的关键词转换为阿拉伯数字,包括以下过程:
在所述文本存在所述中文文本关键词的情况下,根据预先设置的中文转换规则,将所述文本的中文关键词转换为阿拉伯数字。
可选的,所述判断所述文本是否为中文文本之后,判断所述文本是否存在预先设置的关键词还包括以下过程:
在所述文本不为中文文本的情况下,判断所述文本是否为英文文本;在所述文本为英文文本的情况下,获取预先设置的英文文本关键词,遍历所述文本所有词汇,判断所述文本是否存在所述英文文本关键词;
所述在所述文本中存在所述关键词的情况下,将所述文本中存在的关键词转换为阿拉伯数字,包括以下过程:
在所述文本存在所述英文文本关键词的情况下,根据预先设置的英文转换规则,将所述文本的英文关键词转换为阿拉伯数字。
可选的,所述判断所述文本是否为英文文本之后,所述判断所述文本是否存在预先设置的关键词还包括以下过程:
在所述文本不为英文文本的情况下,判断所述文本是否为西班牙文本;在所述文本为西班牙文本的情况下,获取预先设置的西班牙文本关键词,遍历所述文本所有词汇,判断所述文本是否存在所述西班牙文本关键词;
所述在所述文本中存在所述关键词的情况下,将所述文本中存在的关键词转换为阿拉伯数字,包括以下过程:
在所述文本存在所述西班牙文本关键词的情况下,根据预先设置的西班牙文转换规则,将所述文本的西班牙文关键词转换为阿拉伯数字。
可选的,所述在所述文本中存在所述关键词的情况下,将所述文本中存在的关键词转换为阿拉伯数字包括以下步骤:
设置用于存储非关键词的第一存储区域、用于存储关键词的第二存储区域;
在所述文本的当前词汇判断为关键词的情况下,将所述当前词汇作为关键词存入第二存储区域;
在所述文本的当前词汇不是关键词的情况下,判断所述第二存储区域是否为空;
在所述第二存储区域不为空的情况下,将所述第二存储区域的文本数字词汇转换为阿拉伯数据;
所述将所述文本中存在的关键词替换成对应转换的阿拉伯数字,得到转换后的文本,包括以下步骤:
在所述文本的当前词汇不是关键词、且在所述第二存储区域不为空的情况下的情况下,将所述转换的阿拉伯数字、所述当前词汇拼接到所述第一存储区域已存储的文本上,得到所述转换后的文本;
在所述文本的当前词汇不是关键词、且在所述第二存储区域为空的情况下的情况下,将所述文本的当前词汇拼接到所述第一存储区域已存储的文本,得到拼接文本,得到所述转换后的文本。
本发明还提供一种多语言文字数字转阿拉伯数字的转换装置,包括:
判断模块,用于接收文本,遍历所述文本的词汇,判断所述文本是否存在预先设置的关键词,所述关键词为预先设置的多语言文字数字词汇;
转换模块,用于在所述文本中存在所述关键词的情况下,将所述文本中存在的关键词转换为阿拉伯数字;
调整模块,用于将所述文本中存在的关键词替换成对应转换的阿拉伯数字,得到转换后的文本。
可选的,所述判断模块,还用于判断所述文本是否为中文文本;
在所述文本为中文文本的情况下,获取预先设置的中文文本关键词,遍历所述文本的词汇,判断所述文本是否存在所述中文文本关键词;
所述转换模块,还用于在所述文本存在所述中文文本关键词的情况下,根据预先设置的中文转换规则,将所述文本的中文关键词转换为阿拉伯数字。
可选的,所述判断模块,还用于在所述文本不为中文文本的情况下,判断所述文本是否为英文文本;
在所述文本为英文文本的情况下,获取预先设置的英文文本关键词,遍历所述文本所有词汇,判断所述文本是否存在所述英文文本关键词;
所述转换模块,还用于在所述文本存在所述英文文本关键词的情况下,根据预先设置的英文转换规则,将所述文本的英文关键词转换为阿拉伯数字。
可选的,所述判断模块,还用于在所述文本不为英文文本的情况下,判断所述文本是否为西班牙文本;在所述文本为西班牙文本的情况下,获取预先设置的西班牙文本关键词,遍历所述文本所有词汇,判断所述文本是否存在所述西班牙文本关键词;
所述转换模块,还用于在所述文本存在所述西班牙文本关键词的情况下,根据预先设置的西班牙文转换规则,将所述文本的西班牙文关键词转换为阿拉伯数字。
可选的,所述转换模块还包括:
设置子模块,用于设置存储非关键词的第一存储区域、存储关键词的第二存储区域;
存入子模块,用于在所述文本的当前词汇判断为关键词的情况下,将所述当前词汇作为关键词存入第二存储区域;
判断子模块,用于在所述文本的当前词汇不是关键词的情况下,判断所述第二存储区域是否为空;
在所述第二存储区域不为空的情况下,将所述第二存储区域的文本数字词汇转换为阿拉伯数据;
所述调整模块还包括:
第一调整子模块,在所述文本的当前词汇不是关键词、且在所述第二存储区域不为空的情况下的情况下,将所述转换的阿拉伯数字、所述当前词汇拼接到所述第一存储区域已存储的文本上,得到所述转换后的文本;
第二调整子模块,用于在所述文本的当前词汇不是关键词、且在所述第二存储区域为空的情况下的情况下,将所述文本的当前词汇拼接到所述第一存储区域已存储的文本,得到拼接文本,得到所述转换后的文本。
本发明还提供一种计算机装置,所述计算机装置包括处理器,所述处理器用于执行存储器中计算机程序时实现如上述多语言文字数字转阿拉伯数字的转换方法的步骤。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质可存储计算机程序,所述计算机可读存储介质与处理器电连接,所述计算机程序被所述处理器执行时实现如上述述多语言文字数字转阿拉伯数字的转换方法的步骤。
本发明提供的多语言文字数字转阿拉伯数字的转换方法,接收文本,遍历所述文本的词汇,判断所述文本是否存在预先设置的关键词,所述关键词为预先设置的多语言文字数字词汇;在所述文本中存在所述关键词的情况下,将所述文本中存在的关键词转换为阿拉伯数字;将所述文本中存在的关键词替换成对应转换的阿拉伯数字,得到转换后的文本。这样,通过遍历文本识别需要转换的文本数字词汇,将文本数字词汇转换成阿拉伯数字,并将阿拉伯数字拼接到原文本的对应位置,在不影响原文其他部分的前提下完成转换,无需人工操作,能够实现多语言文本数字转阿拉伯数字,减少语言文本数字转阿拉伯数字耗费时间,提高语言文本数字转阿拉伯数字的效率。
附图说明
图1是本发明实施例提供的多语言文字数字转阿拉伯数字的转换方法的实现流程图;
图2本发明实施例提供的所述在所述文本中存在所述关键词的情况下,将所述文本中存在的关键词转换为阿拉伯数字的实现流程图;
图3本发明实施例提供的所述将所述文本中存在的关键词替换成对应转换的阿拉伯数字,得到转换后的文本的实现流程图;
图4本发明实施例提供的另一多语言文字数字转阿拉伯数字的转换方法的实现流程图;
图5本发明实施例提供的另一多语言文字数字转阿拉伯数字的转换方法的实现流程图;
图6本发明实施例提供的多语言文字数字转阿拉伯数字的转换装置的结构示意图;
图7本发明实施例提供的转换模块的结构示意图;
图8是本发明实施提供的调整模块的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1所示为本发明实施例提供的多语言文字数字转阿拉伯数字的转换方法的实现流程图。该多语言文字数字转阿拉伯数字的转换方法包括以下过程:
步骤S101,接收文本,遍历所述文本的词汇,判断所述文本是否存在预先设置的关键词,所述关键词为预先设置的多语言文字数字词汇。
在本实施例中,多语言文字数字词汇包括中文文字数字词汇、英文数字词汇及西班牙文数字词汇。
可选的,所述步骤S101中所述判断所述文本是否存在预先设置的关键词包括以下过程:
判断所述文本是否为中文文本;在所述文本为中文文本的情况下,获取预先设置的中文文本关键词,遍历所述文本的词汇,判断所述文本是否存在所述中文文本关键词。
在本实施例中,所述预先设置的中文文本关键词可以包括万、千、百、十、九、八、七、六、五、四、三、二、一、壹、贰、叁、肆、伍、陆、柒、捌、玖、拾、佰、仟、万、亿、零等。由于预先设置的中文文本关键词较多,在此不一一列明,仅进行示例性说明。
可选的,所述判断所述文本是否为中文文本之后,所述S101中的所述判断所述文本是否存在预先设置的关键词还包括以下过程:
在所述文本不为中文文本的情况下,判断所述文本是否为英文文本;在所述文本为英文文本的情况下,获取预先设置的英文文本关键词,遍历所述文本所有词汇,判断所述文本是否存在所述英文文本关键词。
在本实施例中,所述预先设置的英文文本关键词可以包括billion、million、thousand、hundred、point、one、two、three、four、five、six、seven、eight、nine、ten、twenty、thirty、forty、fifty...等。上述英文文本关键词对应的中文含义分别为:十亿、百万、千、百、点、一、二、三、四、五、六、七、八、九、十、二十、三十、四十、五十......等。由于预先设置的英文文本关键词较多,在此不一一列明,仅进行示例性说明。
可选的,所述判断所述文本是否为英文文本之后,所述S101中的所述判断所述文本是否存在预先设置的关键词还包括以下过程:
在所述文本不为英文文本的情况下,判断所述文本是否为西班牙文本;在所述文本为西班牙文本的情况下,获取预先设置的西班牙文本关键词,遍历所述文本所有词汇,判断所述文本是否存在所述西班牙文本关键词。
在本实施例中,所述预先设置的西班牙文本关键词可以包括cero、uno、un、una、dos、tres、cuatro、cinco、seis、siete、ocho、nueve、diez、once、doce、trece、catorce、mil、hectareas......等。上述西班牙文本关键词的中文意思分别为:零、一、一、一、二、三、四、五、六、七、八、九、十、十一、十二、十三、十四、千,万......等。由于预先设置的西班牙文文本关键词较多,在此不一一列明,仅进行示例性说明。
步骤S102,在所述文本中存在所述关键词的情况下,将所述文本中存在的关键词转换为阿拉伯数字。
可选的,所述步骤S102包括以下过程:
在所述文本存在所述中文文本关键词的情况下,根据预先设置的中文转换规则,将所述文本的中文关键词转换为阿拉伯数字。
在本实施例中,所述预先设置的中文转换规则为将待转换文本按中文计数单位进行分组,将中文文本数字划分为一个或多个字段,将每个字段转换为对应的阿拉伯数字,将转换后的阿拉伯数字进行拼接。例如,对于中文文本数字“一千四百三十二万五千六百二十八”,则按中文计数单位“万”字将其分为“一千四百三十二”和“五千六百二十八”两个字段,然后将两个字段分别对应中文文本转阿拉伯数字映射表变成“1千4百3十2”和“5千6百2十8”,然后根据计数单位将其放到相应的位数上,变成两个阿拉伯字段“1432”和“5628”,根据原数据中的计数单位,将两个阿拉伯字段“1432”和“5628”拼接成阿拉伯数字“14325628”。
在其他实施方式中,变成两个阿拉伯字段“1432”和“5628”后,根据原数据中的计数单位,将“1432”变成“14320000”,将“14320000”和“5628”相加,变成阿拉伯数字“14325628”。所述中文文本转阿拉伯数字映射表包括中文文本数字及与中文文本数字对应的阿拉伯数字,例如中文文本转阿拉伯数字映射表包括一对应1,二对应2,三对应3等,由于中文文本转阿拉伯数字映射表的对应关系较多,在此不一一列明,仅进行示例性说明。
可选的,所述步骤S102还包括以下过程:
在所述文本存在所述英文文本关键词的情况下,根据预先设置的英文转换规则,将所述文本的英文关键词转换为阿拉伯数字。
在本实施例中,所述预先设置的英文文转换规则为将待转换文本按英文计数单位进行分组,将英文文本数字划分为一个或多个字段,将每个字段转换为对应的阿拉伯数字,将转换后的阿拉伯数字进行拼接。例如,forty-five million eight hundred seventy-eight thousand four hundred fifty-six,则按英文计数单位million、hundred、thousand进行分组,划分为“forty-five”、“eight hundred seventy-eight”、“four”、“fifty-six”,根据英文文本转阿拉伯数字映射表,将分组的字段分别转换为“45”、“878”、“456”,将转换后的阿拉伯字段进行拼接,得到“45878456”。
在其他实施例中,按英文计数单位million、hundred、thousand进行分组,划分为“forty-five”、“eight hundred seventy-eight”、“four”、“fifty-six”后,将分组的字段分别转换为45,根据对应计数单位million转为45000000,eight hundred seventy-eight转为878,根据对应计数单位转换为878000,four hundred fifty-six转为456,最后相加得出45878456。所述英文文本转阿拉伯数字映射表包括英文文本数字及与英文文本数字对应的阿拉伯数字,例如英文文本转阿拉伯数字映射表包括one对应1,two对应2,three对应3等,由于中文文本转阿拉伯数字映射表的对应关系较多,在此不一一列明,仅进行示例性说明。
可选的,所述步骤S102还包括以下过程:
在所述文本存在所述西班牙文本关键词的情况下,根据预先设置的西班牙文转换规则,将所述文本的西班牙文关键词转换为阿拉伯数字。
在本实施例中,所述预先设置的西班牙文文转换规则为将待转换文本按西班牙文计数单位进行分组,将西班牙文文本数字划分为一个或多个字段,将每个字段转换为对应的阿拉伯数字,将转换后的阿拉伯数字进行拼接。如西班牙文字段“ocho milcuatrocientos ochenta y siete”,用西班牙文计数单位mil进行分组,得到“ocho”、“cuatrocientos ochenta y siete”两个字段,根据西班牙文文本转阿拉伯数字映射表,将分组的字段分别转换为“8”、“4”、“87”,将转换后的阿拉伯字段进行拼接,得到“8487”。
在其他实施例中,用西班牙文计数单位“mil”进行分组,得到“ocho”、“cuatrocientos ochenta y siete”两个字段后,根据西班牙文本转阿拉伯数字映射表将“ocho”转为阿拉伯数字“”8,根据西班牙文计数单位转为8000,根据西班牙文本转阿拉伯数字映射表将“cuatrocientos”转换为400,y为链接词,ochenta y siete为87,将转换后的阿拉伯数字相加,得到阿拉伯数字“8487”。
所述西班牙文文本转阿拉伯数字映射表包括西班牙文文本数字及与英文文本数字对应的阿拉伯数字,例如英文文本转阿拉伯数字映射表包括one对应1,two对应2,three对应3等,由于中文文本转阿拉伯数字映射表的对应关系较多,在此不一一列明,仅进行示例性说明。
步骤S103,将所述文本中存在的关键词替换成对应转换的阿拉伯数字,得到转换后的文本。
可选的,请参阅图2,所述步骤S102包括以下过程:
步骤S1021,设置用于存储非关键词的第一存储区域、用于存储关键词的第二存储区域;
步骤S1022,在所述文本的当前词汇判断为关键词的情况下,将所述当前词汇作为关键词存入第二存储区域;
步骤S1023,在所述文本的当前词汇不是关键词的情况下,判断所述第二存储区域是否为空;
步骤S1024,在所述第二存储区域不为空的情况下,将所述第二存储区域的文本数字词汇转换为阿拉伯数据。
在本实施例中,所述第一存储区域可以设为StringBbuff1,可以简称为SB1。所述第二存储区域可以设为StringBbuff2,可以简称为SB2。
可选的,请参阅图3,所述步骤S103包括以下过程:
步骤S1031,在所述文本的当前词汇不是关键词、且在所述第二存储区域不为空的情况下的情况下,将所述转换的阿拉伯数字、所述当前词汇拼接到所述第一存储区域已存储的文本上,得到所述转换后的文本;
步骤S1032,在所述文本的当前词汇不是关键词、且在所述第二存储区域为空的情况下的情况下,将所述文本的当前词汇拼接到所述第一存储区域已存储的文本,得到拼接文本,得到所述转换后的文本。
请参阅图4,图4为本发明提供的另一多语言文字数字转阿拉伯数字的转换方法的流程图,主要包括以下过程:
步骤S111,接收一段文本;
步骤S112,判断所述文本是否为中文文本,若为中文文本,将所述文本中的中文文本数字转换为阿拉伯数字;
步骤S113,若所述文本不为中文文本,则判断所述文本是否为英文文本,若为英文文本,将所述文本中的英文文本数字转换为阿拉伯数字;
步骤S1142,若所述文本不为英文文本,则判断所述文本是否为西班牙文文本,若为西班牙文文本,将所述文本中的西班牙文文本数字转换为阿拉伯数字。
这样,接收一段文本后会按照中文、英文、西班牙文转换顺序,尝试识别其中的关键词,将对应关键词转换为阿拉伯数字。
在本实施例中,转换过程包括:将所述文本进行遍历,遍历时分离非关键词和关键词,关键词包括当前语言的数字表达词汇和一些辅助词汇以及一些情况下的标点,每次发生从关键词汇到非关键词汇的转变时,对已保存的关键词汇进行转阿拉伯数字处理,将转换后的结果拼接到非关键词汇中,从而在不影响非关键词的前提下,对文章中的关键词汇进行转换,得到转换后文本,便于后续操作。
请参阅图5,图5为本发明提供的另一多语言文字数字转阿拉伯数字的转换方法的流程图,主要包括以下过程:
步骤S1,接收文本。
步骤S2,遍历文本。
步骤S3,判断文本的当前词汇是否为关键词。
步骤S4,在所述文本的当前词汇为关键词的情况下,存入第二存储区域.
所述第二存储区域可以设为StringBbuff2,可以简称为SB2。
步骤S5,在所述文本的当前词汇不为关键词的情况下,判断第二存储区域是否为空。
步骤S6,在第二存储区域不为空的情况下,将第二存储区域的文本数字词汇转换为阿拉伯数字,将转换后的阿拉伯数字及当前词汇拼接到第一存储区域已存的文本上,并清空第二存储区域。
在本实施例中,所述第一存储区域可以设为StringBbuff1,可以简称为SB1。
步骤S7,在第二存储区域为空的情况下,将当前词汇拼接到第一存储区域已存的文本上。
步骤S8,遍历文本结束,输入第一存储区域的拼接文本作为转换后文本。
举例来说,若文本为“他昨天中了一千二百万大奖,高兴了三天”,在遍历文本过程中,将非关键词“他昨天中了”存入第一存储区域中,在遍历到“一千二百万”这个关键词时,将“一千二百万”关键词存入第二存储区域。在判断出第二存储区域不为空的情况下,将“一千二百万”这个关键词转换为阿拉伯数字“12000000”,并将“12000000”添加到第一存储区域中已存入“他昨天中了”的文本之后进行文本拼接,即第一存储区域中文文本变为“他昨天中了12000000”。清空第二存储区域,即删除“一千二百万”这个关键词。
继续遍历文本,将“大奖,高兴了”非关键词存入第一存储区域,第一存储区域已存入的文本变为“他昨天中了12000000大奖,高兴了”。当遍历到“三”关键词时,将关键词“三”存入第二存储区域。在判断出第二存储区域不为空的情况下,将第二存储区域的关键词“三”转换为阿拉伯数字“3”,并将阿拉伯数字“3”拼接到第一存储区域已存入的文本“他昨天中了12000000大奖,高兴了”之后,变为“他昨天中了12000000大奖,高兴了3”。继续遍历,当判断出“天”字为非关键词,添加到第一存储区域已存入的“他昨天中了12000000大奖,高兴了3”之后,变为“他昨天中了12000000大奖,高兴了3天”,这样整个文本的关键词均已转换为对应的阿拉伯数字。需要说明的是,英文及西班牙文的处理过程与中文文本处理过程类似,不做赘述。
本发明提供的多语言文字数字转阿拉伯数字的转换方法,接收文本,遍历所述文本的词汇,判断所述文本是否存在预先设置的关键词,所述关键词为预先设置的多语言文字数字词汇;在所述文本中存在所述关键词的情况下,将所述文本中存在的关键词转换为阿拉伯数字;将所述文本中存在的关键词替换成对应转换的阿拉伯数字,得到转换后的文本。这样,通过遍历文本识别需要转换的文本数字词汇,将文本数字词汇转换成阿拉伯数字,并将阿拉伯数字拼接到原文本的对应位置,在不影响原文其他部分的前提下完成转换,无需人工操作,能够实现多语言文本数字转阿拉伯数字,减少语言文本数字转阿拉伯数字耗费时间,提高语言文本数字转阿拉伯数字的效率。
图6示出了本发明实施例提供的一种多语言文字数字转阿拉伯数字的转换装置600的结构示意图,为了便于说明,仅示出了于本发明实施相关的部分。该多语言文字数字转阿拉伯数字的转换装置600,包括:
判断模块601,用于接收文本,遍历所述文本的词汇,判断所述文本是否存在预先设置的关键词,所述关键词为预先设置的多语言文字数字词汇。
在本实施例中,多语言文字数字词汇包括中文文字数字词汇、英文数字词汇及西班牙文数字词汇。
可选的,所述判断模块601,还用于判断所述文本是否为中文文本;在所述文本为中文文本的情况下,获取预先设置的中文文本关键词,遍历所述文本的词汇,判断所述文本是否存在所述中文文本关键词。
在本实施例中,所述预先设置的中文文本关键词可以包括万、千、百、十、九、八、七、六、五、四、三、二、一、壹、贰、叁、肆、伍、陆、柒、捌、玖、拾、佰、仟、万、亿、零等。由于预先设置的中文文本关键词较多,在此不一一列明,仅进行示例性说明。
可选的,所述判断模块601,还用于在所述文本不为中文文本的情况下,判断所述文本是否为英文文本;在所述文本为英文文本的情况下,获取预先设置的英文文本关键词,遍历所述文本所有词汇,判断所述文本是否存在所述英文文本关键词。
在本实施例中,所述预先设置的英文文本关键词可以包括billion、million、thousand、hundred、point、one、two、three、four、five、six、seven、eight、nine、ten、twenty、thirty、forty、fifty...等。上述英文文本关键词对应的中文含义分别为:十亿、百万、千、百、点、一、二、三、四、五、六、七、八、九、十、二十、三十、四十、五十......等。由于预先设置的英文文本关键词较多,在此不一一列明,仅进行示例性说明。
可选的,所述判断模块601,还用于在所述文本不为英文文本的情况下,判断所述文本是否为西班牙文本;在所述文本为西班牙文本的情况下,获取预先设置的西班牙文本关键词,遍历所述文本所有词汇,判断所述文本是否存在所述西班牙文本关键词。
在本实施例中,所述预先设置的西班牙文本关键词可以包括cero、uno、un、una、dos、tres、cuatro、cinco、seis、siete、ocho、nueve、diez、once、doce、trece、catorce、mil、hectareas......等。上述西班牙文本关键词的中文意思分别为:零、一、一、一、二、三、四、五、六、七、八、九、十、十一、十二、十三、十四、千,万......等。由于预先设置的西班牙文文本关键词较多,在此不一一列明,仅进行示例性说明。
转换模块602,用于在所述文本中存在所述关键词的情况下,将所述文本中存在的关键词转换为阿拉伯数字。
可选的,所述转换模块602,还用于在所述文本存在所述中文文本关键词的情况下,根据预先设置的中文转换规则,将所述文本的中文关键词转换为阿拉伯数字。
在本实施例中,所述预先设置的中文转换规则为将待转换文本按中文计数单位进行分组,将中文文本数字划分为一个或多个字段,将每个字段转换为对应的阿拉伯数字,将转换后的阿拉伯数字进行拼接。例如,对于中文文本数字“一千四百三十二万五千六百二十八”,则按中文计数单位“万”字将其分为“一千四百三十二”和“五千六百二十八”两个字段,然后将两个字段分别对应中文文本转阿拉伯数字映射表变成“1千4百3十2”和“5千6百2十8”,然后根据计数单位将其放到相应的位数上,变成两个阿拉伯字段“1432”和“5628”,根据原数据中的计数单位,将两个阿拉伯字段“1432”和“5628”拼接成阿拉伯数字“14325628”。
在其他实施方式中,变成两个阿拉伯字段“1432”和“5628”后,根据原数据中的计数单位,将“1432”变成“14320000”,将“14320000”和“5628”相加,变成阿拉伯数字“14325628”。所述中文文本转阿拉伯数字映射表包括中文文本数字及与中文文本数字对应的阿拉伯数字,例如中文文本转阿拉伯数字映射表包括一对应1,二对应2,三对应3等,由于中文文本转阿拉伯数字映射表的对应关系较多,在此不一一列明,仅进行示例性说明。
可选的,所述转换模块602,还用于在所述文本存在所述英文文本关键词的情况下,根据预先设置的英文转换规则,将所述文本的英文关键词转换为阿拉伯数字。
在本实施例中,所述预先设置的英文文转换规则为将待转换文本按英文计数单位进行分组,将英文文本数字划分为一个或多个字段,将每个字段转换为对应的阿拉伯数字,将转换后的阿拉伯数字进行拼接。例如,forty-five million eight hundred seventy-eight thousand four hundred fifty-six,则按英文计数单位million、hundred、thousand进行分组,划分为“forty-five”、“eight hundred seventy-eight”、“four”、“fifty-six”,根据英文文本转阿拉伯数字映射表,将分组的字段分别转换为“45”、“878”、“456”,将转换后的阿拉伯字段进行拼接,得到“45878456”。
在其他实施例中,按英文计数单位million、hundred、thousand进行分组,划分为“forty-five”、“eight hundred seventy-eight”、“four”、“fifty-six”后,将分组的字段分别转换为45,根据对应计数单位million转为45000000,eight hundred seventy-eight转为878,根据对应计数单位转换为878000,four hundred fifty-six转为456,最后相加得出45878456。所述英文文本转阿拉伯数字映射表包括英文文本数字及与英文文本数字对应的阿拉伯数字,例如英文文本转阿拉伯数字映射表包括one对应1,two对应2,three对应3等,由于中文文本转阿拉伯数字映射表的对应关系较多,在此不一一列明,仅进行示例性说明。
可选的,所述转换模块602,还用于在所述文本存在所述西班牙文本关键词的情况下,根据预先设置的西班牙文转换规则,将所述文本的西班牙文关键词转换为阿拉伯数字。
在本实施例中,所述预先设置的西班牙文文转换规则为将待转换文本按西班牙文计数单位进行分组,将西班牙文文本数字划分为一个或多个字段,将每个字段转换为对应的阿拉伯数字,将转换后的阿拉伯数字进行拼接。如西班牙文字段“ocho milcuatrocientos ochenta y siete”,用西班牙文计数单位mil进行分组,得到“ocho”、“cuatrocientos ochenta y siete”两个字段,根据西班牙文文本转阿拉伯数字映射表,将分组的字段分别转换为“8”、“4”、“87”,将转换后的阿拉伯字段进行拼接,得到“8487”。
在其他实施例中,用西班牙文计数单位“mil”进行分组,得到“ocho”、“cuatrocientos ochenta y siete”两个字段后,根据西班牙文本转阿拉伯数字映射表将“ocho”转为阿拉伯数字“”8,根据西班牙文计数单位转为8000,根据西班牙文本转阿拉伯数字映射表将“cuatrocientos”转换为400,y为链接词,ochenta y siete为87,将转换后的阿拉伯数字相加,得到阿拉伯数字“8487”。
所述西班牙文文本转阿拉伯数字映射表包括西班牙文文本数字及与英文文本数字对应的阿拉伯数字,例如英文文本转阿拉伯数字映射表包括one对应1,two对应2,three对应3等,由于中文文本转阿拉伯数字映射表的对应关系较多,在此不一一列明,仅进行示例性说明。
调整模块603,用于将所述文本中存在的关键词替换成对应转换的阿拉伯数字,得到转换后的文本。
可选的,请参阅图7,所述转换模块602包括:
设置子模块6021,用于设置用于存储非关键词的第一存储区域、用于存储关键词的第二存储区域;
存入子模块6022,用于在所述文本的当前词汇判断为关键词的情况下,将所述当前词汇作为关键词存入第二存储区域;
判读子模块6023,用于在所述文本的当前词汇不是关键词的情况下,判断所述第二存储区域是否为空;在所述第二存储区域不为空的情况下,将所述第二存储区域的文本数字词汇转换为阿拉伯数据。
在本实施例中,所述第一存储区域可以设为StringBbuff1,可以简称为SB1。所述第二存储区域可以设为StringBbuff2,可以简称为SB2。
可选的,请参阅图8,所述调整模块603包括:
第一调整子模块6031,在所述文本的当前词汇不是关键词、且在所述第二存储区域不为空的情况下的情况下,将所述转换的阿拉伯数字、所述当前词汇拼接到所述第一存储区域已存储的文本上,得到所述转换后的文本;
第二调整子模块6032,在所述文本的当前词汇不是关键词、且在所述第二存储区域为空的情况下的情况下,将所述文本的当前词汇拼接到所述第一存储区域已存储的文本,得到拼接文本,得到所述转换后的文本。
补充说明的是,多语言文字数字转阿拉伯数字的转换装置600的整体处理过程包括以下过程:判断模块601,用于接收一段文本;判断所述文本是否为中文文本,若为中文文本,则转换模块602,用于将所述文本中的中文文本数字转换为阿拉伯数字。若所述文本不为中文文本,则判断模块601用于判断所述文本是否为英文文本,若为英文文本,则转换模块602用于将所述文本中的英文文本数字转换为阿拉伯数字。
若所述文本不为英文文本,则判断模块601用于判断所述文本是否为西班牙文文本,若为西班牙文文本,则转换模块602用于将所述文本中的西班牙文文本数字转换为阿拉伯数字。
这样,接收一段文本后,多语言文字数字转阿拉伯数字的转换装置600会按照中文、英文、西班牙文转换顺序,尝试识别其中的关键词,将对应关键词转换为阿拉伯数字。
在本实施例中,转换过程包括:将所述文本进行遍历,遍历时分离非关键词和关键词,关键词包括当前语言的数字表达词汇、一些辅助词汇、一些情况下的标点,除关键词以外的词汇为非关键词。每次发生从关键词到非关键词的转变时,对已保存的关键词进行转阿拉伯数字处理,将转换后的结果拼接到非关键词中,从而在不影响非关键词的前提下,对文章中的关键词进行转换,得到转换后文本,便于后续操作。
在另一实施例例中,多语言文字数字转阿拉伯数字的转换装置600判断模块601用于接收文本,遍历文本,判断文本的当前词汇是否为关键词。在所述文本的当前词汇为关键词的情况下,存入第二存储区域。所述第二存储区域可以设为StringBbuff2,可以简称为SB2。判断模块601还用于在所述文本的当前词汇不为关键词的情况下,判断第二存储区域是否为空。转换模块602,用于在第二存储区域不为空的情况下,将第二存储区域的文本数字词汇转换为阿拉伯数字,将转换后的阿拉伯数字及当前词汇拼接到第一存储区域已存的文本上,并清空第二存储区域。在本实施例中,所述第一存储区域可以设为StringBbuff1,可以简称为SB1。调整模块603,用于在第二存储区域为空的情况下,将当前词汇拼接到第一存储区域已存的文本上。遍历文本结束,输入第一存储区域的拼接文本作为转换后文本。
举例来说,若文本为“他昨天中了一千二百万大奖,高兴了三天”,在判断模块601遍历文本过程中,将“他昨天中了”非关键词存入第一存储区域中,在遍历到“一千二百万”这个关键词时,将“一千二百万”关键词存入第二存储区域。在判断出第二存储区域不为空的情况下,转换模块602用于将“一千二百万”这个关键词转换为阿拉伯数字“12000000”。调整模块603用于将“12000000”添加到第一存储区域中已存入“他昨天中了”的文本之后进行文本拼接,即第一存储区域中文文本变为“他昨天中了12000000”。清空第二存储区域,即删除“一千二百万”这个关键词。
继续遍历文本,调整模块603用于将“大奖,高兴了”非关键词存入第一存储区域,第一存储区域已存入的文本变为“他昨天中了12000000大奖,高兴了”。当判断模块601遍历到“三”关键词时,将关键词“三”存入第二存储区域。在判断出第二存储区域不为空的情况下,转化模块602用于将第二存储区域的关键词“三”转换为阿拉伯数字“3”,并将阿拉伯数字“3”拼接到第一存储区域已存入的文本“他昨天中了12000000大奖,高兴了”之后,第一存储区域已存入的文本变为“他昨天中了12000000大奖,高兴了3”。继续遍历,判断模块601判断“天”字为非关键词,调整模块603用于添加“天”到第一存储区域已存入的“他昨天中了12000000大奖,高兴了3”之后,变为“他昨天中了12000000大奖,高兴了3天”,这样整个文本的关键词均已转换为对应的阿拉伯数字。需要说明的是,英文及西班牙文的处理过程与中文文本处理过程类似,不做赘述。
本发明提供的多语言文字数字转阿拉伯数字的转换装置,能够接收文本,遍历所述文本的词汇,判断所述文本是否存在预先设置的关键词,所述关键词为预先设置的多语言文字数字词汇;在所述文本中存在所述关键词的情况下,将所述文本中存在的关键词转换为阿拉伯数字;将所述文本中存在的关键词替换成对应转换的阿拉伯数字,得到转换后的文本。这样,通过遍历文本识别需要转换的文本数字词汇,将文本数字词汇转换成阿拉伯数字,并将阿拉伯数字拼接到原文本的对应位置,在不影响原文其他部分的前提下完成转换,无需人工操作,能够实现多语言文本数字转阿拉伯数字,减少语言文本数字转阿拉伯数字耗费时间,提高语言文本数字转阿拉伯数字的效率。
本发明实施例提供一种计算机装置,该计算机装置包括处理器,处理器用于执行存储器中计算机程序时实现上述各个方法实施例提供的多语言文字数字转阿拉伯数字的转换方法的步骤。
示例性的,计算机程序可以被分割成一个或多个模块,一个或者多个模块被存储在存储器中,并由处理器执行,以完成本发明。一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序在计算机装置中的执行过程。例如,计算机程序可以被分割成上述各个方法实施例提供的多语言文字数字转阿拉伯数字的转换方法的步骤。
本领域技术人员可以理解,上述计算机装置的描述仅仅是示例,并不构成对计算机装置的限定,可以包括比上述描述更多或更少的部件,或者组合某些部件,或者不同的部件,例如可以包括输入输出设备、网络接入设备、总线等。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述计算机装置的控制中心,利用各种接口和线路连接整个计算机装置的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述计算机可读存储介质与处理器电连接,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
所述计算机装置集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个多语言文字数字转阿拉伯数字的转换方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信号以及软件分发介质等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种多语言文字数字转阿拉伯数字的转换方法,其特征在于,所述多语言文字数字转阿拉伯数字的转换方法包括:
接收文本,遍历所述文本的词汇,判断所述文本是否存在预先设置的关键词,所述关键词为预先设置的多语言文字数字词汇;
在所述文本中存在所述关键词的情况下,将所述文本中存在的关键词转换为阿拉伯数字;
将所述文本中存在的关键词替换成对应转换的阿拉伯数字,得到转换后的文本。
2.根据权利要求1所述的多语言文字数字转阿拉伯数字的转换方法,其特征在于,所述判断所述文本是否存在预先设置的关键词包括以下过程:
判断所述文本是否为中文文本;在所述文本为中文文本的情况下,获取预先设置的中文文本关键词,遍历所述文本的词汇,判断所述文本是否存在所述中文文本关键词;
所述在所述文本中存在所述关键词的情况下,将所述文本中存在的关键词转换为阿拉伯数字,包括以下过程:
在所述文本存在所述中文文本关键词的情况下,根据预先设置的中文转换规则,将所述文本的中文关键词转换为阿拉伯数字。
3.根据权利要求2所述的多语言文字数字转阿拉伯数字的转换方法,其特征在于,所述判断所述文本是否为中文文本之后,所述判断所述文本是否存在预先设置的关键词还包括以下过程:
在所述文本不为中文文本的情况下,判断所述文本是否为英文文本;在所述文本为英文文本的情况下,获取预先设置的英文文本关键词,遍历所述文本所有词汇,判断所述文本是否存在所述英文文本关键词;
所述在所述文本中存在所述关键词的情况下,将所述文本中存在的关键词转换为阿拉伯数字,包括以下过程:
在所述文本存在所述英文文本关键词的情况下,根据预先设置的英文转换规则,将所述文本的英文关键词转换为阿拉伯数字。
4.根据权利要求3所述的多语言文字数字转阿拉伯数字的转换方法,其特征在于,所述判断所述文本是否为英文文本之后,所述判断所述文本是否存在预先设置的关键词还包括以下过程:
在所述文本不为英文文本的情况下,判断所述文本是否为西班牙文本;在所述文本为西班牙文本的情况下,获取预先设置的西班牙文本关键词,遍历所述文本所有词汇,判断所述文本是否存在所述西班牙文本关键词;
所述在所述文本中存在所述关键词的情况下,将所述文本中存在的关键词转换为阿拉伯数字,包括以下过程:
在所述文本存在所述西班牙文本关键词的情况下,根据预先设置的西班牙文转换规则,将所述文本的西班牙文关键词转换为阿拉伯数字。
5.根据权利要求1所述的多语言文字数字转阿拉伯数字的转换方法,其特征在于,所述在所述文本中存在所述关键词的情况下,将所述文本中存在的关键词转换为阿拉伯数字包括以下步骤:
设置用于存储非关键词的第一存储区域、用于存储关键词的第二存储区域;
在所述文本的当前词汇判断为关键词的情况下,将所述当前词汇作为关键词存入第二存储区域;
在所述文本的当前词汇不是关键词的情况下,判断所述第二存储区域是否为空;
在所述第二存储区域不为空的情况下,将所述第二存储区域的文本数字词汇转换为阿拉伯数据;
所述将所述文本中存在的关键词替换成对应转换的阿拉伯数字,得到转换后的文本,包括以下步骤:
在所述文本的当前词汇不是关键词、且在所述第二存储区域不为空的情况下的情况下,将所述转换的阿拉伯数字、所述当前词汇拼接到所述第一存储区域已存储的文本上,得到所述转换后的文本;
在所述文本的当前词汇不是关键词、且在所述第二存储区域为空的情况下的情况下,将所述文本的当前词汇拼接到所述第一存储区域已存储的文本,得到拼接文本,得到所述转换后的文本。
6.一种多语言文字数字转阿拉伯数字的转换装置,其特征在于,所述多语言文字数字转阿拉伯数字的转换装置包括:
判断模块,用于接收文本,遍历所述文本的词汇,判断所述文本是否存在预先设置的关键词,所述关键词为预先设置的多语言文字数字词汇;
转换模块,用于在所述文本中存在所述关键词的情况下,将所述文本中存在的关键词转换为阿拉伯数字;
调整模块,用于将所述文本中存在的关键词替换成对应转换的阿拉伯数字,得到转换后的文本。
7.根据权利要求6所述的多语言文字数字转阿拉伯数字的转换装置,其特征在于,所述判断模块,还用于判断所述文本是否为中文文本;在所述文本为中文文本的情况下,获取预先设置的中文文本关键词,遍历所述文本的词汇,判断所述文本是否存在所述中文文本关键词;
所述转换模块,还用于在所述文本存在所述中文文本关键词的情况下,根据预先设置的中文转换规则,将所述文本的中文关键词转换为阿拉伯数字。
8.根据权利要求7所述的多语言文字数字转阿拉伯数字的转换装置,其特征在于,所述判断模块,还用于在所述文本不为中文文本的情况下,判断所述文本是否为英文文本;在所述文本为英文文本的情况下,获取预先设置的英文文本关键词,遍历所述文本所有词汇,判断所述文本是否存在所述英文文本关键词;
所述转换模块,还用于在所述文本存在所述英文文本关键词的情况下,根据预先设置的英文转换规则,将所述文本的英文关键词转换为阿拉伯数字。
9.根据权利要求8所述的多语言文字数字转阿拉伯数字的转换装置,其特征在于,所述判断模块,还用于在所述文本不为英文文本的情况下,判断所述文本是否为西班牙文本;在所述文本为西班牙文本的情况下,获取预先设置的西班牙文本关键词,遍历所述文本所有词汇,判断所述文本是否存在所述西班牙文本关键词;
所述转换模块,还用于在所述文本存在所述西班牙文本关键词的情况下,根据预先设置的西班牙文转换规则,将所述文本的西班牙文关键词转换为阿拉伯数字。
10.根据权利要求6所述的多语言文字数字转阿拉伯数字的转换装置,其特征在于,所述转换模块还包括:
设置子模块,用于设置存储非关键词的第一存储区域、存储关键词的第二存储区域;
存入子模块,用于在所述文本的当前词汇判断为关键词的情况下,将所述当前词汇作为关键词存入第二存储区域;
判断子模块,用于在所述文本的当前词汇不是关键词的情况下,判断所述第二存储区域是否为空;在所述第二存储区域不为空的情况下,将所述第二存储区域的文本数字词汇转换为阿拉伯数据;
所述调整模块还包括:
第一调整子模块,在所述文本的当前词汇不是关键词、且在所述第二存储区域不为空的情况下的情况下,将所述转换的阿拉伯数字、所述当前词汇拼接到所述第一存储区域已存储的文本上,得到所述转换后的文本;
第二调整子模块,用于在所述文本的当前词汇不是关键词、且在所述第二存储区域为空的情况下的情况下,将所述文本的当前词汇拼接到所述第一存储区域已存储的文本,得到拼接文本,得到所述转换后的文本。
11.一种计算机装置,所述计算机装置包括处理器,其特征在于,所述处理器用于执行存储器中计算机程序时实现如权利要求1-5中任意一项所述多语言文字数字转阿拉伯数字的转换方法的步骤。
12.一种计算机可读存储介质,所述计算机可读存储介质可存储计算机程序,所述计算机可读存储介质与处理器电连接,其特征在于:所述计算机程序被所述处理器执行时实现如权利要求1-5中任意一项所述多语言文字数字转阿拉伯数字的转换方法的步骤。
CN202011185870.2A 2020-10-29 2020-10-29 一种多语言文字数字转阿拉伯数字的转换方法、装置、计算机装置及计算机可读存储介质 Pending CN112257389A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011185870.2A CN112257389A (zh) 2020-10-29 2020-10-29 一种多语言文字数字转阿拉伯数字的转换方法、装置、计算机装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011185870.2A CN112257389A (zh) 2020-10-29 2020-10-29 一种多语言文字数字转阿拉伯数字的转换方法、装置、计算机装置及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN112257389A true CN112257389A (zh) 2021-01-22

Family

ID=74269138

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011185870.2A Pending CN112257389A (zh) 2020-10-29 2020-10-29 一种多语言文字数字转阿拉伯数字的转换方法、装置、计算机装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN112257389A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113435159A (zh) * 2021-06-16 2021-09-24 北京捷通华声科技股份有限公司 数字转换方法、装置、电子设备及可读存储介质
CN114330243A (zh) * 2021-12-31 2022-04-12 北京执象科技发展有限公司 口算结果识别方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184167A (zh) * 2011-05-25 2011-09-14 安徽科大讯飞信息科技股份有限公司 一种文本数据处理方法和装置
CN104933024A (zh) * 2015-05-12 2015-09-23 深圳市华傲数据技术有限公司 中文地址分词标注方法
CN109558599A (zh) * 2018-11-07 2019-04-02 北京搜狗科技发展有限公司 一种转换方法、装置和电子设备
CN109977430A (zh) * 2019-04-04 2019-07-05 科大讯飞股份有限公司 一种文本翻译方法、装置及设备
CN110231955A (zh) * 2019-05-13 2019-09-13 平安科技(深圳)有限公司 代码处理方法、装置、计算机设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184167A (zh) * 2011-05-25 2011-09-14 安徽科大讯飞信息科技股份有限公司 一种文本数据处理方法和装置
CN104933024A (zh) * 2015-05-12 2015-09-23 深圳市华傲数据技术有限公司 中文地址分词标注方法
CN109558599A (zh) * 2018-11-07 2019-04-02 北京搜狗科技发展有限公司 一种转换方法、装置和电子设备
CN109977430A (zh) * 2019-04-04 2019-07-05 科大讯飞股份有限公司 一种文本翻译方法、装置及设备
CN110231955A (zh) * 2019-05-13 2019-09-13 平安科技(深圳)有限公司 代码处理方法、装置、计算机设备和存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113435159A (zh) * 2021-06-16 2021-09-24 北京捷通华声科技股份有限公司 数字转换方法、装置、电子设备及可读存储介质
CN114330243A (zh) * 2021-12-31 2022-04-12 北京执象科技发展有限公司 口算结果识别方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
KR100238189B1 (ko) 다중 언어 tts장치 및 다중 언어 tts 처리 방법
EP0612018B1 (en) Apparatus and method for syntactic signal analysis
CN111177184A (zh) 基于自然语言的结构化查询语言转换方法、及其相关设备
CN110750993A (zh) 分词方法及分词器、命名实体识别方法及系统
CN112257389A (zh) 一种多语言文字数字转阿拉伯数字的转换方法、装置、计算机装置及计算机可读存储介质
US9906238B2 (en) Encoding device, encoding method and search method
JP7052145B2 (ja) 大量な文書コーパスにおけるトークン・マッチング
CN109885641B (zh) 一种数据库中文全文检索的方法及系统
CN112530404A (zh) 一种语音合成方法、语音合成装置及智能设备
CN109977430B (zh) 一种文本翻译方法、装置及设备
Hocking et al. Optical character recognition for South African languages
US11244156B1 (en) Locality-sensitive hashing to clean and normalize text logs
CN112541062B (zh) 平行语料对齐方法、装置、存储介质及电子设备
KR101982490B1 (ko) 문자 데이터 변환에 기초한 키워드 검색 방법 및 그 장치
CN113158693A (zh) 基于汉语关键词的维吾尔语关键词生成方法、装置、电子设备及存储介质
EP0638187B1 (en) Categorizing strings in character recognition
CN111930938A (zh) 文本分类方法、装置、电子设备及存储介质
CN112036183A (zh) 基于BiLSTM网络模型及CRF模型的分词方法、装置、计算机装置及计算机存储介质
CN109284279B (zh) 一种审讯问题选择方法、终端设备及存储介质
AU2021106571A4 (en) Method and device for constructing word co-occurrence based vector space model of traditional chinese medicine prescriptions
US20230214394A1 (en) Data search method and apparatus, electronic device and storage medium
CN112101025B (zh) 拼音标注方法、装置、电子设备及存储介质
US20240095451A1 (en) Method and apparatus for text analysis, electronic device and computer readable storage medium
CN112527819B (zh) 通讯录信息检索方法、装置、电子设备及存储介质
WO2024115808A1 (en) Computer-implemented method for processing number words based on word buffer

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210122

RJ01 Rejection of invention patent application after publication