CN109558599A - 一种转换方法、装置和电子设备 - Google Patents

一种转换方法、装置和电子设备 Download PDF

Info

Publication number
CN109558599A
CN109558599A CN201811320804.4A CN201811320804A CN109558599A CN 109558599 A CN109558599 A CN 109558599A CN 201811320804 A CN201811320804 A CN 201811320804A CN 109558599 A CN109558599 A CN 109558599A
Authority
CN
China
Prior art keywords
text
numeration
target
type
numeric type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811320804.4A
Other languages
English (en)
Other versions
CN109558599B (zh
Inventor
郑宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN201811320804.4A priority Critical patent/CN109558599B/zh
Publication of CN109558599A publication Critical patent/CN109558599A/zh
Application granted granted Critical
Publication of CN109558599B publication Critical patent/CN109558599B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/55Rule-based translation
    • G06F40/56Natural language generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供了一种转换方法、装置和电子设备,其中,所述方法包括:获取待处理文本;确定所述待处理文本中目标记数文本对应的数字类型,其中,所述目标记数文本用于表示数字;按照所述数字类型对应的转换规则对所述目标记数文本进行转换,得到目标数字;将所述待处理文本中目标记数文本替换为对应的目标数字并输出;进而在后续机器翻译过程中,可以直接对数字进行翻译,得到目标语言中用于表示该数字的文本,从而提高对数字翻译的准确率。

Description

一种转换方法、装置和电子设备
技术领域
本发明涉及数据处理技术领域,特别是涉及一种转换方法、装置和电子设备。
背景技术
人工智能是包括十分广泛的科学,它由不同的领域组成,如机器学习,计算机视觉等等,总的说来,人工智能研究的一个主要目标是使机器能够胜任一些通常需要人类智能才能完成的复杂工作;自人工智能从诞生以来,理论和技术日益成熟,应用领域也不断扩大,如机器翻译领域,如将汉语翻译成英语、将英语翻译成汉语等等。
随着机器翻译技术不断的成熟,基于机器的同传翻译应运而生,同传翻译可以包括两个处理过程:语音处理和机器翻译,语音处理包括将语音数据转换成文本,以及将机器翻译得到的翻译文本转换成语音;机器翻译是将语音文本翻译成目标语言对应的翻译文本。目前,机器翻译是基于神经网络进行翻译的,而用于训练神经网络的语料库中的语料是有限的,因此可能会导致对数字的翻译出现错误;例如:“one hundred twenty threemillion three thousand two hundred and twenty two”,会被翻译为“一百二十三万三千二百二十”。
发明内容
本发明实施例提供一种转换方法,以提高数字翻译的准确率。
相应的,本发明实施例还提供了一种转换装置和一种电子设备,用以保证上述方法的实现及应用。
为了解决上述问题,本发明实施例公开了一种转换方法,具体包括:获取待处理文本;确定所述待处理文本中目标记数文本对应的数字类型,其中,所述目标记数文本用于表示数字;按照所述数字类型对应的转换规则对所述目标记数文本进行转换,得到目标数字;将所述待处理文本中目标记数文本替换为对应的目标数字并输出。
可选地,所述确定所述待处理文本中目标记数文本对应的数字类型,包括:依据所述待处理文本对应的语言,确定对应的目标正则表达式;依据所述目标正则表达式,确定所述待处理文本中目标记数文本对应的数字类型。
可选地,所述目标正则表达式包括第一正则表达式和第二正则表达式,所述依据所述目标正则表达式,确定所述待处理文本中目标记数文本对应的数字类型,包括:将所述待处理文本与所述第一正则表达式进行匹配,提取目标记数文本;依次将所述目标记数文本与各第二正则表达式匹配,确定与所述目标记数文本匹配的第二正则表达式匹配;将匹配的第二正则表达式对应的数字类型,确定为所述目标记数文本对应的数字类型;其中,所述第一正则表达式依据多个第二正则表达式构建而成,所述第二正则表达式与数字类型对应,所述数字类型依据记数文本的构成规则确定。
可选地,所述按照所述数字类型对应的转换规则转换所述目标记数文本得到目标数字,包括:基于所述数字类型查找映射关系,确定所述目标记数文本对应的转换规则,所述转换规则包括第一关联关系和第二关联关系;依据所述第一关联关系,确定所述目标记数文本对应的数字;依据所述第二关联关系和所述目标记数文本对应的数字,生成目标数字。
可选地,在确定所述待处理文本中目标记数文本对应的数字类型之前,所述的方法还包括确定数字类型的步骤:针对一种语言,获取所述语言中用于表示数字的各记数文本;对所述记数文本进行分析,确定对应的最小单元文本,其中,所述记数文本可以由至少一个最小单元文本构成;依据各记数文本中最小单元文本的文本类型,确定各记数文本对应的数字类型;其中,所述数字类型包括以下至少一种:基数类型、序数类型、百分数类型、分数类型和小数类型。
可选地,在所述确定数字类型的步骤之后,所述的方法还包括确定各数字类型对应的第二正则表达式的步骤:针对一种数字类型,对所述数字类型中所有记数文本进行分析,确定所述数字类型对应记数文本的构造规则;依据所述构成规则,采用所述数字类型对应记数文本包含的最小单元文本生成所述数字类型对应的第二正则表达式。
可选地,在所述确定数字类型的步骤之后,所述的方法还包括确定各数字类型对应的转换规则的步骤:建立各最小单元文本与对应数字的第一关联关系;建立各数字类型和对应的数字表达规则的第二关联关系;依据所述第一关联关系和第二关联关系,生成转换规则。
可选地,在所述输出的步骤之后,所述的方法还包括:依据替换后的待处理文本进行翻译,得到对应的翻译文本。
本发明实施例还公开了一种转换装置,具体包括:文本获取模块,用于获取待处理文本;类型确定模块,用于确定所述待处理文本中目标记数文本对应的数字类型,其中,所述目标记数文本用于表示数字;数字转换模块,用于按照所述数字类型对应的转换规则对所述目标记数文本进行转换,得到目标数字;数字替换模块,用于将所述待处理文本中目标记数文本替换为对应的目标数字并输出。
可选地,所述类型确定模块包括:表达式确定子模块,用于依据所述待处理文本对应的语言,确定对应的目标正则表达式;数字类型确定子模块,用于依据所述目标正则表达式,确定所述待处理文本中目标记数文本对应的数字类型。
可选地,所述目标正则表达式包括第一正则表达式和第二正则表达式,所述数字类型确定子模块,具体用于将所述待处理文本与所述第一正则表达式进行匹配,提取目标记数文本;依次将所述目标记数文本与各第二正则表达式匹配,确定与所述目标记数文本匹配的第二正则表达式匹配;将匹配的第二正则表达式对应的数字类型,确定为所述目标记数文本对应的数字类型;其中,所述第一正则表达式依据多个第二正则表达式构建而成,所述第二正则表达式与数字类型对应,所述数字类型依据记数文本的构成规则确定。
可选地,所述数字转换模块,用于基于所述数字类型查找映射关系,确定所述目标记数文本对应的转换规则,所述转换规则包括第一关联关系和第二关联关系;依据所述第一关联关系,确定所述目标记数文本对应的数字;依据所述第二关联关系和所述目标记数文本对应的数字,生成目标数字。
可选地,所述的装置还包括:类型划分模块,用于针对一种语言,获取所述语言中用于表示数字的各记数文本;对所述记数文本进行分析,确定对应的最小单元文本,其中,所述记数文本可以由至少一个最小单元文本构成;依据各记数文本中最小单元文本的文本类型,确定各记数文本对应的数字类型;其中,所述数字类型包括以下至少一种:基数类型、序数类型、百分数类型、分数类型和小数类型。
可选地,所述的装置还包括:表达式生成模块,用于针对一种数字类型,对所述数字类型中所有记数文本进行分析,确定所述数字类型对应记数文本的构造规则;依据所述构成规则,采用所述数字类型对应记数文本包含的最小单元文本生成所述数字类型对应的第二正则表达式。
可选地,所述的装置还包括:转换规则生成模块,用于建立各最小单元文本与对应数字的第一关联关系;建立各数字类型和对应的数字表达规则的第二关联关系;依据所述第一关联关系和第二关联关系,生成转换规则。
可选地,所述的装置还包括:翻译模块,用于依据替换后的待处理文本进行翻译,得到对应的翻译文本。
本发明实施例还公开了一种可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如本发明实施例任一所述的转换方法。
本发明实施例还公开了一种电子设备,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:获取待处理文本;确定所述待处理文本中目标记数文本对应的数字类型,其中,所述目标记数文本用于表示数字;按照所述数字类型对应的转换规则对所述目标记数文本进行转换,得到目标数字;将所述待处理文本中目标记数文本替换为对应的目标数字并输出。
可选地,所述确定所述待处理文本中目标记数文本对应的数字类型,包括:依据所述待处理文本对应的语言,确定对应的目标正则表达式;依据所述目标正则表达式,确定所述待处理文本中目标记数文本对应的数字类型。
可选地,所述目标正则表达式包括第一正则表达式和第二正则表达式,所述依据所述目标正则表达式,确定所述待处理文本中目标记数文本对应的数字类型,包括:将所述待处理文本与所述第一正则表达式进行匹配,提取目标记数文本;依次将所述目标记数文本与各第二正则表达式匹配,确定与所述目标记数文本匹配的第二正则表达式匹配;将匹配的第二正则表达式对应的数字类型,确定为所述目标记数文本对应的数字类型;其中,所述第一正则表达式依据多个第二正则表达式构建而成,所述第二正则表达式与数字类型对应,所述数字类型依据记数文本的构成规则确定。
可选地,所述按照所述数字类型对应的转换规则转换所述目标记数文本得到目标数字,包括:基于所述数字类型查找映射关系,确定所述目标记数文本对应的转换规则,所述转换规则包括第一关联关系和第二关联关系;依据所述第一关联关系,确定所述目标记数文本对应的数字;依据所述第二关联关系和所述目标记数文本对应的数字,生成目标数字。
可选地,在确定所述待处理文本中目标记数文本对应的数字类型之前,所述的电子设备还包含用于进行确定数字类型操作的指令:针对一种语言,获取所述语言中用于表示数字的各记数文本;对所述记数文本进行分析,确定对应的最小单元文本,其中,所述记数文本可以由至少一个最小单元文本构成;依据各记数文本中最小单元文本的文本类型,确定各记数文本对应的数字类型;其中,所述数字类型包括以下至少一种:基数类型、序数类型、百分数类型、分数类型和小数类型。
可选地,在所述确定数字类型的步骤之后,所述的电子设备还包含用于进行确定各数字类型对应的第二正则表达式操作的指令:针对一种数字类型,对所述数字类型中所有记数文本进行分析,确定所述数字类型对应记数文本的构造规则;依据所述构成规则,采用所述数字类型对应记数文本包含的最小单元文本生成所述数字类型对应的第二正则表达式。
可选地,在所述确定数字类型的步骤之后,所述的电子设备还包含用于进行确定各数字类型对应的转换规则操作的指令:建立各最小单元文本与对应数字的第一关联关系;建立各数字类型和对应的数字表达规则的第二关联关系;依据所述第一关联关系和第二关联关系,生成转换规则。
可选地,在所述输出的步骤之后,所述的电子设备还包含用于进行以下操作的指令:依据替换后的待处理文本进行翻译,得到对应的翻译文本。
本发明实施例包括以下优点:
本发明实施例中,可以获取待处理文本,并确定待处理文本中用于表示数字的目标记数文对应的数字类型;进而可以采用所述数字类型对应的转换规则对目标记数文本进行转换,得到目标数字,再将所述待处理文本中目标记数文本替换为对应的目标数字并输出;由于语料库中是包含数字和各种语言中用于表示该数字的文本的,因此后续依据替换后的待处理文本进行翻译时,可以直接依据目标数字进行翻译,得到目标语言中用于表示目标数字的文本,从而可以提高数字翻译的准确率。
附图说明
图1是本发明的一种转换方法实施例的步骤流程图;
图2是本发明的一种确定数字类型实施例的步骤流程图;
图3是本发明的一种转换方法可选实施例的步骤流程图;
图4是本发明的一种转换装置实施例的结构框图;
图5是本发明的一种转换装置可选实施例的结构框图;
图6根据一示例性实施例示出的一种用于转换的电子设备的结构框图;
图7是本发明根据另一示例性实施例示出的一种用于转换的电子设备的结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
为了解决数字翻译不准确的问题,本发明实施例提供一种转换方案,该方案的核心构思之一是:将待处理文本中用于表示数字的文本转换成数字,进而在后续机器翻译过程中,可以直接对数字进行翻译,得到目标语言中用于表示该数字的文本,从而提高对数字翻译的准确率。
参照图1,示出了本发明的一种转换方法实施例的步骤流程图,具体可以包括如下步骤:
步骤102、获取待处理文本;
步骤104、确定所述待处理文本中目标记数文本对应的数字类型,其中,所述目标记数文本用于表示数字。
步骤106、按照所述数字类型对应的转换规则对所述目标记数文本进行转换,得到目标数字。
步骤108、将所述待处理文本中目标记数文本替换为对应的目标数字并输出。
本发明实施例中,可以获取待处理文本,其中,所述待处理文本可以包括对语音数据识别之后得到的语音识别文本;然后可以对应待处理文本中用于表示数字的记数文本(可称为目标记数文本)进行转换,将目标记数文本转换成对应的目标数字。再采用目标数字替换语音识别文本中的目标记数文本,然后将所述替换后目标记数文本后的语音识别文本输出。本发明的一个示例中,可以将所述替换后的语音识别文本输出至机器翻译模块,机器翻译模块接收到所述替换后的待处理文本后,可以进入机器翻译流程,对该替换后的待处理文本进行翻译。其中,由于语料库中的语料是有限的,当语料库中不包括:原始语言中用于表示数字M的记数文本A和对应目标语言中用于表示数字M的记数文本B时,现有技术对数字的翻译可能出错,导致对数字翻译的准确率低;但是语料库中是包含数字和各种语言中用于该数字的记数文本的,因此本发明实施例将语音识别文本中目标记数文本转换为目标数字后,后续翻译过程中可以准确的得到目标语言中用于表示目标数字的文本,或者直接将该替换后的数字作为翻译后的目标数字,能够提高对数字翻译的准确率。
其中,所述待处理文本可以对应多种语言,如汉语、英语、韩语和法语等等;其中,不同语言中用于表示数字的文本不同,例如针对数字“1”,汉语中用文本“一”表示,英语用文本“a”和“one”表示,韩语用文本法语用文本“un”表示,等等。其中,所述的数字可以包括计数符号(如“0”、“1”、“2”、“3”……)和/或数学符号(如“/”、“%”“.”……),所述数字可以是由单个计数符号(如“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”、“9”)组成,也可以是由多个计数符号组合而成,还可以是由计数符号和数学符号组合而成;本发明实施例对此不作限制。
本发明实施例中,为了能够将目标记数文本准确的转换成目标数字,可以预先针对每一种语言,依据所述语言中用于表示数字的记数文本进行分析,确定各记数文本的构造规则;然后依据记数文本对应的构造规则,将各个记数文本划分为多个数字类型;其中,所述数字类型可以按照需求设置,如可以将英语中记数文本划分为基数类型如“one”、“twenty two”、“one hundred”,序数类型如“first”、“second”、“fifth”等等,小数类型如“twenty piont two”;当然还可以包括其他的数字类型如百分数类型等等,本发明实施例对此不作限制。以及可以确定各数字类型对应的转换规则,并建立数字类型与转换规则之间的映射关系,例如小数类对应转换规则是在两个数字(由计数符号表示的数字)之间添加“.”,序数类对应的转换规则可以是在数字(由计数符号表示的数字)之后添加“th”,百分数类对应的转换规则可以是在数字(由计数符号表示的数字)之后添加“%”,等等;具体在后续进行说明。
因此,本发明实施例在对目标记数文本进行转换的过程中,可以先基于语音识别文本的语言,确定目标记数文本的数字类型;再基于该数字类型查找映射关系,确定对应的转换规则;然后采用该转换规则对目标记数文本进行转换,得到对应的目标数字。其中,所述目标数字除了可以是由当计数符号组成,也可以是由多个计数符号组合而成,也可以是由计数符号和数学符号组合而成,还可以是由计数符号和字符串“th”组成;当然目标数字还可以包括其他符号(如其他数学符号如“/”、其他字符如(pm)等),以及还可以包括其他的组成方式,本发明实施例对此不作限制。
本发明的一个示例中,获取待处理文本如“I have one hundred twenty threemillion three thousand two hundred and twenty two apples”,可以确定目标记数文本“one hundred twenty three million three thousand two hundred and twentytwo”的数字类型为基数类;然后可以依据基数类对应的转换规则对所述目标记数文本进行转换,得到目标数字“123,003,222”。然后将所述待处理文本中目标记数文本替换为对应的目标数字,得到“I have123,003,222apples”并输出。
本发明的另一个示例中,获取待处理文本如“圆周率是三点一四一五九二六五三五”,可以确定目标记数文本“三点一四一五九二六五三五”的数字类型为小数类;然后可以依据小数类对应的转换规则对所述目标记数文本进行转换,得到目标数字“3.1415926535”。然后将所述待处理文本中目标记数文本替换为对应的目标数字,得到“圆周率是3.1415926535”并输出。
本发明实施例中,可以获取待处理文本,并确定待处理文本中用于表示数字的目标记数文对应的数字类型;进而可以采用所述数字类型对应的转换规则对目标记数文本进行转换,得到目标数字,再将所述待处理文本中目标记数文本替换为对应的目标数字并输出;由于语料库中是包含数字和各种语言中用于表示该数字的文本的,因此后续依据替换后的待处理文本进行翻译时,可以直接依据目标数字进行翻译,得到目标语言中用于表示目标数字的文本,从而可以提高数字翻译的准确率。
例如,在语音识别场景中,所述待处理文本可以是语音识别文本;进而可以在语音识别之后,获取语音识别文本,确定所述语音识别文本中目标记数文本对应的数字类型,其中,所述目标记数文本用于表示数字;按照所述数字类型对应的转换规则对所述目标记数文本进行转换,得到目标数字;将所述语音识别文本中目标记数文本替换为对应的目标数字并输出。进而将语音识别文本中用于表示数字的文本转换成数字,从而在后续机器翻译过程中,可以直接对数字进行翻译,得到目标语言中用于表示该数字的文本,能够提高对数字翻译的准确率。
为描述方便,本发明下述实施例以所述待处理文本为语音识别文本为例进行介绍。
本发明的另一个实施例中,由于不同语言对应用于表示数字的文本是不同的,因此可以针对任一种语言,可以预先将所述语言中各用于表示数字的记数文本划分为多个数字类型,以及确定各数字类型对应的转换规则;具体如下:
参照图2,示出了本发明的一种确定数字类型实施例的步骤流程图,具体包括以下步骤:
步骤202、针对一种语言,获取所述语言中用于表示数字的各记数文本。
步骤204、对所述记数文本进行分析,确定对应的最小单元文本,其中,所述记数文本可以由至少一个最小单元文本组成。
步骤206、依据所述各记数文本中最小单元文本的文本类型,确定各记数文本对应的数字类型;其中,所述数字类型包括以下至少一种:基数类型、序数类型、百分数类型、分数类型和小数类型。
本发明实施例中,针对每一种语言,可以获取该语言中所有用于表示数字的文本(后续可称为记数文本);例如汉语中,可以获取对应的记数文本:“一”、“二”……、“十”、“百”、“千”、“万”、“亿”、……,“第一”、“第二”,“一点一”、“二十点一”,“百分之十”、“百分之三十点一”等等。又例如英语中,可以获取对应的记数文本:“a”、“one”、“two”、“three”……、“thousand”、“million”、“billion”…….,“first”、“second”……,“twentypoint two”……,“Eighty-seven percent”……。然后可以通过对所有的记数文本进行分析,确定各记数文本的最小单元文本,其中,不同语言对应的最小单元文本可以是不同的,例如汉语中,其对应的最小单元文本可以是一个字,如“一”、“二”、“十”等等,例如英语中,其对应的最小单元文本可以是一个单词,如:“a”、“one”、“two”、“thousand”等等。确定各记数文本对应的最小单元文本后,可以将所有记数文本对应的最小单元文本进行合并,在合并过程中,对于重复的最小单元文本保留一个即可。因此本发明实施例中,任一记数文本可以由至少一个最小单元文本组成,例如,汉语中:记数文本“十一”由最小单元文本“十”和“一”组成,记数文本“十二点一”由最小单元文本“十”、“二”、“点”和“一”组成;又例如英语中:记数文本“one thousand”由最小单元文本“one”和“thousand组成,记数文本“Eighty-seven percent”由最小单元文本“Eighty”、“seven”和“percent”等等。
其中,所述最小单元文本可以对应多种文本类型,所述文本类型可以包括:基数类型、序数类型、小数类型、分数类型和百分数类型,其中,不同语言中对最小单元文本对应文本类型的划分不同;例如汉语中,基数类型的最小单元文本可以包括“一”、“二”、……、“百”、“千”等等,序数类型的最小单元文本可以包括“第”等,小数类型的最小单元文本可以包括“点”等,百分数类型的最小单元文本可以包括:“分”、“之”等,分数类型的最小单元文本可以包括“分”;英语中,基数类型的最小单元文本可以包括“one”、“two”、……、“thousand”等等,序数类型的最小单元文本可以包括“first”、“second”等,小数类型的最小单元文本可以包括“point”等,百分数类型的最小单元文本可以包括:“percent”,分数类型的最小单元文本可以包括“out”、“of”等。因此本发明实施例中,可以依据各记数文本中最小单元文本的文本类型,确定各记数文本对应的数字类型;其中,针对每个记数文本,可以判断所述记数文本中是否包括分数类型的最小单元文本,若确定所述记数文本中包括分数类型的最小单元文本,则确定所述记数文本对应的数字类型是分数类型;若确定所述记数文本中不包括分数类型的最小单元文本,则继续判断所述记数文本中是否包括序数类型的最小单元文本,若所述记数文本中包括序数类型的最小单元文本,则确定所述记数文本对应的数字类型是序数类型;若所述记数文本中不包括序数类型的最小单元文本,则继续判断所述记数文本中是否包括百分数类型的最小单元文本。若所述记数文本中包括百分数类型的最小单元文本,则确定所述记数文本对应的数字类型是百分数类型;若所述记数文本中不包括百分数类型的最小单元文本,则继续判断所述记数文本中是否包括小数类型的最小单元文本。若所述记数文本中包括小数类型的最小单元文本,则确定所述记数文本对应的数字类型是小数类型;若所述记数文本中不包括小数类型的最小单元文本,则确定所述记数文本对应的数字类型是基数类型。可以理解的是,本发明方案并不局限于上述判断顺序。对应的,所述数字类型包括以下至少一种:基数类型、序数类型、百分数类型、分数类型和小数类型;当然还可以其他的数字类型,也可以针对上述每个数字类型进行细分,本发明实施例对此不作限制。例如,汉语中记数文本“二点五”,确定记数文本包含小数类型的最小单元文本“点”,可以确定该记数文本对应的数字类型为小数类型;英语中记数文本“twenty percent”,确定记数文本包含百分数类型的最小单元文本“percent”,可以确定该记数文本对应的数字类型为百分数类型。
本发明的另一个实施例中,可以确定各数字类型对应的第二正则表达式,以采用所述第二正则表达式确定目标记数文本对应的数字类型。其中,针对一种数字类型,对所述数字类型中所有记数文本进行分析,确定所述数字类型对应记数文本的构造规则;依据所述构成规则,采用所述数字类型对应记数文本包含的最小单元文本生成所述数字类型对应的第二正则表达式。
其中,可以确定该数字类型包含的所有记数文本,通过对各记数文本包含的最小单元文本的类型的分析,以及对各记数文本中不同类型最小单元文本的排列方式的分析,确定该数字类型对应记数文本的构成规则;然后按照所述构成规则,采用所述记数文本中的最小单元文本生成所述数字类型对应的第二正则表达式。
本发明的一个示例中,以英语为例,说明各数字类型对应的构成规则:
例如,基数类型的记数文本可以是由至少一个基数类型的最小单元文本构成,其中,所述基数类型的最小单元文本可以包括计数文本和修饰文本,所述计数文本和修饰文本均依据语言确定,例如英语中,计数文本可以包括“one”、“two”、“three”、“four”、“five”、“six”、“seven”、“eight”、“nine”、“ten”、“eleven”、“twelve”、“thriteen”、“fourteen”、“fifteen”、“sixteen”、“seventeen”、“eighteen”、“nineteen”、“twenty”、“thirty”、“forty”、“fifty”、“sixty”、“seventy”、“eighty”、“ninety”,修饰文本可以包括:“hundred”、“thousand”、“million”、“billion”。可见,每个基数类型的记数文本可以由计数文本构成,对应的构成规则可以是“计数文本”,例如“one”、“two”、“seventy”;当然每个基数类型的记数文本也可以由计数文本和修饰文本构成,其中,修饰文本排列在计数文本之后,对应的构成规则可以是“计数文本1|修饰文本1|计数文本2|修饰文本2|…….|计数文本n|修饰文本n”;其中修饰文本1、修饰文本2、……、修饰文本n,是不同的修饰文本,计数文本1、计数文本2、……、计数文本n,可以是不同的计数文本,也可以是不同的计数文本;例如:“one hundred”,“one million two thousand one hundred twenty”。然后按照基数类型记数文本的构成规则采用基数类型记数文本包含的最小单元文本,生成基数类型对应的第二正则表达式。
例如,小数类型的记数文本可以由两个基数类型的记数文本和一个小数类型的最小单元文本构成,所述小数类型的最小单元文本排列在两个基数类型的记数文本之间;对应的构成规则可以是“基数类型记数文本|小数类型的最小单元文本|基数类型记数文本”,例如“twenty-one point five”。然后按照小数类型记数文本的构成规则采用小数类型记数文本包含的最小单元文本,生成小数类型对应的第二正则表达式。
例如,百分数类型的记数文本可以是由基数类型的记数文本和百分数类型的最小单元文本构成,所述百分数类型的最小单元文本排列在所述基数类型的记数文本之后;对应的构成规则可以是“基数类型记数文本|百分数类型的最小单元文本”,例如“twenty-oneprecent”。所述百分数类型的记数文本也可以是由小数类型的记数文本和百分数类型的最小单元文本构成,所述百分数类型的最小单元文本排列在所述小数类型的记数文本之后;对应的构成规则可以是“小数类型记数文本|百分数类型的最小单元文本”,例如“twentypoint one precent”。然后按照百分数类型记数文本的构成规则采用百分数类型记数文本包含的最小单元文本,生成百分数类型对应的第二正则表达式。
例如,序数类型的记数文本可以是由序数类型的最小单元文本构成,对应的构成规则可以是“序数类型的最小单元文本”,如“first”;也可以由序数类型的最小单元文本和基数类型的记数文本构成,序数类型的最小单元文本排列在基数类型的记数文本之后,对应的构成规则可以是“基数类型记数文本|序数类型的最小单元文本”如“twenty-second”。然后按照序数类型记数文本的构成规则采用序数类型记数文本包含的最小单元文本,生成序数类型对应的第二正则表达式。
例如,分数类型的记数文本可以是由基数类型的最小单元文本和分数类型的最小单元文本构成,对应的构成规则可以是“基数类型的最小单元文本|分数类型的最小单元文本|基数类型的最小单元文本”,如“one out of three”;对应的构成规则可以是“基数类型的最小单元文本|分数类型的最小单元文本”,如“one third”。
本发明的另一个实施例中,可以依据各数字类型对应第二正则表达式构建第一正则表达式,所述第一正则表达式可以用于从语音识别文本中,提取出目标记数文本;进而后续可以采用第一正则表达式从语音识别文本中提取目标记数文本,然后采用第二正则表达是确定目标记数文本对应的数字类型。
当然,本发明实施例另一个实施例中,还可以确定各数字类型对应的转换规则,并建立数字类型与转换规则对应的映射关系;进而在后续可以在确定目标记数文本对应的数字类型后,依据所述数字类型查找映射关系,确定对应的转换规则;然后依据所述转换规则将目标记数文本转换为目标数字。其中,本发明的一个实施例中,一种确定各数字类型对应的转换规则的方法可以是:建立各最小单元文本与对应数字的第一关联关系;建立各数字类型和对应的数字表达规则的第二关联关系;依据所述第一关联关系和第二关联关系,生成转换规则。
例如,英语中,最小单元文本“one”、“a”、“first”与数字“1”对应、最小单元文本“twenty”、“twentieth”与数字“20”对应等等;汉语中,最小单元文本“一”、“壹”、“第一”与数字“1”对应、最小单元文本“二十”、“第二十”与数字“20”对应等等;进而可以建立各最小单元文本和对应数字的第一关联关系。然后针对每个数字类型,确定所述数字类型对应的数字表达规则,例如基数类型对应的数字表达规则可以是“计数符号1*修饰符号1+计数符号2*修饰符号2+…….+计数符号n*修饰符号n”其中,即计数符号可以是指计数文本对应的数字如计数文本“one”,对应计数符号“1”,所述修饰符号可以是指修饰文本对应的数字,所述修饰符号可以是由计数符号组合而成,如计数文本“hundred”,对应计数符号“100”,又如计数文本“thousand”,对应计数符号“1000”。例如小数类型对应的数字表达规则是“基数类型对应的数字表达规则.基数类型对应的数字表达规则”,百分数类型对应的数字表达规则是“基数类型对应的数字表达规则%”,和/或,“小数类型对应的数字表达规则%”,序数类型对应的数字表达规则是“基数类型对应的数字表达规则th”,分数类型对应的数字表达规则是“数类型对应的数字表达规则/基数类型对应的数字表达规则”。
进而后续可以依据第一正则表达式、第二正则表达式、映射关系和转换规则,将目标记数文本转换为目标数字;具体如下:
参照图3,示出了本发明的一种转换方法可选实施例的步骤流程图,具体可以包括如下步骤:
步骤302、获取语音识别文本。
本发明实施例可以是在语言识别之后,且机器翻译之前,对语言识别得到的语音识别文本的处理;进而可以在对语音数据进行语音识别后,获取语音识别得到的语音识别文本,将所述语音识别文本确定为待处理文本,然后可以对待处理文本中用于表示数字的记数文本(可称为目标记数文本)进行转换,将目标记数文本转换成对应的目标数字;再采用目标数字替换语音识别文本中的目标记数文本,然后将所述替换后目标记数文本后的语音识别文本输出。其中,可以将所述替换后的语音识别文本输出至机器翻译模块,机器翻译模块接收到所述替换后的语音识别文本后,可以进入机器翻译流程,对该替换后的语音识别文本进行翻译;在翻译过程中直接对数字进行翻译,可以得到目标语言中用于表示目标数字的文本,从而提高对数字翻译的准确率。
步骤304、依据所述语音识别文本对应的语言,确定对应的目标正则表达式,其中,所述目标正则表达式包括第一正则表达式和第二正则表达式。
本发明实施例中,可以依据预先确定的正则表达式,确定语音识别文本中目标记数文本对应的数字类型;其中,不同语言对应的记数文本不同,进而导致各数字类型对应的第二正则表达式不同,转换规则不同、以及第一正则表达式不同。因此本发明实施例可以确定所述语音识别文本对应的语言,然后再获取所述语言对应的目标正则表达式;其中,所述目标正则表达式可以包括第一正则表达式和第二正则表达式,其中,所述第一正则表达式依据多个第二正则表达式构建而成,所述第二正则表达式与数字类型对应,所述数字类型依据记数文本的构成规则确定。
本发明的一个示例中,一种提取目标记数文本和确定目标记数文本对应数字类型的方法,可以是依据所述目标正则表达式,提取目标记数文本和确定所述目标记数文本对应的数字类型。其中,可以将第一正则表达式和第二正则表达式作为一个整体,然后将语音识别文本与目标正则表达式进行匹配,直接得到目标记数文本对应的数字类型。
本发明的另一个示例中,一种提取目标记数文本和确定目标记数文本对应数字类型的方法,可以是先依据第一正则表达式从语音文本数据中提取目标记数文本,再依据第二正则表达式确定目标记数文本对应的数字类型,具体如下:
步骤306、将所述语音识别文本与所述第一正则表达式进行匹配,提取目标记数文本。
步骤308、依次将所述目标记数文本与各第二正则表达式匹配,确定与所述目标记数文本匹配的第二正则表达式匹配。
步骤310、将匹配的第二正则表达式对应的数字类型,确定为所述目标记数文本对应的数字类型。
本发明实施例中,可以将语音识别文本与第一正则表达式进行匹配,从语音识别文本中提取出目标记数文本;其中,所述第一正则表达式满足最长匹配规则,可以从某一串中提取出满足条件的最长子串;例如语音识别文本“我今天要完成三千五百六十四个任务”,将该语音识别文本与第一正则表达式匹配,可以从中提取最长子串“三千五百六十四”作为目标记数文本,而并不是提取“三千五”、“六十四”等其他子串作为目标记数文本。又例如语音识别文本“I have two thousand five hundred twenty two bananas”,将该语音识别文本与第一正则表达式匹配,可以从中提取最长子串“two thousand five hundredtwenty two”作为目标记数文本,而不是提取出“two thousand”、“five hundred”等作为目标记数文本。
本发明实施例中,从语音识别文本中提取的目标记数文本可以包括多个,针对每一个目标记数文本,可以将其依次与各第二正则表达式进行匹配,确定与其匹配的第二正则表达式。其中,一个第二正则表达式对应一个数字类型,进而在确定与该目标记数文本匹配的第二正则表达式后,则确定该目标记数文本的数字类型,可以是与其匹配的第二正则表达式对应的数字类型。例如,可以将目标记数文本先与分数类型的第二正则表达式进行匹配,若目标记数文本先与序数类型的第二正则表达式匹配,则确定所述目标记数文本对应的数字类型为分数类型;若目标记数文本先与序数类型的第二正则表达式不匹配,则将目标记数文本与序数类型的第二正则表达式进行匹配,若目标记数文本与序数类型的第二正则表达式匹配,则确定所述目标记数文本对应的数字类型为序数类型;若目标记数文本与序数类型的第二正则表达式不匹配,则可以将目标记数文本与百分数类型的第二正则表达式进行匹配。若目标记数文本与百分数类型的第二正则表达式匹配,则确定所述目标记数文本对应的数字类型为百分数类型;若目标记数文本与百分数类型的第二正则表达式不匹配,则可以将所述目标记数文本与小数类型的第二正则表达式进行匹配。若所述目标记数文本与小数类型的第二正则表达式匹配,则确定所述目标记数文本对应的数字类型为小数类型;若所述目标记数文本与小数类型的第二正则表达式不匹配,可以确定所述目标记数文本对应的数字类型为基数类型。当然目标记数文本也按照其他顺序与第二正则表达进行匹配,本发明实施例对此不作限制。
步骤312、基于所述数字类型查找映射关系,确定所述目标记数文本对应的转换规则,所述转换规则包括第一关联关系和第二关联关系。
步骤314、依据所述第一关联关系,确定所述目标记数文本对应的数字。
步骤316、依据所述第二关联关系和所述目标记数文本对应的数字,生成目标数字。
本发明实施例中,在确定各目标记数文本和目标记数文本对应的数字类型后,可以依据数字类型和转换规则之间的映射关系,确定该数字类型对应的转换规则,然后按照对应的转换规则对该目标记数文本进行转换。其中,所述转换规则包括第一关联关系和第二关联关系,其中,在将目标记数文本与第二正则表达式匹配的过程中,可以确定构成该目标记数文本的最小单元文本,因此可以依据所述第一关联关系,确定目标记数文本中各最小单元文本对应的数字,进而可以确定目标记数文本对应的数字;然后依据第二关联关系,确定所述数字类型对应的数字表达规则,再依据所述目标记数文本对应的数字和对应的数字表达规则,生成目标数字。
步骤318、将所述语音识别文本中目标记数文本替换为对应的目标数字并输出。
然后可以针对每个目标记数文本,采用该目标记数文本对应的目标数字,对所述语音识别文本中该目标记数文本进行替换;在将语音识别文本中的所有目标记数文本均进行替换后,可以生成替换后的语音识别文本,然后可以输出该替换后的语音识别文本。
本发明的一个实施例中,将替换后的语音识别文本进行输出后,可以将所述替换后的语音识别文本作为机器翻译的输入,进而可以依据替换后的语音识别文本进行翻译,得到对应的翻译文本。
本发明的一个可选实施例中,所述转换方法也可以应用于公式的转换,如将语音识别文本中用于表述公式的文本转换为对应的公式。
本发明的一个可选实施例中,所述转换方法还可以应用于对时间、日期、货币金额等等的转换;如将语音识别文本中用于表达时间的文本转换为时间;又如将语音识别文本中用于表达日期的文本转换为日期,还如语音识别文本中用于表达货币的文本转换为货币金额;等等。
本发明实施例中,在进行语音识别之后,可以获取语音识别文本,然后从所述语音识别文本中提取目标记数文本,以及确定目标记数文对应的数字类型;进而可以采用所述数字类型对应的转换规则对目标记数文本进行转换,得到目标数字,再将所述语音识别文本中目标记数文本替换为对应的目标数字并输出;由于语料库中是包含数字和各种语言中用于表示该数字的文本的,因此后续依据替换后的语音识别文本进行翻译时,可以准确的得到目标语言中用于表示目标数字的文本,从而可以提高数字翻译的准确率。
其次,本发明实施例中,可以先提取出目标记数文本,再确定目标记数文本对应的数字类型,其中,可以通过将所述语音识别文本与所述第一正则表达式进行匹配,从语音识别文本中准确地提取出目标记数文本;然后通过依次将所述目标记数文本与各第二正则表达式匹配,准确地确定目标记数文本对应的数字类型;进而可以通过提高确定目标记数文本对应数字类型的准确性,提高将目标记数文本转换为目标数字的准确性。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图4,示出了本发明的一种转换装置实施例的结构框图,具体可以包括如下模块:
文本获取模块402,用于获取待处理文本;
类型确定模块404,用于确定所述待处理文本中目标记数文本对应的数字类型,其中,所述目标记数文本用于表示数字;
数字转换模块406,用于按照所述数字类型对应的转换规则对所述目标记数文本进行转换,得到目标数字;
数字替换模块408,用于将所述待处理文本中目标记数文本替换为对应的目标数字并输出。
参照图5,示出了本发明的一种转换装置可选实施例的结构框图。
本发明的一个可选实施例中,所述类型确定模块404包括:
表达式确定子模块4042,用于依据所述待处理文本对应的语言,确定对应的目标正则表达式;
数字类型确定子模块4044,用于依据所述目标正则表达式,确定所述待处理文本中目标记数文本对应的数字类型。
本发明的一个可选实施例中,所述数字类型确定子模块4044,具体用于将所述待处理文本与所述第一正则表达式进行匹配,提取目标记数文本;依次将所述目标记数文本与各第二正则表达式匹配,确定与所述目标记数文本匹配的第二正则表达式匹配;将匹配的第二正则表达式对应的数字类型,确定为所述目标记数文本对应的数字类型;其中,所述第一正则表达式依据多个第二正则表达式构建而成,所述第二正则表达式与数字类型对应,所述数字类型依据记数文本的构成规则确定。
本发明的一个可选实施例中,所述数字转换模块406,用于基于所述数字类型查找映射关系,确定所述目标记数文本对应的转换规则,所述转换规则包括第一关联关系和第二关联关系;依据所述第一关联关系确定所述目标记数文本对应的数字;依据所述第二关联关系和所述目标记数文本对应的数字,生成目标数字。
本发明的一个可选实施例中,所述的装置还包括:
类型划分模块410,用于针对一种语言,获取所述语言中用于表示数字的各记数文本;对所述记数文本进行分析,确定对应的最小单元文本,其中,所述记数文本可以由至少一个最小单元文本构成;依据各记数文本中最小单元文本的文本类型,确定各记数文本对应的数字类型;其中,所述数字类型包括以下至少一种:基数类型、序数类型、百分数类型、分数类型和小数类型。
本发明的一个可选实施例中,所述的装置还包括:
表达式生成模块412,用于针对一种数字类型,对所述数字类型中所有记数文本进行分析,确定所述数字类型对应记数文本的构造规则;依据所述构成规则,采用所述数字类型对应记数文本包含的最小单元文本生成所述数字类型对应的第二正则表达式。
本发明的一个可选实施例中,所述的装置还包括:
转换规则生成模块414,用于建立各最小单元文本与对应数字的第一关联关系;建立各数字类型和对应的数字表达规则的第二关联关系;依据所述第一关联关系和第二关联关系,生成转换规则。
本发明的一个可选实施例中,所述的装置还包括:翻译模块416,用于依据替换后的待处理文本进行翻译,得到对应的翻译文本。
本发明实施例中,可以获取待处理文本,并确定待处理文本中用于表示数字的目标记数文对应的数字类型;进而可以采用所述数字类型对应的转换规则对目标记数文本进行转换,得到目标数字,再将所述待处理文本中目标记数文本替换为对应的目标数字并输出;由于语料库中是包含数字和各种语言中用于表示该数字的文本的,因此后续依据替换后的待处理文本进行翻译时,可以直接依据目标数字进行翻译,得到目标语言中用于表示目标数字的文本,从而可以提高数字翻译的准确率。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
图6是根据一示例性实施例示出的一种用于转换的电子设备500的结构框图。例如,电子设备600可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图6,电子设备600可以包括以下一个或多个组件:处理组件602,存储器604,电力组件606,多媒体组件608,音频组件610,输入/输出(I/O)的接口612,传感器组件614,以及通信组件616。
处理组件602通常控制电子设备600的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件602可以包括一个或多个处理器620来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件602可以包括一个或多个模块,便于处理组件602和其他组件之间的交互。例如,处理部件602可以包括多媒体模块,以方便多媒体组件608和处理组件602之间的交互。
存储器604被配置为存储各种类型的数据以支持在设备600的操作。这些数据的示例包括用于在电子设备600上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器604可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件606为电子设备600的各种组件提供电力。电力组件606可以包括电源管理系统,一个或多个电源,及其他与为电子设备600生成、管理和分配电力相关联的组件。
多媒体组件608包括在所述电子设备600和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件608包括一个前置摄像头和/或后置摄像头。当电子设备600处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件610被配置为输出和/或输入音频信号。例如,音频组件610包括一个麦克风(MIC),当电子设备600处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器604或经由通信组件616发送。在一些实施例中,音频组件610还包括一个扬声器,用于输出音频信号。
I/O接口612为处理组件602和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件614包括一个或多个传感器,用于为电子设备600提供各个方面的状态评估。例如,传感器组件614可以检测到设备600的打开/关闭状态,组件的相对定位,例如所述组件为电子设备600的显示器和小键盘,传感器组件614还可以检测电子设备600或电子设备600一个组件的位置改变,用户与电子设备600接触的存在或不存在,电子设备600方位或加速/减速和电子设备600的温度变化。传感器组件614可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件614还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件614还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件616被配置为便于电子设备600和其他设备之间有线或无线方式的通信。电子设备600可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件614经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件614还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,电子设备600可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器604,上述指令可由电子设备600的处理器620执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行一种转换方法,所述方法包括:获取待处理文本;确定所述待处理文本中目标记数文本对应的数字类型,其中,所述目标记数文本用于表示数字;按照所述数字类型对应的转换规则对所述目标记数文本进行转换,得到目标数字;将所述待处理文本中目标记数文本替换为对应的目标数字并输出。
可选地,所述确定所述待处理文本中目标记数文本对应的数字类型,包括:依据所述待处理文本对应的语言,确定对应的目标正则表达式;依据所述目标正则表达式,确定所述待处理文本中目标记数文本对应的数字类型。
可选地,所述目标正则表达式包括第一正则表达式和第二正则表达式,所述依据所述目标正则表达式,确定所述待处理文本中目标记数文本对应的数字类型,包括:将所述待处理文本与所述第一正则表达式进行匹配,提取目标记数文本;依次将所述目标记数文本与各第二正则表达式匹配,确定与所述目标记数文本匹配的第二正则表达式匹配;将匹配的第二正则表达式对应的数字类型,确定为所述目标记数文本对应的数字类型;其中,所述第一正则表达式依据多个第二正则表达式构建而成,所述第二正则表达式与数字类型对应,所述数字类型依据记数文本的构成规则确定。
可选地,所述按照所述数字类型对应的转换规则转换所述目标记数文本得到目标数字,包括:基于所述数字类型查找映射关系,确定所述目标记数文本对应的转换规则,所述转换规则包括第一关联关系和第二关联关系;依据所述第一关联关系,确定所述目标记数文本对应的数字;依据所述第二关联关系和所述目标记数文本对应的数字,生成目标数字。
可选地,在确定所述待处理文本中目标记数文本对应的数字类型之前,所述的方法还包括确定数字类型的步骤:针对一种语言,获取所述语言中用于表示数字的各记数文本;对所述记数文本进行分析,确定对应的最小单元文本,其中,所述记数文本可以由至少一个最小单元文本构成;依据各记数文本中最小单元文本的文本类型,确定各记数文本对应的数字类型;其中,所述数字类型包括以下至少一种:基数类型、序数类型、百分数类型、分数类型和小数类型。
可选地,在所述确定数字类型的步骤之后,所述的方法还包括确定各数字类型对应的第二正则表达式的步骤:针对一种数字类型,对所述数字类型中所有记数文本进行分析,确定所述数字类型对应记数文本的构造规则;依据所述构成规则,采用所述数字类型对应记数文本包含的最小单元文本生成所述数字类型对应的第二正则表达式。
可选地,在所述确定数字类型的步骤之后,所述的方法还包括确定各数字类型对应的转换规则的步骤:建立各最小单元文本与对应数字的第一关联关系;建立各数字类型和对应的数字表达规则的第二关联关系;依据所述第一关联关系和第二关联关系,生成转换规则。
可选地,在所述输出的步骤之后,所述的方法还包括:依据替换后的待处理文本进行翻译,得到对应的翻译文本。
图7是本发明根据另一示例性实施例示出的一种用于转换的电子设备700的结构示意图。该电子设备700可以是服务器,该服务器可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)722(例如,一个或一个以上处理器)和存储器732,一个或一个以上存储应用程序742或数据744的存储介质730(例如一个或一个以上海量存储设备)。其中,存储器732和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器722可以设置为与存储介质730通信,在服务器上执行存储介质730中的一系列指令操作。
服务器还可以包括一个或一个以上电源726,一个或一个以上有线或无线网络接口750,一个或一个以上输入输出接口758,一个或一个以上键盘756,和/或,一个或一个以上操作系统741,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
一种电子设备,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:获取待处理文本;确定所述待处理文本中目标记数文本对应的数字类型,其中,所述目标记数文本用于表示数字;按照所述数字类型对应的转换规则对所述目标记数文本进行转换,得到目标数字;将所述待处理文本中目标记数文本替换为对应的目标数字并输出。
可选地,所述确定所述待处理文本中目标记数文本对应的数字类型,包括:依据所述待处理文本对应的语言,确定对应的目标正则表达式;依据所述目标正则表达式,确定所述待处理文本中目标记数文本对应的数字类型。
可选地,所述目标正则表达式包括第一正则表达式和第二正则表达式,所述依据所述目标正则表达式,确定所述待处理文本中目标记数文本对应的数字类型,包括:将所述待处理文本与所述第一正则表达式进行匹配,提取目标记数文本;依次将所述目标记数文本与各第二正则表达式匹配,确定与所述目标记数文本匹配的第二正则表达式匹配;将匹配的第二正则表达式对应的数字类型,确定为所述目标记数文本对应的数字类型;其中,所述第一正则表达式依据多个第二正则表达式构建而成,所述第二正则表达式与数字类型对应,所述数字类型依据记数文本的构成规则确定。
可选地,所述按照所述数字类型对应的转换规则转换所述目标记数文本得到目标数字,包括:基于所述数字类型查找映射关系,确定所述目标记数文本对应的转换规则,所述转换规则包括第一关联关系和第二关联关系;依据所述第一关联关系,确定所述目标记数文本对应的数字;依据所述第二关联关系和所述目标记数文本对应的数字,生成目标数字。
可选地,在确定所述待处理文本中目标记数文本对应的数字类型之前,所述的电子设备还包含用于进行确定数字类型操作的指令:针对一种语言,获取所述语言中用于表示数字的各记数文本;对所述记数文本进行分析,确定对应的最小单元文本,其中,所述记数文本可以由至少一个最小单元文本构成;依据各记数文本中最小单元文本的文本类型,确定各记数文本对应的数字类型;其中,所述数字类型包括以下至少一种:基数类型、序数类型、百分数类型、分数类型和小数类型。
可选地,在所述确定数字类型的步骤之后,所述的电子设备还包含用于进行确定各数字类型对应的第二正则表达式操作的指令:针对一种数字类型,对所述数字类型中所有记数文本进行分析,确定所述数字类型对应记数文本的构造规则;依据所述构成规则,采用所述数字类型对应记数文本包含的最小单元文本生成所述数字类型对应的第二正则表达式。
可选地,在所述确定数字类型的步骤之后,所述的电子设备还包含用于进行确定各数字类型对应的转换规则操作的指令:建立各最小单元文本与对应数字的第一关联关系;建立各数字类型和对应的数字表达规则的第二关联关系;依据所述第一关联关系和第二关联关系,生成转换规则。
可选地,在所述输出的步骤之后,所述的电子设备还包含用于进行以下操作的指令:依据替换后的待处理文本进行翻译,得到对应的翻译文本。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种转换方法、一种转换装置和一种电子设备,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种转换方法,其特征在于,包括:
获取待处理文本;
确定所述待处理文本中目标记数文本对应的数字类型,其中,所述目标记数文本用于表示数字;
按照所述数字类型对应的转换规则对所述目标记数文本进行转换,得到目标数字;
将所述待处理文本中目标记数文本替换为对应的目标数字并输出。
2.根据权利要求1所述的方法,其特征在于,所述确定所述待处理文本中目标记数文本对应的数字类型,包括:
依据所述待处理文本对应的语言,确定对应的目标正则表达式;
依据所述目标正则表达式,确定所述待处理文本中目标记数文本对应的数字类型。
3.根据权利要求2所述的方法,其特征在于,所述目标正则表达式包括第一正则表达式和第二正则表达式,所述依据所述目标正则表达式,确定所述待处理文本中目标记数文本对应的数字类型,包括:
将所述待处理文本与所述第一正则表达式进行匹配,提取目标记数文本;
依次将所述目标记数文本与各第二正则表达式匹配,确定与所述目标记数文本匹配的第二正则表达式匹配;
将匹配的第二正则表达式对应的数字类型,确定为所述目标记数文本对应的数字类型;
其中,所述第一正则表达式依据多个第二正则表达式构建而成,所述第二正则表达式与数字类型对应,所述数字类型依据记数文本的构成规则确定。
4.根据权利要求1所述的方法,其特征在于,所述按照所述数字类型对应的转换规则转换所述目标记数文本得到目标数字,包括:
基于所述数字类型查找映射关系,确定所述目标记数文本对应的转换规则,所述转换规则包括第一关联关系和第二关联关系;
依据所述第一关联关系,确定所述目标记数文本对应的数字;
依据所述第二关联关系和所述目标记数文本对应的数字,生成目标数字。
5.根据权利要求1所述的方法,其特征在于,在确定所述待处理文本中目标记数文本对应的数字类型之前,所述的方法还包括确定数字类型的步骤:
针对一种语言,获取所述语言中用于表示数字的各记数文本;
对所述记数文本进行分析,确定对应的最小单元文本,其中,所述记数文本可以由至少一个最小单元文本构成;
依据各记数文本中最小单元文本的文本类型,确定各记数文本对应的数字类型;
其中,所述数字类型包括以下至少一种:基数类型、序数类型、百分数类型、分数类型和小数类型。
6.根据权利要求5所述的方法,其特征在于,在所述确定数字类型的步骤之后,所述的方法还包括确定各数字类型对应的第二正则表达式的步骤:
针对一种数字类型,对所述数字类型中所有记数文本进行分析,确定所述数字类型对应记数文本的构造规则;
依据所述构成规则,采用所述数字类型对应记数文本包含的最小单元文本生成所述数字类型对应的第二正则表达式。
7.根据权利要求5所述的方法,其特征在于,在所述确定数字类型的步骤之后,所述的方法还包括确定各数字类型对应的转换规则的步骤:
建立各最小单元文本与对应数字的第一关联关系;
建立各数字类型和对应的数字表达规则的第二关联关系;
依据所述第一关联关系和第二关联关系,生成转换规则。
8.一种转换装置,其特征在于,包括:
文本获取模块,用于获取待处理文本;
类型确定模块,用于确定所述待处理文本中目标记数文本对应的数字类型,其中,所述目标记数文本用于表示数字;
数字转换模块,用于按照所述数字类型对应的转换规则对所述目标记数文本进行转换,得到目标数字;
数字替换模块,用于将所述待处理文本中目标记数文本替换为对应的目标数字并输出。
9.一种可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如方法权利要求1-7任一所述的转换方法。
10.一种电子设备,其特征在于,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
获取待处理文本;
确定所述待处理文本中目标记数文本对应的数字类型,其中,所述目标记数文本用于表示数字;
按照所述数字类型对应的转换规则对所述目标记数文本进行转换,得到目标数字;
将所述待处理文本中目标记数文本替换为对应的目标数字并输出。
CN201811320804.4A 2018-11-07 2018-11-07 一种转换方法、装置和电子设备 Active CN109558599B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811320804.4A CN109558599B (zh) 2018-11-07 2018-11-07 一种转换方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811320804.4A CN109558599B (zh) 2018-11-07 2018-11-07 一种转换方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN109558599A true CN109558599A (zh) 2019-04-02
CN109558599B CN109558599B (zh) 2023-04-18

Family

ID=65865819

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811320804.4A Active CN109558599B (zh) 2018-11-07 2018-11-07 一种转换方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN109558599B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110232325A (zh) * 2019-05-17 2019-09-13 北京搜狗科技发展有限公司 一种数据处理方法、装置和电子设备
CN111931508A (zh) * 2020-08-24 2020-11-13 上海携旅信息技术有限公司 数字转换方法及系统、文本处理方法及系统、设备和介质
CN112183021A (zh) * 2019-07-04 2021-01-05 珠海金山办公软件有限公司 一种数字生成方法及装置
CN112257389A (zh) * 2020-10-29 2021-01-22 湖南星汉数智科技有限公司 一种多语言文字数字转阿拉伯数字的转换方法、装置、计算机装置及计算机可读存储介质
CN113435159A (zh) * 2021-06-16 2021-09-24 北京捷通华声科技股份有限公司 数字转换方法、装置、电子设备及可读存储介质
CN113609874A (zh) * 2021-06-23 2021-11-05 珠海金山办公软件有限公司 文本翻译方法和装置、电子设备、存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05151258A (ja) * 1991-11-29 1993-06-18 Fujitsu Ltd 文書内の数値表現変換方法及び装置
JPH05334340A (ja) * 1992-05-29 1993-12-17 Brother Ind Ltd 機械翻訳装置
US6513002B1 (en) * 1998-02-11 2003-01-28 International Business Machines Corporation Rule-based number formatter
CN101196881A (zh) * 2006-12-08 2008-06-11 富士通株式会社 文本中数字和特殊符号串的文字符号化处理方法及系统
CN104239343A (zh) * 2013-06-20 2014-12-24 腾讯科技(深圳)有限公司 一种用户输入信息的处理方法和装置
CN107967263A (zh) * 2017-12-11 2018-04-27 中译语通科技股份有限公司 一种机器翻译数字泛化方法及系统、计算机、计算机程序
CN108073573A (zh) * 2016-11-16 2018-05-25 北京搜狗科技发展有限公司 一种机器翻译方法、装置和机器翻译系统训练方法、装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05151258A (ja) * 1991-11-29 1993-06-18 Fujitsu Ltd 文書内の数値表現変換方法及び装置
JPH05334340A (ja) * 1992-05-29 1993-12-17 Brother Ind Ltd 機械翻訳装置
US6513002B1 (en) * 1998-02-11 2003-01-28 International Business Machines Corporation Rule-based number formatter
CN101196881A (zh) * 2006-12-08 2008-06-11 富士通株式会社 文本中数字和特殊符号串的文字符号化处理方法及系统
CN104239343A (zh) * 2013-06-20 2014-12-24 腾讯科技(深圳)有限公司 一种用户输入信息的处理方法和装置
CN108073573A (zh) * 2016-11-16 2018-05-25 北京搜狗科技发展有限公司 一种机器翻译方法、装置和机器翻译系统训练方法、装置
CN107967263A (zh) * 2017-12-11 2018-04-27 中译语通科技股份有限公司 一种机器翻译数字泛化方法及系统、计算机、计算机程序

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110232325A (zh) * 2019-05-17 2019-09-13 北京搜狗科技发展有限公司 一种数据处理方法、装置和电子设备
CN110232325B (zh) * 2019-05-17 2021-09-14 北京搜狗科技发展有限公司 一种数据处理方法、装置和电子设备
CN112183021A (zh) * 2019-07-04 2021-01-05 珠海金山办公软件有限公司 一种数字生成方法及装置
CN112183021B (zh) * 2019-07-04 2024-07-23 珠海金山办公软件有限公司 一种数字生成方法及装置
CN111931508A (zh) * 2020-08-24 2020-11-13 上海携旅信息技术有限公司 数字转换方法及系统、文本处理方法及系统、设备和介质
CN112257389A (zh) * 2020-10-29 2021-01-22 湖南星汉数智科技有限公司 一种多语言文字数字转阿拉伯数字的转换方法、装置、计算机装置及计算机可读存储介质
CN113435159A (zh) * 2021-06-16 2021-09-24 北京捷通华声科技股份有限公司 数字转换方法、装置、电子设备及可读存储介质
CN113609874A (zh) * 2021-06-23 2021-11-05 珠海金山办公软件有限公司 文本翻译方法和装置、电子设备、存储介质

Also Published As

Publication number Publication date
CN109558599B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN109558599A (zh) 一种转换方法、装置和电子设备
RU2589873C2 (ru) Способ и устройство обработки ввода
US20170052947A1 (en) Methods and devices for training a classifier and recognizing a type of information
CN105335754A (zh) 文字识别方法及装置
CN109145213B (zh) 基于历史信息的查询推荐方法及装置
CN107608532A (zh) 一种联想输入方法、装置及电子设备
CN109002184B (zh) 一种输入法候选词的联想方法和装置
CN108121736A (zh) 一种主题词确定模型的建立方法、装置及电子设备
CN107221330A (zh) 标点添加方法和装置、用于标点添加的装置
CN107870904A (zh) 一种翻译方法、装置以及用于翻译的装置
CN107146631A (zh) 音乐识别方法、音符识别模型建立方法、装置及电子设备
CN108962253A (zh) 一种基于语音的数据处理方法、装置和电子设备
CN108628819A (zh) 处理方法和装置、用于处理的装置
WO2023000891A1 (zh) 一种数据处理方法、装置、计算机设备和存储介质
CN110069143A (zh) 一种信息防误纠方法、装置和电子设备
CN112133295B (zh) 语音识别方法、装置及存储介质
CN113033163B (zh) 一种数据处理方法、装置和电子设备
CN108073293A (zh) 一种目标词组的确定方法和装置
CN113936697B (zh) 语音处理方法、装置以及用于语音处理的装置
CN111414766A (zh) 一种翻译方法及装置
CN108628461A (zh) 一种输入方法和装置、一种更新词库的方法和装置
CN107436896A (zh) 一种输入推荐方法、装置及电子设备
CN109887492A (zh) 一种数据处理方法、装置和电子设备
CN112035628B (zh) 对话数据清洗方法、装置及存储介质
CN115017324A (zh) 实体关系抽取方法、装置、终端及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant