CN105989057A - 一种基于串操作的数字类检索串的转换方法 - Google Patents

一种基于串操作的数字类检索串的转换方法 Download PDF

Info

Publication number
CN105989057A
CN105989057A CN201510063912.8A CN201510063912A CN105989057A CN 105989057 A CN105989057 A CN 105989057A CN 201510063912 A CN201510063912 A CN 201510063912A CN 105989057 A CN105989057 A CN 105989057A
Authority
CN
China
Prior art keywords
string
chinese
suffix
retrieval
section
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510063912.8A
Other languages
English (en)
Inventor
赵毅强
许欢庆
郭永福
陈沛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING ZHONGSOU CLOUD BUSINESS NETWORK TECHNOLOGY CO., LTD.
Original Assignee
Beijing Zhongsou Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongsou Network Technology Co ltd filed Critical Beijing Zhongsou Network Technology Co ltd
Priority to CN201510063912.8A priority Critical patent/CN105989057A/zh
Publication of CN105989057A publication Critical patent/CN105989057A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明提供了一种基于串操作的数字类检索串的转换方法,该方法包括以下步骤:I、接收所述检索串;II、判断所述检索串的类型;III、将汉语数字检索串转换为阿拉伯数字检索串;IV、将阿拉伯数字检索串转换为汉语数字检索串;V、对转换后的数字串优化后输出。本发明提供的使用完全基于串的汉语数字和阿拉伯数字直接相互转换算法,解决了输入串的长度受限的问题,扩展了数字检索串扩展的适用范围,并且提高了二者之间转换的效率。

Description

一种基于串操作的数字类检索串的转换方法
技术领域
本发明涉及一种互联网领域的方法,具体讲涉及一种基于串操作的数字类检索串的转换方法。
背景技术
检索结果召回率为用户提供比用户输入的检索串所能匹配到的文档更多的有关文档。检索串扩展(query expansion)技术是搜索引擎提高其检索结果召回率的有效手段,通过将与用户输入的检索串中某些词或词组相关的若干其他词加入检索串并以新的检索串进行检索来完成。
由于汉语缺乏词语的形态变化,因此汉语检索串扩展主要以同义词和简称为主。汉语检索串扩展中的一个重要问题就是数字的扩展,因为汉语文档尤其是互联网文档中通常不会对使用阿拉伯数字或汉语数字进行严格限制,而是任选一种甚至两种并用,这就导致了对用户输入的数字串进行扩展成为提高含数字类文档检索结果召回率的必要途径。
对数字串进行扩展,最核心的问题就是汉语数字串与阿拉伯数字串之间的相互转换。现有技术中,大多系统所采用的转换方法通常为两步走的策略,即先求原始数字串所对应的数字值然后再将该数字值转换为与原始串相对的目的串。另外,小数的转换可以先将小数分为整数部分和小数部分,因为小数部分汉语数字和阿拉伯数字具有按位一一对应的关系,因此采取直接映射的方法就可以得到,而整数部分的转换则属于先求值再转换的范畴。
如图1所示,图1为先求值再转换方法的基本过程,以汉语数字转为阿拉伯数字为例,阿拉伯数字转汉语数字的过程只是该过程的逆过程而已。
求值过程负责将汉语字符串转变为一个整型值,而转换过程负责将该整型值重写为一个字符串型的阿拉伯数字。
求值算法通常采用递归实现,其递归函数可描述如下:
f(S)=f(S_l)*v(S_max)+f(S_r);
若S={零,...,九}则f(S)={0,...,9}
其中,S为汉语数字串;S_max为串S中最大的位数词(十、百、千、万、亿之一);v(S_max)为S_max所对应的数值(10、100、1000、10000、100000000);S_l和S_r分别为由S_max分隔S后的S的左部子串和S的右部子串,均不包括S_max。
转换过程的算法非常简单,就是用求值过程所得到的值除以10,把余数转换成字符压入栈,用商替换被除数,循环该过程直到被除数为0时结束,然后按弹栈顺序排列字符所得的字符串即为目标串。
现有技术中的方法,一般先求值再转换的方法尽管具有易于理解和易于实现的优点,但其缺点也较明显:
1)范围受限:先求值后转换需要将原始串的值求出,而该值通常以整型(32位)数来存储,受限于整型数的大小,对原始串的大小也需做限制。
2)效率不高:先计算出结果值再将结果值转换为字符串的两步走过程,显然比直接从原始串转换为目的串的纯串操作增加一定的时间开销。
因此,需要提供一种高效、快速的汉语数字类检索串的快速转换方法。
发明内容
为克服上述现有技术的不足,本发明提供一种基于串操作的汉语数字类检索串的转换方法。
实现上述目的所采用的解决方案为:
一种基于串操作的数字类检索串的转换方法,其改进之处在于:所述方法包括以下步骤:
I、接收所述检索串;
II、判断所述检索串的类型;
III、将汉语数字检索串转换为阿拉伯数字检索串;
IV、将阿拉伯数字检索串转换为汉语数字检索串;
V、对转换后的数字串优化后输出。
进一步的,所述步骤II中,所述检索串包括:汉语数字检索串、阿拉伯数字检索串、浮点数字检索串和只需进行字符转换的串。
进一步的,所述步骤II中,根据不同的所述检索串的类型进行转换,若所述检索串为所述汉语数字检索串,进入所述步骤III;
若所述检索串为所述阿拉伯数字检索串,进入所述步骤IV;
若所述检索串为所述浮点数字检索串,对每个数字按位转换;
若所述检索串为所述只需进行字符转换的串,对所述检索串的每一位数对应转换。
进一步的,所述步骤III,包括以下步骤:
S301、按下式确定所述检索串的段的数量,每个所述段包括数字和后缀;所述段的最高位至多为千;
其中,s为最左段的后缀;lc为s的所述后缀的字符个数;
S302、从左至右依次读取所述汉语数字检索串,根据转换规则确定所述汉语数字检索串的每段的后缀;
S303、确定每个所述段对应的阿拉伯数字串;
S304、连接所有所述段所对应的阿拉伯数字串;
S305、进入步骤V,对转换后的所述阿拉伯数类数字串优化后输出。
进一步的,所述步骤S305中所述优化的方法包括:去掉所述阿拉伯数字串开头部分的“0”字符。
进一步的,所述步骤IV,包括以下步骤:
S401、确定所述阿拉伯数字检索串的长度,从右向左以每四位为一段切分所述阿拉伯数字检索串,按下式确定所述阿拉伯数字检索串的所述段的数量f:
f=q+(r>0?1:0)
其中,q=strlen(s)/4,r=strlen(s)%4,strlen(s)表示所述阿拉伯数字检索串s的长度;
S402、根据转换规则进行转换,确定所述阿拉伯数字检索串对应的汉语数字串,从高位至低位依次连接所述段的数字和后缀,确定所述阿拉伯数字串对应的汉语数字串;
S403、进入步骤V,对转换后的所述汉语数字串优化后输出。
进一步的,所述步骤S305和所述步骤S403中所述规则包括:确定数字位的规则和确定后缀的规则。
进一步的,所述确定数字的规则包括:
从左至右依次将读取汉语数字,若所述段对应的汉语数字串为空串,则确定对应的阿拉伯数字串为“0000”;若所述段对应的汉语数字串不为空串,则从左向右依次读取“千”、“百”和“十”左侧汉语数字对应的阿拉伯数字,没有则确定为“0”;
从右至左依次将读取阿拉伯数字,左边第一位数字转换为对应的汉语数字,第二位、第三位和第四位转换为对应的汉语数字分别对应加后缀“十”、“百”和“千”。
进一步的,所述确定后缀的规则包括:
若所述段对应的汉语数字串段号为0,所述后缀为空;
若所述段对应的汉语数字串段号为1,所述后缀为“万”;
若所述段对应的汉语数字串段号为2,所述后缀为“亿”;
若所述段对应的汉语数字串段号为n,n≥2,所述后缀为段号为“(n-2)的后缀加亿”。
进一步的,所述步骤S403中所述优化的方法包括:从左至右读取所述汉语数字串,所述汉语数字串中间连续的“零”保留一个,省去其他,所述汉语数字串的串尾的“零”省去。
与现有技术相比,本发明具有以下有益效果:
1、与现有技术中通用的汉语数字类检索串的转换方法相比,本发明提供的使用完全基于串的汉语数字和阿拉伯数字直接相互转换算法,解决了输入串的长度受限的问题,扩展了数字检索串扩展的适用范围,并且提高了二者之间转换的效率。
2、本发明提供的方法通过分析汉语数字串的语言特征,提出完全基于串操作的汉语数字串和阿拉伯数字串的直接转换方法,并将其应用于汉语数字类检索串扩展,区别于现有技术中的先求值后转换方法,算法不受计算机器的限制,大大提高了计算效率。
3、本发明提供的方法不受机器内部数值表示范围的限制,扩展了数字类检索串转换的适用范围。
4、本发明提供的方法无需中间的求值过程,提高了汉语数字串与阿拉伯数字串之间相互转换的效率。
附图说明
图1为现有技术中先求值再转换方法的基本流程示意图;
图2为本实施例中汉语数字类检索串转换系统示意图;
图3为本实施例中汉语数字转阿拉伯数字的基本流程图;
图4为本实施例中阿拉伯数字转汉语数字的基本流程图。
具体实施方式
下面结合附图对本发明的具体实施方式做进一步的详细说明。
本发明提供一种基于串操作的数字类检索串的转换方法,该方法通过汉语数字串的语言现象进行规律概括,通过确定的规律提出本发明的方法,该方法可以不受输入原始数字串的长度的限制,即可以处理任意长度的输入数字串,且该算法可避免先求值后转换的中间值处理过程,提高转换的效率,从而提高检索串扩展的性能。
本发明的方法中提出,将每4位阿拉伯数字对应的汉语数字分为一段,每段由数字(少于“万”的数字)和后缀(“万”或“亿”相连形成的串)构成。例如:“三千四百五十六万亿”为一段,其中,“三千四百五十六”为段的数字部分,“万亿”为段的后缀。
段的切分方法是从数字右侧开始,每四位为一段。每段的数字部分对应阿拉伯数字的4位,按“个十百千”从右向左为每一位数字做后缀。
一种基于串操作的数字类检索串的转换方法,包括以下步骤:
步骤一、接收所述检索串;
步骤二、判断所述检索串串的类型;
步骤三、将汉语数字检索串转换为阿拉伯数字检索串;
步骤四、将阿拉伯数字检索串转换为汉语数字检索串;
步骤五、对转换后的数字串优化后输出。
步骤二中,所述检索串包括:汉语数字检索串、阿拉伯数字检索串、浮点数字检索串和只需进行字符转换的串。
步骤二中,根据不同的所述检索串的类型进行转换,若所述检索串为所述汉语数字检索串,进入所述步骤III,将所将汉语数字检索串转换为所述阿拉伯数字检索串;
若所述检索串为所述阿拉伯数字检索串,进入所述步骤IV,将所述阿拉伯数字检索串转换为所述汉语数字检索串;
若所述检索串为所述浮点数字检索串,将其分为前段和后段,分别按位转换;
若所述检索串为所述只需进行字符转换的串,对所述检索串的每一位数对应转换。
步骤三,包括以下步骤:
S301、按下式确定所述检索串的段的数量f,每个所述段包括数字和后缀;
其中,s为最左段的后缀,所述后缀包括“万”、“亿”、“万”“亿”结合的串(如“万亿”)等;l为s的字节长度,lc为s的汉字字符个数;
S302、从左至右依次读取所述汉语数字检索串,根据转换规则确定段的后缀;
S303、通过比较原数字串与所有段的后缀,确定所有段的数字和后缀,并构建每个所述段对应的阿拉伯数字串;所述段的最高位至多为千;
S304、根据转换规则进行转换,连接所有所述段所对应的阿拉伯形式的数字串,确定所述阿拉伯数类数字串;
S305、进入步骤V,对转换后的所述阿拉伯数类数字串优化后输出。
步骤S302中,确定后缀根据以下规律:
其中,strcat表示两个字符串的连接。
根据上述规律确定的所述转换规则,该规则包括:确定数字位的规则和确定后缀的规则。
所述确定数字的规则为:从左至右依次将读取,若所述段对应的汉语数字串为空串,则确定对应的阿拉伯数字串为“0000”;
若所述段对应的汉语数字串不为空串,则从左向右依次读取,读取到“千”、“百”和“十”,确定其左侧汉语数字对应的阿拉伯数字,没有则确定为“0”。
所述确定后缀的规则包括:
若所述段对应的汉语数字串段号为0,所述后缀为空;
若所述段对应的汉语数字串段号为1,所述后缀为“万”;
若所述段对应的汉语数字串段号为2,所述后缀为“亿”;
若所述段对应的汉语数字串段号为n,n≥2,所述后缀为段号为“(n-2)的后缀加亿”。
步骤S305中所述优化的方法包括:去掉所述阿拉伯数字串开头部分的“0”字符。
提供一实施例进一步说明,若该段对应的汉语数字串为空串,则其对应的阿拉伯数字串为“0000”;若不为空串,则从左向右扫描,有“千”的话就通过查表确定左侧数字对应的阿拉伯数字,没有就确定为“0”,其他“百”、“十”的处理类似,对取整数,如“三千、二百、十”的处理进入步骤五进行修正。
步骤四,包括以下步骤:
S401、确定所述阿拉伯数字串的长度,从右向左以每四位为一段切分所述阿拉伯数字串,按下式确定所述阿拉伯数字串的所述段的数量f:
f=q+(r>0?1:0)
其中,q=strlen(s)/4,r=strlen(s)%4,strlen(s)表示所述阿拉伯数字串s的长度;
S402、从右向左依次确定所述段的后缀;
S403、根据转换规则进行转换,从高位至低位依次连接所述段的数字和后缀,确定所述阿拉伯数字串对应的汉语数字串;
S404、进入步骤V,对转换后的所述汉语数字串优化后输出。
步骤S402中,根据下述规律确定段的后缀。
其中,strcat表示两个字符串的连接;n表示从右向左段的段号。
步骤S403中,转换规则包括:确定数字的规则和确定后缀的规则。
从右向左每四个连续数字位一段切分,根据转换规则确定所述汉语数字串对应的阿拉伯数字串。
所述确定数字的规则为:从左开始第一位数字转换为对应的汉语数字;第二位、第三位和第四位转换为对应的汉语数字分别对应加后缀“十”、“百”和“千”。
所述确定后缀的规则包括:
若所述段对应的汉语数字串段号为0,所述后缀为空;
若所述段对应的汉语数字串段号为1,所述后缀为“万”;
若所述段对应的汉语数字串段号为2,所述后缀为“亿”;
若所述段对应的汉语数字串段号为n,n≥2,所述后缀为段号为“(n-2)的后缀加亿”。
步骤S404中所述优化的方法包括:从左至右读取所述汉语数字串,所述汉语数字串中间连续的“零”保留一个,省去其他,所述汉语数字串的串尾的“零”省去。
提供一实施例进一步说明,如“13”这类只有两位且首位是“1”的直接将左侧的“1”转换为“十”,其他数字通常查表进行转换,并跟上其对应的位后缀(“千”、“百”、“十”),另外连续的“0”只保留一个进行转换,末尾的“0”不转换。
在上述转换的基础上,本发明还提供了一种扩展方法,该方法为以“A|B”的格式作为扩展结果,其中,A表示检索串,B表示转换后的检索串。例如:检索串为“123”,转换后的检索串应为“一百二十三”,则经过扩展后变为“123|一百二十三”,以便能够给出更多的检索结构,提高检索的召回率。
本发明还提供了一种基于串操作的数字类检索串的转换系统,如图2所示,图2为汉语数字类检索串转换系统示意图;该系统包括预处理模块、数据转换模块和后处理模块。
预处理模块用于接收所要转换的数字串,确定数字串的类型,判断需要选择哪类转换模块。
数字串类型包括:汉语数字串、阿拉伯数字串、浮点数字、只需进行字符转换的数字串等;只需进行字符转换的数字串包括:电话、手机号、年份等。
数据转换模块包括对应数字串的类型有多个转换模块,包括:A2C、C2A、S2S等,其中:
A2C为阿拉伯整数数字串到汉语整数的转换;
C2A为汉语整数串到阿拉伯数字串的转换;
S2S为按字符顺序转换-针对小数部分及无需进行复杂转换的数字如年份、手机号、座机号等。
年份的格式基本固定,如“2014.10.10”、“2014-10-10”、“2014/10/10”、“10/10/2014”等形式,判断数字形式是否符合上述固定格式,若符合则判断为年份。
手机号的格式也其位数、格式也基本固定,以中国为例,手机号为11位,前三位数字为“133”、“132”、“189”等格式,座机一般为“区号+座机号”等格式,判断数字是否符合上述格式,符合则判断为手机号或座机号。
对A2C和C2A进一步说明:
①、A2C为阿拉伯整数数字串到汉语整数的转换。包括以下步骤:
S1、确定所述阿拉伯数字串的长度,从右向左以每四位为一段切分所述阿拉伯数字串,按下式确定所述阿拉伯数字串的所述段的数量f:
f=q+(r>0?1:0)
其中,q=strlen(s)/4,r=strlen(s)%4,strlen(s)表示所述阿拉伯数字串s的长度;
S2、从右向左依次确定所述段的后缀;
S3、根据转换规则进行转换,从高位至低位依次连接所述段的数字和后缀,确定所述阿拉伯数字串对应的汉语数字串;
S4、进入步骤V,对转换后的所述汉语数字串优化后输出。
步骤S402中,根据下述规律确定段的后缀。
其中,strcat表示两个字符串的连接;n表示从右向左段的段号。
步骤S3中,转换规则包括:确定数字的规则和确定后缀的规则。
从右向左每四个连续数字位一段切分,根据转换规则确定所述汉语数字串对应的阿拉伯数字串。
所述确定数字的规则为:从左开始第一位数字转换为对应的汉语数字;第二位、第三位和第四位转换为对应的汉语数字分别对应加后缀“十”、“百”和“千”。
所述确定后缀的规则包括:
若所述段对应的汉语数字串段号为0,所述后缀为空;
若所述段对应的汉语数字串段号为1,所述后缀为“万”;
若所述段对应的汉语数字串段号为2,所述后缀为“亿”;
若所述段对应的汉语数字串段号为n,n≥2,所述后缀为段号为“(n-2)的后缀加亿”。
步骤S4中所述优化的方法包括:从左至右读取所述汉语数字串,所述汉语数字串中间连续的“零”保留一个,省去其他,所述汉语数字串的串尾的“零”省去。
提供一实施例进一步说明,如“13”这类只有两位且首位是“1”的直接将左侧的“1”转换为“十”,其他数字通常查表进行转换,并跟上其对应的位后缀(“千”、“百”、“十”),另外连续的“0”只保留一个进行转换,末尾的“0”不转换。
②、C2A为汉语整数串到阿拉伯数字串的转换。包括以下步骤:
S1、按下式确定所述检索串的段的数量f,每个所述段包括数字和后缀;
其中,s为最左段的后缀,所述后缀包括“万”、“亿”、“万”“亿”结合的串(如“万亿”)等;l为s的字节长度,lc为s的汉字字符个数;
S2、从左至右依次读取所述汉语数字检索串,根据转换规则确定段的后缀;
S3、通过比较原数字串与所有段的后缀,确定所有段的数字和后缀,并构建每个所述段对应的阿拉伯数字串;所述段的最高位至多为千;
S4、根据转换规则进行转换,连接所有所述段所对应的阿拉伯形式的数字串,确定所述阿拉伯数类数字串;
S5、进入步骤V,对转换后的所述阿拉伯数类数字串优化后输出。
步骤S2中,确定后缀根据以下规律:
其中,strcat表示两个字符串的连接。
根据上述规律确定的所述转换规则,该规则包括:确定数字位的规则和确定后缀的规则。
所述确定数字的规则为:从左至右依次将读取,若所述段对应的汉语数字串为空串,则确定对应的阿拉伯数字串为“0000”;
若所述段对应的汉语数字串不为空串,则从左向右依次读取,读取到“千”、“百”和“十”,确定其左侧汉语数字对应的阿拉伯数字,没有则确定为“0”。
所述确定后缀的规则包括:
若所述段对应的汉语数字串段号为0,所述后缀为空;
若所述段对应的汉语数字串段号为1,所述后缀为“万”;
若所述段对应的汉语数字串段号为2,所述后缀为“亿”;
若所述段对应的汉语数字串段号为n,n≥2,所述后缀为段号为“(n-2)的后缀加亿”。
步骤S5中所述优化的方法包括:去掉所述阿拉伯数字串开头部分的“0”字符。
提供一实施例进一步说明,若该段对应的汉语数字串为空串,则其对应的阿拉伯数字串为“0000”;若不为空串,则从左向右扫描,有“千”的话就通过查表确定左侧数字对应的阿拉伯数字,没有就确定为“0”,其他“百”、“十”的处理类似,对取整数,如“三千、二百、十”的处理进入步骤五进行修正。
后处理模块用于对转换后的数字串进行优化加工后输出,例如进行连接整数部分、小数点和小数部分等。
后处理模块还可进一步完成扩展功能,具体为,根据检索串和转换后的检索串,以“A|B”的格式作为扩展结果进行搜索。其中,A表示检索串,B表示转换后的检索串。
例如:检索串为“123”,转换后的检索串应为“一百二十三”,则经过扩展后变为“123|一百二十三”,以便能够给出更多的检索结构,提高检索的召回率。
最后应当说明的是:以上实施例仅用于说明本申请的技术方案而非对其保护范围的限制,尽管参照上述实施例对本申请进行了详细的说明,所属领域的普通技术人员应当理解:本领域技术人员阅读本申请后依然可对申请的具体实施方式进行种种变更、修改或者等同替换,但这些变更、修改或者等同替换,均在申请待批的权利要求保护范围之内。

Claims (10)

1.一种基于串操作的数字类检索串的转换方法,其特征在于:所述方法包括以下步骤:
I、接收所述检索串;
II、判断所述检索串的类型;
III、将汉语数字检索串转换为阿拉伯数字检索串;
IV、将阿拉伯数字检索串转换为汉语数字检索串;
V、对转换后的数字串优化后输出。
2.如权利要求1所述的方法,其特征在于:所述步骤II中,所述检索串包括:汉语数字检索串、阿拉伯数字检索串、浮点数字检索串和只需进行字符转换的串。
3.如权利要求2所述的方法,其特征在于:所述步骤II中,根据不同的所述检索串的类型进行转换,若所述检索串为所述汉语数字检索串,进入所述步骤III;
若所述检索串为所述阿拉伯数字检索串,进入所述步骤IV;
若所述检索串为所述浮点数字检索串,对每个数字按位转换;
若所述检索串为所述只需进行字符转换的串,对所述检索串的每一位数对应转换。
4.如权利要求1所述的方法,其特征在于:所述步骤III,包括以下步骤:
S301、按下式确定所述检索串的段的数量,每个所述段包括数字和后缀;所述段的最高位至多为千;
其中,s为最左段的后缀;lc为s的所述后缀的字符个数;
S302、从左至右依次读取所述汉语数字检索串,根据转换规则确定所述汉语数字检索串的每段的后缀;
S303、确定每个所述段对应的阿拉伯数字串;
S304、连接所有所述段所对应的阿拉伯数字串;
S305、进入步骤V,对转换后的所述阿拉伯数类数字串优化后输出。
5.如权利要求4所述的方法,其特征在于:所述步骤S305中所述优化的方法包括:去掉所述阿拉伯数字串开头部分的“0”字符。
6.如权利要求1所述的方法,其特征在于:所述步骤IV,包括以下步骤:
S401、确定所述阿拉伯数字检索串的长度,从右向左以每四位为一段切分所述阿拉伯数字检索串,按下式确定所述阿拉伯数字检索串的所述段的数量f:
f=q+(r>0?1:0)
其中,q=strlen(s)/4,r=strlen(s)%4,strlen(s)表示所述阿拉伯数字检索串s的长度;
S402、根据转换规则进行转换,确定所述阿拉伯数字检索串对应的汉语数字串,从高位至低位依次连接所述段的数字和后缀,确定所述阿拉伯数字串对应的汉语数字串;
S403、进入步骤V,对转换后的所述汉语数字串优化后输出。
7.如权利要求4或6所述的方法,其特征在于:所述步骤S305和所述步骤S403中所述规则包括:确定数字位的规则和确定后缀的规则。
8.如权利要求7所述的方法,其特征在于:所述确定数字的规则包括:
从左至右依次将读取汉语数字,若所述段对应的汉语数字串为空串,则确定对应的阿拉伯数字串为“0000”;若所述段对应的汉语数字串不为空串,则从左向右依次读取“千”、“百”和“十”左侧汉语数字对应的阿拉伯数字,没有则确定为“0”;
从右至左依次将读取阿拉伯数字,左边第一位数字转换为对应的汉语数字,第二位、第三位和第四位转换为对应的汉语数字分别对应加后缀“十”、“百”和“千”。
9.如权利要求7所述的方法,其特征在于:所述确定后缀的规则包括:
若所述段对应的汉语数字串段号为0,所述后缀为空;
若所述段对应的汉语数字串段号为1,所述后缀为“万”;
若所述段对应的汉语数字串段号为2,所述后缀为“亿”;
若所述段对应的汉语数字串段号为n,n≥2,所述后缀为段号为“(n-2)的后缀加亿”。
10.如权利要求6所述的方法,其特征在于:所述步骤S403中所述优化的方法包括:从左至右读取所述汉语数字串,所述汉语数字串中间连续的“零”保留一个,省去其他,所述汉语数字串的串尾的“零”省去。
CN201510063912.8A 2015-02-06 2015-02-06 一种基于串操作的数字类检索串的转换方法 Pending CN105989057A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510063912.8A CN105989057A (zh) 2015-02-06 2015-02-06 一种基于串操作的数字类检索串的转换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510063912.8A CN105989057A (zh) 2015-02-06 2015-02-06 一种基于串操作的数字类检索串的转换方法

Publications (1)

Publication Number Publication Date
CN105989057A true CN105989057A (zh) 2016-10-05

Family

ID=57037991

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510063912.8A Pending CN105989057A (zh) 2015-02-06 2015-02-06 一种基于串操作的数字类检索串的转换方法

Country Status (1)

Country Link
CN (1) CN105989057A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108536819A (zh) * 2018-04-08 2018-09-14 上海达梦数据库有限公司 整型列与字符串比较的方法、装置、服务器及存储介质
CN110119495A (zh) * 2018-02-05 2019-08-13 北大方正集团有限公司 数字字符串的转换方法、系统、计算机设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101196878A (zh) * 2006-12-07 2008-06-11 珠海金山软件股份有限公司 一种把数值转换成和语言相关的表达方式的装置和方法
CN101470724A (zh) * 2007-12-25 2009-07-01 英业达股份有限公司 字符转换系统及方法
CN101814073A (zh) * 2009-02-23 2010-08-25 未序网络科技(上海)有限公司 基于文字异形体信息的搜索引擎方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101196878A (zh) * 2006-12-07 2008-06-11 珠海金山软件股份有限公司 一种把数值转换成和语言相关的表达方式的装置和方法
CN101470724A (zh) * 2007-12-25 2009-07-01 英业达股份有限公司 字符转换系统及方法
CN101814073A (zh) * 2009-02-23 2010-08-25 未序网络科技(上海)有限公司 基于文字异形体信息的搜索引擎方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110119495A (zh) * 2018-02-05 2019-08-13 北大方正集团有限公司 数字字符串的转换方法、系统、计算机设备及介质
CN108536819A (zh) * 2018-04-08 2018-09-14 上海达梦数据库有限公司 整型列与字符串比较的方法、装置、服务器及存储介质
CN108536819B (zh) * 2018-04-08 2021-05-04 上海达梦数据库有限公司 整型列与字符串比较的方法、装置、服务器及存储介质

Similar Documents

Publication Publication Date Title
US8032495B2 (en) Index compression
US8943091B2 (en) System, method, and computer program product for performing a string search
CN109885576A (zh) 一种哈希表创建方法及系统、计算设备及存储介质
CN112131218B (zh) 一种基因对比的哈希查表方法、装置、设备及存储介质
CN102073740A (zh) 基于基数排序的字符串后缀数组构造方法
EP2804115B1 (en) Index scan device and index scan method
US20110295869A1 (en) Efficient string matching state machine
CN105335481A (zh) 一种大规模字符串文本的后缀索引构造方法及装置
CN105335456B (zh) 一种用于环境保护法规检索的关联优先排序方法
CN108509505A (zh) 一种基于分区双数组Trie的字符串检索方法及装置
CN101901257B (zh) 一种搜索引擎中的多字符串匹配方法
CN107463711A (zh) 一种数据的标签匹配方法及装置
CN107316062A (zh) 一种改进的面向领域的命名实体消歧方法
CN108628907A (zh) 一种用于基于Aho-Corasick的Trie树多关键词匹配的方法
CN105359142A (zh) 哈希连接方法、装置和数据库管理系统
CN110427404A (zh) 一种区块链跨链数据检索系统
CN105989057A (zh) 一种基于串操作的数字类检索串的转换方法
CN111339381A (zh) 一种字典序分区双数组的字符串批量查询方法及装置
CN106295252A (zh) 用于基因产品的检索方法
CN105447135A (zh) 数据查找方法和装置
CN101944086A (zh) 全字索引词典
CN105956203A (zh) 一种信息存储方法、信息查询方法、搜索引擎装置
CN102012897A (zh) 一种实现高命中率的逐词比对方法
CN115587162A (zh) 一种将专利检索表达式转换为搜索引擎查询语句的方法
WO2018182058A1 (ko) 관계형 데이터베이스의 조인 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20170427

Address after: 100086 Beijing, Haidian District, North Third Ring Road West, No. 43, building 5, floor 08-09, No. 2

Applicant after: BEIJING ZHONGSOU CLOUD BUSINESS NETWORK TECHNOLOGY CO., LTD.

Address before: Shou Heng Technology Building No. 51 Beijing 100191 Haidian District Xueyuan Road room 0902

Applicant before: Beijing Zhongsou Network Technology Co,Ltd

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20161005