CN103810279B - 一种混合字段的排序方法及装置 - Google Patents
一种混合字段的排序方法及装置 Download PDFInfo
- Publication number
- CN103810279B CN103810279B CN201410054656.1A CN201410054656A CN103810279B CN 103810279 B CN103810279 B CN 103810279B CN 201410054656 A CN201410054656 A CN 201410054656A CN 103810279 B CN103810279 B CN 103810279B
- Authority
- CN
- China
- Prior art keywords
- field
- chinese character
- unicode
- converted
- spelling
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 18
- 230000000052 comparative effect Effects 0.000 claims abstract description 6
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims 1
- 238000012163 sequencing technique Methods 0.000 abstract description 2
- 230000007704 transition Effects 0.000 abstract description 2
- 208000027418 Wounds and injury Diseases 0.000 description 2
- 230000006378 damage Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 208000014674 injury Diseases 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000739 chaotic effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
Abstract
本发明创造提供了一种混合字段的排序方法,其特征在于所述的排序方法包括如下步骤:将混合字段中的所有字符转换为Unicode编码值;将转换后的字段Unicode编码值进行比较排序,如果两个字段Unicode编码值完全相同,则比较其初始汉字字段中逐个汉字的Unicode编码值,并进行比较排序。本发明能够有效避免汉字与字母转换后的编码值相同,及同音字和多个汉字由于全拼字母相同转换的编码值出现错误造成的排序问题,减少排序错误,提高检索效率。
Description
技术领域
本发明创造涉及一种文字的排序方式,尤其是针对于智能终端或者车载多媒体系统中混合字段的排序方法。
背景技术
以车载导航,车载收音机为代表的车载多媒体系统迅速进入了智能时代。尤其是近年来与智能手机的互相交互,成为了智能车载系统必备的功能。随着手机电话本和蓝牙音频,USB音频文件等内容的交互量变大,单纯的中文显示已经不能满足智能设备的需求。像手机一样所有的信息能够按一定规则排序,能够快速检索,是必须要解决的一个问题。但是各种手机中各种信息的排序方法不尽相同,并且车载设备的造作方式与移动设备也不一样。现有车载娱乐系统中,有关中文的排序没有特别标准。有的按照数据传输的顺序排序,有的参照手机电话本的中文排序算法排序,即按照汉字的全拼,转换成对应的美国信息交换标准码(ASCII,AmericanStandardCodeFor InformationInterchange),所有汉字按所对应的ASCII数据按照从高位向底位顺序逐字节进行比较。以上的排序方法存在以下问题:
不同词组汉字全拼相同,如:词组“李楠li’nan”和“临安lin’an”全拼对应的ASCII码完全一致,导致二者无法区别。此外,英语,拼音和汉字混在的情况。如“张三”和“张san”,“北京”和“beijing”,汉字转换完全拼之后,两个字符串的ASCII码完全一致,导致二者无法区别。对于同音字“张”和“章”,中文全拼的字符串为“zhang”,因此会出现“张XX”和“章XX”混在一起的情况。以上情况会造成排序混乱,检索查找效率低下。
发明内容
本发明创造要解决的问题是提供一种能够有效克服上述缺陷的混合字段的排序方法及装置。
为解决上述技术问题,本发明创造采用的技术方案是:一种混合字段的排序方法,所述的排序方法包括如下步骤:
将混合字段中的所有字符转换为Unicode编码值;
将转换后的字段Unicode编码值进行比较排序,如果两个字段Unicode编码值完全相同,则
比较其初始汉字字段中逐个汉字的Unicode编码值,并进行比较排序。进一步的,所述的将混合字段中的所有字符转换为Unicode编码值包括如下步骤:
获取字段;
判断该字段中是否含有汉字,如果不包含汉字,则将其转换为Unicode编码,若含有汉字,则将汉字转换为该汉字字符的全拼,并在多个汉字字符小写全拼之间加标识符,并将转换后的全拼转换为相应的Unicode编码。
进一步的,所述添加的标识符为空格。
根据本发明的另一方面,还提供了一种用于混合字段的排序的装置,所述的用于混合字段的排序装置包括:
Unicode编码装置,用于将混合字段中的所有字符转换为Unicode编码值;
Unicode编码值比较装置,用于将字段Unicode编码值进行比较排序;
汉字Unicode编码值比较装置,用于将Unicode编码值完全相同的字段的汉字Unicode编码值进行比较;
排序装置,用于将根据上述装置比较的Unicode编码值按照比较排序。进一步的,所述的排序装置还包括:
全拼转换装置,用于将汉字转换为该汉字字符的全拼;
标识符添加装置,用于在多个汉字的全拼之间增加标识符。
本发明创造具有的优点和积极效果是:能够有效避免汉字与字母转换后的编码值相同,及同音字和多个汉字由于全拼字母相同转换的编码值出现错误造成的排序问题,减少排序错误,提高检索效率
附图说明
图1是本发明一个实例的处理流程示意图
图2是本发明的一个实例图表示意图
具体实施方式
为了对本发明创造更加深入的了解,下面列举一具体实施例,并结合附图,对本发明创造做进一步的详细说明。
一般排序可以通过十六进制数与一定范围内的字符一一对应,从而可以通过对十六进制数比较大小的方法进行排序。但是ASCII只适合于拉丁字符的比较,而GBCode只能与汉字字符转换,进而只适合比较汉字符。用Unicode的方法排序实际上是照顾了混合字符,实现了最大数据集化的统一排序。
图2为本发明一个实施例中多个不同的字段,下面结合图2的实例根据本发明所提供的方法对本发明做详细的解释和说明。
图2中的实例给出多个字短,按照本发明所提供的方法,首先依次检测所有的字段,检查字段中是否含有汉字,对于不含汉字的字段,如图2中所提供的表格中的1-5字段,对于此种不含汉字的字段,可以直接按照对应的Unicode编码值将其直接转换为相应的Unicode编码值,并按照比较后的Unicode编码值按照从小到大或者从大到小或其它方式进行排序;对于字段中包含汉字或者字段全部由汉字组成的字段,应将字段中的汉字先转换为相应的全拼字母,可以采用大写或小写,在本实例中采用小写字母的形式,如图2中序号6的字段01上海,先将其中的汉字“上海”转换为小写全拼“shanghai”并在两个汉字全拼之间添加一个空格“shanghai”这样操作的目的是区分出一些汉字因为拼音而产生转换的错误,如“西安”在拼音转换中可以为“xian”与汉字“先”的拼音完全相同。同理,在汉字全拼之间也可以其它标志符,如“&”等其它字符,而不仅仅局限与空格符。
由于汉字中存在在音同字不同的情况,如表中15及16中“上海”与“伤害”按照全拼转换结果都为“shanghai”,这样在排序中就会无法对这两个字段进行排序,对于这种情况,应在上述排序的基础上,重新查找“上海”及“伤害”汉字的Unicode编码值,并按照汉字的Unicode编码值对这两个字段排序,如果出现“上海”或者“上害”这两个字段,在第一个字符也相同的情况下,对第二个汉字的Unicode编码值进行比较排序,由此可以看出,对于部分汉字字段中某些汉字也完全相同的情况下,也应该逐个汉字Unicode编码值进行比较,直至能够比较排序。
在某些情况下,某些混合字段既包括汉字也有相应的拉丁字母,如图2中的相应附表中18与19行中的“张三”与“张san”按照上面所述的方法,“张三”先转换为“zhang空格san”,而“张san”则转为“zhangsan”,逐个字符比较,比较到字符“g”之后,Unicode(空格)<Unicode(s),因此,最终的排序是“张三”<“张san”,“张三”排在“张san”前面。
以上对本发明创造的实施例进行了详细说明,但所述内容仅为本发明创造的较佳实施例,不能被认为用于限定本发明的实施范围。凡依本发明创造范围所作的均等变化与改进等,均应仍归属于本专利涵盖范围之内。
Claims (3)
1.一种混合字段的排序方法,其特征在于所述的排序方法包括如下步骤:
将混合字段中的所有字符转换为Unicode 编码值;
将转换后的字段Unicode 编码值进行比较排序,如果两个字段Unicode编码值完全相同,则
比较其初始汉字字段中逐个汉字的Unicode 编码值,并进行比较排序;
所述的将混合字段中的所有字符转换为Unicode 编码值包括如下步骤:
获取字段;
判断该字段中是否含有汉字,如果不包含汉字,则将其转换为Unicode编码,若含有汉字,则将汉字转换为该汉字字符的全拼,并在多个汉字字符小写全拼中加标识符,并将转换后的全拼转换为相应的Unicode 编码。
2.根据权利要求1 所述的混合字段的排序方法,其特征在于:所述标识符为空格。
3.一种用于混合字段的排序的装置,其特征在于所述的用于混合字段的排序装置包括:
Unicode 编码装置,用于将混合字段中的所有字符转换为Unicode 编码值;包括获取字段;判断该字段中是否含有汉字,如果不包含汉字,则将其转换为Unicode编码,若含有汉字,则将汉字转换为该汉字字符的全拼,并在多个汉字字符小写全拼中加标识符,并将转换后的全拼转换为相应的Unicode 编码;
Unicode 编码值比较装置,用于将字段Unicode 编码值进行比较排序;
汉字Unicode 编码值比较装置,用于将Unicode 编码值完全相同的字段的汉字Unicode 编码值进行比较;
排序装置,用于将根据上述装置比较的Unicode 编码值按照比较排序;
所述的排序装置还包括:
字符提取装置,用于从字段中提取出字符;
全拼转换装置,用于将汉字转换为该汉字字符的全拼;
标识符添加装置,用于在多个汉字的全拼之间增加标识符。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410054656.1A CN103810279B (zh) | 2014-02-18 | 2014-02-18 | 一种混合字段的排序方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410054656.1A CN103810279B (zh) | 2014-02-18 | 2014-02-18 | 一种混合字段的排序方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103810279A CN103810279A (zh) | 2014-05-21 |
CN103810279B true CN103810279B (zh) | 2018-09-14 |
Family
ID=50707049
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410054656.1A Expired - Fee Related CN103810279B (zh) | 2014-02-18 | 2014-02-18 | 一种混合字段的排序方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103810279B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110287147B (zh) * | 2019-06-27 | 2022-08-19 | 北京奇艺世纪科技有限公司 | 一种字符串排序方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1728735A (zh) * | 2004-07-27 | 2006-02-01 | 夏新电子股份有限公司 | 手持设备的电话本的排序方法及查找方法 |
CN101796573A (zh) * | 2007-08-30 | 2010-08-04 | 日本电气株式会社 | 电子设备、字符序列的显示方法、多个字符序列的排序方法以及字符序列显示/排序程序 |
CN103514160A (zh) * | 2012-06-15 | 2014-01-15 | 华为终端有限公司 | 一种排序方法和移动设备 |
-
2014
- 2014-02-18 CN CN201410054656.1A patent/CN103810279B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1728735A (zh) * | 2004-07-27 | 2006-02-01 | 夏新电子股份有限公司 | 手持设备的电话本的排序方法及查找方法 |
CN101796573A (zh) * | 2007-08-30 | 2010-08-04 | 日本电气株式会社 | 电子设备、字符序列的显示方法、多个字符序列的排序方法以及字符序列显示/排序程序 |
CN103514160A (zh) * | 2012-06-15 | 2014-01-15 | 华为终端有限公司 | 一种排序方法和移动设备 |
Also Published As
Publication number | Publication date |
---|---|
CN103810279A (zh) | 2014-05-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107463666B (zh) | 一种基于文本内容的敏感词过滤方法 | |
CN102801859B (zh) | 垃圾短信的识别方法、装置和具有该装置的移动通信终端 | |
CN105630765A (zh) | 地名地址识别方法 | |
WO2006010163A2 (en) | User interface and database structure for chinese phrasal stroke and phonetic text input | |
CN103853703A (zh) | 一种信息处理方法及电子设备 | |
CN105760399A (zh) | 一种数据检索方法及设备 | |
CN101888427B (zh) | 拨号姓名匹配方法及终端 | |
CN106156120B (zh) | 对字符串进行分类的方法和装置 | |
WO2014190795A1 (en) | Method and device for searching for contact object, and storage medium | |
CN101459712A (zh) | 一种电话本排序方法和手机设备 | |
CN103488796A (zh) | 根据上下文输入的方法及移动终端 | |
CN103389976A (zh) | 用于终端的搜索方法及系统 | |
CN103902599B (zh) | 模糊查找的方法和装置 | |
CN102867049A (zh) | 一种基于单词查找树实现的汉语拼音快速分词方法 | |
CN110019649A (zh) | 一种建立、搜索索引树的方法及装置 | |
CN103810279B (zh) | 一种混合字段的排序方法及装置 | |
CN107679122B (zh) | 一种模糊搜索方法及终端 | |
WO2018041036A1 (zh) | 关键词的查找方法、装置及终端 | |
CN106446062A (zh) | 一种连续字符与模糊字符的检索系统及方法 | |
CN110069604B (zh) | 文本搜索方法、装置和计算机可读存储介质 | |
US20180011836A1 (en) | Tibetan Character Constituent Analysis Method, Tibetan Sorting Method And Corresponding Devices | |
CN108549679B (zh) | 用于url分析系统的文件扩展名快速匹配方法和装置 | |
CN104050156B (zh) | 用于提取最大名词短语的装置、方法以及电子设备 | |
CN103164484A (zh) | 目标点的名称的索引的建立方法及装置 | |
US8682644B1 (en) | Multi-language sorting index |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20180914 |
|
CF01 | Termination of patent right due to non-payment of annual fee |