CN105069171B - 汉字查询方法和系统 - Google Patents

汉字查询方法和系统 Download PDF

Info

Publication number
CN105069171B
CN105069171B CN201510549470.8A CN201510549470A CN105069171B CN 105069171 B CN105069171 B CN 105069171B CN 201510549470 A CN201510549470 A CN 201510549470A CN 105069171 B CN105069171 B CN 105069171B
Authority
CN
China
Prior art keywords
chinese character
information
radical
category information
query word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510549470.8A
Other languages
English (en)
Other versions
CN105069171A (zh
Inventor
刘联东
邵英杰
刘晓波
杨天行
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201510549470.8A priority Critical patent/CN105069171B/zh
Publication of CN105069171A publication Critical patent/CN105069171A/zh
Application granted granted Critical
Publication of CN105069171B publication Critical patent/CN105069171B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9038Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明提出一种汉字查询方法和系统,该汉字查询方法包括:获取查询词,所述查询词中包含待查询的汉字的结构类信息;将所述查询词转换为预设格式的请求,所述预设格式的请求中包含如下的三元组信息:汉字的字根信息、同一个字根的数量信息、汉字的字型结构信息;根据预先获取的汉字与汉字的结构类信息之间的对应关系,确定与所述预设格式的请求中包含的三元组信息对应的汉字;将确定的汉字作为查询结果展示给用户。该方法能够基于汉字的字根和字型结构完成汉字查询,提高查询结果的准确度和覆盖度,更好满足用户需求。

Description

汉字查询方法和系统
技术领域
本发明涉及信息搜索技术领域,尤其涉及一种汉字查询方法和系统。
背景技术
汉字的字型结构和字根组合是传统汉语学习和文字游戏中的重要参与元素。互联网搜索引擎出现后,文字输入方式是用户获取信息的主要方式,当用户遇到生僻字时用户可能根据字根和结构特征进行输入,比如“三个火念什么”,“两点水一个马念什么”,“口里一个女字猜一字”。另外,用户还会经常查询“五行属木的字”,“带有犬字的字有哪些”等。
现在技术中对这类查询依然采用的是通用的搜索方式,向用户提供的是自然搜索结果,但是,自然搜索结果不论在准确度以及覆盖度等方面都存在问题,难以很好满足用户需求。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种汉字查询方法,该方法可以基于汉字的字根和字型结构完成汉字查询,提高查询结果的准确度和覆盖度,更好满足用户需求。
本发明的另一个目的在于提出一种汉字查询系统。
为达到上述目的,本发明第一方面实施例提出的汉字查询方法,包括:获取查询词,所述查询词中包含待查询的汉字的结构类信息;将所述查询词转换为预设格式的请求,所述预设格式的请求中包含如下的三元组信息:汉字的字根信息、同一个字根的数量信息、汉字的字型结构信息;根据预先获取的汉字与汉字的结构类信息之间的对应关系,确定与所述预设格式的请求中包含的三元组信息对应的汉字;将确定的汉字作为查询结果展示给用户。
本发明第一方面实施例提出的汉字查询方法,通过将查询词转换为预设格式的请求,预设格式的请求中包含结构类的三元组信息,以及根据结构类信息与汉字的对应关系,可以基于汉字的字根和字型结构完成汉字查询,提高查询结果的准确度和覆盖度,更好满足用户需求。
为达到上述目的,本发明第二方面实施例提出的汉字查询系统,包括:获取模块,用于获取查询词,所述查询词中包含待查询的汉字的结构类信息;转换模块,用于将所述查询词转换为预设格式的请求,所述预设格式的请求中包含如下的三元组信息:汉字的字根信息、同一个字根的数量信息、汉字的字型结构信息;查询模块,用于根据预先获取的汉字与汉字的结构类信息之间的对应关系,确定与所述预设格式的请求中包含的三元组信息对应的汉字;展示模块,用于将确定的汉字作为查询结果展示给用户。
本发明第二方面实施例提出的汉字查询系统,通过将查询词转换为预设格式的请求,预设格式的请求中包含结构类的三元组信息,以及根据结构类信息与汉字的对应关系,可以基于汉字的字根和字型结构完成汉字查询,提高查询结果的准确度和覆盖度,更好满足用户需求。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明一实施例提出的汉字查询方法的流程示意图;
图2是本发明另一实施例提出的汉字查询方法的流程示意图;
图3是本发明另一实施例提出的汉字查询系统的结构示意图;
图4是本发明另一实施例提出的汉字查询系统的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
图1是本发明一实施例提出的汉字查询方法的流程示意图,该方法包括:
S11:获取查询词,所述查询词中包含待查询的汉字的结构类信息。
其中,用户可以以文本、语音或者图像等方式输入查询词(query)。
汉字的结构类信息例如待查询的汉字的字根、字型结构等信息,如查询词是:“三个火念什么”、“带有犬字的字有哪些”。
S12:将所述查询词转换为预设格式的请求,所述预设格式的请求中包含如下的三元组信息:汉字的字根信息、同一个字根的数量信息、汉字的字型结构信息。
例如,预设格式的请求具有如下格式:{{字根1、字根1的结构位置、字根1的数量}、{字根2、字根2的结构位置、字根2的数量}、…}。
当获取到查询词后,可以从查询词中提取字根和数量以及字型结构信息,再根据这些信息组成上述格式。
例如,查询词是“上X下Y(X和Y都是字根)”,则可以转换为:{{X、上、1}、{Y、下、1}}。
S13:根据预先获取的汉字与汉字的结构类信息之间的对应关系,确定与所述预设格式的请求中包含的三元组信息对应的汉字。
其中,汉字的结构类信息例如包括:汉字的字根和字型结构。
汉字与汉字的结构类信息之间的对应关系可以根据预先收集的样本汉字确定。例如,预先收集大量的汉字作为样本汉字,对应每个样本汉字进行拆分得到字根,并确定字型结构,之后可以建立该样本汉字与其字根、字型结构之间的对应关系,其余样本汉字也可以采用相同的方式建立相应的对应关系,从而多个样本汉字可以组成汉字与汉字的结构类信息之间的对应关系。
在获取该对应关系后,可以匹配三元组信息与对应关系中的结构类信息,从而确定出相应的汉字。例如,该对应关系中包括:汉字A对应汉字A的结构类信息(汉字A的字根和字型结构)、汉字B对应汉字B的结构类信息(汉字B的字根和字型结构)等,如果三元组信息与汉字A的结构类信息一致(或部分一致),则可以确定与该三元组信息对应的汉字是汉字A。
S14:将确定出的汉字作为查询结果展示给用户。
例如,将汉字A展示给用户。
另外,用户可能不知道汉字怎么读,因此还可能需要拼音,因此,在确定汉字后,还可以获取汉字的拼音,并在展示汉字的同时将汉字的拼音也作为查询结果一起展示。在获取汉字的拼音时,例如还可以建立汉字与拼音的对应关系,从而根据汉字获取相应的拼音。
例如,查询词是“三个火念什么”,返回的查询结果是“炎[yàn]”,可以理解的是,还可以返回其他信息,如字义。
本实施例中,通过将查询词转换为预设格式的请求,预设格式的请求中包含结构类的三元组信息,以及根据结构类信息与汉字的对应关系,可以基于汉字的字根和字型结构完成汉字查询,提高查询结果的准确度和覆盖度,更好满足用户需求。
图2是本发明另一实施例提出的汉字查询方法的流程示意图,该方法包括:
S21:收集样本汉字。
例如,可以收集大量的汉字作为样本汉字,以提高覆盖率。
S22:获取样本汉字的字根和字型结构。
其中,每个字根是可打印可输入的独立汉字。
在拆分时,可以将样本汉字按照每个基本单元直接拆分为每个字根。例如,“赢”拆分为“亡、口、月、贝、凡”。
如果基本单元不能作为独立汉字,则可以对基本单元进行同义替换,用同义的汉字作为字根。例如,“衷”字拆分为“亠、中、衣”,“衣”属于同义替换。
另外,同一个汉字可以采用不同的拆分方式,从而得到不同的字根。例如,“想”字,可以拆分为“相、心”,也可以拆分为“木、目、心”。相应地,在后续流程记录对应关系时,同一个汉字可以对应多种字根。
另外,还可以确定汉字的字型结构,字型结构例如包括:左右结构(包括左中右)、上下结构(包括上中下)、包围结构(包括半包围)、独立结构(包括嵌套结构)。
S23:将多个样本汉字与样本汉字的字根和字型结构之间的对应关系组成汉字与汉字的结构类信息之间的对应关系。之后,可以将该对应关系保存在特征库中。
其中,多个样本汉字与其结构类信息可以组成一个集合,该集合可以称为汉字与汉字的结构类信息之间的对应关系。
例如,特征库中对应汉字“攀”可以记录:{攀,木××木大手,上中下}。
S24:构建查询词模板。之后可以将查询词模板保存在模板库内。
查询词模板用于将查询词转换为预设格式的请求。
查询词模板例如包括:{{字根1、字根1的结构位置、字根1的数量}、{字根2、字根2的结构位置、字根2的数量}、…},从而可以将自然语言的查询词转换为查询词模板的格式。
例如,查询词是“上面两个木两个叉中间大下面手的字”,经过转换,可以转换为:{{大、上、2}、{×、上、2}、{大、中、1}、{手、下、1}}。
另外,如果查询词中一项或多项结构类信息没有明确指出,则在转换后,可以用通配符表示,例如,查询词是“心字底的字”,则可以转换为{心、下、?},其中,“?”表示通配符,之后在匹配时,可以匹配到任意数量。
另外,在字根转换时,可以根据查询词中的字根信息转换为多种形式的字根,例如,查询词中包含“人”的信息,则经过转换后的字根可以包括:“人”字部、单人旁“亻”、双人旁“彳”。
可以理解的是,查询词模板可以有多个,不同的查询词模板可以具有不同的格式,可以根据预设规则选择相应的查询词模板。
可以理解的是,S21-S24可以是在线下预先完成的。
S25:获取查询词,所述查询词中包含要查询的汉字的结构类信息。
例如,查询词是“上面两个木两个叉中间大下面手的字”。
S26:从模板库内获取查询词模板,将所述查询词转换为预设格式的请求,所述预设格式的请求中包含如下的三元组信息:汉字的字根信息、同一个字根的数量信息、汉字的字型结构信息。
例如,将上述的查询词转换为:{{大、上、2}、{×、上、2}、{大、中、1}、{手、下、1}}。
S27:从特征库内获取汉字与汉字的结构类信息之间的对应关系,根据该对应关系,确定与所述预设格式的请求中包含的三元组信息对应的汉字。
其中,可以分别将三元组信息与特征库中样本汉字的结构类信息进行匹配,得到匹配的汉字。
在匹配时,可以采用精确匹配或模糊匹配的方式。其中,精确匹配是指查询到的汉字的字型结构、字根以及字根数量与查询词的相应信息完全一致。模糊匹配是指查询到的汉字字型结构、字根以及字根数量与查询词中的相应信息可以完全一致,也可以部分一致另外部分不一致。
当确定出的汉字为多个时,还可以执行:
S28:根据确定出的汉字与三元组信息的匹配程度,对确定出的汉字进行打分,得到匹配分数,并根据匹配分数,对多个确定出的汉字进行排序。
例如,确定出的汉字包括汉字A、汉字B和汉字C,如果汉字A的字型结构、字根以及字根数量与查询词中的相应信息完全一致,汉字B的字型结构、字根以及字根数量与查询词中的相应信息大部分一致,汉字C的字型结构、字根以及字根数量与查询词中的相应信息小部分一致,则汉字A的分数大于汉字B的分数大于汉字C的分数。
S29:按序展示多个确定出的汉字。
例如,汉字A展示在最前面,其次是汉字B,汉字C排序在最后。
本实施例中,通过将查询词转换为预设格式的请求,预设格式的请求中包含结构类的三元组信息,以及根据结构类信息与汉字的对应关系,可以基于汉字的字根和字型结构完成汉字查询,提高查询结果的准确度和覆盖度,更好满足用户需求。通过在拆分字根时,用同义词替换或者拆分多种字根,以及,在转换字根时,同一个字根转换为多种形式,可以提高结果的召回率,提升用户体验。
图3是本发明另一实施例提出的汉字查询系统的结构示意图,该系统30包括:获取模块31、转换模块32、查询模块33和展示模块34。
获取模块31,用于获取查询词,所述查询词中包含待查询的汉字的结构类信息;
其中,用户可以以文本、语音或者图像等方式输入查询词(query)。相应的,获取模块31具体用于:获取用户以文本、语音或者图像形式输入的查询词。
汉字的结构类信息例如待查询的汉字的字根、字型结构等信息,如查询词是:“三个火念什么”、“带有犬字的字有哪些”。
转换模块32,用于将所述查询词转换为预设格式的请求,所述预设格式的请求中包含如下的三元组信息:汉字的字根信息、同一个字根的数量信息、汉字的字型结构信息;
例如,预设格式的请求具有如下格式:{{字根1、字根1的结构位置、字根1的数量}、{字根2、字根2的结构位置、字根2的数量}、…}。
当获取到查询词后,可以从查询词中提取字根和数量以及字型结构信息,再根据这些信息组成上述格式。
例如,查询词是“上X下Y(X和Y都是字根)”,则可以转换为:{{X、上、1}、{Y、下、1}}。
查询模块33,用于根据预先获取的汉字与汉字的结构类信息之间的对应关系,确定与所述预设格式的请求中包含的三元组信息对应的汉字;
其中,汉字的结构类信息例如包括:汉字的字根和字型结构。
汉字与汉字的结构类信息之间的对应关系可以根据预先收集的样本汉字确定。例如,预先收集大量的汉字作为样本汉字,对应每个样本汉字进行拆分得到字根,并确定字型结构,之后可以建立该样本汉字与其字根、字型结构之间的对应关系,其余样本汉字也可以采用相同的方式建立相应的对应关系,从而多个样本汉字可以组成汉字与汉字的结构类信息之间的对应关系。
在获取该对应关系后,可以匹配三元组信息与对应关系中的结构类信息,从而确定出相应的汉字。例如,该对应关系中包括:汉字A对应汉字A的结构类信息(汉字A的字根和字型结构)、汉字B对应汉字B的结构类信息(汉字B的字根和字型结构)等,如果三元组信息与汉字A的结构类信息一致(或部分一致),则可以确定与该三元组信息对应的汉字是汉字A。
展示模块34,用于将确定的汉字作为查询结果展示给用户。
例如,将汉字A展示给用户。
一些实施例中,所述查询模块33还用于:获取确定的汉字的其他信息;所述展示模块34还用于:将其他信息与所述确定的汉字一起作为查询结果展示给用户,其中,所述其他信息包括如下项中的一项或多项:拼音、字义。
例如,用户可能不知道汉字怎么读,因此还可能需要拼音,因此,在确定汉字后,还可以获取汉字的拼音,并在展示汉字的同时将汉字的拼音也作为查询结果一起展示。在获取汉字的拼音时,例如还可以建立汉字与拼音的对应关系,从而根据汉字获取相应的拼音。
例如,查询词是“三个火念什么”,返回的查询结果是“炎[yàn]”,可以理解的是,还可以返回其他信息,如字义。
本实施例中,通过将查询词转换为预设格式的请求,预设格式的请求中包含结构类的三元组信息,以及根据结构类信息与汉字的对应关系,可以基于汉字的字根和字型结构完成汉字查询,提高查询结果的准确度和覆盖度,更好满足用户需求。
图4是本发明另一实施例提出的汉字查询系统的结构示意图,该系统40包括:获取模块41、转换模块42、查询模块43和展示模块44。这四个模块的功能可以参见上一实施例。
进一步的,该系统还包括:排序模块45,用于根据确定出的汉字与三元组信息的匹配程度,对确定出的汉字进行打分,得到匹配分数;根据匹配分数,对多个确定出的汉字进行排序,以便按序展示多个确定出的汉字。
例如,确定出的汉字包括汉字A、汉字B和汉字C,如果汉字A的字型结构、字根以及字根数量与查询词中的相应信息完全一致,汉字B的字型结构、字根以及字根数量与查询词中的相应信息大部分一致,汉字C的字型结构、字根以及字根数量与查询词中的相应信息小部分一致,则汉字A的分数大于汉字B的分数大于汉字C的分数。之后,在展示时,汉字A展示在最前面,其次是汉字B,汉字C排序在最后。
一些实施例中,该系统还包括:预处理模块46,用于收集样本汉字;获取样本汉字的结构类信息,结构类信息包括:字根和字型结构;根据多个样本汉字与样本汉字的结构类信息之间的对应关系,组成所述汉字与汉字的结构类信息之间的对应关系。
例如,可以收集大量的汉字作为样本汉字,以提高覆盖率。
其中,每个字根是可打印可输入的独立汉字。
在拆分时,可以将样本汉字按照每个基本单元直接拆分为每个字根。例如,“赢”拆分为“亡、口、月、贝、凡”。
如果基本单元不能作为独立汉字,则可以对基本单元进行同义替换,用同义的汉字作为字根。例如,“衷”字拆分为“亠、中、衣”,“衣”属于同义替换。
另外,同一个汉字可以采用不同的拆分方式,从而得到不同的字根。例如,“想”字,可以拆分为“相、心”,也可以拆分为“木、目、心”。相应地,在后续流程记录对应关系时,同一个汉字可以对应多种字根。
另外,还可以确定汉字的字型结构,字型结构例如包括:左右结构(包括左中右)、上下结构(包括上中下)、包围结构(包括半包围)、独立结构(包括嵌套结构)。
其中,多个样本汉字与其结构类信息可以组成一个集合,该集合可以称为汉字与汉字的结构类信息之间的对应关系。
例如,特征库中对应汉字“攀”可以记录:{攀,木××木大手,上中下}。
本实施例中,通过将查询词转换为预设格式的请求,预设格式的请求中包含结构类的三元组信息,以及根据结构类信息与汉字的对应关系,可以基于汉字的字根和字型结构完成汉字查询,提高查询结果的准确度和覆盖度,更好满足用户需求。通过在拆分字根时,用同义词替换或者拆分多种字根,以及,在转换字根时,同一个字根转换为多种形式,可以提高结果的召回率,提升用户体验。
需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是指至少两个。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (13)

1.一种汉字查询方法,其特征在于,包括:
获取查询词,所述查询词中包含待查询的汉字的结构类信息,其中,所述待查询的汉字的结构类信息包括所述待查询汉字的字根和字根结构;
将所述查询词转换为预设格式的请求,所述预设格式的请求中包含如下的三元组信息:汉字的字根信息、同一个字根的数量信息、汉字的字型结构信息;
根据预先获取的汉字与汉字的结构类信息之间的对应关系,确定与所述预设格式的请求中包含的三元组信息对应的汉字;
将确定出的汉字作为查询结果展示给用户。
2.根据权利要求1所述的方法,其特征在于,还包括:
获取确定出的汉字的其他信息,并将其他信息与所述确定出的汉字一起作为查询结果展示给用户,其中,所述其他信息包括如下项中的一项或多项:拼音、字义。
3.根据权利要求1所述的方法,其特征在于,所述三元组信息中的字根信息包括一种或多种形式。
4.根据权利要求1所述的方法,其特征在于,当确定出的汉字为多个时,所述方法还包括:
根据确定出的汉字与三元组信息的匹配程度,对确定出的汉字进行打分,得到匹配分数,并根据匹配分数,对多个确定出的汉字进行排序,以便按序展示多个确定出的汉字。
5.根据权利要求1-4任一项所述的方法,其特征在于,还包括:
收集样本汉字;
获取样本汉字的结构类信息,结构类信息包括:字根和字型结构;
根据多个样本汉字与样本汉字的结构类信息之间的对应关系,组成所述汉字与汉字的结构类信息之间的对应关系。
6.根据权利要求5所述的方法,其特征在于,所述字根是可打印可输入的独立汉字。
7.根据权利要求5所述的方法,其特征在于,同一个样本汉字对应一种或多种字根。
8.根据权利要求1-4任一项所述的方法,其特征在于,所述获取查询词,包括:
获取用户以文本、语音或者图像形式输入的查询词。
9.一种汉字查询系统,其特征在于,包括:
获取模块,用于获取查询词,所述查询词中包含待查询的汉字的结构类信息,其中,所述待查询的汉字的结构类信息包括所述待查询汉字的字根和字根结构;
转换模块,用于将所述查询词转换为预设格式的请求,所述预设格式的请求中包含如下的三元组信息:汉字的字根信息、同一个字根的数量信息、汉字的字型结构信息;
查询模块,用于根据预先获取的汉字与汉字的结构类信息之间的对应关系,确定与所述预设格式的请求中包含的三元组信息对应的汉字;
展示模块,用于将确定的汉字作为查询结果展示给用户。
10.根据权利要求9所述的系统,其特征在于,
所述查询模块还用于:获取确定的汉字的其他信息;
所述展示模块还用于:将其他信息与所述确定的汉字一起作为查询结果展示给用户,其中,所述其他信息包括如下项中的一项或多项:拼音、字义。
11.根据权利要求9所述的系统,其特征在于,当确定出的汉字为多个时,所述系统还包括:
排序模块,用于根据确定出的汉字与三元组信息的匹配程度,对确定出的汉字进行打分,得到匹配分数;根据匹配分数,对多个确定出的汉字进行排序,以便按序展示多个确定出的汉字。
12.根据权利要求9-11任一项所述的系统,其特征在于,还包括:
预处理模块,用于收集样本汉字;获取样本汉字的结构类信息,结构类信息包括:字根和字型结构;根据多个样本汉字与样本汉字的结构类信息之间的对应关系,组成所述汉字与汉字的结构类信息之间的对应关系。
13.根据权利要求9-11任一项所述的系统,其特征在于,所述获取模块具体用于:
获取用户以文本、语音或者图像形式输入的查询词。
CN201510549470.8A 2015-08-31 2015-08-31 汉字查询方法和系统 Active CN105069171B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510549470.8A CN105069171B (zh) 2015-08-31 2015-08-31 汉字查询方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510549470.8A CN105069171B (zh) 2015-08-31 2015-08-31 汉字查询方法和系统

Publications (2)

Publication Number Publication Date
CN105069171A CN105069171A (zh) 2015-11-18
CN105069171B true CN105069171B (zh) 2018-07-13

Family

ID=54498540

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510549470.8A Active CN105069171B (zh) 2015-08-31 2015-08-31 汉字查询方法和系统

Country Status (1)

Country Link
CN (1) CN105069171B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107679055B (zh) * 2017-06-25 2021-04-27 平安科技(深圳)有限公司 信息检索方法、服务器及可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1719390A (zh) * 2005-07-18 2006-01-11 王宏源 利用汉字全信息通过全文检索获取生僻字的检字录入方法
CN101178654A (zh) * 2007-12-07 2008-05-14 无敌科技(西安)有限公司 罕用字的输入方法及其装置
CN101458571A (zh) * 2007-12-14 2009-06-17 创新科技有限公司 根据用户输入来确定汉字的方法及相应的输入设备
CN101470749A (zh) * 2007-12-29 2009-07-01 文小凡 基于计算机网络通过字根检索汉字的系统及方法
CN104537079A (zh) * 2014-12-31 2015-04-22 徐祖华 易通汉字字词新查法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8706747B2 (en) * 2000-07-06 2014-04-22 Google Inc. Systems and methods for searching using queries written in a different character-set and/or language from the target pages

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1719390A (zh) * 2005-07-18 2006-01-11 王宏源 利用汉字全信息通过全文检索获取生僻字的检字录入方法
CN101178654A (zh) * 2007-12-07 2008-05-14 无敌科技(西安)有限公司 罕用字的输入方法及其装置
CN101458571A (zh) * 2007-12-14 2009-06-17 创新科技有限公司 根据用户输入来确定汉字的方法及相应的输入设备
CN101470749A (zh) * 2007-12-29 2009-07-01 文小凡 基于计算机网络通过字根检索汉字的系统及方法
CN104537079A (zh) * 2014-12-31 2015-04-22 徐祖华 易通汉字字词新查法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"汉字属性系统CWAS";王岁花;《河南师范大学学报-自然科学版》;19990228;第27卷(第1期);第80-82页 *

Also Published As

Publication number Publication date
CN105069171A (zh) 2015-11-18

Similar Documents

Publication Publication Date Title
Damen et al. Scaling egocentric vision: The epic-kitchens dataset
Snodgrass et al. Naming times for the Snodgrass and Vanderwart pictures
CN107391906B (zh) 基于神经网络和图谱结构的健康饮食知识网络构建方法
Brentari et al. When does a system become phonological? Handshape production in gesturers, signers, and homesigners
CN103718212B (zh) 颜色确定装置、颜色确定系统和颜色确定方法
CN104809142A (zh) 商标查询系统和方法
JP5366173B2 (ja) 操作支援サーバ装置、操作支援方法およびコンピュータ・プログラム
JP6804763B2 (ja) 対話システム、対話装置及びそのためのコンピュータプログラム
CN110600123A (zh) 一种中医临床辅助诊断方法
US20130144875A1 (en) Set expansion processing device, set expansion processing method, program and non-transitory memory medium
JP2023552912A (ja) 小サンプル弱ラベル付け条件での医療イベント認識方法及びシステム
Kagirov et al. TheRuSLan: Database of Russian sign language
CN109522413B (zh) 一种导诊医学术语库的构建方法及装置
JPWO2018221119A1 (ja) 検索用資料情報記憶装置
Zhou Four new species of Phylloporia (Hymenochaetales, Basidiomycota) from tropical China with a key to Phylloporia species worldwide
CN110432864A (zh) 一种中医体质动态变化辨识方法及系统
JP5146629B2 (ja) 情報提供装置、情報提供方法、および、記憶媒体
CN106599297A (zh) 基于深度问答的提问型搜索词搜索方法及装置
CN105069171B (zh) 汉字查询方法和系统
CN105912631B (zh) 检索处理方法和装置
Zhao et al. Semantic segmentation to extract coronary arteries in invasive coronary angiograms
CN112434173B (zh) 搜索内容输出方法、装置、计算机设备及可读存储介质
CN112037888B (zh) 生理健康特征数据的监控方法、装置、设备及存储介质
CN112837765B (zh) 一种用于疾病诊断的自动编码方法及系统
JP4231570B2 (ja) 学習用データ処理装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant