CN1342942A - 中文姓名的计算机识别及检索方法 - Google Patents

中文姓名的计算机识别及检索方法 Download PDF

Info

Publication number
CN1342942A
CN1342942A CN 00124352 CN00124352A CN1342942A CN 1342942 A CN1342942 A CN 1342942A CN 00124352 CN00124352 CN 00124352 CN 00124352 A CN00124352 A CN 00124352A CN 1342942 A CN1342942 A CN 1342942A
Authority
CN
China
Prior art keywords
name
word
surname
high frequency
chinese
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 00124352
Other languages
English (en)
Other versions
CN1253815C (zh
Inventor
崔珊珊
雷鸣
刘建国
李彦宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN 00124352 priority Critical patent/CN1253815C/zh
Publication of CN1342942A publication Critical patent/CN1342942A/zh
Application granted granted Critical
Publication of CN1253815C publication Critical patent/CN1253815C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种中文姓名的计算机识别及检索方法,包括用于计算机检索的数据源,该方法的步骤包括从所述的数据源中随机选取学习数据源,根据姓名识别规则库的内容对分析的数据源进行姓名识别,再创建索引,提供检索结果。姓名识别规则库包括姓氏配置文件、电子版高频词词典和姓氏前、后的高频单字文件。本发明能够有效地从被检索对象中快捷地识别中文姓名,获得较高的识别准确性,而且能够通过相关度的调整、排序,获得更准确的高质量检索结果。

Description

中文姓名的计算机识别及检索方法
本发明涉及一种中文姓名的计算机识别及检索方法。
随着计算机技术的普及、网络应用的延伸,人们的日常工作和生活对于信息资源的利用越来越离不开计算机检索。而无论是对各类信息中心的资料查询,还是对数据仓库、网络、数字图书馆等各种电子化信息资料源进行相关信息资料检索,以姓名为途径或目的的检索都占有很大的比重。例如,根据对网络用户检索日志的统计,大约5%的检索属于姓名搜索。但是,现有的检索方法都不能很好地支持对中文姓名的检索。实际中常常遇到的情况是:当输入“刘建”期望查找一位名叫“刘建”的先生时,得到的却是有关“刘建国”、“刘建军”等人的资料。
这是因为目前的中文姓名检索大都采用英文搜索引擎的核心技术,没有根据中文语言的特点进行相应处理。中文与英文相比有很多不同的特点。其中最大的特点是英文有天然的分割符(空格或符号)将语言中的最小语义单位词汇间隔开来,使得计算机可以轻易识别;而中文是连续书写,没有这种天然的分割符。人名是一种非常重要的特殊词汇,只有在中文语句中识别出人名,才能正确理解与人有关的信息,从而进行正确的检索等操作。
传统的中文姓名识别是通过以下两种技术实现:
1、中文双字识别法:这种方法直接将连续的包含N个汉字的中文句子机械的切分为N-1个双字,形成N-1个“词汇”。例如:“刘建国教授”=“刘建”+“建国”+“国教”+“教授”
在使用这种技术的系统中,当你检索“刘建”时,上述的这段文字便会被错误地检出。
2、中文切词识别法:这种方法采用一个配置好的电子版中文词典,通过将待分析的文字和词典进行一定形式的匹配,辅以其它技术(如词频统计、语法处理)实现对中文的分析处理。这种技术主要依赖分析使用的词典。一个大而全的词典会大大提高实现分词的准确率。但是这种技术不能够对人名进行有效的处理,因为中文人名千差万别,不可能都配置到词典中。对于没有配置在词典中的名字,词汇切分的准确率非常低。仍以上面的例句为例,如果一个词典中加入了“刘建国”这个词汇,检索“刘建国教授”时,分词结果应为:
“刘建国教授”=“刘建国”+“教授”
如果没有配置这个词汇,而“建国”和“教授”被配成了词汇,则分词结果为:
“刘建国教授”=“刘”+“建国”+“教授”
因此当检索“刘建”时,不会检出这段文字;但是当不期望检索“建国”时,这个结果又会反馈出来。
计算机检索系统处理的对象往往是数量非常大的信息,例如搜索引擎处理的对象是数以千万计或亿计的网页信息。用户使用搜索引擎时,往往不是检索不到结果,而是检索得到的结果特别多,但与用户检索最相关的网页却没有被排在前面。这就是搜索引擎的相关度问题。在检索人名时,使用中并不是完全不能容忍上例中的相关度较低的检索结果,但是如果有更相关的文档时,它应能排在最前面。例如,检索“刘建”时,应该能够把有关“刘建”先生的文档放在最前面,而把有关“刘建国”先生的文档放在较后面的位置。显然,当一个检索不能够有效地识别中文姓名时,它也无法通过相关度的调整来达到用户期望的中文姓名检索效果,从而降低了检索的准确性。
本发明的主要目的在于针对现有技术之不足而提供一种中文姓名的计算机识别及检索方法,它能够有效地从被检索对象中识别中文姓名,获得较高的识别准确性。
本发明的再一目的在于提供一种中文姓名的计算机识别及检索方法,它能够快捷地识别出文件中的中文姓名。
本发明的又一目的在于提供一种中文姓名的计算机识别及检索方法,它不仅能够有效地识别中文姓名,而且能够通过相关度的调整、排序,获得更准确的高质量检索结果。
本发明的目的是这样实现的:
一种中文姓名的计算机识别及检索方法,包括用于计算机检索的数据源,该方法的步骤包括从所述的数据源中随机选取学习数据源,根据姓名识别规则库的内容对分析的数据源进行姓名识别,再创建索引,提供检索结果。
所述的姓名识别规则库包括姓氏配置文件、电子版高频词词典和姓氏前、后的高频单字文件。
所述的学习数据源为从计算机检索的数据源中针对所检索领域随机选取的一定数量的相关数据源。
所述的姓氏配置文件中的姓氏分为纯姓氏和混姓氏文件。
所述的纯姓氏包括单字姓氏和多字姓氏。
所述的混姓氏包括单字姓氏和多字姓氏。
所述的电子版高频词词典是先利用电子版中文词典对学习数据源进行分析、统计,再按照统计的结果,对词典中的词汇出现的频率从高到低排序,高于预定阈值的词汇认为是高频词汇,若干高频词汇组成高频词词典。
所述的姓名前、后的高频单字文件为从学习数据源中选取适当的部分进行姓氏前、后高频单字统计,再按照统计的结果,对单字出现的频率从高到低排序,高于预定阈值的设定为姓氏前、后的高频单字,若干高频单字组成高频单字文件。
所述的姓名识别包括如下步骤:
a、首先,在一段连续的中文之中查找出姓氏字;
b、在纯姓氏配置文件中查找、判别该姓氏字是否为纯姓氏;是,则定其为姓氏字;
c、在纯姓氏配置文件中查找、判别该姓氏字是否为纯姓氏字;不是,则判断该字的前一个字是否为高频字,是,则该字为混姓氏字;不是,则回到a;
d、如果是姓氏字,在高频单字文件中查找、判别该姓氏字之后第2个字是否为高频字;如果是高频字,则该高频字前面第一个字为跟随该姓氏字后的单字名;否则;
e、判别该姓氏后第3个字是否为高频字,如果是高频字,则该高频字前面两个字为跟随该姓氏字后的双字名;否则;
f、在高频词词典中查找、判别该姓氏字后第1个字之后的两个字是否为高频词;如果是高频词,则该高频词前面第一个字为跟随该姓氏字后的单字名;
g、否则,该姓氏字后的两个字为跟随该姓氏字后的双字名。
所述的姓名识别步骤还包括在上述a、b步骤之间,直接在姓名词典中查找、判断是否为姓名词典中已有的姓名,如果是,则识别出姓名;如果不是,则进行第b步骤。
所述的姓名词典包括常用的高频两字姓名词典和两字以上姓名词典。
所述的姓名词典是从检索学习数据源进行臻选、过滤,获得姓名词汇,高于预定阈值的姓名词汇为高频姓名,而组成的高频姓名的集合。
在所述的姓名识别步骤后、创建索引前,可对识别出的姓名进行权值调整。
所述的权值调整步骤为:对于每个识别出的姓名在文件中的权值乘以一个系数,将姓名的权值扩大为原有权值的若干倍;对于三字姓名或三个以上字姓名中的汉字进行两两匹配拆分为双字,将这些双字在数据来源中的权值除以一个系数,将其权值减小为现有姓名权值的若干倍。
本发明完全不同于现有技术中的中文姓名的计算机识别及检索方法,它在充分分析中文语言的表达特点和中文姓名使用规律的基础上,提供了独特的中文姓名识别技术,不仅能够有效地检索出中文姓名,而且配合通过权值升降处理技术提高了中文姓名检索的质量。本发明适用于各种计算机环境的中文处理领域(如信息检索、数字图书馆、数据挖掘、数据仓库等),具有较强的普及适应性,而尤其在中文搜索引擎中,其效果更为明显。
再有,本发明方法通用于任何汉字编码集上,如GB2312、GBK、BIG5。
下面结合附图和具体实施方案对本发明做进一步的详细说明。
图1为本发明一种实施例检索系统构成示意图;
图2为本发明检索方法流程图;
图3为本发明利用了高频姓名字典的检索流程图;
图4为本发明姓名权值处理流程图。
检索的开始就对一定数量的待分析数据的统计学习,提取出待分析数据的特征。根据这种特征,加之以相应算法的配合,实现对待分析数据的高质量的分析处理。参见图1,本发明为一种中文姓名的计算机识别及检索方法,包括一用于计算机检索的数据源,该方法的步骤包括从数据源中随机配置的学习数据源,即该学习数据源为从计算机检索的数据源中针对所检索领域随机选取的一定数量的相关数据源。例如,搜索引擎通过机器人程序从WWW获得大量的网页,从中随机选取一定数量的网页作为学习数据来源。它主要完成对待分析数据的抽样学习统计和调整,获得其中的数据分布规则,如姓氏识别规则库,它包括纯姓氏文件、混姓氏文件、姓名前高频单字、姓名后高频单字、高频词词典、高频姓名字典等;然后根据这些相应的统计数据信息,分析步骤是根据相应的姓名识别方法以及检索权值调整方法,对待分析的文件进行分析,再创建索引,为用户提供检索服务。
本发明中的姓氏配置文件中的姓氏分为纯姓氏和混姓氏文件。纯姓氏包括单字姓氏和多字姓氏。例如根据中国百家姓参考文献,获得所有姓氏,配置成姓氏文件。根据姓氏的特点分为两大类:纯姓氏和混姓氏。纯姓氏:该类中文汉字在正文中一般出现时都表示姓氏,如“郭”、“冯”等。混姓氏:该类中文汉字除了作为姓氏出现外,还表示为其他意义,如“张”、“王”等。将这两类姓氏分别配置为相应的纯姓氏配置文件和混姓氏配置文件。而对于复姓的两个字可看作一个位置对待,其识别过程等与单字姓氏一样。
获得一个中文词典的电子版,如《中华大词典》。对选取的学习数据来源进行分析、统计、排序;统计词典中词汇在数据来源中出现的频率。按照词典中的词汇出现的次数从高到低排序,高于预定阈值的词汇认为是高频词汇,若干高频词汇组成的高频词的集合。
而姓名前、后的高频单字文件是从学习数据来源中,选取适当的数据来源数量进行姓名前、后高频单字的统计和排序;按照统计的结果,对单字出现的次数从高到低排序,高于预定阈值的设定为姓名前、后的高频单字,若干高频单字组成高频单字文件。
有了上述的学习数据源、姓氏配置文件、电子版高频词词典和姓名前、后的高频单字文件后,本发明的姓名识别具体步骤如下:
110:首先,在一段连续的中文之中查找出的姓氏字;
120:依据纯姓氏配置文件的比较,判别该姓氏字是否为纯姓氏;是则定为姓氏;
130:依据纯姓氏配置文件的比较,判别该姓氏字不是纯姓氏,则判断该字的前一个字是否为高频字,是,则该字为混姓氏,再执行下一步140;不是则回到110;
140:如果是姓氏,则依据高频单字文件比较、判别该姓氏后第2个字是否为高频字;如果是高频字,则该高频字前面第一个字为跟随该姓氏后的单字名,从而完成一个单字名的识别;否则执行下一步150;
150:判别该姓氏后第3个字是否为高频字,如果是高频字,则该高频字前面两个字为跟随该姓氏后的双字名,完成一个双字名的识别;否则执行下一步160;
160:依据高频词词典比较、判别该姓氏后第1个字之后的两个字是否为高频词;如果是高频词,则该高频词前面第一个字为跟随该姓氏后的单字名,完成姓氏之后的一个单字名的识别;否则执行下一步170;
170:直接判定该姓氏字后的两个字为跟随该姓氏字后的双字名,完成姓氏之后的双字名识别。
通过执行以上步骤,准确、有效地完成了中文姓名的识别。
在应用中,利用上述姓名识别步骤,可获得高频姓名词典。也就是利用分析已经选好的学习素材库,获得姓名词汇,高于预定阈值的姓名词汇认为是高频姓名。对于已经选出的姓名,再经过过滤。根据原文中姓名的出现情况,将高频姓名中不合适的字符串删除,最终获得高频姓名词典。姓名词典包括常用的高频两字或多字姓名词典。
因此可如图3所示,在识别姓名时,可先执行第112步,即直接判定从该姓氏开始的连续两个或多个汉字是否是一个两字或多字姓名的步骤。它直接依据姓名配置文件比较、判断是否为姓名词典中已有的姓名,如果是,则识别出姓名;如果不是,则进行判断第一个字是否为纯姓氏,然后再进行以下步骤。该方法是无姓名词典的姓名识别方法的改进步骤,用于进一步提高姓名识别的准确率和效率。
进一步地,当使用上述方法能够准确地检索出姓名,而识别出的姓名需要反应到用户的检索结果中,就有了检索排序的问题,即需要对姓名识别结果进行相应的权值调整。也就是在计算机检索中,一个词汇在一文件中的权值决定了文件在检索这个词汇时的排列次序。参见图4,对于识别出的姓名,本发明用一定的升权方法,使得用户在检索这些姓名时,能够很容易地获得识别出这些姓名的文件。升权的办法如下:
对于每个识别出的姓名,把该姓名在文件中的权值乘以一个系数,即将姓名的权值扩大为原有权值的若干倍。由于该姓名具有较高的权值,在检索该姓名时,包含该姓名的文档在排序时便能处于前位,从而提高了检索结果的相关度。
而对于三字姓名或三个以上字的姓名中的汉字需要进行两两顺序匹配拆分为双字,做降低权值处理,即将这些双字在数据来源中的权值除以一个系数,或减小为现有姓名权值的若干倍。例如“刘建国”拆分为“刘建”、“建国”,需要对“刘建”、“建国”做降低权值处理,以保证检索“刘建”时,包含“刘建国”的文档能被排在后面,从而提高检索结果的相关度。

Claims (14)

1、一种中文姓名的计算机识别及检索方法,包括用于计算机检索的数据源,其特征在于:该方法的步骤包括从所述的数据源中随机选取学习数据源,根据姓名识别规则库的内容对分析的数据源进行姓名识别,再创建索引,提供检索结果。
2、根据权利要求1所述的中文姓名的计算机识别及检索方法,其特征在于:所述的姓名识别规则库包括姓氏配置文件、电子版高频词词典和姓氏前、后的高频单字文件。
3、根据权利要求1所述的中文姓名的计算机识别及检索方法,其特征在于:所述的学习数据源为从计算机检索的数据源中针对所检索领域随机选取的一定数量的相关数据源。
4、根据权利要求2所述的中文姓名的计算机识别及检索方法,其特征在于:所述的姓氏配置文件中的姓氏分为纯姓氏和混姓氏文件。
5、根据权利要求4所述的中文姓名的计算机识别及检索方法,其特征在于:所述的纯姓氏包括单字姓氏和多字姓氏。
6、根据权利要求4所述的中文姓名的计算机识别及检索方法,其特征在于:所述的混姓氏包括单字姓氏和多字姓氏。
7、根据权利要求2所述的中文姓名的计算机识别及检索方法,其特征在于:所述的电子版高频词词典是先利用电子版中文词典对学习数据源进行分析、统计,再按照统计的结果,对词典中的词汇出现的频率从高到低排序,高于预定阈值的词汇认为是高频词汇,若干高频词汇组成高频词词典。
8、根据权利要求2所述的中文姓名的计算机识别及检索方法,其特征在于:所述的姓名前、后的高频单字文件为从学习数据源中选取适当的部分进行姓氏前、后高频单字统计,再按照统计的结果,对单字出现的频率从高到低排序,高于预定阈值的设定为姓氏前、后的高频单字,若干高频单字组成高频单字文件。
9、根据权利要求1所述的中文姓名的计算机识别及检索方法,其特征在于:所述的姓名识别包括如下步骤:
a、首先,在一段连续的中文之中查找出姓氏字;
b、在纯姓氏配置文件中查找、判别该姓氏字是否为纯姓氏;是,则定其为姓氏字;
c、在纯姓氏配置文件中查找、判别该姓氏字是否为纯姓氏字;不是,则判断该字的前一个字是否为高频字,是,则该字为混姓氏字;不是,则回到a;
d、如果是姓氏字,在高频单字文件中查找、判别该姓氏字之后第2个字是否为高频字;如果是高频字,则该高频字前面第一个字为跟随该姓氏字后的单字名;否则;
e、判别该姓氏后第3个字是否为高频字,如果是高频字,则该高频字前面两个字为跟随该姓氏字后的双字名;否则;
f、在高频词词典中查找、判别该姓氏字后第1个字之后的两个字是否为高频词;如果是高频词,则该高频词前面第一个字为跟随该姓氏字后的单字名;
g、否则,该姓氏字后的两个字为跟随该姓氏字后的双字名。
10、根据权利要求9所述的中文姓名的计算机识别及检索方法,其特征在于:所述的姓名识别步骤还包括在上述a、b步骤之间,直接在姓名词典中查找、判断是否为姓名词典中已有的姓名,如果是,则识别出姓名;如果不是,则进行第b步骤。
11、根据权利要求10所述的中文姓名的计算机识别及检索方法,其特征在于:所述的姓名词典包括常用的高频两字姓名词典和两字以上姓名词典。
12、根据权利要求11所述的中文姓名的计算机识别及检索方法,其特征在于:所述的姓名词典是从检索学习数据源进行臻选、过滤,获得姓名词汇,高于预定阈值的姓名词汇为高频姓名,而组成的高频姓名的集合。
13、根据权利要求1所述的中文姓名的计算机识别及检索方法,其特征在于:在所述的姓名识别步骤后、创建索引前,可对识别出的姓名进行权值调整。
14、根据权利要求13所述的中文姓名的计算机识别及检索方法,其特征在于:所述的权值调整步骤为:对于每个识别出的姓名在文件中的权值乘以一个系数,将姓名的权值扩大为原有权值的若干倍;对于三字姓名或三个以上字姓名中的汉字进行两两匹配拆分为双字,将这些双字在数据来源中的权值除以一个系数,将其权值减小为现有姓名权值的若干倍。
CN 00124352 2000-09-08 2000-09-08 计算机在中文数据中识别中文姓名的方法 Expired - Fee Related CN1253815C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 00124352 CN1253815C (zh) 2000-09-08 2000-09-08 计算机在中文数据中识别中文姓名的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 00124352 CN1253815C (zh) 2000-09-08 2000-09-08 计算机在中文数据中识别中文姓名的方法

Publications (2)

Publication Number Publication Date
CN1342942A true CN1342942A (zh) 2002-04-03
CN1253815C CN1253815C (zh) 2006-04-26

Family

ID=4590363

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 00124352 Expired - Fee Related CN1253815C (zh) 2000-09-08 2000-09-08 计算机在中文数据中识别中文姓名的方法

Country Status (1)

Country Link
CN (1) CN1253815C (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894158A (zh) * 2010-07-21 2010-11-24 同方知网(北京)技术有限公司 一种智能检索系统
CN101963965B (zh) * 2009-07-23 2013-03-20 阿里巴巴集团控股有限公司 基于搜索引擎的文档索引方法、数据查询方法及服务器
CN1623146B (zh) * 2001-12-21 2014-04-02 汤姆森路透社全球资源公司 用于超链接名称的系统、方法和软件版权标记和许可
CN104424332A (zh) * 2013-09-11 2015-03-18 富士通株式会社 无歧义日本人名列表构建方法、人名识别方法及装置
CN103136190B (zh) * 2007-12-06 2015-10-28 谷歌公司 Cjk姓名检测
CN106156316A (zh) * 2016-07-04 2016-11-23 长江大学 一种大数据环境下的特殊人名与籍贯关联方法及系统
CN106354713A (zh) * 2016-08-29 2017-01-25 达而观信息科技(上海)有限公司 自动识别中文姓名的方法
CN107480253A (zh) * 2017-08-14 2017-12-15 浪潮软件集团有限公司 一种检索方法和装置
CN108091325A (zh) * 2017-12-27 2018-05-29 深圳市三宝创新智能有限公司 一种基于姓氏的语音识别系统及方法
CN108664973A (zh) * 2018-03-28 2018-10-16 北京捷通华声科技股份有限公司 文本处理方法和装置
CN109147767A (zh) * 2018-08-16 2019-01-04 平安科技(深圳)有限公司 语音中的数字识别方法、装置、计算机设备及存储介质
CN112148831A (zh) * 2020-11-26 2020-12-29 广州华多网络科技有限公司 图文混合检索方法、装置、存储介质、计算机设备
CN115935985A (zh) * 2022-06-08 2023-04-07 北京有限元科技有限公司 中文姓名的识别方法、装置、电子设备及存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101692682A (zh) * 2009-09-22 2010-04-07 中兴通讯股份有限公司 短消息内容中数字的处理方法及移动终端

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1623146B (zh) * 2001-12-21 2014-04-02 汤姆森路透社全球资源公司 用于超链接名称的系统、方法和软件版权标记和许可
CN103136190B (zh) * 2007-12-06 2015-10-28 谷歌公司 Cjk姓名检测
CN101963965B (zh) * 2009-07-23 2013-03-20 阿里巴巴集团控股有限公司 基于搜索引擎的文档索引方法、数据查询方法及服务器
CN101894158A (zh) * 2010-07-21 2010-11-24 同方知网(北京)技术有限公司 一种智能检索系统
CN101894158B (zh) * 2010-07-21 2013-01-09 同方知网(北京)技术有限公司 一种智能检索系统
CN104424332A (zh) * 2013-09-11 2015-03-18 富士通株式会社 无歧义日本人名列表构建方法、人名识别方法及装置
CN106156316A (zh) * 2016-07-04 2016-11-23 长江大学 一种大数据环境下的特殊人名与籍贯关联方法及系统
CN106354713A (zh) * 2016-08-29 2017-01-25 达而观信息科技(上海)有限公司 自动识别中文姓名的方法
CN107480253A (zh) * 2017-08-14 2017-12-15 浪潮软件集团有限公司 一种检索方法和装置
CN108091325A (zh) * 2017-12-27 2018-05-29 深圳市三宝创新智能有限公司 一种基于姓氏的语音识别系统及方法
CN108664973A (zh) * 2018-03-28 2018-10-16 北京捷通华声科技股份有限公司 文本处理方法和装置
CN109147767A (zh) * 2018-08-16 2019-01-04 平安科技(深圳)有限公司 语音中的数字识别方法、装置、计算机设备及存储介质
CN112148831A (zh) * 2020-11-26 2020-12-29 广州华多网络科技有限公司 图文混合检索方法、装置、存储介质、计算机设备
CN112148831B (zh) * 2020-11-26 2021-03-19 广州华多网络科技有限公司 图文混合检索方法、装置、存储介质、计算机设备
CN115935985A (zh) * 2022-06-08 2023-04-07 北京有限元科技有限公司 中文姓名的识别方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN1253815C (zh) 2006-04-26

Similar Documents

Publication Publication Date Title
CN1240011C (zh) 应用于操作系统的文件分类管理系统及方法
CN1253815C (zh) 计算机在中文数据中识别中文姓名的方法
CN102915299B (zh) 一种分词方法及装置
US6826576B2 (en) Very-large-scale automatic categorizer for web content
US7424421B2 (en) Word collection method and system for use in word-breaking
CN100337227C (zh) 为移动通信装置的文档内容做摘要的方法和装置
CN1290036C (zh) 根据机器可读词典建立概念知识的计算机系统及方法
CN101079031A (zh) 一种网页主题提取系统和方法
CN110909016B (zh) 基于数据库的重复关联检测方法、装置、设备及存储介质
CN1702651A (zh) 特定类型信息文件的识别方法和装置
CN1871605A (zh) 问答式文献检索系统和方法
CN1193779A (zh) 中文语句分词方法及其在中文查错系统中的应用
CN106909669B (zh) 一种推广信息的检测方法及装置
CN1158460A (zh) 一种跨语种语料自动分类与检索方法
CN101079025A (zh) 一种文档相关度计算系统和方法
CN1783069A (zh) 用于文件数据分析的方法及系统
WO2012159558A1 (zh) 基于语意识别的自然语言处理方法、装置和系统
CN101751434A (zh) 一种元搜索引擎的排名方法及元搜索引擎
CN1629837A (zh) 电子文档的处理、浏览及分类查询的方法、装置及其系统
CN101046809A (zh) 基于关联规则模式的新词识别方法
CN115618014A (zh) 一种应用大数据技术的标准文献分析管理系统及方法
Mehta et al. DOM tree based approach for web content extraction
CN101055593A (zh) 藏文网页及其编码的识别方法
CN110019637B (zh) 一种标准文献检索的排序算法
CN112417101A (zh) 一种关键词提取的方法及相关装置

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C14 Grant of patent or utility model
GR01 Patent grant
C19 Lapse of patent right due to non-payment of the annual fee
CF01 Termination of patent right due to non-payment of annual fee