CN101930435A - 机构名称检索方法及系统 - Google Patents

机构名称检索方法及系统 Download PDF

Info

Publication number
CN101930435A
CN101930435A CN2009101103729A CN200910110372A CN101930435A CN 101930435 A CN101930435 A CN 101930435A CN 2009101103729 A CN2009101103729 A CN 2009101103729A CN 200910110372 A CN200910110372 A CN 200910110372A CN 101930435 A CN101930435 A CN 101930435A
Authority
CN
China
Prior art keywords
organization names
sign
full
language model
suffix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2009101103729A
Other languages
English (en)
Other versions
CN101930435B (zh
Inventor
夏云庆
刘轶
程刚
刘伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
IER INDUSTRY DEVELOPMENT CENTER
Shenzhen Raisound Technology Co ltd
Original Assignee
SHENGANG MANUFACTURE-LEARNING-RESEARCH BASE INDUSTRY DEVELOPMENT CENTER
SHENZHEN BEIKE RUISHENG TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHENGANG MANUFACTURE-LEARNING-RESEARCH BASE INDUSTRY DEVELOPMENT CENTER, SHENZHEN BEIKE RUISHENG TECHNOLOGY Co Ltd filed Critical SHENGANG MANUFACTURE-LEARNING-RESEARCH BASE INDUSTRY DEVELOPMENT CENTER
Priority to CN200910110372.9A priority Critical patent/CN101930435B/zh
Publication of CN101930435A publication Critical patent/CN101930435A/zh
Application granted granted Critical
Publication of CN101930435B publication Critical patent/CN101930435B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种机构名称检索方法和系统,将所有机构名称自动切分为地名R、标识I、类型T和后缀S四部分,将所有机构名称转换为缩写字母,建立对所有标识I所对应字母缩写的全文索引以及语言模型,建立地名词典、类型同义词词典和后缀同义词词典,接受输入字母串并切分出标识I全文检索,检索地名R、类型T和后缀S,得出候选检索结果进行排序并输出。本发明可以准确、快速地以字母检索中西文机构名称,实现对用户输入最大限度地容错,在不损失准确率的前提下缩短信息搜索时间,同时具有自动学习功能。

Description

机构名称检索方法及系统
【技术领域】
本发明涉及一种检索方法,特别是涉及一种机构名称检索方法及系统。
【背景技术】
海量机构名称快速查询技术是在语音服务中话务员赖以提升工作质量、提高工作效率的重要工具。目前该类工具广泛应用于电信114查号台和移动12580信息服务平台。在号码百事通后台庞大业务数据的基础上,
话务员必须在最短的时间内为用户提供最准确的信息,但没有一个话务员能掌握浩瀚无边的业务数据。因此,机构名称快速查询系统是话务员向用户提供服务的必不可少工具。目前的查询系统大多基于拼音编码规范进行扩展,操作员按照编码规范的要求输入拼音字母,系统以操作员的输入为查询依据从数据库中匹配相关信息。目前的信息查询系统存在如下问题:
(1)编码死板,容错性差。由于话务员无法掌握所有信息,因此他们无法判别查询客户说出的机构名称是否错误或不完整。目前系统不能针对话务员输入的“错误”查询指令提供模糊处理,最终造成“查无此人”的服务结果。实际上,查询客户非常容易在机构名称正确性和完整性上出现小小差错,而这些小差错会严重降低话务员的服务质量。
(2)不具备学习和适应能力。多数查询系统需要事先对海量数据进行人工编码,工作量巨大。同时,在业务数据发生变化时,系统无法自动进行必要的编码适应,给系统维护带来巨大困难。
【发明内容】
有鉴于此,有必要针对上述问题,提供一种容错能力强、具有自动学习能力的机构名称检索方法。
一种机构名称检索方法,包括如下步骤:
S11:将业务数据中所有机构名称自动切分为地名R、标识I、类型T和后缀S四部分;
S12:将业务数据中所有机构名称转换为缩写字母;
S13:建立对所有标识I所对应字母缩写的全文索引;
S14:建立标识I字母语言模型;
S15:建立地名词典、类型同义词词典和后缀同义词词典。
S16:建立用户检索界面,接收输入字母串并切分出各部分,得出标识I全文检索,得出候选检索结果和检索分数;
S17:检索地名R、类型T和后缀S,缩小候选检索结果范围;
S18:对候选检索结果进行排序并输出。
优选的,所述步骤S11中,地名R(region)是指出现在机构名称中的地理名称,标识I(identifier)是指标识机构名称的核心词汇,类型T(type)指区分机构类型中词汇,后缀S(suffix)指出现在机构名称汇总的后缀词汇。
优选的,所述步骤S11,切分时,词典优先识别地名R、类型T和后缀S从而确定标识I边界,准确获得标示I。
优选的,所述步骤S12中,先将中文机构名称的汉字转换为拼音,再提取汉语拼音首字母或英文单词首字母以形成机构名称的缩写字母。
优选的,所述步骤S12将汉字转换为拼音时采取上下文拼音相关算法消除多音字的歧义问题。
优选的,所述步骤S13采用倒排索引算法建立全文索引。
优选的,在建立全文索引时以所有标识I所对应字母缩写为元素。
优选的,所述步骤S14中,针对所有标识I所对应字母缩写建立标识I字母语言模型。
优选的,在建立标识I字母语言模型时以字母为元素,并采用了最大似然估计(Maximum Likelihood Estimation)方法。
优选的,在建立标示I字母语言模型时采取二元字母语言模型,降低计算负责度。
优选的,所述步骤S15在建立地名词典、类型同义词词典和后缀同义词词典时采用步骤S11所产生的切分结果。
优选的,所述步骤S16中,从输入字母串中识别标识I,采用了如下规则:
所有机构名称全称都包含地点(R)、机构名称标识词(I)、机构类型(T)和名称后缀(S);
即使在机构名称的最强省略情况下都不会丢失标识词I,且出现在输入字母串靠前的位置;
机构名称中的不同部分的输入可以颠倒顺序,但各部分内部汉字的顺序不可颠倒;
在任何状态下的输入字母串应包含机构名称标识I或地名R。
优选的,所述步骤S17中,以字典匹配的方法识别输入字母中可能存在的地名R、类型T和后缀S。
优选的,在进行字典匹配时采用了步骤S15产生的地名词典、类型同义词词典和后缀同义词词典。
优选的,在步骤S18中,以全文检索分数结合步骤S14产生的标识I字母语言模型对所有候选检索结果进行排序。
优选的,在对候选检索结果排序时采用了以下计算公式:
Figure G2009101103729D00031
其中I为输入字母串,L为候选检索结果w对应的字母串,SIR(L,I)为L的全文检索分数,SLM(L,I)为L的语言模型分数,
Figure G2009101103729D00032
Figure G2009101103729D00033
分别为全文检索分数和语言模型分数的权重;
全文检索分数SIR(L,I)的计算公式如下:
S IR ( L , I ) = Len ( CMN ( I , L ) ) Len ( I ) + ED ( I , L )
其中,CMN(x,y)返回两字母串的共同字母串,Len(.)返回字母串的长度,ED(I,L)用于计算输入字母串I与检索结果对应字母串L的编辑距离;
语言模型分数SLM(L,I)的计算公式如下:
S LM ( L , I ) = Pr ( L | I ) = Pr ( L ) × Pr ( I | L )
= Π i = 0 N Pr ( L i + 1 | L i ) × 1 1 + ED ( I , L )
其中,L={Li)i=0,1,...,N
一种机构名称检索系统,包括:离线学习模块、全文索引数据库、语言模型、词典、实时检索模块;
所述离线学习模块,用于自动从海量业务数据中的机构名称中产生全文索引数据库、语言模型和词典;
所述全文索引数据库,用于存放机构名称中标识I部分的字母全文索引;
所述语言模型,用于管理机构名称中标识I部分的字母分布概率;
所述词典,用于存放业务数据中机构名称所涉及的地名、机构类型和名称后缀;
所述实时检索模块,用于接收用户输入的字母串切分出各部分得出标示I,全文索引,产生包含标识I的多种切分方式的候选结果,并产生检索分数,得出查询词典将候选检索结果缩小到更小的范围,并根据检索分数和语言模型对候选检索结果进行排序,最后输出检索结果。
上述机构名称检索方法及系统自动对机构名称进行自动处理,构建全文索引和语言模型,在系统业务数据发生变化时,具有自动学习能力。将输入的字母串自动切分出标识I进行检索,得出多种候选检索结果,并根据检索分数和语言模型对候选检索结果进行排序,实现了对用户输入最大限度地容错,从而准确、快速地以字母检索中西文机构名称,在不损失准确率的前提下缩短信息搜索时间,极大的提高检索的工作效率,提升检索质量。
【附图说明】
图1是机构名称检索方法流程示意图。
图2是机构名称检索系统示意图。
【具体实施方式】
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
图1是机构名称检索方法流程示意图。该机构名称检索方法包括:
S11:将业务数据中所有机构名称自动切分为地名R、标识I、类型T和后缀S四部分。
地名R(region)是指出现在机构名称中的地理名称;标识I(identifier)是指标识机构名称的核心词汇;类型T(type)指区分机构类型中词汇;后缀S(suffix)指出现在机构名称汇总的后缀词汇。以“深圳市华为技术有限公司”为例,“深圳市”是地名,“华为”为标识,“技术”为类型,“有限公司”为后缀。机构名称切分即实现将“深圳市华为技术有限公司”切分为“深圳市(R)华为(I)技术(T)有限公司(S)”。本发明优选实施例的所有步骤中,针对中西文机构名称,以汉语拼音首字母替代中文机构名称中的汉字,以西文单词首字母处理西文机构名称中的西文单词。
由于现有的地名、类型和后缀均可枚举,切分中,词典优先识别机构名称中的地名R、类型T和后缀S,从而确定标识I边界,最终准确获得标识I。
S12:将业务数据中所有机构名称转换为缩写字母
机构名称中的汉字转换为汉语拼音,双字节阿拉伯数字和标点符号也被转换为对应的单字节字符,汉语拼音转化时采取上下文拼音相关算法消除多音字的歧义问题,完成上述转换后,获得由汉语拼音首字母和西文单词首字母以及数字组成的机构名称缩写,所有机构名称由西文字母(大写)、数字和标点符号组成。
S13:建立对所有标识I所对应的字母缩写的全文索引。
采用倒排索引算法,对机构名称的标识I所对应的字母缩写建立全文索引。
S14:建立标示I字母语言模型
以字母为元素,采用最大似然估计(MLE,Maximum Likelihood Estimation)方法,建立标识I字母语言模型,为降低计算负责度,采取二元字母语言模型。以现有机构名称缩写为依据,以MLE算法计算所有观察概率值方法如下:(1)枚举26个英文字母、10个数字和16个主要标点符号;(2)枚举所有字符的两两有序组合(包含重复)。(3)以如下公式(MLE算法)计算二元字母概率:
Pr ( l i + 1 l i ) = Count ( l i + 1 l i ) Count ( bigrams )
其中,Count(li+1,li)代表二元字母li+1,li在机构名称集合中出现的次数,Count(bigram)代表所有可能二元字母的总数。
S15:建立地名词典、类型同义词词典和后缀同义词词典
根据步骤S11产生的切分结果建立地名词典、类型同义词词典和后缀同义词词典。上述词典均采取汉语拼音首字母排序,以便快速查询。
S16:建立用户检索界面,接收输入字母串并切分出各部分,得出标识I,全文检索,得出候选检索结果和检索分数
建立用户可以操作的检索界面,允许用户输入字母串,接收字母串,根据用户输入的字母串,采用步骤S11,切分各部分得出标示I;采取步骤S13,对切分出的标识I所对应的缩写字母进行全文索引,产生包含标识I的多种切分方式的候选检索结果,并产生检索分数。
从输入字母串中识别标识I,采用了如下规则:
(1)所有机构名称全称都包含地点(R)、机构名称标识词(I)、机构类型(T)和名称后缀(S)。
(2)即使在机构名称的最强省略情况下都不会丢失标识词I,且出现在输入字母串靠前的位置。
(3)机构名称中的不同部分的输入可以颠倒顺序,但各部分内部汉字的顺序不可颠倒。
(4)在任何状态下的输入字母串应包含机构名称标识I或地名R。
基于上述规则,本发明可优选地以标识I或地名匹配输入字母串,从而产生N个候选检索结果,并自然产生了候选检索结果所对应的输入字母串切分方法。结合该字母串切分方法和标识I,输出全文检索分数的方法如下:
S IR ( L , I ) = Len ( CMN ( I , L ) ) Len ( I ) + ED ( I , L )
其中,CMN(x,y)返回两字母串的共同字母串,Len(.)返回字母串的长度,ED(I,L)用于计算输入字母串I与检索结果对应字母串L的编辑距离。
S17:检索字母串中的地名R、类型T和后缀S
基于步骤S15产生的地名词典、类型同义词词典和后缀同义词词典,以字典匹配的方法识别输入字母串中可能存在的地名R、类型T和后缀S,从而将候选检索结果缩小到更小的范围。
S18:对候选结果进行排序并输出
以全文检索分数结合步骤S14建立的标识I字母语言模型对所有候选检索结果进行排序,采用了以下计算公式:
Figure G2009101103729D00071
其中I为输入字母串,L为候选检索结果w对应的字母串,SIR(L,I)为L的全文检索分数,SLW(L,I)为L的语言模型分数,
Figure G2009101103729D00072
Figure G2009101103729D00073
分别为全文检索分数和语言模型分数的权重。
语言模型分数SLM(L,I)的计算公式如下:
S LM ( L , I ) = Pr ( L | I ) = Pr ( L ) × Pr ( I | L )
= Π i = 0 N Pr ( l i + 1 | l i ) × 1 1 + ED ( I , L )
其中,L={li}i=0,1,...,N是字母串L中的字母。
得出排序结果然后输出。
图2是机构名称检索系统示意图。机构名称检索系统包括:离线学习模块110,全文索引数据库120,语言模型30,词典140,实时检索模块150。
离线学习模块110,用于自动从海量业务数据中的机构名称中产生全文索引数据库120、语言模型130和词典140;产生全文索引数据库120、语言模型130和词典140的方法已经在步骤S11至S15中详细描述,不再赘述。
全文索引数据库120,用于存放机构名称中标识I部分的字母全文索引。
语言模型130,用于管理机构名称中标识I部分的字母分布概率。
词典140(地名,类型,后缀),用于存放业务数据中机构名称所涉及的地名R、机构类型T和名称后缀S。
实时检索模块150,用于接收用户输入的字母串用于接收用户输入的字母串切分出各部分得出标示I,全文索引,产生包含标识I的多种切分方式的候选结果,并产生检索分数,得出查询词典140将候选检索结果缩小到更小的范围,并根据检索分数和语言模型130对候选检索结果进行排序,最后输出检索结果。
上述机构名称检索方法及系统在系统业务数据发生变化时,可自动对机构名称进行自动处理,构建全文索引、语言模型和词典,具有自动学习能力。将输入的字母串自动切分出标识I进行检索,得出多种候选检索结果,并根据检索分数和语言模型对候选检索结果进行排序,同时可以根据服务现场实际情况灵活调整地名和标识的输入先后顺序,对输入的错误查询指令提供模糊处理,最大限度地排除话务服务中不应出现的“查无此人”情况,实现了对用户输入的最大限度地容错,从而准确、快速地以字母检索中西文机构名称,在不损失准确率的前提下缩短信息搜索时间,极大的提高检索的工作效率,提升检索质量。

Claims (17)

1.一种机构名称检索方法,包括如下步骤:
S11:将业务数据中所有机构名称自动切分为地名R、标识I、类型T和后缀S四部分;
S12:将业务数据中所有机构名称转换为缩写字母;
S13:建立对所有标识I所对应字母缩写的全文索引;
S14:建立标识I字母语言模型;
S15:建立地名词典、类型同义词词典和后缀同义词词典;
S16:建立用户检索界面,接收输入字母串并切分出各部分,得出标识I全文检索,得出候选检索结果和检索分数;
S17:检索地名R、类型T和后缀S,缩小候选检索结果范围;
S18:对候选检索结果进行排序并输出。
2.根据权利要求1所述的机构名称检索方法,其特征在于,所述步骤S11中,地名R是指出现在机构名称中的地理名称,标识I是指标识机构名称的核心词汇,类型T指区分机构类型中词汇,后缀S指出现在机构名称汇总的后缀词汇。
3.根据权利要求1所述的机构名称检索方法,其特征在于:所述步骤S11,切分时,词典优先识别地名R、类型T和后缀S从而确定标识I边界,准确获得标示I。
4.根据权利要求1所述的机构名称检索方法,其特征在于:所述步骤S12中,先将中文机构名称的汉字转换为拼音,再提取汉语拼音首字母或英文单词首字母以形成机构名称的缩写字母。
5.根据权利要求4所述的机构名称检索方法,其特征在于:所述步骤S12将汉字转换为拼音时采取上下文拼音相关算法消除多音字的歧义问题。
6.根据权利要求1所述的机构名称检索方法,其特征在于:所述步骤S13采用倒排索引算法建立全文索引。
7.根据权利要求6所述的机构名称检索方法,其特征在于:在建立全文索引时以所有标识I所对应字母缩写为元素。
8.根据权利要求1所述的机构名称检索方法,其特征在于:所述步骤S14中,针对所有标识I所对应字母缩写建立标识I字母语言模型。
9.根据权利要求8所述的机构名称检索方法,其特征在于:在建立标识I字母语言模型时以字母为元素,并采用了最大似然估计方法。
10.根据权利要求9所述的机构名称检索方法,其特征在于:在建立标示I字母语言模型时采取二元字母语言模型,降低计算负责度。
11.根据权利要求1所述的机构名称检索方法,其特征在于:所述步骤S15在建立地名词典、类型同义词词典和后缀同义词词典时采用步骤S11所产生的切分结果。
12.根据权利要求1所述的机构名称检索方法,其特征在于:所述步骤S16中,从输入字母串中识别标识I,采用了如下规则:
所有机构名称全称都包含地点R、机构名称标识词I、机构类型T和名称后缀S;
即使在机构名称的最强省略情况下都不会丢失标识词I,且出现在输入字母串靠前的位置;
机构名称中的不同部分的输入可以颠倒顺序,但各部分内部汉字的顺序不可颠倒;
在任何状态下的输入字母串应包含机构名称标识I或地名R。
13.根据权利要求1所述的机构名称检索方法,其特征在于:所述步骤S17中,以字典匹配的方法识别输入字母中可能存在的地名R、类型T和后缀S。
14.根据权利要求13所述的机构名称检索方法,其特征在于:在进行字典匹配时采用了步骤S15产生的地名词典、类型同义词词典和后缀同义词词典。
15.根据权利要求1所述的机构名称检索方法,其特征在于:在步骤S18中,以全文检索分数结合步骤S14产生的标识I字母语言模型对所有候选检索结果进行排序。
16.根据权利要求15所述的机构名称检索方法,其特征在于:在对候选检索结果排序时采用了以下计算公式:
Figure F2009101103729C00021
其中I为输入字母串,L为候选检索结果w对应的字母串,SIR(L,I)为L的全文检索分数,SLM(L,I)为L的语言模型分数,
Figure F2009101103729C00031
Figure F2009101103729C00032
分别为全文检索分数和语言模型分数的权重;
全文检索分数SIR(L,I)的计算公式如下:
S IR ( L , I ) = Len ( CMN ( I , L ) ) Len ( I ) + ED ( I , L )
其中,CMN(x,y)返回两字母串的共同字母串,Len(.)返回字母串的长度,ED(I,L)用于计算输入字母串I与检索结果对应字母串L的编辑距离;
语言模型分数SLM(L,I)的计算公式如下:
S LM ( L , I ) = Pr ( L | I ) = Pr ( L ) × Pr ( I | L )
= Π i = 0 N Pr ( L i + 1 | L i ) × 1 1 + ED ( I , L )
其中,L={Li}i=0,1,...,N
17.一种机构名称检索系统,包括:离线学习模块、全文索引数据库、语言模型、词典、实时检索模块;
所述离线学习模块,用于自动从海量业务数据中的机构名称中产生全文索引数据库、语言模型和词典;
所述全文索引数据库,用于存放机构名称中标识I部分的字母全文索引;
所述语言模型,用于管理机构名称中标识I部分的字母分布概率;
所述词典,用于存放业务数据中机构名称所涉及的地名、机构类型和名称后缀;
所述实时检索模块,用于接收用户输入的字母串切分出各部分得出标示I,全文索引,产生包含标识I的多种切分方式的候选结果,并产生检索分数,得出查询词典将候选检索结果缩小到更小的范围,并根据检索分数和语言模型对候选检索结果进行排序,最后输出检索结果。
CN200910110372.9A 2009-10-27 2009-10-27 机构名称检索方法及系统 Expired - Fee Related CN101930435B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200910110372.9A CN101930435B (zh) 2009-10-27 2009-10-27 机构名称检索方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910110372.9A CN101930435B (zh) 2009-10-27 2009-10-27 机构名称检索方法及系统

Publications (2)

Publication Number Publication Date
CN101930435A true CN101930435A (zh) 2010-12-29
CN101930435B CN101930435B (zh) 2013-03-20

Family

ID=43369617

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910110372.9A Expired - Fee Related CN101930435B (zh) 2009-10-27 2009-10-27 机构名称检索方法及系统

Country Status (1)

Country Link
CN (1) CN101930435B (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102609455A (zh) * 2012-01-12 2012-07-25 北京中科大洋科技发展股份有限公司 一种实现汉语同音字检索的方法
CN102955835A (zh) * 2011-08-31 2013-03-06 上海夏尔软件有限公司 定位选项的方法
CN102955842A (zh) * 2012-09-18 2013-03-06 华东师范大学 一种多特征融合识别中文机构名的控制方法
CN103116607A (zh) * 2013-01-18 2013-05-22 中国传媒大学 一种基于拼音全文检索的方法
CN103617248A (zh) * 2013-10-28 2014-03-05 乐视网信息技术(北京)股份有限公司 一种名称转换方法及装置
CN103678655A (zh) * 2013-12-23 2014-03-26 国家电网公司 一种信息校核方法和装置
CN104899213A (zh) * 2014-03-06 2015-09-09 阿里巴巴集团控股有限公司 一种解析组织机构名的方法和装置
CN105045847A (zh) * 2015-07-01 2015-11-11 广州市万隆证券咨询顾问有限公司 一种从文本信息中提取中文机构单位名称的方法
CN106446293A (zh) * 2016-11-22 2017-02-22 江苏速度信息科技股份有限公司 一种快速化地名普查数据的建库方法
CN106934631A (zh) * 2015-12-29 2017-07-07 阿里巴巴集团控股有限公司 名称数据处理方法及装置
CN107967300A (zh) * 2017-11-07 2018-04-27 平安科技(深圳)有限公司 机构名称的检索方法、装置、设备及存储介质
WO2019056727A1 (zh) * 2017-09-22 2019-03-28 平安科技(深圳)有限公司 机构名称检索式的显示方法、装置、设备及存储介质
CN109933800A (zh) * 2019-03-22 2019-06-25 中国农业银行股份有限公司 数据机构体系的创建方法、信息查询方法及装置
WO2019165661A1 (zh) * 2018-02-27 2019-09-06 平安科技(深圳)有限公司 机构名称的智能搜索方法、装置、设备及存储介质
CN110399436A (zh) * 2018-04-20 2019-11-01 北京搜狗科技发展有限公司 一种基于同义词根进行地图离线搜索的方法及装置
WO2019223597A1 (zh) * 2018-05-23 2019-11-28 杭州海康威视数字技术股份有限公司 一种注释信息确定、前缀树构建方法及装置
WO2020037794A1 (zh) * 2018-08-20 2020-02-27 南京师范大学 一种英文地名的索引建立方法及其查询方法和装置
CN111291277A (zh) * 2020-01-14 2020-06-16 浙江邦盛科技有限公司 一种基于语义识别和高级语言搜索的地址标准化方法
CN112182312A (zh) * 2020-09-23 2021-01-05 中国建设银行股份有限公司 一种机构名称匹配方法、装置、电子设备及可读存储介质
CN113468315A (zh) * 2021-09-02 2021-10-01 北京华云安信息技术有限公司 漏洞厂商名称的匹配方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1940920A (zh) * 2005-09-30 2007-04-04 孙斌 索引短语的方法
CN100437585C (zh) * 2006-09-04 2008-11-26 北京航空航天大学 基于倒排表进行检索提示的方法

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102955835A (zh) * 2011-08-31 2013-03-06 上海夏尔软件有限公司 定位选项的方法
CN102609455B (zh) * 2012-01-12 2014-12-03 北京中科大洋科技发展股份有限公司 一种实现汉语同音字检索的方法
CN102609455A (zh) * 2012-01-12 2012-07-25 北京中科大洋科技发展股份有限公司 一种实现汉语同音字检索的方法
CN102955842A (zh) * 2012-09-18 2013-03-06 华东师范大学 一种多特征融合识别中文机构名的控制方法
CN103116607A (zh) * 2013-01-18 2013-05-22 中国传媒大学 一种基于拼音全文检索的方法
CN103116607B (zh) * 2013-01-18 2016-04-13 中国传媒大学 一种新的基于汉语拼音的全文检索系统
CN103617248A (zh) * 2013-10-28 2014-03-05 乐视网信息技术(北京)股份有限公司 一种名称转换方法及装置
CN103678655A (zh) * 2013-12-23 2014-03-26 国家电网公司 一种信息校核方法和装置
CN103678655B (zh) * 2013-12-23 2017-02-08 国网浙江省电力公司 一种信息校核方法和装置
CN104899213A (zh) * 2014-03-06 2015-09-09 阿里巴巴集团控股有限公司 一种解析组织机构名的方法和装置
CN104899213B (zh) * 2014-03-06 2018-06-05 阿里巴巴集团控股有限公司 一种解析组织机构名的方法和装置
CN105045847A (zh) * 2015-07-01 2015-11-11 广州市万隆证券咨询顾问有限公司 一种从文本信息中提取中文机构单位名称的方法
CN105045847B (zh) * 2015-07-01 2018-05-25 广州市万隆证券咨询顾问有限公司 一种从文本信息中提取中文机构单位名称的方法
CN106934631A (zh) * 2015-12-29 2017-07-07 阿里巴巴集团控股有限公司 名称数据处理方法及装置
CN106446293A (zh) * 2016-11-22 2017-02-22 江苏速度信息科技股份有限公司 一种快速化地名普查数据的建库方法
WO2019056727A1 (zh) * 2017-09-22 2019-03-28 平安科技(深圳)有限公司 机构名称检索式的显示方法、装置、设备及存储介质
CN107967300A (zh) * 2017-11-07 2018-04-27 平安科技(深圳)有限公司 机构名称的检索方法、装置、设备及存储介质
WO2019090836A1 (zh) * 2017-11-07 2019-05-16 平安科技(深圳)有限公司 机构名称的检索方法、装置、设备及存储介质
CN107967300B (zh) * 2017-11-07 2020-06-23 平安科技(深圳)有限公司 机构名称的检索方法、装置、设备及存储介质
WO2019165661A1 (zh) * 2018-02-27 2019-09-06 平安科技(深圳)有限公司 机构名称的智能搜索方法、装置、设备及存储介质
CN110399436A (zh) * 2018-04-20 2019-11-01 北京搜狗科技发展有限公司 一种基于同义词根进行地图离线搜索的方法及装置
WO2019223597A1 (zh) * 2018-05-23 2019-11-28 杭州海康威视数字技术股份有限公司 一种注释信息确定、前缀树构建方法及装置
WO2020037794A1 (zh) * 2018-08-20 2020-02-27 南京师范大学 一种英文地名的索引建立方法及其查询方法和装置
CN109933800A (zh) * 2019-03-22 2019-06-25 中国农业银行股份有限公司 数据机构体系的创建方法、信息查询方法及装置
CN111291277A (zh) * 2020-01-14 2020-06-16 浙江邦盛科技有限公司 一种基于语义识别和高级语言搜索的地址标准化方法
CN112182312A (zh) * 2020-09-23 2021-01-05 中国建设银行股份有限公司 一种机构名称匹配方法、装置、电子设备及可读存储介质
CN113468315A (zh) * 2021-09-02 2021-10-01 北京华云安信息技术有限公司 漏洞厂商名称的匹配方法

Also Published As

Publication number Publication date
CN101930435B (zh) 2013-03-20

Similar Documents

Publication Publication Date Title
CN101930435B (zh) 机构名称检索方法及系统
CN110598203B (zh) 一种结合词典的军事想定文书实体信息抽取方法及装置
CN100578539C (zh) 自动问答方法及系统
CN108334493B (zh) 一种基于神经网络的题目知识点自动提取方法
CN105138507A (zh) 一种基于模式自学习的中文开放式关系抽取方法
CN109829159A (zh) 一种古汉语文本的一体化自动词法分析方法及系统
CN101794307A (zh) 基于互联网分词思想的车载导航poi搜索引擎
CN102722525A (zh) 通讯录人名的语言模型建立方法、语音搜索方法及其系统
CN102955833A (zh) 一种通讯地址识别、标准化的方法
CN102662923A (zh) 一种基于机器学习的本体实例学习方法
CN106205613B (zh) 一种导航语音识别方法及系统
CN111583905B (zh) 一种语音识别转化方法及系统
CN101458708A (zh) 检索结果聚类方法及装置
CN101459884A (zh) 一种业务处理方法及装置
CN113221559A (zh) 利用语义特征的科技创新领域中文关键短语抽取方法及系统
CN113283236A (zh) 一种复杂中文文本中的实体消歧方法
CN113836281A (zh) 一种基于自动问答的实体关系联合抽取方法
CN115618883A (zh) 一种业务语义识别方法及装置
CN109165331A (zh) 一种英文地名的索引建立方法及其查询方法和装置
CN100437441C (zh) 用于输入中文汉字短语的方法和设备
CN102122296B (zh) 检索结果聚类方法及装置
CN102385597A (zh) 一种poi的容错搜索方法
CN107832296A (zh) 一种基于条件随机场的电信领域命名实体识别方法
CN110532553B (zh) 一种水利空间关系词识别与提取的方法
CN101458682A (zh) 一种基于中文汉字和日文汉字的映射方法及其应用

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP03 Change of name, title or address

Address after: 518051 room W406, four / F, west seat, Shenzhen Hong Kong industry university research base, Nanshan District high tech Zone, Shenzhen, Guangdong

Co-patentee after: IER INDUSTRY DEVELOPMENT CENTER

Patentee after: SHENZHEN RAISOUND TECHNOLOGY Co.,Ltd.

Address before: 518057 Guangdong city of Shenzhen province Nanshan District South Road 29, students start building room 1004

Co-patentee before: IER INDUSTRY DEVELOPMENT CENTER

Patentee before: Shenzhen Raisound Technology Co.,Ltd.

CP03 Change of name, title or address
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130320

Termination date: 20211027

CF01 Termination of patent right due to non-payment of annual fee