CN100550018C - 基于结构化小文本的号码百事通搜索系统和方法 - Google Patents

基于结构化小文本的号码百事通搜索系统和方法 Download PDF

Info

Publication number
CN100550018C
CN100550018C CNB2007100849117A CN200710084911A CN100550018C CN 100550018 C CN100550018 C CN 100550018C CN B2007100849117 A CNB2007100849117 A CN B2007100849117A CN 200710084911 A CN200710084911 A CN 200710084911A CN 100550018 C CN100550018 C CN 100550018C
Authority
CN
China
Prior art keywords
vector
retrieval
result
query
order module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CNB2007100849117A
Other languages
English (en)
Other versions
CN101246482A (zh
Inventor
杨震
夏艳
王晓平
陈晓勤
俞惠华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Corp Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Priority to CNB2007100849117A priority Critical patent/CN100550018C/zh
Publication of CN101246482A publication Critical patent/CN101246482A/zh
Application granted granted Critical
Publication of CN100550018C publication Critical patent/CN100550018C/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于结构化小文本的号码百事通搜索系统和方法。所述号码百事通搜索系统包括:检索服务器,用于基于来自排序模块的查询向量,检索号码百事通数据库;和所述排序模块,用于接收通过关键词查询界面输入的关键词并对其进行同义词、近义词扩展处理以获得所述查询向量,以及从检索服务器接收检索结果向量并从中选择要提供给用户的检索结果向量,其中,所述排序模块包括:相关度计算单元,用于计算所述查询向量与每个所述检索结果向量之间的相关度,并基于所计算的相关度,选择要提供给用户的检索结果向量。根据本发明的号码百事通搜索引擎系统具有并发查询效率高、响应时间短、查准率高的特点,优于目前基于数据库的查询方式,并且简化了坐席人员的劳动。

Description

基于结构化小文本的号码百事通搜索系统和方法
技术领域
本发明涉及针对数据库的信息检索技术,更具体地,涉及一种针对114数据库利用搜索引擎技术进行信息搜索的系统和方法。
背景技术
传统114数据库是一种关系型数据库,电信所有的企业、个人电话号码及相关信息都存储在这个数据库中,数据库表结构复杂,并且每张表中包含大量的字段。数据库中的信息精练,每个字段存储的文本都很小,有的只有几个字,这与传统的信息检索面对的动辄数千、几万字的大文本有很大差别。其次,每个字段的含义各不相同,这就赋予了每个字段所存储信息的特定含义,这在信息检索领域称之为结构化信息。因此使用搜索引擎对传统114数据库的信息搜索是基于结构化小文本的信息搜索。
目前114使用的是基于一定编码规则的数据库的检索,其供查字段一般只有名称、地址、行业和电话号码等字段。由于各个字段存储的内容不同,有的存储数字,有的存储文本。为了便于对数据库中的内容进行检索,数据库各个字段按其存储信息内容和格式的不同,分别采用不同的编码规则建立索引,然后按索引的方式及相应的编码规则分别确定对应的检索或查询方式。
由于不同字段内信息的编码规则不同,所以针对不同信息的查询方式也不同。通常一个字段就会产生一个索引表,并且对应一种唯一的检索方式。根据具体的业务需求,有时也会有两个字段采用一种方式,形成一张索引表,并且采用相同的检索方式,如图1所示。
图1是示出了基于编码的传统114查询方式的系统示意图。话务员查询时,需判断要输入的编码规则,然后使用“快捷键+输入编码”的方式在相应的字段中进行检索。如果需要组合查询,话务员就得按一定顺序采用几种快捷键与编码的组合进行查询,例如需要同时查名称和地址。
话务员的输入为:【(“快捷键+名称码”)+(“地址快捷键+地址码”)】然后回车进行检索,目前组合查询的效率很低。据统计,对于单字段的查询虽然达到秒级的返回结果,但是对于跨两个字段的组合查询,效率较低,有时一次查询需要30秒左右。而对于词频较高的词汇的查询,有时需要数分钟。
图2是示出了传统114信息查询服务过程的流程图,其中:
在步骤20中坐席人员进行信息查询时,首先与用户沟通,获得用户的查询需求;
在步骤21中坐席人员根据对用户需求的理解及经验,分解用户需求;
在步骤22中形成子需求1至N;
在步骤23中坐席人员根据经验判断每个子需求所对应的数据库中的具体字段;
在步骤24中坐席人员选择每个字段所对应的具体编码规则;
在步骤25中坐席人员根据每种特定的编码规则判断输入法及所对应的表达,即由快捷键选择输入框,然后输入特定的编码;
在步骤26中进行数据库检索;
在步骤27中查询结果返回给坐席人员;以及
在步骤28中坐席人员根据查询结果,继续与用户进行交流,直到用户满意所查询到的信息为止,之后可以进行自动语音报号。
例如,对于用户需求:“请找出四川北路上的一家川菜馆”,传统查询流程如下:
坐席人员判断,川菜馆为餐饮业,而系统中餐饮业的特征码和酒店、饭店的特征码统统属于一个行业,如行业名称为饭店,即其特征码为“FD”。这里的例子特征码采用首拼的方式,复杂的也可能采用首拼及五笔加权或其它的方式,其对坐席人员的查询难度将随着编码规则复杂度的提升而进一步增加。然后坐席人员选择对“四川北路”进行查询的特征码。在所有需输入的特征码都选定之后,话务员再根据要搜索的不同字段选择对应的输入框,结合快捷键选择输入框的方式进行查询。由于传统114数据库中对于川菜一类的稍微细化的需求,数据库中没有明确的编码。查询结果返回的将是所有在四川北路上行业特征码为“FD”的饭店、餐馆、酒店、咖啡屋......等等企业、商家的信息。坐席人员需要在返回的以上信息中,自己查询判断到底哪家是出售川菜的饭店。如果从企业名称中不能判断出这家餐馆是否出售川菜,将不能带给用户满意的结果。
现有的114查询系统存在如下问题:
1.查询方式复杂
传统的114查询手段是基于数据库编码的查询,查询方式复杂,以某省114查询为例:共有17种快捷方式,对应17个输入框。话务员需要记住每种输入条件所对应的输入方法及其所对应的查询内容,需要支持各种编码方式的查询。但不支持对用户需求进行同义和近义的扩展查询。只能提供基于企业名字、号码、地址等信息的精确查询,无法高质量地满足模糊查询的需求。
2.组合查询能力差
一般的查询只针对一个字段,在进行多字段组合查询时,系统开销大,最多只支持三个字段的组合查询,否则系统的响应时间就会超出用户的忍耐极限;此外,对某些较大的表,输入一些普通的查询词时,如针对“企业电话表”查询“上海”时,系统响应慢。
3.排序方式简单
只支持简单的排序规则,无法按灵活的要求对签约企业动态排序。不能很好地支持各种业务模式,如:固定顺序、轮选顺序、不等概率播报等。
4.新信息源引入困难
随着号码百事通的发展,数据库中的信息会越来越多,而且以后其它信息源的引入,必将涉及到大量信息的处理及查询问题。而传统数据查询方式很难做到其它信息资源的方便引入和联合查询。搜索引擎最大的优点是可以方便地对异构的信息资源进行搜索及展现,解决新信息资源的引入问题。
5.话务员培训成本高
话务员查询时,需要把用户需求转换成系统支持的查询格式。这个过程的主要难点就是系统支持什么样的查询方式,怎样把用户的个性化需求用这样的查询方式来实现。这就要求话务员理解后台信息的存储方式,理解同音词、理解多音词、了解各种编码的规则和其对应的字段等等。这样的培训周期将会很长,可能长述一年。
为了解决现有技术中存在的以上问题,需要一种新的基于结构化小文本的号码百事通搜索系统和方法,其能够快速、准确地检索出用户需求的信息,操作方便,并且对话务员的要求低。
发明内容
本发明的目的是提供一种基于结构化小文本的号码百事通搜索系统和方法,其使用关键词搜索而非现有技术的数据库查询方式,基于查询目标向量与查询结果向量之间的相关度,来确定将提供给用户的查询结果向量。
优选地,根据本发明的号码百事通搜索系统和方法还根据电信相关的业务需求以灵活排序方式将查询结果提供给用户。
为了实现上述目的,提供了一种基于结构化小文本的号码百事通搜索系统,包括:检索服务器,用于基于来自排序模块的查询向量,检索号码百事通数据库;和所述排序模块,用于接收通过关键词查询界面输入的关键词并对其进行同义词、近义词扩展处理以获得所述查询向量,以及从检索服务器接收检索结果向量并从中选择要提供给用户的检索结果向量,其中,所述排序模块包括:相关度计算单元,用于计算所述查询向量与每个所述检索结果向量之间的相关度,并基于所计算的相关度,选择要提供给用户的检索结果向量。
为了实现上述目的,还提供了一种基于结构化小文本的号码百事通搜索方法,包括:排序模块对输入的关键词进行同义词、近义词扩展处理以获得查询向量,并将其提供给检索服务器;检索服务器基于输入的查询向量,检索号码百事通数据库并将获得的检索结果向量返回给排序模块;由排序模块中的相关度计算单元计算所述查询向量与每个所述检索结果向量之间的相关度,并基于相关度计算结果将相应的检索结果向量返回给排序模块中的电信业务排序模块,并由电信业务排序模块对相应的查询结果向量进行进一步的排序处理,然后将排序后的检索结果向量返回到关键词查询界面。
根据本发明的号码百事通搜索引擎系统具有并发查询效率高、响应时间短、查准率高的特点,优于目前基于数据库的查询方式,并且简化了坐席人员的劳动。
附图说明
图1是示出了基于编码的传统114查询方式的系统示意图;
图2是示出了传统114信息查询服务过程的流程图;
图3是示出了根据本发明的号码百事通搜索系统(即,114信息查询服务系统)的结构图;和
图4是示出了根据本发明的114信息查询服务系统的查询流程图。
具体实施方式
图3是示出了根据本发明的号码百事通搜索系统的结构图。号码百事通搜索系统实现现网外挂专用的搜索引擎,为实际的座席人员提供关键词查询界面。系统接受话务员输入的关键词,由检索服务器进行信息搜索并将搜索结果传送给业务排序模块,之后业务排序模块按照一定的业务规则对搜索结果进行排序,再将排序结果传送给话务员报号所用。
在图3中,号码百事通数据库是用来存放号码百事通企业信息以供检索服务器进行查询的数据库。检索服务器从排序模块接收座席人员通过关键词查询界面输入并经过排序模块同义词、近义词扩展处理后的关键词,根据所接收的关键词检索号码百事通数据库,之后把检索结果及其相对应的参数,按照事先确定好的格式返回给排序模块,供排序模块排序。
排序模块主要包含两个单元,基于结构化小文本的相关度计算单元以及电信业务排序单元。下面将详细介绍这两个单元。
1.基于结构化小文本的相关度计算单元
该单元充分考虑了电信号码百事通数据库的具体结构及其相应特点,在此基础上提出了适合号码百事通数据库进行搜索及排序的基于向量空间模型的排序算法,并确定了算法的各个参数。
下面首先说明根据本发明的基于结构化小文本的相关度计算模型:
一个关键词d1经过同义词、近义词扩展后,获得查询的目标向量为D={d1,d2,......,dn},其中D既是查询向量,也是获得的查询结果需要匹配的查询目标向量,而dn是D中第n个关键词;xn为对用户查询目标向量D中第n个关键词的评价,即权重,则查询目标向量D表示如下:D={(d1,x1),(d2,x2),......(dn,xn)}。
检索服务器基于查询目标向量D={(d1,x1),(d2,x2),......(dn,xn)}在数据库中查询,获得M条记录,这些记录的各个字段中或多或少地包含查询扩展之后的查询目标向量中的关键词,其矩阵表示形式如下:
M 1 M 2 . . . M m d 1 x 11 x 12 . . . x 1 m d 2 x 21 x 22 . . . x 2 m . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . d n x n 1 x n 2 . . . x nm
其中xnm代表第n个关键词在第m条记录中出现,并且其对应的权重为xnm
设一条记录有j个字段,按字段对查询的贡献程度,我们目前定义服务特征级、户名级、地址级和其它级四个级别,并综合计算。各个字段的贡献程度以贡献系数表示,分别为α,β,ε,η,则:
xnm=α·j1+β·j2+ε·j3+η·j4                (公式1)
其中α+β+ε+η=1;1≥α>β>ε>η≥0;参数可以动态调整。虽然在此示出的例子中仅使用了四个级别及其对应的贡献系数α,β,ε,η,但是根据实际需要,可以使用任意数量的级别及其对应的贡献系数。
j1代表关键词在服务特征字段出现;
j2代表关键词在户名字段出现;
j3代表关键词在地址字段出现;
j4代表关键词在其它字段出现。
在确定了xnm之后,查询目标向量D与第m个记录Mm之间的相似度Y就可以计算了,例如取向量之间的夹角,即相似度越大,两个向量间的夹角越小,cos→1;计算公式如下:
Y = Sim ( D , M m ) = cos ( D , M m ) = ( Σ k = 1 n x k · x km ) Σ k = 1 n x k 2 Σ k = 1 n x km 2 (公式2)
在实际使用过程中,可以根据实际情况,调整用于计算两个向量之间的相似程度的数学公式,对于语义相对简单的情况可以采用欧式语义距离等简单公式。欧式语义距离是我们在进行结构化小文本相关度计算中采用的另一种计算公式,其来源于矩阵分析、模糊数学,目的是计算多维空间中,两个向量的相似程度。公式的具体应用和其中关键参数的选择都是根据号码百事通搜索的具体需求而开发的。欧式语义距离公式如下:
d ( A , B ) = 1 / n × Σ i = 1 n ( a i - b i ) 2 (公式3)
其中A,B为被比较的两向量,即查询向量和查询结果向量:A=(a1,α2,……,an)和B=(b1,b2,……,bn)。相似度由计算结果倒排序,由公式3可见,与一个向量最相似的向量为其自身,相似度的计算结果为0。
现在举例说明基于公式3的应用如下:
假设关键词W,经过搜索以引擎扩展后形成一组查询关键词,如下表示:W=(W1,W2,W3,W4),经过后台算法处理后,查询目标可表示为向量X,应用搜索引擎技术在数据库中搜索,一条查询到的信息可以表示为向量Y,应用欧式语义公式,计算两个向量的相似度,计算结果用来给查询结果进行排序。
首先,说明如何获得量化的查询向量和被查询向量。电信优先报号业务一家签约客户A购买了优先报号关键词,粤菜,其签约业务解释为,当有客户查询粤菜馆时,首先播报这家企业。同时这家企业提供其简要介绍和推荐菜谱。
企业A的简要介绍如下:可容纳300人同时就餐,高级包房,免费停车,可用信用卡消费。推荐菜谱:板栗煲老鸡,百合鲫鱼汤,里水金丝虾,鱼饺,炒糕。
用户查询:请给我找一家广东口味的菜馆,有停车位的,可以用信用卡付款的。
基本查询关键词的形成:坐席人员可以根据用户要求,提炼出查询关键词:广东菜、停车位、信用卡,作为输入关键词进行查询。
经过系统处理,查询关键词向量为如下:广东菜、粤菜(粤菜为广东菜同义词,系统可自动生成),广州菜(近义词)、停车位、车位(同义词)、免费泊车(同义词)、泊车(同义词)、信用卡。
这样系统就可以表示查询向量W,查询向量再经数值化就可以形成计算向量X,数值化的过程系统根据一定的规则自动完成。
W={(广东菜),(粤菜),(广州菜),(停车位),(车位),(免费泊车),(泊车),(信用卡)}
X′={1.0,1.0,0.8,1.0,1.0,1.0,1.0,1.0}。
同时,企业A的用户信息经过处理可以形成一列被比较的关键词信息,即为被查询信息。W′={(粤菜),(高级),(包房)……(鱼饺)}。
将被查询信息与查询向量进行比较,取被查询信息中与查询向量相对应的单元形成查询结果向量。同时,根据签约情况和其它情况,为客户的被查询信息加权,数值化(系统可以根据设定自动完成)。如为了与查询向量W进行比较,取{(粤菜),(停车位),(信用卡)}三个单元进行信息比对,再进行数值化,形成被查询向量Y={1.0,1.0,1.0}。同时查询向量为X={1.0,1.0,1.0}。
在实际的系统运行中,首先是形成被查询信息的索引信息,并且形成了相应的权重系数,即搜索空间,然后查询向量映射到这个搜索空间,进行向量之间的比对计算。
然后,基于公式3进行被查询信息与查询向量之间的相似度计算。例如,省略其它计算步骤,经过搜索引擎处理后查询向量为X=(0.7,0.8,0.2,0.9),被查询的数据库记录为两条,处理后的被查询向量为Y1=(0.6,0,0,0.5),Y2=(0.2,0.3,0.1,0.3);则应用欧式语义距离公式计算的过程如下:
d ( X , Y 1 ) = 1 / 4 × ( 0.7 - 0.6 ) 2 + ( 0.8 - 0 ) 2 + ( 0.2 - 0 ) 2 + ( 0.9 - 0.5 ) 2
= 1 / 2 × 0.01 + 0.64 + 0.04 + 0.16 = 0.461
d ( X , Y 2 ) = 1 / 4 × ( 0.7 - 0.2 ) 2 + ( 0.8 - 0.3 ) 2 + ( 0.2 - 0.1 ) 2 + ( 0.5 - 0.3 ) 2
= 1 / 2 × 0.25 + 0.25 + 0.01 + 0.04 = 0.371
由计算结果可知,Y2与X相关程度要优于Y1与X的相关程度。
最后,将Y2返回给电信业务排序模块以便根据电信相关的业务需求以灵活排序方式对查询结果进行排序,并根据排序后的结果将其提供给用户。当然,也可以直接将Y2返回到关键词查询界面以便坐席人员根据关键词查询界面上显示的检索结果,与用户进行交流,使用户获得满意的信息为止,之后进行自动语音报号。
2.电信业务排序单元
电信业务排序单元从基于结构化小文本的相关度计算单元接收与搜索目标最相关的查询结果向量,之后在这个向量集的基础上,对结果向量进行重新排序。把那些既符合相关度要求,又符合电信业务需求的信息首先推送给用户。实现在满足用户信息需求的基础之上,完成一定的电信业务需求。
电信业务排序单元目前可以实现以下功能:
1)按照企业签约情况的排序。
·固定排序。固定排序即企业可以购买固定排名次序,比如购买第一名位置。
·轮选排序。轮选排序是指多个企业轮流(等概率)出现在一个或多个排名位置。比如有A、B、C三家企业购买前两名轮选排序,则依次播报顺序为ABC、BCA、CAB、ABC......。
·不等概率排序。不等概率排名是指多个企业按照不同的概率出现在一个排名位置上。比如A买第一名出现概率70%,B买第一名出现概率30%,则A出现在第一名的机会将比B大。
2)按照电话性质的排序
按照电话性质的排序是指根据实际需求,按照电话的来源、属性的排序。如可以实现电信的电话排名在网通的电话之前,也可以实现同一个企业电话的总机在前,直线在后。
然后,电信业务排序单元将排序后的查询结果向量提供给关键词查询界面,供座席人员报号使用。
图4是示出了根据本发明的114信息查询服务系统的查询流程图。其中:
在步骤40中坐席人员进行信息查询时,首先与用户沟通,获得用户的查询需求;
在步骤41中坐席人员分析用户需求信息,并形成查询关键词;
在步骤42中坐席人员通过关键词查询界面,输入查询关键词;
在步骤43中排序模块对输入的关键词进行同义词、近义词扩展处理;
在步骤44中,排序模块形成查询向量并将其提供给检索服务器;
在步骤45中检索服务器基于输入的查询向量,检索号码百事通数据库并将获得的检索结果向量返回给排序模块;
在步骤46中由排序模块中的相关度计算单元计算所述查询向量与每个所述检索结果向量之间的相关度,并基于相关度计算结果将相应的检索结果向量返回给排序模块中的电信业务排序模块;
在步骤47中,由电信业务排序模块对相应的查询结果进行进一步的排序处理;
在步骤48中,电信业务排序模块将排序后的检索结果向量返回到关键词查询界面;以及
在步骤49中坐席人员根据关键词查询界面上显示的检索结果,继续与用户进行交流,直到用户满意所查询到的信息为止,之后可以进行自动语音报号。
图4中的步骤43到步骤48都是系统自动完成,降低了坐席人员的技能要求、节约了坐席人员的人力成本、提供了服务质量、增加了劳动生产率、增加了经济效益。
由以上说明可以看出,本发明实现了扩展检索。扩展检索通过对历史搜索记录的分析及对用户具体需求的理解两个方面出发,完善用户的查询请求。其可以根据分析结果,在用户的查询请求之上,加上一些限定或是扩展条件,从而提高搜索的查准率和查全率。
本发明还实现了相关度计算。相关度计算的好坏,直接影响搜索引擎的性能。本发明结合114数据库各字段的具体定义,并分析其中文本的特性及所表达的内容,提出一种综合计算搜索请求和真实目标记录之间的相关度算法。本算法结合关键词在一条企业记录中出现的具体位置及相对频率,综合考虑各个字段的具体含义,即采用了先进的文本检索算法,又不丢失数据库各个字段表达的具体涵义。
使用根据本发明的号码百事通搜索引擎系统给号码百事通(即,114查询服务系统)提供信息搜索服务,不仅可以节约以前话务员的大量培训成本,使话务员只经简单培训即可快速上岗;而且可以有利地支撑优先报号的业务开展,提高前向用户体验,吸引后向收费用户,增加电信的收入。号码百事通搜索引擎系统具有并发查询效率高、响应时间短、查准率高的特点,优于目前基于数据库的查询方式。
应用搜索引擎之后,坐席人员再也不需要进行需求分解、编码转换等复杂的劳动;只需要根据用户所述,提炼出表达用户需求特征的关键词,然后应用搜索引擎进行信息搜索。

Claims (15)

1.一种基于结构化小文本的号码百事通搜索系统,包括:
检索服务器,用于基于来自排序模块的查询向量,检索号码百事通数据库;和
所述排序模块,用于接收通过关键词查询界面输入的关键词并对其进行同义词、近义词扩展处理以获得所述查询向量,以及从检索服务器接收检索结果向量并从中选择要提供给用户的检索结果向量,
其中,所述排序模块包括:
相关度计算单元,用于计算所述查询向量与每个所述检索结果向量之间的相关度,并基于所计算的相关度,选择要提供给用户的检索结果向量。
2.根据权利要求1的基于结构化小文本的号码百事通搜索系统,其中所述相关度计算单元基于如下公式计算相关度Y:
Y = Sim ( D , M m ) = cos ( D , M m ) = ( Σ k = 1 n x k · x km ) Σ k = 1 n x k 2 Σ k = 1 n x km 2 ;
其中,xnm=α·j1+β·j2+ε·j3+η·j4+......,其中D={d1,d2,......,dn}是查询向量,xn为查询向量D中第n个关键词dn的权重,获得的检索结果向量Mm有j个字段,其贡献系数分别为α,β,ε,η……,且α+β+ε+η+......=1;1≥α>β>ε>η>......。
3.根据权利要求1的基于结构化小文本的号码百事通搜索系统,其中所述相关度计算单元基于如下公式计算相关度Y:
Y = d ( A , B ) = 1 / n × Σ i = 1 n ( a i - b i ) 2
其中A=(a1,a2,……,an)是查询向量;B=(b1,b2,……,bn)是检索结果向量。
4.根据权利要求1的基于结构化小文本的号码百事通搜索系统,其中所述排序模块还包括电信业务排序单元,用于根据电信业务需求,对从相关度计算单元接收的检索结果向量进行业务排序。
5.根据权利要求4的基于结构化小文本的号码百事通搜索系统,其中所述排序模块按照企业购买的业务排名次序排序所述检索结果向量。
6.根据权利要求4的基于结构化小文本的号码百事通搜索系统,其中所述排序模块以如下方式排序所述检索结果向量:使符合检索要求的多个企业轮流出现在一个排名位置。
7.根据权利要求4的基于结构化小文本的号码百事通搜索系统,其中所述排序模块以如下方式排序所述检索结果向量:使符合检索要求的多个企业按照不同的概率出现在一个排名位置上。
8.根据权利要求4的基于结构化小文本的号码百事通搜索系统,其中所述排序模块按照所述检索结果向量包含的电话的性质排序所述检索结果向量。
9.一种基于结构化小文本的号码百事通搜索方法,包括:
排序模块对输入的关键词进行同义词、近义词扩展处理以获得查询向量,并将其提供给检索服务器;
检索服务器基于输入的查询向量,检索号码百事通数据库并将获得的检索结果向量返回给排序模块;
由排序模块中的相关度计算单元计算所述查询向量与每个所述检索结果向量之间的相关度,并基于相关度计算结果将相应的检索结果向量返回给排序模块中的电信业务排序模块,并由电信业务排序模块对相应的查询结果向量进行进一步的排序处理,然后将排序后的检索结果向量返回到关键词查询界面。
10.根据权利要求9的基于结构化小文本的号码百事通搜索方法,其中所述相关度计算单元基于如下公式计算相关度Y:
Y = Sim ( D , M m ) = cos ( D , M m ) = ( Σ k = 1 n x k · x km ) Σ k = 1 n x k 2 Σ k = 1 n x km 2 ;
其中,xnm=α·j1+β·j2+ε·j3+η·j4+......,其中D={d1,d2,......,dn}是查询向量,xn为查询向量D中第n个关键词dn的权重,获得的检索结果向量Mm有j个字段,其贡献系数分别为α,β,ε,η……,且α+β+ε+η+......=1;1≥α>β>ε>η>......。
11.根据权利要求9的基于结构化小文本的号码百事通搜索方法,其中所述相关度计算单元基于如下公式计算相关度Y:
Y = d ( A , B ) = 1 / n × Σ i = 1 n ( a i - b i ) 2
其中A=(a1,a2,……,an)是查询向量;B=(b1,b2,……,bn)是检索结果向量。
12.根据权利要求9的基于结构化小文本的号码百事通搜索方法,其中所述排序模块按照企业购买的固定排名次序排序所述检索结果向量。
13.根据权利要求9的基于结构化小文本的号码百事通搜索方法,其中所述排序模块以如下方式排序所述检索结果向量:使与所述检索目标向量相对应的多个企业轮流出现在一个排名位置。
14.根据权利要求9的基于结构化小文本的号码百事通搜索方法,其中所述排序模块以如下方式排序所述检索结果向量:使与所述检索目标向量相对应的多个企业按照不同的概率出现在一个排名位置上。
15.根据权利要求9的基于结构化小文本的号码百事通搜索方法,其中所述排序模块按照所述检索结果向量包含的电话的性质排序所述检索结果向量。
CNB2007100849117A 2007-02-16 2007-02-16 基于结构化小文本的号码百事通搜索系统和方法 Active CN100550018C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2007100849117A CN100550018C (zh) 2007-02-16 2007-02-16 基于结构化小文本的号码百事通搜索系统和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2007100849117A CN100550018C (zh) 2007-02-16 2007-02-16 基于结构化小文本的号码百事通搜索系统和方法

Publications (2)

Publication Number Publication Date
CN101246482A CN101246482A (zh) 2008-08-20
CN100550018C true CN100550018C (zh) 2009-10-14

Family

ID=39946939

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2007100849117A Active CN100550018C (zh) 2007-02-16 2007-02-16 基于结构化小文本的号码百事通搜索系统和方法

Country Status (1)

Country Link
CN (1) CN100550018C (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103425687A (zh) * 2012-05-21 2013-12-04 阿里巴巴集团控股有限公司 一种基于关键词的检索方法和系统
CN104112217A (zh) * 2013-12-24 2014-10-22 珠海优特电力科技股份有限公司 一种口味选择信息的标示方法及应用方法
CN103761337B (zh) * 2014-02-18 2017-02-08 上海锦恩信息科技有限公司 非结构化数据处理方法及系统
CN104200409B (zh) * 2014-08-26 2017-10-27 珠海优特物联科技有限公司 一种口味选择信息同应用对象的匹配方法
CN106156116A (zh) * 2015-04-07 2016-11-23 富士通株式会社 信息发布方法和系统
CN107229624A (zh) * 2016-03-23 2017-10-03 百度在线网络技术(北京)有限公司 一种页面提供方法和页面提供装置
CN106209507A (zh) * 2016-07-04 2016-12-07 马岩 基于网络邮件数据的抓取方法及系统
CN106209508A (zh) * 2016-07-05 2016-12-07 马岩 基于局域网邮件数据的抓取方法及系统
CN106250531A (zh) * 2016-08-06 2016-12-21 马岩 同义词在大数据搜索中的应用方法及系统
WO2018027342A1 (zh) * 2016-08-06 2018-02-15 马岩 同义词在大数据搜索中的应用方法及系统
CN107315766A (zh) * 2017-05-16 2017-11-03 广东电网有限责任公司江门供电局 一种集合智能与人工问答的语音问答方法及其装置
CN108959647A (zh) * 2018-08-01 2018-12-07 北京新能源汽车股份有限公司 一种汽车帮助信息的查询方法、装置、控制器及汽车
CN110222271B (zh) * 2019-06-19 2022-03-15 北京百度网讯科技有限公司 用于生成网页的方法和装置
CN112650951A (zh) * 2020-12-21 2021-04-13 撼地数智(重庆)科技有限公司 一种企业相似度匹配方法、系统和计算装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1042253A (zh) * 1989-05-13 1990-05-16 北京市邮政科学研究所 全国邮政编码微机查询报号系统
CN1287439A (zh) * 1999-09-03 2001-03-14 捷瑞讯科技有限公司 电话查询方法及其数据库
US20060053101A1 (en) * 2004-09-07 2006-03-09 Stuart Robert O More efficient search algorithm (MESA) using alpha omega search strategy

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1042253A (zh) * 1989-05-13 1990-05-16 北京市邮政科学研究所 全国邮政编码微机查询报号系统
CN1287439A (zh) * 1999-09-03 2001-03-14 捷瑞讯科技有限公司 电话查询方法及其数据库
US20060053101A1 (en) * 2004-09-07 2006-03-09 Stuart Robert O More efficient search algorithm (MESA) using alpha omega search strategy

Also Published As

Publication number Publication date
CN101246482A (zh) 2008-08-20

Similar Documents

Publication Publication Date Title
CN100550018C (zh) 基于结构化小文本的号码百事通搜索系统和方法
CN101661475B (zh) 一种搜索方法和系统
US8983971B2 (en) Method, apparatus, and system for mobile search
CN111400507B (zh) 实体匹配方法及其装置
CN101563687A (zh) 企业收录搜索
CN101437039A (zh) 一种移动搜索的方法、系统和设备
CN101196900A (zh) 一种基于元数据的信息检索方法
CN105205689A (zh) 推荐商户的方法及系统
CN108595461A (zh) 兴趣探索方法、存储介质、电子设备及系统
CN102955781A (zh) 一种人物搜索方法及装置
CN102591911A (zh) 位置相关实体的实时个性化推荐
CN108154425A (zh) 一种结合社会网络和位置的线下商户推荐方法
CN101685456B (zh) 一种搜索的方法、系统和装置
CN101777989B (zh) 一种搜索的方法和服务器
CN109522475A (zh) 一种基于用户历史消费数据的商家推荐方法
CN102541936A (zh) 兴趣点流行度获取方法和装置
CN113627995B (zh) 商品推荐列表更新方法及其装置、设备、介质、产品
CN104391908B (zh) 一种图上基于局部敏感哈希的多关键字索引方法
CN109359249A (zh) 基于学者科研成果挖掘的学者精准定位方法及装置
WO2010096986A1 (zh) 移动搜索方法及装置
US20090119250A1 (en) Method and system for searching and ranking entries stored in a directory
CN110502687B (zh) 一种网站优化方法和装置
CN105159898B (zh) 一种搜索的方法和装置
CN102915312B (zh) 网站中的信息发布方法和系统
CN111737537B (zh) 基于图数据库的poi推荐方法、设备及介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant