CN104679885A

CN104679885A - 一种基于语义特征模型的用户搜索串机构名识别方法

Info

Publication number: CN104679885A
Application number: CN201510116518.6A
Authority: CN
Inventors: 牛振东; 陆浩
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2015-03-17
Filing date: 2015-03-17
Publication date: 2015-06-03
Anticipated expiration: 2035-03-17
Also published as: CN104679885B

Abstract

本发明属于自然语言处理领域，具体涉及一种基于语义特征模型的用户搜索串机构名识别方法。其包括模型构建阶段和识别阶段的处理过程。在模型构建阶段，利用已有的长文本标注语料库，构建符合用户搜索串分布的训练语料库，该语料库除保存了传统原有分词、词性标注的特征，更增加了查询串中的上下文特征、粘合度特征相关语义环境特征，根据复合语义特征建立条件随机场模型作为机构名识别模型。在识别阶段，通过计算用户搜索串的相应语义环境特征得到用户查询串的模式序列，抽取符合机构名的模式序列，即获得用户搜索串中的机构名。本方法使用户搜索串中机构名识别的准确率和召回率得到了综合的提升。

Description

一种基于语义特征模型的用户搜索串机构名识别方法

技术领域

本发明属于自然语言处理领域，具体涉及一种基于语义特征模型的用户搜索串机构名识别方法。

背景技术

当今社会已成为信息爆炸时代，互联网的迅猛发展，使得中国已经具有6亿多网民群体，ZB(ZettaByte)级的数据积累。而搜索引擎则大大方便了人们的日常生活、工作、学习中信息获取需求，其信息筛选、排序的重要性尤为凸显。用户在将自身的问题输入至搜索引擎中后，搜索引擎将会对用户搜索串进行切分词、去停用词、纠错、实体识别等一系列预处理环节，在这些预处理环节每一项都极其重要必不可少，处理结果的好坏将直接影响到用户能否获取到关注的信息，所关注的信息是否排列在搜索结果中排序靠前。而机构名的识别，作为命名实体识别预处理工作中的一个重要子任务，其目的是识别搜索串中所包含的企业、单位、组织、团体等机构，以便于在返回搜索结果时加强对包含上述机构名称网页的排序权重，从而让用户获得满意的查询结果。

目前已有机构名识别方法多针对长文本(句子级、篇章级)，由于长文本蕴含着丰富上下文语义环境(语法结构、依存关系等)特性，因此，采用机器学习的方法能够获得较好的机构名识别效果；然而当用在用户搜索串中进行机构名识别时，则由于其文字简短、结构随意、语义模糊等特性，无法对机构名边界进行切分以及歧义，传统机构名识别的方法就显得力不从心。

目前针对用户搜索串，没有公认且开放的数据语料资源，但传统长文本机构名识别中，却拥有标注完整、成熟的长文本语料库(如：人民日报语料库)。采用算法加人工审核的方式，半自动生成、标注用户搜索串训练语料集，这样将避免大量枯燥、繁杂的搜索日志语料人工标注工作，为机构名识别提供基础保障。

本发明采取半自动构建搜索日志语料库并结合语义特征模型，即提取用户上下文特征、粘合度特征，来构建用户搜索串的语义环境，并使用条件随机场条件随机场模型进行训练和识别，有效解决了用户搜索串中由于缺少语义环境而造成的机构名漏识别、错识别的问题，大幅提高了服务于用户搜索串内容理解的机构名识别准确率与召回率。

发明内容

本发明的目的是为解决由于用户搜索串较为简短、缺乏语义环境，采用现有长文本机构名识别器用于用户搜索串的机构名识别时，会产生低准确度的问题，提出一种基于语义特征模型的用户搜索串机构名识别方法。

本发明的目的是通过下述技术方案实现的。

本发明的一种基于语义特征模型的用户搜索串机构名识别方法，其特征在于：其具体实现步骤包括：

步骤一、以机器学习方式训练机构名识别语义模型；具体操作为：

步骤1.1：确定识别用户搜索串中机构名的识别模型。

所述用户搜索串中文机构名识别模型采用条件随机场模型(ConditionalRandom Fields，CRF)。

步骤1.2：确定训练语料库；具体操作为：

步骤1.2.1：选取待处理语料库。

选取经过人工分词和词性标注处理的篇章型文本作为待处理语料库(用符号ArticleSet表示)。

步骤1.2.2：构建机构名大词典。

对已有机构词库进行合并，排除重复机构词汇后，合并之后的词库称为机构名大词典(用符号OrgDict表示)。

所述已有机构词库包括：人民日报机构词库、搜狗细胞机构名词库、有道机构名词库、微软必应词库和百度词库。

步骤1.2.3：对待处理语料库进行处理，生成包含机构名的用户搜索串用户搜索串，作为训练步骤1.1中所述识别模型的正例集，用符号Pset表示。所用户搜索串是用户输入到搜索引擎中的文本内容。

所述生成识别模型的正例集Pset的具体操作为：

步骤1.2.3.1：确定4种包含机构名的正例查询串。

用符号S表示待处理语料库ArticleSet中的一个句子，S＝w₁w₂w₃…w_n，其中w_k代表句子S中的一个词，1≤k≤n，n为句子S包含的词的数量。若句子S中包含机构名，则机构名用符号nt表示，nt＝w_iw_i+1…w_j,1≤i＜j≤n。

用符号P表示用户搜索串类型集合。P＝{P₁,P₂,P₃,P₄,P₅}，其中P₁表示机构名上下文缺失情况，P₁＝nt；P₂表示机构名下文缺失情况，P₂＝w_i-1+nt；P₃表示机构名上文缺失情况,P₃＝nt+w_j+1；P₄表示机构名上下文完整情况，P₄＝w_i-1+nt+w_j+1；P₅表示不包含机构名的情况，P₅＝w_iw_i+1…w_j。

P₁,P₂,P₃,P₄即为包含机构名的4种正例查询串。

步骤1.2.3.2：对步骤1.2.1中所述待处理语料库ArticleSet中的每一个句子，做以下处理：如果当前句子中包含机构名nt，则按照P₁,P₂,P₃,P₄所代表的4种用户搜索串类型的组成格式，分别提取包含机构名的4个正例查询串，组成备选的用户搜索串{P₁,P₂,P₃,P₄}。

步骤1.2.3.3：选取一个搜索引擎的后台用户搜索串库(用符号QuerySet表示)，并确定后台用户搜索串库QuerySet中P₁,P₂,P₃,P₄4种用户搜索串类型的分布概率，分别用符号p₁％、p₂％、p₃％和p₄％表示，并根据P₁,P₂,P₃,P₄4种用户搜索串类型的分布概率p₁％、p₂％、p₃％和p₄％，对备选的用户搜索串{P₁,P₂,P₃,P₄}进行随机保留，从4类情况选取其中一种作为正例查询串。

通过上述步骤的操作，得到正例集Pset。

所述正例集Pset中的数据量大于3000条。

步骤1.2.4：对待处理语料库进行处理，生成不包含机构名的用户搜索串，作为训练步骤1.1中所述识别模型的反例集，用符号Nset表示；具体操作为：

将待处理语料库中出现的正例查询串P₁，使用符号#代替，将待处理语料库中出现的其它正例查询串P₂,P₃,P₄，直接从待处理语料库中做删除处理；然后将得到的文本通过其包含的标点符号进行分割，得到反例查询串；如果得到的反例查询串的长度大于16个字符，则通过随机切分，将其分割为长度在2至16个字符范围内的反例查询串。所有的反例查询串构成反例集Nset。

所述正例集Pset中的数据量与反例集Nset中的数据量之比为1：5至1：10。

步骤1.2.5：将正例集Pset与反例集Nset合并得到训练集(用符号TrainSet表示)。

步骤1.2.6：对训练集TrainSet进行处理，得到训练语料集；具体操作为：

步骤1.2.6.1：构建上文词表(用符号UContextDict表示)和下文次表(用符号DContextDict表示)。

将步骤1.2.3.3中确定的搜索引擎的后台用户搜索串库QuerySet以及步骤1.2.2构建的机构名大词典OrgDict作为输入，依次从用户搜索串库QuerySet的每一个搜索串中匹配机构名大词典OrgDict中的机构名，如果搜索串中包含机构名，则将该机构名的上文词和下文词分别保存至上文词表UContextDict表示和下文词表DContextDict中，并统计上文词表UContextDict中每个上文词出现的次数和下文词表DContextDict中每个下文词出现的次数。

步骤1.2.6.2：对步骤1.2.3中所述正例集Pset中的每个正例搜索串，采用正例搜索串标注规则对机构名内部及上下文词进行机器标注，得到正例搜索串中每个词的上下文特征标注。

所述正例搜索串标注规则具体为：

用符号H标注机构名的上文词；用符号T标注机构名的下文词；用符号B标注机构名中的第一个词；用符号E标注机构名中的最后一词；用符号P_NS标注机构名中倒数第二个词为地名的词；用符号P_NT标注机构名中倒数第二个词为机构名的词；用符号P_J标注机构名中倒数第二个词为机构或地名简称的词；用符号P标注机构名中倒数第二个词为其它情况的词；用符号I标注机构名中其他内部词。

步骤1.2.6.3：对步骤1.2.4中所述反例集Nset中的每个用户搜索串，采用反例搜索串标注规则进行机器标注，得到反例搜索串中每个词的上下文特征标注。

所述反例搜索串标注规则具体为：用符号C标注两机构名之间的连接词；用符号O标注其它词。

步骤1.2.7：计算训练集TrainSet中每一用户搜索串中的每个分词的语义粘合度特征值。

步骤1.2.7.1：对于每个用户搜索串P属于训练集TrainSet，通过公式(1)计算P中每个分词w_r的左粘合度。

ADH_L (w_{r}) = \frac{M (w_{r}, UContextDict)}{Σ_{d^{'} = 1}^{n^{'}} M^{'} (w_{r}, d^{'})} - - - (1)

其中，ADH_L(w_r)表示分词w_r的左粘合度，即分词w_r与上文词表的粘合度；n′表示步骤1.2.3.3中确定的搜索引擎的后台用户搜索串库QuerySet中数据的数量；M(w_r,UContextDict)的取值为：在上文词表UContextDict中查找w_r，如果匹配成功，则将上文词表UContextDict中w_r对应的次数作为M(w_r,UContextDict)的取值；否则，其值为0；M′(w_r,d′)取值为：当w_r在搜索引擎的后台用户搜索串库QuerySet中的第d′条数据中匹配成功，则M′(w_r,d′)的值为1；否则，取值为0。

步骤1.2.7.2：对于每个用户搜索串P属于训练集TrainSet，通过公式(2)计算P中每个分词w_r的右粘合度。

ADH_R (w_{r}) = \frac{M (w_{r}, UContextDict)}{Σ_{d^{'} = 1}^{n^{'}} M^{'} (w_{r}, d^{'})} - - - (2)

其中，ADH_R(w_r)表示分词w_r的右粘合度，即分词w_r与下文词表的粘合度；m表示机构名大词典OrgDict中词的数量；n′表示步骤1.2.3.3中确定的搜索引擎的后台用户搜索串库QuerySet中数据的数量；M(w_r,DContextDict)的取值为：在下文词表DContextDict中查找w_r，如果匹配成功，则将下文词表DContextDict中w_r对应的次数作为M(w_r,DContextDict)的取值；否则，其值为0；M′(w_r,d′)取值为：当w_r在搜索引擎的后台用户搜索串库QuerySet中的第d′条数据中匹配成功，则M′(w_r,d′)的值为1；否则，取值为0。

步骤1.2.7.3：对步骤1.2.7.1得到的左粘合度和步骤1.2.7.2得到的右粘合度进行区间映射。

当分词w_r的左粘合度ADH_L(w_r)的值位于区间[0.1,1]之间时，将其映射为左粘合度第一区间(用符号L₁表示)；当分词w_r的右粘合度ADH_R(w_r)的值位于区间[0.1,1]之间时，将其映射为右粘合度第一区间(用符号R₁表示)；

当分词w_r的左粘合度ADH_L(w_r)的值位于区间[0.01,0.1)之间时，将其映射为左粘合度第二区间(用符号L₂表示)；当分词w_r的右粘合度ADH_R(w_r)的值位于区间[0.01,0.1)之间时，将其映射为右粘合度第二区间(用符号R₂表示)；

当分词w_r的左粘合度ADH_L(w_r)的值位于区间[0.001,0.01)之间时，将其映射为左粘合度第三区间(用符号L₃表示)；当分词w_r的右粘合度ADH_R(w_r)的值位于区间[0.001,0.01)之间时，将其映射为右粘合度第三区间(用符号R₃表示)；

当分词w_r的左粘合度ADH_L(w_r)的值位于区间[0.0001,0.001)之间时，将其映射为左粘合度第四区间(用符号L₄表示)；当分词w_r的右粘合度ADH_R(w_r)的值位于区间[0.0001,0.001)之间时，将其映射为右粘合度第四区间(用符号R₄表示)；

当分词w_r的左粘合度ADH_L(w_r)的值位于区间[0.00001,0.0001)之间时，将其映射为左粘合度第五区间(用符号L₅表示)；当分词w_r的右粘合度ADH_R(w_r)的值位于区间[0.00001,0.0001)之间时，将其映射为右粘合度第五区间(用符号R₅表示)；

当分词w_r的左粘合度ADH_L(w_r)的值位于区间(-∞,0.00001)之间时，将其映射为左粘合度第六区间(用符号L₆表示)；当分词w_r的右粘合度ADH_R(w_r)的值位于区间(-∞,0.00001)之间时，将其映射为右粘合度第六区间(用符号R₆表示)；

步骤1.2.7.4：选取分词w_r的左粘合度和右粘合度两者中的大值作为分词w_r的语义粘合度特征值(用符号ADH(w_r)表示)，并保存其映射区间。

步骤1.2.8：对应训练集TrainSet中的数据，建立一个特征表，称为训练语料库。

所述特征表包括：用户搜索串标识、用户搜索串类型、分词w_r标识、分词w_r内容、分词w_r词性、分词w_r语义粘合度特征值ADH(w_r)的映射区间、上下文特征标注。

所述用户搜索串类型为P₁,P₂,P₃,P₄,P₅。

所述分词w_r词性由步骤1.2.1中所述待处理语料库中的词性标注信息得到。

所述分词w_r语义粘合度特征值ADH(w_r)的映射区间从步骤1.2.7得到。

所述上下文特征标注从步骤1.2.6得到。

步骤1.3：配置条件随机场模型CRF的参数。

步骤1.4：使用步骤1.2得到的训练语料库作为输入，训练步骤1.3配置好的条件随机场模型CRF，得到识别模型。

步骤二、对待识别用户搜索串进行特征提取。

步骤2.1：对待识别用户搜索串进行分词和词性标注，得到词性标注特征。具体操作为：

采用中文分词及词性标注工具，对待识别用户搜索串进行处理，得到经过分词和词性标注的待识别用户搜索串。

所述中文分词及词性标注工具包括FudanNLP、哈工大LTP、NLPIR。

步骤2.2：计算待识别用户搜索串中每个分词的语义粘合度特征值及其映射区间。

步骤2.3：生成待识别用户搜索串对应的特征表。

所述待识别用户搜索串对应的特征表包括：分词标识、分词内容、分词词性、分词语义粘合度特征值ADH(w_r)的映射区间和上下文特征标注。其中，上下文特征标注为未知信息，其余均为已知信息。

步骤三、获得待识别用户搜索串中的机构名。

步骤3.1：将步骤二得到的待识别用户搜索串对应的特征表输入至步骤一得到的识别模型，识别模型输出待识别用户搜索串对应的特征表的上下文特征标注。

步骤3.2：按顺序提取待识别用户搜索串对应的特征表的上下文特征标注，得到上下文特征标注串，在上下文特征标注串中匹配[B(I)(P_NS/P_NT/P_J/P)E]模式，如匹配成功，则将匹配成功的串对应的词串进行输出，得到的结果即为识别的机构名称。

其中，[B(I)(P_NS/P_NT/P_J/P)E]模式中的字符含义为步骤1.2.6.2和步骤1.2.6.3中描述的字符含义，小括号表示可选项，斜杠表示或关系。

有意效果

本发明提出的基于语义特征模型的用户搜索串机构名识别方法与已有技术相比较，其优点在于：

(1)本发明方法符合用户对搜索引擎输入的搜索串训练语料自动构建，可在缺乏搜索引擎用户搜索串数据的情况下，使用篇章型文本为待处理文档，将篇章型文档依照用户查询输入的分布特征进行搜索串生成，方便构建出大规模的服务于搜索引擎查询中识别的训练语料。同时，由于自动构建语料模拟了用户搜索串中上下文的环境，使得模型能够一定程度上从训练语料中学习机构名上下文缺失知识，因此大幅提高了搜索引擎对用户搜索串的机构名识别召回率。

(2)在模型学习和预测阶段不仅采用传统的词性作为特征，更引入了机构名识别粘合度特征、上下文环境等复合语义，这样对用户搜索串中的上下文词起到指示作用，强化了模型对于日志中机构名边界的判别能力。使用复合语义特征来减少普通文本与查询日志内容上的差异性带来的影响，提高了搜索引擎对用户搜索串的机构名识别准确度。

附图说明

图1为本发明具体实施方式中基于语义特征模型的用户搜索串机构名识别方法的流程示意图。

具体实施方式

下面结合附图和实施例，对本发明提供的基于语义特征模型的用户搜索串机构名识别方法作详细地说明。

本发实施例中的基于语义特征模型的用户搜索串机构名识别方法，其操作流程如图1所示，具体实现步骤为：

步骤一、以机器学习方式训练机构名识别语义模型。

步骤1.1：确定识别用户搜索串中机构名的识别模型。

本实施例中，用户搜索串中机构名识别模型采用条件随机场模型CRF，使用CRF++0.54windows版本实现该模型。

步骤1.2：确定训练语料库。

步骤1.2.1：选取待处理语料库。

选取PFR人民日报标注语料库(版本1.0)作为待处理语料库ArticleSet。PFR人民日报标注语料库是1998年1月份的版本，该语料库经过了人工分词和词性标注处理。

例如，PFR人民日报标注语料库(版本1.0)中的一段语料节选如下：“…辞旧迎新/l之际/f，/w国务院/nt总理/n李/nr鹏/nr今天/t上午/t来到/v[北京/ns石景山/ns发电/vn总厂/n]nt考察/v，/w向/p广大/b企业/n职工/n表示/v节日/n的/u祝贺/vn…”。

步骤1.2.2：构建机构名大词典。

选取搜狗细胞机构名词库(“中国高等院校大全”、“中国医院大全”、“政府机关团体机构大全”)以及从人民日报1998年1月标注语料中提取出的人民日报机构词库进行合并，组建了一个机构名大词典OrgDict，如表1所示。

表1 机构名大词典(OrgDict)

序号	词名
		1	新华社
2	中共北京市委宣传部
		3	中国交响乐团
4	中央人民广播电台
		5	国务院
6	北京市委
		7	华北电力集团公司
8	中华全国总工会
		9	广播电影电视部
10	国家语委
		…	…

步骤1.2.3：对待处理语料库进行处理，生成包含机构名的用户搜索串，作为训练步骤1.1中所述识别模型的正例集Pset。

步骤1.2.3.1：确定4种包含机构名的正例搜索串。

用符号S表示待处理语料库ArticleSet中的一个句子，S＝w₁w₂w₃…w_n，其中w_k代表句子S中的一个词，(1≤k≤n)。若句子中包含机构名，则机构名用符号nt表示，nt＝w_iw_i+1…w_j(1≤i＜j≤n)。

其中，P₁,P₂,P₃,P₄即为4种包含机构名的正例搜索串。

步骤1.2.3.2：对步骤1.2.1中所述待处理语料库ArticleSet中的每一个句子，做以下处理：如果当前句子中包含，则按照P₁,P₂,P₃,P₄所代表的4种用户搜索串类型的组成格式，分别提取包含机构名的4个正例查询串，组成备选的用户搜索串{P₁,P₂,P₃,P₄}。

例如，当S＝“…辞旧迎新/l之际/f，/w国务院/nt总理/n李/nr鹏/nr今天/t上午/t来到/v[北京/ns石景山/ns发电/vn总厂/n]nt考察/v，/w向/p广大/b企业/n职工/n表示/v节日/n的/u祝贺/vn…”，P₁＝“[北京/ns石景山/ns发电/vn总厂/n]nt”；P₂＝“来到/v[北京/ns石景山/ns发电/vn总厂/n]nt”；P₃＝“[北京/ns石景山/ns发电/vn总厂/n]nt考察/v”；P₄＝“来到/v[北京/ns石景山/ns发电/vn总厂/n]nt考察/v”。

步骤1.2.3.3：选取搜狗用户搜索日志库SogouQ2012版的精简版作为后台用户搜索串库QuerySet，并通过计算确定后台用户搜索串库QuerySet中P₁,P₂,P₃,P₄4种用户搜索串类型的分布概率，分别为52％、27％、15％和6％，并根据P₁,P₂,P₃,P₄4种用户搜索串类型的分布概率52％、27％、15％和6％，对备选的用户搜索串{P₁,P₂,P₃,P₄}进行随机保留，从四类情况选取其中一种作为正例搜索串。本例生成的结果为＝“[北京/ns石景山/ns发电/vn总厂/n]nt考察/v”，即P₃类型。

通过上述步骤的操作，得到正例集Pset。

正例集Pset中的数据量约5000条。

步骤1.2.4：对待处理语料库进行处理，生成不包含机构名的用户搜索串，作为训练步骤1.1中所述识别模型的反例集，用符号Nset表示。

具体为：将待处理语料库中出现的正例搜索串P₁，使用特定标识(用符号#表示)代替，将待处理语料库中出现的其它正例搜索串P₂,P₃,P₄，直接从待处理语料库中做删除处理，然后将得到的文本通过其包含的标点符号进行分割，得到反例搜索串；如果得到的反例搜索串的长度大于16个字符，则通过随机切分，将其分割为长度在2至16个字符范围内的反例搜索串。所有的反例搜索串构成反例集Nset。

在上例中，将正例搜索串删除，即下文中的用大括号括起部分；随机切分的反例搜索串用竖线分割，具体如下：

“辞旧迎新之际|，国务院总理李鹏|今天上午来到|{[北京石景山发电总厂]考察}，向广大|企业职工表示节日的祝贺|，向将要在|节日期间坚守工作岗位|的同志们表示慰问|。”

本实施例中正例集Pset中的数据量与反例集Nset中的数据量之比为1：7。

步骤1.2.5：将正例集Pset与反例集Nset合并得到训练集TrainSet。

步骤1.2.6：对训练集TrainSet进行处理，得到训练语料集。

步骤1.2.6.1：构建上文词表UContextDict和下文次表DContextDict。

将步骤1.2.3.3中确定的搜索引擎的后台用户搜索串库QuerySet以及步骤1.2.2中构建机构名大词典OrgDict作为输入，依次从用户搜索串库QuerySet的每一个搜索串中匹配机构名大词典OrgDict中的机构名，如果搜索串中包含机构名，则将机构名的上文词和下文词分别保存至上文词表UContextDict和下文词表DContextDict中，并统计上文词表UContextDict中每个上文词出现的次数和下文词表DContextDict中每个下文词出现的次数，如表2所示。

表2 上文词表(UContextDic)和下文词表(DContextDict)

步骤1.2.6.2：对步骤1.2.3中所述正例集Pset中的每个用户搜索串，采用如下规则对机构名内部及上下文词进行机器标注，得到用户搜索串中每个词的上下文特征标注。

用符号H标注机构名的上文词；用符号T标注机构名的下文词；用符号B标注机构名中的第一个词；用符号E标注机构名中的最后一词；用符号P_NS标注机构名中倒数第二个词为地名的词；用符号P_NT标注机构名中倒数第二个词为机构名的词；用符号P_J标注机构名中倒数第二个词为机构或地名简称的词；用符号P标注机构名中倒数第二个词为其它情况的词；用符号I标注机构名中其他内部词。例子中正例搜索串的上下文标注结果如表3的5至9行所示。

步骤1.2.6.3：对步骤1.2.4中所述反例集Nset中的每个用户搜索串，采用如下规则进行机器标注。用符号C标注两机构名之间的连接词；用符号O标注其它词。例子中反例搜索串的上下文标注结果如表3的2至4行所示。

表3 上下文标注结果

词名	词性	上下文标注
			辞旧迎新	l	O
之际	f	O
			…	…	…
北京	ns	B
			石景山	ns	I
发电	vn	P
			总厂	n	E
考察	v	O

步骤1.2.7.1：对于每个用户搜索串P属于训练集TrainSet，通过公式(1)计算P中每个分词w_r的左粘合度，例子中正例搜索串中每个词的左粘合度如表4第5列所示。

步骤1.2.7.2：对于每个用户搜索串P属于训练集TrainSet，通过公式(2)计算P中每个分词w_r的右粘合度，例子中正例搜索串中每个词的右粘合度如表4第6列所示。

当分词w_r的左粘合度ADH_L(w_r)的值位于区间[0.1,1]之间时，将其映射为左粘合度第一区间L₁；当分词w_r的右粘合度ADH_R(w_r)的值位于区间[0.1,1]之间时，将其映射为右粘合度第一区间R₁；

当分词w_r的左粘合度ADH_L(w_r)的值位于区间[0.01,0.1)之间时，将其映射为左粘合度第二区间L₂；当分词w_r的右粘合度ADH_R(w_r)的值位于区间[0.01,0.1)之间时，将其映射为右粘合度第二区间R₂；

当分词w_r的左粘合度ADH_L(w_r)的值位于区间[0.001,0.01)之间时，将其映射为左粘合度第三区间L₃；当分词w_r的右粘合度ADH_R(w_r)的值位于区间[0.001,0.01)之间时，将其映射为右粘合度第三区间R₃；

当分词w_r的左粘合度ADH_L(w_r)的值位于区间[0.0001,0.001)之间时，将其映射为左粘合度第四区间L₄；当分词w_r的右粘合度ADH_R(w_r)的值位于区间[0.0001,0.001)之间时，将其映射为右粘合度第四区间R₄；

当分词w_r的左粘合度ADH_L(w_r)的值位于区间[0.00001,0.0001)之间时，将其映射为左粘合度第五区间L₅；当分词w_r的右粘合度ADH_R(w_r)的值位于区间[0.00001,0.0001)之间时，将其映射为右粘合度第五区间R₅；

当分词w_r的左粘合度ADH_L(w_r)的值位于区间(-∞,0.00001)之间时，将其映射为左粘合度第六区间L₆；当分词w_r的右粘合度ADH_R(w_r)的值位于区间(-∞,0.00001)之间时，将其映射为右粘合度第六区间R₆。

步骤1.2.7.4：选取分词w_r的左粘合度和右粘合度两者中的大值作为分词w_r的语义粘合度特征值ADH(w_r)，并保存其映射区间。例子中正例搜索串中每个词的语义粘合度特征值ADH(w_r)的映射区间如表4第7列所示。

表4 正例搜索串语义粘合度结果

例句对应的特征表如表5所示。

表5 特征表实例

步骤1.3：配置条件随机场模型CRF的参数。U1至U18为参数名称，配置项为在扫描训练文件时所需的记录的属性，以便记录其转移概率。其中w_r表示当前词，w_r-1表示当前词上文词(在当前搜索串Q中w_r-1有可能为空，即当前词无上文词)，w_r+1表示当前词下文词(在当前搜索串Q中w_r+1有可能为空，即当前词无下文词)。详细的配置项说明如下：

U1:％x[-1,3]当前词上文词w_r-1行中取该词名属性值；

U2:％x[0,3]当前词w_r行中取该词名属性值；

U3:％x[1,3]当前词下文词w_r行中取该词名属性值；

U4:％x[-1,3]/％x[0,3]当前词上文词w_r-1词名属性与当前词w_i词名属性依上下位顺序出现的次数；

U5:％x[0,3]/％x[1,3]当前词w_r词名属性与当前词下文词w_r+1词名属性依上下位顺序出现的次数；

U6:％x[-1,4]当前词上文词w_r-1行中取该词性属性值；

U7:％x[0,4]当前词w_r行中取该词性属性值；

U8:％x[1,4]当前词下文词w_r+1行中取该词性属性值；

U9:％x[-1,4]/％x[0,4]当前词上文词w_r-1词性属性与当前词w_i词性属性依上下位顺序出现的次数；

U10:％x[0,4]/％x[1,4]当前词w_r词性属性与当前词下文词w_r+1词性属性依上下位顺序出现的次数；

U11:％x[0,5]当前词w_r行中的粘合度属性值；

U12:％x[0,0]当前词w_r所属于的搜索串ID；

U13:％x[0,1]当前词w_r所属于的搜索串类型；

U14:％x[-1,6]当前词上文词w_r-1行中取该上下文属性值；

U15:％x[0,6]当前词w_r行中取该上下文属性值；

U16:％x[1,6]当前词下文词w_r+1行中取该上下文属性值；

U17:％x[-1,4]/％x[0,4]当前词上文词w_r-1上下文属性与当前词w_r上下文属性依上下位顺序出现的次数；

U18:％x[0,4]/％x[1,4]当前词w_r上下文属性与当前词下文词w_r+1上下文属性依上下位顺序出现的次数。

步骤二、对待识别用户搜索串进行特征提取。

步骤2.1：采用分词及词性标注工具(FudanNLP)，对待识别用户搜索串“四川电视台主持人宁远”进行处理，得到词性标注特征：“四川/ns电视台/n主持人/vn宁远/nr”。

步骤2.2：计算待识别用户搜索串中每个分词的语义粘合度特征值及其映射区间，如表6第2列至第4列所示。

表6 待识别用户搜索串的语义粘合度特征值及其映射区间

词名	左粘合度	右粘合度	区间映射
				四川	4.52022802039125E-4	2.51123778910625E-5	L4
电视台	0	4.76417341591234E-4	R4
				主持人	0	0.0203236245954693	R2
宁远	0.1428571429	0	L1

步骤2.3：生成待识别用户搜索串对应的特征表。

所述待识别用户搜索串对应的特征表包括分词标识、分词内容、分词词性、分词语义粘合度特征值ADH(w_r)的映射区间、上下文特征标注，如表7所示。其中上下文特征标注为未知信息，其余均为已知信息。

表7 待识别用户搜索串对应的特征表

步骤三、获得待识别用户搜索串中的机构名。

步骤3.1：输入待识别用户搜索串对应的特征表至识别模型，获取上下文特征标注。具体为：将步骤二得到的待识别用户搜索串对应的特征表输入至步骤一得到的识别模型，识别模型输出待识别用户搜索串对应的特征表的上下文特征标注，如表8所示。

表8 待识别用户搜索串分词的上下文特征标注

词名	词性	粘合度	上下文
				四川	ns	L4	B
电视台	n	R4	E

主持人	vn	R2	T
				宁远	n	L1	O

步骤3.2：按顺序提取待识别用户搜索串对应的特征表的上下文特征标注，得到上下文特征标注串[B E]，在上下文特征标注串中匹配[B(I)(P_NS/P_NT/P_J/P)E]模式，匹配成功，则将匹配成功的串对应的词串进行输出，得到的结果即为识别的机构名称“四川电视台”。

为验证该语义模型对用户搜索串的识别效果，实验随机抽取5000条用户搜索串使用本方法进行实验,选用正确率、召回率、F值作为评价指标，结果如表9。

表9 本识别方法的识别率情况

识别方法	正确率(％)	召回率(％)	F值(％)
				基于语义特征模型的用户搜索串机构名识别	77.89	81.29	79.55

上述描述对本发明的特征和方法进行了具体的说明，但应了解，在所述权利要求中定义的本发明并不局限于所述的具体特征或方法。本领域人员可在权利要求的范围内做出修改，并不影响本发明的实质内容。

Claims

1.一种基于语义特征模型的用户搜索串机构名识别方法，其特征在于：其具体实现步骤包括：

步骤1.1：确定识别用户搜索串中机构名的识别模型；

所述用户搜索串中文机构名识别模型采用条件随机场模型CRF；

步骤1.2：确定训练语料库；具体操作为：

步骤1.2.1：选取待处理语料库；

选取经过人工分词和词性标注处理的篇章型文本作为待处理语料库，用符号ArticleSet表示；

步骤1.2.2：构建机构名大词典；

对已有机构词库进行合并，排除重复机构词汇后，合并之后的词库称为机构名大词典，用符号OrgDict表示；

步骤1.2.3：对待处理语料库进行处理，生成包含机构名的用户搜索串用户搜索串，作为训练步骤1.1中所述识别模型的正例集，用符号Pset表示；所用户搜索串是用户输入到搜索引擎中的文本内容；

所述生成识别模型的正例集Pset的具体操作为：

步骤1.2.3.1：确定4种包含机构名的正例查询串；

用符号S表示待处理语料库ArticleSet中的一个句子，S＝w₁w₂w₃…w_n，其中w_k代表句子S中的一个词，1≤k≤n，n为句子S包含的词的数量；若句子S中包含机构名，则机构名用符号nt表示，nt＝w_iw_i+1…w_j,1≤i＜j≤n；

用符号P表示用户搜索串类型集合；P＝{P₁,P₂,P₃,P₄,P₅}，其中P₁表示机构名上下文缺失情况，P₁＝nt；P₂表示机构名下文缺失情况，P₂＝w_i-1+nt；P₃表示机构名上文缺失情况,P₃＝nt+w_j+1；P₄表示机构名上下文完整情况，P₄＝w_i-1+nt+w_j+1；P₅表示不包含机构名的情况，P₅＝w_iw_i+1…w_j；

P₁,P₂,P₃,P₄即为包含机构名的4种正例查询串；

步骤1.2.3.2：对步骤1.2.1中所述待处理语料库ArticleSet中的每一个句子，做以下处理：如果当前句子中包含机构名nt，则按照P₁,P₂,P₃,P₄所代表的4种用户搜索串类型的组成格式，分别提取包含机构名的4个正例查询串，组成备选的用户搜索串{P₁,P₂,P₃,P₄}；

步骤1.2.3.3：选取一个搜索引擎的后台用户搜索串库，用符号QuerySet表示，并确定后台用户搜索串库QuerySet中P₁,P₂,P₃,P₄4种用户搜索串类型的分布概率，分别用符号p₁％、p₂％、p₃％和p₄％表示，并根据P₁,P₂,P₃,P₄4种用户搜索串类型的分布概率p₁％、p₂％、p₃％和p₄％，对备选的用户搜索串{P₁,P₂,P₃,P₄}进行随机保留，从4类情况选取其中一种作为正例查询串；

通过上述步骤的操作，得到正例集Pset；

将待处理语料库中出现的正例查询串P₁，使用符号#代替，将待处理语料库中出现的其它正例查询串P₂,P₃,P₄，直接从待处理语料库中做删除处理；然后将得到的文本通过其包含的标点符号进行分割，得到反例查询串；如果得到的反例查询串的长度大于16个字符，则通过随机切分，将其分割为长度在2至16个字符范围内的反例查询串；所有的反例查询串构成反例集Nset；

步骤1.2.5：将正例集Pset与反例集Nset合并得到训练集，用符号TrainSet表示；

步骤1.2.6.1：构建上文词表和下文次表，上文词表用符号UContextDict表示和下文次表，上文词表用符号DContextDict表示；

步骤1.2.6.2：对步骤1.2.3中所述正例集Pset中的每个正例搜索串，采用正例搜索串标注规则对机构名内部及上下文词进行机器标注，得到正例搜索串中每个词的上下文特征标注；

步骤1.2.6.3：对步骤1.2.4中所述反例集Nset中的每个用户搜索串，采用反例搜索串标注规则进行机器标注，得到反例搜索串中每个词的上下文特征标注；

步骤1.2.7：计算训练集TrainSet中每一用户搜索串中的每个分词的语义粘合度特征值；

步骤1.2.7.1：对于每个用户搜索串P属于训练集TrainSet，通过公式(1)计算P中每个分词w_r的左粘合度；

ADH_L (w_{r}) = \frac{M (w_{r}, UContextDict)}{Σ_{d^{'} = 1}^{n^{'}} M^{'} (w_{r}, d^{'})} - - - (1)

其中，ADH_L(w_r)表示分词w_r的左粘合度，即分词w_r与上文词表的粘合度；n′表示步骤1.2.3.3中确定的搜索引擎的后台用户搜索串库QuerySet中数据的数量；M(w_r,UContextDict)的取值为：在上文词表UContextDict中查找w_r，如果匹配成功，则将上文词表UContextDict中w_r对应的次数作为M(w_r,UContextDict)的取值；否则，其值为0；M′(w_r,d′)取值为：当w_r在搜索引擎的后台用户搜索串库QuerySet中的第d′条数据中匹配成功，则M′(w_r,d′)的值为1；否则，取值为0；

步骤1.2.7.2：对于每个用户搜索串P属于训练集TrainSet，通过公式(2)计算P中每个分词w_r的右粘合度；

ADH_R (w_{r}) = \frac{M (w_{r}, DContextDict)}{Σ_{d^{'} = 1}^{n^{'}} M^{'} (w_{r}, d^{'})} - - - (2)

其中，ADH_R(w_r)表示分词w_r的右粘合度，即分词w_r与下文词表的粘合度；m表示机构名大词典OrgDict中词的数量；n′表示步骤1.2.3.3中确定的搜索引擎的后台用户搜索串库QuerySet中数据的数量；M(w_r,DContextDict)的取值为：在下文词表DContextDict中查找w_r，如果匹配成功，则将下文词表DContextDict中w_r对应的次数作为M(w_r,DContextDict)的取值；否则，其值为0；M′(w_r,d′)取值为：当w_r在搜索引擎的后台用户搜索串库QuerySet中的第d′条数据中匹配成功，则M′(w_r,d′)的值为1；否则，取值为0；

步骤1.2.7.3：对步骤1.2.7.1得到的左粘合度和步骤1.2.7.2得到的右粘合度进行区间映射；

当分词w_r的左粘合度ADH_L(w_r)的值位于区间[0.1,1]之间时，将其映射为左粘合度第一区间，用符号L₁表示；当分词w_r的右粘合度ADH_R(w_r)的值位于区间[0.1,1]之间时，将其映射为右粘合度第一区间，用符号R₁表示；

当分词w_r的左粘合度ADH_L(w_r)的值位于区间[0.01,0.1)之间时，将其映射为左粘合度第二区间，用符号L₂表示；当分词w_r的右粘合度ADH_R(w_r)的值位于区间[0.01,0.1)之间时，将其映射为右粘合度第二区间，用符号R₂表示；

当分词w_r的左粘合度ADH_L(w_r)的值位于区间[0.001,0.01)之间时，将其映射为左粘合度第三区间，用符号L₃表示；当分词w_r的右粘合度ADH_R(w_r)的值位于区间[0.001,0.01)之间时，将其映射为右粘合度第三区间，用符号R₃表示；

当分词w_r的左粘合度ADH_L(w_r)的值位于区间[0.0001,0.001)之间时，将其映射为左粘合度第四区间，用符号L₄表示；当分词w_r的右粘合度ADH_R(w_r)的值位于区间[0.0001,0.001)之间时，将其映射为右粘合度第四区间，用符号R₄表示；

当分词w_r的左粘合度ADH_L(w_r)的值位于区间[0.00001,0.0001)之间时，将其映射为左粘合度第五区间，用符号L₅表示；当分词w_r的右粘合度ADH_R(w_r)的值位于区间[0.00001,0.0001)之间时，将其映射为右粘合度第五区间，用符号R₅表示；

当分词w_r的左粘合度ADH_L(w_r)的值位于区间(-∞,0.00001)之间时，将其映射为左粘合度第六区间，用符号L₆表示；当分词w_r的右粘合度ADH_R(w_r)的值位于区间(-∞,0.00001)之间时，将其映射为右粘合度第六区间，用符号R₆表示；

步骤1.2.7.4：选取分词w_r的左粘合度和右粘合度两者中的大值作为分词w_r的语义粘合度特征值，用符号ADH(w_r)表示，并保存其映射区间；

步骤1.2.8：对应训练集TrainSet中的数据，建立一个特征表，称为训练语料库；

所述特征表包括：用户搜索串标识、用户搜索串类型、分词w_r标识、分词w_r内容、分词w_r词性、分词w_r语义粘合度特征值ADH(w_r)的映射区间、上下文特征标注；

所述用户搜索串类型为P₁,P₂,P₃,P₄,P₅；

所述分词w_r词性由步骤1.2.1中所述待处理语料库中的词性标注信息得到；

所述分词w_r语义粘合度特征值ADH(w_r)的映射区间从步骤1.2.7得到；

所述上下文特征标注从步骤1.2.6得到；

步骤1.3：配置条件随机场模型CRF的参数；

步骤1.4：使用步骤1.2得到的训练语料库作为输入，训练步骤1.3配置好的条件随机场模型CRF，得到识别模型；

步骤二、对待识别用户搜索串进行特征提取；

步骤2.1：对待识别用户搜索串进行分词和词性标注，得到词性标注特征；具体操作为：

采用中文分词及词性标注工具，对待识别用户搜索串进行处理，得到经过分词和词性标注的待识别用户搜索串；

所述中文分词及词性标注工具包括FudanNLP、哈工大LTP、NLPIR；

步骤2.2：计算待识别用户搜索串中每个分词的语义粘合度特征值及其映射区间；

步骤2.3：生成待识别用户搜索串对应的特征表；

所述待识别用户搜索串对应的特征表包括：分词标识、分词内容、分词词性、分词语义粘合度特征值ADH(w_r)的映射区间和上下文特征标注；其中，上下文特征标注为未知信息，其余均为已知信息；

步骤三、获得待识别用户搜索串中的机构名；

步骤3.1：将步骤二得到的待识别用户搜索串对应的特征表输入至步骤一得到的识别模型，识别模型输出待识别用户搜索串对应的特征表的上下文特征标注；

步骤3.2：按顺序提取待识别用户搜索串对应的特征表的上下文特征标注，得到上下文特征标注串，在上下文特征标注串中匹配[B(I)(P_NS/P_NT/P_J/P)E]模式，如匹配成功，则将匹配成功的串对应的词串进行输出，得到的结果即为识别的机构名称；

2.如权利要求1所述的一种基于语义特征模型的用户搜索串机构名识别方法，其特征在于：步骤一步骤1.2.2中所述已有机构词库包括：人民日报机构词库、搜狗细胞机构名词库、有道机构名词库、微软必应词库和百度词库。

3.如权利要求1或2所述的一种基于语义特征模型的用户搜索串机构名识别方法，其特征在于：步骤一步骤1.2.3中所述正例集Pset中的数据量大于3000条。

4.如权利要求1或2所述的一种基于语义特征模型的用户搜索串机构名识别方法，其特征在于：步骤一步骤1.2中所述正例集Pset中的数据量与反例集Nset中的数据量之比为1：5至1：10。

5.如权利要求1或2所述的一种基于语义特征模型的用户搜索串机构名识别方法，其特征在于：步骤一步骤1.2.6.1中所述构建上文词表UContextDict和下文次表DContextDict的具体操作为：

6.如权利要求1或2所述的一种基于语义特征模型的用户搜索串机构名识别方法，其特征在于：步骤一步骤1.2.6.2中所述正例搜索串标注规则具体为：

7.如权利要求1或2所述的一种基于语义特征模型的用户搜索串机构名识别方法，其特征在于：步骤一步骤1.2.6.3中所述反例搜索串标注规则具体为：用符号C标注两机构名之间的连接词；用符号O标注其它词。