CN104679885A - 一种基于语义特征模型的用户搜索串机构名识别方法 - Google Patents
一种基于语义特征模型的用户搜索串机构名识别方法 Download PDFInfo
- Publication number
- CN104679885A CN104679885A CN201510116518.6A CN201510116518A CN104679885A CN 104679885 A CN104679885 A CN 104679885A CN 201510116518 A CN201510116518 A CN 201510116518A CN 104679885 A CN104679885 A CN 104679885A
- Authority
- CN
- China
- Prior art keywords
- search string
- adhesion
- user search
- name
- participle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明属于自然语言处理领域,具体涉及一种基于语义特征模型的用户搜索串机构名识别方法。其包括模型构建阶段和识别阶段的处理过程。在模型构建阶段,利用已有的长文本标注语料库,构建符合用户搜索串分布的训练语料库,该语料库除保存了传统原有分词、词性标注的特征,更增加了查询串中的上下文特征、粘合度特征相关语义环境特征,根据复合语义特征建立条件随机场模型作为机构名识别模型。在识别阶段,通过计算用户搜索串的相应语义环境特征得到用户查询串的模式序列,抽取符合机构名的模式序列,即获得用户搜索串中的机构名。本方法使用户搜索串中机构名识别的准确率和召回率得到了综合的提升。
Description
技术领域
本发明属于自然语言处理领域,具体涉及一种基于语义特征模型的用户搜索串机构名识别方法。
背景技术
当今社会已成为信息爆炸时代,互联网的迅猛发展,使得中国已经具有6亿多网民群体,ZB(ZettaByte)级的数据积累。而搜索引擎则大大方便了人们的日常生活、工作、学习中信息获取需求,其信息筛选、排序的重要性尤为凸显。用户在将自身的问题输入至搜索引擎中后,搜索引擎将会对用户搜索串进行切分词、去停用词、纠错、实体识别等一系列预处理环节,在这些预处理环节每一项都极其重要必不可少,处理结果的好坏将直接影响到用户能否获取到关注的信息,所关注的信息是否排列在搜索结果中排序靠前。而机构名的识别,作为命名实体识别预处理工作中的一个重要子任务,其目的是识别搜索串中所包含的企业、单位、组织、团体等机构,以便于在返回搜索结果时加强对包含上述机构名称网页的排序权重,从而让用户获得满意的查询结果。
目前已有机构名识别方法多针对长文本(句子级、篇章级),由于长文本蕴含着丰富上下文语义环境(语法结构、依存关系等)特性,因此,采用机器学习的方法能够获得较好的机构名识别效果;然而当用在用户搜索串中进行机构名识别时,则由于其文字简短、结构随意、语义模糊等特性,无法对机构名边界进行切分以及歧义,传统机构名识别的方法就显得力不从心。
目前针对用户搜索串,没有公认且开放的数据语料资源,但传统长文本机构名识别中,却拥有标注完整、成熟的长文本语料库(如:人民日报语料库)。采用算法加人工审核的方式,半自动生成、标注用户搜索串训练语料集,这样将避免大量枯燥、繁杂的搜索日志语料人工标注工作,为机构名识别提供基础保障。
本发明采取半自动构建搜索日志语料库并结合语义特征模型,即提取用户上下文特征、粘合度特征,来构建用户搜索串的语义环境,并使用条件随机场条件随机场模型进行训练和识别,有效解决了用户搜索串中由于缺少语义环境而造成的机构名漏识别、错识别的问题,大幅提高了服务于用户搜索串内容理解的机构名识别准确率与召回率。
发明内容
本发明的目的是为解决由于用户搜索串较为简短、缺乏语义环境,采用现有长文本机构名识别器用于用户搜索串的机构名识别时,会产生低准确度的问题,提出一种基于语义特征模型的用户搜索串机构名识别方法。
本发明的目的是通过下述技术方案实现的。
本发明的一种基于语义特征模型的用户搜索串机构名识别方法,其特征在于:其具体实现步骤包括:
步骤一、以机器学习方式训练机构名识别语义模型;具体操作为:
步骤1.1:确定识别用户搜索串中机构名的识别模型。
所述用户搜索串中文机构名识别模型采用条件随机场模型(ConditionalRandom Fields,CRF)。
步骤1.2:确定训练语料库;具体操作为:
步骤1.2.1:选取待处理语料库。
选取经过人工分词和词性标注处理的篇章型文本作为待处理语料库(用符号ArticleSet表示)。
步骤1.2.2:构建机构名大词典。
对已有机构词库进行合并,排除重复机构词汇后,合并之后的词库称为机构名大词典(用符号OrgDict表示)。
所述已有机构词库包括:人民日报机构词库、搜狗细胞机构名词库、有道机构名词库、微软必应词库和百度词库。
步骤1.2.3:对待处理语料库进行处理,生成包含机构名的用户搜索串用户搜索串,作为训练步骤1.1中所述识别模型的正例集,用符号Pset表示。所用户搜索串是用户输入到搜索引擎中的文本内容。
所述生成识别模型的正例集Pset的具体操作为:
步骤1.2.3.1:确定4种包含机构名的正例查询串。
用符号S表示待处理语料库ArticleSet中的一个句子,S=w1w2w3…wn,其中wk代表句子S中的一个词,1≤k≤n,n为句子S包含的词的数量。若句子S中包含机构名,则机构名用符号nt表示,nt=wiwi+1…wj,1≤i<j≤n。
用符号P表示用户搜索串类型集合。P={P1,P2,P3,P4,P5},其中P1表示机构名上下文缺失情况,P1=nt;P2表示机构名下文缺失情况,P2=wi-1+nt;P3表示机构名上文缺失情况,P3=nt+wj+1;P4表示机构名上下文完整情况,P4=wi-1+nt+wj+1;P5表示不包含机构名的情况,P5=wiwi+1…wj。
P1,P2,P3,P4即为包含机构名的4种正例查询串。
步骤1.2.3.2:对步骤1.2.1中所述待处理语料库ArticleSet中的每一个句子,做以下处理:如果当前句子中包含机构名nt,则按照P1,P2,P3,P4所代表的4种用户搜索串类型的组成格式,分别提取包含机构名的4个正例查询串,组成备选的用户搜索串{P1,P2,P3,P4}。
步骤1.2.3.3:选取一个搜索引擎的后台用户搜索串库(用符号QuerySet表示),并确定后台用户搜索串库QuerySet中P1,P2,P3,P44种用户搜索串类型的分布概率,分别用符号p1%、p2%、p3%和p4%表示,并根据P1,P2,P3,P44种用户搜索串类型的分布概率p1%、p2%、p3%和p4%,对备选的用户搜索串{P1,P2,P3,P4}进行随机保留,从4类情况选取其中一种作为正例查询串。
通过上述步骤的操作,得到正例集Pset。
所述正例集Pset中的数据量大于3000条。
步骤1.2.4:对待处理语料库进行处理,生成不包含机构名的用户搜索串,作为训练步骤1.1中所述识别模型的反例集,用符号Nset表示;具体操作为:
将待处理语料库中出现的正例查询串P1,使用符号#代替,将待处理语料库中出现的其它正例查询串P2,P3,P4,直接从待处理语料库中做删除处理;然后将得到的文本通过其包含的标点符号进行分割,得到反例查询串;如果得到的反例查询串的长度大于16个字符,则通过随机切分,将其分割为长度在2至16个字符范围内的反例查询串。所有的反例查询串构成反例集Nset。
所述正例集Pset中的数据量与反例集Nset中的数据量之比为1:5至1:10。
步骤1.2.5:将正例集Pset与反例集Nset合并得到训练集(用符号TrainSet表示)。
步骤1.2.6:对训练集TrainSet进行处理,得到训练语料集;具体操作为:
步骤1.2.6.1:构建上文词表(用符号UContextDict表示)和下文次表(用符号DContextDict表示)。
将步骤1.2.3.3中确定的搜索引擎的后台用户搜索串库QuerySet以及步骤1.2.2构建的机构名大词典OrgDict作为输入,依次从用户搜索串库QuerySet的每一个搜索串中匹配机构名大词典OrgDict中的机构名,如果搜索串中包含机构名,则将该机构名的上文词和下文词分别保存至上文词表UContextDict表示和下文词表DContextDict中,并统计上文词表UContextDict中每个上文词出现的次数和下文词表DContextDict中每个下文词出现的次数。
步骤1.2.6.2:对步骤1.2.3中所述正例集Pset中的每个正例搜索串,采用正例搜索串标注规则对机构名内部及上下文词进行机器标注,得到正例搜索串中每个词的上下文特征标注。
所述正例搜索串标注规则具体为:
用符号H标注机构名的上文词;用符号T标注机构名的下文词;用符号B标注机构名中的第一个词;用符号E标注机构名中的最后一词;用符号P_NS标注机构名中倒数第二个词为地名的词;用符号P_NT标注机构名中倒数第二个词为机构名的词;用符号P_J标注机构名中倒数第二个词为机构或地名简称的词;用符号P标注机构名中倒数第二个词为其它情况的词;用符号I标注机构名中其他内部词。
步骤1.2.6.3:对步骤1.2.4中所述反例集Nset中的每个用户搜索串,采用反例搜索串标注规则进行机器标注,得到反例搜索串中每个词的上下文特征标注。
所述反例搜索串标注规则具体为:用符号C标注两机构名之间的连接词;用符号O标注其它词。
步骤1.2.7:计算训练集TrainSet中每一用户搜索串中的每个分词的语义粘合度特征值。
步骤1.2.7.1:对于每个用户搜索串P属于训练集TrainSet,通过公式(1)计算P中每个分词wr的左粘合度。
其中,ADH_L(wr)表示分词wr的左粘合度,即分词wr与上文词表的粘合度;n′表示步骤1.2.3.3中确定的搜索引擎的后台用户搜索串库QuerySet中数据的数量;M(wr,UContextDict)的取值为:在上文词表UContextDict中查找wr,如果匹配成功,则将上文词表UContextDict中wr对应的次数作为M(wr,UContextDict)的取值;否则,其值为0;M′(wr,d′)取值为:当wr在搜索引擎的后台用户搜索串库QuerySet中的第d′条数据中匹配成功,则M′(wr,d′)的值为1;否则,取值为0。
步骤1.2.7.2:对于每个用户搜索串P属于训练集TrainSet,通过公式(2)计算P中每个分词wr的右粘合度。
其中,ADH_R(wr)表示分词wr的右粘合度,即分词wr与下文词表的粘合度;m表示机构名大词典OrgDict中词的数量;n′表示步骤1.2.3.3中确定的搜索引擎的后台用户搜索串库QuerySet中数据的数量;M(wr,DContextDict)的取值为:在下文词表DContextDict中查找wr,如果匹配成功,则将下文词表DContextDict中wr对应的次数作为M(wr,DContextDict)的取值;否则,其值为0;M′(wr,d′)取值为:当wr在搜索引擎的后台用户搜索串库QuerySet中的第d′条数据中匹配成功,则M′(wr,d′)的值为1;否则,取值为0。
步骤1.2.7.3:对步骤1.2.7.1得到的左粘合度和步骤1.2.7.2得到的右粘合度进行区间映射。
当分词wr的左粘合度ADH_L(wr)的值位于区间[0.1,1]之间时,将其映射为左粘合度第一区间(用符号L1表示);当分词wr的右粘合度ADH_R(wr)的值位于区间[0.1,1]之间时,将其映射为右粘合度第一区间(用符号R1表示);
当分词wr的左粘合度ADH_L(wr)的值位于区间[0.01,0.1)之间时,将其映射为左粘合度第二区间(用符号L2表示);当分词wr的右粘合度ADH_R(wr)的值位于区间[0.01,0.1)之间时,将其映射为右粘合度第二区间(用符号R2表示);
当分词wr的左粘合度ADH_L(wr)的值位于区间[0.001,0.01)之间时,将其映射为左粘合度第三区间(用符号L3表示);当分词wr的右粘合度ADH_R(wr)的值位于区间[0.001,0.01)之间时,将其映射为右粘合度第三区间(用符号R3表示);
当分词wr的左粘合度ADH_L(wr)的值位于区间[0.0001,0.001)之间时,将其映射为左粘合度第四区间(用符号L4表示);当分词wr的右粘合度ADH_R(wr)的值位于区间[0.0001,0.001)之间时,将其映射为右粘合度第四区间(用符号R4表示);
当分词wr的左粘合度ADH_L(wr)的值位于区间[0.00001,0.0001)之间时,将其映射为左粘合度第五区间(用符号L5表示);当分词wr的右粘合度ADH_R(wr)的值位于区间[0.00001,0.0001)之间时,将其映射为右粘合度第五区间(用符号R5表示);
当分词wr的左粘合度ADH_L(wr)的值位于区间(-∞,0.00001)之间时,将其映射为左粘合度第六区间(用符号L6表示);当分词wr的右粘合度ADH_R(wr)的值位于区间(-∞,0.00001)之间时,将其映射为右粘合度第六区间(用符号R6表示);
步骤1.2.7.4:选取分词wr的左粘合度和右粘合度两者中的大值作为分词wr的语义粘合度特征值(用符号ADH(wr)表示),并保存其映射区间。
步骤1.2.8:对应训练集TrainSet中的数据,建立一个特征表,称为训练语料库。
所述特征表包括:用户搜索串标识、用户搜索串类型、分词wr标识、分词wr内容、分词wr词性、分词wr语义粘合度特征值ADH(wr)的映射区间、上下文特征标注。
所述用户搜索串类型为P1,P2,P3,P4,P5。
所述分词wr词性由步骤1.2.1中所述待处理语料库中的词性标注信息得到。
所述分词wr语义粘合度特征值ADH(wr)的映射区间从步骤1.2.7得到。
所述上下文特征标注从步骤1.2.6得到。
步骤1.3:配置条件随机场模型CRF的参数。
步骤1.4:使用步骤1.2得到的训练语料库作为输入,训练步骤1.3配置好的条件随机场模型CRF,得到识别模型。
步骤二、对待识别用户搜索串进行特征提取。
步骤2.1:对待识别用户搜索串进行分词和词性标注,得到词性标注特征。具体操作为:
采用中文分词及词性标注工具,对待识别用户搜索串进行处理,得到经过分词和词性标注的待识别用户搜索串。
所述中文分词及词性标注工具包括FudanNLP、哈工大LTP、NLPIR。
步骤2.2:计算待识别用户搜索串中每个分词的语义粘合度特征值及其映射区间。
步骤2.3:生成待识别用户搜索串对应的特征表。
所述待识别用户搜索串对应的特征表包括:分词标识、分词内容、分词词性、分词语义粘合度特征值ADH(wr)的映射区间和上下文特征标注。其中,上下文特征标注为未知信息,其余均为已知信息。
步骤三、获得待识别用户搜索串中的机构名。
步骤3.1:将步骤二得到的待识别用户搜索串对应的特征表输入至步骤一得到的识别模型,识别模型输出待识别用户搜索串对应的特征表的上下文特征标注。
步骤3.2:按顺序提取待识别用户搜索串对应的特征表的上下文特征标注,得到上下文特征标注串,在上下文特征标注串中匹配[B(I)(P_NS/P_NT/P_J/P)E]模式,如匹配成功,则将匹配成功的串对应的词串进行输出,得到的结果即为识别的机构名称。
其中,[B(I)(P_NS/P_NT/P_J/P)E]模式中的字符含义为步骤1.2.6.2和步骤1.2.6.3中描述的字符含义,小括号表示可选项,斜杠表示或关系。
有意效果
本发明提出的基于语义特征模型的用户搜索串机构名识别方法与已有技术相比较,其优点在于:
(1)本发明方法符合用户对搜索引擎输入的搜索串训练语料自动构建,可在缺乏搜索引擎用户搜索串数据的情况下,使用篇章型文本为待处理文档,将篇章型文档依照用户查询输入的分布特征进行搜索串生成,方便构建出大规模的服务于搜索引擎查询中识别的训练语料。同时,由于自动构建语料模拟了用户搜索串中上下文的环境,使得模型能够一定程度上从训练语料中学习机构名上下文缺失知识,因此大幅提高了搜索引擎对用户搜索串的机构名识别召回率。
(2)在模型学习和预测阶段不仅采用传统的词性作为特征,更引入了机构名识别粘合度特征、上下文环境等复合语义,这样对用户搜索串中的上下文词起到指示作用,强化了模型对于日志中机构名边界的判别能力。使用复合语义特征来减少普通文本与查询日志内容上的差异性带来的影响,提高了搜索引擎对用户搜索串的机构名识别准确度。
附图说明
图1为本发明具体实施方式中基于语义特征模型的用户搜索串机构名识别方法的流程示意图。
具体实施方式
下面结合附图和实施例,对本发明提供的基于语义特征模型的用户搜索串机构名识别方法作详细地说明。
本发实施例中的基于语义特征模型的用户搜索串机构名识别方法,其操作流程如图1所示,具体实现步骤为:
步骤一、以机器学习方式训练机构名识别语义模型。
步骤1.1:确定识别用户搜索串中机构名的识别模型。
本实施例中,用户搜索串中机构名识别模型采用条件随机场模型CRF,使用CRF++0.54windows版本实现该模型。
步骤1.2:确定训练语料库。
步骤1.2.1:选取待处理语料库。
选取PFR人民日报标注语料库(版本1.0)作为待处理语料库ArticleSet。PFR人民日报标注语料库是1998年1月份的版本,该语料库经过了人工分词和词性标注处理。
例如,PFR人民日报标注语料库(版本1.0)中的一段语料节选如下:“…辞旧迎新/l之际/f,/w国务院/nt总理/n李/nr鹏/nr今天/t上午/t来到/v[北京/ns石景山/ns发电/vn总厂/n]nt考察/v,/w向/p广大/b企业/n职工/n表示/v节日/n的/u祝贺/vn…”。
步骤1.2.2:构建机构名大词典。
选取搜狗细胞机构名词库(“中国高等院校大全”、“中国医院大全”、“政府机关团体机构大全”)以及从人民日报1998年1月标注语料中提取出的人民日报机构词库进行合并,组建了一个机构名大词典OrgDict,如表1所示。
表1 机构名大词典(OrgDict)
序号 | 词名 |
1 | 新华社 |
2 | 中共北京市委宣传部 |
3 | 中国交响乐团 |
4 | 中央人民广播电台 |
5 | 国务院 |
6 | 北京市委 |
7 | 华北电力集团公司 |
8 | 中华全国总工会 |
9 | 广播电影电视部 |
10 | 国家语委 |
… | … |
步骤1.2.3:对待处理语料库进行处理,生成包含机构名的用户搜索串,作为训练步骤1.1中所述识别模型的正例集Pset。
步骤1.2.3.1:确定4种包含机构名的正例搜索串。
用符号S表示待处理语料库ArticleSet中的一个句子,S=w1w2w3…wn,其中wk代表句子S中的一个词,(1≤k≤n)。若句子中包含机构名,则机构名用符号nt表示,nt=wiwi+1…wj(1≤i<j≤n)。
用符号P表示用户搜索串类型集合。P={P1,P2,P3,P4,P5},其中P1表示机构名上下文缺失情况,P1=nt;P2表示机构名下文缺失情况,P2=wi-1+nt;P3表示机构名上文缺失情况,P3=nt+wj+1;P4表示机构名上下文完整情况,P4=wi-1+nt+wj+1;P5表示不包含机构名的情况,P5=wiwi+1…wj。
其中,P1,P2,P3,P4即为4种包含机构名的正例搜索串。
步骤1.2.3.2:对步骤1.2.1中所述待处理语料库ArticleSet中的每一个句子,做以下处理:如果当前句子中包含,则按照P1,P2,P3,P4所代表的4种用户搜索串类型的组成格式,分别提取包含机构名的4个正例查询串,组成备选的用户搜索串{P1,P2,P3,P4}。
例如,当S=“…辞旧迎新/l之际/f,/w国务院/nt总理/n李/nr鹏/nr今天/t上午/t来到/v[北京/ns石景山/ns发电/vn总厂/n]nt考察/v,/w向/p广大/b企业/n职工/n表示/v节日/n的/u祝贺/vn…”,P1=“[北京/ns石景山/ns发电/vn总厂/n]nt”;P2=“来到/v[北京/ns石景山/ns发电/vn总厂/n]nt”;P3=“[北京/ns石景山/ns发电/vn总厂/n]nt考察/v”;P4=“来到/v[北京/ns石景山/ns发电/vn总厂/n]nt考察/v”。
步骤1.2.3.3:选取搜狗用户搜索日志库SogouQ2012版的精简版作为后台用户搜索串库QuerySet,并通过计算确定后台用户搜索串库QuerySet中P1,P2,P3,P44种用户搜索串类型的分布概率,分别为52%、27%、15%和6%,并根据P1,P2,P3,P44种用户搜索串类型的分布概率52%、27%、15%和6%,对备选的用户搜索串{P1,P2,P3,P4}进行随机保留,从四类情况选取其中一种作为正例搜索串。本例生成的结果为=“[北京/ns石景山/ns发电/vn总厂/n]nt考察/v”,即P3类型。
通过上述步骤的操作,得到正例集Pset。
正例集Pset中的数据量约5000条。
步骤1.2.4:对待处理语料库进行处理,生成不包含机构名的用户搜索串,作为训练步骤1.1中所述识别模型的反例集,用符号Nset表示。
具体为:将待处理语料库中出现的正例搜索串P1,使用特定标识(用符号#表示)代替,将待处理语料库中出现的其它正例搜索串P2,P3,P4,直接从待处理语料库中做删除处理,然后将得到的文本通过其包含的标点符号进行分割,得到反例搜索串;如果得到的反例搜索串的长度大于16个字符,则通过随机切分,将其分割为长度在2至16个字符范围内的反例搜索串。所有的反例搜索串构成反例集Nset。
在上例中,将正例搜索串删除,即下文中的用大括号括起部分;随机切分的反例搜索串用竖线分割,具体如下:
“辞旧迎新之际|,国务院总理李鹏|今天上午来到|{[北京石景山发电总厂]考察},向广大|企业职工表示节日的祝贺|,向将要在|节日期间坚守工作岗位|的同志们表示慰问|。”
本实施例中正例集Pset中的数据量与反例集Nset中的数据量之比为1:7。
步骤1.2.5:将正例集Pset与反例集Nset合并得到训练集TrainSet。
步骤1.2.6:对训练集TrainSet进行处理,得到训练语料集。
步骤1.2.6.1:构建上文词表UContextDict和下文次表DContextDict。
将步骤1.2.3.3中确定的搜索引擎的后台用户搜索串库QuerySet以及步骤1.2.2中构建机构名大词典OrgDict作为输入,依次从用户搜索串库QuerySet的每一个搜索串中匹配机构名大词典OrgDict中的机构名,如果搜索串中包含机构名,则将机构名的上文词和下文词分别保存至上文词表UContextDict和下文词表DContextDict中,并统计上文词表UContextDict中每个上文词出现的次数和下文词表DContextDict中每个下文词出现的次数,如表2所示。
表2 上文词表(UContextDic)和下文词表(DContextDict)
步骤1.2.6.2:对步骤1.2.3中所述正例集Pset中的每个用户搜索串,采用如下规则对机构名内部及上下文词进行机器标注,得到用户搜索串中每个词的上下文特征标注。
用符号H标注机构名的上文词;用符号T标注机构名的下文词;用符号B标注机构名中的第一个词;用符号E标注机构名中的最后一词;用符号P_NS标注机构名中倒数第二个词为地名的词;用符号P_NT标注机构名中倒数第二个词为机构名的词;用符号P_J标注机构名中倒数第二个词为机构或地名简称的词;用符号P标注机构名中倒数第二个词为其它情况的词;用符号I标注机构名中其他内部词。例子中正例搜索串的上下文标注结果如表3的5至9行所示。
步骤1.2.6.3:对步骤1.2.4中所述反例集Nset中的每个用户搜索串,采用如下规则进行机器标注。用符号C标注两机构名之间的连接词;用符号O标注其它词。例子中反例搜索串的上下文标注结果如表3的2至4行所示。
表3 上下文标注结果
词名 | 词性 | 上下文标注 |
辞旧迎新 | l | O |
之际 | f | O |
… | … | … |
北京 | ns | B |
石景山 | ns | I |
发电 | vn | P |
总厂 | n | E |
考察 | v | O |
步骤1.2.7:计算训练集TrainSet中每一用户搜索串中的每个分词的语义粘合度特征值。
步骤1.2.7.1:对于每个用户搜索串P属于训练集TrainSet,通过公式(1)计算P中每个分词wr的左粘合度,例子中正例搜索串中每个词的左粘合度如表4第5列所示。
步骤1.2.7.2:对于每个用户搜索串P属于训练集TrainSet,通过公式(2)计算P中每个分词wr的右粘合度,例子中正例搜索串中每个词的右粘合度如表4第6列所示。
步骤1.2.7.3:对步骤1.2.7.1得到的左粘合度和步骤1.2.7.2得到的右粘合度进行区间映射。
当分词wr的左粘合度ADH_L(wr)的值位于区间[0.1,1]之间时,将其映射为左粘合度第一区间L1;当分词wr的右粘合度ADH_R(wr)的值位于区间[0.1,1]之间时,将其映射为右粘合度第一区间R1;
当分词wr的左粘合度ADH_L(wr)的值位于区间[0.01,0.1)之间时,将其映射为左粘合度第二区间L2;当分词wr的右粘合度ADH_R(wr)的值位于区间[0.01,0.1)之间时,将其映射为右粘合度第二区间R2;
当分词wr的左粘合度ADH_L(wr)的值位于区间[0.001,0.01)之间时,将其映射为左粘合度第三区间L3;当分词wr的右粘合度ADH_R(wr)的值位于区间[0.001,0.01)之间时,将其映射为右粘合度第三区间R3;
当分词wr的左粘合度ADH_L(wr)的值位于区间[0.0001,0.001)之间时,将其映射为左粘合度第四区间L4;当分词wr的右粘合度ADH_R(wr)的值位于区间[0.0001,0.001)之间时,将其映射为右粘合度第四区间R4;
当分词wr的左粘合度ADH_L(wr)的值位于区间[0.00001,0.0001)之间时,将其映射为左粘合度第五区间L5;当分词wr的右粘合度ADH_R(wr)的值位于区间[0.00001,0.0001)之间时,将其映射为右粘合度第五区间R5;
当分词wr的左粘合度ADH_L(wr)的值位于区间(-∞,0.00001)之间时,将其映射为左粘合度第六区间L6;当分词wr的右粘合度ADH_R(wr)的值位于区间(-∞,0.00001)之间时,将其映射为右粘合度第六区间R6。
步骤1.2.7.4:选取分词wr的左粘合度和右粘合度两者中的大值作为分词wr的语义粘合度特征值ADH(wr),并保存其映射区间。例子中正例搜索串中每个词的语义粘合度特征值ADH(wr)的映射区间如表4第7列所示。
表4 正例搜索串语义粘合度结果
步骤1.2.8:对应训练集TrainSet中的数据,建立一个特征表,称为训练语料库。
所述特征表包括:用户搜索串标识、用户搜索串类型、分词wr标识、分词wr内容、分词wr词性、分词wr语义粘合度特征值ADH(wr)的映射区间、上下文特征标注。
例句对应的特征表如表5所示。
表5 特征表实例
步骤1.3:配置条件随机场模型CRF的参数。U1至U18为参数名称,配置项为在扫描训练文件时所需的记录的属性,以便记录其转移概率。其中wr表示当前词,wr-1表示当前词上文词(在当前搜索串Q中wr-1有可能为空,即当前词无上文词),wr+1表示当前词下文词(在当前搜索串Q中wr+1有可能为空,即当前词无下文词)。详细的配置项说明如下:
U1:%x[-1,3]当前词上文词wr-1行中取该词名属性值;
U2:%x[0,3]当前词wr行中取该词名属性值;
U3:%x[1,3]当前词下文词wr行中取该词名属性值;
U4:%x[-1,3]/%x[0,3]当前词上文词wr-1词名属性与当前词wi词名属性依上下位顺序出现的次数;
U5:%x[0,3]/%x[1,3]当前词wr词名属性与当前词下文词wr+1词名属性依上下位顺序出现的次数;
U6:%x[-1,4]当前词上文词wr-1行中取该词性属性值;
U7:%x[0,4]当前词wr行中取该词性属性值;
U8:%x[1,4]当前词下文词wr+1行中取该词性属性值;
U9:%x[-1,4]/%x[0,4]当前词上文词wr-1词性属性与当前词wi词性属性依上下位顺序出现的次数;
U10:%x[0,4]/%x[1,4]当前词wr词性属性与当前词下文词wr+1词性属性依上下位顺序出现的次数;
U11:%x[0,5]当前词wr行中的粘合度属性值;
U12:%x[0,0]当前词wr所属于的搜索串ID;
U13:%x[0,1]当前词wr所属于的搜索串类型;
U14:%x[-1,6]当前词上文词wr-1行中取该上下文属性值;
U15:%x[0,6]当前词wr行中取该上下文属性值;
U16:%x[1,6]当前词下文词wr+1行中取该上下文属性值;
U17:%x[-1,4]/%x[0,4]当前词上文词wr-1上下文属性与当前词wr上下文属性依上下位顺序出现的次数;
U18:%x[0,4]/%x[1,4]当前词wr上下文属性与当前词下文词wr+1上下文属性依上下位顺序出现的次数。
步骤1.4:使用步骤1.2得到的训练语料库作为输入,训练步骤1.3配置好的条件随机场模型CRF,得到识别模型。
步骤二、对待识别用户搜索串进行特征提取。
步骤2.1:采用分词及词性标注工具(FudanNLP),对待识别用户搜索串“四川电视台主持人宁远”进行处理,得到词性标注特征:“四川/ns电视台/n主持人/vn宁远/nr”。
步骤2.2:计算待识别用户搜索串中每个分词的语义粘合度特征值及其映射区间,如表6第2列至第4列所示。
表6 待识别用户搜索串的语义粘合度特征值及其映射区间
词名 | 左粘合度 | 右粘合度 | 区间映射 |
四川 | 4.52022802039125E-4 | 2.51123778910625E-5 | L4 |
电视台 | 0 | 4.76417341591234E-4 | R4 |
主持人 | 0 | 0.0203236245954693 | R2 |
宁远 | 0.1428571429 | 0 | L1 |
步骤2.3:生成待识别用户搜索串对应的特征表。
所述待识别用户搜索串对应的特征表包括分词标识、分词内容、分词词性、分词语义粘合度特征值ADH(wr)的映射区间、上下文特征标注,如表7所示。其中上下文特征标注为未知信息,其余均为已知信息。
表7 待识别用户搜索串对应的特征表
步骤三、获得待识别用户搜索串中的机构名。
步骤3.1:输入待识别用户搜索串对应的特征表至识别模型,获取上下文特征标注。具体为:将步骤二得到的待识别用户搜索串对应的特征表输入至步骤一得到的识别模型,识别模型输出待识别用户搜索串对应的特征表的上下文特征标注,如表8所示。
表8 待识别用户搜索串分词的上下文特征标注
词名 | 词性 | 粘合度 | 上下文 |
四川 | ns | L4 | B |
电视台 | n | R4 | E |
主持人 | vn | R2 | T |
宁远 | n | L1 | O |
步骤3.2:按顺序提取待识别用户搜索串对应的特征表的上下文特征标注,得到上下文特征标注串[B E],在上下文特征标注串中匹配[B(I)(P_NS/P_NT/P_J/P)E]模式,匹配成功,则将匹配成功的串对应的词串进行输出,得到的结果即为识别的机构名称“四川电视台”。
为验证该语义模型对用户搜索串的识别效果,实验随机抽取5000条用户搜索串使用本方法进行实验,选用正确率、召回率、F值作为评价指标,结果如表9。
表9 本识别方法的识别率情况
识别方法 | 正确率(%) | 召回率(%) | F值(%) |
基于语义特征模型的用户搜索串机构名识别 | 77.89 | 81.29 | 79.55 |
上述描述对本发明的特征和方法进行了具体的说明,但应了解,在所述权利要求中定义的本发明并不局限于所述的具体特征或方法。本领域人员可在权利要求的范围内做出修改,并不影响本发明的实质内容。
Claims (7)
1.一种基于语义特征模型的用户搜索串机构名识别方法,其特征在于:其具体实现步骤包括:
步骤一、以机器学习方式训练机构名识别语义模型;具体操作为:
步骤1.1:确定识别用户搜索串中机构名的识别模型;
所述用户搜索串中文机构名识别模型采用条件随机场模型CRF;
步骤1.2:确定训练语料库;具体操作为:
步骤1.2.1:选取待处理语料库;
选取经过人工分词和词性标注处理的篇章型文本作为待处理语料库,用符号ArticleSet表示;
步骤1.2.2:构建机构名大词典;
对已有机构词库进行合并,排除重复机构词汇后,合并之后的词库称为机构名大词典,用符号OrgDict表示;
步骤1.2.3:对待处理语料库进行处理,生成包含机构名的用户搜索串用户搜索串,作为训练步骤1.1中所述识别模型的正例集,用符号Pset表示;所用户搜索串是用户输入到搜索引擎中的文本内容;
所述生成识别模型的正例集Pset的具体操作为:
步骤1.2.3.1:确定4种包含机构名的正例查询串;
用符号S表示待处理语料库ArticleSet中的一个句子,S=w1w2w3…wn,其中wk代表句子S中的一个词,1≤k≤n,n为句子S包含的词的数量;若句子S中包含机构名,则机构名用符号nt表示,nt=wiwi+1…wj,1≤i<j≤n;
用符号P表示用户搜索串类型集合;P={P1,P2,P3,P4,P5},其中P1表示机构名上下文缺失情况,P1=nt;P2表示机构名下文缺失情况,P2=wi-1+nt;P3表示机构名上文缺失情况,P3=nt+wj+1;P4表示机构名上下文完整情况,P4=wi-1+nt+wj+1;P5表示不包含机构名的情况,P5=wiwi+1…wj;
P1,P2,P3,P4即为包含机构名的4种正例查询串;
步骤1.2.3.2:对步骤1.2.1中所述待处理语料库ArticleSet中的每一个句子,做以下处理:如果当前句子中包含机构名nt,则按照P1,P2,P3,P4所代表的4种用户搜索串类型的组成格式,分别提取包含机构名的4个正例查询串,组成备选的用户搜索串{P1,P2,P3,P4};
步骤1.2.3.3:选取一个搜索引擎的后台用户搜索串库,用符号QuerySet表示,并确定后台用户搜索串库QuerySet中P1,P2,P3,P44种用户搜索串类型的分布概率,分别用符号p1%、p2%、p3%和p4%表示,并根据P1,P2,P3,P44种用户搜索串类型的分布概率p1%、p2%、p3%和p4%,对备选的用户搜索串{P1,P2,P3,P4}进行随机保留,从4类情况选取其中一种作为正例查询串;
通过上述步骤的操作,得到正例集Pset;
步骤1.2.4:对待处理语料库进行处理,生成不包含机构名的用户搜索串,作为训练步骤1.1中所述识别模型的反例集,用符号Nset表示;具体操作为:
将待处理语料库中出现的正例查询串P1,使用符号#代替,将待处理语料库中出现的其它正例查询串P2,P3,P4,直接从待处理语料库中做删除处理;然后将得到的文本通过其包含的标点符号进行分割,得到反例查询串;如果得到的反例查询串的长度大于16个字符,则通过随机切分,将其分割为长度在2至16个字符范围内的反例查询串;所有的反例查询串构成反例集Nset;
步骤1.2.5:将正例集Pset与反例集Nset合并得到训练集,用符号TrainSet表示;
步骤1.2.6:对训练集TrainSet进行处理,得到训练语料集;具体操作为:
步骤1.2.6.1:构建上文词表和下文次表,上文词表用符号UContextDict表示和下文次表,上文词表用符号DContextDict表示;
步骤1.2.6.2:对步骤1.2.3中所述正例集Pset中的每个正例搜索串,采用正例搜索串标注规则对机构名内部及上下文词进行机器标注,得到正例搜索串中每个词的上下文特征标注;
步骤1.2.6.3:对步骤1.2.4中所述反例集Nset中的每个用户搜索串,采用反例搜索串标注规则进行机器标注,得到反例搜索串中每个词的上下文特征标注;
步骤1.2.7:计算训练集TrainSet中每一用户搜索串中的每个分词的语义粘合度特征值;
步骤1.2.7.1:对于每个用户搜索串P属于训练集TrainSet,通过公式(1)计算P中每个分词wr的左粘合度;
其中,ADH_L(wr)表示分词wr的左粘合度,即分词wr与上文词表的粘合度;n′表示步骤1.2.3.3中确定的搜索引擎的后台用户搜索串库QuerySet中数据的数量;M(wr,UContextDict)的取值为:在上文词表UContextDict中查找wr,如果匹配成功,则将上文词表UContextDict中wr对应的次数作为M(wr,UContextDict)的取值;否则,其值为0;M′(wr,d′)取值为:当wr在搜索引擎的后台用户搜索串库QuerySet中的第d′条数据中匹配成功,则M′(wr,d′)的值为1;否则,取值为0;
步骤1.2.7.2:对于每个用户搜索串P属于训练集TrainSet,通过公式(2)计算P中每个分词wr的右粘合度;
其中,ADH_R(wr)表示分词wr的右粘合度,即分词wr与下文词表的粘合度;m表示机构名大词典OrgDict中词的数量;n′表示步骤1.2.3.3中确定的搜索引擎的后台用户搜索串库QuerySet中数据的数量;M(wr,DContextDict)的取值为:在下文词表DContextDict中查找wr,如果匹配成功,则将下文词表DContextDict中wr对应的次数作为M(wr,DContextDict)的取值;否则,其值为0;M′(wr,d′)取值为:当wr在搜索引擎的后台用户搜索串库QuerySet中的第d′条数据中匹配成功,则M′(wr,d′)的值为1;否则,取值为0;
步骤1.2.7.3:对步骤1.2.7.1得到的左粘合度和步骤1.2.7.2得到的右粘合度进行区间映射;
当分词wr的左粘合度ADH_L(wr)的值位于区间[0.1,1]之间时,将其映射为左粘合度第一区间,用符号L1表示;当分词wr的右粘合度ADH_R(wr)的值位于区间[0.1,1]之间时,将其映射为右粘合度第一区间,用符号R1表示;
当分词wr的左粘合度ADH_L(wr)的值位于区间[0.01,0.1)之间时,将其映射为左粘合度第二区间,用符号L2表示;当分词wr的右粘合度ADH_R(wr)的值位于区间[0.01,0.1)之间时,将其映射为右粘合度第二区间,用符号R2表示;
当分词wr的左粘合度ADH_L(wr)的值位于区间[0.001,0.01)之间时,将其映射为左粘合度第三区间,用符号L3表示;当分词wr的右粘合度ADH_R(wr)的值位于区间[0.001,0.01)之间时,将其映射为右粘合度第三区间,用符号R3表示;
当分词wr的左粘合度ADH_L(wr)的值位于区间[0.0001,0.001)之间时,将其映射为左粘合度第四区间,用符号L4表示;当分词wr的右粘合度ADH_R(wr)的值位于区间[0.0001,0.001)之间时,将其映射为右粘合度第四区间,用符号R4表示;
当分词wr的左粘合度ADH_L(wr)的值位于区间[0.00001,0.0001)之间时,将其映射为左粘合度第五区间,用符号L5表示;当分词wr的右粘合度ADH_R(wr)的值位于区间[0.00001,0.0001)之间时,将其映射为右粘合度第五区间,用符号R5表示;
当分词wr的左粘合度ADH_L(wr)的值位于区间(-∞,0.00001)之间时,将其映射为左粘合度第六区间,用符号L6表示;当分词wr的右粘合度ADH_R(wr)的值位于区间(-∞,0.00001)之间时,将其映射为右粘合度第六区间,用符号R6表示;
步骤1.2.7.4:选取分词wr的左粘合度和右粘合度两者中的大值作为分词wr的语义粘合度特征值,用符号ADH(wr)表示,并保存其映射区间;
步骤1.2.8:对应训练集TrainSet中的数据,建立一个特征表,称为训练语料库;
所述特征表包括:用户搜索串标识、用户搜索串类型、分词wr标识、分词wr内容、分词wr词性、分词wr语义粘合度特征值ADH(wr)的映射区间、上下文特征标注;
所述用户搜索串类型为P1,P2,P3,P4,P5;
所述分词wr词性由步骤1.2.1中所述待处理语料库中的词性标注信息得到;
所述分词wr语义粘合度特征值ADH(wr)的映射区间从步骤1.2.7得到;
所述上下文特征标注从步骤1.2.6得到;
步骤1.3:配置条件随机场模型CRF的参数;
步骤1.4:使用步骤1.2得到的训练语料库作为输入,训练步骤1.3配置好的条件随机场模型CRF,得到识别模型;
步骤二、对待识别用户搜索串进行特征提取;
步骤2.1:对待识别用户搜索串进行分词和词性标注,得到词性标注特征;具体操作为:
采用中文分词及词性标注工具,对待识别用户搜索串进行处理,得到经过分词和词性标注的待识别用户搜索串;
所述中文分词及词性标注工具包括FudanNLP、哈工大LTP、NLPIR;
步骤2.2:计算待识别用户搜索串中每个分词的语义粘合度特征值及其映射区间;
步骤2.3:生成待识别用户搜索串对应的特征表;
所述待识别用户搜索串对应的特征表包括:分词标识、分词内容、分词词性、分词语义粘合度特征值ADH(wr)的映射区间和上下文特征标注;其中,上下文特征标注为未知信息,其余均为已知信息;
步骤三、获得待识别用户搜索串中的机构名;
步骤3.1:将步骤二得到的待识别用户搜索串对应的特征表输入至步骤一得到的识别模型,识别模型输出待识别用户搜索串对应的特征表的上下文特征标注;
步骤3.2:按顺序提取待识别用户搜索串对应的特征表的上下文特征标注,得到上下文特征标注串,在上下文特征标注串中匹配[B(I)(P_NS/P_NT/P_J/P)E]模式,如匹配成功,则将匹配成功的串对应的词串进行输出,得到的结果即为识别的机构名称;
其中,[B(I)(P_NS/P_NT/P_J/P)E]模式中的字符含义为步骤1.2.6.2和步骤1.2.6.3中描述的字符含义,小括号表示可选项,斜杠表示或关系。
2.如权利要求1所述的一种基于语义特征模型的用户搜索串机构名识别方法,其特征在于:步骤一步骤1.2.2中所述已有机构词库包括:人民日报机构词库、搜狗细胞机构名词库、有道机构名词库、微软必应词库和百度词库。
3.如权利要求1或2所述的一种基于语义特征模型的用户搜索串机构名识别方法,其特征在于:步骤一步骤1.2.3中所述正例集Pset中的数据量大于3000条。
4.如权利要求1或2所述的一种基于语义特征模型的用户搜索串机构名识别方法,其特征在于:步骤一步骤1.2中所述正例集Pset中的数据量与反例集Nset中的数据量之比为1:5至1:10。
5.如权利要求1或2所述的一种基于语义特征模型的用户搜索串机构名识别方法,其特征在于:步骤一步骤1.2.6.1中所述构建上文词表UContextDict和下文次表DContextDict的具体操作为:
将步骤1.2.3.3中确定的搜索引擎的后台用户搜索串库QuerySet以及步骤1.2.2构建的机构名大词典OrgDict作为输入,依次从用户搜索串库QuerySet的每一个搜索串中匹配机构名大词典OrgDict中的机构名,如果搜索串中包含机构名,则将该机构名的上文词和下文词分别保存至上文词表UContextDict表示和下文词表DContextDict中,并统计上文词表UContextDict中每个上文词出现的次数和下文词表DContextDict中每个下文词出现的次数。
6.如权利要求1或2所述的一种基于语义特征模型的用户搜索串机构名识别方法,其特征在于:步骤一步骤1.2.6.2中所述正例搜索串标注规则具体为:
用符号H标注机构名的上文词;用符号T标注机构名的下文词;用符号B标注机构名中的第一个词;用符号E标注机构名中的最后一词;用符号P_NS标注机构名中倒数第二个词为地名的词;用符号P_NT标注机构名中倒数第二个词为机构名的词;用符号P_J标注机构名中倒数第二个词为机构或地名简称的词;用符号P标注机构名中倒数第二个词为其它情况的词;用符号I标注机构名中其他内部词。
7.如权利要求1或2所述的一种基于语义特征模型的用户搜索串机构名识别方法,其特征在于:步骤一步骤1.2.6.3中所述反例搜索串标注规则具体为:用符号C标注两机构名之间的连接词;用符号O标注其它词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510116518.6A CN104679885B (zh) | 2015-03-17 | 2015-03-17 | 一种基于语义特征模型的用户搜索串机构名识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510116518.6A CN104679885B (zh) | 2015-03-17 | 2015-03-17 | 一种基于语义特征模型的用户搜索串机构名识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104679885A true CN104679885A (zh) | 2015-06-03 |
CN104679885B CN104679885B (zh) | 2018-03-30 |
Family
ID=53314927
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510116518.6A Active CN104679885B (zh) | 2015-03-17 | 2015-03-17 | 一种基于语义特征模型的用户搜索串机构名识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104679885B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105095391A (zh) * | 2015-06-30 | 2015-11-25 | 北京奇虎科技有限公司 | 利用分词程序识别机构名称的装置及方法 |
CN105426358A (zh) * | 2015-11-09 | 2016-03-23 | 中国农业大学 | 一种疾病名词自动识别方法 |
CN105912522A (zh) * | 2016-03-31 | 2016-08-31 | 长安大学 | 基于成分分析的英语语料自动提取方法和提取器 |
CN107577655A (zh) * | 2016-07-05 | 2018-01-12 | 北京国双科技有限公司 | 名称获取方法和装置 |
CN108108350A (zh) * | 2017-11-29 | 2018-06-01 | 北京小米移动软件有限公司 | 名词识别方法及装置 |
CN108241631A (zh) * | 2016-12-23 | 2018-07-03 | 百度在线网络技术(北京)有限公司 | 用于推送信息的方法和装置 |
CN108255816A (zh) * | 2018-03-12 | 2018-07-06 | 北京神州泰岳软件股份有限公司 | 一种命名实体识别方法、装置及系统 |
CN108763218A (zh) * | 2018-06-04 | 2018-11-06 | 四川长虹电器股份有限公司 | 一种基于crf的影视检索实体识别方法 |
CN109284424A (zh) * | 2018-09-21 | 2019-01-29 | 长沙学院 | 构造滑动情况表的方法、数据搜索方法、计算机信息传播系统、基于大数据的机器学习系统 |
CN110134949A (zh) * | 2019-04-26 | 2019-08-16 | 网宿科技股份有限公司 | 一种基于教师监督的文本标注方法和设备 |
CN111177098A (zh) * | 2019-12-27 | 2020-05-19 | 中信百信银行股份有限公司 | 查看系统日志上下文的方法及系统 |
CN111986768A (zh) * | 2020-09-03 | 2020-11-24 | 平安国际智慧城市科技股份有限公司 | 诊所查询报告生成方法、装置、电子设备及存储介质 |
CN112784584A (zh) * | 2020-12-23 | 2021-05-11 | 北京泰豪智能工程有限公司 | 一种文本数据元语义识别方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101477518A (zh) * | 2009-01-09 | 2009-07-08 | 昆明理工大学 | 基于条件随机场的旅游领域命名实体识别方法 |
CN103049501A (zh) * | 2012-12-11 | 2013-04-17 | 上海大学 | 基于互信息和条件随机场模型的中文领域术语识别方法 |
CN103268339A (zh) * | 2013-05-17 | 2013-08-28 | 中国科学院计算技术研究所 | 微博消息中命名实体识别方法及系统 |
US20140172774A1 (en) * | 2011-12-13 | 2014-06-19 | Peking University Founder Group Co., Ltd | Method and device for named-entity recognition |
-
2015
- 2015-03-17 CN CN201510116518.6A patent/CN104679885B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101477518A (zh) * | 2009-01-09 | 2009-07-08 | 昆明理工大学 | 基于条件随机场的旅游领域命名实体识别方法 |
US20140172774A1 (en) * | 2011-12-13 | 2014-06-19 | Peking University Founder Group Co., Ltd | Method and device for named-entity recognition |
CN103049501A (zh) * | 2012-12-11 | 2013-04-17 | 上海大学 | 基于互信息和条件随机场模型的中文领域术语识别方法 |
CN103268339A (zh) * | 2013-05-17 | 2013-08-28 | 中国科学院计算技术研究所 | 微博消息中命名实体识别方法及系统 |
Non-Patent Citations (4)
Title |
---|
FANG YANG等: "CRFs-Based Named Entity Recognition Incorporated with Heuristic Entity List Searching", 《PROCEEDINGS OF THE SIXTH SIGHAN WORKSHOP ON CHINESE LANGUAGE PROCESSING》 * |
XIAOHUA LIU等: "Recognition named in tweets", 《ACM》 * |
万如: "中文机构名识别的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
红霞: "基于层叠条件随机场的中文机构名识别的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105095391A (zh) * | 2015-06-30 | 2015-11-25 | 北京奇虎科技有限公司 | 利用分词程序识别机构名称的装置及方法 |
CN105426358A (zh) * | 2015-11-09 | 2016-03-23 | 中国农业大学 | 一种疾病名词自动识别方法 |
CN105426358B (zh) * | 2015-11-09 | 2018-08-31 | 中国农业大学 | 一种针对海量新闻的疾病名词自动识别方法 |
CN105912522A (zh) * | 2016-03-31 | 2016-08-31 | 长安大学 | 基于成分分析的英语语料自动提取方法和提取器 |
CN107577655A (zh) * | 2016-07-05 | 2018-01-12 | 北京国双科技有限公司 | 名称获取方法和装置 |
CN108241631A (zh) * | 2016-12-23 | 2018-07-03 | 百度在线网络技术(北京)有限公司 | 用于推送信息的方法和装置 |
CN108108350A (zh) * | 2017-11-29 | 2018-06-01 | 北京小米移动软件有限公司 | 名词识别方法及装置 |
CN108255816A (zh) * | 2018-03-12 | 2018-07-06 | 北京神州泰岳软件股份有限公司 | 一种命名实体识别方法、装置及系统 |
CN108763218A (zh) * | 2018-06-04 | 2018-11-06 | 四川长虹电器股份有限公司 | 一种基于crf的影视检索实体识别方法 |
CN109284424A (zh) * | 2018-09-21 | 2019-01-29 | 长沙学院 | 构造滑动情况表的方法、数据搜索方法、计算机信息传播系统、基于大数据的机器学习系统 |
CN109284424B (zh) * | 2018-09-21 | 2021-10-19 | 长沙学院 | 构造滑动情况表的方法 |
CN110134949A (zh) * | 2019-04-26 | 2019-08-16 | 网宿科技股份有限公司 | 一种基于教师监督的文本标注方法和设备 |
CN111177098A (zh) * | 2019-12-27 | 2020-05-19 | 中信百信银行股份有限公司 | 查看系统日志上下文的方法及系统 |
CN111177098B (zh) * | 2019-12-27 | 2023-09-22 | 中信百信银行股份有限公司 | 查看系统日志上下文的方法及系统 |
CN111986768A (zh) * | 2020-09-03 | 2020-11-24 | 平安国际智慧城市科技股份有限公司 | 诊所查询报告生成方法、装置、电子设备及存储介质 |
CN111986768B (zh) * | 2020-09-03 | 2023-06-09 | 深圳平安智慧医健科技有限公司 | 诊所查询报告生成方法、装置、电子设备及存储介质 |
CN112784584A (zh) * | 2020-12-23 | 2021-05-11 | 北京泰豪智能工程有限公司 | 一种文本数据元语义识别方法及装置 |
CN112784584B (zh) * | 2020-12-23 | 2024-01-26 | 北京泰豪智能工程有限公司 | 一种文本数据元语义识别方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN104679885B (zh) | 2018-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104679885B (zh) | 一种基于语义特征模型的用户搜索串机构名识别方法 | |
CN102262634B (zh) | 一种自动问答方法及系统 | |
CN107220237A (zh) | 一种基于卷积神经网络的企业实体关系抽取的方法 | |
CN103235772B (zh) | 一种文本集人物关系自动提取方法 | |
CN108334493B (zh) | 一种基于神经网络的题目知识点自动提取方法 | |
CN107168945A (zh) | 一种融合多特征的双向循环神经网络细粒度意见挖掘方法 | |
CN103646112B (zh) | 利用了网络搜索的依存句法的领域自适应方法 | |
CN104866593A (zh) | 一种基于知识图谱的数据库搜索方法 | |
CN111709235A (zh) | 一种基于自然语言处理的文本数据统计分析系统及方法 | |
CN104615767A (zh) | 搜索排序模型的训练方法、搜索处理方法及装置 | |
CN104809176A (zh) | 藏语实体关系抽取方法 | |
CN112749265B (zh) | 一种基于多信息源的智能问答系统 | |
CN104408153A (zh) | 一种基于多粒度主题模型的短文本哈希学习方法 | |
CN111708899B (zh) | 一种基于自然语言和知识图谱工程信息智能搜索方法 | |
CN112364172A (zh) | 一种政务公文领域知识图谱构建方法 | |
CN107169079A (zh) | 一种基于Deepdive的领域文本知识抽取方法 | |
CN106897559A (zh) | 一种面向多数据源的症状体征类实体识别方法及装置 | |
CN103886020B (zh) | 一种房地产信息快速搜索方法 | |
CN112527933A (zh) | 一种基于空间位置和文本训练的中文地址关联方法 | |
CN106547733A (zh) | 一种面向特定文本的命名实体识别方法 | |
CN110888989B (zh) | 一种智能学习平台及其构建方法 | |
CN113157860B (zh) | 一种基于小规模数据的电力设备检修知识图谱构建方法 | |
CN107656921A (zh) | 一种基于深度学习的短文本依存分析方法 | |
CN110781681A (zh) | 一种基于翻译模型的初等数学应用题自动求解方法及系统 | |
CN108491459B (zh) | 一种软件代码摘要自动生成模型的优化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |