CN115114915B - 短语识别方法、装置、设备和介质 - Google Patents
短语识别方法、装置、设备和介质 Download PDFInfo
- Publication number
- CN115114915B CN115114915B CN202210575003.2A CN202210575003A CN115114915B CN 115114915 B CN115114915 B CN 115114915B CN 202210575003 A CN202210575003 A CN 202210575003A CN 115114915 B CN115114915 B CN 115114915B
- Authority
- CN
- China
- Prior art keywords
- word
- phrase
- candidate
- feature vector
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 239000013598 vector Substances 0.000 claims abstract description 401
- 230000004927 fusion Effects 0.000 claims abstract description 79
- 239000000203 mixture Substances 0.000 claims abstract description 43
- 238000007499 fusion processing Methods 0.000 claims abstract description 16
- 230000011218 segmentation Effects 0.000 claims description 195
- 238000000605 extraction Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 15
- 230000015654 memory Effects 0.000 claims description 14
- 238000003058 natural language processing Methods 0.000 abstract description 6
- 230000006870 function Effects 0.000 description 22
- 238000010586 diagram Methods 0.000 description 14
- 230000008569 process Effects 0.000 description 12
- 238000012549 training Methods 0.000 description 12
- 238000004422 calculation algorithm Methods 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 8
- 230000009466 transformation Effects 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 3
- 235000002595 Solanum tuberosum Nutrition 0.000 description 2
- 244000061456 Solanum tuberosum Species 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000009944 hand knitting Methods 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000036961 partial effect Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 238000013475 authorization Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000009954 braiding Methods 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了短语识别方法、装置、设备和介质,涉及计算机技术领域,具体涉及自然语言处理技术领域。该方法包括:确定获取的待识别语句中的候选短语;候选短语为待识别语句的短语中短语构成率大于预设阈值的短语;确定候选短语的字特征向量、词特征向量以及短语特征向量;字特征向量用于表征候选短语中字的语义,词特征向量用于表征候选短语中词的语义,短语特征向量用于表征候选短语的语义;对每一候选字的字特征向量、候选字对应的词特征向量以及候选字对应的短语特征向量进行融合处理,获得候选字的融合特征向量;根据每一候选字的融合特征向量将候选字填充至目标短语,生成待识别语句的短语识别结果。能够提高对语句的短语识别精度。
Description
技术领域
本申请一般涉及计算机技术领域,具体涉及自然语言处理技术领域,尤其涉及一种短语识别方法、装置、设备和介质。
背景技术
短语识别是指识别文本中具有特定意义的短语,在自然语言处理技术(naturelanguage processing,NLP)走向实用化的过程中占有重要的地位。
相关技术中,采用词典或者预设的短语模板对文本中的短语进行匹配识别,由于词典或者预设的短语模板的覆盖面有限,这样容易将与文本意图不相关的短语作为识别结果;例如,在搜索场景下,假设搜索语句为“家乐福地址是多少”,如果只识别出了“家乐福”,这就与文本意图产生严重偏差,导致准确率较低。
发明内容
鉴于现有技术中的上述缺陷或不足,期望提供一种短语识别方法、装置、设备和介质,能够提高对语句的短语识别精度。
第一方面,本申请提供了一种短语识别方法,该方法包括:
获取待识别语句,确定待识别语句中的候选短语;候选短语为待识别语句的短语中短语构成率大于预设阈值的短语;确定候选短语的字特征向量、词特征向量以及短语特征向量;字特征向量用于表征候选短语中的字的语义,词特征向量用于表征候选短语中的词的语义,短语特征向量用于表征候选短语的语义;针对候选短语中的每一候选字,对候选字的字特征向量、候选字对应的词特征向量以及候选字对应的短语特征向量进行融合处理,获得候选字的融合特征向量;针对每一候选字,根据候选字的融合特征向量将候选字填充至目标短语,生成待识别语句的短语识别结果。
第二方面,本申请提供了一种短语识别装置,该短语识别装置包括:获取单元,用于获取待识别语句;短语识别单元,用于确定待识别语句中的候选短语;候选短语为待识别语句的短语中短语构成率大于预设阈值的短语;特征提取单元,用于确定候选短语的字特征向量、词特征向量以及短语特征向量;字特征向量用于表征候选短语中的字的语义,词特征向量用于表征候选短语中的词的语义,短语特征向量用于表征候选短语的语义;特征融合单元,用于针对候选短语中的每一候选字,对候选字的字特征向量、候选字对应的词特征向量以及候选字对应的短语特征向量进行融合处理,获得候选字的融合特征向量;填充单元,用于针对每一候选字,根据候选字的融合特征向量将候选字填充至目标短语,生成待识别语句的短语识别结果。
第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行该程序时实现如本申请实施例描述的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请实施例描述的方法。
第五方面,本申请实施例提供一种计算机程序产品,该计算机程序产品包括指令,当该指令被运行时,使得如本申请实施例描述的方法被执行。
本申请提出的短语识别方法、装置、设备和介质,为了解决现有技术在进行短语识别的过程中,容易与语句的文本意图产生严重偏差的问题,本申请首先确定出待识别语句的短语中短语构成率大于预设阈值的候选短语,通过提取候选短语中细粒度(即字粒度)的特征向量(即字特征向量)、较细粒度(即词粒度)的特征向量(即词特征向量)以及粗粒度(即短语粒度)的特征向量(即短语特征向量)这三种类型的特征向量;并针对候选短语中每一个候选字,将候选字对应的上述三种类型的特征向量进行融合处理,以实现候选字、候选字对应词以及候选字对应的候选短语三者的语义融合。由于结合了候选字单独的语义、包含该候选字的词语义以及包含该词语的候选短语的语义,可以准确的识别出待识别语句中每一候选字是否能够满足组成目标短语的要求,从而根据特征融合后的特征向量,能够确定出候选字与目标短语的相对位置,以便将满足条件的候选字填充至目标短语中,从而生成待识别语句的短语识别结果。相比于现有技术只是通过词典或者预设的短语模板匹配出待识别语句的短语来说,本申请所提供的方法,能够有效的命中待识别语句中具有特殊意义的短语,使得识别出的短语能够贴合语句的文本意图。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1为本申请实施例提供的短语识别系统的结构示意图;
图2为本申请实施例提供的短语识别方法的流程示意图;
图3为本申请实施例提供的融合特征的结构示意图;
图4为本申请实施例提供的BERT网络的结构示意图;
图5为本申请实施例提供的有向无环图;
图6为本申请实施例提供的长短时记忆模型的示意图;
图7为本申请实施例提供的短语识别装置的另一结构示意图;
图8为本申请实施例提供的计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
短语识别是指识别文本中具有特定意义的短语,主要包括机构、品牌、类别、产品等。短语识别是信息提取、问答系统、句法分析、机器翻译、资讯推荐等应用领域的重要基础工具,在自然语言处理技术走向实用化的过程中占有重要的地位。例如,在搜索场景下,短语是对用户需求深度理解的底层基础信号。因此,短语识别的质量直接影响到用户搜索的效果。而相关技术中,采用词典或者预设的短语模板对文本中的短语进行匹配识别,由于词典或者预设的短语模板的覆盖面有限,这样容易将与文本意图不相关的短语作为识别结果;例如,在搜索场景下,假设搜索语句为“家乐福地址是多少”,如果只识别出了“家乐福”,这就与文本意图产生严重偏差,导致准确率较低。
基于此,本申请实施例提供一种短语识别方法、装置、设备和介质,能够基于条件随机场(conditional random field,CRF)和基于领域字典的两种技术对待识别语句进行分词,得到分词结果。并根据分词结果确定出待识别语句的短语中短语构成率大于预设阈值的候选短语。通过提取候选短语中字特征向量、词特征向量以及短语特征向量这三种类型的特征向量;并针对候选短语中的每一个候选字,将候选字对应的上述三种类型的特征向量进行融合处理,以实现候选字、候选字对应词以及候选字对应的候选短语三者的语义融合。由于结合了候选字单独的语义、包含该候选字的词语义以及包含该词语的候选短语的语义,可以准确的识别出待识别语句中每一候选字是否能够满足组成目标短语的要求,从而根据特征融合后的特征向量,能够确定出候选字与目标短语的相对位置,以便将满足条件的候选字填充至目标短语中,从而生成待识别语句的短语识别结果。
图1为本申请实施例提供的一种短语识别系统的结构示意图。本申请实施例所提供的短语识别方法可应用于该短语识别系统100。参考图1,该短语识别系统100包括一个或多个用户设备101以及短语识别装置102。需要说明的是,尽管图1仅描绘了用户设备101,但是本领域技术人员将能够理解,本申请可以支持任何数量的用户设备。
可以理解的是,一个或多个用户设备101与短语识别装置102可以部署于同一计算机设备,也可以部署于不同计算机设备;同理,一个或多个用户设备101中的各个用户设备101可以部署于同一计算机设备,也可以部署于不同计算机设备,本申请实施例对此不作限定。
示例性的,以用户设备101与短语识别装置102单独部署于不同的计算机设备为例,用户设备101可以是包括但不限于个人计算、平台电脑、智能手机、车载终端等设备,本申请实施例对此不作限定。短语识别装置102可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供短语识别技术的基础云计算服务的云服务器。
下面将结合图1,以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。以下具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。
如图2所示,本申请实施例提供一种短语识别方法,该方法可应用于图1所示的短语识别装置102,该方法具体包括以下步骤:
201、获取待识别语句,确定待识别语句中的候选短语;候选短语为待识别语句的短语中短语构成率大于预设阈值的短语。
可选的,待识别语句可以是汉语语句、英文语句或者其他形式的语言形成的语句等,本申请实施例对待识别语句的语言形式不作任何限定。其获取方式可以通过实际的应用场景决定,例如,在搜索场景下,待识别语句的获取方式可以是诸如语音、文字等方式获取。
在一种可能的实现方式中,待识别语句的获取方式可以包括但不限于以下的任一种方式:
方式一,待识别语句为用户通过使用搜索引擎或者带有搜索功能的应用程序输入的查询语句;其中,查询语句的形式包括以文本输入的形式或者以语音输入的形式。当查询语句为语音输入时,则可以通过语音识别算法将语音形式的搜索语句转换为文本形式的查询语句,以便于后续处理。
方式二、待识别语句为从公开授权的开放平台中获取的文字组成的语句集合,包括在开放平台上被浏览或查询次数最多的语句集合。
值得注意的是,上述关于待识别语句获取方式的说明仅为示意性举例,本实施中对目标提问语句的具体获取方式不做任何限定。
示例性的,待识别语句包括由用户自主输入的,即待识别语句由用户本身意志决定,或者,从公开且授权的数据平台中获取用户输入的一些查询语句或者文本语句,在此不做限定。
在一些实施例中,待识别语句的内容包括如下几种形式中至少一种:
1、待识别语句为判断式语句,在待识别语句中包括判断词,如“是否”“能否”等,如:“可乐是否有害”、“孕妇能否喝咖啡”等;
2、待识别语句为内容询问式语句,即待识别语句为对某一项事物进行内容质疑,如:“AB咖啡的地址在哪里”、“手烫伤该怎么办”等;
3、待识别语句为陈述式语句,即待识别语句中不包括任何带有提问或者询问的词,如:“全国好玩的地方推荐”、“土豆的热量”等。
值得注意的是,上述关于待识别语句的内容形式的说明仅为示意性举例,本实施中对目标提问语句的具体内容不做任何限定。
可选的,待识别语句中可以包含有特定语义的词语,如“咖啡”、“土豆”等,或者,包括一些不存在语义的词语,如“您好”,“再见”等,在此不做限定。
可以理解的,短语是在句法、语义和语用三个层面上能够搭配的语言单位组合起来的没有句调的语言单位,又叫词组。短语的构成方式主要有以下几种:一种是由实词和实词按一定的语序(词语的排列次序)直接组成短语,例如“学生回答”和“回答学生”,是由“学生”和“回答”这两个词语按照不同的语序组成的两个不同的短语。另一种是靠虚词的帮助,把两个或两个以上的实词组合成一个短语,例如“卓越的科学家”、“城市和乡村”这两个短语,是借助虚词“的”、“和”,把两个实词组合起来构成的。还有一种是由一个虚词和一个实词组成一个短语,例如“从北京”是由介词和名词组成的短语。
短语构成率是指子串构成短语的概率,其可以根据子串中的字段信息、与该子串相关的点击信息(如文档的点击率)等参数来综合确定。对于短语构成率的具体获取方式请参考下述,此处暂不作进一步的详细说明。
候选短语则可以理解为能够在一定程度上表达出待识别语句的文本含义或者文本意图的短语。
202、确定候选短语的字特征向量、词特征向量以及短语特征向量;字特征向量用于表征候选短语中的字的语义,词特征向量用于表征候选短语中的词的语义,短语特征向量用于表征候选短语的语义。
在实际应用中,对于字特征向量表征的候选短语中的字的语义可以是包括但不限于在候选短语中,该字上下文的含义结合该字的位置信息,所得到的综合信息。同理,对应词特征向量的候选短语中的词的语义可以是包括但不限于在候选短语中,该词上下文的含义结合该词的位置信息,所得到的综合信息。
在示例性的实施例中,对于确定候选短语的字特征向量,可以获取该候选短语中的每个字,得到一组字。一组字可以是该候选短语的字序列,例如,候选短语为“AB咖啡地址”,则该候选短语中的字序列可以是[A,B,咖,啡,地,址]。对于上述一组字,可以对其中的每个字进行编码,得到与每个字对应的字特征向量,从而得到一组字特征向量。一组字特征向量包含的字特征向量的数量与一组字中包含的字的数量是相同的。每个字的字特征向量的维度可以是相同的维度,例如,均为第一维度,例如,每个字可以编码成一个(1,m)维度的字特征向量,m为自然数。基于所采用的预测模型的不同,对字进行编码所采用的编码方式、以及编码得到的字特征向量的维度可以是不同的,本实施例中对此不做限定。
另外,对于获取候选短语的词特征向量,可以是对该候选短语进行分词处理,得到一组词。对于不同的分词方式,词所表征的含义也可以是不同的。上述一组词可以是该候选短语的词序列,例如,候选短语为“AB咖啡地址”,则该候选短语中的字序列可以是[AB,咖啡,地址]。对于上述一组词,可以对其中的每个词进行编码,得到与每个词对应的词特征向量,从而得到一组词特征向量。一组词特征向量包含的词特征向量的数量与一组词中包含的词的数量是相同的。每个词的词特征向量的维度可以是相同的维度。例如,每个词可以编码成一个(1,n)维度的特征向量,n为自然数。
可选地,词粒度的特征向量可以利用字粒度的特征向量进行获取,不需要单独训练词粒度的特征向量,从而可以减少词向量的计算程度。
在一种实现方式中,基于已有字对应的字特征向量,确定包含盖子的词的词特征向量时,可采用对字特征向量进行特征融合的方式得到词特征向量。具体的,在进行特征向量融合时,可以基于一组字特征向量中的每个词特征向量进行特征融合。对于一组词中的每个词,可以根据一组词与一组字之间的包含关系,在一组字中确定每个词所包括的字。基于分词规则,每个词可以包含至少一个字,不同的词包含的字是不同的。这里,一组字中的每个字不仅包含其本身,也包括其在一组字中的位置。
对于每个词中所包含的字,不同字特征向量融合可以是串行执行的,也可以是并行执行的,还可以是串行执行和并行执行相结合的。可选地,假设词中至少包含两个字,可以分别完成其中一个字的字特征向量与其所属的词的另一个的字特征向量的向量融合,从而完成词中两个字的字特征向量的向量融合。在完成全部的特征向量融合之后,可以得到词特征向量。
例如,在完成其中一个字的字特征向量与其所属的词的另一个的字特征向量的向量融合,得到第一特征向量。之后,再针对该词中又一个字的字特征向量与第一特征向量的向量融合,遍历词中所有的字,直到完成词中所包含的所有字的字特征向量的向量融合。
进一步的,针对候选短语中所包含的所有词,可以并行完成多个词(可以是候选短语中所包含的词中的全部或者部分词)中各词所包含的字的特征向量之间的向量融合,直到完成候选短语中所有词的特征向量融合。
203、针对候选短语中的每一候选字,对候选字的字特征向量、候选字对应的词特征向量以及候选字对应的短语特征向量进行融合处理,获得候选字的融合特征向量。
在一种可能的实施方式中,将候选字的字特征向量、候选字对应的词特征向量以及候选字对应的短语特征向量进行一定的权重赋值,并基于各自对应的权重,对候选字的字特征向量、候选字对应的词特征向量以及候选字对应的短语特征向量进行融合处理,以得到候选字的融合特征向量。
实际上,对候选字的字特征向量、候选字对应的词特征向量以及候选字对应的短语特征向量进行融合处理,具体得到的是字、词以及短语的融合特征向量,由于字、词以及短语中均包含有相同的候选字,因此得到的融合特征向量更加能够表达候选字的语义信息,故称其为候选字的融合特征向量。
需要说明的是,进行融合处理之前,假如候选字的字特征向量、候选字对应的词特征向量以及候选字对应的短语特征向量的向量维度不同,则可以在候选字的字特征向量、候选字对应的词特征向量以及候选字对应的短语特征向量中,任意选取其中一个的维度作为目标维度,对其他两个特征向量进行维度转化。例如,可以获取特征变换信息,该特征变换信息用于调整上述三种特征向量的维度。
在一种可能的实施方式中,将特征变换矩阵作为上述特征变换信息。通过设置特征变换矩阵的行数和列数,以及矩阵内各元素的数值。将特征变换矩阵与需要调整的特征向量进行相乘,即可使候选字的字特征向量、候选字对应的词特征向量以及候选字对应的短语特征向量的三者维度相同的向量。可根据不通过的特征向量设置不同的特征变换矩阵,具体基于特征向量的实际维度对特征变换矩阵进行适应性的调整。
在一个示例中,如图3所示,其示例性示出了一种特征向量的融合示意图。对于候选短语为“AB咖啡地址”,对其进行分词处理与词性分析处理,确定候选短语“AB咖啡地址”中关于“A”的字特征向量、“AB”的词特征向量以及“AB咖啡地址”的短语特征向量。假设,字特征向量、词特征向量的维度为256维,而短语特征向量为128维。那么,可以选择短语特征向量进行维度转化(例如将短语特征向量于特征变换矩阵进行相乘),将其维度转化为256维的向量。接着,对“A”的字特征向量、“AB”的词特征向量以及进行了维度转化后的“AB咖啡地址”的短语特征向量进行融合处理,得到候选字为“A”的融合特征向量。
204、针对每一候选字,根据候选字的融合特征向量将候选字填充至目标短语,生成待识别语句的短语识别结果。
可选地,融合特征向量用于表征候选字相对于目标短语的位置,可以通过融合特征向量确定候选字是否为目标短语中的字,以及若是目标短语中的字,具体在目标短语中的位置。
在实际应用中,在得到待识别语句中所有的候选短语中的候选字所对应的融合特征向量后,即可理解为得到了待识别短语中所有字对应的融合特征向量。
在一种示例性的方案中,按照待识别语句的语序,将待识别语句中属于目标短语中的t个字,填充至k个占位符的前t个占位符中;其中,k和t均为正整数,且k≥t。
本申请提出的短语识别方法、装置、设备和介质,为了解决现有技术在进行短语识别的过程中,容易与语句的文本意图产生严重偏差的问题,本申请首先确定出待识别语句的短语中短语构成率大于预设阈值的候选短语,通过提取候选短语中细粒度(即字粒度)的特征向量(即字特征向量)、较细粒度(即词粒度)的特征向量(即词特征向量)以及粗粒度(即短语粒度)的特征向量(即短语特征向量)这三种类型的特征向量;并针对候选短语中每一个候选字,将候选字对应的上述三种类型的特征向量进行融合处理,以实现候选字、候选字对应词以及候选字对应的候选短语三者的语义融合。由于结合了候选字单独的语义、包含该候选字的词语义以及包含该词语的候选短语的语义,可以准确的识别出待识别语句中每一候选字是否能够满足组成目标短语的要求,从而根据特征融合后的特征向量,能够确定出候选字与目标短语的相对位置,以便将满足条件的候选字填充至目标短语中,从而生成待识别语句的短语识别结果。相比于现有技术只是通过词典或者预设的短语模板匹配出待识别语句的短语来说,本申请所提供的方法,能够有效的命中待识别语句中具有特殊意义的短语,使得识别出的短语能够贴合语句的文本意图。
在其中一个实施例中,可通过候选短语中字的上下文来确定该字的字特征向量。因此,在一种实现方式中,确定候选短语的字特征向量,包括:获取候选短语中的字的上下文,并确定与上下文匹配的目标字;基于目标字,得到字的字特征向量。
在一种实现方式中,可采用已训练好的word2vec模型获取候选短语中的字特征向量。具体的,通过大规模的样本语句作为训练数据,对word2vec模型进行训练。word2vec模型在训练过程中学习样本语句中各字对应的特征表示,以得到各字对应的特征向量。比如,使用样本语句中除目标字之外的其他字对上述目标字进行表示,将上述目标字映射为对应的特征向量,该特征向量可表征目标字的语义。通过将候选短语中的字的上下文输入至已训练好的word2vec模型,基于该字的上下文匹配对应的目标字,从而将目标字的字特征向量确定为该字的字特征向量。
在另一种实现方式中,字向量特征的获取方式还可以是通过获取候选短语中的字的上下文,将该字的上下文所得到的特征向量标识为该字的字特征向量。
具体可以根据Transformer的双向编码器表示(bidirectional encoderrepresentations from transformers,BERT)网络确定字特征向量以及词特征向量。
BERT网络结构是基于双向变换器(Transformer)结构的编码器(Encoder)。它摒弃了之前常用的自然语言处理深度学习模型结构,采用全attention的构造方法,即transformer结构。双向transformer结构保证了模型能学到上文的信息和下文的信息。通过这种结构的编码器,BERT网络结构可以学习到文本的语义表示。BERT网络结构在训练时是基于海量的纯文本语料进行无监督的训练,以学习字的语义表示。BERT网络结构的训练方法来获取字特征向量主要是通过遮蔽训练语料中的部分字然后预测。
具体的,随机将输入的候选短语中15%的词遮蔽起来,通过其他词预测被遮盖的词,通过迭代训练,可以学习到词的上下文特征、语法结构特征、句法特征等。
为了便于介绍,请参阅图4,图4为本申请实施例中BERT网络的一个模型处理示意图,如图4所示,以候选语句为例,对于特征向量的任务来说,BERT网络结构输出的语义表示的形式是将输入的目标文本数据生成一个长度固定的向量。例如,假设一段目标文本数据可以分成20个字,再获取对应的字嵌入(即E1至En),通过双向transformer生成向量(即表示为T1至Tn)。基于该向量再连接全连接层和Softmax层,即可得到候选短语中各字的字特征向量。
本实施例中,通过结合候选短语中字的上下文,来确定出与该上下文匹配的目标字,从而得到候选短语中字的字特征向量,通过结合候选短语中需要确定的特征向量的字的上下文,充分考虑到了字在实际短语中的语境信息,从而保证了对该字的特征提取的全面性,以便更准确的表达该字的语义。
在其中一个实施例中,如果简单把字粒度和词粒度直接输入(字单独输入,同时词也单独输入),字和词作为两路输入,等同于两个预测模型(比如,两个BERT模型)混合粒度来获取字特征向量和词特征向量,使得计算量翻倍,对于设备的软硬件需求会大幅增加。因此,为了减少词向量特征在计算过程中计算量,可以基于已获取的词中所包含的字的字特征向量来确定该词的词特征向量。在一种实现方式中,确定候选短语的词向量特征包括:针对候选短语中的词,对词包含的字对应的字特征向量进行特征融合,获得词的词特征向量。
其中,特征融合包括但不限于以下的任一项:向量拼接、向量叠加以及向量积。
在一个可选的实施例中,也可采用向量拼接、向量叠加以及向量积中的任意两项或者三项结合来实现特征融合;示例性的,向量拼接结合向量叠加的方式进行特征融合,比如,假设词中包含A、B两个字,将这两个字按照两种不同的拼接方式(如,一种是将B的特征向量直接拼接在A的特征向量之后,另一种是将A的特征向量拼接在B的特征向量之后;或者还可以是A的特征向量与B的特征向量进行穿插拼接)进行拼接,得到两个拼接向量,再将这两个拼接向量进行叠加,最后的到该词的词特征向量。
需要说明的是,词特征向量是将词映射到一个固定维度的向量,该向量可以用于表征该词的语法和语义信息。在一个实施例中,词特征向量可以用于表示该词的词特征。通过获取词中每个字的字特征信息,结合词中每个字的位置信息,对词中每个字的位置信息进行特征的线性组合(即对词包含的字对应的字特征向量进行特征融合),得到单字组合成词的特征信息,即词特征向量。
示例性的,对于利用BERT模型获取字特征向量和词特征向量的情况。例如,对于预训练模型,由于词最小的组成粒度都是字,可以不单独训练和使用额外的词向量,而是从字粒度向上拓展,将字粒度和词粒度在embedding(嵌入层)阶段融合,这样仅需要做一次Transformer(转换器)编码,无需额外增加系统的计算量。这里,字粒度和词粒度的编码层及融合阶段的语言模型都是使用Transformer结构。例如,候选短语为“ABC是DE汽车品牌”,假设词为“汽车”,“汽车”包含的所有字为“汽”和“车”,可以将“汽”的字特征向量与“汽”的字特征向量进行向量的特征融合。
在本实施例中,词向量特征的另一种获取方式,包括:获取候选短语中的词的上下文,并确定与上下文匹配的目标词;基于目标词,得到上述候选短语中的词的词特征向量。
在另一实施例中,词向量特征的另一种获取方式,包括:获取候选短语中的词的上下文,将使用该词的上下文所得到的特征向量标识为该词的词特征向量。
在一种实现方式中,在不考虑节省计算量的前提下,确定候选短语的词向量特征可以不依赖于词向量特征对应的词所包含的字的字特征向量,而是可以通过获取候选短语中的词的上下文,并确定与上下文匹配的目标词;基于目标词,得到字的词特征向量。因此,通过该种方式获取的词特征向量的实施例可参考上述获取字特征向量的实施例。
本实施例中,针对候选短语中的词,通过获取词所包含的字对应的字特征向量,并对该词所包含的字对应的字特征向量进行特征融合,获得词的词特征向量,能够节省词特征向量的计算量,减少了计算资源的浪费。
在一种实施例中,确定待识别语句中的候选短语,包括:获取待识别语句的分词结果;分词结果中包含至少一个词;基于分词结果中的词,确定待识别语句的至少一个子串;根据子串,确定候选短语。
示例性的,对待识别语句进行分析,获得待识别语句对应的所有分词方式,并计算每种分词方式对应的语句权值S,以权值最高的初始分词结果作为待识别语句的分词结果。
需要说明的是,确定待识别语句的分词结果,可以以权值最高的初始分词结果作为待识别语句的分词结果,也可以根据初始分词结果选择策略来确定待识别语句的分词结果。例如,根据语句权值确定所有初始分词结果中的一个作为待识别语句的分词结果。按照预设的分词方式对待识别语句进行分析,获得待识别语句对应的所有初始分词结果,并计算每种初始分词结果对应的语句权值S后,比较每种初始分词结果的语句权值,并通过分词结果选择策略确定语句权值,将该语句权值对应的初始分词结果作为待识别语句的分词结果。
这里的分词结果选择策略可以是选择语句权值最小或语句权值最大或对语句权值进行进一步数学运算再选择相应语句权值的初始分词结果式作为分词结果。分词结果选择策略用于根据语句权值从所有初始分词结果中确定其中的一种初始分词结果作为待识别语句的分词结果,是根据语言的特性确定的,比如对于汉语的日常用语分词,分词结果选择策略可以是选择语句权值最大的初始分词结果。从上面的分析可以得知,对于一个特定的词语,其分词结果选择策略是确定的,因此,最后可以选择出确定的初始分词结果作为待识别语句的分词结果。采用这种分词方法,由于对各种分词方式进行了量化处理,并结合分词结果选择策略进行初始分词结果的选择,可以提高待识别语句的分词结果的准确性。
进一步的,通过已有的领域知识词库对结合分词结果选择策略所选择初始分词结果进行修复,例如,可以将该初始分词结果的分词与领域知识库进行匹配,将领域知识库中没有分词直接进行删除。又如,可以将该初始分词结果的分词与领域知识库进行匹配,将领域知识库中没有分词且无法确定是否为错别字的分词进行删除,和/或对分词中存在明显错误的字进行修正。例如,假设待识别语句为“请问中国有多少年的历使”,假设初始分词结果为:请问/中国/有/多少/年/的/历使,而词库中只有关于“历史”这一分词,可以确定“历使”中的“使”字明显错误,因此可对“历使”修正为“历史”。
基于分词结果中的分词,搜索已有的短语知识库,确定待识别语句中的至少一个子串。
本实施例中,通过获取待识别语句的分词结果,并基于分词结果中的词,得到初始的短语获取结果(即子串),但考虑到子串不一定构成短语;因此,通过对子串进行筛选,进而得到候选短语。使得候选短语能够满足短语构成的条件。
在其中一种实施例中,在对待识别语句进行分词切分,由于切分方式的不同,可能会得到多组初始分词结果。通过对每组初始分词结果中的各个分词进行权重赋值,则可以根据每组分词的权重来确定将多组初始分词结果中的哪一组初始分词结果作为待识别语句最终的分词结果。因此,在一种实现方式中,获取待识别语句的分词结果,包括:获取待识别语句的多个初始分词结果;每一初始分词结果包含至少一个分词以及分词对应的权重;每一初始分词结果中所包含的分词可组成待识别语句;分词对应的权重用于表征分词的词频;基于每组初始分词结果中每一分词的权重,在多组初始分词结果中确定目标分词结果;将目标分词结果中的词确定为待识别语句的分词结果中的词。
其中,分词的词频是指一个分词在切分后得到的所有分词中的出现次数,例如,统计待识别语句为“AB咖啡在哪里”中“AB”在所有分词中的出现次数。例如出现了7次,那么“AB”对应的权重则为7。
在另一种可能的实现方式中,分词的权重还可以基于每个分词出现的概率确定。具体的,对待识别语句进行分词,统计每个分词出现的概率,基于每个分词出现的概率作为该分词的权重。
进一步的,可以对待识别语句中的停用词进行去除处理。去停用词处理主要是将待识别语句中没有实际含义的内容剔除,一般常见的去停词诸如为语气助词、副词、介词、连接词等,具体可以采用预先训练好的语言模型识别出待识别语句中的停用词,然后将其剔除。示例性地,待识别语句为“红色的裙子”,对其进行去停用词处理,即为将其中的“的”剔除。在实际应用中,可以通过预先构建的去停用词模型等机器学习模型对待识别语句进行分析处理,以去除待识别语句中的停用词,还可以通过诸如人工标注、从外部数据源获取停用词等方式来识别出待识别语句中的停用词,并将停用词去除。
本实施例中,通过获取待识别语句的多个初始分词结果中每一初始分词结果包含至少一个分词以及分词对应的权重;并基于每组初始分词结果中每一分词的权重,在多组初始分词结果中确定目标分词结果;将目标分词结果中的词确定为待识别语句的分词结果中的词。通过用分词的词频来表示该分词的权重,以便在多组初始分词结果中根据各分词的权重来选取最合理的初始分词结果作为待识别语句的分词结果。
在其中一种实现方式中,可以将多种分词工具对待识别语句进行分词,并将多种分词工具综合得到的多组分词,确定为待识别语句的多个初始分词结果。具体的,利用条件随机场(intro2 conditional andom field,CRF)以及基于领域字典对待识别语句进行分词,得到多组分词;基于每组分词中各分词的词频,确定各分词的权重;根据每组分词以及分词对应的权重,确定每个初始分词结果。
可以理解的是,本申请的实施例的中不限于CRF以及基于领域字典这两种分词工具。其可以基于多种分词工具而进行。在一个例子中,分词工具可以包括:基于词典的分词算法,例如,正向最大匹配法、逆向最大匹配法和双向匹配分词法等;或者,基于统计的机器学习算法,例如隐马尔可夫、支持向量积、深度学习等算法。
示例性的,例如对于输入的待识别语句为“AB咖啡地址在哪里”,通过CRF和基于领域字典对待识别语句进行分词,得到包括:[AB(7),咖啡(8),地址(11),在哪里(4)],[AB(7),咖啡地址(3),在哪里(4)]以及[A(2),B(4),咖啡(9),地址(11),在哪里(4)]这三组初始分词结果。其中,每个分词后面的括号中的数字标识该分词所对应的权重。可以理解的是,基于不同的分词工具对待识别语句进行分词得到相同的分词所对应的权重也可能不同。例如,初始分词结果为[AB(7),咖啡(8),地址(11),在哪里(4)]中咖啡的权重为8,而[AB(7),咖啡地址(3),在哪里(4)]中咖啡的权重为9。因此,本申请实施例不限定相同的分词在不同的初始分析结果中的权重必须相同。
进一步,可以基于上述的三种初始分词结果构造有向无环图,具体参照图5中构造的有向无环图,其中有向无环图是指从有向图中的一个顶点出发经过若干条边,无法回到该顶点的图。通过有向无环图查找权重值最高的一条路径,将该路径中的所有分词作为待识别语句的分词结果。
本实施例中,将条件随机场和基于领域字典分别对待识别语句进行分词,得到多组分词。通过每组分词中各分词的词频,确定各分词的权重,能够充分体现每个分词的重要程度,进而将各分词的重要程度引入至初始分词结果中,以便在多组初始分词结果中根据各分词的权重来选取最合理的初始分词结果作为待识别语句的分词结果。
在其中一种实施例中,可以针对每一子串的短语构成率,并基于该短语构成率在子串中确定候选短语。在一种实现方式中,根据子串,确定候选短语;确定子串对应的短语构成率;将短语构成率满足预设阈值的子串,确定为候选短语。
具体的,确定各个子串的短语构成率包括:基于候选短语的分词结果中的一个或多个分词,确定至少一个子串,并将各个子串与文档(即预设文档)的各个字段进行匹配,结合各子串与文档的匹配结果,来对整数线性规划模型的目标函数(即短语构成率)进行优化,确定短语构成率满足预设阈值的一个或多个子串,并将各短语构成率满足预设阈值的子串,确定为候选短语。
在本申请的一个实施例中,整数线性规划模型包括目标函数和约束条件,其中目标函数和约束条件包括超参数;具体的,针对每一子串,在约束条件的约束下,确定各目标函数的值。整数线性规划模型是在约束条件的约束下,求取目标函数的最大值,并将目标函数的最大值确定为子串的短语构成率。
其中,匹配结果还包括子串在待识别语句中的开始位置i和终止位置j;
进一步的,目标函数的公式表示如下:
其中,p表示文档;f表示字段;wp表示文档p的权重(即文档权重);wf表示字段f的权重(即字段权重);xij为变量,表示子串Qij是否为短语,xij=1表示子串Qij是短语,xij=0表示子串Qij不是短语;xijpf表示子串Qij是否出现在文档p的f字段(即子串在参考文档中的预设位置的取值);Score(xijpf)表示目标函数,也可以理解为子串的分数;w(xij)表示子串Qij对应的权重(即子串权重);Qij表示待识别语句中从位置i到j构成的子串,N为待识别语句的长度。
示例性的,根据搜索日志确定子串在待识别语句中的开始位置和终止位置。例如,对于“手工编织”的待识别语句,对于文档p1,待识别语句中的子串“手工”出现在字段“团单”,而子串“手工”在待识别语句“手工编织”中的开始位置为0,终止位置为2,待识别语句中的子串“编织”出现在字段“地址”,而子串“编织”在待识别语句“手工编织”的开始位置为2,终止位置为4;对于文档p2,待识别语句中的子串“手工编织”同时出现在字段“商家名”和“团单”,而子串“手工编织”在待识别语句“手工编织”的开始位置为0,终止位置为4。待识别语句与文档的匹配结果可以表示为如表1所示的形式。
表1
待识别语句 | 文档标识 | 匹配字段 | 子串 | 开始位置 | 结束位置 |
Q | P1 | 团单 | 手工 | 0 | 2 |
Q | P1 | 地址 | 编织 | 2 | 4 |
Q | P2 | 商家名 | 手工编织 | 0 | 4 |
Q | P2 | 团单 | 手工编织 | 0 | 4 |
在通过整数线性规划模型来确定子串的短语构成率时,不同的子串使得变量xijpf取不同的值,变量xijpf的取值还和搜索日志中得到的待识别语句与文档的匹配结果有关,即约束条件是在待识别语句与文档的匹配结果的约束下确定变量xijpf的取值。
对于一个待识别语句,在搜索日志中搜索包括该待识别语句的日志,得到该待识别语句对应的搜索日志,搜索日志中包括使用过该待识别语句对应的文档集合,文档集合包括所有召回的文档标识,对每个文档的点击信息,即将待识别语句对应的搜索日志整理为待识别语句、文档标识和用户点击信息的对应关系,用户点击信息为0表示用户未点击该文档,用户点击信息为1表示用户点击了该文档。
本实施例中,考虑到子串不一定构成短语,通过对子串进行筛选,得到候选短语。具体的,确定子串对应的短语构成率,将短语构成率满足预设阈值的子串确定为候选短语,通过短语构成率的确定,能够将不构成短语以的子串排除掉,避免造成后续短语识别的无效工作量。
在其中一个实施例中,确定子串对应的短语构成率,包括:获取子串的文档权重、字段权重、子串权重以及子串在参考文档中的预设位置的取值;文档权重用于表征子串所在的参考文档的文档权重,字段权重用于表征子串对应的字段与子串的文本意图的匹配程度,子串权重用于子串的长度;根据子串的文档权重、字段权重、子串权重以及子串在参考文档中的预设位置的值,确定子串对应的短语构成率。
具体的,超参数wp、wf、w(xij)可以根据不同的设置方式来设置具体的值或者设置获取超参数值的方式,不同设置方式的组合可以对应不同的整数线性规划模型。当然,也可以根据需要只设置一种超参数的组合方式,从而得到每个子串对应的短语构成率。超参数的不同决定了子串的不同,从而根据需求灵活调整超参数,可以获得不同的子串。文档权重wp可以根据点击率来确定,或者也可以根据其他方式来进行设置。字段权重wf可以文本意图来确定权重,即对待识别语句进行理解,确定文本意图,比如待识别语句为“金百万”,通过文本意图的识别,金百万为商家名,则将商家名这个字段的字段权重设置的较高,其他字段的权重设置的相对较低。子串的权重w(xij)可以是子串长度的函数,也可以设置为其他的值。
在本申请的一个实施例中,从搜索日志中获取文档的点击信息,并根据点击信息确定文档的点击率,将点击率作为文档的权重;或者将文档对应的预设得分,作为文档的权重。
进一步的,在确定文档的权重时,除了可以将文档的点击率作为文档的权重,还可以将文档对应的预设得分作为文档的权重。文档对应的预设得分可以是设置每个文档对应的预设得分,具体是将文档分为不同的级别,每个级别对应一个预设得分,从而可以在确定文档的预设得分时,可以通过确定该文档的级别,获取到该文档对应的预设得分。例如,在外卖领域,待识别语句一般是搜索的商家名或者菜品等,这时每个商家会对应一个商家级别,每个商家级别对应一个预设得分,从而将该预设得分作为商家的预设得分。
当然,除了上述两种确定文档的权重的方式外,还可以采用其他的方式确定文档的权重。
在本申请的一个实施例中,w(xij)用于表征子串的长度,亦可以是关于子串长度的函数,具体表示如下:
w(xij)=αj-i
其中,α是大于0且小于1的预设系数,或者是大于1的预设系数,i为子串在待识别语句中的起始位置,j为子串在待识别语句中的终止位置。
子串权重可以是关于子串长度的函数,即子串权重与子串的长度有关,例如若倾向于选择短的子串,则将预设系数α设置为大于0且小于1的值,若倾向于选择长的子串,则将预设系数α设置为大于1的预设系数。通过根据将关于子串长度的函数来确定子串权重,不同的线性规划模型可以使用不同预设系数来确定子串权重,从而可以生成不同长度的子串。
另外,文档权重是指参考文档的文档权重。可选地,若子串不在参考文档中,则将文档权重设置为第一权重;若子串在参考文档中,则将文档权重设置为第二权重,第二权重大于第一权重。
本实施例中,子串的文档权重、字段权重、子串权重以及子串在参考文档中的预设位置的取值,综合确定该子串的短语构成率,使得确定为候选短语的子串能够满足短语结构的要求。
在其中一个实施例中,确定候选短语的短语特征向量,包括:将候选短语中的每一个字作为短语首字,并利用短语首字之后的字组成预设短语;确定每一预设短语对应的特征向量;将置信度满足预设阈值的预设短语对应的特征向量,确定为短语特征向量。
具体的,确定每一预设短语对应的特征向量,包括:针对每一预设短语,获取预设短语的输入门参数、遗忘门参数以及概率参数;输入门参数用于根据预设短语决定记忆中所需添加的信息;遗忘门参数用于根据预设短语决定记忆中所丢弃的信息;根据输入门参数、遗忘门参数、概率参数以及预设短语的短语首字,确定预设短语的特征向量。
进一步的,参照图6,短期记忆网络(Long Short-Term Memory,LSTM)模型确定预设短语的特征向量,LSTM模型是由t时刻的输入输入门参数/>细胞状态(cellstate)/>临时细胞状态(即概率参数)/>隐层状态/>遗忘门参数/>记忆门参数(即输入门参数)/>输出门参数/>组成。LSTM的计算过程可以概括为:通过对细胞状态中信息遗忘和记忆新的信息使得对后续时刻计算有用的信息得以传递,而无用的信息被丢弃,并在每个时间步都会输出隐层状态。其中,遗忘、记忆与输出由通过上个时刻的隐层状态和当前输入(即预设短语)的计算出来的遗忘门参数,记忆门参数,输出门参数来控制。
这种结构可以使之前输入的信息保存在网络中,并一直向左传递,输入门打开时新的输入才会改变网络中保存的历史状态,输出门打开时保存的历史状态会被访问到,并影响之后的输出,遗忘门用于清空之前保存的历史信息。
在单向的长短时记忆网络中,被称为遗忘门参数,可以选择需要被遗忘的信息,遗忘门的值由前一时刻的隐层状态和当前特征提取时刻的输入决定,遗忘门参数计算公式为:/>
输入门参数决定什么样的新信息被存放在细胞状态中,当输入前一时刻的隐层状态和当前特征提取时刻的输入后,输入门参数能够输出输入门的值以及临时细胞状态,输入门参数计算公式为:
预设短语转换为概率参数/>的概率转换公式为:
当前特征提取时刻的细胞状态可以由输入门参数的值、遗忘门参数的值、临时细胞状态以及上一刻细胞状态决定。
其中,上述四个公式中,σ表示sigmoid函数,⊙表示矩阵乘法,表示预设短语在待识别语句中的开始位置的字特征向量(即预设短语的短语首字的字特征向量,也即当前输入);/>表示短语特征向量;b表示预设短语在待识别语句中的开始位置;e表示预设短语在待识别语句中的结束位置。/>表示输入门的权重参数;/>表示遗忘门的权重参数;/>表示概率参数(即临时细胞状态)的权重参数。/>表示输入门的偏置参数;/>表示遗忘门的偏置参数;/>表示概率转换的偏置参数。/>表示短语特征向量。
被称作输出门参数,决定了输出的值,它可以由前一时刻的隐层状态和当前特征提取时刻的输入词决定:
其中,表示输出门的权重参数,/>表示输出门的偏执参数。
当前特征提取时刻的隐层状态可以由当前特征提取时刻的细胞状态和当前特征提取时刻的输出门参数决定
需要说明的是,上述的权重参数预计偏执参数是模型通过训练阶段与预测阶段习得的参数。
可以理解的是,每一预设短语对应的特征向量即可以理解为该预设短语的置信度。
在一种实现方式中,也可以将置信度最大的预设短语对应的特征向量,确定为短语特征向量。
本实施例中,将候选短语中的每一个字作为短语首字,并利用短语首字之后的字组成预设短语;通过确定每一预设短语对应的特征向量;将置信度满足预设阈值的预设短语对应的特征向量,确定为短语特征向量。通过遍历候选短语中所有可能组成的预设短语,考虑到了候选短语中各种字词组合成短语的可能性,并通过置信度阈值来选择预设短语中作为短语特征向量的短语,提高了短语特征向量的丰富度。
在其中一个实施例中,对候选字的字特征向量、候选字对应的词特征向量以及候选字对应的短语特征向量进行融合处理,获得候选字的融合特征向量,包括:获取字特征向量的权重系数、词特征向量的权重系数以及短语特征向量的权重系数;字特征向量的权重系数用于表征候选字的语义倾向于目标短语的概率;词特征向量的权重系数用于表征包含候选字对应的词的语义倾向于目标短语的概率;短语特征向量的权重系数用于表征包含候选字对应的短语的语义倾向于目标短语的概率。
根据字特征向量的权重系数、词特征向量的权重系数以及短语特征向量的权重系数,对候选字的字特征向量、候选字对应的词特征向量以及候选字对应的短语特征向量进行加权求和,获得融合特征向量。
可选的,将样本数据通过训练回归模型,以损失函数最小为目的,确定字特征向量的权重系数、词特征向量的权重系数以及短语特征向量的权重系数
其中,回归模型包括线性回归算法、逻辑回归算法、多项式回归算法、逐步回归算法(stepwise regression,SR)、岭回归算法(ridge regression,RR)、套索回归算法(lassoregression,LR)以及回归算法(elastic net,EN)。所述回归模型研究的是因变量(目标)和自变量(预测器)之间的关系,这种因变量与自变量的不确定性的关系(相关性关系)。通常用于预测分析,时间序列模型以及发现变量之间的因果关系。以线性回归为例,据现有数据对分类边界建立回归公式,假设数据符合线性方程z=w0x0+w1x1+w2x2+…+wnxn,即z=wx只要确定权重系数w,即可计算出回归公式,进而分类。
示例性的,以候选短语为“AB咖啡”为例,对于“啡”这个字的回归模型的输入有下面3种:
1.“啡”的融合特征向量表示为表示第m个位置的字特征向量,“啡”在第3个位置所以为/>
2.“啡”对应的词为“咖啡”,“咖啡”的词特征向量为“咖啡”的开始位置索引分别为2,结束位置为3。
3.“啡”对应的短语为“AB咖啡”,“AB咖啡”的短语特征向量为“AB咖啡”的开始位置索引分别为0,结束位置为3。/>短语向量通过b步骤得到。
则“啡”字的融合特征向量实际为字特征向量/>词特征向量/>短语特征向量/>三个的加权求和。
其中,表示词特征向量的权重系数;/>表示短语特征向量的权重系数;表示字特征向量的权重系数。如上所述,权重系数可以在训练回归模型时确定。
需要说明的是,候选短语中的其他字的融合特征向量均可以参考上述“啡”字的融合特征向量的确定方式,此处不在赘述。
本实施例中,基于字特征向量的权重系数、词特征向量的权重系数以及短语特征向量的权重系数,对候选字的字特征向量、候选字对应的词特征向量以及候选字对应的短语特征向量进行加权求和,获得融合特征向量,从而根据特征融合后的特征向量,能够确定出候选字与目标短语的相对位置,以便将满足条件的候选字填充至目标短语中,从而生成待识别语句的短语识别结果。相比于现有技术只是通过词典或者预设的短语模板匹配出待识别语句的短语来说,本申请所提供的方法,能够有效的命中待识别语句中具有特殊意义的短语,使得识别出的短语能够贴合语句的文本意图。
在其中一个实施例中,针对每一候选字,根据候选字的融合特征向量将候选字填充至目标短语,包括:针对每一候选字,根据候选字的融合特征向量,确定候选字的相对于目标短语的相对位置;针对所有候选字,在候选字相对于目标短语的相对位置中,确定位于目标短语首字的第一候选字以及位于目标短语末尾字的第二候选字;将待识别语句中第一候选字、第二候选字、第一候选字与第二候选字之间的字填充至目标短语。
具体的,候选字的相对于目标短语的相对位置可以采用字的状态来表示。字的状态可以是[B,E,O]中的一种。其中,B即begin,表示当前的字位于目标短语的开始位置。E即end,表示当前的字位于目标短语的结束位置。O即other,表示为与目标短语无关的字。
进一步的,为了增加对字的状态的识别精度,字的状态可以是[B,E,I,S,O]中的一种。其中,B即begin,表示当前的字位于目标短语的开始位置。E即end,表示当前的字位于目标短语的结束位置。I即intermediate,表示当前的字位于目标短语的中间位置。S即single,表示当前的字为单个字不构成目标短语。O即other,表示为与目标短语无关的字。
或者采用[B,E,M,S,O],的标记方式对每个字符进行标记(也可以采用其它标记方式)。依次对应[Begin,Middle,End,Single,Other]。设某个目标短语对应的标签为Label,则当前字为位于该目标短语最开始的字标记为Label_B,当前字位于该目标短语中间的字标记为Label_M,当前字为位于该目标短语末尾的字标记为Label_E,如果当前字不属于目标短语中的字,则标记为Label_S,若当前字为该词语没有带标签或者不属于实体标签则标记为Label_O。
例如,以候选短语“AB咖啡地址”为例,如果“A”字对应的状态为B,“B”,“咖”,“啡”,“地”这四个字对应的状态均为I,“址”字对应的状态为E,则表明最终的目标短语为“AB咖啡地址”。又如,以候选短语“AB咖啡地址在”为例,如果“A”字对应的状态为B,“B”,“咖”,“啡”,“地”这四个字对应的状态均为I,“址”字对应的状态为E,“在”字对应的状态为O,则表明最终的目标短语为“AB咖啡地址”。再如,以候选短语“AB咖啡地址”为例,如果“A”字对应的状态为B,“B”,“咖”这两个字对应的状态均为I,“啡”字对应的状态为E,“地”字对应的状态为B,“址”字对应的状态为E,则表明最终确定出“AB咖啡”和“地址”两个目标短语。
本实施例中,通过在候选字相对于所述目标短语的相对位置中,确定位于目标短语首字的候选字以及位于目标短语末尾字的候选字,并将待识别语句中这两个候选字及其之间的字填充至目标短语,以便得到待识别语句的短语识别结果。
应当注意,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。
图7为本申请一个实施例的短语识别装置的方框示意图。
如图7所示,短语识别装置包括:获取单元701、短语识别单元702、特征提取单元703、特征融合单元704以及填充单元705。其中,
获取单元701,用于获取待识别语句。
短语识别单元702,用于确定待识别语句中的候选短语;候选短语为待识别语句的短语中短语构成率大于预设阈值的短语。
特征提取单元703,用于确定候选短语的字特征向量、词特征向量以及短语特征向量;字特征向量用于表征候选短语中的字的语义,词特征向量用于表征候选短语中的词的语义,短语特征向量用于表征候选短语的语义。
特征融合单元704,用于针对候选短语中的每一候选字,对候选字的字特征向量、候选字对应的词特征向量以及候选字对应的短语特征向量进行融合处理,获得候选字的融合特征向量。
填充单元705,用于针对每一候选字,根据候选字的融合特征向量将候选字填充至目标短语,生成待识别语句的短语识别结果。
在一个实施例中,特征提取单元703,具体用于获取候选短语中的字的上下文,并确定与上下文匹配的目标字。基于目标字,得到字的字特征向量。
在一个实施例中,特征提取单元703,具体用于针对候选短语中的词,对词包含的字对应的字特征向量进行特征融合,获得词的词特征向量;特征融合包括但不限于以下的任一项:向量拼接、向量叠加以及向量积。
在一个实施例中,短语识别单元702,具体用于获取待识别语句的分词结果;分词结果中包含至少一个分词;基于分词结果中的分词,确定待识别语句的至少一个子串;每一子串至少包含待识别语句一个字;根据子串,确定候选短语。
在一个实施例中,短语识别单元702,具体用于获取待识别语句的多个初始分词结果;每一初始分词结果包含至少一个分词以及分词对应的权重;每一初始分词结果中所包含的分词可组成待识别语句;分词对应的权重用于表征分词的词频;基于每组初始分词结果中每一分词的权重,在多组初始分词结果中确定目标分词结果;将目标分词结果中的词确定为待识别语句的分词结果中的词。
在一个实施例中,短语识别单元702,具体用于利用条件随机场CRF以及基于领域字典对待识别语句进行分词,得到多组分词;基于每组分词中各分词的词频,确定各分词的权重;根据每组分词以及分词对应的权重,确定每个初始分词结果。
在一个实施例中,短语识别单元702,具体用于确定子串对应的短语构成率;将短语构成率满足预设阈值的子串,确定为候选短语。
在一个实施例中,短语识别单元702,具体用于获取子串的文档权重、字段权重、子串权重以及子串在参考文档中的预设位置的取值;文档权重用于表征子串对应参考文档的文档权重,字段权重用于表征子串对应的字段与子串的文本意图的匹配程度,子串权重用于子串的长度;根据子串的文档权重、字段权重、子串权重以及子串在参考文档中的预设位置的值,确定子串对应的短语构成率。
在一个实施例中,特征提取单元703,具体用于将候选短语中的每一个字作为短语首字,并利用短语首字之后的字组成预设短语;确定每一预设短语对应的特征向量;将置信度满足置信度阈值的预设短语对应的特征向量,确定为短语特征向量。
在一个实施例中,特征融合单元704,具体用于获取字特征向量的权重系数、词特征向量的权重系数以及短语特征向量的权重系数;字特征向量的权重系数用于表征候选字的语义倾向于目标短语的概率;词特征向量的权重系数用于表征包含候选字对应的词的语义倾向于目标短语的概率;短语特征向量的权重系数用于表征包含候选字对应的短语的语义倾向于目标短语的概率;根据字特征向量的权重系数、词特征向量的权重系数以及短语特征向量的权重系数,对候选字的字特征向量、候选字对应的词特征向量以及候选字对应的短语特征向量进行加权求和,获得融合特征向量。
在一个实施例中,填充单元705,具体用于针对每一候选字,根据候选字的融合特征向量,确定候选字的相对于目标短语的相对位置;针对所有候选字,在候选字相对于目标短语的相对位置中,确定位于目标短语首字的第一候选字以及位于目标短语末尾字的第二候选字;将待识别语句中第一候选字、第二候选字、第一候选字与第二候选字之间的字填充至目标短语。
本申请实施例提出的短语识别装置,为了解决现有技术在进行短语识别的过程中,容易与语句的文本意图产生严重偏差的问题,本申请首先确定出待识别语句的短语中短语构成率大于预设阈值的候选短语,通过提取候选短语中细粒度(即字粒度)的特征向量(即字特征向量)、较细粒度(即词粒度)的特征向量(即词特征向量)以及粗粒度(即短语粒度)的特征向量(即短语特征向量)这三种类型的特征向量;并针对候选短语中每一个候选字,将候选字对应的上述三种类型的特征向量进行融合处理,以实现候选字、候选字对应词以及候选字对应的候选短语三者的语义融合。由于结合了候选字单独的语义、包含该候选字的词语义以及包含该词语的候选短语的语义,可以准确的识别出待识别语句中每一候选字是否能够满足组成目标短语的要求,从而根据特征融合后的特征向量,能够确定出候选字与目标短语的相对位置,以便将满足条件的候选字填充至目标短语中,从而生成待识别语句的短语识别结果。相比于现有技术只是通过词典或者预设的短语模板匹配出待识别语句的短语来说,本申请所提供的短语识别装置,能够有效的命中待识别语句中具有特殊意义的短语,使得识别出的短语能够贴合语句的文本意图。
应当理解,短语识别装置中记载的诸单元与参考图3描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征同样适用于短语识别装置及其中包含的单元,在此不再赘述。短语识别装置可以预先实现在计算机设备的浏览器或其他安全应用中,也可以通过下载等方式而加载到计算机设备的浏览器或其安全应用中。短语识别装置中的相应单元可以与计算机设备中的单元相互配合以实现本申请实施例的方案。
在上文详细描述中提及的若干模块或者单元,这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
需要说明的是,本申请实施例的短语识别装置中未披露的细节,请参照本申请上述实施例中所披露的细节,这里不再赘述。
下面参考图8,图8示出了适于用来实现本申请实施例的计算机设备的结构示意图,如图8所示,计算机系统800包括中央处理单元(CPU)801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM803中,还存储有系统的操作指令所需的各种程序和数据。CPU801、ROM802以及RAM803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
以下部件连接至I/O接口805;包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
特别地,根据本申请的实施例,上文参考流程图图2描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时,执行本申请的系统中限定的上述功能。
需要说明的是,本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以为的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作指令。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,前述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以不同于附图中所标注的顺序发生。例如,两个连接表示的方框实际上可以基本并行地执行,他们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作指令的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中,例如,可以描述为:一种处理器包括违规人物检测单元、多模态检测单元以及识别单元。其中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的计算机设备中所包含的,也可以是单独存在,而未装配入该计算机设备中的。上述计算机可读存储介质存储有一个或多个程序,当上述程序被一个或者一个以上的处理器用来执行本申请所述的短语识别方法。例如,可以执行图3所示的短语识别方法的各个步骤。
本申请实施例提供一种计算机程序产品,该计算机程序产品包括指令,当该指令被运行时,使得如本申请实施例描述的方法被执行。例如,可以执行图2所示的短语识别方法的各个步骤。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离前述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其他技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (25)
1.一种短语识别方法,其特征在于,包括:
获取待识别语句,确定所述待识别语句中的候选短语;所述候选短语为所述待识别语句的短语中短语构成率大于预设阈值的短语;所述短语构成率是子串构成短语的概率,所述短语构成率根据所述子串中的字段信息、与所述子串相关的点击信息确定;所述子串的确定方法包括:获取所述待识别语句的分词结果;所述分词结果中包含至少一个分词;基于所述分词结果中的分词,确定所述待识别语句的至少一个子串;每一子串至少包含所述待识别语句一个字;
确定所述候选短语的字特征向量、词特征向量以及短语特征向量;所述字特征向量用于表征所述候选短语中的字的语义,所述词特征向量用于表征所述候选短语中的词的语义,所述短语特征向量用于表征所述候选短语的语义;
针对所述候选短语中的每一候选字,对所述候选字的字特征向量、所述候选字对应的词特征向量以及所述候选字对应的短语特征向量进行融合处理,获得所述候选字的融合特征向量;
针对每一所述候选字,根据所述候选字的融合特征向量将所述候选字填充至目标短语,生成所述待识别语句的短语识别结果。
2.根据权利要求1所述的短语识别方法,其特征在于,所述确定所述候选短语的所述字特征向量,包括:
获取所述候选短语中的字的上下文,并确定与所述上下文匹配的目标字;
基于所述目标字,得到所述字的所述字特征向量。
3.根据权利要求2所述的短语识别方法,其特征在于,所述确定所述候选短语的所述词特征向量,包括:
针对所述候选短语中的词,对所述词包含的字对应的字特征向量进行特征融合,获得所述词的所述词特征向量;所述特征融合包括但不限于以下的任一项:向量拼接、向量叠加以及向量积。
4.根据权利要求1-3任一项所述的短语识别方法,其特征在于,所述确定所述待识别语句中的候选短语,包括 :
根据所述子串,确定所述候选短语。
5.根据权利要求4所述的短语识别方法,其特征在于,所述获取所述待识别语句的分词结果,包括:
获取所述待识别语句的多个初始分词结果;每一初始分词结果包含至少一个分词以及所述分词对应的权重;每一初始分词结果中所包含的分词可组成所述待识别语句;所述分词对应的权重用于表征所述分词的词频;
基于每组初始分词结果中每一分词的权重,在多组初始分词结果中确定目标分词结果;
将所述目标分词结果中的词确定为所述待识别语句的分词结果中的词。
6.根据权利要求5所述的短语识别方法,其特征在于,所述获取所述待识别语句的多个初始分词结果,包括:
利用条件随机场CRF以及基于领域字典对所述待识别语句进行分词,得到多组分词;
基于每组分词中各分词的词频,确定各所述分词的权重;
根据每组分词以及所述分词对应的权重,确定每个初始分词结果。
7.根据权利要求4所述的短语识别方法,其特征在于,所述根据所述子串,确定所述候选短语;
确定所述子串对应的短语构成率;
将所述短语构成率满足预设阈值的所述子串,确定为候选短语。
8.根据权利要求7所述的短语识别方法,其特征在于,所述确定所述子串对应的短语构成率,包括:
获取所述子串的文档权重、字段权重、子串权重以及所述子串在参考文档中的预设位置的取值;所述文档权重用于表征所述子串对应所述参考文档的文档权重,所述字段权重用于表征所述子串对应的字段与所述子串的文本意图的匹配程度,所述子串权重用于表征所述子串的长度;所述文档权重基于所述参考文档的点击信息确定,或所述文档权重基于所述参考文档对应的预设得分确定;
根据所述子串的所述文档权重、所述字段权重、所述子串权重以及所述子串在参考文档中的预设位置的值,确定所述子串对应的短语构成率。
9.根据权利要求1所述的短语识别方法,其特征在于,所述确定所述候选短语的所述短语特征向量,包括:
将所述候选短语中的每一个字作为短语首字,并利用所述短语首字之后的字组成预设短语;
确定每一所述预设短语对应的特征向量;
将置信度满足置信度阈值的所述预设短语对应的特征向量,确定为所述短语特征向量。
10.根据权利要求1所述的短语识别方法,其特征在于,所述对所述候选字的字特征向量、所述候选字对应的词特征向量以及所述候选字对应的短语特征向量进行融合处理,获得所述候选字的融合特征向量,包括:
获取所述字特征向量的权重系数、所述词特征向量的权重系数以及所述短语特征向量的权重系数;所述字特征向量的权重系数用于表征所述候选字的语义倾向于所述目标短语的概率;所述词特征向量的权重系数用于表征包含所述候选字对应的词的语义倾向于所述目标短语的概率;所述短语特征向量的权重系数用于表征包含所述候选字对应的短语的语义倾向于所述目标短语的概率;
根据所述字特征向量的权重系数、所述词特征向量的权重系数以及所述短语特征向量的权重系数,对所述候选字的所述字特征向量、所述候选字对应的所述词特征向量以及所述候选字对应的所述短语特征向量进行加权求和,获得所述融合特征向量。
11.根据权利要求1所述的短语识别方法,其特征在于,所述针对每一所述候选字,根据所述候选字的融合特征向量将所述候选字填充至目标短语,包括:
针对每一所述候选字,根据所述候选字的融合特征向量,确定所述候选字的相对于所述目标短语的相对位置;
针对所有所述候选字,在所述候选字相对于所述目标短语的相对位置中,确定位于所述目标短语首字的第一候选字以及位于所述目标短语末尾字的第二候选字;
将所述待识别语句中所述第一候选字、所述第二候选字、所述第一候选字与所述第二候选字之间的字填充至所述目标短语。
12.一种短语识别装置,其特征在于,包括:
获取单元,用于获取待识别语句;
短语识别单元,用于确定所述待识别语句中的候选短语;所述候选短语为所述待识别语句的短语中短语构成率大于预设阈值的短语;所述短语构成率是子串构成短语的概率,所述短语构成率根据所述子串中的字段信息、与所述子串相关的点击信息确定;短语识别单元具体用于获取所述待识别语句的分词结果;所述分词结果中包含至少一个分词;基于所述分词结果中的分词,确定所述待识别语句的至少一个子串;每一子串至少包含待识别语句一个字;
特征提取单元,用于确定所述候选短语的字特征向量、词特征向量以及短语特征向量;所述字特征向量用于表征所述候选短语中的字的语义,所述词特征向量用于表征所述候选短语中的词的语义,所述短语特征向量用于表征所述候选短语的语义;
特征融合单元,用于针对所述候选短语中的每一候选字,对所述候选字的字特征向量、所述候选字对应的词特征向量以及所述候选字对应的短语特征向量进行融合处理,获得所述候选字的融合特征向量;
填充单元,用于针对每一候选字,根据所述候选字的融合特征向量将所述候选字填充至目标短语,生成所述待识别语句的短语识别结果。
13.根据权利要求12所述的装置,其特征在于,所述特征提取单元,具体用于获取所述候选短语中的字的上下文,并确定与所述上下文匹配的目标字;基于所述目标字,得到所述字的字特征向量。
14.根据权利要求13所述的装置,其特征在于,所述特征提取单元,具体用于针对所述候选短语中的词,对所述词包含的字对应的字特征向量进行特征融合,获得所述词的所述词特征向量;所述特征融合包括但不限于以下的任一项:向量拼接、向量叠加以及向量积。
15.根据权利要求12-14任一项所述的装置,其特征在于,所述短语识别单元,具体用于根据所述子串,确定所述候选短语。
16.根据权利要求15所述的装置,其特征在于,所述短语识别单元,具体用于获取所述待识别语句的多个初始分词结果;每一初始分词结果包含至少一个分词以及所述分词对应的权重;每一初始分词结果中所包含的分词可组成待识别语句;所述分词对应的权重用于表征分词的词频;基于每组初始分词结果中每一分词的权重,在多组初始分词结果中确定目标分词结果;将所述目标分词结果中的词确定为所述待识别语句的分词结果中的词。
17.根据权利要求16所述的装置,其特征在于,所述短语识别单元,具体用于利用条件随机场CRF以及基于领域字典对所述待识别语句进行分词,得到多组分词;基于每组分词中各分词的词频,确定各所述分词的权重;根据每组分词以及所述分词对应的权重,确定每个初始分词结果。
18.根据权利要求15所述的装置,其特征在于,所述短语识别单元,具体用于确定所述子串对应的短语构成率;将所述短语构成率满足预设阈值的所述子串,确定为所述候选短语。
19.根据权利要求18所述的装置,其特征在于,所述短语识别单元,具体用于获取所述子串的文档权重、字段权重、子串权重以及子串在参考文档中的预设位置的取值;所述文档权重用于表征所述子串对应参考文档的文档权重,所述字段权重用于表征所述子串对应的字段与子串的文本意图的匹配程度,所述子串权重用于表征所述子串的长度;根据所述子串的所述文档权重、所述字段权重、所述子串权重以及所述子串在参考文档中的预设位置的值,确定所述子串对应的短语构成率;所述文档权重基于所述参考文档的点击信息确定,或所述文档权重基于所述参考文档对应的预设得分确定。
20.根据权利要求12所述的装置,其特征在于,所述特征提取单元,具体用于将所述候选短语中的每一个字作为短语首字,并利用所述短语首字之后的字组成预设短语;确定每一所述预设短语对应的特征向量;将置信度满足置信度阈值的所述预设短语对应的特征向量,确定为所述短语特征向量。
21.根据权利要求12所述的装置,其特征在于,所述特征融合单元,具体用于获取所述字特征向量的权重系数、所述词特征向量的权重系数以及所述短语特征向量的权重系数;所述字特征向量的权重系数用于表征所述候选字的语义倾向于所述目标短语的概率;所述词特征向量的权重系数用于表征包含所述候选字对应的词的语义倾向于所述目标短语的概率;所述短语特征向量的权重系数用于表征包含所述候选字对应的短语的语义倾向于所述目标短语的概率;根据所述字特征向量的权重系数、所述词特征向量的权重系数以及所述短语特征向量的权重系数,对所述候选字的所述字特征向量、所述候选字对应的所述词特征向量以及所述候选字对应的所述短语特征向量进行加权求和,获得所述融合特征向量。
22.根据权利要求12所述的装置,其特征在于,所述填充单元,具体用于针对每一候选字,根据所述候选字的融合特征向量,确定所述候选字的相对于所述目标短语的相对位置;针对所有所述候选字,在所述候选字相对于所述目标短语的相对位置中,确定位于所述目标短语首字的第一候选字以及位于所述目标短语末尾字的第二候选字;将所述待识别语句中第一候选字、所述第二候选字、所述第一候选字与所述第二候选字之间的字填充至所述目标短语。
23.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时,实现如权利要求1至11任一项所述的短语识别方法。
24.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至11中任一所述的短语识别方法。
25.一种计算机程序产品,其特征在于,所述计算机程序产品包括指令,当所述指令被运行时,使得如权利要求1至11任一项所述的方法被执行。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210575003.2A CN115114915B (zh) | 2022-05-25 | 2022-05-25 | 短语识别方法、装置、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210575003.2A CN115114915B (zh) | 2022-05-25 | 2022-05-25 | 短语识别方法、装置、设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115114915A CN115114915A (zh) | 2022-09-27 |
CN115114915B true CN115114915B (zh) | 2024-04-12 |
Family
ID=83325519
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210575003.2A Active CN115114915B (zh) | 2022-05-25 | 2022-05-25 | 短语识别方法、装置、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115114915B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106066866A (zh) * | 2016-05-26 | 2016-11-02 | 同方知网(北京)技术有限公司 | 一种英文文献关键短语自动抽取方法与系统 |
CN110008474A (zh) * | 2019-04-04 | 2019-07-12 | 科大讯飞股份有限公司 | 一种关键短语确定方法、装置、设备及存储介质 |
CN111444330A (zh) * | 2020-03-09 | 2020-07-24 | 中国平安人寿保险股份有限公司 | 提取短文本关键词的方法、装置、设备及存储介质 |
CN111966869A (zh) * | 2020-07-07 | 2020-11-20 | 北京三快在线科技有限公司 | 短语提取方法、装置、电子设备及存储介质 |
CN112164391A (zh) * | 2020-10-16 | 2021-01-01 | 腾讯科技(深圳)有限公司 | 语句处理方法、装置、电子设备及存储介质 |
CN112464662A (zh) * | 2020-12-02 | 2021-03-09 | 平安医疗健康管理股份有限公司 | 医学短语匹配方法、装置、设备及存储介质 |
CN113221559A (zh) * | 2021-05-31 | 2021-08-06 | 浙江大学 | 利用语义特征的科技创新领域中文关键短语抽取方法及系统 |
CN113268995A (zh) * | 2021-07-19 | 2021-08-17 | 北京邮电大学 | 中文学术关键词抽取方法、装置和存储介质 |
CN113655893A (zh) * | 2021-07-08 | 2021-11-16 | 华为技术有限公司 | 一种词句生成方法、模型训练方法及相关设备 |
CN114491030A (zh) * | 2022-01-19 | 2022-05-13 | 北京百度网讯科技有限公司 | 技能标签的抽取、候选短语分类模型的训练方法及装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8868402B2 (en) * | 2009-12-30 | 2014-10-21 | Google Inc. | Construction of text classifiers |
US9875486B2 (en) * | 2014-10-21 | 2018-01-23 | Slice Technologies, Inc. | Extracting product purchase information from electronic messages |
US20160224524A1 (en) * | 2015-02-03 | 2016-08-04 | Nuance Communications, Inc. | User generated short phrases for auto-filling, automatically collected during normal text use |
-
2022
- 2022-05-25 CN CN202210575003.2A patent/CN115114915B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106066866A (zh) * | 2016-05-26 | 2016-11-02 | 同方知网(北京)技术有限公司 | 一种英文文献关键短语自动抽取方法与系统 |
CN110008474A (zh) * | 2019-04-04 | 2019-07-12 | 科大讯飞股份有限公司 | 一种关键短语确定方法、装置、设备及存储介质 |
CN111444330A (zh) * | 2020-03-09 | 2020-07-24 | 中国平安人寿保险股份有限公司 | 提取短文本关键词的方法、装置、设备及存储介质 |
CN111966869A (zh) * | 2020-07-07 | 2020-11-20 | 北京三快在线科技有限公司 | 短语提取方法、装置、电子设备及存储介质 |
CN112164391A (zh) * | 2020-10-16 | 2021-01-01 | 腾讯科技(深圳)有限公司 | 语句处理方法、装置、电子设备及存储介质 |
CN112464662A (zh) * | 2020-12-02 | 2021-03-09 | 平安医疗健康管理股份有限公司 | 医学短语匹配方法、装置、设备及存储介质 |
CN113221559A (zh) * | 2021-05-31 | 2021-08-06 | 浙江大学 | 利用语义特征的科技创新领域中文关键短语抽取方法及系统 |
CN113655893A (zh) * | 2021-07-08 | 2021-11-16 | 华为技术有限公司 | 一种词句生成方法、模型训练方法及相关设备 |
CN113268995A (zh) * | 2021-07-19 | 2021-08-17 | 北京邮电大学 | 中文学术关键词抽取方法、装置和存储介质 |
CN114491030A (zh) * | 2022-01-19 | 2022-05-13 | 北京百度网讯科技有限公司 | 技能标签的抽取、候选短语分类模型的训练方法及装置 |
Non-Patent Citations (6)
Title |
---|
Keyphrase Extraction with Span-based Feature Representations;Funan Mu 等;https://arxiv.linfen3.top/abs/2002.05407;1-9 * |
Local word vectors guiding keyphrase extraction;Grigorios Tsoumakas 等;Information Processing & Management;第54卷(第6期);888-902 * |
基于条件随机场方法的汉语专利文本介词短语识别;李洪政;晋耀红;;现代语文(语言研究版)(07);120-122 * |
基于组合深度模型的现代汉语数量名短语识别;施寒瑜 等;南京师大学报(自然科学版);第45卷(第1期);127-135 * |
基于词向量特征的藏语谓语动词短语识别模型;李琳 等;电子技术与软件工程;242-243 * |
基于语义分析的汉语短语识别方法研究;卢朝华;中国优秀硕士学位论文全文数据库信息科技辑;I138-2088 * |
Also Published As
Publication number | Publication date |
---|---|
CN115114915A (zh) | 2022-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111310438B (zh) | 基于多粒度融合模型的中文句子语义智能匹配方法及装置 | |
CN108363790B (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
CN110134946B (zh) | 一种针对复杂数据的机器阅读理解方法 | |
CN106991085B (zh) | 一种实体的简称生成方法及装置 | |
CN114580382A (zh) | 文本纠错方法以及装置 | |
CN111966812B (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN113392209B (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
CN111651589B (zh) | 一种针对长文档的两阶段文本摘要生成方法 | |
CN115357719B (zh) | 基于改进bert模型的电力审计文本分类方法及装置 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN114757184B (zh) | 实现航空领域知识问答的方法和系统 | |
CN113836896A (zh) | 一种基于深度学习的专利文本摘要生成方法和装置 | |
CN114781651A (zh) | 基于对比学习的小样本学习鲁棒性提升方法 | |
CN114997288A (zh) | 一种设计资源关联方法 | |
CN114298055B (zh) | 基于多级语义匹配的检索方法、装置、计算机设备和存储介质 | |
CN113705207A (zh) | 语法错误识别方法及装置 | |
CN115146021A (zh) | 文本检索匹配模型的训练方法、装置、电子设备及介质 | |
CN109117471A (zh) | 一种词语相关度的计算方法及终端 | |
CN113761875B (zh) | 事件抽取方法、装置、电子设备及存储介质 | |
CN110162615A (zh) | 一种智能问答方法、装置、电子设备和存储介质 | |
CN115114915B (zh) | 短语识别方法、装置、设备和介质 | |
CN115545030A (zh) | 实体抽取模型的训练方法、实体关系抽取方法及装置 | |
CN113312903B (zh) | 一种5g移动业务产品词库的构建方法及系统 | |
CN115203206A (zh) | 数据内容搜索方法、装置、计算机设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |