CN111046654B - 一种语句识别方法、语句识别装置及智能设备 - Google Patents
一种语句识别方法、语句识别装置及智能设备 Download PDFInfo
- Publication number
- CN111046654B CN111046654B CN201911111256.9A CN201911111256A CN111046654B CN 111046654 B CN111046654 B CN 111046654B CN 201911111256 A CN201911111256 A CN 201911111256A CN 111046654 B CN111046654 B CN 111046654B
- Authority
- CN
- China
- Prior art keywords
- corpus
- category
- recognition
- matched
- intention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000004422 calculation algorithm Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 18
- 238000012216 screening Methods 0.000 claims description 8
- 238000012549 training Methods 0.000 abstract description 10
- 230000008569 process Effects 0.000 description 7
- 238000013135 deep learning Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012827 research and development Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 210000001072 colon Anatomy 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 240000000491 Corchorus aestuans Species 0.000 description 1
- 235000011777 Corchorus aestuans Nutrition 0.000 description 1
- 235000010862 Corchorus capsularis Nutrition 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Character Discrimination (AREA)
- Machine Translation (AREA)
Abstract
本申请提供了一种语句识别方法、语句识别装置、智能设备及计算机可读存储介质,其中,该语句识别方法包括:接收输入语句;对所述输入语句进行实体词语识别;若所述输入语句不存在实体词语,则将所述输入语句作为识别语料;若所述输入语句存在一个以上实体词语,则基于所述输入语句所包含的一个以上实体词语,以及所述一个以上实体词语所属的实体词语类别,对所述输入语句进行替换,得到一个以上替换语料,并将所述替换语料作为识别语料;分别对各个识别语料进行意图识别,并根据意图识别的结果确定所述输入语句的意图。通过本申请方案,不再需要大量训练语料进行训练,也能够得到可以准确识别用户所输入的语句的语音助手。
Description
技术领域
本申请属于人工智能技术领域,尤其涉及一种语句识别方法、语句识别装置、智能设备及计算机可读存储介质。
背景技术
当前,随着当前人工智能的不断发展,用户已经可以通过智能设备所搭载的语音助手实现多项操作。大部分智能设备的厂商往往采用深度学习算法对语音助手进行训练,然而,深度学习需要大量的训练语料的支撑。当训练语料较少时,就难以采用深度学习算法对语音助手进行训练。
发明内容
有鉴于此,本申请提供了一种语句识别方法、语句识别装置、智能设备及计算机可读存储介质,可在训练语料较少的前提下,仍能得到可以准确识别用户所输入的语句的语音助手。
本申请的第一方面提供了一种语句识别方法,包括:
接收输入语句;
对上述输入语句进行实体词语识别;
若上述输入语句不存在实体词语,则将上述输入语句作为识别语料;
若上述输入语句存在一个以上实体词语,则基于上述输入语句所包含的一个以上实体词语,以及上述一个以上实体词语所属的实体词语类别,对上述输入语句进行替换,得到一个以上替换语料,并将上述替换语料作为识别语料;
分别对各个识别语料进行意图识别,并根据意图识别的结果确定上述输入语句的意图。
本申请的第二方面提供了一种语句识别装置,包括:
接收单元,用于接收输入语句;
实体词语识别单元,用于对上述输入语句进行实体词语识别;
替换单元,用于若上述输入语句存在一个以上实体词语,则基于上述输入语句所包含的一个以上实体词语,以及上述一个以上实体词语所属的实体词语类别,对上述输入语句进行替换,得到一个以上替换语料;
识别语料确定单元,用于当上述输入语句不存在实体词语时,将上述输入语句作为识别语料,当上述输入语句存在一个以上实体词语时,将上述替换语料作为识别语料;
意图识别单元,用于分别对各个识别语料进行意图识别,并根据意图识别的结果确定上述输入语句的意图。
本申请的第三方面提供了一种智能设备,上述智能设备包括存储器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序,上述处理器执行上述计算机程序时实现如上述第一方面的方法的步骤。
本申请的第四方面提供了一种计算机可读存储介质,上述计算机可读存储介质存储有计算机程序,上述计算机程序被处理器执行时实现如上述第一方面的方法的步骤。
本申请的第五方面提供了一种计算机程序产品,上述计算机程序产品包括计算机程序,上述计算机程序被一个或多个处理器执行时实现如上述第一方面的方法的步骤。
由上可见,在本申请方案中,首先接收输入语句,然后对上述输入语句进行实体词语识别,若上述输入语句不存在实体词语,则将上述输入语句作为识别语料,若上述输入语句存在一个以上实体词语,则基于上述输入语句所包含的一个以上实体词语,以及上述一个以上实体词语所属的实体词语类别,对上述输入语句进行替换,得到一个以上替换语料,并将上述替换语料作为识别语料,最后分别对各个识别语料进行意图识别,并根据意图识别的结果确定上述输入语句的意图。通过本申请方案,不再需要大量训练语料进行训练,也能够得到可以准确识别用户所输入的语句的语音助手。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的语句识别方法的实现流程示意图;
图2是本申请实施例提供的语句识别装置的结构框图;
图3是本申请实施例提供的智能设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
本申请实施例的一种语句识别方法及语句识别装置可应用于机器人、智能手机、平板电脑等具备语音助手功能的智能设备中,为了说明本申请上述的技术方案,下面通过具体实施例来进行说明。
实施例一
下面对本申请实施例提供的一种语句识别方法进行描述,请参阅图1,本申请实施例中的语句识别方法包括:
步骤101,接收输入语句;
在本申请实施例中,智能设备可以先获取待识别的输入语句,上述输入语句指的是用户在与智能设备的语音助手交互的过程中所输入的语句。可选地,上述输入语句可以是用户通过文字所输入的语句;或者,上述语句也可以是用户通过语音所输入的语句,此处不对上述输入语句的输入形式作出限定。
步骤102,对上述输入语句进行实体词语识别;
在本申请实施例中,语音助手在接收到上述输入语句之后,将首先对输入语句进行实体词语识别。上述实体词语为命名实体,指的是指代实际生活中的实物的词语,例如人名,地名,机构名等;需要注意的是,在本申请实施例中,时间也是一种实体词语,也即,本申请实施例所指的实体词语为广义上的命名实体。在对上述输入语句进行实体词语识别后,将得到上述输入语句所可能包含的所有实体词语,其中,所识别得到的实体词语中可能会有发生重叠的部分。以下以实例进行说明:假定输入语句为“播五月天的阿宝专辑”,则通过上述步骤102所提取到的实体词语会有如下几个:“五月”、“五月天”、“阿宝”和“月”,可以看到,“五月”、“五月天”和“月”这三个实体词语有重叠的部分。
步骤103,若上述输入语句存在一个以上实体词语,则基于上述输入语句所包含的一个以上实体词语,以及上述一个以上实体词语所属的实体词语类别,对上述输入语句进行替换,得到一个以上替换语料,并将上述替换语料作为识别语料;
在本申请实施例中,每一实体词语对应有所属的实体词语类别。需要注意的是,考虑到实际生活中实体词语的丰富程度,一个实体词语在不同的语境下可能会属于不同的实体词语类别,因而,此处将对识别出的所有实体词语,及各个实体词语所有可能所属的实体词语类别进行替换,以获得所有可能的替换语料。通常来说,上述替换语料的数量为一个以上。具体地,在进行替换时,有两种极端的替换方式,一种是所有实体词语都不替换,也即被替换的实体词语的数量为零;另一种是所有实体词语(在不重叠的情况下)都被替换。则在对上述输入语句进行替换时,首先以被替换的实体词语数量为0作为基础,得到一替换语料(此时,输入语句本身即为一替换语料);然后以被替换的实体词语数量为1作为基础,得到一个以上替换语料;接着再以被替换的实体词语数量为2作为基础,得到一个以上替换语料,以此类推,得到所有可能的替换语料。具体地,在进行替换时,是以实体词语所属的实体词语类别来替换掉对应的输入语句中的实体词语。例如,输入语句为“播五月天的阿宝专辑”,以被替换的实体词语为“五月天”,被替换的实体词语“五月天”所属的实体词语类别为歌手(singer)为例,所得到的替换语料为“播singer的阿宝专辑”。所得到的每一替换语料都可作为识别语料,以参与到后续意图识别的步骤中。
步骤104,若上述输入语句不存在实体词语,则将上述输入语句作为识别语料;
在本申请实施例中,可能会出现输入语句中不存在实体词语的情况,例如,若输入语句为“我要听歌”,则该输入语句中不包含任何实体词语,此时,该输入语句本身即可作为识别语料,参与到后续意图识别的步骤中。
步骤105,分别对各个识别语料进行意图识别,并根据意图识别的结果确定上述输入语句的意图。
在本申请实施例中,在输入语句不存在实体词语的情况下,该输入语句本身即为唯一的识别语料,此时直接对该唯一的识别语料进行意图识别,可直接得到上述输入语句的意图。而在输入语句存在一个以上实体词语的情况下,通过步骤103可能会得到多个识别语料,有一些识别语料无法表达出上述输入语句的正确意图,这些识别语料即为错误语料;可将剩下的可以表达上述输入语句的正确意图的识别语料记为正确语料。由于无法确定哪一识别语料是正确语料,因而,此时需要对每一个识别语料均进行意图识别,并根据每一意图识别的结果确定上述输入语句的一意图。
可选地,上述步骤102包括:
A1、获取预设的一个以上实体词语类别;
其中,上述语音助手中可以预先设定一实体词语库,该实体词语库中包含有一个以上实体词语类别,例如,可以预先设定有星期(week)、电影(movie)、歌手(singer)、城市(city)、诗句(poetry sentence)、时间段(time quantum)、朝代(dynasty)、歌曲类型(songtag)、电影院名称(cinema name)、诗名(poetry title)、诗人(poetry poet)、导演(director)、演员(actor)、地点(location)、电话号码(phone number)、声量(volume)及身份证号码(ID number)等多个实体词语类别,研发人员可以根据其研发需求对上述示出的实体词语类别进行增减,此处不作限定。
A2、依次将上述一个以上实体词语类别中的一实体词语类别确定为目标实体词语类别;
在本申请实施例中,由于上述实体词语类别有多个,因而通常是依次选定上述一个以上实体词语类别中的一实体词语类别作为目标实体词语类别,以实现对所有实体词语类别的遍历。
A3、基于上述目标实体词语类别所关联的实体词语识别算法,对上述输入语句进行实体词语识别,得到属于上述目标实体词语类别的实体词语。
在本申请实施例中,实体词语类别可以被分为两大类,一大类是数字类,另一大类是非数字类。具体地,在上述步骤A1所举出的例子中,上述星期(week)、电影(movie)、歌手(singer)、城市(city)、诗句(poetry sentence)、时间段(time quantum)、朝代(dynasty)、歌曲类型(song tag)、电影院名称(cinema name)、诗名(poetry title)、诗人(poetrypoet)、导演(director)、演员(actor)及地点(location)属于非数字类的实体词语类别,上述电话号码(phone number)、声量(volume)及身份证号码(ID number)属于数字类的实体词语类别。
具体地,针对非数字类的实体词语类别来说,研发人员已预先对每一非数字类的实体词语类别设定了相应的词典树(trie tree);也即,若上述目标实体词语类别为非数字类的实体词语类别,则其所关联的实体词语识别算法为trie tree算法,通过研发人员针对该目标实体词语类别所预设的词典树进行匹配,即可查找出上述输入语句中所包含的属于该目标实体词语类别的实体词语。上述词典树算法的优势主要在匹配速度上,在构建好词典树后,其匹配速度往往远快于暴力匹配的匹配速度。
具体地,针对数字类的实体词语类别来说,研发人员也已经对每一非数字类的实体词语类别设定了相应地匹配规则。以下通过几个具体实例进行说明:以身份证号码识别为例,其所采用的匹配规则为:前五位数代表地区,有一个限定的范围;随后八位数是出生日期,该日期数字也有限定范围,所以该八位数要符合日期规则,例如,不可能出现19901332的数字;最后一位数是验证位,根据身份证前面的所有数字检测该位数字是否符合预设的身份证验证规则。又以在中国所使用的手机号码识别为例,其所采用的匹配规则为:共有十一位数字,并且前两位数是限定的,例如13、15、17、18或19等。为了更加准确的判断一串数字是否为手机号码,除了判断该十一位数字,还可以再看语句中是否出现“号码”、“电话”、“拨打”或“手机”等关键字。举个例子:“交易金额为18888888888”,虽然这一串数字符合11位并且前两位限定,但是语句中没有关键字,因而可以判定这不是电话号码。再以日期识别为例,其所采用的匹配规则为日期正则表达式,该正则表达式具体为 “\d(年|year)\d(月|month)\d(日|day)”。也即,若上述目标实体词语类别为数字类的实体词语类别,则其会关联对应的实体词语识别规则,根据所关联的实体词语识别规则即可查找出上述输入语句中所包含的属于该目标实体词语类别的实体词语。
可选地,上述步骤A2包括:
A21、分别获取各个实体词语类别的优先级;
其中,研发人员可以预先设定各个目标实体词语类别的优先级。实际上,对于非数字类的实体词语类别来说,可能会发生一个实体词语在不同语境下对应不同实体词语类别的情况,例如,“五月天”可能是一首歌,也可能是歌手,因而,上述非数字类的实体词语类别可以不需要进行优先级的设置及排序;而对于数字类的实体词语类别来说,往往不可能出现一串数字既是身份证号又是手机号的情况,也即,数字类的实体词语类别的识别准确度较高,因而,上述步骤A21可以具体为:分别获取各个数字类的实体词语类别的优先级。
A22、基于上述优先级由高至低的顺序,依次将上述一个以上实体词语类别中的一实体词语类别确定为目标实体词语类别。
其中,在设定好实体词语类别的优先级后,即可依照上述优先级由高至低的顺序依次将上述一个以上实体词语类别中的一实体词语类别确定为目标实体词语类别。具体地,若只有数字类的实体词语类别设定了优先级,则仅对数字类的实体词语类别依照上述优先级由高至低的顺序确定目标实体词语类别。例如,考虑到身份证号的识别准确度非常高,因而可以设定身份证号码这一实体词语类别的优先级高于手机号码这一实体词语的优先级;则在进行实体词语识别时,若发现上述输入语句中存在一串数字,则可以先将上述身份证号码这一实体词语类别确定为目标实体词语类别,并查询该串数字是否属于身份证号码这一实体词语类别,若该串数字属于身份证号码类别,则不再需要通过其它数字类的实体词语对该串数字进行识别;若该串数字不属于身份证号码类别,则再将手机号码这一实体词语类别确定为目标实体词语类别,并查询该串数字是否属于手机号码这一实体词语类别。
可选地,上述步骤105包括:
B1、计算待匹配识别语料与预设的一项以上意图类别的匹配得分;
在本申请实施例中,由于将对每一个识别语料都进行意图识别的操作,因而,此处可以将任一识别语料选定为待匹配识别语料,并通过该待匹配识别语料说明上述步骤105的具体实现流程。研发人员可以预先设定有一项以上意图类别,具体地,每一项意图类别对应一个意图。例如,可以设定有“听音乐”意图、“翻译语句”意图及“预定行程”意图等,此处可以通过研发人员的尽可能的穷举,预先设定一意图库,该意图库中可以包含有多项意图类别,此处不作限定。基于此,可以基于预设的计算公式,计算上述待匹配识别语料与每一项意图类别的匹配得分。通常待匹配识别语料与一项意图类别的匹配得分越高时,认为该待匹配识别语料与该项意图类别越匹配。
可选地,上述步骤B1包括:
B11、获取待匹配意图类别中所包含的所有模板语料;
在本申请实施例中,由于将计算上述待匹配识别语料与每一项意图类别的匹配得分,因而,此处可以将任一项意图类别选定为待匹配意图类别,并通过该待匹配意图类别说明上述步骤B1的具体实现流程。每一项意图类别中都可以包含至少一个模板语料,例如,上述“听音乐”这一意图类别中,可以包含有“给我来一首song”、“放首song听”或者“给我来一首singer的song”等多条模板语料。需要注意的是,上述模板语料的形式与上述识别语料类似,其已经将所包含的实体词语替换为了实体词语类别,也即,上述模板语料包含有词槽。可选地,当设定有意图库时,研发人员可在上述意图库中设定各项意图类别所可以包含的模板语料,则上述步骤B11具体表现为:从预设的意图库中获取待匹配意图类别中所包含的所有模板语料。
B12、分别计算待匹配识别语料与上述待匹配意图类别中所包含的各个模板语料的距离;
在本申请实施例中,上述距离包括余弦距离及编辑距离,其中,上述余弦距离指的是tf-idf(term frequency–inverse document frequency)余弦距离,上述编辑距离具体指的是杰卡德编辑距离。上述余弦距离的取值范围为[0,1],上述余弦距离越大,则认为从编辑距离的角度来看,两条语料越相似;类似地,上述编辑距离的取值范围也为[0,1],上述编辑距离越大,则认为从编辑距离的角度来看,两条语料越相似。具体地,通过计算上述待匹配识别语料与上述待匹配意图类别中所包含的各个模板语料的余弦距离,可筛选得到余弦距离最大值,同时还可以求取得到余弦距离平均值;通过计算上述待匹配识别语料与上述待匹配意图类别中所包含的各个模板语料的编辑距离,可筛选得到编辑距离最大值。上述计算过程可通过如下公式表示:
max_tfidf_template_score(i)=max(tfidf( input,class_i_ templates))(1)
class_tfidf_template_score(i)=mean(tfidf( input,class_i_ templates))(2)
jaccard_score(i)= max(jaccard ( input,class_i_ templates))(3)
其中,在公式(1)中,上述input表示待匹配识别语料,上述max_tfidf_template_score(i)表示待匹配识别语料与第i项意图类别的余弦距离最大值,上述class_i_templates表示第i项意图类别所包含的每一个模板语料,基于此,可知公式(1)指的是在计算得到待匹配识别语料与第i项意图类别所包含的每一个模板语料的余弦距离后,从中筛选出余弦距离距离最大值,作为上述待匹配识别语料与上述第i项意图类别的余弦距离最大值。
在公式(2)中,上述input表示待匹配识别语料,上述class_tfidf_template_score(i)表示待匹配识别语料与第i项意图类别的余弦距离平均值,上述class_i_templates表示第i项意图类别所包含的每一个模板语料,基于此,可知公式(2)指的是在计算得到待匹配识别语料与第i项意图类别所包含的每一个模板语料的余弦距离后进行平均值求取,以得到余弦距离平均值,作为上述待匹配识别语料与上述第i项意图类别的余弦距离平均值。
在公式(3)中,上述input表示待匹配识别语料,上述jaccard_score(i)表示待匹配识别语料与第i项意图类别的编辑距离最大值,上述class_i_ templates表示第i项意图类别所包含的每一个模板语料,基于此,可知公式(3)指的是在计算得到待匹配识别语料与第i项意图类别所包含的每一个模板语料的编辑距离后,从中筛选出编辑距离最大值,作为上述待匹配识别语料与上述第i项意图类别的编辑距离最大值。
B13、基于上述待匹配识别语料与上述待匹配意图类别中所包含的各个模板语料的距离,确定上述待匹配识别语料与上述待匹配意图类别的匹配得分。
在本申请实施例中,可根据上述余弦距离最大值、上述余弦距离平均值及上述编辑距离最大值,确定上述待匹配识别语料与上述待匹配意图类别的匹配得分。例如,可将上述待匹配识别语料与上述待匹配意图类别的余弦距离最大值、余弦距离平均值及编辑距离最大值进行求和,以得到距离总值,则该距离总值即可作为待匹配识别语料与上述待匹配意图类别的匹配得分。
B2、根据上述待匹配识别语料与预设的一项以上意图类别的匹配得分,确定待匹配识别语料的所属意图类别;
在本申请实施例中,由于待匹配识别语料与一项意图类别的匹配得分越高时,认为该待匹配识别语料与该项意图类别越匹配,因而,此处可以比对上述待匹配识别语料与各项意图类别的匹配得分,将其中最为匹配的意图类别确定为上述待匹配识别语料的所属意图类别。具体地,当待匹配语料与待匹配意图类别的匹配得分是根据二者的余弦距离最大值、余弦距离平均值及编辑距离最大值所确定而得时,上述步骤B2可具体表现为:
B21、将与上述待匹配识别语料的余弦距离最大值大于预设的余弦距离最大值阈值,且与上述待匹配识别语料的余弦距离平均值大于预设的余弦距离平均值阈值,且与上述待匹配识别语料的编辑距离最大值大于预设的编辑距离最大值阈值的意图类别确定为上述待匹配识别语料的目标意图类别;
B22、若不存在与上述待匹配识别语料的余弦距离最大值大于预设的余弦距离最大值阈值,且与上述待匹配识别语料的余弦距离平均值大于预设的余弦距离平均值阈值,且与上述待匹配识别语料的编辑距离最大值大于预设的编辑距离最大值阈值的意图类别,则分别将各项意图类别与上述待匹配识别语料的余弦距离最大值、余弦距离平均值及编辑距离最大值相加,以得到每一项意图类别与上述待匹配识别语料的距离总值;
B23、将与上述待匹配识别语料的距离总值大于预设的距离总值阈值的意图类别确定为上述待匹配识别语料的目标意图类别;
其中,上述余弦距离最大值阈值可被设定为0.8,上述余弦距离平均值阈值可被设定为0.6,上述编辑距离最大值阈值可被设定为0.8,上述距离总值阈值可被设定为2.1。当存在有满足预设的第一条件的意图类别时,则将该意图类别确定为目标意图类别,上述第一条件具体为:与上述待匹配识别语料的余弦距离最大值大于预设的余弦距离最大值阈值,且与上述待匹配识别语料的余弦距离平均值大于预设的余弦距离平均值阈值,且与上述待匹配识别语料的编辑距离最大值大于预设的编辑距离最大值阈值。当不存在满足第一条件的意图类别时,则再检测是否存在满足预设的第二条件的意图类别,当存在有满足预设的第二条件的意图类别时,则将该意图类别确定为目标意图类别,上述第二条件具体为:与上述待匹配识别语料的距离总值大于预设的距离总值阈值,其中,上述距离总值为一项意图类别与上述待匹配识别语料的余弦距离最大值、余弦距离平均值及编辑距离最大值的和。
通过上述方式,可以筛选得到一项以上满足第一条件的目标意图类别,或者一项以上满足第二条件的目标意图类别。
B24、若不存在上述待匹配识别语料的目标意图类别,则确定上述待匹配识别语料为错误语料;
其中,假定针对上述待匹配识别语料,无法得到任何一项满足第一条件或第二条件的意图类别,则认为当前没有意图能够命中上述待匹配识别语料,这种情况通常是由于上述待匹配识别语料中,被替换的实体词语不准确所引起的,也即,可认为该待匹配识别语料为错误语料。
B25、若存在一项上述待匹配识别语料的目标意图类别,则将上述待匹配识别语料的目标意图类别确定为上述待匹配识别语料的所属意图类别;
其中,若有且只有一项满足第一条件的意图类别;或者,若不存在满足第一条件的意图类别,且有且只有一项满足第二条件的意图类别,上述这两种情况都会导致当前只有一项目标意图类别,此时可以直接将该目标意图类别确定为上述待匹配识别语料的所属意图类别。
B25、若存在两项以上上述待匹配识别语料的目标意图类别,则将与上述待匹配识别语料的距离总值最高的目标意图类别确定为上述待匹配识别语料的所属意图类别。
其中,若存在两项以上满足第一条件的意图类别;或者,若不存在满足第一条件的意图类别,但存在两项以上满足第二条件的意图类别,则将与上述待匹配识别语料的距离总值最高的目标意图类别确定为上述待匹配识别语料的所属意图类别。
以下通过具体实例解释上述步骤B21至B25:
假定针对识别语料1来说,只有意图类别1满足第一条件(即只有意图类别1与识别语料1的余弦距离最大值大于0.8、余弦距离平均值大于0.6且编辑距离最大值大于0.8),则直接将意图类别1确定为识别语料1的所属意图类别。
假定针对识别语料2来说,意图类别1、意图类别2及意图类别3均满足第一条件,则分别计算识别语料2与意图类别1、意图类别2及意图类别3的距离总值,假定识别语料2与意图类别1的距离总值为2.4,识别语料2与意图类别2的距离总值为2.5,识别语料2与意图类别3的距离总值为2.3,则将意图类别2确定为识别语料2的所属意图类别。
假定针对识别语料3来说,没有意图类别满足第一条件,只有意图类别1满足第二条件(即只有意图类别1与识别语料1的距离总值超过2.1),则直接将意图类别1确定为识别语料3的所属意图类别。
假定针对识别语料4来说,没有意图类别满足第一条件,意图类别1、意图类别2及意图类别3均满足第二条件,假定识别语料4与意图类别1的距离总值为2.2,识别语料4与意图类别2的距离总值为2.15,识别语料4与意图类别3的距离总值为2.3,则将意图类别3确定为识别语料4的所属意图类别。
假定针对识别语料5来说,没有意图类别满足第一条件,且没有意图类别满足第二条件,则认为当前没有意图能够命中该识别语料5,此时可初步确定该识别语料5是错误语料。
B3、在所有识别语料中,根据各个识别语料与对应的所属意图类别的匹配得分,确定目标识别语料;
在本申请实施例中,每一识别语料都可通过上述步骤B1及步骤B2得到其所属意图类别,且还可以得到每一识别语料与对应的所属意图类别的匹配得分;基于此,可以将与对应的所属意图类别的匹配得分最高的识别语料确定为目标识别语料。具体地,上述匹配得分可通过上述距离总值来表示,则可以将与对应的所属意图类别的距离总值最高的识别语料确定为目标识别语料。
例如,假定识别语料1的所属意图类别为意图类别1,且识别语料1与意图类别1的距离总值为2.6;识别语料2的所属意图类别为意图类别2,且识别语料2与意图类别2的距离总值为2.5;识别语料3的所属意图类别为意图类别1,且识别语料3与意图类别1的距离总值为2.2;识别语料4的所属意图类别为意图类别3,且识别语料4与意图类别3的距离总值为2.3,则可知与对应的所属意图类别的距离总值最高的识别语料为识别语料1,该识别语料1可被确定为目标识别语料。
B4、将上述目标识别语料的所属意图类别所对应的意图确定为上述输入语句的意图。
在本申请实施例中,由于上述目标识别语料是由上述输入语句通过替换实体词语所得,且基于上述步骤B3可知,上述目标识别语料是筛选得到的能够表达意图,且与意图类别的匹配程度最高的识别语料,基于此,可以认为上述目标识别语料所表达的意图即为上述输入语句的意图,也即,上述目标识别语料的所属意图类别所对应的意图即为上述输入语句的意图。例如,在上述B3所给出的例子中,上述识别语料1的所属意图类别1所对应的意图即为输入语句的意图。需要注意的是,在输入语句不存在实体词语的情况下,将只能得到唯一的一个识别语料(也即输入语句本身),此时,该识别语料即为目标识别语料,可直接确定这一唯一的识别语料的所属意图类别所对应的意图即为上述输入语句的意图。
为了更好的说明本申请实施例中语音助手的工作流程,下面以具体实例进行说明:
假定输入语句为“播五月天的阿宝专辑”,则通过各个实体词语类别与上述输入语句的匹配,筛选出的能够匹配到的实体词语为:
singer:[“五月”,“五月天”,“阿宝”]
poetry title:[“月”]
song:[“五月”,“五月天”]
album:[“阿宝”]
上述结果中,冒号左侧的singer、poetry title、song及album为不同的实体词语类别,冒号右侧为该实体词语类别下所匹配得到的输入语句中的实体词语。在基于识别得到的各个实体词语,以及各个实体词语所属的实体词语类别,对上述输入语句进行替换后,所得到的识别语料可以包括:
播五月天的阿宝专辑(被替换的实体词语数量为0)
播五月天的singer专辑(被替换的实体词语数量为1)
播song的阿宝专辑(被替换的实体词语数量为1)
播song天的阿宝专辑(被替换的实体词语数量为1)
播singer天的阿宝专辑(被替换的实体词语数量为1)
播singer的阿宝专辑(被替换的实体词语数量为1)
播五poetry title天的阿宝专辑(被替换的实体词语数量为1)
播五月天的album专辑(被替换的实体词语数量为1)
播song的singer专辑(被替换的实体词语数量为2)
播song天的singer专辑(被替换的实体词语数量为2)
播singer的album专辑(被替换的实体词语数量为2)
播singer天的album专辑(被替换的实体词语数量为2)
……(被替换的实体词语数量为n)
篇幅所限,本例中所替换得到的识别语料并未穷举,而是仅给出了几个示例。可以看到,从被替换的实体词语数量为0开始,依次递增被替换的实体词语数量,可得到多个识别语料。随后,分别对每一识别语料都进行意图识别,得到每一识别语料的所属意图类别,以及每一识别语料与其所属意图类别的匹配得分。在本例所给出的识别语料中,假定“播singer的album专辑”这一识别语料与其所属意图类别“听音乐”的匹配得分最高,则可将“播singer的album专辑”这一识别语料作为目标识别语料,该目标识别语料中被替换的实体词语及其实体词语类别分别为singer:五月天及album:阿宝,所得到的目标识别语料的意图类别“听音乐”所指示的意图作为输入语句“播五月天的阿宝专辑”的意图。
假定输入语句为“我要听歌”,则对上述输入语句进行实体词语识别后可知该输入语句不存在实体词语,此时可直接将上述输入语句“我要听歌”确定为识别语料,并对该识别语料“我要听歌”进行意图识别,可确定与该识别语料的匹配得分最高的意图类别为“听音乐”;也即,意图类别“听音乐”所指示的意图即为输入语句“我要听歌”的意图。
由上可见,通过本申请方案,针对小语料的语音助手,不需要采用复杂的深度学习算法对其进行训练,只需研发人员预先基于小语料设定好实体词语库以及意图库,即可实现对用户所输入的语句的准确识别,使得语音助手的训练流出及应用流程有大幅度的简化。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
实施例二
本申请实施例二提供了一种语句识别装置,上述语句识别装置可集成于智能设备中,如图2所示,本申请实施例中的语句识别装置200包括:
接收单元201,用于接收输入语句;
实体词语识别单元202,用于对上述输入语句进行实体词语识别;
替换单元203,用于若上述输入语句存在一个以上实体词语,则基于上述输入语句所包含的一个以上实体词语,以及上述一个以上实体词语所属的实体词语类别,对上述输入语句进行替换,得到一个以上替换语料;
识别语料确定单元204,用于当上述输入语句不存在实体词语时,将上述输入语句作为识别语料,当上述输入语句存在一个以上实体词语时,将上述替换语料作为识别语料;
意图识别单元205,用于分别对各个识别语料进行意图识别,并根据意图识别的结果确定上述输入语句的意图。
可选地,上述实体词语识别单元202,包括:
类别获取子单元,用于获取预设的一个以上实体词语类别;
类别确定子单元,用于依次将上述一个以上实体词语类别中的一实体词语类别确定为目标实体词语类别;
词语识别子单元,用于基于上述目标实体词语类别所关联的实体词语识别算法,对上述输入语句进行实体词语识别,得到属于上述目标实体词语类别的实体词语。
可选地,上述类别确定子单元,包括:
优先级获取子单元,用于分别获取各个实体词语类别的优先级;
目标实体词语类别确定子单元,用于基于上述优先级由高至低的顺序,依次将上述一个以上实体词语类别中的一实体词语类别确定为目标实体词语类别。
可选地,上述意图识别单元205,包括:
匹配得分计算子单元,用于计算待匹配识别语料与预设的一项以上意图类别的匹配得分,其中,上述待匹配识别语料为任一识别语料,每一项意图类别对应一个意图;
意图类别确定子单元,用于根据上述待匹配识别语料与预设的一项以上意图类别的匹配得分,确定待匹配识别语料的所属意图类别;
目标识别语料确定子单元,用于在所有识别语料中,根据各个识别语料与对应的所属意图类别的匹配得分,确定目标识别语料,其中,上述目标识别语料为与对应的所属意图类别的匹配得分最高的识别语料;
意图确定子单元,用于将上述目标识别语料的所属意图类别所对应的意图确定为上述输入语句的意图。
可选地,上述匹配得分计算子单元,包括:
语料获取子单元,用于获取待匹配意图类别中所包含的所有模板语料,其中,上述待匹配意图类别为任一项意图类别;
距离计算子单元,用于分别计算待匹配识别语料与上述待匹配意图类别中所包含的各个模板语料的距离;
得分确定子单元,用于基于上述待匹配识别语料与上述待匹配意图类别中所包含的各个模板语料的距离,确定上述待匹配识别语料与上述待匹配意图类别的匹配得分。
可选地,上述距离计算子单元,包括:
余弦距离最大值计算子单元,用于计算上述待匹配识别语料与上述待匹配意图类别中所包含的各个模板语料的余弦距离,并筛选得到余弦距离最大值;
余弦距离平均值计算子单元,用于计算上述待匹配识别语料与上述待匹配意图类别中所包含的所有模板语料的余弦距离平均值;
编辑距离最大值计算子单元,用于计算上述待匹配识别语料与上述待匹配意图类别中所包含的各个模板语料的编辑距离,并筛选得到编辑距离最大值;
相应地,上述得分确定子单元,具体用于根据上述余弦距离最大值、上述余弦距离平均值及上述编辑距离最大值,确定上述待匹配识别语料与上述待匹配意图类别的匹配得分。
可选地,上述意图类别确定子单元,包括:
目标意图类别确定子单元,用于将与上述待匹配识别语料的余弦距离最大值大于预设的余弦距离最大值阈值,且与上述待匹配识别语料的余弦距离平均值大于预设的余弦距离平均值阈值,且与上述待匹配识别语料的编辑距离最大值大于预设的编辑距离最大值阈值的意图类别确定为上述待匹配识别语料的目标意图类别;
距离总值计算子单元,用于若不存在与上述待匹配识别语料的余弦距离最大值大于预设的余弦距离最大值阈值,且与上述待匹配识别语料的余弦距离平均值大于预设的余弦距离平均值阈值,且与上述待匹配识别语料的编辑距离最大值大于预设的编辑距离最大值阈值的意图类别,则分别将各项意图类别与上述待匹配识别语料的余弦距离最大值、余弦距离平均值及编辑距离最大值相加,以得到每一项意图类别与上述待匹配识别语料的距离总值;
上述目标意图类别确定子单元,还用于将与上述待匹配识别语料的距离总值大于预设的距离总值阈值的意图类别确定为上述待匹配识别语料的目标意图类别;
意图类别判断子单元,用于若不存在上述待匹配识别语料的目标意图类别,则确定上述待匹配识别语料为错误语料,若存在一项上述待匹配识别语料的目标意图类别,则将上述待匹配识别语料的目标意图类别确定为上述待匹配识别语料的所属意图类别,若存在两项以上上述待匹配识别语料的目标意图类别,则将与上述待匹配识别语料的距离总值最高的目标意图类别确定为上述待匹配识别语料的所属意图类别。
由上可见,通过本申请方案,针对小语料的语音助手,不需要采用复杂的深度学习算法对其进行训练,只需研发人员预先基于小语料设定好实体词语库以及意图库,即可实现对用户所输入的语句的准确识别,使得语音助手的训练流出及应用流程有大幅度的简化。
实施例三
本申请实施例三提供了一种智能设备,请参阅图3,本申请实施例中的智能设备3包括:存储器301,一个或多个处理器302(图3中仅示出一个)及存储在存储器301上并可在处理器上运行的计算机程序。其中:存储器301用于存储软件程序以及模块,处理器302通过运行存储在存储器301的软件程序以及单元,从而执行各种功能应用以及数据处理,以获取上述预设事件对应的资源。具体地,处理器302通过运行存储在存储器301的上述计算机程序时实现以下步骤:
接收输入语句;
对上述输入语句进行实体词语识别;
若上述输入语句不存在实体词语,则将上述输入语句作为识别语料;
若上述输入语句存在一个以上实体词语,则基于上述输入语句所包含的一个以上实体词语,以及上述一个以上实体词语所属的实体词语类别,对上述输入语句进行替换,得到一个以上替换语料,并将上述替换语料作为识别语料;
分别对各个识别语料进行意图识别,并根据意图识别的结果确定上述输入语句的意图。
假设上述为第一种可能的实施方式,则在第一种可能的实施方式作为基础而提供的第二种可能的实施方式中,上述对上述输入语句进行实体词语识别,得到上述输入语句所包含的一个以上实体词语,包括:
获取预设的一个以上实体词语类别;
依次将上述一个以上实体词语类别中的一实体词语类别确定为目标实体词语类别;
基于上述目标实体词语类别所关联的实体词语识别算法,对上述输入语句进行实体词语识别,得到属于上述目标实体词语类别的实体词语。
在上述二种可能的实施方式作为基础而提供的第三种可能的实施方式中,上述依次将上述一个以上实体词语类别中的一实体词语类别确定为目标实体词语类别,包括:
分别获取各个实体词语类别的优先级;
基于上述优先级由高至低的顺序,依次将上述一个以上实体词语类别中的一实体词语类别确定为目标实体词语类别。
在上述第一种可能的实施方式作为基础而提供的第四种可能的实施方式中,上述分别对各个识别语料进行意图识别,并根据意图识别的结果确定上述输入语句的意图,包括:
计算待匹配识别语料与预设的一项以上意图类别的匹配得分,其中,上述待匹配识别语料为任一识别语料,每一项意图类别对应一个意图;
根据上述待匹配识别语料与预设的一项以上意图类别的匹配得分,确定待匹配识别语料的所属意图类别;
在所有识别语料中,根据各个识别语料与对应的所属意图类别的匹配得分,确定目标识别语料,其中,上述目标识别语料为与对应的所属意图类别的匹配得分最高的识别语料;
将上述目标识别语料的所属意图类别所对应的意图确定为上述输入语句的意图。
在上述第四种可能的实施方式作为基础而提供的第五种可能的实施方式中,上述计算待匹配识别语料与预设的一项以上意图类别的匹配得分,包括:
获取待匹配意图类别中所包含的所有模板语料,其中,上述待匹配意图类别为任一项意图类别;
分别计算待匹配识别语料与上述待匹配意图类别中所包含的各个模板语料的距离;
基于上述待匹配识别语料与上述待匹配意图类别中所包含的各个模板语料的距离,确定上述待匹配识别语料与上述待匹配意图类别的匹配得分。
在上述第五种可能的实施方式作为基础而提供的第六种可能的实施方式中,上述分别计算待匹配识别语料与上述待匹配意图类别中所包含的各个模板语料的距离,包括:
计算上述待匹配识别语料与上述待匹配意图类别中所包含的各个模板语料的余弦距离,并筛选得到余弦距离最大值;
计算上述待匹配识别语料与上述待匹配意图类别中所包含的所有模板语料的余弦距离平均值;
计算上述待匹配识别语料与上述待匹配意图类别中所包含的各个模板语料的编辑距离,并筛选得到编辑距离最大值;
相应地,上述基于上述待匹配识别语料与上述待匹配意图类别中所包含的各个模板语料的距离,确定上述待匹配识别语料与上述待匹配意图类别的匹配得分,包括:
根据上述余弦距离最大值、上述余弦距离平均值及上述编辑距离最大值,确定上述待匹配识别语料与上述待匹配意图类别的匹配得分。
在上述第六种可能的实施方式作为基础而提供的第七种可能的实施方式中,上述根据上述待匹配识别语料与预设的一项以上意图类别的匹配得分,确定待匹配识别语料的所属意图类别,包括:
将与上述待匹配识别语料的余弦距离最大值大于预设的余弦距离最大值阈值,且与上述待匹配识别语料的余弦距离平均值大于预设的余弦距离平均值阈值,且与上述待匹配识别语料的编辑距离最大值大于预设的编辑距离最大值阈值的意图类别确定为上述待匹配识别语料的目标意图类别;
若不存在与上述待匹配识别语料的余弦距离最大值大于预设的余弦距离最大值阈值,且与上述待匹配识别语料的余弦距离平均值大于预设的余弦距离平均值阈值,且与上述待匹配识别语料的编辑距离最大值大于预设的编辑距离最大值阈值的意图类别,则分别将各项意图类别与上述待匹配识别语料的余弦距离最大值、余弦距离平均值及编辑距离最大值相加,以得到每一项意图类别与上述待匹配识别语料的距离总值;
将与上述待匹配识别语料的距离总值大于预设的距离总值阈值的意图类别确定为上述待匹配识别语料的目标意图类别;
若不存在上述待匹配识别语料的目标意图类别,则确定上述待匹配识别语料为错误语料;
若存在一项上述待匹配识别语料的目标意图类别,则将上述待匹配识别语料的目标意图类别确定为上述待匹配识别语料的所属意图类别;
若存在两项以上上述待匹配识别语料的目标意图类别,则将与上述待匹配识别语料的距离总值最高的目标意图类别确定为上述待匹配识别语料的所属意图类别。
应当理解,在本申请实施例中,所称处理器302可以是中央处理单元(CentralProcessing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器 (DigitalSignal Processor,DSP)、专用集成电路 (Application Specific Integrated Circuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器301可以包括只读存储器和随机存取存储器,并向处理器302 提供指令和数据。存储器301的一部分或全部还可以包括非易失性随机存取存储器。例如,存储器301还可以存储设备类型的信息。
由上可见,通过本申请方案,针对小语料的语音助手,不需要采用复杂的深度学习算法对其进行训练,只需研发人员预先基于小语料设定好实体词语库以及意图库,即可实现对用户所输入的语句的准确识别,使得语音助手的训练流出及应用流程有大幅度的简化。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将上述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者外部设备软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的系统实施例仅仅是示意性的,例如,上述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关联的硬件来完成,上述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,上述计算机程序包括计算机程序代码,上述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。上述计算机可读存储介质可以包括:能够携带上述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机可读存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,上述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读存储介质不包括是电载波信号和电信信号。
以上上述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (9)
1.一种语句识别方法,其特征在于,包括:
接收输入语句;
对所述输入语句进行实体词语识别;
若所述输入语句不存在实体词语,则将所述输入语句作为识别语料;
若所述输入语句存在一个以上实体词语,则以被替换的实体词语数量由少至多的顺序,基于所述输入语句所包含的一个以上实体词语,以及所述一个以上实体词语所属的实体词语类别,对所述输入语句进行替换,得到一个以上替换语料,并将所述替换语料作为识别语料;
分别对各个识别语料进行意图识别,并根据意图识别的结果确定所述输入语句的意图;
其中,所述对所述输入语句进行实体词语识别,包括:
获取预设的一个以上实体词语类别;
依次将所述一个以上实体词语类别中的一实体词语类别确定为目标实体词语类别;
基于所述目标实体词语类别所关联的实体词语识别算法,对所述输入语句进行实体词语识别,得到属于所述目标实体词语类别的实体词语,其中,在所述目标实体词语类别为数字类的情况下,关联的实体词语识别算法基于与所述目标实体词语类别相应的匹配规则而实现,在所述目标实体词语类别为非数字类的情况下,关联的实体词语识别算法基于与所述目标实体词语类别相应的词典树而实现。
2.如权利要求1所述的语句识别方法,其特征在于,所述依次将所述一个以上实体词语类别中的一实体词语类别确定为目标实体词语类别,包括:
分别获取各个实体词语类别的优先级;
基于所述优先级由高至低的顺序,依次将所述一个以上实体词语类别中的一实体词语类别确定为目标实体词语类别。
3.如权利要求1所述的语句识别方法,其特征在于,所述分别对各个识别语料进行意图识别,并根据意图识别的结果确定所述输入语句的意图,包括:
计算待匹配识别语料与预设的一项以上意图类别的匹配得分,其中,所述待匹配识别语料为任一识别语料,每一项意图类别对应一个意图;
根据所述待匹配识别语料与预设的一项以上意图类别的匹配得分,确定待匹配识别语料的所属意图类别;
在所有识别语料中,根据各个识别语料与对应的所属意图类别的匹配得分,确定目标识别语料,其中,所述目标识别语料为与对应的所属意图类别的匹配得分最高的识别语料;
将所述目标识别语料的所属意图类别所对应的意图确定为所述输入语句的意图。
4.如权利要求3所述语句识别方法,其特征在于,所述计算待匹配识别语料与预设的一项以上意图类别的匹配得分,包括:
获取待匹配意图类别中所包含的所有模板语料,其中,所述待匹配意图类别为任一项意图类别;
分别计算所述待匹配识别语料与所述待匹配意图类别中所包含的各个模板语料的距离;
基于所述待匹配识别语料与所述待匹配意图类别中所包含的各个模板语料的距离,确定所述待匹配识别语料与所述待匹配意图类别的匹配得分。
5.如权利要求4所述的语句识别方法,其特征在于,所述分别计算待匹配识别语料与所述待匹配意图类别中所包含的各个模板语料的距离,包括:
计算所述待匹配识别语料与所述待匹配意图类别中所包含的各个模板语料的余弦距离,并筛选得到余弦距离最大值;
计算所述待匹配识别语料与所述待匹配意图类别中所包含的所有模板语料的余弦距离平均值;
计算所述待匹配识别语料与所述待匹配意图类别中所包含的各个模板语料的编辑距离,并筛选得到编辑距离最大值;
相应地,所述基于所述待匹配识别语料与所述待匹配意图类别中所包含的各个模板语料的距离,确定所述待匹配识别语料与所述待匹配意图类别的匹配得分,包括:
根据所述余弦距离最大值、所述余弦距离平均值及所述编辑距离最大值,确定所述待匹配识别语料与所述待匹配意图类别的匹配得分。
6.如权利要求5所述的语句识别方法,其特征在于,所述根据所述待匹配识别语料与预设的一项以上意图类别的匹配得分,确定待匹配识别语料的所属意图类别,包括:
将与所述待匹配识别语料的余弦距离最大值大于预设的余弦距离最大值阈值,且与所述待匹配识别语料的余弦距离平均值大于预设的余弦距离平均值阈值,且与所述待匹配识别语料的编辑距离最大值大于预设的编辑距离最大值阈值的意图类别确定为所述待匹配识别语料的目标意图类别;
若不存在与所述待匹配识别语料的余弦距离最大值大于预设的余弦距离最大值阈值,且与所述待匹配识别语料的余弦距离平均值大于预设的余弦距离平均值阈值,且与所述待匹配识别语料的编辑距离最大值大于预设的编辑距离最大值阈值的意图类别,则分别将各项意图类别与所述待匹配识别语料的余弦距离最大值、余弦距离平均值及编辑距离最大值相加,以得到每一项意图类别与所述待匹配识别语料的距离总值;
将与所述待匹配识别语料的距离总值大于预设的距离总值阈值的意图类别确定为所述待匹配识别语料的目标意图类别;
若不存在所述待匹配识别语料的目标意图类别,则确定所述待匹配识别语料为错误语料;
若存在一项所述待匹配识别语料的目标意图类别,则将所述待匹配识别语料的目标意图类别确定为所述待匹配识别语料的所属意图类别;
若存在两项以上所述待匹配识别语料的目标意图类别,则将与所述待匹配识别语料的距离总值最高的目标意图类别确定为所述待匹配识别语料的所属意图类别。
7.一种语句识别装置,其特征在于,所述语句识别装置包括:
接收单元,用于接收输入语句;
实体词语识别单元,用于对所述输入语句进行实体词语识别;
替换单元,用于若所述输入语句存在一个以上实体词语,则以被替换的实体词语数量由少至多的顺序,基于所述输入语句所包含的一个以上实体词语,以及所述一个以上实体词语所属的实体词语类别,对所述输入语句进行替换,得到一个以上替换语料;
识别语料确定单元,用于当所述输入语句不存在实体词语时,将所述输入语句作为识别语料,当所述输入语句存在一个以上实体词语时,将所述替换语料作为识别语料;
意图识别单元,用于分别对各个识别语料进行意图识别,并根据意图识别的结果确定所述输入语句的意图;
其中,所述实体词语识别单元,包括:
类别获取子单元,用于获取预设的一个以上实体词语类别;
类别确定子单元,用于依次将所述一个以上实体词语类别中的一实体词语类别确定为目标实体词语类别;
词语识别子单元,用于基于所述目标实体词语类别所关联的实体词语识别算法,对所述输入语句进行实体词语识别,得到属于所述目标实体词语类别的实体词语,其中,在所述目标实体词语类别为数字类的情况下,关联的实体词语识别算法基于与所述目标实体词语类别相应的匹配规则而实现,在所述目标实体词语类别为非数字类的情况下,关联的实体词语识别算法基于与所述目标实体词语类别相应的词典树而实现。
8.一种智能设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述方法的步骤。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911111256.9A CN111046654B (zh) | 2019-11-14 | 2019-11-14 | 一种语句识别方法、语句识别装置及智能设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911111256.9A CN111046654B (zh) | 2019-11-14 | 2019-11-14 | 一种语句识别方法、语句识别装置及智能设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111046654A CN111046654A (zh) | 2020-04-21 |
CN111046654B true CN111046654B (zh) | 2023-12-29 |
Family
ID=70232871
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911111256.9A Active CN111046654B (zh) | 2019-11-14 | 2019-11-14 | 一种语句识别方法、语句识别装置及智能设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111046654B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107153672A (zh) * | 2017-03-22 | 2017-09-12 | 中国科学院自动化研究所 | 基于言语行为理论的用户交互意图识别方法及系统 |
CN108334891A (zh) * | 2017-12-15 | 2018-07-27 | 北京奇艺世纪科技有限公司 | 一种任务型意图分类方法及装置 |
CN109542247A (zh) * | 2018-11-14 | 2019-03-29 | 腾讯科技(深圳)有限公司 | 句式推荐方法及装置、电子设备、存储介质 |
CN109558479A (zh) * | 2018-11-29 | 2019-04-02 | 北京羽扇智信息科技有限公司 | 一种规则匹配方法、装置、设备及存储介质 |
CN110032724A (zh) * | 2018-12-19 | 2019-07-19 | 阿里巴巴集团控股有限公司 | 用于识别用户意图的方法及装置 |
-
2019
- 2019-11-14 CN CN201911111256.9A patent/CN111046654B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107153672A (zh) * | 2017-03-22 | 2017-09-12 | 中国科学院自动化研究所 | 基于言语行为理论的用户交互意图识别方法及系统 |
CN108334891A (zh) * | 2017-12-15 | 2018-07-27 | 北京奇艺世纪科技有限公司 | 一种任务型意图分类方法及装置 |
CN109542247A (zh) * | 2018-11-14 | 2019-03-29 | 腾讯科技(深圳)有限公司 | 句式推荐方法及装置、电子设备、存储介质 |
CN109558479A (zh) * | 2018-11-29 | 2019-04-02 | 北京羽扇智信息科技有限公司 | 一种规则匹配方法、装置、设备及存储介质 |
CN110032724A (zh) * | 2018-12-19 | 2019-07-19 | 阿里巴巴集团控股有限公司 | 用于识别用户意图的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111046654A (zh) | 2020-04-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11386259B2 (en) | Removing personal information from text using multiple levels of redaction | |
Williams et al. | A broad-coverage challenge corpus for sentence understanding through inference | |
CN107818781B (zh) | 智能交互方法、设备及存储介质 | |
CN111046667B (zh) | 一种语句识别方法、语句识别装置及智能设备 | |
CN107797984B (zh) | 智能交互方法、设备及存储介质 | |
CN111178077B (zh) | 一种语料生成方法、语料生成装置及智能设备 | |
CN110019732B (zh) | 一种智能问答方法以及相关装置 | |
CN108304375A (zh) | 一种信息识别方法及其设备、存储介质、终端 | |
CN111046653B (zh) | 一种语句识别方法、语句识别装置及智能设备 | |
CN112016313B (zh) | 口语化要素识别方法及装置、警情分析系统 | |
CN112395391B (zh) | 概念图谱构建方法、装置、计算机设备及存储介质 | |
CN112487827A (zh) | 问题回答方法及电子设备、存储装置 | |
CN112132238A (zh) | 一种识别隐私数据的方法、装置、设备和可读介质 | |
CN108153875B (zh) | 语料处理方法、装置、智能音箱和存储介质 | |
CN115840808A (zh) | 科技项目咨询方法、装置、服务器及计算机可读存储介质 | |
CN110069594B (zh) | 合同确认方法、装置、电子设备及存储介质 | |
CN111274366A (zh) | 搜索推荐方法及装置、设备、存储介质 | |
CN113076740A (zh) | 政务服务领域的同义词挖掘方法及装置 | |
CN111858860B (zh) | 搜索信息处理方法及系统、服务器、计算机可读介质 | |
CN111046654B (zh) | 一种语句识别方法、语句识别装置及智能设备 | |
WO2019246252A1 (en) | Systems and methods for identifying and linking events in structured proceedings | |
CN112541357B (zh) | 实体识别方法、装置及智能设备 | |
CN112597287B (zh) | 一种语句处理方法、语句处理装置及智能设备 | |
CN114242047A (zh) | 一种语音处理方法、装置、电子设备及存储介质 | |
CN111046153B (zh) | 一种语音助手定制方法、语音助手定制装置及智能设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |