CN111881253B - 同义实体对的确定方法及装置 - Google Patents
同义实体对的确定方法及装置 Download PDFInfo
- Publication number
- CN111881253B CN111881253B CN201910299911.1A CN201910299911A CN111881253B CN 111881253 B CN111881253 B CN 111881253B CN 201910299911 A CN201910299911 A CN 201910299911A CN 111881253 B CN111881253 B CN 111881253B
- Authority
- CN
- China
- Prior art keywords
- entity
- request
- candidate
- pair
- statement
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 73
- 239000013598 vector Substances 0.000 claims description 46
- 238000012360 testing method Methods 0.000 claims description 36
- 238000013507 mapping Methods 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 16
- 238000000605 extraction Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 3
- 230000003993 interaction Effects 0.000 description 23
- 238000012216 screening Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 230000006399 behavior Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 241000282326 Felis catus Species 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 241000592183 Eidolon Species 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本说明书实施例提供一种同义实体对的确定方法,该方法包括:首先,获取连续请求序列,其中包括至少一个失败请求语句,以及与执行预定操作对应的成功请求语句,所述至少一个失败请求语句中包括第一失败请求语句;接着,在所述第一失败请求语句与所述成功请求语句的语句相似度大于第一预定阈值的情况下,分别提取所述第一失败请求语句和所述成功请求语句中的实体,得到至少一个候选实体对;然后,基于所述至少一个候选实体对,确定同义实体对。
Description
技术领域
本说明书实施例涉及自然语言处理技术领域,具体地,涉及一种同义实体对的确定方法及装置。
背景技术
人机交互技术(Human-Computer Interaction Techniques)是指通过计算机输入、输出设备,以有效的方式实现人与计算机对话的技术。具体地,包括用户通过输入设备向计算机输入自定义信息,例如,通过移动终端中的话筒输入的语音信息,以及,计算机根据用户输入的自定义信息给出相应的反馈信息。在这个过程中,为了使计算机能够给出让用户满意的反馈信息,计算机需要根据用户输入的自定义信息,准确地识别出用户意图。具体地,可以先识别出自定义信息中实体,进而根据识别出的实体确定出用户意图。
然而,因用户自定义信息中实体的表达通常不够规范,进而无法根据不规范的实体精准地确定出用户意图。由此,迫切需要一种合理、可靠的方案,可以辅助根据用户自定义信息精准地确定出用户意图。
发明内容
本说明书描述了一种同义实体对的确定方法,通过建立不规范实体(以下又称备选实体)与规范实体之间的映射关系,使得当接收到的用户自定义信息中包括的实体不够规范时,也可以向用户返回与规范实体对应的目标内容,进而提高用户体验。
根据第一方面,提供一种同义实体对的确定方法,该方法包括:获取连续请求序列,其中包括至少一个失败请求语句,以及与执行预定操作对应的成功请求语句,所述至少一个失败请求语句中包括第一失败请求语句;在所述第一失败请求语句与所述成功请求语句的语句相似度大于第一预定阈值的情况下,分别提取所述第一失败请求语句和所述成功请求语句中的实体,得到至少一个候选实体对;基于所述至少一个候选实体对,确定同义实体对。
在一个实施例中,所述获取连续请求序列,包括:获取历史日志记录;从所述历史日志记录中确定触发所述预定操作成功执行的请求语句,作为所述成功请求语句;基于预定的时间间隔,在所述历史日志记录中回溯所述成功请求语句之前的请求语句,得到所述至少一个失败请求语句;将所述至少一个失败请求语句和所述成功请求语句组成所述连续请求序列。
在一个实施例中,所述第一失败请求语句与所述成功请求语句的语句相似度基于以下步骤而确定:确定所述第一失败请求语句所对应的第一句向量;确定所述成功请求语句所对应的第二句向量;确定所述第一句向量和第二句向量的相似度,作为所述语句相似度。
在一个实施例中,所述分别提取所述第一失败请求语句和所述成功请求语句中的实体,得到至少一个候选实体对,包括:提取所述第一失败请求语句中的实体,得到至少一个备选实体;提取所述成功请求语句中的实体,得到至少一个规范实体;对所述至少一个备选实体中的任一备选实体与所述至少一个规范实体中的任一规范实体分别进行组合,得到所述至少一个候选实体对。
在一个实施例中,所述分别提取所述第一失败请求语句和所述成功请求语句中的实体,得到至少一个候选实体对,包括:提取所述第一失败请求语句中的实体,得到至少一个备选实体以及其中各个备选实体的实体类别,所述至少一个备选实体中包括第一备选实体;提取所述成功请求语句中的实体,得到至少一个规范实体以及其中各个规范实体的实体类别,所述至少一个规范实体中包括第一规范实体;在所述第一备选实体的实体类别和所述第一规范实体的实体类别相同的情况下,将所述第一备选实体和所述第一规范实体组成第一候选实体对,归入所述至少一个候选实体对中。
在一个实施例中,所述分别提取所述第一失败请求语句和所述成功请求语句中的实体,包括:基于条件随机场模型,分别提取所述第一失败请求语句和所述成功请求语句中的实体,其中所述条件随机场模型基于所述连续请求序列所对应领域的语料而预先训练。
在一个实施例中,所述至少一对候选实体对中包括第一候选实体对,所述第一候选实体对包括从所述第一失败请求语句中提取的第一备选实体,和从所述成功请求语句中提取的第一规范实体;所述基于所述至少一对候选实体对,确定同义实体对,包括:确定所述第一备选实体和第一规范实体的实体相似度;在所述实体相似度大于第二预定阈值的情况下,将所述第一候选实体对归为相似实体对;基于所述相似实体对,确定所述同义实体对。
进一步地,在一个具体的实施例中,所述确定所述第一备选实体和第一规范实体的实体相似度,包括:获取与所述连续请求序列所对应领域的领域词典;在所述第一规范实体存在于所述领域词典中的情况下,确定所述实体相似度。
在另一个具体的实施例中,所述确定所述第一备选实体和第一规范实体的实体相似度,包括:确定所述第一备选实体所对应的第一词向量;确定所述第一规范实体所对应第二词向量;确定所述第一词向量与所述第二词向量的相似度,作为所述实体相似度。
在一个实施例中,所述至少一对候选实体对中包括第一候选实体对,所述第一候选实体对包括从所述第一失败请求语句中提取的第一备选实体,和从所述成功请求语句中提取的第一规范实体;所述基于所述至少一个候选实体对,确定同义实体对,包括:获取对所述第一候选实体对进行线上测试的结果,所述线上测试的结果至少包括:在多次接收到包括所述第一备选实体的用户请求语句的情况下,执行所述预定操作的第一比例;在所述线上测试的结果符合预定条件的情况下,将所述第一候选实体对归为所述同义实体对。
在一个实施例中,所述基于所述相似实体对,确定所述同义实体对,包括:获取对所述第一候选实体对进行线上测试的结果,所述线上测试的结果至少包括:在多次接收到包括所述第一备选实体的用户请求语句的情况下,执行所述预定操作的第一比例;在所述线上测试的结果符合预定条件的情况下,将所述第一候选实体对归为所述同义实体对。
进一步地,在一个具体地实施例中,所述在所述线上测试的结果符合预定条件的情况下,将所述第一候选实体对归为所述同义实体对,包括:在所述第一比例大于第三预定阈值的情况下,将所述第一候选实体对归为所述同义实体对。
在另一个具体的实施例中,所述线上测试的结果中还包括:在多次接收到包括所述第一规范实体的用户请求语句的情况下,执行所述预定操作的第二比例;所述在所述线上测试的结果符合预定条件的情况下,将所述第一候选实体对归为所述同义实体对,包括:在所述第二比例与所述第一比例的差值小于第四预定阈值的情况下,将将所述第一候选实体对归为所述同义实体对。
在一个实施例中,所述连续请求序列对应于用户请求播放歌曲,所述执行预定操作包括播放歌曲直到播放时长与歌曲总时长的占比超过预定比例。
根据第二方面,提供一种同义实体对的确定装置,该装置包括:获取单元,配置为获取连续请求序列,其中包括至少一个失败请求语句,以及与执行预定操作对应的成功请求语句,所述至少一个失败请求语句中包括第一失败请求语句;提取单元,配置为在所述第一失败请求语句与所述成功请求语句的语句相似度大于第一预定阈值的情况下,分别提取所述第一失败请求语句和所述成功请求语句中的实体,得到至少一个候选实体对;确定单元,配置为基于所述至少一个候选实体对,确定同义实体对。
根据第三方面,提供一种处理用户请求的方法,所述方法包括:获取用户输入的原始请求语句;提取所述原始请求语句中的至少一个实体;基于预先确定的多个备选实体,确定所述至少一个实体中是否包括与所述多个备选实体匹配的至少一个备选实体;在确定出所述至少一个实体中包括所述至少一个备选实体的情况下,基于预先确定的备选实体与规范实体之间的映射关系,确定与所述至少一个备选实体对应的至少一个规范实体;利用所述至少一个规范实体,对所述原始请求语句中的至少一个备选实体进行替换,得到对应的规范请求语句;基于所述规范请求语句,向所述用户返回请求结果。
根据第四方面,提供一种处理用户请求的装置,所述装置包括:获取单元,配置为获取用户输入的原始请求语句;提取单元,配置为提取所述原始请求语句中的至少一个实体;第一确定单元,配置为基于预先确定的多个备选实体,确定所述至少一个实体中是否包括与所述多个备选实体匹配的至少一个备选实体;第二确定单元,配置为在确定出所述至少一个实体中包括所述至少一个备选实体的情况下,基于预先确定的备选实体与规范实体之间的映射关系,确定与所述至少一个备选实体对应的至少一个规范实体;替换单元,配置为利用所述至少一个规范实体,对所述原始请求语句中的至少一个备选实体进行替换,得到对应的规范请求语句;返回单元,配置为基于所述规范请求语句,向所述用户返回请求结果。
根据第五方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面或第三方面的方法。
根据第六方面,提供了一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面或第三方面的方法。
采用本说明书实施例披露的同义实体对的确定方法,可以确定出同义实体对。基于确定出的同义实体对,可以更好的根据用户的请求语句确定出用户的真实意图。例如,基于确定出的同义实体对(某仔,刘某),当用户输入的请求语句为“我想听某仔的歌”时,可以根据(某仔,刘某)确定出某仔的规范表达是刘某,进而查找刘某的歌曲资源,播放给用户。如此,通过精准地识别用户意图,进而精准地满足用户需求,可以提升用户体验以及提高用户满意度。
附图说明
为了更清楚地说明本说明书披露的多个实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书披露的多个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本说明书实施例披露的同义实体对的确定方法流程图;
图2为本说明书实施例披露的同义实体对的确定方法流程框图;
图3为本说明书实施例披露的处理用户请求的方法流程图;
图4为本说明书实施例披露的同义实体对的确定装置结构图;
图5为本说明书实施例披露的处理用户请求的装置结构图。
具体实施方式
下面结合附图,对本说明书披露的多个实施例进行描述。
本说明书实施例披露一种同义实体对的确定方法,下面,首先对所述方法的应用场景和发明构思进行介绍。具体如下:
在涉及到人机交互的多种场景中,计算机(或称为交互设备,包括终端设备,如手机、平板电脑、可穿戴设备等)需要根据用户输入的自定义信息(或称为,用户交互请求信息),识别用户意图,然后再根据识别出的用户意图对用户进行反馈。其中,从自定义信息中提取出实体(是指文本中具有特定意义的汉语词汇,如人名、地名、机构名和专有名词等),通常是识别用户意图过程中的重要环节。比如说,在用户使用浏览器进行信息查询的场景下,在一种实施方式中,浏览器需要根据用户输入的查询信息(例如,艺术家罗某),提取出其中的实体信息(例如,艺术家、罗某),接着根据实体信息获取相关的网页,再向用户展示获取到的相关网页。又比如,在用户使用智能音箱的场景下,智能音箱在接收用户输入的语音消息后,将语音消息转化为文本消息(如,播放刘某的某首歌),然后从文本消息中提取出实体信息(如,刘某、某首歌),再进行对应的反馈(如,播放歌曲)。
然而,因用户输入的自定义信息的用词,包括对实体的描述用语,通常不够规范,导致根据提取出的不规范的实体,很难识别出用户的真实意图。尤其是在自然语音场景下,用户利用口语的方式与机器进行交互,由于存在以下一些原因:a)语音识别存在误差,如将歌曲名“纸*”识别成“只*”;b)用户表达多字或者缺字,如“飘***”表达成“飘**”;c)口语表达,如将歌曲名“123***”表达成“一百二十三***”;d)真实别名,如“刘某”的别名是“某仔”。如此,导致无法理解识别出的实体语义,从而不能达成用户的真实意图。
进一步地,发明人发现,用户为了达到其特定的交互目的(例如,用手机播放歌手邓某的歌曲《**你》),会向交互设备输入其自定义的信息(例如,播放**(为邓某的英文名)的**你),然而,当交互设备根据输入信息反馈给用户的信息并未使用户的交互目的达成时(例如,实际播放的歌曲是某组合的歌曲《*你》),用户将再次输入请求信息(例如,播放邓某的**你),直到交互目的达成。由此,针对特定的交互目的,用户可能会输入多条请求信息,相应地,计算机在执行预定操作(如,播放完整首歌曲)之前,可能会接收到用户输入的多条请求信息。
基于以上观察,发明人提出引入实体的同义词挖掘,通过建立不规范表达的实体(例如,某歌手的英文名)与规范表达的实体(如,某歌手的中文名)之间的映射,从而达成用户的意图。多数情况下,不规范表达的实体与规范表达的实体之间可能存在一对一或者一对多的映射关系,相应地,我们将一个表达不规范的实体(以下将统称为备选实体)与对应的规范表达的实体,所组成的实体对,称为同义实体对。具体地,本说明书实施例披露一种同义实体对的确定方法,下面,结合具体的实施例对所述方法的实施步骤进行介绍。
图1为本说明书实施例披露的同义实体对的确定方法流程图,所述方法的执行主体可以为具有处理能力的设备:服务器或者系统或者装置,例如,移动终端、客户端APP等。如图1所示,该方法流程包括以下步骤:步骤S110,获取连续请求序列,其中包括至少一个失败请求语句,以及与执行预定操作对应的成功请求语句,所述至少一个失败请求语句中包括第一失败请求语句;步骤S120,在所述第一失败请求语句与所述成功请求语句的语句相似度大于第一预定阈值的情况下,分别提取所述第一失败请求语句和所述成功请求语句中的实体,得到至少一个候选实体对;步骤S130,基于所述至少一个候选实体对,确定同义实体对。以上步骤具体如下:
首先,在步骤S110,获取连续请求序列,其中包括至少一个失败请求语句,以及与执行预定操作对应的成功请求语句,所述至少一个失败请求语句中包括第一失败请求语句。
在一个实施例中,上述获取连续请求序列可以通过以下步骤实现:首先,获取历史日志记录;接着,从历史日志记录中确定触发上述预定操作成功执行的请求语句,作为上述成功请求语句;然后,基于预定的时间间隔,在历史日志记录中回溯成功请求语句之前的请求语句,得到上述至少一个失败请求语句;再接着,将至少一个失败请求语句和成功请求语句组成上述连续请求序列。
进一步地,在一个具体的实施例中,上述历史日志记录可以为与用户进行交互的交互设备,如,智能音箱,或音乐APP、或天气预报APP等,的系统日志,其中包括与用户进行交互产生的交互行为日志。在一个例子中,交互行为日志中包括接收的用户输入信息和向用户展示的反馈信息。在另一个例子中,交互行为日志中还包括接收的用户指令和根据用户指令执行的操作信息。根据一个具体的例子,可以从交互设备所对应的服务器中获取交互行为日志,作为上述历史日志记录。如此,可以获取历史日志记录。
在一个具体的实施例中,上述预定操作可以由工作人员根据实际情况,如根据历史日志记录所对应的交互场景而预先设定。在一个例子中,交互场景对应于用户请求播放歌曲的场景,相应地,可以将预定操作设定为播放歌曲直到播放时长与歌曲总时长的占比(或称为播放完成度)超过预定比例,如0.8或0.9等等。在另一个例子中,交互场景对应于用户请求浏览新闻的场景,相应地,可以将预定操作设定为在新闻页面的停留时长超过预定时长,如20s或1min等等。
基于以上预定操作,在一个具体的实施例中,可以先在历史日志记录中标定出预定操作成功执行的记录,进一步地,在一个例子中,再确定出在标定记录之前的,其中与标定记录之间的时间间隔最短的请求语句作为上述成功请求语句。在另一个例子中,可以根据标定记录,直接定位到触发预定操作成功执行的请求语句,作为上述成功请求语句。
根据一个具体的例子,假定预定操作为播放歌曲的播放完成度超过90%。并且,获取的历史日志记录中包括以下内容:
“...
(18h:10min:08s)用户:我想听某仔的歌;
(18h:10min:10s)天猫精灵:请跟我一起收听刘某的歌曲电台吧;
(18h:15min:10s)播放刘某的某首歌,完成度98%;
...”
由此,可以标定出预定操作成功执行的记录为“播放刘某的某首歌,完成度98%”,然后直接定位到触发此预定操作的请求语句“我想听刘某的歌”,作为上述成功请求语句。如此,可以从历史请求日志中确定成功请求语句。
在一个具体的实施例中,上述预定的时间间隔可以由工作人员根据用户的交互习惯而预先设定。在一个例子中,考虑到用户在判定出没有接收到正确返回的情况(例如,当用户听到当前播放歌曲并非其目标播放歌曲时)下,会再次请求,由此,可以基于其中用户的判定耗时以及再次请求的耗时来设定预定的时间间隔。在一个例子中,预定的时间间隔被设定为5s或10s。
基于以上预定的时间间隔,在一个具体的实施例中,判断成功请求语句之前是否存在预定的时间间隔以内的请求语句,若存在,则将存在的请求语句A作为失败请求语句,归入上述至少一个失败请求语句中。进一步地,再判断在请求语句A之前是否存在预定的时间间隔以内的请求语句,若存在,则将存在的请求语句B作为失败请求语句,归入上述至少一个请求语句中。若不存在,则停止判断,并将已确定出的失败请求语句作为上述至少一个失败请求语句。
根据一个具体的例子,假定上述预定的时间间隔为10s。并且,获取的历史日志记录中包括以下内容,其中“我想听刘某的歌”为成功请求语句:
“...
(18h:10min:00s)用户:我想听某仔的歌;
(18h:10min:03s)天猫精灵:听不懂的感觉不太好,但我会努力学习的;
(18h:10min:08s)用户:我想听刘某的歌;
(18h:10min:10s)天猫精灵:请跟我一起收听某仔的歌曲电台吧;
(18h:15min:10s)播放刘某的某首歌,完成度98%;
...”
由此,可以确定出“我想听某仔的歌”与成功请求语句之间的时间间隔为8s(<10s),且在预定的时间间隔以内,并将“我想听某仔的歌”归入至少一个请求语句。
在另一个具体的实施例中,考虑到用户通常只会进行有限次的请求,如果频繁请求,很可能是在试用功能或者并没有明确的交互目的,因此,还可以由工作人员预先设定出预定时长,如1min或5min。如此,在历史日志记录中回溯成功请求语句之前预定时长以内的请求语句,作为上述至少一个失败请求语句。如此,可以得到至少一个失败请求语句。
以上,可以从历史日志记录中确定出成功请求语句和对应的至少一个失败请求语句。据此,可以将至少一个失败请求语句和成功请求语句组成上述连续请求序列。
需要说明的是,以上仅以确定一个连续请求序列进行示意性说明。需要理解的是,获取的历史日志记录可以是针对多个用户的,且对于多个用户中的任一用户,可以确定出与其对应的多个连续请求序列。此外,上述第一失败请求语句可以为至少一个失败请求语句中的任意一个失败请求语句。
在另一个实施例中,上述获取连续请求序列还可以通过以下步骤实现:首先,获取历史日志记录,然后,从历史日志记录中获取交互时长在预定时长范围内(如,3min至5min)的多个交互语句,接着,从多个交互语句中提取出用户发出的请求语句,组成上述连续请求序列,并将其中的最后一个请求语句设定为成功请求语句,以及,将其他请求语句设定为至少一个失败请求语句。
由上,可以获取连续请求序列。接着,在步骤S120,在所述第一失败请求语句与所述成功请求语句的语句相似度大于第一预定阈值的情况下,分别提取所述第一失败请求语句和所述成功请求语句中的实体,得到至少一个候选实体对。
在一个实施例中,在步骤S120之前,还可以包括:确定第一失败请求语句与所述成功请求语句的语句相似度。在一个具体的实施例中,首先,确定所述第一失败请求语句所对应的第一句向量,以及,确定所述成功请求语句所对应的第二句向量;然后,确定所述第一句向量和第二句向量的相似度,作为所述语句相似度。
需要说明的是,其中确定请求语句所对应的句向量,可以采用已有的方法,例如,先对请求语句进行预处理,然后对预处理后的请求语句进行分词处理,得到对应的分词集合,然后将分词集合中的各个分词表征为对应的词向量(如可以采用word2vec算法实现),再根据分词集合中各个分词对应的词向量确定出请求语句的句向量(如,可以对多个词向量进行求和计算)。
此外,上述确定第一句向量和第二句向量的相似度,也可以采用已有的方法实现。例如,计算第一句向量和第二句向量之间的余弦相似度。又例如,利用编辑距离算法确定第一句向量和第二句向量的相似度。
以上,可以确定出第一失败请求语句与成功请求语句的语句相似度。进一步地,在本步骤中,在所述语句相似度大于第一预定阈值的情况下,分别提取所述第一失败请求语句和所述成功请求语句中的实体,得到至少一个候选实体对。在一个实施例中,上述第一预定阈值可以由工作人员根据经验预先设定。例如,可以设定为0.6或0.8,等等。下面,对从请求语句中提取实体,得到至少一个候选实体对的实现方法进行介绍。
首先,对实体的提取方法进行介绍。在一个实施例中,可以基于条件随机场模型,分别提取所述第一失败请求语句和所述成功请求语句中的实体,其中所述条件随机场模型基于所述连续请求序列所对应领域的语料而预先训练。需要说明的是,其中条件随机场模型是指基于条件随机场算法(Conditional Random Field algorithm,简称CRF)的模型。在一个具体的实施例中,其中训练使用的语料可以通过多种方式获取,例如,当连续请求序列对应的领域是音乐时,可以获取音乐APP中的系统日志,或者从音乐web中爬取网站内容,作为训练语聊。在另一个实施例中,可以采用现有技术中的命名实体识别(Named EntityRecognition,简称NER)方法,实现请求语句中实体的提取。在一个实施例中,在上述提取实体的过程中,还可以实现确定提取出的实体的类别。
以上,可以提取出请求语句中的实体。接着,可以基于提取出的实体,得到至少一个候选实体对。具体如下:
在一个实施例中,上述分别提取所述第一失败请求语句和所述成功请求语句中的实体,具体包括:提取所述第一失败请求语句中的实体,得到至少一个备选实体,以及,提取所述成功请求语句中的实体,得到至少一个规范实体。基于此,可以对所述至少一个备选实体中的任一备选实体与所述至少一个规范实体中的任一规范实体分别进行组合,得到所述至少一个候选实体对。在一个具体的实施例中,假定至少一个备选实体中包括备选实体A和备选实体B,至少一个规范实体中包括规范实体A和规范实体B,由此,可以确定出4个候选实体对,分别为(备选实体A,规范实体A)、(备选实体A、规范实体B)、(备选实体B、规范实体A)、(备选实体B、规范实体B)。
根据一个具体的例子,假定至少一个备选实体中包括“某仔”,至少一个规范实体中包括“刘某”,由此可以确定出候选实体对(某仔,刘某)。
在另一个实施例中,上述分别提取所述第一失败请求语句和所述成功请求语句中的实体,具体包括:提取所述第一失败请求语句中的实体,得到至少一个备选实体以及其中各个备选实体的实体类别,所述至少一个备选实体中包括第一备选实体;提取所述成功请求语句中的实体,得到至少一个规范实体以及其中各个规范实体的实体类别,所述至少一个规范实体中包括第一规范实体。需要说明的是,其中第一备选实体可以为至少一个备选实体中任意的一个备选实体,同理,第一规范实体可以为至少一个规范实体中任意的一个规范实体。
基于此,在第一备选实体的实体类别和第一规范实体的实体类别相同的情况下,将所述第一备选实体和所述第一规范实体组成第一候选实体对,归入所述至少一个候选实体对中。也就是说,将至少一个规范实体和至少一个备选实体中,实体类别相同的实体组成候选实体对。
在一个具体的实施例中,假定至少一个备选实体中包括实体类别为a的备选实体A,以及实体类别为b的备选实体B,至少一个规范实体中包括实体类别为a的规范实体A,以及实体类别为b的规范实体B。由此,可以确定出两个候选实体对,包括(备选实体A,规范实体A)和(备选实体B,规范实体B)。在另一个具体的实施例中,假定至少一个备选实体中包括实体类别为a的备选实体A,以及实体类别为c的备选实体C,至少一个规范实体中包括实体类别为c的规范实体C。由此,可以确定出一个候选实体对,包括(备选实体C,规范实体C)。
根据一个具体的例子,假定至少一个备选实体中包括某仔(类型为歌手名)和某首歌(类型为歌曲名),至少一个规范实体中包括刘某(类型为歌手名)和某首歌(类型为歌曲名),则可以得到两个候选实体对(某仔,刘某)和(某首歌,某首歌)。
由上,可以得到至少一个候选实体对。然后,在步骤S130,基于所述至少一个候选实体对,确定同义实体对。
需要说明的是,在一个实施例中,可以直接将上述至少一个候选实体对确定为同义实体对。另一方面,可以对至少一个候选实体对进行进一步筛选,得到上述同义实体对。此外,以下主要以至少一对候选实体对中包括的任意的第一候选实体对为例进行说明,其中第一候选实体对包括从上述第一失败请求语句中提取的第一备选实体,和从成功请求语句中提取的第一规范实体。上述筛选的过程具体如下:
在一个实施例中,可以先从候选实体对中筛选出相似实体对,再基于相似实体对确定同义实体对。具体地,先确定上述第一备选实体和第一规范实体的实体相似度;接着,在所述实体相似度大于第二预定阈值的情况下,将所述第一候选实体对归为相似实体对;然后,基于所述相似实体对,确定所述同义实体对。
在一个具体的实施例中,上述确定第一备选实体和第一规范实体的实体相似度,可以包括:获取与所述连续请求序列所对应领域的领域词典;在所述第一规范实体存在于所述领域词典中的情况下,确定所述实体相似度。在一个例子中,其中领域词典可以理解为对应领域的词汇库,具体可以由该领域的专业人员预先采集相关数据而建立,或者,还可以从该领域相关的网站中爬取词汇数据,汇集为所述领域词典。例如,在于音乐领域对应的音乐词典中,可以包括大量的音乐术语,以及多位音乐人的名称、音乐作品的名称,等等。基于此,可以将第一规范实体与领域词典进行匹配,并在第一规范实体存在于领域词典中的情况下,再确定所述实体相似度,否则,可以对第一候选实体对进行抛弃处理。如此,可以保证确定出后续确定出的同义实体对具有实用价值。
在一个具体的实施例中,上述实体相似度的确定可以通过以下方法步骤实现:首先,确定所述第一备选实体所对应的第一词向量,以及,确定所述第一规范实体所对应第二词向量;然后,确定所述第一词向量与所述第二词向量的相似度,作为所述实体相似度。可以理解的是,其中词向量的确定和词向量之间相似度的确定,均可以采用现有技术实现,例如,可以采用word2vec算法或GloVe算法实现词向量的表征,以及,利用余弦相似度算法确定实体相似度,等等。
以上可以确定上述实体相似度,进一步地,在所述实体相似度大于第二预定阈值的情况下,将所述第一候选实体对归为相似实体对。在一个例子中,其中第二预定阈值可以根据实际需要而设定,例如,可以设定为0.6。此外,考虑到第一候选实体和第一规范实体可能存在完全相同的情况,因此,此处在确定相似实体对时,可以设定预设阈值范围,以刨除完全相同的两个实体组成的实体对。例如,其中预设阈值范围可以为大于0.6且小于1。相应地,在上述实体相似度在预设阈值范围内的情况下,将所述第一候选实体对归为相似实体对。
以上,可以确定出相似实体对。进一步地,基于相似实体对,确定出同义实体对。在一个具体的实施例中,可以直接将相似实体对直接确定为同义实体对。由此,通过从候选实体对中确定出相似实体对,可以实现对候选实体对的进一步筛选。
在另一个实施例中,可以对候选实体对进行线上测试,然后基于线上测试的结果,从候选实体对中筛选出符合预定条件的实体对,作为同义实体对。具体地,先获取对所述第一候选实体对进行线上测试的结果,所述线上测试的结果至少包括:在多次接收到包括所述第一备选实体的用户请求语句的情况下,执行所述预定操作的第一比例;进一步地,在所述线上测试的结果符合预定条件的情况下,将所述第一候选实体对归为所述同义实体对。
在一个具体的实施例中,上述线上测试可以包括,在接收到的用户请求语句中包括第一备选实体的情况下,基于对应的第一规范实体,对用户进行反馈。在一个例子中,针对用户与智能音箱进行交互的场景,当语音识别出的用户请求语句为“我想听只*”时,为用户播放歌曲《纸*》。后续基于由此产生的历史日志记录,确定播放完成度,以确定是否成功执行预定操作(如播放完成度达到90%),进而统计上述第一比例。
在一个具体的实施例中,上述在所述线上测试的结果符合预定条件的情况下,将所述第一候选实体对归为所述同义实体对,包括:在所述第一比例大于第三预定阈值的情况下,将所述第一候选实体对归为所述同义实体对。在一个例子中,其中第三预定阈值可以根据实际需要设定,例如,设定为0.6或0.7,等等。根据一个具体的例子,假定第三预定阈值为0.6,第一比例为0.62,则可以将第一候选实体对归为所述同义实体对。
在另一个具体的实施例中,上述线上测试的结果中还包括:在多次接收到包括所述第一规范实体的用户请求语句的情况下,执行所述预定操作的第二比例。相应地,上述在所述线上测试的结果符合预定条件的情况下,将所述第一候选实体对归为所述同义实体对,包括:在所述第二比例与所述第一比例的差值小于第四预定阈值的情况下,将所述第一候选实体对归为所述同义实体对。在一个例子中,其中第四预定阈值可以根据实际需要设定,例如,设定为0.1或0.2,等等。根据一个具体的例子,假定第四预定阈值为0.1,第一比例为0.75,第二比例为0.8,则可以将第一候选实体对归为所述同义实体对。
需要说明的是,对于上述两种筛选方法,即,从至少一个候选实体对中筛选出相似实体对,以及,对候选实体对进行线上测试,然后基于线上测试的结果,从至少一个候选实体对中筛选出符合预定条件的实体对,可以单独使用,也可以结合使用。
在一个具体的实施例中,可以先从至少一个候选实体对中筛选出相似实体对,然后对相似实体对进行线上测试,接着基于线上测试的结果,从相似实体对中筛选出符合预定条件的实体对,作为同义实体对。
此外,还可以采用其他方法从至少一个候选实体对中筛选出同义实体对。在一个具体的实施例中,针对第一候选实体对,在其中包括的第一规范实体存在于在上述领域词典中的情况下,将第一候选实体对归入同义实体对,否则,对第一候选实体对进行抛弃处理。
以上,可以基于至少一个候选实体对,确定出同义实体对。具体地,以上主要以获取某一个连续请求序列为例,对同义实体对的确定方法进行了介绍。需要理解的是,在实际的计算过程中,通常会涉及到批量连续请求序列的处理,以批量得到多个同义实体对。具体地,根据一个例子,首先,可以获取同一领域(如,科学领域或艺术领域)中针对多个用户的历史日志记录,然后从中确定出多个连续请求序列。接着,从多个连续请求序列中确定出多个候选实体对,再接着,从多个候选实体对中确定出多个同义实体对。
另外,根据一个更具体地例子,如图2所示,具体包括以下步骤:
步骤S21,获取离线日志。
需要说明的是,此处可以参见上述对历史日志记录的相关描述。
步骤S22,根据离线日志,确定规范实体的别名。
具体地,可以确定出候选实体对,其中包括规范实体和对应的备选实体(也就是此处的别名)。具体可以参见上述步骤S110和步骤S120中,对于确定至少一个候选实体对的相关描述。
步骤S23,离线别名验证。
具体地,对上述确定出的规范实体的别名进行离线验证。具体可以参见前述步骤S130中,通过确定第一候选实体对中的规范实体是否属于领域词典,或者,通过确定第一候选实体对中两个实体的实体相似度是否大于第二预定阈值,以对至少一个候选实体对进行筛选的方法。
步骤S24,分桶上线;以及步骤S25,离线测评。
具体地,可以参见前述步骤S130中,关于线上测试,以及基于线上测试的结果对至少一个候选实体对或者相似实体对进行筛选的相关描述。
步骤S26,建立正式别名体系。
具体地,对于通过离线测评的别名,将其归入正式别名体系,包括建立别名与规范实体的映射关系。
通过图2示出的方法,可以实现正式别名体系的建立。
由上,采用上述步骤S110至步骤S130中描述的方法,可以实现同义实体对的确定。通过确定同义实体对,可以实现对不规范实体和规范实体之间映射关系的建立。在一种情况下,多个不规范实体可以对应于同一个规范实体。基于建立的映射关系,可以更好的根据用户的请求语句确定出用户的真实意图。例如,基于确定出的同义实体对(某仔,刘某),当用户输入的请求语句为“我想听某仔的歌”时,可以根据(某仔,刘某)确定出某仔的规范表达是刘某,进而查找刘某的歌曲资源,播放给用户。如此,通过精准地识别用户意图,进而精准地满足用户需求,可以提升用户体验以及提高用户满意度。
采用上述实施例披露的方法,可以确定同义实体对,进而建立不规范实体(或称为备选实体)和规范实体之间的映射关系。进一步地,下面结合具体的实施例,对所述映射关系的应用方法进行介绍。在一个实施例中,基于同义实体对建立的映射关系,可以应用于处理用户请求。具体地,图3为本说明书实施例披露的处理用户请求的方法流程图。如图3所示,所述方法包括以下步骤:
首先,步骤S310,获取用户输入的原始请求语句。
在一个实施例中,用户输入的是文本形式的请求。相应地,本步骤可以包括:将用户输入的文本作为所述原始请求语句。在另一个实施例中,用户输入的语音形式的请求。相应地,本步骤可以包括:先将用户输入的语音转换为文本,再将转换后的文本作为所述原始请求语句。
在一个例子中,可以获取用户通过输入框输入的原始请求语句,即,“我想听某仔的歌”。在另一个例子中,接收用户输入的语音请求,再将其对应转换为文本,即,“我想听范某的我**”。
接着,步骤S320,提取所述原始请求语句中的至少一个实体。
在一个例子中,从“我想听某仔的歌”中提取的实体包括“某仔”。在另一个例子中,从“我想听范某的我**”中提取的实体包括“范某”和“我**”。需要说明的是,对实体的提取还可以参见前述实施例中的相关描述。
然后,步骤S330,基于预先确定的多个备选实体,确定所述至少一个实体中是否包括与所述多个备选实体匹配的至少一个备选实体。进一步地,一方面,在确定出不包括的情况下,直接根据原始请求语句,向用户返回请求结果。在一个例子中,在确定出“范某”和“我**”都不是备选实体的情况下,直接根据原始请求语句,为用户播放对应的歌曲。
另一方面,在确定出包括的情况下,执行步骤S340,具体地,在步骤S340,在确定出所述至少一个实体中包括所述至少一个备选实体的情况下,基于预先确定的备选实体与规范实体之间的映射关系,确定与所述至少一个备选实体对应的至少一个规范实体。
在一个例子中,确定出的至少一个备选实体包括“某仔”,相应地,确定出的至少一个规范实体包括“刘某”。
再接着,步骤S350,利用所述至少一个规范实体,对所述原始请求语句中的至少一个备选实体进行替换,得到对应的规范请求语句。
在一个例子中,确定出原始请求语句“我想听某仔的歌”中包括至少一个备选实体“某仔”,以及确定出对应的至少一个规范实体“刘某”,相应地,将“某仔”替换为“刘某”,可以得到规范请求语句“我想听刘某的歌”。
再然后,步骤S360,基于所述规范请求语句,向所述用户返回请求结果。
在一个例子中,基于规范请求语句“我想听刘某的歌”,可以为用户播放刘某的歌曲。
由上,对基于映射关系处理用户请求的方法进行了介绍。
根据另一方面的实施例,还提供一种同义实体对的确定装置。图4为本说明书实施例披露的同义实体对的确定装置结构图。如图4所示,该装置400包括:
获取单元410,配置为获取连续请求序列,其中包括至少一个失败请求语句,以及与执行预定操作对应的成功请求语句,所述至少一个失败请求语句中包括第一失败请求语句。提取单元420,配置为在所述第一失败请求语句与所述成功请求语句的语句相似度大于第一预定阈值的情况下,分别提取所述第一失败请求语句和所述成功请求语句中的实体,得到至少一个候选实体对。确定单元430,配置为基于所述至少一个候选实体对,确定同义实体对。
在一个实施例中,所述获取单元410具体配置为:获取历史日志记录;从所述历史日志记录中确定触发所述预定操作成功执行的请求语句,作为所述成功请求语句;基于预定的时间间隔,在所述历史日志记录中回溯所述成功请求语句之前的请求语句,得到所述至少一个失败请求语句;将所述至少一个失败请求语句和所述成功请求语句组成所述连续请求序列。
在一个实施例中,所述装置还包括计算单元440,配置为:确定所述第一失败请求语句所对应的第一句向量;确定所述成功请求语句所对应的第二句向量;确定所述第一句向量和第二句向量的相似度,作为所述语句相似度。
在一个实施例中,所述提取单元420具体配置为:提取所述第一失败请求语句中的实体,得到至少一个备选实体;提取所述成功请求语句中的实体,得到至少一个规范实体;对所述至少一个备选实体中的任一备选实体与所述至少一个规范实体中的任一规范实体分别进行组合,得到所述至少一个候选实体对。
在一个实施例中,所述提取单元420具体配置为:提取所述第一失败请求语句中的实体,得到至少一个备选实体以及其中各个备选实体的实体类别,所述至少一个备选实体中包括第一备选实体;提取所述成功请求语句中的实体,得到至少一个规范实体以及其中各个规范实体的实体类别,所述至少一个规范实体中包括第一规范实体;在所述第一备选实体的实体类别和所述第一规范实体的实体类别相同的情况下,将所述第一备选实体和所述第一规范实体组成第一候选实体对,归入所述至少一个候选实体对中。
在一个实施例中,所述提取单元420具体配置为:基于条件随机场模型,分别提取所述第一失败请求语句和所述成功请求语句中的实体,其中所述条件随机场模型基于所述连续请求序列所对应领域的语料而预先训练。
一方面,在一个实施例中,所述至少一对候选实体对中包括第一候选实体对,所述第一候选实体对包括从所述第一失败请求语句中提取的第一备选实体,和从所述成功请求语句中提取的第一规范实体;所述确定单元430具体包括:第一确定子单元431,配置为确定所述第一备选实体和第一规范实体的实体相似度;第一处理子单元432,配置为在所述实体相似度大于第二预定阈值的情况下,将所述第一候选实体对归为相似实体对;第二确定子单元433,配置为基于所述相似实体对,确定所述同义实体对。
进一步地,在一个具体的实施例中,所述第一确定子单元431具体配置为:获取与所述连续请求序列所对应领域的领域词典;在所述第一规范实体存在于所述领域词典中的情况下,确定所述实体相似度。
在另一个具体的实施例中,所述第一确定子单元431具体配置为:确定所述第一备选实体所对应的第一词向量;确定所述第一规范实体所对应第二词向量;确定所述第一词向量与所述第二词向量的相似度,作为所述实体相似度。
在一个实施例中,所述至少一对候选实体对中包括第一候选实体对,所述第一候选实体对包括从所述第一失败请求语句中提取的第一备选实体,和从所述成功请求语句中提取的第一规范实体;所述确定单元具体包括:获取子单元,配置为获取对所述第一候选实体对进行线上测试的结果,所述线上测试的结果至少包括:在多次接收到包括所述第一备选实体的用户请求语句的情况下,执行所述预定操作的第一比例;第二处理子单元,配置为在所述线上测试的结果符合预定条件的情况下,将所述第一候选实体对归为所述同义实体对。
更进一步地,在一个具体的实施例中,所述第二处理子单元具体配置为:在所述第一比例大于第三预定阈值的情况下,将所述第一候选实体对归为所述同义实体对。
在另一个具体的实施例中,所述线上测试的结果中还包括:在多次接收到包括所述第一规范实体的用户请求语句的情况下,执行所述预定操作的第二比例;所述第二处理子单元具体配置为:在所述第二比例与所述第一比例的差值小于第四预定阈值的情况下,将将所述第一候选实体对归为所述同义实体对。
在一个实施例中,所述连续请求序列对应于用户请求播放歌曲,所述执行预定操作包括播放歌曲直到播放时长与歌曲总时长的占比超过预定比例。
采用上述确定装置,可以实现同义实体对的确定。通过确定同义实体对,可以实现对不规范实体和规范实体之间映射关系的建立。在一种情况下,多个不规范实体可以对应于同一个规范实体。基于建立的映射关系,可以更好的根据用户的请求语句确定出用户的真实意图。例如,基于确定出的同义实体对(某仔,刘某),当用户输入的请求语句为“我想听某仔的歌”时,可以根据(某仔,刘某)确定出某仔的规范表达是刘某,进而查找刘某的歌曲资源,播放给用户。如此,通过精准地识别用户意图,进而精准地满足用户需求,可以提升用户体验以及提高用户满意度。
根据又一方面的实施例,还提供一种处理用户请求的装置。图5为本说明书实施例披露的处理用户请求的装置结构图。如图5所示,该装置500包括:
获取单元510,配置为获取用户输入的原始请求语句;提取单元,配置为提取所述原始请求语句中的至少一个实体。第一确定单元520,配置为基于预先确定的多个备选实体,确定所述至少一个实体中是否包括与所述多个备选实体匹配的至少一个备选实体。第二确定单元530,配置为在确定出所述至少一个实体中包括所述至少一个备选实体的情况下,基于预先确定的备选实体与规范实体之间的映射关系,确定与所述至少一个备选实体对应的至少一个规范实体。替换单元540,配置为利用所述至少一个规范实体,对所述原始请求语句中的至少一个备选实体进行替换,得到对应的规范请求语句。返回单元550,配置为基于所述规范请求语句,向所述用户返回请求结果。
如上,根据再一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图1或图2或图3所描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图1或图2或图3所描述的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本说明书披露的多个实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本说明书披露的多个实施例的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本说明书披露的多个实施例的具体实施方式而已,并不用于限定本说明书披露的多个实施例的保护范围,凡在本说明书披露的多个实施例的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本说明书披露的多个实施例的保护范围之内。
Claims (19)
1.一种同义实体对的确定方法,所述方法包括:
获取连续请求序列,其中包括至少一个失败请求语句,以及与执行预定操作对应的成功请求语句,所述至少一个失败请求语句中包括第一失败请求语句;
在所述第一失败请求语句与所述成功请求语句的语句相似度大于第一预定阈值的情况下,分别提取所述第一失败请求语句和所述成功请求语句中的实体,得到至少一个候选实体对;
基于所述至少一个候选实体对,确定同义实体对。
2.根据权利要求1所述的方法,其中,所述获取连续请求序列,包括:
获取历史日志记录;
从所述历史日志记录中确定触发所述预定操作成功执行的请求语句,作为所述成功请求语句;
基于预定的时间间隔,在所述历史日志记录中回溯所述成功请求语句之前的请求语句,得到所述至少一个失败请求语句;
将所述至少一个失败请求语句和所述成功请求语句组成所述连续请求序列。
3.根据权利要求1所述的方法,其中,所述第一失败请求语句与所述成功请求语句的语句相似度基于以下步骤而确定:
确定所述第一失败请求语句所对应的第一句向量;
确定所述成功请求语句所对应的第二句向量;
确定所述第一句向量和第二句向量的相似度,作为所述语句相似度。
4.根据权利要求1所述的方法,其中,所述分别提取所述第一失败请求语句和所述成功请求语句中的实体,得到至少一个候选实体对,包括:
提取所述第一失败请求语句中的实体,得到至少一个备选实体;
提取所述成功请求语句中的实体,得到至少一个规范实体;
对所述至少一个备选实体中的任一备选实体与所述至少一个规范实体中的任一规范实体分别进行组合,得到所述至少一个候选实体对。
5.根据权利要求1所述的方法,其中,所述分别提取所述第一失败请求语句和所述成功请求语句中的实体,得到至少一个候选实体对,包括:
提取所述第一失败请求语句中的实体,得到至少一个备选实体以及其中各个备选实体的实体类别,所述至少一个备选实体中包括第一备选实体;
提取所述成功请求语句中的实体,得到至少一个规范实体以及其中各个规范实体的实体类别,所述至少一个规范实体中包括第一规范实体;
在所述第一备选实体的实体类别和所述第一规范实体的实体类别相同的情况下,将所述第一备选实体和所述第一规范实体组成第一候选实体对,归入所述至少一个候选实体对中。
6.根据权利要求1所述的方法,其中,所述分别提取所述第一失败请求语句和所述成功请求语句中的实体,包括:
基于条件随机场模型,分别提取所述第一失败请求语句和所述成功请求语句中的实体,其中所述条件随机场模型基于所述连续请求序列所对应领域的语料而预先训练。
7.根据权利要求1所述的方法,其中,所述至少一对候选实体对中包括第一候选实体对,所述第一候选实体对包括从所述第一失败请求语句中提取的第一备选实体,和从所述成功请求语句中提取的第一规范实体;
所述基于所述至少一对候选实体对,确定同义实体对,包括:
确定所述第一备选实体和第一规范实体的实体相似度;
在所述实体相似度大于第二预定阈值的情况下,将所述第一候选实体对归为相似实体对;
基于所述相似实体对,确定所述同义实体对。
8.根据权利要求7所述的方法,其中,所述确定所述第一备选实体和第一规范实体的实体相似度,包括:
获取与所述连续请求序列所对应领域的领域词典;
在所述第一规范实体存在于所述领域词典中的情况下,确定所述实体相似度。
9.根据权利要求7所述的方法,其中,所述确定所述第一备选实体和第一规范实体的实体相似度,包括:
确定所述第一备选实体所对应的第一词向量;
确定所述第一规范实体所对应第二词向量;
确定所述第一词向量与所述第二词向量的相似度,作为所述实体相似度。
10.根据权利要求1所述的方法,其中,所述至少一对候选实体对中包括第一候选实体对,所述第一候选实体对包括从所述第一失败请求语句中提取的第一备选实体,和从所述成功请求语句中提取的第一规范实体;
所述基于所述至少一个候选实体对,确定同义实体对,包括:
获取对所述第一候选实体对进行线上测试的结果,所述线上测试的结果至少包括:在多次接收到包括所述第一备选实体的用户请求语句的情况下,执行所述预定操作的第一比例;
在所述线上测试的结果符合预定条件的情况下,将所述第一候选实体对归为所述同义实体对。
11.根据权利要求7所述的方法,其中,所述基于所述相似实体对,确定所述同义实体对,包括:
获取对所述第一候选实体对进行线上测试的结果,所述线上测试的结果至少包括:在多次接收到包括所述第一备选实体的用户请求语句的情况下,执行所述预定操作的第一比例;
在所述线上测试的结果符合预定条件的情况下,将所述第一候选实体对归为所述同义实体对。
12.根据权利要求10或11所述的方法,其中,所述在所述线上测试的结果符合预定条件的情况下,将所述第一候选实体对归为所述同义实体对,包括:
在所述第一比例大于第三预定阈值的情况下,将所述第一候选实体对归为所述同义实体对。
13.根据权利要求10或11所述的方法,其中,所述线上测试的结果中还包括:在多次接收到包括所述第一规范实体的用户请求语句的情况下,执行所述预定操作的第二比例;
所述在所述线上测试的结果符合预定条件的情况下,将所述第一候选实体对归为所述同义实体对,包括:
在所述第二比例与所述第一比例的差值小于第四预定阈值的情况下,将将所述第一候选实体对归为所述同义实体对。
14.根据权利要求1所述的方法,其中,所述连续请求序列对应于用户请求播放歌曲,所述执行预定操作包括播放歌曲直到播放时长与歌曲总时长的占比超过预定比例。
15.一种处理用户请求的方法,所述方法包括:
获取用户输入的原始请求语句;
提取所述原始请求语句中的至少一个实体;
基于预先确定的多个备选实体,确定所述至少一个实体中是否包括与所述多个备选实体匹配的至少一个备选实体;
在确定出所述至少一个实体中包括所述至少一个备选实体的情况下,基于预先确定的备选实体与规范实体之间的映射关系,确定与所述至少一个备选实体对应的至少一个规范实体;所述映射关系基于采用权利要求1所述的方法确定出的同义实体对而建立;
利用所述至少一个规范实体,对所述原始请求语句中的至少一个备选实体进行替换,得到对应的规范请求语句;
基于所述规范请求语句,向所述用户返回请求结果。
16.一种同义实体对的确定装置,所述装置包括:
获取单元,配置为获取连续请求序列,其中包括至少一个失败请求语句,以及与执行预定操作对应的成功请求语句,所述至少一个失败请求语句中包括第一失败请求语句;
提取单元,配置为在所述第一失败请求语句与所述成功请求语句的语句相似度大于第一预定阈值的情况下,分别提取所述第一失败请求语句和所述成功请求语句中的实体,得到至少一个候选实体对;
确定单元,配置为基于所述至少一个候选实体对,确定同义实体对。
17.一种处理用户请求的装置,所述装置包括:
获取单元,配置为获取用户输入的原始请求语句;
提取单元,配置为提取所述原始请求语句中的至少一个实体;
第一确定单元,配置为基于预先确定的多个备选实体,确定所述至少一个实体中是否包括与所述多个备选实体匹配的至少一个备选实体;
第二确定单元,配置为在确定出所述至少一个实体中包括所述至少一个备选实体的情况下,基于预先确定的备选实体与规范实体之间的映射关系,确定与所述至少一个备选实体对应的至少一个规范实体;所述映射关系基于采用权利要求16所述的装置确定出的同义实体对而建立;
替换单元,配置为利用所述至少一个规范实体,对所述原始请求语句中的至少一个备选实体进行替换,得到对应的规范请求语句;
返回单元,配置为基于所述规范请求语句,向所述用户返回请求结果。
18.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-15中任一项的所述的方法。
19.一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-15中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910299911.1A CN111881253B (zh) | 2019-04-15 | 2019-04-15 | 同义实体对的确定方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910299911.1A CN111881253B (zh) | 2019-04-15 | 2019-04-15 | 同义实体对的确定方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111881253A CN111881253A (zh) | 2020-11-03 |
CN111881253B true CN111881253B (zh) | 2024-04-16 |
Family
ID=73153796
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910299911.1A Active CN111881253B (zh) | 2019-04-15 | 2019-04-15 | 同义实体对的确定方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111881253B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105206261A (zh) * | 2014-06-18 | 2015-12-30 | 谷歌公司 | 实体名称识别 |
CN108399182A (zh) * | 2017-10-27 | 2018-08-14 | 平安科技(深圳)有限公司 | 医疗数据清洗方法、电子装置及存储介质 |
CN109040481A (zh) * | 2018-08-09 | 2018-12-18 | 武汉优品楚鼎科技有限公司 | 证券领域的自动纠错智能电话问询方法、系统及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2517503B (en) * | 2013-08-23 | 2016-12-28 | Toshiba Res Europe Ltd | A speech processing system and method |
-
2019
- 2019-04-15 CN CN201910299911.1A patent/CN111881253B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105206261A (zh) * | 2014-06-18 | 2015-12-30 | 谷歌公司 | 实体名称识别 |
CN108399182A (zh) * | 2017-10-27 | 2018-08-14 | 平安科技(深圳)有限公司 | 医疗数据清洗方法、电子装置及存储介质 |
CN109040481A (zh) * | 2018-08-09 | 2018-12-18 | 武汉优品楚鼎科技有限公司 | 证券领域的自动纠错智能电话问询方法、系统及装置 |
Non-Patent Citations (1)
Title |
---|
深度学习在语音识别声学建模中的应用;杨洋;汪毓铎;;电脑知识与技术(第18期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111881253A (zh) | 2020-11-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110765244B (zh) | 获取应答话术的方法、装置、计算机设备及存储介质 | |
CN108509619B (zh) | 一种语音交互方法及设备 | |
US9582757B1 (en) | Scalable curation system | |
CN105931644B (zh) | 一种语音识别方法及移动终端 | |
JP6819990B2 (ja) | 対話システム及びそのためのコンピュータプログラム | |
KR102288249B1 (ko) | 정보 처리 방법, 단말기, 및 컴퓨터 저장 매체 | |
CN112365894B (zh) | 基于ai的复合语音交互方法、装置及计算机设备 | |
CN110597952A (zh) | 信息处理方法、服务器及计算机存储介质 | |
CN109325124B (zh) | 一种情感分类方法、装置、服务器和存储介质 | |
CN109545185B (zh) | 交互系统评价方法、评价系统、服务器及计算机可读介质 | |
CN109284502B (zh) | 一种文本相似度计算方法、装置、电子设备及存储介质 | |
CN106407393B (zh) | 一种用于智能设备的信息处理方法及装置 | |
CN108538294B (zh) | 一种语音交互方法及装置 | |
CN109979450B (zh) | 信息处理方法、装置及电子设备 | |
CN111178081B (zh) | 语义识别的方法、服务器、电子设备及计算机存储介质 | |
CN108710653B (zh) | 一种绘本朗读点播方法、装置及系统 | |
CN112041809A (zh) | 将音效自动添加到音频文件中 | |
KR101677859B1 (ko) | 지식 베이스를 이용하는 시스템 응답 생성 방법 및 이를 수행하는 장치 | |
CN109190116B (zh) | 语义解析方法、系统、电子设备及存储介质 | |
CN110750626B (zh) | 一种基于场景的任务驱动的多轮对话方法及系统 | |
CN113111658B (zh) | 校验信息的方法、装置、设备和存储介质 | |
CN114550718A (zh) | 热词语音识别方法、装置、设备与计算机可读存储介质 | |
CN114065720A (zh) | 会议纪要生成方法、装置、存储介质及电子设备 | |
CN111490929B (zh) | 视频片段推送方法、装置、电子设备、存储介质 | |
CN112288584A (zh) | 保险报案处理方法、装置、计算机可读介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |