CN110797012B

CN110797012B - 一种信息提取方法、设备及存储介质

Info

Publication number: CN110797012B
Application number: CN201910817607.1A
Authority: CN
Inventors: 王明
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-08-30
Filing date: 2019-08-30
Publication date: 2023-06-23
Anticipated expiration: 2039-08-30
Also published as: CN110797012A

Abstract

本发明提供了一种信息提取方法、设备及存储介质，包括：接收目标对象的语音任务语句，并对语音任务语句进行分词，得到语音任务语句的分词信息；根据分词信息，从语音任务语句中确定出实体；根据分词信息和实体，对语音任务语句进行功能分析，得到功能任务；根据预设任务与槽位的对应关系，以及功能任务，确定出功能任务对应的至少一个任务槽位；根据预设信息抽取配置文件和至少一个任务槽位，确定出与至少一个任务槽位对应的至少一个信息抽取模型；利用至少一个信息抽取模型、实体和分词信息，从实体提取关键信息，得到至少一个任务槽位对应的至少一个关键信息。通过本发明，能够提供对槽位对应的关键信息提取的准确度。

Description

一种信息提取方法、设备及存储介质

技术领域

本发明涉及自然语言处理技术，尤其涉及一种信息提取方法、设备及存储介质。

背景技术

随着语音识别技术的发展，已经存在越来越多的智能化设备能够对用户的语音指令进行识别，并根据用户的语音指令完成相应的功能。智能化设备在对用户的语音指令进行识别时，需要先从用户的语音指令中提取出用户的意图，然后对意图中的槽位进行关键信息的抽取，进而对用户的需求进行响应。

然而，常用的对槽位进行关键信息的抽取方式是针对一个意图，采用单独的信息抽取模型来对不同槽位的关键信息进行抽取，导致对槽位的关键信息抽取的准确度较低，进而影响对用户需求响应的准确度。

发明内容

本发明实施例提供一种信息提取方法、设备及存储介质，提高对槽位对应的关键信息抽取的准确度，提升用户需求响应的准确度。

本发明实施例的技术方案是这样实现的：

第一方面，本发明实施例提供一种信息提取方法，包括：

接收目标对象的语音任务语句，并对所述语音任务语句进行分词，得到所述语音任务语句的分词信息；所述目标对象为发出语音任务语句的用户；

根据所述分词信息，从所述语音任务语句中确定出实体；

根据所述分词信息和所述实体，对所述语音任务语句进行功能分析，得到功能任务；所述功能任务表征语音任务语句中对应的功能；

根据预设任务与槽位的对应关系，以及所述功能任务，确定出所述功能任务对应的至少一个任务槽位；所述任务槽位表征执行所述功能任务时对应的信息的类别；

根据预设信息抽取配置文件和所述至少一个任务槽位，确定出与所述至少一个任务槽位对应的至少一个信息抽取模型；所述预设信息抽取配置文件中为所述任务槽位和所述信息抽取模型设置了对应关系；

利用所述至少一个信息抽取模型、所述实体和所述分词信息，从所述实体提取关键信息，得到所述至少一个任务槽位对应的至少一个关键信息；所述关键信息指执行功能任务时对应的信息。

第二方面，本发明实施例提供一种信息提取装置，包括：

接收模块，用于接收目标对象的语音任务语句；所述目标对象为发出语音任务语句的用户；

实体确定模块，用于对所述语音任务语句进行分词，得到所述语音任务语句的分词信息；根据所述分词信息，从所述语音任务语句中确定出实体；

处理模块，用于根据所述分词信息和所述实体，对所述语音任务语句进行功能分析，得到功能任务；所述功能任务表征语音任务语句中对应的功能；根据预设任务与槽位的对应关系，以及所述功能任务，确定出所述功能任务对应的至少一个任务槽位；所述任务槽位表征执行所述功能任务时对应的信息的类别；根据预设信息抽取配置文件和所述至少一个任务槽位，确定出与所述至少一个任务槽位对应的至少一个信息抽取模型；所述预设信息抽取配置文件中为所述任务槽位和所述信息抽取模型设置了对应关系；

提取模块，用于利用所述至少一个信息抽取模型、所述实体和所述分词信息，从所述实体提取关键信息，得到所述至少一个任务槽位对应的至少一个关键信息；所述关键信息指执行功能任务时对应的信息。

第三方面，本发明实施例提供一种信息提取设备，包括：

存储器，用于存储可执行信息提取指令；

处理器，用于执行所述存储器中存储的可执行信息提取指令时，实现本发明实施例提供的信息提取方法。

第四方面，本发明实施例提供一种存储介质，存储有可执行信息提取指令，用于引起处理器执行时，实现本发明实施例提供的信息提取方法。

本发明实施例具有以下有益效果：

本发明实施例中，接收目标对象的语音任务语句，并对语音任务语句进行分词，得到语音任务语句的分词信息；目标对象为发出语音任务语句的用户；根据分词信息，从语音任务语句中确定出实体；根据分词信息和实体，对语音任务语句进行功能分析，得到功能任务；功能任务表征语音任务语句中对应的功能；根据预设任务与槽位的对应关系，以及功能任务，确定出功能任务对应的至少一个任务槽位；任务槽位表征执行功能任务时对应的信息的类别；根据预设信息抽取配置文件和至少一个任务槽位，确定出与至少一个任务槽位对应的至少一个信息抽取模型；预设信息抽取配置文件中为任务槽位和信息抽取模型设置了对应关系；利用至少一个信息抽取模型、实体和分词信息，从实体提取关键信息，得到至少一个任务槽位对应的至少一个关键信息；关键信息指执行功能任务时对应的信息。通过上述实现方式，能够接收目标对象的语音任务语句，并对语音任务语句进行分词，得到分词信息，根据根刺信息从语音任务语句中确定出实体，并根据分词信息和实体，分析出语音任务语句的功能任务，之后，终端能够为所确定出的功能任务确定出至少一个任务槽位，并根据预设信息抽取配置文件，为每个任务槽位确定出其所适用的信息抽取模型，得到至少一个信息抽取模型，最后利用每个任务槽位所适用的信息抽取模型、实体以及分词信息，得到每个任务槽位对应的关键信息，如此，通过利用任务槽位所适用的信息抽取模型进行关键信息的提取，能够提高任务槽位所对应的关键信息抽取的准确度，从而提高对用户需求响应的准确度。

附图说明

图1是本发明实施例提供的对话场景中的信息提取方法的可选的应用模式的示意图；

图2是本发明实施例提供的信息提取方法中的终端的结构示意图；

图3是本发明实施例提供的一种信息提取方法的一个可选的流程示意图一；

图4是本发明实施例提供的利用序列标注模型进行槽位标签预测的示意图；

图5是本发明实施例提供的一种信息提取方法的一个可选的流程示意图二；

图6是本发明实施例提供的一种创建功能任务的示意图；

图7（a）是本发明实施例提供的查询火车票功能的预设信息抽取配置文件的示意图一；

图7（b）是本发明实施例提供的查询火车票功能的预设信息抽取配置文件的示意图二；

图8（a）是本发明实施例提供的在查询火车票时的对话场景示意图；

图8（b）是本发明实施例提供的在查询火车票时的关键信息提取示意图；

图8（c）是本发明实施例提供的在查询火车票时的查询结果示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解, “一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1）语音任务语句，为用户发出的一个较短的请求语句，一般含有用户期望智能设备执行的功能需求。

2）意图，表征用户的需求、目的，即用户需要智能设备去执行的功能需求，通常包含于用户的语音任务语句之中。例如，当用户的任务指令为“我要听刘XX的歌”时，该语音任务语句中所包含的意图是听歌。

3）槽位，与具体意图中需要在任务执行时使用的关键信息相对应，例如，对于“我要听刘XX的歌曲X”的任务指令，可以具有“歌手”、“歌名”这样的槽位，分别与该任务指令中的“刘XX”、“歌曲X”相对应。

4）实体，表征任务指令中具有特定意义的信息，例如人名、机构名、地名、机构名以及专有名词等。例如，当用户的任务指令为“我要听刘XX的歌”时，其中所包含的实体为人名“刘XX”。

5）语言模型（Language Model，LM），用于对一段文本的出现概率进行估计的模型，广泛应用于信息检索、机器翻译、语音识别等任务中。

6）N元特征，也称为N-Gram特征，自然语言处理中的一种常用文本特征，其核心思想是对文本以滑窗的形式依次提取长度为N的文本子片段，使得所提取到的文本子片段在局部范围内兼顾了词序关系。例如，“查看北京天气”的2元特征依次为“查看”、“看北”、“北京”、“京天”以及“天气”。

7）条件随机场（Conditional Random Field，CRF）算法，用于构造在给定一组输入随机变量的条件下，另一组随机变量的条件概率分布模型。在自然语言处理中，可以利用经过序列标注的训练语料和CRF算法，构造序列标注模型，并利用所得到的序列标注模型，完成对文本的分词、实体特征抽取等操作。

8）逻辑回归（Logistics Regression，LR）算法，用于将数据拟合到logistic函数中，进而对事件发生的概率进行预测。LR算法在自然语言处理中可以用来进行文本分类。

信息提取设备在根据用户发出的任务指令进行某项任务时，需要先根据任务指令提取出意图，然后对意图中的槽位所对应的关键信息进行抽取，然后根据所抽取到的关键信息执行任务，响应用户的需求。

在相关技术中，可以利用LM、序列标注模型、映射模型和分类模型来进行槽位的关键信息的提取。在利用LM来对任务指令进行分词，得到任务指令的分词序列，然后根据分词序列中每个分词的出现概率，计算出任务指令出现的概率。在利用LM进行槽位对应的关键信息的提取时，需要从候选集合中选择出概率最大的分词序列，然后将该分词序列的标签作为槽位的标签，完成槽位所对应的关键信息的提取。然而，由于在利用LM抽取槽位的关键信息时，直接将分词序列的标签作为槽位标签，不能根据针对意图的所设计好的槽位进行槽位的关键信息的抽取。

在利用序列标注模型来对任务指令进行槽位对应的关键信息的抽取时，则是利用序列标注模型对任务指令进行槽位标签的预测，得到任务指令中的槽位的标签，进而根据槽位标签得到槽位对应的关键信息。然而，在利用序列标注模型进行槽位的关键信息的抽取时，在训练语料之中，可能会存在同一实体特征与两个不同的槽位相对应的情况，例如，对于任务指令1“查询从成都到北京的火车票”，对于任务指令2“查询重庆到成都的动车票”，成都这一实体特征，分别与“出发地”与“目的地”两个不同的槽位相对应，此时，用训练语料所构造出的序列标注模型，无法对准确地对槽位的关键信息进行抽取。

在利用映射模型进行槽位的关键信息的提取时，需要根据专家知识为每个意图设计规则模型，然后利用规则模型从任务指令中进行匹配，得到槽位的关键信息。然而，规则模板适用于表达具有规律的槽位，例如时间槽位，对于表达不具有规律的槽位，提取关键信息的效果较差。

在通过分类模型进行槽位的关键信息的提取时，是利用训练语料和LR算法构建分类模型，再对任务指令进行分词，并利用构建好的分类模型对任务指令的分词进行分类，进而得到分词所对应的槽位标签，再根据槽位标签，得到槽位的关键信息。然而，利用分类模型较为适合解决同一实体特征对应多个槽位的情况，但是在面对一个槽位对应多个实体特征的情况时，通过分类模型提取槽位的关键信息的准确度较差。

由上述可知，在相关技术中，是针对一个意图利用单独的抽取模型进行槽位的关键信息的提取，即没有考虑槽位的特性，针对意图中的所有槽位，都运用相同的抽取模型进行槽位的关键信息的提取，导致对槽位的关键信息提取的准确度较低，影响对用户需求响应的准确度。

本发明实施例提供一种信息提取方法、装置、设备和存储介质，能够提高槽位的关键信息提取的准确度，从而提高对用户需求响应的准确度。下面说明本发明实施例提供的信息提取设备的示例性应用，本发明实施例提供的信息提取设备可以实施为智能手机、平板电脑、智能音箱、笔记本电脑等各种类型的用户终端，也可以实施为服务器。下面，将说明信息提取设备实施为终端时示例性应用。

参见图1，图1是本发明实施例提供的对话场景100中的信息提取方法的一个可选的应用模式的示意图，适用于一些依赖终端设备200即可响应场景对话100的应用模式，例如通过智能手机等终端设备200来对对话场景100进行响应。

当终端设备200被唤醒，进入对话场景100之后，终端设备200通过音频接收硬件接收用户发出的语音任务语句300，然后，通过处理器中内置的分词软件模块对语音任务语句300进行分词，得到语音任务语句300的多个分词片段，以及分词片段的词性信息。之后，终端设备200利用所得到的分词片段，以及分词片段的词性信息中得到语音任务语句中的存在实体，之后，再根据分词片段、分词片段的词性信息和实体分析出语音任务语句300的意图，即语音任务语句300所要进行的功能任务400。由于槽位在是在功能任务400创建时就已经设置好的，因而，终端设备200中能够根据设置好的功能任务与槽位对应的关系，以及语音任务语句300的功能任务400，确定出功能任务400所具有的至少一个任务槽位，如图1所示，示出了任务槽位400-1和任务槽位400-2。在确定出至少一个任务槽位之后，终端设备200可以根据从预设信息抽取配置文件中，为至少一个任务槽位中的每个槽位，确定其所对应的信息抽取模型，即为至少一个任务槽位确定出至少一个信息抽取模型。接着，终端设备200利用所确定出至少一个信息抽取模型，以及语音任务语句300的实体、分词片段和分词片段的词性信息，从实体中为至少一个任务槽位中的每个槽位，确定出其所对应的关键信息，即得到至少一个任务槽位对应的至少一个关键信息。图1中示出了任务槽位400-1对应的关键信息400-3，以及任务槽位400-2对应的关键信息400-4。至此，终端设备200中的处理器得到了响应功能任务400的所需要的关键信息，处理器根据这些关键信息生成功能任务400对应的指令，实现功能任务400，即将功能任务400对应的指令的执行结果反馈给用户。

参见图2，图2是本发明实施例提供的终端400的结构示意图，图2所示的终端400包括：至少一个处理器410、存储器450、至少一个网络接口420和用户接口430。终端400中的各个组件通过总线系统440耦合在一起。可理解，总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统440。

处理器410可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器（DSP，Digital Signal Processor），或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口430包括使得能够呈现媒体内容的一个或多个输出装置431，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口430还包括一个或多个输入装置432，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器450包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器（ROM，Read Only Memory），易失性存储器可以是随机存取存储器（RAM，Random Access Memory）。本发明实施例描述的存储器450旨在包括任意适合类型的存储器。存储器450可选地包括在物理位置上远离处理器 410的一个或多个存储设备。

在一些实施例中，存储器450能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统451，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块452，用于经由一个或多个（有线或无线）网络接口420到达其他计算设备，示例性的网络接口420包括：蓝牙、无线相容性认证（WiFi）、和通用串行总线（USB，Universal Serial Bus）等；

显示模块453，用于经由一个或多个与用户接口430相关联的输出装置431（例如，显示屏、扬声器等）使得能够呈现信息（例如，用于操作外围设备和显示内容和信息的用户接口）；

输入处理模块454，用于对一个或多个来自一个或多个输入装置432之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本发明实施例提供的装置可以采用软件方式实现，图2示出了存储在存储器450中的信息提取装置455，其可以是程序和插件等形式的软件，包括以下软件模块：接收模块4551、实体确定模块4552、处理模块4553和提取模块4554，将在下文中说明各个模块的功能。

在另一些实施例中，本发明实施例提供的装置可以采用硬件方式实现，作为示例，本发明实施例提供的装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的信息提取方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路（ASIC，Application Specific Integrated Circuit）、DSP、可编程逻辑器件（PLD，Programmable Logic Device）、复杂可编程逻辑器件（CPLD，ComplexProgrammable Logic Device）、现场可编程门阵列（FPGA，Field-Programmable GateArray）或其他电子元件。

示例性的，本发明实施例提供了一种信息提取设备，包括：

存储器，用于存储可执行信息提取指令；

下面将结合本发明实施例提供的终端的示例性应用和实施，说明本发明实施例提供的信息提取方法。

参见图3，图3是本发明实施例提供的一种信息提取方法的一个可选的流程示意图，如图3所示，本发明实施例提供的一种信息提取方法可以包括：

S101、接收目标对象的语音任务语句，并对语音任务语句进行分词，得到语音任务的分词信息；目标对象为发出语音任务语句的用户。

本发明实施例是在终端对用户的语音任务指令进行响应的场景下实现的。终端通过音频接收硬件接收目标对象发出的语音任务语句，然后利用预先设置的分词器，对语音任务语句进行分词，将语音任务语句切割得到分词信息。其中，目标对象是指发出语音任务语句的用户。

可以理解的是，在通过分词器对语音任务语句进行分词时，可以按照逐字分词的方法，将语音任务语句分类成为多个分词片段，也可以多字分词的方法，将语音任务语句分成多个分词片段，当然，也可以按照其他分词方式，得打语音任务语句的分词片段，本发明实施例在此不作限定。

本发明实施例中，在利用分词器对语音任务语句进行分词时，不仅可以得到至少一个分词片段，还可以得到分词片段对应的词性信息，也就是说，分词信息中包含有至少一个分词片段，以及至少一个分词片段对应的词性信息。

需要说明的是，分词片段指的是对语音任务语句进行切割所得到的文字片段，分词片段对应的词性信息是分词片段的词性，表明该分词片段的是属于动词、名词、形容词还是其他词性。

示例性的，对于语音任务语句“查看北京天气”，可以得到“查看”、“看北”、“北京”、“京天”和“天气”5个分词片段，以及用这5个分词片段分别所对应的词性信息“动词”、“其他”、“名词”、“其他”和“名词”，分词信息是由这5个分词片段，以及这5个分词片段对应的词性信息组成的。

本发明实施例中，任意一个发出语音任务语句的用户都可以作为目标对象，本发明实施例中的目标对象并不特指某个用户。

可以理解的是，本发明实施例中的音频接收硬件可以是麦克风等硬件设备，也可以是其他能够达到相同目的硬件设备，本发明实施例在此不作限制。

S102、根据分词信息，从语音任务语句中确定出实体。

在得到分词信息之后，终端可以根据分词信息中的分词片段，和分词片段对应的词性信息，根据分词片段的词性信息，来确定分词片段是不是实体，进而从语音任务语句中确定出实体。

在本发明实施例中，由于对语音任务语句分词之后，极有可能得到多个分词片段，而这些分词片段都有各自对应的词性信息，因此，分词信息中包含有至少一个分词片段和至少一个分词片段的词性信息。此时，可以根据分词信息中的至少一个分词片段中的每个分词片段，以及至少一个分词片段的词性信息中每个分词片段的词性信息，确定出至少一个分词片段对应的实体。

在本发明的一些实施例中，终端在确定实体时，还可以确定出实体所属的类型，即实体类型，以便于后续进行功能分析。

需要说明的是，在利用分词信息中每个分词片段、每个分词片段的词性信息，从分词信息中确定出实体时，可以是将分词片段的词性信息为名词的分词片段选择出来，直接作为实体，也可以是先将分词片段的词性信息为名词的分词片段选择出来，然后将这些分词片段与实体库进行比较得到实体。当然，还可以利用其他方式从分词片段中确定出实体，本发明实施例在此不做具体限定。

示例性的，对于S101中所得到的分词片段“查看”、“看北”、“北京”、“京天”和“天气”，以及这些分词片段所对应的词性信息“动词”、“其他”、“名词”、“其他”和“名词”，此时，可以将词性信息为名词的分词片段与实体库进行比较得到实体，即将“北京”、“天气”与实体库进行比较，最终将“北京”作为实体。

S103、根据分词信息和实体，对语音任务语句进行功能分析，得到功能任务；功能任务表征语音任务语句中对应的功能。

在得到分词信息和实体之后，终端会根据分词信息和实体，对语音任务语句进行功能分析，确定出语音任务语句中需要实现的功能，并将需要实现的功能，作为功能任务。

需要说明的是，由于分词信息中具有分词片段的词性，而在对语音任务语句进行功能分析时，除了实体之外，还需要一些其他词，例如表征动作的词，来确定出语音任务语句需要进行的具体功能，因而，在进行功能分析时，需要同时根据实体和分词信息进行分析，以保证功能分析的准确度。

可以理解的是，在进行功能分析时，还可以利用步骤S101中所得到的分词信息，组织得到N-Gram特征，并同时利用分词信息、实体和N-Gram特征进行功能分析，得到功能任务。

除此之外，为了进一步确保功能分析的准确度，还可以在功能分析过程加入根据语音任务指令，即使用语音任务指令、实体和分词信息共同进行功能分析，得到功能任务。

S104、根据预设任务与槽位的对应关系，以及功能任务，确定出功能任务对应的至少一个任务槽位；任务槽位表征执行功能任务时对应的信息的类别。

终端在确定出语音任务指令的功能任务之后，需要根据预设任务与槽位的对应关系，以及功能任务，确定出执行该功能任务时所需要的信息的类别，即确定出任务槽位，以便于后续根据任务槽位确定抽取模型。由于对于一个功能任务而言，所需要的信息类别不止一个，因而，针对一个功能任务，终端可以确定出至少一个任务槽位。

需要说明的是，预设任务与槽位的对应关系是提前设置好的，即功能任务在创建时，就已经根据该功能任务的特点，为其设计好了所需要的任务槽位。并且，预设任务与槽位之间的对应关系，是需要根据实际的功能任务来设置的，本发明实施例在此不作具体限定。

示例性的，对于听歌曲这一功能任务，在执行在功能任务时需要确定歌手信息和歌名信息，此时，可以为该功能任务设置“歌手”、“曲名”任务槽位，并将这两个任务槽位与听歌曲这一功能任务对应，得到预设任务与槽位的对应关系。对于闹钟这一功能任务，在执行时需要确定闹钟时间，此时，可以为该功能任务设置“时间”任务槽位，并将该任务槽位与闹钟这一功能任务对应，得到预设任务与槽位的对应关系。

S105、根据预设信息抽取配置文件和至少一个任务槽位，确定出与至少一个任务槽位对应的至少一个信息抽取模型；预设信息抽取配置文件中为任务槽位和信息抽取模型设置了对应关系。

终端在确定出至少一个任务槽位之后，由于提前设置的预设信息抽取配置文件中为任务槽位和信息抽取模型设置了对应关系，因此，终端可以根据预设信息抽取配置文件和每个任务槽位，为每个任务槽位确定出其所对应的信息抽取模型，得到至少一个信息抽取模型。

需要说明的是，预设信息抽取配置文件中所设置的任务槽位与信息抽取模型的对应关系，是在接收目标对象的语音任务语句之前，终端根据每个任务槽位的特性所设置的。由于对于不同的任务槽位，其所适用的信息抽取模型并不相同，因而，终端可以通过预设信息抽取配置文件，为不同的任务槽位指定不同的信息抽取模型，以使得后续功能任务中的每个任务槽位，都能利用其所适用的信息抽取模型，进行关键信息的提取。

在本发明实施例中，至少一个信息抽取模型中可以包含序列标注模型、分类模型和映射模型中的任意一个，如此，预设信息抽取配置文件中可以根据每个任务槽位的特性，将某个任务槽位与序列标注模型、分类模型以及映射模型中的一个相对应。

示例性的，对于语音任务语句“帮我查看9月1日从北京到上海的机票”，终端所确定出的任务槽位有“出发地”、“目的地”、“时间”，所提取出的实体有“9月1日”，“北京”和“上海”，对于“时间”槽位，时间的表述具有一定的规则，适用于利用规则进行信息提取的模型，例如映射模型，而对于“出发地”槽位，其在表述上并不存在规律，并且，同一个地名实体可能是出发地也可以是目的地，因此，对于“出发地”槽位利用规则进行提取的模型就不再适用，需要从预设信息抽取配置文件为该槽位确定出适用于该槽位的信息抽取模型。

可以理解的是，除了序列标注模型、分类模型和映射模型，至少一个信息抽取模型中还可以包含其他能够进行关键信息提取的模型，例如用支持向量机（Support VectorMachine，SVM）构造的信息提取模型，用深度学习（DeepLearning，DL）构造的信息提取模型等，本发明实施例在此不作具体限定。

S106、利用至少一个信息抽取模型、实体和分词信息，从实体提取关键信息，得到至少一个任务槽位对应的至少一个关键信息；关键信息指执行功能任务时对应的信息。

终端在得到至少一个任务槽位对应的至少一个信息抽取模型之后，就可以利用至少一个信息抽取模型、实体和分词信息，对实体分析，针对每个任务槽位都能从实体中提取出关键信息，得到至少一个任务槽位对应的至少一个关键信息。

需要说明的是，关键信息是指执行功能任务时所需要的信息，即执行功能任务时所需要的信息类别中的具体信息。示例性的，对于语音任务指令“我要听刘XX的歌曲X”，终端经过功能分析之后获知该语音任务指令的功能任务是听歌曲，执行该功能任务所需要的信息的类别，即任务槽位为“歌手”、“曲名”，终端根据至少一个任务槽位对应的至少一个信息抽取模型、实体和分词信息，可以实体中抽取到的与槽位“歌手”对应的关键信息为“刘XX”，与槽位“曲名”对应的关键信息为“歌曲X”。

可以理解的是，由于对于一些任务槽位，在提取其所关键信息时，不仅需要实体，还需要实体的上下文信息，以及上下文信息的词性信息，而分词信息中不仅具有兼顾词序信息的分词片段，还具有分词片段的词性信息，因而，在从实体中抽取关键信息时，还需要将分词信息输入进至少一个信息提取模型中。

本发明实施例中，终端能够接收目标对象的语音任务语句，并对语音任务语句进行分词，得到分词信息，根据分词信息从语音任务语句中确定出实体，并根据分词信息和实体，分析出语音任务语句的功能任务，之后，终端能够为所确定出的功能任务确定出至少一个任务槽位，并根据预设信息抽取配置文件，为每个任务槽位确定出其所适用的信息抽取模型，得到至少一个信息抽取模型，最后利用每个任务槽位所适用的信息抽取模型、实体以及分词信息，得到每个任务槽位对应的关键信息，如此，通过利用任务槽位所适用的信息抽取模型进行关键信息的提取，能够提高任务槽位所对应的关键信息抽取的准确度，从而提高对用户需求响应的准确度。

在本发明一些实施例中，根据分词信息和实体，对语音任务语句进行功能分析，得到功能任务，即S103的具体实现过程，可以包括：

S1031、利用预设功能识别规则模板对分词信息和实体进行匹配，得到功能任务。

终端在根据分词信息和实体，对语音任务语句进行功能分析，得到功能任务时，可以通过存储的预设功能识别规则模板，对分词信息和实体进行匹配，得到功能任务。

需要说明的是，预设功能识别规则模板是利用语言学知识所建立的模板。在该模板中，可以通过对动词、名词等进行组合，得到一些带有功能指向常用句式。在利用预设功能识别规则模板进行功能分析时，可以将语音任务语句与常用句式进行比较，即可得到语音任务语句的功能任务。

S1032、采用预设功能分类模型对分词信息和实体进行分析，得到功能任务。

终端还可以将分词信息和实体输入进预设分类模型之中，利用预设训练模型对分词信息和实体进行分析，将预设训练模型输出的结果作为功能任务。

可以理解的是，预设功能分类模型是在接收目标对象的语音任务语句之前，利用训练语料所训练好的模型，其中，训练语料是用各种类型的功能任务作为标签的。在训练之中，预设功能分类模型可以为标签和训练语料之间建立映射，即对多种功能任务和训练语料建立映射。

需要说明的是，本发明实施例中，预设功能分类模型可以是基于LR算法实现的，也可以是基于SVM算法实现的，当然，本发明实施例中的，还可以基于其他算法得到预设功能分类模型，本发明实施例在此不作限定。

需要说明的是，本发明实施例中，S1031和S1032是S103中两个可选的实现过程，具体实现过程可以根据实际情况进行选择，本发明实施例在此不作限定。

本发明实施例中，终端能够利用预设功能识别规则模板，对语音任务语句进行功能分析，得到功能任务，还能够利用预设功能分类模型，对语音任务语句进行功能分析，得到功能任务，使得后续终端能够根据功能任务确定出任务槽位。

在本发明的一些实施例中，至少一个信息抽取模型为序列标注模型；利用至少一个信息抽取模型、实体和分词信息，从实体提取出关键信息，得到至少一个任务槽位对应的至少一个关键信息，即S106的具体实现过程，可以包括：S1061-S1062，如下：

S1061、利用序列标注模型、分词信息和实体，为实体进行槽位标签预测，得到实体的槽位标签。

当预设信息抽取配置文件中，为至少一个任务槽位中的一些任务槽位所指定的信息提取模型为序列标注模型时，终端可以将分词信息和实体输入进序列标注模型中，通过序列标注模型，为每个实体都进行槽位标签的预测，得到实体的槽位标签。

在本发明实施例中，序列标注模型利用打过标签的训练语料训练而来的模型，在训练语料中，会对语料中每个字段的词性信息、所述的实体类型都进行标注，并将槽位名称作为标签。如此，在将实体和分词信息之后输入进序列标注模型之后，就能够得到实体的槽位标签。

可以理解的是，标签可以采用开始-中间-其他（Begin-Inside-Outside，BIO）标签体系，也可以利用其他标签体系，本发明实施例在此不作具体限定。

示例性的，参见图4，本发明实施例提供利用序列标注模型进行槽位标签预测的示意。当语音任务语句为“嗯来一首现在最好听的歌”，此时，分词信息可以用该语音任务语句的单字片段和单字片段的词性信息表示，实体用实体类型标注出来，如图4所示，“嗯”与其词性信息e@0，实体类型O，“来”与其词性信息v@0，实体类型O，“一”与其词性信息m@0，实体类型O，“首”与其词性信息q@0，实体类型O，“现”与其词性信息t@0，实体类型O，“在”与其词性信息t@1，实体类型O，“最”与其词性信息d@0，实体类型B-990869861515268096，“好”与其词性信息a@0，实体类型I-990869861515268096，“听”与其词性信息a@1，实体类型I-990869861515268096，“的”与其词性信息u@0，实体类型O，“歌”与其词性信息n@0，实体类型O。其中，@0表示该字是词的开始字，@1表示该字是词的中间字，实体特征为O表示改字为非实体，实体类型为B-990869861515268096表示该字是实体990869861515268096的开始字，实体类型为I-990869861515268096表示该字是实体990869861515268096的中间字。序列标注模型在得知以上信息之后，可以为每一个字都预测出槽位标签，例如，“嗯”的槽位标签O，“来”的槽位标签O，“一”的槽位标签O，“首”的槽位标签O，“现”的槽位标签O，“在”的槽位标签O，“最”槽位标签B-toplist，“好”的槽位标签I-toplist，“听”的槽位标签I-toplist，“的”槽位标签O，“歌”的槽位标签O。其中，槽位标签O表征其他槽位，槽位标签B-toplist表征该字属于toplist槽位，且为该槽位的开始字，槽位标签I-toplist表征该字属于toplist槽位，且为该槽位的中间字。如此，终端就能够得到实体“最好听”的槽位标签。

需要说明的是，序列标注模型可以是基于训练语料和CRF算法所构造出的模型，也可以是基于训练语料和其他能够达到相同目的的算法所构造出的模型，本发明实施例在此不作具体限定。

S1062、将槽位标签与至少一个任务槽位相同的实体，作为至少一个任务槽位对应的关键信息。

终端在为实体预测出槽位标签之后，当该槽位标签与至少一个任务槽位中的某个任务槽位相同时，终端就会将实体，作为该任务槽位对应的关键信息，如此，终端可以得到至少一个任务槽位对应的关键信息。

示例性的，对于S1061中的实体“最好听”，终端通过序列标注模型为其预测出的槽位标签为toplist，当至少一个任务槽位中，存在一个toplist槽位时，终端会将“最好听”作为toplist的关键信息。

本发明实施例中，终端能够用序列标注模型为实体预测出槽位标签，进而根据槽位标签，为至少一个任务槽位确定出对应的关键信息，如此，终端能够为适用于序列标注模型的槽位，确定出关键信息。

在本发明的一些实施例中，至少一个信息抽取模型为分类模型，利用至少一个信息抽取模型、实体和分词信息，从实体提取出关键信息，得到至少一个任务槽位对应的至少一个关键信息，即S106的具体实现过程，可以包括：S1063-S1064，如下：

S1063、利用分类模型、分词信息和实体，为实体进行槽位标签预测，得到实体的槽位标签。

当预设信息抽取配置文件中，为至少一个任务槽位中的一些任务槽位所指定的信息提取模型为分类模型时，终端会将分词信息和实体输入进分类模型之中进行运算，并将分类模型所输出的结果，作为实体的槽位标签。

需要说明的是，分类模型适用于同一类型的实体对应多个任务槽位的情况，例如，对于语音任务语句“帮我查看9月1日从北京到上海的机票”，“北京”和“上海”属于同一类型的实体，但是这两个实体分别对应的不同的任务槽位，即“北京”对应“出发地”槽位，“上海”对应“目的地”槽位，在这种情况下，使用其他的信息提取模型可能无法准确地将这两个实体分别与“出发地”、“目的地”槽位进行对应，这种情况可以看作是为实体进行分类，类别分别为“出发地”槽位和“目的地”槽位，而分类模型擅长于分类问题，能够为每个实体确定出其所对应的任务槽位。

S1064、将槽位标签与至少一个任务槽位相同的实体，作为至少一个任务槽位对应的关键信息。

需要说明的是，S1064的实现过程与S1062的实现过程相类似，本发明实施例在此不作赘述。

本发明实施例中，终端能够利用分类模型为实体预测出槽位标签，从而根据槽位标签，为至少一个任务槽位确定出关键信息，使得终端能够为适用于分类模型的任务槽位确定出关键信息。

在本发明的一些实施例中，至少一个信息抽取模型为映射模型；利用至少一个信息抽取模型、实体和分词信息，从实体提取出关键信息，得到至少一个任务槽位对应的至少一个关键信息，即S106的具体实现过程，可以包括：S1065，如下：

S1065、利用映射模型，从实体和分词信息中匹配出至少一个任务槽位对应的关键信息。

当预设信息抽取配置文件中，为至少一个任务槽位中的一些任务槽位所指定的信息提取模型为映射模型时，终端可以直接利用映射模型对实体以及分词信息进行匹配，将符合映射模型的规则的实体或分词片段作为至少一个任务槽位对应的关键信息。

需要说明的是，映射模型适用于任务槽位的表述具有规律的情况，映射槽位可以根据表述的规律进行设置。示例性的，对于语音任务语句“帮我查看9月1日从北京到上海的机票”，“时间”槽位的表述一般可以为“X月X日”，而实体“9月1日”符合这种表述，因而，可以将“X月X日”这种表述设置为映射模型，利用映射模型对实体进行匹配，得到至少一个任务槽位的关键信息。

本发明实施例中，终端可以利用映射模型，从实体中匹配出至少一个任务槽位对应的关键信息，使得终端能够根据为适用于映射模型的任务槽位，确定出对应的关键信息。

在本发明的一些实施例中，基于图3，参见图5，在接收目标对象的语音任务语句，并对语音任务语句进行分词，得到语音任务语句的分词信息之前，即S101之前，该方法还可以包括：S107-S109，如下：

S107、接收功能任务创建指令，根据功能任务创建指令创建功能任务，并为功能任务建立至少一个任务槽位。

终端在接收目标对象的语音任务语句之前，需要先接收功能任务创建指令，根据功能任务创建指令建立功能任务，并且分析功能任务，为功能任务建立至少一个任务槽位，如此，才能在后续为语音任务语句分析出功能任务时，进行至少一个任务槽位对应的至少一个关键信息的提取。

可以理解的是，在为功能任务创建至少一个任务槽位时，还可以为每个任务槽位分配标识和对应的实体类型，实体类型表明任务槽位对应的实体的类型。另外，为了避免从语音任务语句中无法得到所有任务槽位对应的关键信息的情况，终端还可以为每个任务槽位设置槽位问法，使得语音任务语句中的关键信息不足时，终端可以以语音的形式继续向用户发起对话，直至获得功能任务中所有任务槽位对应的关键信息。

需要说明的是，可以在功能任务创建指令之中，包括了所要建立的功能任务的名称、以及所要建立的功能任务对应的至少一个任务槽位，也可以是终端根据功能任务，自动为功能任务建立至少一个任务槽位。具体为功能任务建立至少一个任务槽位的方式可以根据实际需求来进行设定，本发明实施例在此不作具体限定。

示例性的，本发明实施例提供了一种创建功能任务的示意，如图6所示，当需要建立一个查询火车票的功能任务时，终端需要知晓查询时间、出发地、目的地、火车类型、车次和坐席类别，因而，可以在任务创建指令中，可以为查询火车票的功能任务指定名称分别为“坐席”、“目的地”、“出发地”、“时间”、“火车类型”以及“车次”的槽位，并且可以分别为这些槽位分配标识以及对应的实体库，其中，“坐席”槽位对应的标识为seat_type，对应的实体类型为usr.train.seat，“目的地”槽位对应的标识为to，对应的实体类型为usr.station.name，“出发地”槽位对应的标识为from，对应的实体类型为usr,station,name，“时间”槽位对应的标识为date，对应的实体类型为sys.datetime，“火车类型”槽位对应的标识为train_type，对应的实体类型为usr.train.type，“车次”槽位对应的标识为train_num，对应的实体类型为usr.train.number。至此，终端就已经建立好了任务槽位。同时，终端还为上述任务槽位设置了槽位问法，如图6所示，“坐席”槽位的槽位问法为“需要什么类型的座位？”，“目的地”槽位的问法为“请问你的目的地是？”，“出发地”的槽位问法为“请问你的出发地是？”，“时间”槽位的问法为“你准备何时出发？”，“火车类型”的槽位问法为“高铁还是动车？”，如此，能够使得终端从语音任务语句中，无法得到查询火车票的功能任务的所有任务槽位的关键信息时，能够利用上述槽位问法与用户进行交互，直至得到所有的任务槽位对应的关键信息。

S108、分析至少一个任务槽位的特性，为至少一个任务槽位分配对应的至少一个信息抽取模型。

终端在创建功能任务，并为功能任务建立出至少一个任务槽位之后，终端会对每个任务槽位的特性进行分析，然后根据每个任务槽位分配其所使用的信息抽取模型，得到至少一个任务槽位对应的至少一个信息抽取模型。

需要说明的是，终端在对至少一个任务槽位的特性进行分析，得到至少一个任务槽位对应的至少一个信息抽取模型时，可以是根据常见任务槽位的类型，自动为功能任务中的至少一个任务槽位中每个任务槽位的特性进行分析，并为每个槽位指定对应的信息抽取模型，进而得到至少一个任务槽位对应的至少一个信息抽取模型，还可以是根据人为设定的至少一个任务槽位特性，为至少一个任务槽位指定对应的至少一个信息抽取模型。

示例性的，针对查询火车票的功能任务，“时间”槽位和“车次”槽位的表述方式都具有规律，例如，时间可以用“X月X日”，或是“X时X分”来表述，车次可以用英文字母与数据的特定组合来表示，例如“G666”，因而，“时间”槽位和“车次”槽位适合利用具有规则的模型进行关键信息提取，例如映射模型。而对于“出发地”槽位和“目的地”槽位，会面临同一类型的实体对应多个任务槽位的情况，更适合使用分类模型进行关键信息提取。而对于“坐席”槽位和“车次”槽位，即没有具有规律的表达，且同一类型的实体只对应于单独的任务槽位，因而，可以利用序列标注模型进行关键信息的提取。

S109、根据至少一个任务槽位与至少一个信息抽取模型，生成预设信息抽取配置文件。

终端在为至少一个任务槽位分配对应的至少一个信息抽取模型之后，可以将至少一个任务槽位与至少一个信息抽取模型的对应关系写入进文件中，生成预设信息抽取配置文件。

可以理解的是，终端在生成预设信息抽取配置文件之后，可以在显示界面上对预设信息抽取配置文件进行显示，以使得用户可以直观的查看预设信息抽取配置文件。进一步的，在显示预设信息抽取配置文件之后，还运行用户手动对预设信息抽取配置文件进行修改，使得能够为每个任务槽位，指定更加适合的信息抽取模型，提高任务槽位对应的关键信息提取的准确度。

示例性的，本发明实施例提供了查询火车票功能的预设信息抽取配置文件的示意，如图7（a）和图7（b）所示。在图7（a）中，火车票查询功能任务中的“时间”槽位的标识为date，“车次”槽位的标识为train_num，这两个任务槽位适用映射模型，若用mapping_slots表示映射模型，则信息抽取模型与任务槽位的对应关系可以写为“mapping_slots”：[“date”，“train_num”]。“目的地”槽位的标识为to，“出发地”槽位的标识为from，由于两个槽位适用于分类模型，若用“clf_slots”表分类模型，则信息抽取模型与任务槽位的对应关系可以写为“clf_slots”：[“to”,“from”]。“火车类型”槽位的标识为train_type，“坐席”槽位的标识为“seat_type”，由于这两个槽位适用于序列标注模型，如果用“crf_slots”表示序列标注模型，则信息抽取模型与任务槽位对应关系可以写为“crf_slots”：[“train_type”，“seat_type”]。由此，终端就可以得到火车票查询功能的预设信息抽取配置文件。在图7（b）中，在配置文件的浮窗界面中，对查询火车票的各个任务槽位，以及信息抽取模型的对应关系进行显示，如第3306行至第3309行对“mapping_slots”：[“date”，“train_num”]进行了显示，第3310行至第3313行对“clf_slots”：[“to”,“from”]进行了显示，第3314行至第3317行对“crf_slots”：[“train_type”，“seat_type”]进行了显示。终端通过如图7（a）和图7（b）所示两种形式，就能够对预设信息抽取配置文件进行显示。

本发明实施例中，终端能够根据功能任务创建指令创建功能任务，并为功能任务建立至少一个任务槽位，然后对至少一个任务槽位的特性进行分析，为至少一个任务槽位分配适合其的信息抽取模型，得到至少一个信息抽取模型，并根据至少一个任务槽位与至少一个信息抽取模型的对应关系生成预设信息抽取配置文件，使得终端后续可以根据预设信息抽取模型，为功能任务中的至少一个任务槽位确定出适合的信息抽取模型。

在本发明的一些实施例中，分析至少一个任务槽位的特性，为至少一个任务槽位分配对应的至少一个信息抽取模型，即S108的具体实现过程，可以包括：

S1081、在至少一个任务槽位中，将映射模型作为存在特性为具有规律的表达方式的第一任务槽位对应的信息抽取模型。

在功能任务的至少一个任务槽位中，当特性为具有规律的表达方式的任务槽位时，例如时间槽位，将这些任务槽位作为第一任务槽位，同时将映射模型指定为第一任务槽位所对应的信息抽取模型。

S1082、将分类模型作为存在特性为同一类型的实体对应多个任务槽位的第二任务槽位对应的信息抽取模型。

在功能任务的至少一个任务槽位中，将具有同一类型的实体对应多个任务槽位的特性的任务槽位作为第二任务槽位，并指定分类模型作为第二任务槽位的信息抽取模型。

S1083、将序列标注模型作为存在特性为表达方式不规律，且同一类型的实体对应单独的任务槽位的第三任务槽位对应的信息抽取模型。

当在功能任务的至少一个任务槽位中，存在具有表达方式不规律，且同一类型的实体只和单独的任务槽位对应的特性的任务槽位时，将这些任务槽位作为第三任务槽位，并将序列标注模型指定为第三任务槽位对应的信息抽取模型。

S1084、直至确定出至少一个任务槽位中的每个任务槽位对应的信息抽取模型，从而得到至少一个信息抽取模型。

需要说明的是，S1081-S1083是S1084之前可以选择的三个实现方式，具体可以根据任务槽位的特性，从S1081-S1083中选择出需要执行的步骤。

本发明实施例中，终端可以根据至少一个任务槽位的特性，将至少一个任务槽位分为不同的类别，并针对不同类别的任务槽位，从映射模型、序列标注模型和分类模型中分配每个任务槽位所适用的信息抽取模型，使得终端能够在后续根据至少一个任务槽位所适用的信息抽取模型，提取到至少一个任务槽位对应的至少一个关键信息。

在本发明的一些实施例中，在接收目标对象的语音任务语句，并对语音任务语句进行分词，得到语音任务语句的分词信息之前，即S101之前，该方法还可以包括：S110-S111，如下：

S110、获取训练语料、初始序列标注模型、初始分类模型以及初始映射模型。

终端接收目标对应的语音任务语句之前，需要用获取训练语料，未经训练的初始序列标注模型、初始分类模型和初始映射模型，以便于后续利用训练预览对这些模型进行训练。

需要说明的是，训练语料是指用任务槽位当作标签进行标注过的语料。在训练语料中，不仅包含有语料的每个字段，还有每个字段对应的词性信息。

S111、利用训练语料分别对初始序列标注模型、初始分类模型和初始映射模型进行训练，得到序列标注模型、分类模型和映射模型；至少一个信息抽取模型中可以包括序列标注模型、分类模型和映射模型中的任意一个。

终端在得到训练语料、初始序列标注模型、初始分类模型和初始映射模型之后，会将训练语料作为输入，分别送进初始序列标注模型、初始分类模型和初始映射模型中，进过多次迭代学习之后，能够得到初始序列标注模型对应的训练参数、初始分类模型对应的训练参数以及初始映射模型对应的训练参数，之后，终端可以利用初始序列标注模型和初始序列标注模型对应的训练参数，组成序列标注模型，利用初始分类模型和初始分类模型对应的训练参数，组成分类模型，以及用初始映射模型和初始映射模型对应的训练参数，组成映射模型。

需要说明的是，为了便于训练以及提高信息提取模型提取关键信息的准确度，针对至少一个任务槽位中的某个任务槽位，终端可以只用该任务槽位作为训练语料的标签，对该任务槽位对应的信息抽取模型进行训练。

可以理解的是，由于终端是从序列标注模型、分类模型和映射模型中为至少一个任务槽位指定适合的信息提取模型，因而，至少一个信息提取模型中可以包括序列标注模型、分类模型和映射模型中的任意一个。

本发明实施例中，终端能够先用训练语料训练得到序列标注模型、分类模型以及映射模型，如此，终端后续能够从训练好的序列标注模型、分类模型和映射模型为至少一个任务槽位抽取对应的至少一个关键信息。

在本发明实施例中，在利用至少一个信息抽取模型、实体和分词信息，从实体提取关键信息，得到至少一个任务槽位对应的至少一个关键信息之后，即S101之后，该方法还可以包括：S112-S113，如下：

S112、利用至少一个任务槽位对应的至少一个关键信息，生成功能任务对应的指令。

终端在得到至少一个任务槽位对应的至少一个关键信息之后，能够对至少一个关键信息进行解析，生成功能任务对应的指令，以便于后续根据功能任务对应的指令，实现功能任务。

S113、执行功能任务对应的指令，得到指令执行结果，并将指令执行结果反馈给目标对象，实现功能任务。

终端执行功能任务对应的指令，得到指令执行结果，并将指令执行结果反馈给目标对象，使得目标对象能够知晓功能任务的实现情况，进行下一步操作。

可以理解的是，终端可以将指令执行结果以语音的形式反馈给目标对象，还可以将指令执行结果显示在终端的显示界面上，以反馈给目标对象。具体反馈指令执行结果的形式可以根据实际需求来设置，本发明实施例在此不作具体限定。

示例性的，对于火车票查询这一功能任务，终端在得到“时间”槽位、“坐席”槽位、“目的地”槽位、“出发地”槽位、“火车类型”槽位以及“车次”槽位各自对应的关键信息之后，会根据这些关键信息生成火车票查询指令并执行，得到火车票查询结果，并将火车票查询结果显示在终端的显示界面上，以反馈给目标对象。

本发明实施例中，终端能够在用至少一个信息提取模型，提取出至少一个任务槽位对应的至少一个关键信息之后，根据所得到的至少一个关键信息生成功能任务对应的指令，使得终端能够根据功能任务的指令响应功能任务。

下面，再以查询火车票的对话场景为例，对本发明实施例提供的信息提取方法进行说明。

在查询火车票之前，先要利用查询火车票功能创建指令为智能手机创建查询火车票功能。这里，可以是智能手机的研发人员进行查询火车票功能的创建。对于查询火车票的需求，一般会设计“时间”、“出发地”、“目的地”、“坐席”、“火车类型”以及“车次”6个槽位，满足用户查询时间、出发地、目的地、火车类型、车次、坐席等需求，并且各槽位都有自己的实体库。智能手机在接收到该创建指令之后，能够为查询火车票功能建立“时间”、“出发地”、“目的地”、“坐席”、“火车类型”以及“车次”等槽位。由于语音任务语句中包含的时间表述非常多，训练语料中不可能包含齐全，相反，时间的表达方式很有规律，这是适合用规则进行关键信息抽取的槽位，除此之外，还有车次等。因而对于“时间”槽位和“车次”槽位，指定映射模型作为信息提取模型。对于“出发地”槽位和“目的地”槽位，即使是在查询火车票这一意图下，同一个地名在不同的训练语料中代表的槽位却可能不同，例如，语料“帮我查从成都到北京的火车票”和语料“我想看看从重庆到成都的动车票”，对于这两种槽位，由于其为同一种实体，如果采用序列标注模型，部分语料将成都标记为“出发地”，部分语料将成都标记为“目的地”，对模型的训练带来负面影响，而这种情况却适合用分类的方式来解决，因此指定分类模型作为“出发地”槽位和“目的地”槽位的信息提取模型。对于为“火车类型”槽位和“坐席”槽位，其所对应的实体库并不是无限大，非常适合序列标注模型进行抽取，因此，指定序列标注模型作为为“火车类型”槽位和“坐席”槽位的信息提取模型。之后，可以根据这些任务槽位，以及这些任务槽位对应的信息提取模型，生成预设信息抽取配置文件。之后，终端会获取与查询火车票相关的训练语料，以及初始映射模型、初始分类模型和初始序列标注模型，用训练语料分别对初始映射模型、初始分类模型和初始序列标注模型进行训练，得到映射模型、分类模型和序列标注模型。

在实际应用中，语音任务语句经过前置的功能任务识别和实体识别之后，会得到语音任务语句中的所有实体，根据查询火车票功能任务的槽位抽取的配置，不同的槽位使用不同的模型，得到关键信息，最后对关键信息进行处理，完成整个查询火车票功能任务的槽位抽取。

下面对用户查询火车票的过程进行说明。

在查询火车票对话场景时，如图8（a）所示，用户A唤醒智能手机，向智能手机发出“帮我查找5月30日从成都到重庆的动车票”的语音任务语句，智能手机接收到该语音任务语句之后，可以用设置于智能手机中的语言处理模块将该语音任务语句转化为文字，然后对转化得到的文字进行分词，得到分词信息，还可以将语音任务语句发送给后台服务器，通过后台服务器的语言处理模块将该语音任务语句转化为文字，然后对转化得到的文字进行分词，得到分词信息。之后，智能手机可以从分词信息中确定出实体和实体对应的实体类型1，即得到实体“5月30日”、“成都”、“重庆”以及“动车票”，以及这些实体对应的实体类型sys.datetime、usr.station.name、usr.train.type。之后，功能分类模型可以对分词信息进行组织得到N-Gram特征，然后对实体、分词信息以及N-Gram特征进行处理，得到用户A的语音任务语句是要进行查询火车票功能2，此时，就能够得到语音任务语句“帮我查找5月30日从成都到重庆的动车票”所需要的功能，对应的实体“5月30日”、“成都”、“重庆”以及“动车票”。之后，如图8（b）所示，智能手机根据查询火车票3的功能任务，可以确定出查询火车票所需要的“时间”、“出发地”、“目的地”、“坐席”、“火车类型”以及“车次”等槽位，然后根据预设信息抽取配置文件，为“时间”槽位和“车次”槽位确定出了映射模型31作为信息提取模型，为“出发地”槽位和“目的地”槽位确定出了分类模型32作为信息提取模型，为“火车类型”槽位和“坐席”槽位确定出了序列标注模型33作为信息抽取模型，并用这些将实体“5月30日”、“成都”、“重庆”、“动车票”以及之前所得到的分词信息分别输入进映射模型31、分类模型32和序列标注模型33中，得到“时间”槽位的关键信息“5月30日”，“出发地”槽位对应的关键信息“成都”，“目的地”槽位对应的关键信息“重庆”，以及“火车类型”槽位对应的关键信息“动车票”，至此，智能手机就完成了关键信息提取。由于这时还未得到“车次”槽位的关键信息和“坐席”槽位的关键信息，智能手机触发向用户A进行“坐席”槽位的槽位问法，即询问用户A“需要什么类型的座位？”，等待用户A回答之后，就可以获得“坐席”槽位的关键信息。由于用户A可能是需要查看满足要求的所有车次的动车票，因而，智能手机可以不向用户A进行“车次”槽位的槽位问法，直接“时间”、“出发地”、“目的地”、“坐席”、“火车类型”槽位的各自对应的关键信息生成查询火车票指令，在执行完查询火车票指令之后，如图8（c）所示，将所查询到的结果显示在智能手机的显示界面中的车次信息浮窗中，即显示车次为D1841，06:40始发于从成都东站，08:33到重庆西站的信息，车次为D2244，06:43始发于成都东站，08:52到重庆北站的信息，车次为G2371，07:03始发于成都东站，08:27到重庆西站的信息，车次为D638，07:07始发于成都东站，09:28到重庆北站的信息等，以完成对用户A语音任务语句“帮我查找5月30日从成都到重庆的动车票”的响应。

综上所述，智能手机能够为查询火车票功能中的至少一个任务槽位，分别确定出适用的信息提取模型，得到至少一个信息提取模型，并用至少一个信息提取模型、实体和分词信息，为至少一个任务槽位确定出对应的至少一个关键信息，以使得智能手机能够准确地查询火车票功能中的至少一个任务槽位进行关键信息的提取，并根据较为准确的至少一个关键信息生成查询火车票执行指令，从而提高智能手机对用户需求响应的准确度。

下面继续说明本发明实施例提供的信息提取装置的实施为软件模块的示例性结构。

本发明实施例提供的信息提取装置455的实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器450的信息提取装置455中的软件模块可以包括：

接收模块4551，用于接收目标对象的语音任务语句；所述目标对象为发出语音任务语句的用户；

实体确定模块4552，用于对所述语音任务语句进行分词，得到所述语音任务语句的分词信息；根据所述分词信息，从所述语音任务语句中确定出实体；

处理模块4553，用于根据所述分词信息和所述实体，对所述语音任务语句进行功能分析，得到功能任务；所述功能任务表征语音任务语句中对应的功能；根据预设任务与槽位的对应关系，以及所述功能任务，确定出所述功能任务对应的至少一个任务槽位；所述任务槽位表征执行所述功能任务时对应的信息的类别；根据预设信息抽取配置文件和所述至少一个任务槽位，确定出与所述至少一个任务槽位对应的至少一个信息抽取模型；所述预设信息抽取配置文件中为所述任务槽位和所述信息抽取模型设置了对应关系；

提取模块4554，用于利用所述至少一个信息抽取模型、所述实体和所述分词信息，从所述实体提取关键信息，得到所述至少一个任务槽位对应的至少一个关键信息；所述关键信息指执行功能任务时对应的信息。

在本发明的一些实施例中，所述分词信息中包含有至少一个分词片段和至少一个分词片段的词性信息；所述实体确定模块4552，具体用于根据所述分词信息中的至少一个分词片段中的每个分词片段，以及所述至少一个分词片段的词性信息中每个分词片段的词性信息，确定出所述至少一个分词片段对应的实体。

在本发明的一些实施例中，所述处理模块4553，具体用于利用预设功能识别规则模板对所述分词信息和所述实体进行匹配，得到所述功能任务；或者，采用预设功能分类模型对所述分词信息和所述实体进行分析，得到所述功能任务。

在本发明的一些实施例中，所述至少一个信息抽取模型为序列标注模型；所述提取模块4554，具体用于利用所述序列标注模型、所述分词信息和所述实体，为所述实体进行槽位标签预测，得到所述实体的槽位标签；将所述槽位标签与所述至少一个任务槽位相同的实体，作为所述至少一个任务槽位对应的关键信息。

在本发明的一些实施例中，所述至少一个信息抽取模型为分类模型；所述提取模块4554，具体用于利用所述分类模型、所述分词信息和所述实体，为所述实体进行槽位标签预测，得到所述实体的槽位标签；将所述槽位标签与所述至少一个任务槽位相同的实体，作为所述至少一个任务槽位对应的关键信息。

在本发明的一些实施例中，所述至少一个信息抽取模型为映射模型；所述提取模块4554，具体用于利用映射模型，从所述实体和所述分词信息中匹配出所述至少一个任务槽位对应的关键信息。

在本发明的一些实施例中，所述接收模块4551，还用于接收功能任务创建指令；

所述处理模块4553，还用于分析所述至少一个任务槽位的特性，为所述至少一个任务槽位分配对应的至少一个信息抽取模型；根据所述至少一个任务槽位与所述至少一个信息抽取模型，生成所述预设信息抽取配置文件。

在本发明的一些实施例中，所述处理模块4553，具体还用于在所述至少一个任务槽位中，将映射模型作为存在特性为具有规律的表述方式的第一任务槽位对应的信息抽取模型；将分类模型作为存在特性为同一类型的实体对应多个任务槽位的第二任务槽位对应的信息抽取模型；将序列标注模型作为存在特性为表达方式不规律，且同一类型的实体对应单独的任务槽位的第三任务槽位对应的信息抽取模型；直至确定出所述至少一个任务槽位中的每个任务槽位对应的信息抽取模型，从而得到所述至少一个信息抽取模型。

在本发明的一些实施例中，所述处理模块4553，还用于获取训练语料、初始序列标注模型、初始分类模型以及初始映射模型；利用所述训练语料分别对所述初始序列标注模型、所述初始分类模型和所述初始映射模型进行训练，得到所述序列标注模型、分类模型和映射模型；所述至少一个信息抽取模型中可以包括所述序列标注模型、所述分类模型和所述映射模型中的任意一个。

在本发明的一些实施例中，所述信息提取装置455还包括：指令模块4555；所述处理模块4553还用于利用所述至少一个任务槽位对应的所述至少一个关键信息，生成功能任务对应的指令；

所述指令模块4555，用于执行所述功能任务对应的指令，得到指令执行结果，并将所述指令执行结果反馈给所述目标对象，实现所述功能任务。

本发明实施例提供一种存储有可执行指令的存储介质，其中存储有可执行信息提取指令，当可执行信息提取指令被处理器执行时，将引起处理器执行本发明实施例提供的信息提取方法，例如，如图3、图5示出的方法。

在一些实施例中，存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言（包括编译或解释语言，或者声明性或过程性语言）来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言（HTML，Hyper TextMarkup Language）文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件（例如，存储一个或多个模块、子程序或代码部分的文件）中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

以上所述，仅为本发明的实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本发明的保护范围之内。

Claims

1.一种信息提取方法，其特征在于，包括：

根据所述分词信息，从所述语音任务语句中确定出实体；

2.根据权利要求1所述的方法，其特征在于，所述分词信息中包含有至少一个分词片段和至少一个分词片段的词性信息；所述根据所述分词信息，从所述语音任务语句中确定出实体，包括：

根据所述分词信息中的至少一个分词片段中的每个分词片段，以及所述至少一个分词片段的词性信息中每个分词片段的词性信息，确定出所述至少一个分词片段对应的实体。

3.根据权利要求1或2所述的方法，其特征在于，所述根据所述分词信息和所述实体，对所述语音任务语句进行功能分析，得到功能任务，包括：

利用预设功能识别规则模板对所述分词信息和所述实体进行匹配，得到所述功能任务；或者，

采用预设功能分类模型对所述分词信息和所述实体进行分析，得到所述功能任务。

4.根据权利要求1或2所述的方法，其特征在于，所述至少一个信息抽取模型为序列标注模型；所述利用所述至少一个信息抽取模型、所述实体和所述分词信息，从所述实体提取关键信息，得到所述至少一个任务槽位对应的至少一个关键信息，包括：

利用所述序列标注模型、所述分词信息和所述实体，为所述实体进行槽位标签预测，得到所述实体的槽位标签；

将所述槽位标签与所述至少一个任务槽位相同的实体，作为所述至少一个任务槽位对应的关键信息。

5.根据权利要求1或2所述的方法，其特征在于，所述至少一个信息抽取模型为分类模型；所述利用所述至少一个信息抽取模型、所述实体和所述分词信息，从所述实体提取关键信息，得到所述至少一个任务槽位对应的至少一个关键信息，包括：

利用所述分类模型、所述分词信息和所述实体，为所述实体进行槽位标签预测，得到所述实体的槽位标签；

6.根据权利要求1或2所述的方法，其特征在于，所述至少一个信息抽取模型为映射模型；所述利用所述至少一个信息抽取模型、所述实体和所述分词信息，从所述实体提取关键信息，得到所述至少一个任务槽位对应的至少一个关键信息，包括：

利用所述映射模型，从所述实体和所述分词信息中匹配出所述至少一个任务槽位对应的关键信息。

7.根据权利要求1所述的方法，其特征在于，在所述接收目标对象的语音任务语句，并对所述语音任务语句进行分词，得到所述语音任务语句的分词信息之前，所述方法还包括：

接收功能任务创建指令，根据所述功能任务创建指令创建功能任务，并为所述功能任务建立至少一个任务槽位；

分析所述至少一个任务槽位的特性，为所述至少一个任务槽位分配对应的至少一个信息抽取模型；

根据所述至少一个任务槽位与所述至少一个信息抽取模型，生成所述预设信息抽取配置文件；

所述分析所述至少一个任务槽位的特性，为所述至少一个任务槽位分配对应的至少一个信息抽取模型，包括：

在所述至少一个任务槽位中，将映射模型作为存在特性为具有规律的表述方式的第一任务槽位对应的信息抽取模型；

将分类模型作为存在特性为同一类型的实体对应多个任务槽位的第二任务槽位对应的信息抽取模型；

将序列标注模型作为存在特性为表达方式不规律，且同一类型的实体对应单独的任务槽位的第三任务槽位对应的信息抽取模型；

直至确定出所述至少一个任务槽位中的每个任务槽位对应的信息抽取模型，从而得到所述至少一个信息抽取模型。

8.根据权利要求1所述的方法，其特征在于，在利用所述至少一个信息抽取模型、所述实体和所述分词信息，从所述实体提取关键信息，得到所述至少一个任务槽位对应的至少一个关键信息之后，所述方法还包括：

利用所述至少一个任务槽位对应的所述至少一个关键信息，生成功能任务对应的指令；

执行所述功能任务对应的指令，得到指令执行结果，并将所述指令执行结果反馈给所述目标对象，实现所述功能任务。

9.一种信息提取设备，其特征在于，包括：

存储器，用于存储可执行信息提取指令；

处理器，用于执行所述存储器中存储的可执行信息提取指令时，实现权利要求1至8任一项所述的方法。

10.一种存储介质，其特征在于，存储有可执行信息提取指令，用于引起处理器执行时，实现权利要求1至8任一项所述的方法。