CN110362656A

CN110362656A - 一种语义要素提取方法及装置

Info

Publication number: CN110362656A
Application number: CN201910477051.6A
Authority: CN
Inventors: 杜剑文; 李辉权
Original assignee: Guangdong Youlan Robot Technology Co Ltd
Current assignee: Guangdong Youlan Robot Technology Co Ltd
Priority date: 2019-06-03
Filing date: 2019-06-03
Publication date: 2019-10-22

Abstract

本发明公开了一种语义要素提取方法及装置，通过实时获取语音或文字信息构建动词的时态相似度计算模型快速、准确的抽取语义要素，通过将该语义要素在知识库中检索能够检索到正确的应答语句，在音译文本或者语音质量或者其他情况导致的会话消息数据质量较差的情况下，对作为“二次加工”的文本消息或者较差质量的会话消息数据，能够准确地提取出语义要素的语句以供在知识库中快速检索到准确的应答语句，具有较高的服务质量与用户体验。

Description

一种语义要素提取方法及装置

技术领域

本公开涉及信息处理技术领域，具体涉及一种语义要素提取方法及装置。

背景技术

智能客服机器人的类型大致分为以文字为介质和以语音智能为介质，以文字为介质的智能客服机器人普遍存在于web网页端及微信公众号端；而以语音智能为介质的智能客服机器人，则以音频流为输入介质，与机器进行理解交互，在电话终端最为广泛。针对这两种交互介质的智能交互，最终都是以标准文本的形式，进行自然语言处理及理解的，而由于“音译文本”的质量参次，对作为“二次加工”的文本消息的自然语言处理，往往是难以达到较高的服务质量的。目前，现有的智能客服技术通过利用依存分析的开放式中文实体关系抽取语义要素和基于依存分析的中文兼类词处理，这种“二次加工”的文本消息难以准确的提取出语义要素，并将该语义要素在知识库中检索能够检索到到正确的应答语句，服务质量均难以提升。

发明内容

本公开提供一种语义要素提取方法及装置，通过实时获取语音或文字信息构建动词的时态相似度计算模型快速、准确的抽取语义要素，通过将该语义要素在知识库中检索能够检索到正确的应答语句。

为了实现上述目的，根据本公开的一方面，提供一种语义要素提取方法，所述方法包括以下步骤：

步骤1，将样本中能够枚举的关键要素枚举归纳统一的关键要素标签；

步骤2，将样本中不能枚举的关键要素通过分词区分词性得到关键要素标签；

步骤3，将关键要素标签进行标签化替换为简化关键要素；

步骤4，将相应的标签替换后的样本关联到对应的意图得到意图表达语句；

步骤5，对意图表达语句进行分词处理，将语句的简化关键要素标签化替换为关键要素标签；

步骤6，进入学习引擎匹配识别获取用户意图；

步骤7，根据用户意图提取关键要素标签的数据。

进一步地，在步骤1中，将样本中能够枚举的关键要素枚举归纳统一的关键要素标签的方法为，预先建立的属性归纳模型是通过对样本进行归纳总结从而能够预测关键词所属属性的模型，可以包括字典模型、规则模型和其他模型等，其中字典模型可以包括地址字典模型(地址模型又可细分为省份字典模型和城市字典模型)、品牌字典模型等；规则模型可以包括身份证号规则模型、列车号规则模型等；其他模型可以包括酒店名模型、网吧名模型、餐厅名模型和姓名模型等。假设关键词是：“170cm”、“肥胖”、“北京”，那么通过属性归纳模型得到的与“170cm”对应的属性可以是“身高”，与“肥胖”对应的属性可以是“体型”，与“北京”对应的属性可以是“地址”和“路径”。

根据预先建立的标签组合与意图的对应关系，利用获得的标签获取目标意图。

具体的，意图是终端支持的查询意图，可以是通过人的属性去查找人、通过事件的属性去查找人。在查询场景下，意图的种类不多，因此可以利用该特点穷举意图并生成标签与意图的对应关系。

需要说明的是，用户输入的信息反映了用户的意图，而根据用户输入的信息获取了关键词，因此根据获得的关键词可以获取用户的意图。

步骤104、根据获得的关键词和目标意图生成查询语句。

需要说明的是，一旦确定了用户意图，根据获得的关键词和所确定的用户的意图就能生成用户期望的查询语句，查询语句就是具有查询目的，携带有查询条件的语句。

本发明实施例所提供的信息处理方法，终端根据预先建立的属性归纳模型获取与获得的关键词对应的属性；根据预先建立的属性与标签的对应关系获取与获得的属性对应的标签；根据预先建立的标签组合与意图的对应关系，利用获得的标签获取目标意图；根据获得的关键词和目标意图生成查询语句。从本发明提供的技术方案可见，由于终端根据属性归纳模型、属性与标签的对应关系以及标签与意图的对应关系获取了关键词表明的意图，进而在无需大量训练集的参与，简单地实现了查询语句的生成。

步骤：

一、学习训练过程

1.在特定业务场景下，订立一些关键要素提取目标。如订机票业务，我们需要知道用户的起发地，目的地，航空公司等；对关键要素的可能表达，枚举归纳统一的标签，如北京、上海定位标签“location”，针对无法枚举的、具有某些，可以通过分词区分词性

2.学习样本预处理：对监督学习的样本进行标签化替换，我想订time去location的机票；

3.通过监督学习，将相应的标签替换后的样本关联到对应的意图，进行机器学习；

二、要素提取过程

4.接受用意图表达语句；

5.对表达语句分词处理，在特定的业务场景下，使用之前归纳的标签对语句进行标签化替换处理；

6.进入学习引擎匹配识别；

7.得到用户的意图，并根据该识别的意图，提取被标签化的数据

进一步地，在步骤1中，所述会话消息数据的形式包括以下至少一种：自然语言文字组成的语句、数据链接、语音,如果是数据链接、语音则将数据链接、语音转换为文本形式的语句作为会话消息数据，所述机器人客服包括用户客户端、知识库。

进一步地，在步骤2中，将会话消息数据进行分词的方法包括字符串匹配、机械分词、正向最大匹配、逆向最大匹配、双向最大匹配、统计分词、字标注分词任意一种。

进一步地，在步骤2中，将会话消息数据进行词性标注的方法包括viterbi算法、CLAWS 算法、VOLSUNGA算法、或基于转换的词类标注POS中任意一种方法标注出名词、动词、动词、形容词、动名词中任意组合。

进一步地，在步骤3中，构建动词的时态相似度计算模型的方法包括以下步骤：

步骤3.1，定义时态动词：

根据动词V定义一个连续时间的时态动词，ε_v:T×Ω→Ω，其中，T和Ω分别代表连续的时间和状态空间，T×Ω→Ω中三个元素为连续的时间、状态以及状态进化，状态进化即T 时间后的状态变化，其中，状态空间由开始、中间、结束、单个字构成，通过隐式马尔科夫模型HMM(Hidden Markov Model)从观察空间中得到，例如状态空间中的开始后面只可能接(中间or结束)，不可能接(开始or结束)，而中间后面也只可能接(中间or结束)，不可能接(开始,单个字)，其中观察空间即各会话消息数据；

根据动词V定义一个离散的时间的时态动词，ε_ν:Z×Ω→Ω，Z为离散的时间，Z×Ω→Ω中三个元素为离散的时间、状态以及状态进化，状态进化即T时间后的状态变化。

步骤3.2，获取时态动词的相似度：

令不同时间序列的观察空间中的动词是由两个采样点(动词的起点和终点)组成的一条线段，则根据动词定义时态动词的进化的函数为ε_v(t)＝(0,Δ₀),对于随后的各个观察空间中的动词V＝(0,Δ_x)，时态动词的相似度S(V)为：

Δ₀为初始的时间，单位为相对时间刻度，例如，秒、毫秒、分钟，由语速或输入速度决定，Δ_x为随后的第x个动词出现的时间，x取值范围为1到p，p为会话消息数据的总量，其中，k>0为常数，k＝1；

步骤3.3，构建动词的时态相似度计算模型：

对于观察空间中有多个动词的训练集S_V＝{V₁,...,V_p}，给出其中一个观察空间的动词 V_x＝(x₀,x₀+x),x₀为初始的动词位置，x为变化了第x次后的动词位置的偏移量，找出动词V 和训练集S_V中每个元素V_i(V_i∈S_v)的相似度，首先把每个动词V_i∈S_v表示成含有两个采样点的时间序列的时态动词的进化的函数ε_Vi＝(x_i0,x_i0+Δ_i0),x_i0为初始的时间，Δ_i0为变化了的动词出现的时间，则构建V_i和V_x间的动词的时态相似度计算模型为，其中，S_c(ε_Vi,V_x)∈[0,1]为V_i和V_x的相似度；其中，其中，k₁>0，k₂>0为两个常数，例如，k₁＝1，k₂＝1，Δ_i0为初始的时间，Δ_x为随后的第x 个动词出现的时间。

其中，观察空间即各会话消息数据。

进一步地，在步骤4中，通过时态相似度计算模型提取语义要素的方法为：计算时态动词的相似度，提取相似度小于要素阈值的动词所在的语句作为语义要素，要素阈值为0.7。

本发明还提供了一种语义要素提取装置，所述装置包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序运行在以下装置的单元中：

会话消息接收单元，用于机器人客服接收到来自用户客户端的会话消息数据；

词性标注单元，用于将会话消息数据进行分词与词性标注出为动词的词性类别；

计算模型构建单元，用于构建动词的时态相似度计算模型；

语义要素提取单元，用于通过时态相似度计算模型提取语义要素。

本公开的有益效果为：本发明提供一种语义要素提取方法及装置，在音译文本或者语音质量或者其他情况导致的会话消息数据质量较差的情况下，对作为“二次加工”的文本消息或者较差质量的会话消息数据，能够准确地提取出语义要素的语句以供在知识库中快速检索到准确的应答语句，具有较高的服务质量与用户体验。

附图说明

通过对结合附图所示出的实施方式进行详细说明，本公开的上述以及其他特征将更加明显，本公开附图中相同的参考标号表示相同或相似的元素，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，在附图中：

图1所示为一种语义要素提取方法的流程图；

图2所示为一种语义要素提取装置图。

具体实施方式

以下将结合实施例和附图对本公开的构思、具体结构及产生的技术效果进行清楚、完整的描述，以充分地理解本公开的目的、方案和效果。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

如图1所示为根据本公开的一种语义要素提取方法的流程图，下面结合图1来阐述根据本公开的实施方式的一种语义要素提取方法。

本公开提出一种语义要素提取方法，具体包括以下步骤：

步骤1，机器人客服接收到来自用户客户端的会话消息数据；

步骤2，将会话消息数据进行分词与词性标注出为动词的词性类别；

步骤3，构建动词的时态相似度计算模型；

步骤4，通过时态相似度计算模型提取语义要素。

步骤3.1，定义时态动词：

步骤3.2，获取时态动词的相似度：

步骤3.3，构建动词的时态相似度计算模型：

对于观察空间中有多个动词的训练集S_V＝{V₁,...,V_p}，给出其中一个观察空间的动词 V_x＝(x₀,x₀+x),x₀为初始的动词位置，x为变化了第x次后的动词位置的偏移量，找出动词V 和训练集S_V中每个元素V_i(V_i∈S_v)的相似度，首先把每个动词V_i∈S_v表示成含有两个采样点的时间序列的时态动词的进化的函数ε_Vi＝(x_i0,x_i0+Δ_i0),x_i0为初始的时间，Δ_i0为变化了的动词出现的时间，则构建V_i和V_x间的动词的时态相似度计算模型为，其中，S_c(ε_Vi,V_x)∈[0,1]为V_i和V_x的相似度；其中，其中，k₁>0，k₂>0为两个常数，例如，k₁＝1，k₂＝1，Δ_i0为初始的时间，Δ_x为随后的第x 个动词出现的时间，一个动词具有两个采样点，即开始和结束。

其中，观察空间即各会话消息数据。

进一步地，在步骤4中，通过时态相似度计算模型提取语义要素的方法为：计算时态动词的相似度，提取相似度小于要素阈值的动词所在的语句作为语义要素，要素阈值为0.7；

例如,考虑以下具两个采样点的动词，

V₁＝(0,1)，V₂＝(1,0)，V₃＝(0,0),V₄＝(1,1)；

观察空间中有多个动词的训练集中的一个动词为：V_x＝(0.5,0.5)，选择k₁＝1，k₂＝1，要素阈值为0.7，则时态动词的相似度计算如下：

由于V₃和V₄的相似度大于要素阈值0.7，则V₃和V₄所在的语句即为语义要素。

本公开的实施例提供的一种语义要素提取装置，如图2所示为本公开的一种语义要素提取装置图，该实施例的一种语义要素提取装置包括：处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述一种语义要素提取装置实施例中的步骤。

所述装置包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序运行在以下装置的单元中：

计算模型构建单元，用于构建动词的时态相似度计算模型；

所述一种语义要素提取装置可以运行于桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备中。所述一种语义要素提取装置，可运行的装置可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，所述例子仅仅是一种语义要素提取装置的示例，并不构成对一种语义要素提取装置的限定，可以包括比例子更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述一种语义要素提取装置还可以包括输入输出设备、网络接入设备、总线等。

所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array， FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述一种语义要素提取装置运行装置的控制中心，利用各种接口和线路连接整个一种语义要素提取装置可运行装置的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述一种语义要素提取装置的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等) 等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

尽管本公开的描述已经相当详尽且特别对几个所述实施例进行了描述，但其并非旨在局限于任何这些细节或实施例或任何特殊实施例，而是应当将其视作是通过参考所附权利要求考虑到现有技术为这些权利要求提供广义的可能性解释，从而有效地涵盖本公开的预定范围。此外，上文以发明人可预见的实施例对本公开进行描述，其目的是为了提供有用的描述，而那些目前尚未预见的对本公开的非实质性改动仍可代表本公开的等效改动。

Claims

1.一种语义要素提取方法，其特征在于，所述方法包括以下步骤：

步骤1，机器人客服接收到来自用户客户端的会话消息数据；

步骤3，构建动词的时态相似度计算模型；

步骤4，通过时态相似度计算模型提取语义要素。

2.根据权利要求1所述的一种语义要素提取方法，其特征在于，在步骤1中，所述会话消息数据的形式包括以下至少一种：自然语言文字组成的语句、数据链接、语音,如果是数据链接、语音则将数据链接、语音转换为文本形式的语句作为会话消息数据。

3.根据权利要求1所述的一种语义要素提取方法，其特征在于，在步骤2中，将会话消息数据进行分词的方法包括字符串匹配、机械分词、正向最大匹配、逆向最大匹配、双向最大匹配、统计分词、字标注分词任意一种。

4.根据权利要求1所述的一种语义要素提取方法，其特征在于，在步骤2中，将会话消息数据进行词性标注的方法包括viterbi算法、CLAWS算法、VOLSUNGA算法、或基于转换的词类标注POS中任意一种方法标注出名词、动词、动词、形容词、动名词中任意组合。

5.根据权利要求1所述的一种语义要素提取方法，其特征在于，在步骤3中，构建动词的时态相似度计算模型的方法包括以下步骤：

步骤3.1，定义时态动词：

根据动词V定义一个连续时间的时态动词，ε_v:T×Ω→Ω，其中，T和Ω分别代表连续的时间和状态空间，T×Ω→Ω中三个元素为连续的时间、状态以及状态进化，状态进化即T时间后的状态变化；

步骤3.2，获取时态动词的相似度：

根据动词定义时态动词的进化的函数为ε_v(t)＝(0,Δ₀),对于随后的各个观察空间中的动词V＝(0,Δ_x)，时态动词的相似度S(V)为：

Δ₀为初始的时间，Δ_x为随后的第x个动词出现的时间，x取值范围为1到p，p为会话消息数据的总量，其中，k>0为常数，k＝1；

步骤3.3，构建动词的时态相似度计算模型：

对于观察空间中有多个动词的训练集S_V＝{V₁,...,V_p}，给出其中一个观察空间的动词V_x＝(x₀,x₀+x),x₀为初始的动词位置，x为变化了第x次后的动词位置的偏移量，找出动词V和训练集S_V中每个元素V_i(V_i∈S_v)的相似度，首先把每个动词V_i∈S_v表示成含有两个采样点的时间序列的时态动词的进化的函数ε_Vi＝(x_i0,x_i0+Δ_i0),x_i0为初始的时间，Δ_i0为变化了的动词出现的时间，则构建V_i和V_x间的动词的时态相似度计算模型为，其中，S_c(ε_Vi,V_x)∈[0,1]为V_i和V_x的相似度；其中，其中，k₁>0，k₂>0为两个常数，例如，k₁＝1，k₂＝1，Δ_i0为初始的时间，Δ_x为随后的第x个动词出现的时间。

6.根据权利要求1所述的一种语义要素提取方法，其特征在于，在步骤4中，通过时态相似度计算模型提取语义要素的方法为：计算时态动词的相似度，提取相似度小于要素阈值的动词所在的语句作为语义要素。

7.一种语义要素提取装置，其特征在于，所述装置包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序运行在以下装置的单元中：

计算模型构建单元，用于构建动词的时态相似度计算模型；