CN106610932A

CN106610932A - 一种语料处理方法和装置及语料分析方法和装置

Info

Publication number: CN106610932A
Application number: CN201510705434.6A
Authority: CN
Inventors: 牛国扬
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2015-10-27
Filing date: 2015-10-27
Publication date: 2017-05-03
Also published as: WO2017071474A1

Abstract

本发明公开了一种语料处理方法和装置及语料分析方法和装置。该方法包括：获取所有或部分语料，作为语料集合；确定语料集合中每一条语料对应的意图；对语料集合中的每一条语料进行分词，确定每条语料中的词语；确定语料集合中每个词语出现的次数；确定每个词语在每个意图上出现的次数；根据语料集合中每个词语出现的次数和每个词语在每个意图上出现的次数，确定每个词语在每个意图上的权重。

Description

一种语料处理方法和装置及语料分析方法和装置

技术领域

本发明涉及移动通讯领域，特别是涉及一种语料处理方法和装置及语料分析方法和装置。

背景技术

随着海量网络信息的积累和规模的高速增长，准确快捷的找到自己所需要的信息已成为人们迫切的需求。自动问答系统通过理解人们自然语言形式的问句，返回答案或者包含答案的文本片段，在一定程度上提高了用户检索的效率和准确性。

但是，在实际的应用环境中，由于自然语言自身的特性和用户对系统的不熟悉，导致用户录入的交互信息很随意；有时是寒暄信息，或业务质询，或对系统的投诉；有时是价格咨询，或业务流程咨询，或产品基本信息咨询；如果不做区别的应答，答案的准确性将会大打折扣，无法满足用户需求，极大地影响了用户的满意度，降低了用户体验。

发明内容

鉴于现有技术中自动问答系统，无法满足用户需求，及大地影响了用户的满意度，降低了用户体验的问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的语料处理方法和装置及语料分析方法和装置。

本发明提供一种语料处理方法，包括：

获取所有或部分语料，作为语料集合；

确定语料集合中每一条语料对应的意图；

对语料集合中的每一条语料进行分词，确定每条语料中的词语；

确定语料集合中每个词语出现的次数；

确定每个词语在每个意图上出现的次数；

根据语料集合中每个词语出现的次数和每个词语在每个意图上出现的次数，确定每个词语在每个意图上的权重。

本发明还提供了一种语料处理装置，包括：

获取模块，用于获取所有或部分语料，作为语料集合；

意图确定模块，用于确定语料集合中每一条语料对应的意图；

分词确定模块，用于对语料集合中的每一条语料进行分词，确定每条语料中的词语；

次数确定模块，用于确定语料集合中每个词语出现的次数，以及用于确定每个词语在每个意图上出现的次数；

权重确定模块，用于根据语料集合中每个词语出现的次数和每个词语在每个意图上出现的次数，确定每个词语在每个意图上的权重。

本发明还提供了一种语料分析方法，包括：

获取一条语料；

对语料进行分词处理，确定语料中的每个词语；

获取每个词语在每个意图上的权重；

根据每个词语在每个意图上的权重，确定每个意图的权重值；

将大于或等于预定阈值的权重值对应的意图，确定为语料的意图。

其中，根据每个词语在每个意图上的权重，确定每个意图的权重值的处理包括：

对于每一种意图，将每个词语在该意图上权重相加，作为该意图的权重值。

本发明还提供了一种语料分析装置，其特征在于，包括：

语料获取模块，用于获取一条语料；

分词处理模块，用于对语料进行分词处理，确定语料中的每个词语；

权重获取模块，用于获取每个词语在每个意图上的权重；

权重值确定模块，用于根据每个词语在每个意图上的权重，确定每个意图的权重值；

意图处理模块，用于将大于或等于预定阈值的权重值对应的意图，确定为语料的意图。

本发明有益效果如下：

借助于本发明实施例的语料处理方法和装置及语料分析方法和装置，解决了现有技术中自动问答系统，无法满足用户需求，极大地影响了用户的满意度，降低了用户体验的问题，能够根据用户的交互信息，来分析用户的交流目的，即对用户的意图进行识别，以便对用户的问题有针对性的答复，满足了用户需求，提高了用户体验。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本发明实施例的语料处理方法的流程图；

图2是本发明实施例的语料分析方法的流程图；

图3是本发明实施例的语料处理装置的结构示意图；

图4是本发明实施例的语料分析装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

为了解决现有技术中自动问答系统，无法满足用户需求，极大地影响了用户的满意度，降低了用户体验的问题，本发明提供了语料处理方法和装置及语料分析方法和装置，能够根据用户的交互信息，来分析用户的交流目的，即对用户的意图进行识别，以便对用户的问题有针对性的答复，满足了用户需求，提高了用户体验。

而且，对用户的意图进行识别后，我们可以在管理后台数据时进行分类处理，把寒暄数据单独创建一个库，把业务咨询数据单独创建一个库；这样不但方便数据的管理和维护，而且还能分散数据访问压力、提高系统性能。

目前业界有关意图识别的专利和技术文档也有不少，但这些方案要么识别率低、要么架构复杂、要么应用场景不适合问答；而本发明识别率高，简单易用，能满足问答业务需求。

方法实施例一

根据本发明的实施例，提供了一种语料处理方法，图1是本发明实施例的语料处理方法的流程图，如图1所示，根据本发明实施例的语料处理方法包括如下处理：

步骤101，获取所有或部分语料，作为语料集合；

步骤102，确定语料集合中每一条语料对应的意图；

步骤103，对语料集合中的每一条语料进行分词，确定每条语料中的词语，对语料进行分词，可以采用下述方法之一：ansj分词、stanford分词、庖丁解牛，其中，ansj分词是一个开源的Java中文分词工具，基于中科院的ictclas中文分词算法，stanford分词是斯坦福大学(Stanford University)自然语言处理实验室针对中文开发的一款中文分词工具；

步骤104，确定语料集合中每个词语出现的次数；

步骤105，确定每个词语在每个意图上出现的次数；

步骤106，根据语料集合中每个词语出现的次数和每个词语在每个意图上出现的次数，确定每个词语在每个意图上的权重，可以利用下述公式确定每个词语在每个意图上的权重F(X_i)：

F(X_i)＝(M_i/P)*(1/Ln(P))其中，F(X_i)表示X_i在意图M上的权重，其中，X_i表示词语，i表示词语的序号，i的取值范围是自然数，M表示意图，M_i表示X_i在意图M上出现的次数，P表示X_i在语料集合中出现的总次数，Ln是自然对数。

根据本发明实施例，首先根据应用需求，把用户的交互信息分为相应的N类，例如，N＝{寒暄,问答}或N＝{价格咨询，业务流程咨询，产品基本信息咨询}；然后进行语料标注，例如收集用户交互信息的语料，比如收集1000条，并对语料进行整理(比如，删除重复语料等)，然后对语料进行标注，每条语料标注一种意图；再对语料进行分词，统计每个词语出现的总次数P，并统计词语在各中意图上出现的次数M_i，计算词语X_i(X_i表示第i个词语)在意图M上的概率公式F(X_i)为：F(X_i)＝(M_i/P)*(1/Ln(P))，其中，X_i表示词语，i表示词语的序号，i的取值范围是自然数，M表示意图，M_i表示X_i在意图M上出现的次数，P表示X_i在语料集合中出现的总次数，Ln是自然对数。

方法实施例二

根据本发明的实施例，提供了一种语料分析方法，图2是本发明实施例的语料分析方法的流程图，如图2所示，根据本发明实施例的语料分析方法包括如下处理：

步骤201，获取一条语料；

步骤202，对语料进行分词处理，确定所述语料中的每个词语；

步骤203，获取每个词语在每个意图上的权重；

步骤204，根据每个词语在每个意图上的权重，确定每个意图的权重值，具体地，对于每一种意图，将每个词语在该意图上权重相加，作为该意图的权重值；

步骤205，将大于或等于预定阈值的权重值对应的意图，确定为所述语料的意图。

在本发明实施例中，当用户录入一个语句时，首先对问句进行分词，分词后，逐个计算词语在各个意图上的概率值，然后求和，优选地，可以选择概率值最大的意图即为语句的意图。

通过本发明实施例，能够根据用户的交互信息，来分析用户的交流目的，即对用户的意图进行识别，以便对用户的问题有针对性的答复，满足了用户需求，提高了用户体验。

下面结合具体实施例，对方法实施例一和方法实施例二进行详细说明：

从“意图识别总体架构图”可以看出，本发明实施例分为两部分：离线部分(即上文所述的方法实施例一)和在线部分(即上文所述的方法实施例二)，其中，离线部分根据标注语料对“意图模型”进行训练，为后续意图识别的处理做数据基础；本操作是离线完成，不影响运行系统的性能。在线部分中，用户录入一个语句，首先做预处理、分词等，然后根据“意图模型”计算各个词语的意图概率，再汇总求和，最终得出语句的意图。

具体过程如下(在下边叙述过程中以“寒暄、问答”两个意图为例进行说明)：

模型训练

1、语料标注

首先收集语料，这些语料是在问答交互系统中真实使用的语句，一般收集的语料不少于1000条，越多越好。语料标注后，形式如下表1所示：

语料标注是意图识别的基本数据依据，语料标注的好坏，直接影响意图识别的准确率。

2、训练模型

该训练过程是本发明的核心，首先，取一条标注语料，例如，宁夏软件升级找谁？标注为问答，该训练过程是对语料逐条进行处理，直到所有语料处理完为止；然后，进行数据预处理，该过程主要目的是过滤对意图识别无帮助的噪音部分，例如：开头或结尾的空格、～、#、&、制表符等；再进行分词处理，利用中文分词工具把语句分解成一组词语，例如:宁夏/软件/升级/找/谁/？中文分词工具可以使用ansj分词、stanford分词、庖丁解牛等；接着进行词语统计，一是统计词语出现的次数，记作P，二是统计词语在各个意图上出现的次数，意图按顺序标记为i＝0、1、2、…、n，词语在意图i上出现的次数，记作N_i，即N₀、N₁、N₂、…、N_n；其中P＝N₀+N₁+N₂+…+N_n，即然后统计词语出现次数，根据词语统计结果，计算出词语出现次数，即在语料中所有语句中出现的次数，词语记作w，则词语出现次数记作P；接着计算词语权重，词语出现次数越多，其作为意图的权重越小，例如，词语w0出现10词，词语w1出现100词，则w0词语权重比w1词语权重大，计算权重系数的方式：f(P)＝1/Ln(P)，Ln()是自然对数，例如：f(10)＝0.434/f(100)＝0.217，其中，计算权重系数的要求：既要使权重有区分，使其能够在意图概率计算中起作用，又不能使权重区分太大，避免权重小的词语变成无用词语，也可以对其进行一些优化调整，例如：f(P)＝1/Ln(e+P)，其中常数e＝2.718281828459；根绝上述，计算词语意图概率值，计算公式为f(W_i)＝(N_i/P)*(1/Ln(P))或表示为即意图概率值为词语意图比率*词语权重，例如：“软件”一词，在“寒暄语句”中出现1次，在“问答语句”中出现9次，则“寒暄意图”的比率为1/(1+9)＝10％；“问答意图”的比率为9/(1+9)＝90％，假设“软件”一词的权重1/Ln(p)＝0.434，那么，“软件”的“寒暄意图”概率为10％*0.434，“软件”的“问答意图”概率为90％*0.434，这说明，当新的语句中出现“软件”一词时，则语句是“问答”意图的可能性比较大；最后，形成意图模型，根据对词语的统计以及词语在各个意图的比率，计算出词语的意图概率值，生成意图模型，该数据模型可以存放在txt文件或者excel语句中，运行是可以存入内存中，最终结果形式如下表2所示：

词语	意图	意图概率值
			软件	问答	0.2286
软件	寒暄	0.0254
			你好	问答	0.1062
你好	寒暄	0.2478
			…	…	…

意图识别

1、用户录入自然语言语句

例如：下午好！

你今天忙不忙？

你们客户电话是多少？

2、数据预处理

该过程主要目的是过滤掉对意图识别无帮助的噪音部分，例如：开头或结尾的空格、～、#、&、制表符等。

3、意图计算

意图计算是本发明的最终目的，首先进行数据预处理，即语句预处理，，该过程主要目的是过滤对意图识别无帮助的噪音部分，例如：开头或结尾的空格、～、#、&、制表符等；再进行分词处理，利用中文分词工具把语句分解成一组词语，例如:宁夏/软件/升级/找/谁/？中文分词工具可以使用ansj分词、stanford分词、庖丁解牛等；获取词语意图概率值，词语的意图概率值可以在上述“意图模型”中直接查询(例如上表2)，记作X_i。

；然后计算出各个意图上的概率和，例如用户录入的语句有X、Y、Z三个词语，在意图0上的概率和为：G₀＝X₀+Y₀+Z₀，在意图1上的概率和为：G₁＝X₁+Y₁+Z₁，在意图2上的概率和为：G₂＝X₂+Y₂+Z₂，这样就计算出在各个意图上的概率和，在此我们使用加法，在实际测试时发现，乘法效果更好，可以根据需要灵活选择；最后，取最大意图值，经过上述取值的累计和，我们得到了各个意图的概率值，根据概率模型的设计，取概率值最大的意图，是该语句的最终意图，得到该意图编号后，把意图编号转换成最终意图，例如，0代表寒暄意图，1代表问答意图。经过验证，系统对“寒暄、问答”的意图识别，准确率达到99.7％。

综上所述所述，本发明的最终目的是对用户交互信息的意图进行识别，首先收集语料并标注，对语料进行分词，并统计词语的意图概率值，得到概率模型，用户录入交互语句后，对用户语句进行分词，根据上述概率模型对词语意图概率值进行加权求和，得出整个语句的意图概率值，概率值最大的意图即为该语句的意图。

装置实施例一

图3是本发明实施例的语料处理装置的结构示意图，如图3所示，语料处理装置包括获取模块30、意图确定模块32、分词确定模块34、次数确定模块36和权重确定模块38，其中，

获取模块30，用于获取所有或部分语料，作为语料集合；

意图确定模块32，用于确定所述语料集合中每一条语料对应的意图；

分词确定模块34，用于对语料集合中的每一条语料进行分词，确定每条语料中的词语；

次数确定模块36，用于确定所述语料集合中每个词语出现的次数，以及用于确定每个词语在每个意图上出现的次数；

权重确定模块38，用于根据所述语料集合中每个词语出现的次数和所述每个词语在每个意图上出现的次数，确定每个词语在每个意图上的权重。

其中，权重确定模块可以利用下述公式确定每个词语在每个意图上的权重F(X_i)：F(X_i)＝(M_i/P)*(1/Ln(P))，其中，其中，X_i表示词语，i表示词语的序号，i的取值范围是自然数，M表示意图，M_i表示X_i在意图M上出现的次数，P表示X_i在语料集合中出现的总次数，Ln是自然对数。

装置实施例二

图4是本发明实施例的语料分析装置的结构示意图，如图4所示，语料分析装置包括语料获取模块40、分词处理模块42、权重获取模块44、权重值确定模块46和意图处理模块48，其中，

语料获取模块40，用于获取一条语料；

分词处理模块42，用于对所述语料进行分词处理，确定所述语料中的每个词语；

权重获取模块44，用于获取每个词语在每个意图上的权重；

权重值确定模块46，用于根据所述每个词语在每个意图上的权重，确定每个意图的权重值；

意图处理模块48，用于将大于或等于预定阈值的权重值对应的意图，确定为所述语料的意图。

其中，权重值确定模块具体用于对于每一种意图，将每个词语在该意图上权重相加，作为该意图的权重值。

综上所述，本发明使用概率模型，不需要收集用户点击行为数据和session数据，简单快捷，效率很高，且本发明主要针对问答系统中语句的意图，根据语句意图，更准确的回答用户问题，提高用户满意度。本发明通过简单的数据集训练，就能达到很好的识别效果，不需要用户点击记录、用户操作记录、session日志等信息，也不需要总结实体、特征词、句法格式。故本发明是一种简单实用、效率和识别率都很高的意图识别方法。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的客户端中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个客户端中。可以把实施例中的模块组合成一个模块，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者客户端的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的加载有排序网址的客户端中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种语料处理方法，其特征在于，包括：

获取所有或部分语料，作为语料集合；

确定所述语料集合中每一条语料对应的意图；

确定所述语料集合中每个词语出现的次数；

确定每个词语在每个意图上出现的次数；

根据所述语料集合中每个词语出现的次数和所述每个词语在每个意图上出现的次数，确定每个词语在每个意图上的权重。

2.如权利要求1所述的方法，其特征在于，利用下述公式确定每个词语在每个意图上的权重F(X_i)：

F(X_i)＝(M_i/P)*(1/Ln(P))，其中，X_i表示词语，i表示词语的序号，i的取值范围是自然数，M表示意图，M_i表示X_i在意图M上出现的次数，P表示X_i在所述语料集合中出现的总次数，Ln是自然对数。

3.如权利要求1或2所述的方法，其特征在于，所述对语料集合中的每一条语料进行分词，确定每条语料中的词语的处理包括以下之一：ansj分词、stanford分词、庖丁解牛。

4.一种语料处理装置，其特征在于，包括：

获取模块，用于获取所有或部分语料，作为语料集合；

意图确定模块，用于确定所述语料集合中每一条语料对应的意图；

次数确定模块，用于确定所述语料集合中每个词语出现的次数，以及用于确定每个词语在每个意图上出现的次数；

权重确定模块，用于根据所述语料集合中每个词语出现的次数和所述每个词语在每个意图上出现的次数，确定每个词语在每个意图上的权重。

5.如权利要求4所述的装置，其特征在于，利用下述公式确定每个词语在每个意图上的权重F(X_i)：

6.如权利要求4或5所述的装置，其特征在于，所述对语料集合中的每一条语料进行分词，确定每条语料中的词语的处理包括以下之一：ansj分词、stanford分词、庖丁解牛。

7.一种语料分析方法，其特征在于，包括：

获取一条语料；

对所述语料进行分词处理，确定所述语料中的每个词语；

获取每个词语在每个意图上的权重；

根据所述每个词语在每个意图上的权重，确定每个意图的权重值；

将大于或等于预定阈值的权重值对应的意图，确定为所述语料的意图。

8.如权利要求7所述的方法，其特征在于，所述根据所述每个词语在每个意图上的权重，确定每个意图的权重值的处理包括：

9.一种语料分析装置，其特征在于，包括：

语料获取模块，用于获取一条语料；

分词处理模块，用于对所述语料进行分词处理，确定所述语料中的每个词语；

权重获取模块，用于获取每个词语在每个意图上的权重；

权重值确定模块，用于根据所述每个词语在每个意图上的权重，确定每个意图的权重值；

意图处理模块，用于将大于或等于预定阈值的权重值对应的意图，确定为所述语料的意图。

10.如权利要求9所述的装置，其特征在于，权重值确定模块具体用于对于每一种意图，将每个词语在该意图上权重相加，作为该意图的权重值。