CN110489517A

CN110489517A - 虚拟助理的自动学习方法及系统

Info

Publication number: CN110489517A
Application number: CN201810436639.2A
Authority: CN
Inventors: 周忠信; 吴兆麟; 许旭正
Original assignee: Digiwin Software Co Ltd
Current assignee: Digiwin Software Co Ltd
Priority date: 2018-05-09
Filing date: 2018-05-09
Publication date: 2019-11-22
Anticipated expiration: 2038-05-09
Also published as: CN110489517B

Abstract

一种虚拟助理的自动学习方法及系统。虚拟助理的自动学习方法包含：接收音频输入并辨识音频以形成语料数据；利用自然语言处理模型分析语料数据，以产生与语料数据对应的语言特征信息；依据职能情境信息对语言特征信息进行职能情境分析，判断这些意图的其中之一对应的操作；如果职能情境分析无法判断这些意图的其中之一对应的操作，则针对语料数据进行分词处理；跟据分词处理后的结果，判断是否存在新词汇或新语料数据；如果存在新词汇，根据新词汇的意义更新自然语言处理模型，如果存在新语料数据，根据新语料数据的意图更新职能情境分析。借此，达到让使用者使用ERP系统时能够更快速便利的功效。

Description

虚拟助理的自动学习方法及系统

技术领域

本案是有关于一种自动学习的方法及系统，且特别是有关于一种虚拟助理的自动学习方法及系统。

背景技术

企业资源规划系统(Enterprise Resource Planning，ERP)，简称ERP系统，是指建立在信息技术的基础上为企业决策层提供决策的管理平台。其主要是将企业的人流、物流、信息流、资金流进行统一的管理，以最大限度的利用企业的资源。而ERP系统包含有生产控制、物流管理和财务管理等三大方面的功能，因此ERP系统规模非常的庞大。

将虚拟助理应用于ERP系统中，更可以快速的帮助使用者与庞大的ERP系统交流，能够节省使用者在使用ERP系统中所花的时间，但由于每个使用者使用ERP系统习惯的不同，因此会有虚拟助理无法理解使用者问题的情况，反而造成使用者在使用ERP系统上的困难。

发明内容

本发明的主要目的是在提供一种虚拟助理的自动学习方法及系统，其主要是让虚拟助理具有自动学习的功能，让虚拟助理可以在与使用者交流的过程中，自动学习到使用者的说话习惯，或是行业中的特殊用语用词，达到让使用者使用ERP系统是能够更快速便利的功效。

为达成上述目的，本案的第一态样是在提供一种虚拟助理的自动学习方法，此方法包含以下步骤：接收音频输入并辨识音频以形成语料数据；利用自然语言处理模型分析语料数据，以产生与语料数据对应的语言特征信息，其中语言特征信息包含多个意图、所述多个意图对应的机率以及多个词汇；依据职能情境信息对语言特征信息进行职能情境分析，判断所述多个意图的其中之一对应的操作；如果职能情境分析无法判断所述多个意图的其中之一对应的操作，则针对语料数据进行分词处理；跟据分词处理后的结果，判断是否存在新词汇或新语料数据；如果存在新词汇，根据新词汇的意义更新自然语言处理模型，如果存在新语料数据，根据新语料数据的意图更新职能情境分析；其中，操作包含查询数据操作及执行指令操作的其中之一。

根据本案一实施例，还包含：根据一应用知识数据库及一领域知识数据库产生一系统领域词汇集合；该系统领域词汇集合及多个服务应用参数形成为一关键实体集合，该关键实体集合包含多个系统领域词汇；将多个训练语料分类为该查询数据操作及该执行指令操作的其中之一；依照该企业数据库中的类别区分对应该查询数据操作的所述多个训练语料的意图形成多个查询数据操作意图，以及依照该企业资源系统提供的服务行为区分对应该执行指令操作的所述多个训练语料的意图形成多个执行指令操作意图；建立所述多个查询数据操作意图的范本，以及所述多个执行指令操作意图的范本；根据该关键实体集合、所述多个查询数据操作意图的范本以及所述多个执行指令操作意图的范本建立该总体数据库；辨识该关键实体集合中的所述多个系统领域词汇在所述多个训练语料中出现的多个第一机率，并通过辨识出的所述多个系统领域词汇分析所述多个训练语料的多个句型结构，以及所述多个系统领域词汇彼此之间的多个关联性，并根据所述多个第一机率以及所述多个关联性建立一共通词汇模型；以及分析所述多个查询数据操作意图以及所述多个执行指令操作意图中出现所述多个系统领域词汇的多个第二机率，并根据所述多个句型结构以及所述多个第二机率建立一共通语意模型。

根据本案一实施例，还包含：利用一分类器将一历史数据库中的数据进行关系强弱分类，产生一职能情境模型；以及将所述多个训练语料进行断词及分析，并根据该历史数据库中的数据产生一职能词汇模型。

根据本案一实施例，该职能情境分析还包含：利用该语料数据以及该职能情境信息与该职能情境模型进行比对，并产生一职能情境辨识结果；以及根据该职能情境辨识结果判断所述多个意图的其中之一对应该查询数据操作及该执行指令操作的其中之一。

根据本案一实施例，该分词处理还包含：根据该职能词汇模型对该语料数据进行断词，以产生多个分词；以及计算所述多个分词的频率。

根据本案一实施例，还包含：判断该分词处理计算出的所述多个分词的频率是否低于一门槛值；如果所述多个分词的其中之一低于该门槛值，所述多个分词的其中之一则为该新词汇，并接收该新词汇的定义，以更新该共通词汇模型及该共通语意模型；以及如果所述多个分词均高于该门槛值，则该语料数据则为该新语料数据，并接收该新语料数据的意图，以更新该职能情境模型。

根据本案一实施例，还包含：判断该新语料数据是否为共通语料，如果是则根据该新语料数据更新该系统领域词汇集合；以及根据该新词汇更新该系统领域词汇集合。

根据本案一实施例，该自然语言处理模型分析该语料数据还包含：利用该共通词汇模型辨识该语料数据中是否具有符合该关键实体集合中的所述多个系统领域词汇，将辨识结果设定为所述多个词汇，并分析所述多个词汇出现的机率；根据所述多个词汇分析该语料数据的句型结构；以及利用该共通语意模型根据所述多个词汇出现的机率以及该语料数据的句型结构辨识该语料数据的所述多个意图以及所述多个意图对应的机率。

本案的第二态样是在提供一种虚拟助理的自动学习系统，分别与企业数据库及企业资源系统连接，其包含：处理器、储存装置以及输入/输出装置。储存装置电性连接至处理器，用以储存总体数据库、应用知识数据库、领域知识数据库以及历史数据库。输入/输出装置电性连接至处理器，用以提供接口以供输入音频。其中，处理器包含：语音辨识模块、语料分析模块、情境辨识模块、未知语料判断模块以及更新信息模块。语音辨识模块用以辨识音频以形成语料数据。语料分析模块与语音辨识模块电性连接，用以利用自然语言处理模型分析语料数据，以产生与语料数据对应的语言特征信息，其中语言特征信息包含多个意图、所述多个意图对应的机率以及多个词汇。情境辨识模块与语料分析模块电性连接，用以依据职能情境信息对语言特征信息进行职能情境分析，判断所述多个意图的其中之一对应的操作。未知语料判断模块与情境辨识模块电性连接，用以在情境辨识模块无法辨识所述多个意图的其中之一对应的操作时，针对语料数据进行分词处理，并跟据分词处理后的结果，判断是否存在新词汇或新语料数据。更新信息模块与未知语料判断模块电性连接，用以在有新词汇产生时，根据该新词汇的意义更新该自然语言处理模型，以及在该新语料数据产生时，根据该新语料数据的意图更新该职能情境分析；其中，该操作包含一查询数据操作及一执行指令操作的其中之一。

根据本案一实施例，该处理器还包含：一训练模块，与该语料分析模块电性连接，用以根据该应用知识数据库及该领域知识数据库产生一系统领域词汇集合，该系统领域词汇集合及多个服务应用参数形成为一关键实体集合，该关键实体集合包含多个系统领域词汇，并将多个训练语料分类为该查询数据操作及该执行指令操作的其中之一，依照该企业数据库中的类别区分对应该查询数据操作的所述多个训练语料的意图形成多个查询数据操作意图，以及依照该企业资源系统提供的服务行为区分对应该执行指令操作的所述多个训练语料的意图形成多个执行指令操作意图；一范本建立模块，与该训练模块电性连接，建立所述多个查询数据操作意图的范本，以及所述多个执行指令操作意图的范本，根据该关键实体集合、所述多个查询数据操作意图的范本以及所述多个执行指令操作意图的范本建立该总体数据库；一词汇模型建立模块，与该范本建立模块电性连接，辨识该关键实体集合中的所述多个系统领域词汇在所述多个训练语料中出现的多个第一机率，并通过辨识出的所述多个系统领域词汇分析所述多个训练语料的多个句型结构，以及所述多个系统领域词汇彼此之间的多个关联性，并根据所述多个第一机率以及所述多个关联性建立一共通词汇模型；以及一语意模型建立模块，与该范本建立模块电性连接，分析所述多个查询数据操作意图以及所述多个执行指令操作意图中出现所述多个系统领域词汇的多个第二机率，并根据所述多个句型结构以及所述多个第二机率建立一共通语意模型。

根据本案一实施例，该处理器还包含：一情境训练模块，与该情境分析模块电性连接，用以利用一分类器将该历史数据库中的数据进行关系强弱分类，产生一职能情境模型；以及一词汇训练模块，与该未知语料判断模块电性连接，用以将所述多个训练语料进行断词及分析，并根据该历史数据库中的数据产生一职能词汇模型。

根据本案一实施例，该情境分析模块更用以利用该语料数据以及该职能情境信息与该职能情境模型进行比对，并产生一职能情境辨识结果，以及根据该职能情境辨识结果判断所述多个意图的其中之一对应该查询数据操作及该执行指令操作的其中之一。

根据本案一实施例，该未知语料判断模块更用以根据该职能词汇模型对该语料数据进行断词，以产生多个分词，以计算所述多个分词的频率。

根据本案一实施例，该更新信息模块更用以判断该分词处理计算出的所述多个分词的频率是否低于一门槛值；如果所述多个分词的其中之一低于该门槛值，所述多个分词的其中之一则为该新词汇，并接收该新词汇的定义，以更新该共通词汇模型及该共通语意模型；如果所述多个分词均高于该门槛值，则该语料数据则为该新语料数据，并接收该新语料数据的意图，以更新该职能情境模型。

根据本案一实施例，该更新信息模块更用以判断该新语料数据是否为共通语料，如果是则根据该新语料数据更新该系统领域词汇集合；以及根据该新词汇更新该系统领域词汇集合。

根据本案一实施例，该语料分析模块更用以利用该共通词汇模型辨识该语料数据中是否具有符合该关键实体集合中的所述多个系统领域词汇，将辨识结果设定为所述多个词汇，并分析所述多个词汇出现的机率，根据所述多个词汇分析该语料数据的句型结构，并利用该共通语意模型根据所述多个词汇出现的机率以及该语料数据的句型结构辨识该语料数据的所述多个意图以及所述多个意图对应的机率。

本发明的虚拟助理的自动学习方法及虚拟助理的自动学习系统主要是让虚拟助理具有自动学习的功能，让虚拟助理可以在与使用者交流的过程中，自动学习到使用者的说话习惯，或是行业中的特殊用语用词，达到让使用者使用ERP系统时能够更快速便利的功效。

附图说明

为让本发明的上述和其他目的、特征、优点与实施例能更明显易懂，所附附图的说明如下：

图1是根据本案的一些实施例所绘示的一种虚拟助理的自动学习系统的示意图；

图2是根据本案的一些实施例所绘示的处理器的示意图；

图3是根据本案的一些实施例所绘示的一种虚拟助理的自动学习方法的流程图；

图4是根据本案的一些实施例所绘示的训练数据模型的流程图；

图5是根据本案的一些实施例所绘示的步骤S320的流程图；

图6是根据本案的一些实施例所绘示的步骤S330的流程图；

图7是根据本案的一些实施例所绘示的步骤S340的流程图；以及

图8是根据本案的一些实施例所绘示的步骤S360的流程图。

具体实施方式

以下揭示提供许多不同实施例或例证用以实施本发明的不同特征。特殊例证中的元件及配置在以下讨论中被用来简化本揭示。所讨论的任何例证只用来作解说的用途，并不会以任何方式限制本发明或其例证的范围和意义。此外，本揭示在不同例证中可能重复引用数字符号且/或字母，这些重复皆为了简化及阐述，其本身并未指定以下讨论中不同实施例且/或配置之间的关系。

在全篇说明书与权利要求书所使用的用词(terms)，除有特别注明外，通常具有每个用词使用在此领域中、在此揭露的内容中与特殊内容中的平常意义。某些用以描述本揭露的用词将于下或在此说明书的别处讨论，以提供本领域技术人员在有关本揭露的描述上额外的引导。

关于本文中所使用的“耦接”或“连接”，均可指二或多个元件相互直接作实体或电性接触，或是相互间接作实体或电性接触，而“耦接”或“连接”还可指二或多个元件相互操作或动作。

在本文中，使用第一、第二与第三等等的词汇，是用于描述各种元件、组件、区域、层与/或区块是可以被理解的。但是这些元件、组件、区域、层与/或区块不应该被这些术语所限制。这些词汇只限于用来辨别单一元件、组件、区域、层与/或区块。因此，在下文中的一第一元件、组件、区域、层与/或区块也可被称为第二元件、组件、区域、层与/或区块，而不脱离本发明的本意。如本文所用，词汇“与/或”包含了列出的关联项目中的一个或多个的任何组合。本案文件中提到的“及/或”是指表列元件的任一者、全部或至少一者的任意组合。

请参阅图1。图1是根据本案的一些实施例所绘示的一种虚拟助理的自动学习系统100的示意图。如图1所绘示，虚拟助理的自动学习系统100包含处理器110、储存装置130以及输入/输出装置150。储存装置130用以储存总体数据库131、应用知识数据库132、领域知识数据库133以及历史数据库134，储存总体数据库131、应用知识数据库132、领域知识数据库133以及历史数据库134电性连接至处理器110。输入/输出装置150电性连接至处理器110，用以提供接口以供输入音频。于一实施例中，输入/输出装置150可以是键盘、触控式屏幕、麦克风、喇叭或其它合适的输入/输出装置。使用者可透过输入/输出装置提供的接口输入音频。

于本发明各实施例中，处理器110可以实施为集成电路如微控制单元(microcontroller)、微处理器(microprocessor)、数字信号处理器(digital signalprocessor)、特殊应用集成电路(application specific integrated circuit，ASIC)、逻辑电路或其他类似元件或上述元件的组合。储存装置150可以实施为记忆体、硬盘、随身盘、记忆卡等。

请参阅图2，图2是根据本案的一些实施例所绘示的一种处理器110的示意图。处理器110包含语音辨识模块111、语料分析模块112、情境辨识模块113、未知语料判断模块114、更新信息模块115、训练模块121、范本建立模块122、语意模型建立模块123、词汇模型建立模块124、情境训练模块125以及词汇训练模块126。语料分析模块112与语音辨识模块111电性连接，情境辨识模块113与语料分析模块112电性连接，未知语料判断模块114与情境判断模块113电性连接，更新信息模块115与未知语料判断模块114电性连接。训练模块121与语料分析模块112电性连接，范本建立模块122与训练模块121电性连接，语意模型建立模块123以及词汇模型建立模块124与范本建立模块122电性连接，情境训练模块125与情境辨识模块113电性连接，未知语料判断模块114与词汇训练模块126电性连接。

请一并参阅图1～图3。图3是根据本案的一些实施例所绘示的一种虚拟助理的自动学习方法300的流程图。如图3所示，虚拟助理的自动学习方法300包含以下步骤：

步骤S310：接收音频输入并辨识音频以形成语料数据；

步骤S320：利用自然语言处理模型分析语料数据，以产生与语料数据对应的语言特征信息；

步骤S330：依据职能情境信息对语言特征信息进行职能情境分析，判断这些意图的其中之一对应的操作；

步骤S340：如果职能情境分析无法判断这些意图的其中之一对应的操作，则针对语料数据进行分词处理；

步骤S350：跟据分词处理后的结果，判断是否存在新词汇或新语料数据；以及

步骤S360：如果存在新词汇，根据新词汇的意义更新自然语言处理模型，如果存在新语料数据，根据新语料数据的意图更新职能情境分析。

于步骤S310中，接收音频输入并辨识音频以形成语料数据。于一实施例中，经由输入/输出装置150接收到的音频可以由处理器110的语音辨识模块111进行语音辨识，将使用者的自然语言转换为语料数据。于另一实施例中，语音辨识也可以通过网际网路将音频传送至云端语音辨识系统，经由云端语音辨识系统辨识音频后，再将辨识结果作为语料数据，举例而言，云端语音辨识系统可以实施为google的语音辨识系统。

在执行步骤S320之前，需先建立共通词汇模型以及共通语意模型。因此请参考图4，图4是根据本案的一些实施例所绘示的训练数据模型的流程图。如图4所示，训练数据模型阶段包含以下步骤：

步骤S410：根据应用知识数据库及领域知识数据库产生系统领域词汇集合；

步骤S420：系统领域词汇集合及多个服务应用参数形成为关键实体集合；

步骤S430：将多个训练语料分类为查询数据操作及执行指令操作的其中之一；

步骤S440：依照企业数据库中的类别区分对应查询数据操作的这些训练语料的意图形成多个查询数据操作意图，以及依照企业资源系统提供的服务行为区分对应执行指令操作的这些训练语料的意图形成多个执行指令操作意图；

步骤S450：建立查询数据操作意图的范本，以及执行指令操作意图的范本；

步骤S460：根据关键实体集合、查询数据操作意图的范本以及执行指令操作意图的范本建立总体数据库；

步骤S470：辨识关键实体集合中的系统领域词汇在训练语料中出现的多个第一机率，并通过辨识出的系统领域词汇分析训练语料的多个句型结构，以及系统领域词汇彼此之间的多个关联性，并根据第一机率以及关联性建立共通词汇模型；以及

步骤S480：分析查询数据操作意图以及执行指令操作意图中出现系统领域词汇的多个第二机率，并根据句型结构以及第二机率建立共通语意模型。

于步骤S410及步骤S420中，根据应用知识数据库132及领域知识数据库133产生系统领域词汇集合，再利用系统领域词汇集合及多个服务应用参数形成为关键实体集合，关键实体集合包含多个系统领域词汇。举例而言，关键实体集合包含企业领域词汇以及企业系统的服务应用参数等信息。企业领域词汇则是指每个不同领域的企业可能会需要用到的词汇，例如医疗业运用到的词汇与运输业运用到的词汇一定不相同，因此企业领域词汇会依照每个使用ERP系统的企业不同而有所变化。企业系统的服务应用参数则是企业系统所提供的各项服务对应的参数，举例而言，企业系统中的请假功能可能需要请假时间、假别等信息，关键实体集合中的系统领域词汇就需要包含事假、年假、病假、出差假等信息。

详细而言，关键实体集合还包含存取数据时会有的数据栏位名称、企业系统提供给使用者的服务名称、使用者在查询时所设定的限制条件的参数值、服务应用的参数值以及企业系统的操作函数等，企业系统的操作函数可以为请假、加班申请、出差申请、报支等操作函数。而上述的这些信息也可能会有对应的别名，也需在训练数据库时一并输入，例如：出货单对于特定领域的厂商有可能有出货明细表或销货单等不同的名称。

于步骤S430中，将多个训练语料分类为查询数据操作及执行指令操作的其中之一。训练语料可以是使用者的可能会下的指令或会问的问题等自然语言的数据，在建立好关键实体集合后会将训练语料按照意图分类，于一实施例中，使用者的意图分为查询数据操作及执行指令操作，但也可以将使用者的意图分类的更精细，本发明不限于此。举例而言，使用者如果对虚拟助理说：「请帮我找XX公司的出货单」，在本发明的意图分类中会分类为查询数据操作，虚拟助理就会去企业数据库中帮使用者查询XX公司的出货单。如果使用者对虚拟助理说：「帮我请1月30日的出差假」，在本发明的意图分类中会分类为执行指令操作，虚拟助理就会进入企业资源系统中帮使用者请假。

于步骤S440中，依照企业数据库中的类别区分对应查询数据操作的这些训练语料的意图形成多个查询数据操作意图，以及依照企业资源系统提供的服务行为区分对应执行指令操作的这些训练语料的意图形成多个执行指令操作意图。于一实施例中，会先按照每个不同领域的企业数据库对查询数据操作区分意图。举例而言，医疗业的企业数据库所储存的数据栏位一定与运输业的企业数据库不相同，因此两者的使用者需求也不一定相同。例如，对医疗业的使用者可能会有查询病历数据、查询病房空位等都是查询数据操作的不同意图，对运输业的使用者可能会有查询出货纪录、查询包裹运送状态等都是查询数据操作的不同意图。当然也会按照每个不同领域的企业资源系统提供的服务行为对执行指令操作区分意图，如上所述医疗业的企业资源系统所提供的服务也当然会和运输业有所不同，每个不同领域的企业所提供的查询数据操作或服务行为操作也不一定可以通用，因此也需要对每个不同领域的企业所提供的服务区分意图，例如，对医疗业的使用者可能会有提供挂号的服务、提供住院订健康餐的服务等都是服务行为操作的不同意图，对运输业的使用者可能会有提供自动分类货物的服务、安排货物出货顺序的服务等都是服务行为操作的不同意图。

于步骤S450及步骤S460中，建立查询数据操作意图的范本以及执行指令操作意图的范本，并根据关键实体集合、查询数据操作意图的范本以及执行指令操作意图的范本建立总体数据库131。举例而言，将使用者在操作某个领域企业的虚拟助理会有的查询数据操作意图及执行指令操作意图都区分好后，就可以针对每个意图产生对应的范本，根据上方的范例，医疗业就会有对应查询病历数据、查询病房空位、提供挂号的服务及提供住院订健康餐的服务的4个范本，运输业就会有对应查询出货纪录、查询包裹运送状态、提供自动分类货物的服务、安排货物出货顺序的服务的4个范本，接着会根据上述这些范本以及关键实体集合建立总体数据库131。

于步骤S470中，辨识关键实体集合中的系统领域词汇在训练语料中出现的多个第一机率，并通过辨识出的系统领域词汇分析训练语料的多个句型结构，以及系统领域词汇彼此之间的多个关联性，并根据第一机率以及关联性建立共通词汇模型。在一实施例中，利用n元语法(n-GRAM)以及上下文无关文法(Context-free grammar,CFG)两种演算法计算每一系统领域词汇在训练语料中出现的机率，并通过系统领域词汇分析训练语料的句型结构以及系统领域词汇彼此之间的关联性以建立共通词汇模型。举例而言，如果训练语料中有「我要查询XX公司的报价单」以及「我要查询XX公司的出货单」，而「XX公司」、「报价单」及「出货单」都是系统领域词汇，但在上述的范例中，由于「XX公司」可能平均出现在每一个查询数据操作的意图中，因此「XX公司」的机率在每一个查询数据操作的意图中都几乎相同，而「报价单」及「出货单」则只在查询某些特定数据的意图的训练语料中大量出现，而不会出现在查询其他数据的意图的训练语料中，因此「报价单」及「出货单」的机率在对应的意图中会特别高，而在其他意图中会较低。

于步骤S480中，分析查询数据操作意图以及执行指令操作意图中出现系统领域词汇的多个第二机率，并根据句型结构以及第二机率建立共通语意模型。在一实施例中，利用隐马尔可夫模型(Hidden Markov Model，HMM)演算法计算系统领域词汇在查询数据操作意图以及执行指令操作意图中出现的机率，以建立共通语意模型，举例而言，在训练数据模型阶段时会输入许多训练语料，隐马尔可夫模型演算法必须计算系统领域词汇在不同意图出现的机率。结合上述的范例，如果训练语料中有「我要查询XX公司的出货单」，依照n元语法以及上下文无关文法可以找出「XX公司」及「出货单」都是系统领域词汇，而隐马尔可夫模型演算法可以依据所有辨识出的系统领域词汇于查询数据操作意图以及执行指令操作意图中的机率以及系统领域词汇之间的关系，进一步判断「出货单」与查询出货数据的意图相关联，再结合「XX公司」的系统领域词汇，可以自动帮使用者在企业数据库中查询XX公司的出货相关数据。

当建立完共通词汇模型及共通语意模型后，接着进行步骤S320，利用自然语言处理模型分析语料数据，以产生与语料数据对应的语言特征信息，语言特征信息包含多个意图、意图对应的机率以及多个词汇。步骤S320的细部流程请参考图5，图5是根据本案的一些实施例所绘示的步骤S320的流程图。如图5所示，步骤S320包含以下步骤：

步骤S321：利用共通词汇模型辨识语料数据中是否具有符合关键实体集合中的系统领域词汇，将辨识结果设定为语言特征信息中的词汇，并分析语言特征信息中的词汇出现的机率；

步骤S322：根据特征信息中的词汇分析语料数据的句型结构；以及

步骤S323：利用共通语意模型根据特征信息中的词汇出现的机率以及语料数据的句型结构辨识语料数据的意图以及意图对应的机率。

于步骤S321及步骤S322中，利用共通词汇模型辨识语料数据中是否具有符合关键实体集合中的系统领域词汇，将辨识结果设定为语言特征信息中的词汇，并分析语言特征信息中的词汇出现的机率，再根据特征信息中的词汇分析语料数据的句型结构。举例而言，将使用者输入的语料数据，利用共通词汇模型将语料数据中含有系统领域词汇的词汇辨识出来，再进一步判断出语料数据的句型结构。举例而言，如果使用者对虚拟助理说：「我想要查XX公司上个月的出货单」，根据共通词汇模型可以辨识出「XX公司」、「上个月」及「出货单」等符合系统领域词汇的词汇。

于步骤S323中，利用共通语意模型根据特征信息中的词汇出现的机率以及语料数据的句型结构辨识语料数据的意图以及意图对应的机率。根据上方的范例，辨识出「XX公司」、「上个月」及「出货单」等词汇后，会再进一步判断这些词汇在所有意图中的机率。此处指的所有意图包含所有查询数据操作意图以及执行指令操作意图的机率。

于步骤S330中，依据职能情境信息对语言特征信息进行职能情境分析，判断这些意图的其中之一对应的操作。在进行职能情境分析之前需先建立职能情境模型及职能词汇模型，职能情境模型在进行职能情境分析时是先将历史数据库134中的数据所转换成的特征向量，然后会利用机器学习演算法将历史数据库134中的数据依据各种不同的情境分类后计算特征向量与各情境之间的强弱关系，接着产生职能情境模型。适合建立上述职能情境的机器学习演算法包括：传统机器学习常用的支援向量机(Support Vector Machine,SVM)，以及目前深度学习(Deep Learning)相关的卷积神经网路(Convolutional NeuralNetworks,CNN)、递归神经网路(Recurrent Neural Networks,RNN)和长短期记忆模型(Long Short-Term Memory,LSTM)等演算法。

承上述，职能词汇模型是根据大量输入的训练语料利用隐马尔可夫模型演算法分析后再进行断词处理，接着会统计分词的出现频率以产生分词频率表，进而建立职能词汇模型。步骤S330的细部流程请参考图6，图6是根据本案的一些实施例所绘示的步骤S330的流程图。如图6所示，步骤S330包含以下步骤：

步骤S331：利用语料数据以及职能情境信息与职能情境模型进行比对，并产生职能情境辨识结果；以及

步骤S332：根据职能情境辨识结果判断这些意图的其中之一对应查询数据操作及执行指令操作的其中之一。

于步骤S331中，利用语料数据以及职能情境信息与职能情境模型进行比对，并产生职能情境辨识结果。职能情境信息包含使用者的身份、使用者的职位、使用者的部门、时间以及地点。职能情境信息的部分信息可以由输入/输出装置150所感测，例如可以侦测使用者目前的状态(例如，是否出差回来)。根据前面辨识使用者语料数据后所得到的所有意图对应的机率以及词汇，再结合职能情境信息可以进一步估算使用者的语料数据与训练数据模型中的数据的相似程度，作为对应的意图的机率。

于步骤S332中，根据职能情境辨识结果判断这些意图的其中之一对应查询数据操作及执行指令操作的其中之一。由于在训练数据模型中会有多个查询数据操作意图以及多个执行指令操作意图，并且在经过前述的共通语意模型的计算后会产生每个意图对应的机率，具有较低机率值的意图可以利用门槛值过滤，以得到最有可能的意图并确认对应的操作。由前述的范例可知，当辨识出「XX公司」、「上个月」及「出货单」等词汇后，会判断这些词汇搭配职能情境信息找出最符合的查询数据操作意图或执行指令操作意图，在经过上述操作后即会判断出使用者对虚拟助理说：「我想要查XX公司上个月的出货单」，最有可能会要查XX公司的出货单，因此即可对应出使用者想要执行的是查询数据操作。需要有职能情境的判断是因为会因为使用者的职位、部门、操作时间、操作地点等信息不同，而有不同的需求，举例而言，采购人员与财务人员都会看[厂商每月统计表]，但是可能这两者的[厂商每月统计表]的统计目标并不相同：一个是统计厂商的进货状况，另一个是统计自己公司付款给厂商的状况。但使用者在与虚拟助理对话时不一定会明确指说需要什么[厂商每月统计表]，可能只说：「我需要上个月的厂商每月统计表」这种简单的句型，因此才更需要搭配使用者的职能情境信息再进行进一步精准的判断。

于步骤S340中，如果职能情境分析无法判断这些意图的其中之一对应的操作，则针对语料数据进行分词处理。步骤S340的细部流程请参考图7，图7是根据本案的一些实施例所绘示的步骤S340的流程图。如图7所示，步骤S340包含以下步骤：

步骤S341：根据职能词汇模型对语料数据进行断词，以产生多个分词；以及

步骤S342：计算这些分词的频率。

于步骤S341及步骤S342中，根据职能词汇模型对语料数据进行断词，以产生多个分词；接着计算这些分词的频率。如果在步骤S330中职能情境分析无法判断输入的语料数据对应的操作时，就需要对语料数据进行分词处理。首先，会根据先前预先建立好的职能词汇模型中储存的词汇对语料数据进行断词，接着计算断词后产生的多个分词的频率。

于步骤S350及步骤S360中，跟据分词处理后的结果，判断是否存在新词汇或新语料数据；如果存在新词汇，根据新词汇的意义更新自然语言处理模型，如果存在新语料数据，根据新语料数据的意图更新职能情境分析。步骤S360的细部流程请参考图8，图8是根据本案的一些实施例所绘示的步骤S360的流程图。如图8所示，步骤S360包含以下步骤：

步骤S361：判断分词处理计算出的这些分词的频率是否低于门槛值；

步骤S362：如果这些分词的其中之一低于门槛值，这些分词的其中之一则为新词汇，并接收新词汇的定义，以更新共通词汇模型及共通语意模型；以及

步骤S363：如果这些分词均高于门槛值，则语料数据则为新语料数据，并接收新语料数据的意图，以更新职能情境模型。

于步骤S361及步骤S362中，判断分词处理计算出的这些分词的频率是否低于门槛值，如果这些分词的其中之一低于门槛值，这些分词的其中之一则为新词汇，并接收新词汇的定义，以更新共通词汇模型及共通语意模型。于一实施例中，经过分词处理计算完这些分词的频率后，将低于门槛值的分词设定为新词汇，虚拟助理会询问使用者新词汇的定义，并将新词汇以及新词汇的定义一起存入共通词汇模型及共通语意模型中。举例而言，使用者输入的语料是「我想找XX公司的联络人」，而如果虚拟助理无法判断「我想找XX公司的联络人」的意义，会在分词处理后分出「我」、「想找」、「XX公司」、「的」、「联络人」等词汇，如果「XX公司」低于门槛值，虚拟助理会询问使用者「XX公司」是什么意思，接着将使用者的回答及「XX公司」一起存入共通词汇模型及共通语意模型；而新词汇也需要一起存入系统领域词汇集合中，与所有人共用。

于步骤S363中，如果这些分词均高于门槛值，则语料数据则为新语料数据，并接收新语料数据的意图，以更新职能情境模型。接续上方「我想找XX公司的联络人」的范例，在分词处理后分出「我」、「想找」、「XX公司」、「的」、「联络人」等词汇，如果都没有词汇低于门槛值，表示虚拟助理不理解的是语料的意图，有可能在训练智能助理时的训练语料都是关于「帮我查XX公司的联络人」的叙述，因此虚拟助理就会无法理解「我想找XX公司的联络人」的意图，而虚拟助理就需要再询问使用者「我想找XX公司的联络人」是什么意思，接着将使用者的回答及「我想找XX公司的联络人」的新语料一起存入职能情境模型。在存入职能模型之前需要再判断新语料是否为共通语料，如果是的话则代表其他人在使用虚拟助理时也会使用到新语料，因此需要将新语料存入系统领域词汇集合，让所有人共用；但如果不是的话则代表新语料只是使用者本身的说话习惯而有的不同的用语，因此只需要更新职能情境模型即可，不需要再更新系统领域词汇集合。

由上述本案的实施方式可知，主要是让虚拟助理具有自动学习的功能，让虚拟助理可以在与使用者交流的过程中，如果有智能助理不懂的词汇可以在询问使用者过后，更新虚拟助理的数据库，使得虚拟助理可以自动学习到使用者的说话习惯，或是行业中的特殊用语用词，达到让使用者使用ERP系统是能够更快速便利的功效。

另外，上述例示包含依序的示范步骤，但这些步骤不必依所显示的顺序被执行。以不同顺序执行这些步骤皆在本揭示内容的考量范围内。在本揭示内容的实施例的精神与范围内，可视情况增加、取代、变更顺序及/或省略这些步骤。

虽然本案已以实施方式揭示如上，然其并非用以限定本案，任何熟悉此技艺者，在不脱离本案的精神和范围内，当可作各种的更动与润饰，因此本案的保护范围当视所附的权利要求书所界定的范围为准。

Claims

1.一种虚拟助理的自动学习方法，其特征在于，包含：

接收一音频输入并辨识该音频以形成一语料数据；

利用一自然语言处理模型分析该语料数据，以产生与该语料数据对应的一语言特征信息，其中该语言特征信息包含多个意图、所述多个意图对应的机率以及多个词汇；

依据一职能情境信息对该语言特征信息进行一职能情境分析，判断所述多个意图的其中之一对应的一操作；

如果该职能情境分析无法判断所述多个意图的其中之一对应的该操作，则针对该语料数据进行一分词处理；

跟据该分词处理后的结果，判断是否存在一新词汇或一新语料数据；以及

如果存在该新词汇，根据该新词汇的意义更新该自然语言处理模型，如果存在该新语料数据，根据该新语料数据的意图更新该职能情境分析；

其中，该操作包含一查询数据操作及一执行指令操作的其中之一。

2.根据权利要求1所述的虚拟助理的自动学习方法，其特征在于，还包含：

根据一应用知识数据库及一领域知识数据库产生一系统领域词汇集合；

该系统领域词汇集合及多个服务应用参数形成为一关键实体集合，该关键实体集合包含多个系统领域词汇；

将多个训练语料分类为该查询数据操作及该执行指令操作的其中之一；

依照该企业数据库中的类别区分对应该查询数据操作的所述多个训练语料的意图形成多个查询数据操作意图，以及依照该企业资源系统提供的服务行为区分对应该执行指令操作的所述多个训练语料的意图形成多个执行指令操作意图；

建立所述多个查询数据操作意图的范本，以及所述多个执行指令操作意图的范本；

根据该关键实体集合、所述多个查询数据操作意图的范本以及所述多个执行指令操作意图的范本建立该总体数据库；

辨识该关键实体集合中的所述多个系统领域词汇在所述多个训练语料中出现的多个第一机率，并通过辨识出的所述多个系统领域词汇分析所述多个训练语料的多个句型结构，以及所述多个系统领域词汇彼此之间的多个关联性，并根据所述多个第一机率以及所述多个关联性建立一共通词汇模型；以及

分析所述多个查询数据操作意图以及所述多个执行指令操作意图中出现所述多个系统领域词汇的多个第二机率，并根据所述多个句型结构以及所述多个第二机率建立一共通语意模型。

3.根据权利要求2所述的虚拟助理的自动学习方法，其特征在于，还包含：

利用一分类器将一历史数据库中的数据进行关系强弱分类，产生一职能情境模型；以及

将所述多个训练语料进行断词及分析，并根据该历史数据库中的数据产生一职能词汇模型。

4.根据权利要求3所述的虚拟助理的自动学习方法，其特征在于，该职能情境分析还包含：

利用该语料数据以及该职能情境信息与该职能情境模型进行比对，并产生一职能情境辨识结果；以及

根据该职能情境辨识结果判断所述多个意图的其中之一对应该查询数据操作及该执行指令操作的其中之一。

5.根据权利要求4所述的虚拟助理的自动学习方法，其特征在于，该分词处理还包含：

根据该职能词汇模型对该语料数据进行断词，以产生多个分词；以及

计算所述多个分词的频率。

6.根据权利要求5所述的虚拟助理的自动学习方法，其特征在于，还包含：

判断该分词处理计算出的所述多个分词的频率是否低于一门槛值；

如果所述多个分词的其中之一低于该门槛值，所述多个分词的其中之一则为该新词汇，并接收该新词汇的定义，以更新该共通词汇模型及该共通语意模型；以及

如果所述多个分词均高于该门槛值，则该语料数据则为该新语料数据，并接收该新语料数据的意图，以更新该职能情境模型。

7.根据权利要求6所述的虚拟助理的自动学习方法，其特征在于，还包含：

判断该新语料数据是否为共通语料，如果是则根据该新语料数据更新该系统领域词汇集合；以及

根据该新词汇更新该系统领域词汇集合。

8.根据权利要求2所述的虚拟助理的自动学习方法，其特征在于，该自然语言处理模型分析该语料数据还包含：

利用该共通词汇模型辨识该语料数据中是否具有符合该关键实体集合中的所述多个系统领域词汇，将辨识结果设定为所述多个词汇，并分析所述多个词汇出现的机率；

根据所述多个词汇分析该语料数据的句型结构；以及

利用该共通语意模型根据所述多个词汇出现的机率以及该语料数据的句型结构辨识该语料数据的所述多个意图以及所述多个意图对应的机率。

9.一种虚拟助理的自动学习系统，分别与一企业数据库及一企业资源系统连接，其特征在于，包含：

一处理器；

一储存装置，电性连接至该处理器，用以储存一总体数据库、一应用知识数据库、一领域知识数据库以及一历史数据库；

一输入/输出装置，电性连接至该处理器，用以提供一接口以供输入一音频；

其中，该处理器包含：

一语音辨识模块，用以辨识该音频以形成一语料数据；

一语料分析模块，与该语音辨识模块电性连接，用以利用一自然语言处理模型分析该语料数据，以产生与该语料数据对应的一语言特征信息，其中该语言特征信息包含多个意图、所述多个意图对应的机率以及多个词汇；

一情境辨识模块，与该语料分析模块电性连接，用以依据一职能情境信息对该语言特征信息进行一职能情境分析，判断所述多个意图的其中之一对应的一操作；

一未知语料判断模块，与该情境辨识模块电性连接，用以在该情境辨识模块无法辨识所述多个意图的其中之一对应的该操作时，针对该语料数据进行一分词处理，并跟据该分词处理后的结果，判断是否存在一新词汇或一新语料数据；以及

一更新信息模块，与该未知语料判断模块电性连接，用以在有该新词汇产生时，根据该新词汇的意义更新该自然语言处理模型，以及在该新语料数据产生时，根据该新语料数据的意图更新该职能情境分析；

10.根据权利要求9所述的虚拟助理的自动学习系统，其特征在于，该处理器还包含：

一训练模块，与该语料分析模块电性连接，用以根据该应用知识数据库及该领域知识数据库产生一系统领域词汇集合，该系统领域词汇集合及多个服务应用参数形成为一关键实体集合，该关键实体集合包含多个系统领域词汇，并将多个训练语料分类为该查询数据操作及该执行指令操作的其中之一，依照该企业数据库中的类别区分对应该查询数据操作的所述多个训练语料的意图形成多个查询数据操作意图，以及依照该企业资源系统提供的服务行为区分对应该执行指令操作的所述多个训练语料的意图形成多个执行指令操作意图；

一范本建立模块，与该训练模块电性连接，建立所述多个查询数据操作意图的范本，以及所述多个执行指令操作意图的范本，根据该关键实体集合、所述多个查询数据操作意图的范本以及所述多个执行指令操作意图的范本建立该总体数据库；

一词汇模型建立模块，与该范本建立模块电性连接，辨识该关键实体集合中的所述多个系统领域词汇在所述多个训练语料中出现的多个第一机率，并通过辨识出的所述多个系统领域词汇分析所述多个训练语料的多个句型结构，以及所述多个系统领域词汇彼此之间的多个关联性，并根据所述多个第一机率以及所述多个关联性建立一共通词汇模型；以及

一语意模型建立模块，与该范本建立模块电性连接，分析所述多个查询数据操作意图以及所述多个执行指令操作意图中出现所述多个系统领域词汇的多个第二机率，并根据所述多个句型结构以及所述多个第二机率建立一共通语意模型。

11.根据权利要求10所述的虚拟助理的自动学习系统，其特征在于，该处理器还包含：

一情境训练模块，与该情境分析模块电性连接，用以利用一分类器将该历史数据库中的数据进行关系强弱分类，产生一职能情境模型；以及

一词汇训练模块，与该未知语料判断模块电性连接，用以将所述多个训练语料进行断词及分析，并根据该历史数据库中的数据产生一职能词汇模型。

12.根据权利要求11所述的虚拟助理的自动学习系统，其特征在于，该情境分析模块更用以利用该语料数据以及该职能情境信息与该职能情境模型进行比对，并产生一职能情境辨识结果，以及根据该职能情境辨识结果判断所述多个意图的其中之一对应该查询数据操作及该执行指令操作的其中之一。

13.根据权利要求12所述的虚拟助理的自动学习系统，其特征在于，该未知语料判断模块更用以根据该职能词汇模型对该语料数据进行断词，以产生多个分词，以计算所述多个分词的频率。

14.根据权利要求13所述的虚拟助理的自动学习系统，其特征在于，该更新信息模块更用以判断该分词处理计算出的所述多个分词的频率是否低于一门槛值；如果所述多个分词的其中之一低于该门槛值，所述多个分词的其中之一则为该新词汇，并接收该新词汇的定义，以更新该共通词汇模型及该共通语意模型；如果所述多个分词均高于该门槛值，则该语料数据则为该新语料数据，并接收该新语料数据的意图，以更新该职能情境模型。

15.根据权利要求14所述的虚拟助理的自动学习系统，其特征在于，该更新信息模块更用以判断该新语料数据是否为共通语料，如果是则根据该新语料数据更新该系统领域词汇集合；以及根据该新词汇更新该系统领域词汇集合。

16.根据权利要求10所述的虚拟助理的自动学习系统，其特征在于，该语料分析模块更用以利用该共通词汇模型辨识该语料数据中是否具有符合该关键实体集合中的所述多个系统领域词汇，将辨识结果设定为所述多个词汇，并分析所述多个词汇出现的机率，根据所述多个词汇分析该语料数据的句型结构，并利用该共通语意模型根据所述多个词汇出现的机率以及该语料数据的句型结构辨识该语料数据的所述多个意图以及所述多个意图对应的机率。