CN102074232B

CN102074232B - 结合影音的行为辨识系统及其辨识方法

Info

Publication number: CN102074232B
Application number: CN2009102237006A
Authority: CN
Inventors: 吴宗宪; 林仁俊; 魏文丽; 朱家德; 林瑞堂; 许进顺
Original assignee: Institute for Information Industry
Current assignee: Institute for Information Industry
Priority date: 2009-11-25
Filing date: 2009-11-25
Publication date: 2013-06-05
Anticipated expiration: 2029-11-25
Also published as: CN102074232A

Abstract

本发明是有关于一种结合影音的行为辨识系统及其辨识方法，此系统包括一数据分析模块、一数据库与一计算模块。数据库储存多种相异的影音关系模块，每一影音关系模块包括一特征撷取参数与一影音关系参数。数据分析模块取得相对应的手势影像与语音数据，将其导入各特征撷取参数，以形成对应各影音关系模块的影像特征序列与语音特征序列。数据分析模块再利用各影音关系参数以计算出多个影音状态参数。计算模块再利用影音状态参数、影像特征序列与语音特征序列以计算出对应各影音关系参数的识别几率，以从中取出最大值者作为一目标参数。

Description

结合影音的行为辨识系统及其辨识方法

技术领域

本发明涉及一种行为辨识系统及其辨识方法，特别是涉及一种结合影像与语音，并藉由其序列对应关系以辨识出正确行为的行为辨识系统及其辨识方法。

背景技术

请参照图1A所绘示先前技术的影像辨识示意图与图1B所绘示先前技术的语音辨识示意图。

先前技术中，辨别技术包括影像辨识与语音辨识。以影像辨识技术而言，辨识主机2内储有多种影像样本，一摄像模块11拍摄使用者的手势以形成一手势影像，并将手势影像与影像样本匹配，以找出手势影像对应的执行指令。更甚者，对整个手势影像进行影像特征撷取作业，藉由特征值的比对技术以提升手势影像的辨识率。

就语音辨识技术而言，辨识主机2内储有多种语音样本，一麦克风12接收使用者的声音以形成一语音数据，并将语音数据与语音样本匹配，以找出语音数据对应的执行指令。更甚者，对整个语音数据进行语音特征撷取作业，藉由特征值的比对技术以提升语音数据的辨识率。

为提升辨识率，厂商更发展手势影像与语音数据结合的辨识技术。但从影像辨识技术来说，现今的影像辨识系统虽结合影像特征撷取技术，没有考虑重复性手势影像会造成特征撷取错误的问题，导致辨识率不升反降。其次，若影像辨识技术未配合语音辨识技术时，一但手势影像辨识失败，辨识系统即无法正确推断出人类行为动作的意图。同理，若语音辨识技术未配合影像辨识技术时，一但语音数据辨识失败，辨识系统同无法正确推断出人类行为动作的意图。然而，手势影像与语音数据结合的辨识技术多是将手势影像与语音数据作线性合并，一但辨识系统因外部因素(如语音数据包括过多的噪音，或手势影像包括过多的光源干扰，或撷取至异常的特征数据)对影像或语音中任一者辨识失败时，反会造成手势影像与语音数据在线性合并产生错误的辨识结果。

故，如何降低外部干扰因素对辨识系统的影响，更甚者，降低辨识系统撷取异常特征的情形，并提升对人类行为动作的辨识率，为厂商因思虑的问题。

由此可见，上述现有的行为辨识系统及其辨识方法在结构与使用上，显然仍存在有不便与缺陷，而亟待加以进一步改进。为了解决上述存在的问题，相关厂商莫不费尽心思来谋求解决之道，但长久以来一直未见适用的设计被发展完成，而一般产品又没有适切结构能够解决上述问题，此显然是相关业者急欲解决的问题。因此如何能创设一种新型的结合影音的行为辨识系统及其辨识方法，实属当前重要研发课题之一，亦成为当前业界极需改进的目标。

有鉴于上述现有的行为辨识系统及其辨识方法存在的缺陷，本发明人基于从事此类产品设计制造多年丰富的实务经验及专业知识，并配合学理的运用，积极加以研究创新，以期创设一种新型的结合影音的行为辨识系统及其辨识方法，能够改进一般现有的行为辨识系统及其辨识方法，使其更具有实用性。经过不断的研究、设计，并经过反复试作样品及改进后，终于创设出确具实用价值的本发明。

发明内容

本发明的主要目的在于，克服现有的行为辨识系统及其辨识方法存在的缺陷，而提供一种新型的结合影音的行为辨识系统及其辨识方法，所要解决的技术问题是使其降低外部干扰因素对辨识系统的影响并提升对人类行为动作的辨识率的行为辨识系统与辨识方法，非常适于实用。

本发明的目的及解决其技术问题是采用以下技术方案来实现的。依据本发明提出的一种结合影音的行为辨识系统，其包括：一数据库，储存多个影音关系模块，每一影音关系模块包括一特征撷取参数与一影音关系参数；一数据分析模块，将相互对应的一手势影像与一语音数据导入各该特征撷取参数以取得多个影像特征序列与多个语音特征序列，并以对应相同的该影音关系模块为条件，将各该影像特征序列与各该语音特征序列导入各该影音关系参数，以计算出多个影音状态参数；以及一计算模块，利用该影像特征序列、该语音特征序列与该影音状态参数以计算出对应每一影音关系模块的一识别机率，并从该识别机率中取出一目标参数。

本发明的目的及解决其技术问题还可采用以下技术措施进一步实现。

前述的结合影音的行为辨识系统，其中所述的每一影像特征序列包括多个影框数据，该影框数据形成多个影框状态组合，每一该语音特征序列包括多个音框数据，该音框数据形成多个音框状态组合，该数据分析模块将各该影框状态组合与各该音框状态组合导入对应相同的该影音关系模块的该影音关系参数，以计算出多个影音子状态参数，并从中择一作为该影音关系模块对应的该影音状态参数。

前述的结合影音的行为辨识系统，其中所述的数据分析模块利用隐藏式马可夫模型以训练该语音特征序列以形成该音框状态组合。

前述的结合影音的行为辨识系统，其中所述的数据分析模块利用隐藏式马可夫模型以训练该影像特征序列以形成该影框状态组合。

前述的结合影音的行为辨识系统，其中所述的影音状态参数为该影音子状态参数中，最大数值的该影音子状态参数。

前述的结合影音的行为辨识系统，其中所述的每一影像特征序列包括多个影框状态群组，每一该语音特征序列包括多个音框状态群组，每一該影音关系模块包括的该特征撷取参数记录各该影框状态群组对应至各该音框状态群组的机率参数，及各该音框状态群组对应至各该影框状态群组的机率参数。

前述的结合影音的行为辨识系统，其中所述的各影框状态群组与各该音框状态群组之间具有至少一框对应关系，于同一次该影像特征序列与该语音特征序列导入该影音关系参数的关系计算中，该数据分析模块将该影框状态群组与该音框状态群组导入对应相同的该影音关系模块的该影音关系参数，并根据该至少一框对应关系的种类以计算出多个影音识别机率值，并从中择一作为该影音关系参数的关系计算对应的该影音子状态参数。

前述的结合影音的行为辨识系统，其中所述的影音子状态参数为影音识别机率值中，最大数值的该影音识别机率值。

前述的结合影音的行为辨识系统，其中所述的手势影像包括多个影框数据，每一影框数据包括一影像特征值，该数据分析模块利用该影像特征值判定该手势影像包括至少一重复影像数据，撷取任一重复影像数据以形成各该影像特征序列。

前述的结合影音的行为辨识系统，其中所述的语音数据包括多个音框数据，每一音框数据包括一语音特征值，该数据分析模块利用该语音特征值判定该语音数据包括至少一重复语音数据，撷取任一重复语音数据以形成各该语音特征序列。

前述的结合影音的行为辨识系统，其中所述的目标参数为该识别机率中，最大数值的该识别机率。

本发明的目的及解决其技术问题还采用以下技术方案来实现。依据本发明提出的一种结合影音的行为辨识方法，其包括下列步骤：

取得相互对应的一手势影像及一语音数据；

提供多个影音关系模块，每一影音关系模块包括一特征撷取参数与一影音关系参数；

取得多个影像特征序列与多个语音特征序列，将该手势影像与该语音数据导入该特征撷取参数，以计算出该影像特征序列与该语音特征序列；

计算出多个影音状态参数，以对应相同的该影音关系模块为条件，将各该影像特征序列与各该语音特征序列导入各该影音关系参数，以取得该影音状态参数；

计算出多个识别机率，利用该影像特征序列、该语音特征序列与该影音状态参数以计算出对应每一影音关系模块的一识别机率；以及

从该识别机率中取出一目标参数。

前述的结合影音的行为辨识方法，其中所述的每一该影像特征序列包括多个影框数据，该影框数据形成多个影框状态组合，每一该语音特征序列包括多个音框数据，该音框数据形成多个音框状态组合，其中计算出多个影音状态参数的该步骤包括：取得多个影音子状态参数，将各该影框状态组合与各该音框状态组合导入对应相同的该影音关系模块的该影音关系参数，以计算出该影音子状态参数；以及从该影音子状态参数中择一作为该影音关系模块对应的该影音状态参数。

前述的结合影音的行为辨识方法，其中所述的音框状态组合由隐藏式马可夫模型以训练形成。

前述的结合影音的行为辨识方法，其中所述的影框状态组合由隐藏式马可夫模型以训练形成。

前述的结合影音的行为辨识方法，其中所述的影音状态参数为该影音子状态参数中，最大数值的该影音子状态参数。

前述的结合影音的行为辨识方法，其中所述的每一影像特征序列包括多个影框状态群组，每一该语音特征序列包括多个音框状态群组，每一特征撷取参数记录每一影框状态群组对应至各该音框状态群组的机率参数。

前述的结合影音的行为辨识方法，其中所述的每一影框状态群组与每一音框状态群组包括至少一框对应关系，其中取得多个影音子状态参数的该步骤更包括：取得多个影音识别机率值，于同一次该影像特征序列与该语音特征序列导入该影音关系参数的关系计算中，将该影框状态群组与该音框状态群组导入对应相同的该影音关系模块的该影音关系参数，并根据该至少一框对应关系的种类以计算出该影音识别机率值；以及从中择一作为该关系计算对应的该影音子状态参数。

前述的结合影音的行为辨识方法，其中所述的影音子状态参数为该影音识别机率值中，最大数值的该影音识别机率值。

前述的结合影音的行为辨识方法，其中所述的取得多个影像特征序列与多个语音特征序列的该步骤包括：解析该手势影像包括的多个影框数据，以取得每一影框数据包括的一影像特征值；利用该影像特征值判定该手势影像是否包括多个重复影像数据；当判定为是，撷取任一重复影像数据以形成各该影像特征序列；以及当判定为否，将该手势影像转换为各该影像特征序列。

前述的结合影音的行为辨识方法，其中所述的取得多个影像特征序列与多个语音特征序列的该步骤包括：解析该语音数据包括的多个音框数据，以取得每一音框数据包括的一语音特征值；利用该语音特征值判定该语音数据是否包括多个重复语音数据；当判定为是，撷取任一重复语音数据以形成各该语音特征序列；以及当判定为否，将该语音数据转换为各该语音特征序列。

前述的结合影音的行为辨识方法，其中所述的目标参数为该识别机率中，最大数值的该识别机率。

前述的结合影音的行为辨识方法，其中任一所述的影音关系模块，其建立方法包括：

取得相对应的一训练影像与一训练语音；

转换该训练影像与该训练语音以形成一影像训练序列与一语音训练序列，该影像训练序列包括多个影框数据，该语音训练序列包括多个音框数据；

利用多种划分方式划分该影像训练序列与该语音训练序列，形成多个影像划分序列与多个语音划分序列；

推算该影像划分序列与该语音划分序列的对应关系，以产生属于该任一影音关系模块的该影音关系参数；

记录该训练影像与该训练语音的特征撷取模式为该任一影音关系模块的特征撷取参数；以及

记录该特征撷取参数与该影音关系参数形成该任一影音关系模块。

本发明与现有技术相比具有明显的优点和有益效果。由以上可知，为达到上述目的，本发明提供了一种结合影音的行为辨识系统，其包括：一数据库、一数据分析模块与一计算模块。数据库包括多个影音关系模块，每一影音关系模块包括一特征撷取参数与一影音关系参数。数据分析模块将相互对应的一手势影像与一语音数据导入各特征撷取参数以取得多个影像特征序列与语音特征序列，并以对应相同影音关系模块为条件，将各影像特征序列与各语音特征序列导入各影音关系参数，以计算出多个影音状态参数。计算模块则利用所有影像特征序列、所有语音特征序列与所有影音状态参数以计算出对应每一影音关系模块的一识别机率，并从所有识别机率中取出一目标参数。

为解决上述方法问题，本发明揭露一种结合影音的行为辨识方法，其包括：取得相互对应的一手势影像及一语音数据。提供多个影音关系模块，每一影音关系模块包括一特征撷取参数与一影音关系参数。将手势影像与语音数据个别导入各特征撷取参数，以计算出多个影像特征序列与多个语音特征序列。以对应相同的影音关系模块为条件，将各影像特征序列与各语音特征序列导入各影音关系参数，以计算出多个影音状态参数。利用所有影像特征序列、所有语音特征序列与所有影音状态参数，以计算出对应每一影音关系模块的一识别机率，并从所有识别机率中取出一目标参数。

借由上述技术方案，本发明结合影音的行为辨识系统及其辨识方法至少具有下列优点及有益效果：

1、本发明的特点在于本发明将手势影像与语音数据转换为影像特征序列与语音特征序列，以计算两序列的影音特征关系，以降低外部干扰因素对手势影像与语音数据的影响而产生系统撷取错误特征的问题，进而提升对人类行为动作的辨识率。

2、本发明揭露的影音特征关系对应技术，即便手势影像包括的重复影像数据与语音数据包括的重复语音数据的数量未能匹配时，乃能藉由将手势影像与语音数据转换能相互匹配计算的影像特征序列与语音特征序列，找出两序列的影音特征关系，有益于进行人类行为动作的辨识作业。

综上所述，本发明是有关于一种结合影音的行为辨识系统及其辨识方法，此系统包括一数据分析模块、一数据库与一计算模块。数据库储存多种相异的影音关系模块，每一影音关系模块包括一特征撷取参数与一影音关系参数。数据分析模块取得相对应的手势影像与语音数据，将其导入各特征撷取参数，以形成对应各影音关系模块的影像特征序列与语音特征序列。数据分析模块再利用各影音关系参数以计算出多个影音状态参数。计算模块再利用影音状态参数、影像特征序列与语音特征序列以计算出对应各影音关系参数的识别机率，以从中取出最大值者作为一目标参数。本发明在技术上有显著的进步，并具有明显的积极效果，诚为一新颖、进步、实用的新设计。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图，详细说明如下。

附图说明

图1A是先前技术的影像辨识示意图。

图1B是先前技术的语音辨识示意图。

图2A是本发明实施例的行为辨识系统架构图。

图2B是本发明实施例的行为辨识系统方块图。

图3A是本发明实施例的手势影像特征撷取示意图。

图3B是本发明实施例的手势移动轨迹量化成方向性曲线示意图。

图3C是本发明实施例的角度区间量化示意图。

图4A是本发明实施例的序列初始化示意图。

图4B是本发明实施例的影像特征序列划分示意图。

图4C是本发明实施例的语音特征序列划分示意图。

图5A是本发明实施例的状态对应关系示意图。

图5B是本发明实施例的框对应关系与机率统计示意图。

图5C是本发明实施例的框对应关系与机率统计示意图。

图5D是本发明实施例的影音关系参数导入示意图。

图6A是本发明实施例的行为辨识方法流程示意图。

图6B至图6E是本发明实施例的结合影音的行为辨识方法细部流程示意图。

图7是本发明实施例的影音关系模块建立流程图。

图8A是本发明实施例的训练资料初始化示意图。

图8B是本发明实施例的语音训练序列划分示意图。

图8C是本发明实施例的影像训练序列划分示意图。

图8D是本发明实施例的训练组合配对示意图。

11：摄像模块

12：麦克风

2：辨识主机

11：摄像模块

12：麦克风

3：辨识主机

31：数据分析模块

32：数据库

33：计算模块

4：影音关系模块

41：特征撷取参数

42：影音关系参数

M1：手势影像

M2：影像特征序列

M3：影框资料

M4：影框状态组合

M5：影框状态群组

MT1：训练影像

MT2：影像训练序列

MT3：训练影框

MT4：影框训练组合

MT5：影框训练群组

V1：语音数据

V2：语音特征序列

V3：音框资料

V4：音框状态组合

V5：音框状态群组

VT1：训练语音

VT2：语音训练序列

VT3：训练音框

VT4：音框训练组合

VT5：音框训练群组

S1：影音状态参数

S2：识别机率

S3：影音识别机率值

S4：影音子状态参数

T1：目标参数

具体实施方式

为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的结合影音的行为辨识系统及其辨识方法其具体实施方式、结构、特征及其功效，详细说明如后。

有关本发明的前述及其他技术内容、特点及功效，在以下配合参考图式的较佳实施例的详细说明中将可清楚的呈现。为了方便说明，在以下的实施例中，相同的元件以相同的编号表示。

首先请参照图2A所绘示本发明实施例的结合影音的行为辨识系统架构图与图2B所绘示的本发明实施例的结合影音的行为辨识系统方块图。请同时参照图3A所绘示本发明实施例的手势影像M1特征撷取示意图、图3B所绘示本发明实施例的手势移动轨迹量化成方向性曲线示意图、图3C所绘示本发明实施例的角度区间量化示意图及图4A绘示的本发明实施例的序列初始化示意图、图4B绘示的本发明实施例的影像特征序列M2划分示意图及图4C绘示的本发明实施例的语音特征序列V2划分示意图。本实施例所揭露的系统以配置于一辨识主机3进行说明，此辨识主机3连接一摄像模块11与一麦克风12，辨识主机3包括一数据库32、一数据分析模块3与一计算模块33。

摄像模块11为一摄影机或一数字照相机等具拍摄连续影像的拍摄设备，此摄像模块11用以拍摄使用者的手势动作，以形成一手势影像M1。麦克风12用以接收使用者发出的声音，以形成一语音数据V1。此手势影像M1与语音数据V1为成对的影音输入数据。

数据库32预储存有多个影音关系模块4，每一个影音关系模块4包括一特征撷取参数41与一影音关系参数42。举例而言，每一个影音关系模块4对应一个人类行为动作。

数据分析模块3将相互对应的手势影像M1与语音数据V1导入各特征撷取参数41以取得多个影像特征序列M2与多个语音特征序列V2，在对应相同影音关系模块4为条件下，将各影像特征序列M2与各语音特征序列V2导入各影音关系参数42，以计算出多个影音状态参数S1。

最后，计算模块33会利用影像特征序列M2、语音特征序列V2与影音状态参数S1以计算出对应每一影音关系模块4的一识别机率S2，并从识别机率S2中取出一目标参数T1。计算模块33所运用的计算式如下：

(G^{*}, A^{*}) = \underset{G, A}{\arg \max} p (O_{G}, O_{A}, S_{G}, S_{A} | G, A)

\approx \underset{G, A}{\arg \max} p (O_{G}, S_{G}, S_{A} | G) p (O_{A}, S_{G}, S_{A} | A)

= \underset{G, A}{\arg \max} p (O_{G}, S_{G} | G) p (S_{A} | S_{G}, O_{G}, G) p (S_{G} | S_{A}, O_{A}, A) p (O_{A}, S_{A} | A)

\approx \underset{G, A}{\arg \max} p (O_{G}, S_{G} | G) p (S_{A} | S_{G}, G) p (S_{G} | S_{A}, A) p (O_{A}, S_{A} | A)

其中(G，A)为同一动作类别的手势及语音模型。p(O_G，S_G|G)为手势影像M1辨识模型；p(S_A，S_G|G)则是给定某一影像特征序列S_G之后，语音特征序列S_A对应到手势模型G中的影音状态参数；p(O_A，S_A|A)为语音指令辨识模型；p(S_G，S_A|A)则是给定语音特征序列S_A之后，影像特征序列S_G对应到语音指令模型A中的影音状态参数。辨识方面，各影音关系模块4的识别机率S2由下式公式计算而得：

p(S_A，S_G|G)p(O_G，S_G|G)p(S_G，S_A|A)p(O_A，S_A|A)

(公式1)

其中，各识别机率S2中，数值为最大者，其所属影音关系模块4即是行为动作类别(G*，A*)。以下说明系统的细部运行模式。

请同时参照图3A所绘示本发明实施例的手势影像M1特征撷取示意图、图3B所绘示本发明实施例的手势移动轨迹量化成方向性曲线示意图及图3C所绘示本发明实施例的角度区间量化示意图。本实施例中，数据分析模块3会分析手势影像M1中每一影框的影像特征值，以计算出每一影框数据M3中使用者的手势图案及其位置(虚框部位)，以计算出一手势运动轨迹。接着，数据分析模块3利用一自相关函数运算出手势影像M1所包括一个以上的重复影像数据，并撷取出任一重复影像数据。其中，自相关函数为：

r_{xx} (k) = \frac{1}{M} Σ_{n = 1}^{M} x (n) \cdot x (n + k)

(公式2)

其中r_xx(k)为在时间位移k上的自相关函数值；x(n)为在时间n上的输入参数；k为时间的位移；M则为手势影像M1的总数。从图3B而言，数据分析模块3撷取t＝0至t＝14之间的重复影像数据，但不以此为限，其它重复影像数据亦可。

为求精准，在撷取影像特征值时，数据分析模块3先利用如图3C绘示的角度区间量化示意图，以进一步将手势影像M1的影像特征值量化成方向性的特征描述。

数据分析模块3会分析语音数据V1中每一音框数据V3的语音特征值，将其转换为梅尔倒频谱参数(Mel-scale Frequency CepstralCoefficients，MFCC)，以计算出每一音框数据V3中使用者的语音特征的变化，再利用公式2找出语音数据V1包括一个以上的重复语音数据，并撷取出任一重复语音数据。

接着，数据分析模块3再将重复语音数据与重复影像数据个别导入各特征撷取参数41，以多个影像特征序列M2与语音特征序列V2。其中，每一影音关系模块4配对相互对应的一组影像特征序列M2与语音特征序列V2，且各影像特征序列M2包括数据为相异；同理，各语音特征序列V2包括数据亦为相异。在此说明，辨识语音与影像技术中，欲辨识不同的手势影像M1与语音数据V1，所使用的特征样本亦不同。举例：数据库32预储的二个执行指令包括“坐下”与“离开”两者，然“坐下”与“离开”的发音不同，因此所撷取语音数据V1的特征值及用以比对的特征样本亦有所差异。

请同时参照图4A绘示的本发明实施例的序列初始化示意图、图4B绘示的本发明实施例的影像特征序列M2划分示意图及图4C绘示的本发明实施例的语音特征序列V2划分示意图。

数据分析模块3会将各影像特征序列M2与语音特征序列V2，在对应相同影音关系模块4为条件下，将各影像特征序列M2与各语音特征序列V2导入各影音关系参数42，以计算出多个影音状态参数S1。

如图4A，每一个影像特征序列M2包括多个影框数据M3，每一个语音特征序列V2包括被数个音框数据V3。数据分析模块3会对影像特征序列M2及语音特征序列V2进行初始化，即将影像特征序列M2与语音特征序列V2作等分。本实施例中，语音特征序列V2被划分为三等分，影像特征序列M2被划分为四等分。

如图4B，数据分析模块3会利用隐藏式马可夫模型对语音特征序列V2进行训练，以规划出多种不同划分模式的音框状态组合V4。本实施例中，不论以何种划分模式，语音特征序列V2被划分出三个音框状态群组V5，每一音框状态群组V5包括一个以上的音框数据V3。但不以此为限，语音特征序列V2亦能划分出二、四、五、六...等不同数量的音框状态群组V5。

如图4C，数据分析模块3会利用隐藏式马可夫模型对影像特征序列M2进行训练，以规划出多种不同划分模式的影框状态组合M4。本实施例中，不论以何种划分模式，影像特征序列M2会划分出四个影框状态群组M5，每一影框状态群组M5包括一个以上的影框数据M3。但不以此为限，影像特征序列M2亦能划分出二、三、五、六...等不同数量的影框状态群组M5。

在此说明，音框状态组合V4是指对同一个语音特征序列V2进行不同划分方式所形成的划分结果，但语音特征序列V2包括的音框数据V3不变。同理，影框状态组合M4是指对同一个影像特征序列M2进行不同划分方式所形成的划分结果，但影像特征序列M2包括的影框数据M3不变。

本实施例中，数据分析模块3利用Viterbi算法对影像特征序列M2与语音特征序列V2进行隐藏式马可夫模型的训练，以找出各音框数据V3/影框数据M3在不同的时间时，存在于那一个音框状态群组V5/影框状态群组M5。

请同时参照图5A绘示的本发明实施例的状态对应关系示意图。每一影音关系模块4包括一个影音关系参数42，其记录在对应相同影音关系模块4的影像特征序列M2与语音特征序列V2时，各影框状态组合M4对应至各音框状态组合V4的机率参数，及各音框状态组合V4对应至各影框状态组合M4的机率参数。

如图5A，其为音框状态组合V4对应影框状态组合M4的其中一种对应模式，但不以此为限。于本实施例中，影像特征序列M2被划分为四个影框状态群组M5，语音特征序列V2被划分为三个音框状态群组V5。各音框状态群组V5对应各影框状态群组M5的机率分别为1、1/10、4/5、1/10、1/2与1/2。此种对应机率关系被记录于影音关系参数42中，反之，每一影框状态群组M5对应各音框状态群组V5的机率亦依此模式而包含于影音关系参数42中。

请参照图5B绘示本发明实施例的框对应关系与机率统计示意图。数据分析模块3会根据上述的状态组合对应模式，进行音框状态组合V4对应影框状态组合M4的状态对应作业。但事实上，每一音框状态群组V5包括的音框数据V3不一定为相同数量，同样的，每一影框状态群组M5包括的影框数据M3不一定为相同数量。因此，在相同音框状态组合V4与影框状态组合M4的状态关系计算下，音框数据V3与影框数据M3的对应关系会形成一对一、一对多与多对一的情形，导致各影框状态群组M5与各音框状态群组V5之间会有一个以上的框对应关系。数据分析模块3在导入影框状态群组M5与音框状态群组V5至影音关系参数42时，会根据不同的框对应关系，以算出一个以上的影音识别机率值S3(包括语音对应影像及影像对应语音)。就此次语音特征序列V2对应影像特征序列M2的框对应作业而言，计算出二个不同的影音识别机率值S3：

(1)p(S_G|S_A’A)＝1x1x1x(4/5)x(4/5)x(4/5)x(1/10)x(1/10)x(1/2)x(1/2)x(1/2)＝0.00032；

(2)p(S_G|S_A’A)＝1x1x1x(4/5)x(4/5)x(1/10)x(1/10)x(1/10)x(1/2)x(1/2)x(1/2)＝0.00004。

数据分析模块3会取最大者，即0.00004，作为此次语音特征序列V2对应影像特征序列M2的影音子状态参数S4。

请同时参照图5C绘示本发明实施例的框对应关系与机率统计示意图与图5D绘示的本发明实施例的影音关系参数42导入示意图。在对应相同的影音关系模块4情形下，数据分析模块3会计算出每一语音特征序列V2对应各影像特征序列M2的影音子状态参数S4，以及每一影像特征序列M2对应各语音特征序列V2的影音子状态参数S4。以图5C来说，影像特征序列M2被划分形成4种不同的影框状态组合M4，语音特征序列V2被划分形成3种不同的音框状态组合V4，如此影框状态组合M4与音框状态组合V4之间会有12种(3x4)对应关系，故会产生12个影音子状态参数S4，数据分析模块3会取所有影音子状态参数S4最大者作为对应此影音关系模块4的影音状态参数S1，并依序从图4A至图5D的运作模式，计算出对应各影音关系模块4的影音状态参数S1。

计算模块33根据各影音关系模块4的影音状态参数S1、影像特征序列M2与语音特征序列V2，将其导入公式1，以计算出对应每一影音关系模块4的识别机率S2，并从中取出一最大值者，作为最后选取的目标参数T1。此目标参数T1所属的影音关系模块4即为使用者所需。更甚者，影音关系模块4更包括一执行命令，当系统辨识出使用者行为并选择其对应的影音关系模块4时，执行被选择影音关系模块4包括的执行命令，以进行相关后续作业。

请参照图6A绘示的本发明实施例的结合影音的行为辨识方法流程示意图、图6B至图6E绘示的本发明实施例的结合影音的行为辨识方法细部流程示意图，请同时参考图2A至图5D以利于了解。此行为辨识方法流程如下：

取得相互对应的一手势影像M1及一语音数据V1(步骤S110)。手势影像M1由一摄像模块11拍摄使用者的手势动作所形成。语音数据V1为一麦克风12接收使用者发出的声音所形成。此手势影像M1与语音数据V1为成对的影音输入数据。

提供多个影音关系模块4，每一影音关系模块4包括一特征撷取参数41与一影音关系参数42(步骤S120)。所有影音关系模块4被预先建构且被储存于数据库32中，本实施例中，每一个影音关系模块4对应一个人类行为动作。

取得多个影像特征序列M2与多个语音特征序列V2(步骤S130)。数据分析模块3将相互对应的手势影像M1与语音数据V1导入各特征撷取参数41以取得多个影像特征序列M2与多个语音特征序列V2。细部运行流程如下：

数据分析模块3先解析手势影像M1包括的多个影框数据M3，以取得每一影框数据M3包括的一影像特征值(步骤S131)。

利用所有影像特征值判定手势影像M1是否包括多个重复影像数据(步骤S132)。数据分析模块3会分析手势影像M1中每一影框数据M3的影像特征值，以计算出每一影框数据M3中使用者的手势图案及其位置，以计算出一手势运动轨迹。接着，数据分析模块3会利用一自相关函数运算出手势影像M1所包括一个以上的重复影像数据。自相关函数为：

r_{xx} (k) = \frac{1}{M} Σ_{n = 1}^{M} x (n) \cdot x (n + k)

(公式2)

其中r_xx(k)为在时间位移k上的自相关函数值；x(n)为在时间n上的输入参数；k为时间的位移；M则为手势影像M1的总数。当数据分析模块3判定手势影像M1包括多个重复影像数据时，数据分析模块3会撷取任一重复影像数据以形成各影像特征序列M2(步骤S133)。反之，手势影像M1未包括多个重复影像数据时，数据分析模块3会直接将手势影像M1转换为各影像特征序列M2(步骤S134)。

+就语音数据V1解析方面，数据分析模块3先解析语音数据V1包括的多个音框资料V3，以取得每一音框数据V3包括的一语音特征值(步骤S135)。利用所有语音特征值判定语音数据V1是否包括多个重复语音数据(步骤S136)。数据分析模块3将各转换为梅尔倒频谱参数(Mel-scaleFrequency Cepstral Coefficients，MFCC)，以计算出每一音框数据V3中使用者的语音特征的变化，再利用公式2分析语音数据V1是否包括一个以上的重复语音数据。当数据分析模块3判定语音数据V1包括一个以上的重复语音数据时，撷取任一重复语音数据以形成各语音特征序列V2(步骤S137)。反之，数据分析模块3则将语音数据V1转换为各语音特征序列V2(步骤S138)。

计算出多个影音状态参数S1(步骤S140)。数据分析模块3会将各影像特征序列M2与语音特征序列V2，在对应相同影音关系模块4为条件下，将各影像特征序列M2与各语音特征序列V2导入各影音关系参数42，以计算出多个影音状态参数S1。此步骤S140包括数个细部流程：

取得多个影音子状态参数S4(步骤S141)。此步骤包括数个细部流程：

取得多个影音识别机率值S3(步骤S1411)。如图4A至图5D，每一个影像特征序列M2包括多个影框数据M3，每一个语音特征序列V2包括被数个音框数据V3。数据分析模块3会对影像特征序列M2及语音特征序列V2进行初始化，即对影像特征序列M2与语音特征序列V2作等分。本实施例中，影像特征序列M2被划分为三等分，语音特征序列V2被划分为四等分。数据分析模块3会利用隐藏式马可夫模型对影像特征序列M2进行训练，以规划出多种不同划分模式的影框状态组合M4。本实施例中，不论以何种划分模式，影像特征序列M2被划分出三个影框状态群组M5，每一影框状态群组M5包括一个以上的影框数据M3。但不以此为限，影像特征序列M2亦能划分出二、四、五、六...等不同数量的影框状态群组M5。接着，数据分析模块3会利用隐藏式马可夫模型对语音特征序列V2进行训练，以规划出多种不同划分模式的音框状态组合V4。本实施例中，不论以何种划分模式，语音特征序列V2被划分出四个音框状态群组V5，每一音框状态群组V5包括一个以上的音框数据V3。但不以此为限，语音特征序列V2亦能划分出二、三、五、六...等不同数量的音框状态群组V5。在此说明，音框状态组合V4是指对同一个语音特征序列V2进行不同划分方式所形成的划分结果，但语音特征序列V2包括的音框数据V3不变。同理，影框状态组合M4是指对同一个影像特征序列M2进行不同划分方式所形成的划分结果，但影像特征序列M2包括的音框数据V3不变。之后，数据分析模块3利用Viterbi算法对影像特征序列M2与语音特征序列V2进行隐藏式马可夫模型的训练，以找出各音框数据V3/影框数据M3在不同的时间时，存在于那一个音框状态群组V5/影框状态群组M5。

每一影音关系模块4包括一个影音关系参数42，其记录在对应相同影音关系模块4的影像特征序列M2与语音特征序列V2时，各影框状态组合M4对应至各音框状态组合V4的机率参数，及各音框状态组合V4对应至各影框状态组合M4的机率参数。

就本实施例中，数据分析模块3会根据上述的状态组合对应模式，进行音框状态组合V4对应影框状态组合M4的状态对应作业。但事实上，每一音框状态群组V5包括的音框数据V3不一定为相同数量，同样的，每一影框状态群组M5包括的影框数据M3不一定为相同数量。因此，在相同音框状态组合V4与影框状态组合M4的状态关系计算下，音框数据V3与影框数据M3的对应关系会形成一对一、一对多与多对一的情形，导致各影框状态群组M5与各音框状态群组V5之间会有一个以上的框对应关系。数据分析模块3在导入影框状态群组M5与音框状态群组V5至影音关系参数42时，会根据不同的框对应关系，以算出一个以上的影音识别机率值S3(包括语音对应影像及影像对应语音)。

从中择一作为当次影音关系参数的关系计算对应的影音子状态参数S4(步骤S1412)。数据分析模块3会从所有影音识别机率值S3中取数值最大者，作为当次语音特征序列V2对应影像特征序列M2的影音子状态参数S4。以此类推，数据分析模块3会计算出所有语音特征序列V2与影像特征序列M2的组合形式所对应的影音子状态参数S4。

从所有影音子状态参数S4中择一作为影音关系模块4对应的影音状态参数S1(步骤S142)。在对应相同的影音关系模块4情形下，数据分析模块3会计算出每一语音特征序列V2对应各影像特征序列M2的影音子状态参数S4，以及每一影像特征序列M2对应各语音特征序列V2的影音子状态参数S4，并取所有影音子状态参数S4最大者作为对应此影音关系模块4的影音状态参数S1，并依序从图4A至图5D的运作模式，计算出对应各影音关系模块4的影音状态参数S1。

计算出多个识别机率S2(步骤S150)。计算模块33再根据各影音关系模块4的影音状态参数S1、影像特征序列M2与语音特征序列V2，将其导入公式1，以计算出对应每一影音关系模块4的识别机率S2，计算模块33所运用的计算式如下：

(G^{*}, A^{*}) = \underset{G, A}{\arg \max} p (O_{G}, O_{A}, S_{G}, S_{A} | G, A)

\approx \underset{G, A}{\arg \max} p (O_{G}, S_{G}, S_{A} | G) p (O_{A}, S_{G}, S_{A} | A)

= \underset{G, A}{\arg \max} p (O_{G}, S_{G} | G) p (S_{A} | S_{G}, O_{G}, G) p (S_{G} | S_{A}, O_{A}, A) p (O_{A}, S_{A} | A)

\approx \underset{G, A}{\arg \max} p (O_{G}, S_{G} | G) p (S_{A} | S_{G}, G) p (S_{G} | S_{A}, A) p (O_{A}, S_{A} | A)

其中(G，A)为同一动作类别的手势及语音模型。p(O_G，S_G|G)为手势影像M1辨识模型；p(S_A，S_G|G)则是给定某一影像特征序列S_G之后，语音特征序列S_A对应到手势模型G中的影音子状态参数；p(O_A，S_A|A)为语音指令辨识模型；p(S_G，S_A|A)则是给定语音特征序列S_A之后，影像特征序列S_G对应到语音指令模型A中的影音子状态参数。

从所有识别机率S2中取出一目标参数T1(步骤S160)。数据分析模块3并从所有识别机率S2中取出一最大值者，作为最后选取的目标参数T1，此目标参数T1所属的影音关系模块4即为使用者所需。

请参照图7绘示的本发明实施例的影音关系模块4建立方法流程图，说明影音关系模块4如何被训练与建立，请同时参照图8A至图8D以利于了解，影音关系模块4建立方法流程说明如下：

取得相对应的一训练影像MT1与一训练语音VT1(步骤S210)。训练影像MT1由一摄像模块11拍摄使用者的手势动作所形成。训练语音VT1为一麦克风12接收使用者发出的声音所形成。此训练影像MT1与训练语音VT1为成对的影音输入数据。

转换训练影像MT1与训练语音VT1以形成一影像训练序列MT2与一语音训练序列VT2(步骤S220)。数据分析模块3会分析训练影像MT1中每一训练影框MT3的影像特征值，以计算出每一训练影框MT3中使用者的手势图案及其位置，以计算出一手势运动轨迹。接着，数据分析模块3利用一自相关函数(公式2)运算出训练影像MT1所包括一个以上的重复影像数据，并撷取任一个重复影像数据。

另外，数据分析模块3会分析训练语音VT1中每一训练音框VT3的语音特征值，将其转换为梅尔倒频谱参数(Mel-scale Frequency CepstralCoefficients，MFCC)，以计算出每一训练音框VT3中使用者的语音特征的变化，再利用公式2找出训练语音VT1包括一个以上的重复语音数据，并撷取出任一重复语音数据。

利用多种划分方式个别划分影像训练序列MT2与语音训练序列VT2，形成多个影像划分序列与多个语音划分序列(步骤S230)。请参照图8A，数据分析模块3会对影像训练序列MT2及语音训练序列VT2进行初始化，即将影像训练序列MT2与语音训练序列VT2作等分。本实施例中，影像训练序列MT2被划分为三等分，语音训练序列VT2被划分为四等分。

如图8B，数据分析模块3会利用隐藏式马可夫模型对语音训练序列VT2进行训练，以规划出多种不同划分模式的音框训练组合VT4。

如图8C，数据分析模块3会利用隐藏式马可夫模型对影像训练序列MT2进行训练，以规划出多种不同划分模式的影框训练组合MT4。

本实施例中，不论以何种划分模式，影像训练序列MT2被划分出三个影框训练群组5，每一影框训练群组5包括一个以上的训练影框MT3，语音训练序列VT2会划分出四个音框训练群组VT5，每一音框训练群组VT5包括一个以上的训练音框VT3，但不以此为限。

请参照图8D，数据分析模块3将每一音框训练组合VT4个别与影框训练组合MT4进行配对，如音框训练组合VT4有5种形态，影框训练组合MT4有6种形态，音框训练组合VT4个别对应影框训练组合MT4的对应关系型态共有5X6＝30种。

推算所有影像训练序列MT2与所有语音训练序列VT2的对应关系，以产生属于各影音关系模块4的影音关系参数42(步骤S240)。

请参照图8D，每一影像训练序列MT2被划分为四个影框训练群组5，每一语音训练序列VT2被划分为三个音框训练群组VT5。数据分析模块3计算每一对应关系型态中，各影框训练群组5与各音框训练群组VT5的个别机率值。

如图8D所绘示的两笔训练数据的对应关系，上方所示音框训练组合VT4与影框训练组合MT4的对应关系模式中，各音框训练群组VT5对应各影框训练群组5的机率值为分别为3/3、4/5、1/5、2/4与2/4。

图8D下方所示音框训练组合VT4与影框训练组合MT4的对应关系模式中，各音框训练群组VT5对应各影框训练群组5的机率值分别为3/3、1/5、4/5、2/4与2/4。

接着，数据分析模块3将两次的对应关系进行机率整合，找出各音框训练群组VT5对应影框训练群组5的个别机率值，以及各影框训练群组5对应音框训练群组VT5的个别机率值，以形成如5C所绘示的影音关系参数42，即公式1表示的p(O_G，S_G|G)p(S_G，S_A|A)。

此外，数据分析模块3会记录训练影像MT1与训练语音VT1的特征撷取模式为各影音关系模块4的特征撷取参数41(步骤S250)。最后数据分析模块3根据不同的动作行为，记录特征撷取参数41与影音关系参数42形成各影音关系模块4(步骤S260)，并储存所有影音关系模块4于数据库32中。

综上所述，乃仅记载本发明为呈现解决问题所采用的技术手段的实施方式或实施例而已，并非用来限定本发明专利实施的范围。即凡与本发明专利申请范围文义相符，或依本发明专利范围所做的均等变化与修饰，皆为本发明专利范围所涵盖。

以上所述，仅是本发明的较佳实施例而已，并非对本发明作任何形式上的限制，虽然本发明已以较佳实施例揭露如上，然而并非用以限定本发明，任何熟悉本专业的技术人员，在不脱离本发明技术方案范围内，当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例，但凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属于本发明技术方案的范围内。

Claims

1.一种结合影音的行为辨识系统，其特征在于其包括：

一数据库，储存多个影音关系模块，每一影音关系模块包括一特征撷取参数与一影音关系参数；

一数据分析模块，将相互对应的一手势影像与一语音数据导入各该特征撷取参数以取得多个影像特征序列与多个语音特征序列，每一该影像特征序列包括多个影框数据，该影框数据形成多个影框状态组合，每一影框状态组合包括多个影框状态群组，每一该语音特征序列包括多个音框数据，该音框数据形成多个音框状态组合，每一音框状态组合包括多个音框状态群组，每一该影音关系模块包括的该影音关系参数记录各该影框状态群组对应至各该音框状态群组的机率参数，及各该音框状态群组对应至各该影框状态群组的机率参数，各该影框状态群组与各该音框状态群组之间具有至少一框对应关系，于同一次该影像特征序列与该语音特征序列导入该影音关系参数的关系计算中，该数据分析模块将该多个影框状态群组与该多个音框状态群组导入对应相同的该影音关系模块的该影音关系参数，并根据该至少一框对应关系的种类与相关的机率参数以计算出多个影音识别机率值，从中择一作为该影音关系参数的关系计算对应的影音子状态参数，以计算出该多个影框状态组合与该多个音框状态组合的关系计算对应的多个影音子状态参数，并从中择一作为该影音关系模块对应的影音状态参数，以取得各该影像特征序列与各该语音特征序列的关系计算对应的多个影音状态参数；以及

一计算模块，利用各该影像特征序列、各该语音特征序列与各该影音状态参数以计算出对应每一影音关系模块的一识别机率，并从该识别机率中取出一目标参数。

2.根据权利要求1所述的结合影音的行为辨识系统，其特征在于其中所述的数据分析模块利用隐藏式马可夫模型以训练该语音特征序列以形成该音框状态组合。

3.根据权利要求1所述的结合影音的行为辨识系统，其特征在于其中所述的数据分析模块利用隐藏式马可夫模型以训练该影像特征序列以形成该影框状态组合。

4.根据权利要求1所述的结合影音的行为辨识系统，其特征在于其中该数据分析模块计算出多个影音子状态参数，并从中择一作为该影音关系模块对应的该影音状态参数时，所述的影音状态参数为该多个影音子状态参数中，最大数值的该影音子状态参数。

5.根据权利要求1所述的结合影音的行为辨识系统，其特征在于其中该数据分析模块计算出多个影音识别机率值，从中择一作为该影音关系参数的关系计算对应的该影音子状态参数时，所述的影音子状态参数为该多个影音识别机率值中，最大数值的该影音识别机率值。

6.根据权利要求1所述的结合影音的行为辨识系统，其特征在于其中所述的手势影像包括多个影框数据，每一影框数据包括一影像特征值，该数据分析模块利用该影像特征值判定该手势影像包括至少一重复影像数据，撷取任一重复影像数据以形成各该影像特征序列。

7.根据权利要求1所述的结合影音的行为辨识系统，其特征在于其中所述的语音数据包括多个音框数据，每一音框数据包括一语音特征值，该数据分析模块利用该语音特征值判定该语音数据包括至少一重复语音数据，撷取任一重复语音数据以形成各该语音特征序列。

8.根据权利要求1所述的结合影音的行为辨识系统，其特征在于其中所述的目标参数为该识别机率中，最大数值的该识别机率。

9.一种结合影音的行为辨识方法，其特征在于其包括下列步骤：

取得相互对应的一手势影像及一语音数据；

取得多个影像特征序列与多个语音特征序列，将该手势影像与该语音数据导入该特征撷取参数，以计算出该影像特征序列与该语音特征序列，每一影像特征序列包括多个影框数据，该影框数据形成多个影框状态组合，每一影框状态组合包括多个影框状态群组，每一该语音特征序列包括多个音框数据，该音框数据形成多个音框状态组合，每一音框状态组合包括多个音框状态群组，每一该影音关系模块包括的该影音关系参数记录各该影框状态群组对应至各该音框状态群组的机率参数，及各该音框状态群组对应至各该影框状态群组的机率参数，各影框状态群组与各该音框状态群组之间具有至少一框对应关系；

计算出多个影音状态参数，于同一次该影像特征序列与该语音特征序列导入该影音关系参数的关系计算中，该多个影框状态群组与该多个音框状态群组导入对应相同的该影音关系模块的该影音关系参数，并根据该至少一框对应关系的种类与相关的机率参数以计算出多个影音识别机率值，从中择一作为该影音关系参数的关系计算对应的影音子状态参数，以计算出该多个影框状态组合与该多个音框状态组合的关系计算对应的多个影音子状态参数，并从中择一作为该影音关系模块对应的影音状态参数，以取得各该影像特征序列与各该语音特征序列的关系计算对应的该多个影音状态参数；

计算出多个识别机率，利用各该影像特征序列、各该语音特征序列与各该影音状态参数以计算出对应每一影音关系模块的一识别机率；以及

从该识别机率中取出一目标参数。

10.根据权利要求9所述的结合影音的行为辨识方法，其特征在于其中所述的音框状态组合由隐藏式马可夫模型以训练形成。

11.根据权利要求9所述的结合影音的行为辨识方法，其特征在于其中所述的影框状态组合由隐藏式马可夫模型以训练形成。

12.根据权利要求9所述的结合影音的行为辨识方法，其特征在于其中计算出多个影音状态参数的该步骤中，计算出多个影音子状态参数，并从中择一作为该影音关系模块对应的该影音状态参数时，所述的影音状态参数为该多个影音子状态参数中，最大数值的该影音子状态参数。

13.根据权利要求9所述的结合影音的行为辨识方法，其特征在于其中计算出多个影音状态参数的该步骤中，计算出多个影音识别机率值，从中择一作为该影音关系参数的关系计算对应的该影音子状态参数时，所述的影音子状态参数为该多个影音识别机率值中，最大数值的该影音识别机率值。

14.根据权利要求9所述的结合影音的行为辨识方法，其特征在于其中所述的取得多个影像特征序列与多个语音特征序列的该步骤包括：

解析该手势影像包括的多个影框数据，以取得每一影框数据包括的一影像特征值；

利用该影像特征值判定该手势影像是否包括多个重复影像数据；

当判定为是，撷取任一重复影像数据以形成各该影像特征序列；以及

当判定为否，将该手势影像转换为各该影像特征序列。

15.根据权利要求9所述的结合影音的行为辨识方法，其特征在于其中所述的取得多个影像特征序列与多个语音特征序列的该步骤包括：

解析该语音数据包括的多个音框数据，以取得每一音框数据包括的一语音特征值；

利用该语音特征值判定该语音数据是否包括多个重复语音数据；

当判定为是，撷取任一重复语音数据以形成各该语音特征序列；以及

当判定为否，将该语音数据转换为各该语音特征序列。

16.根据权利要求9所述的结合影音的行为辨识方法，其特征在于其中所述的目标参数为该识别机率中，最大数值的该识别机率。

17.根据权利要求9所述的结合影音的行为辨识方法，其特征在于其中任一所述的影音关系模块，其建立方法包括：

取得相对应的一训练影像与一训练语音；