CN1220971C

CN1220971C - 一种自然语言的组织和识别方法

Info

Publication number: CN1220971C
Application number: CNB021592454A
Authority: CN
Inventors: 刘武; 孙久文; 孙文彦; 诸光; 任文捷; 王楠; 申江涛; 王江; 高建忠; 王建新
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2002-12-27
Filing date: 2002-12-27
Publication date: 2005-09-28
Anticipated expiration: 2022-12-27
Also published as: CN1512484A

Abstract

本发明公开了一种自然语言的组织和识别方法，该方法包括：预先设定每个语义中必须出现的关键语素；当收到用户端输入的语音信息后，将语音信息划分为至少一个语义群，将每个语义群中的词汇与预先设定的每个语义的关键语素进行比较，确定当前语义群的语义。本发明通过设定并寻找语义中的关键语素，从而摆脱了传统技术繁杂的语法编写过程，自然语言识别系统的设计大大简化，节省了人力物力和系统资源的同时，使系统对语音的识别更加灵活，有助于语音交互系统更加智能化、个性化的发展。

Description

一种自然语言的组织和识别方法

技术领域

本发明涉及语音系统中对自然语言的识别处理技术，特别是指一种自然语言组织和识别方法。

背景技术

随着社会对各种自动化、智能化服务系统需求的不断增多和语音应用技术的不断成熟，各种基于语音提示来引导用户完成系统特定功能的导航交互系统日渐增多，已成为一个非常活跃的领域，其应用涉及邮件、电话号码、股票及其它各种信息服务领域。

在语音交互系统中，十分关键的一项技术就是对语音的组织和识别。只有对用户所输入的语音指示做到准确识别和理解，才能够发出正确的提示信息，进而引导用户完成系统的特定功能。

目前，现有语音识别技术所采取的方法多是将获取的语音信息在具有明确语法逻辑的固定规则中寻找相应的匹配，这样，为了支持某种表达方式必须编写与之完全对应的固定语法。因此，这种方法的缺点是：一方面在预先编写语法规则时必须考虑到所有可能出现的语法规则，并将该所有可能情况一一编入识别系统，工作量十分庞大并需要占用大量系统资源；另一方面由于用户的语言习惯各不相同，不可能收入所有的语法规则，因此对于未编入系统的语法类型，系统就无法进行正确的识别和理解，限制了用户的语言习惯，无法实现针对不同用户的个性化引导。

发明内容

有鉴于此，本发明的目的是提供一种自然语言的组织和识别方法，使对语音的识别更加灵活，摆脱语法规则的限制，并且简化传统技术中繁杂的语法编写过程。

为实现上述目的，本发明的技术方案具体是这样实现的：

一种自然语言的组织和识别方法，该方法包括：

预先设定为明确表述一个语义所必须出现的主体词；

当收到用户端输入的语音信息后，将语音信息划分为至少一个语义群，将每个语义群中的词汇逐一与预先设定的每个语义的主体词进行比较，如果当前语义群中包含有某个语义的全部主体词，则判定该语义为当前语义群所表述的语义。

将区别不同语义所必须的词一起划分为主体词。

该方法进一步包括：预先统计出表述每个语义所有要出现的词，如果当前语义群中包含一个以上语义的全部主体词，则将该语义群的词汇与该一个以上语义所有要出现的词逐一比较，如果该语义群的词汇完全包含在某个语义所有要出现的词中，则判定该语义为当前语义群所表述的语义。

该方法进一步包括：将统计出的表述每个语义所有要出现的词按其在语义群中出现的至少一种位置顺序进行合并和排列，则所述比较进一步包括比较所述语义群中词汇的位置顺序和所述每个语义每种词汇位置顺序是否一致。

该方法进一步包括：将对同一语义的不同表述归类为一种以上的表述方式，统计出每种表述方式中每一位置能出现的替换词，再将所有表述方式组合合并。

该方法进一步包括：将构成每种表述方式中所有要出现非主体词作进一步划分，设定构成每种表述方式所必须具备的基础词为关键词，并设定余下的所有词汇为普通词，如果当前语义群中包含一个以上语义的全部主体词，则将该语义群的词汇与该一个以上语义的关键词比较，如果该语义群的关键词完全包含在某个语义的关键词中，则判定该语义为当前语义群所表述的语义。

该方法进一步包括：将所述主体词的权值设置为最大，将所述关键词的权值设置为较小，将所述普通词的权值设置为最小，如果当前语义群中包含一个以上语义的全部主体词，则分别计算当前语义群的词汇在对应每个语义的权值之和，判定所得权值之和最大的语义为该语义群所表述的语义。

该方法具体包括：所述主体词是在每个交互步骤中针对每个语义进行设定的。

该方法所述语义群是语音信息中连续发出的一段语音。

通过上述方案可以看出，本发明通过设定并寻找语义中的关键语素，从而摆脱了传统技术繁杂的语法编写过程，自然语言识别系统的设计大大简化，在节省人力、物力和系统资源的同时，使系统对语音的识别更加灵活，有助于语音交互系统更加智能化、个性化的发展。

具体实施方式

下面结合具体实施例对本发明再作进一步详细的说明。

本发明的自然语言组织和识别方法主要用于特定交互环境下的语音识别。本发明引入了一种缺省逻辑，预先设定在某个交互环境下表述每个语义所必须出现的关键语素。当收到用户端输入的语音信息后，将语音信息划分为至少一个语义群，再将每个语义群中的词汇与预先设定的每个语义的关键语素逐一进行比较，来确定当前语义群的语义。

本发明第一个较佳的实施方式是主体词识别法，该方法的核心思想是：预先确定出明确表述某个语义所必须出现的词，将它们属性定义为主体词。当接收到语音信息时，寻找语音信息的语义群中是否含有一个语义的所有主体词，如果是，则可直接判断当前语义群的语义即为该语义；如果未含有或未完全含有某一语义的全部主体词，则认为所接收的语义群为无效语句，系统不予识别。

本发明中的语义群是指具有一定意思的一段语音，可以理解为用户所发出的一句话。系统判别语义群的方法可以很多，最简单的方法，可以是将两个较长时间停顿间的一段语音判定为一个语义群。

主体词在本发明的缺省逻辑中又称为非缺省词，是指在识别过程中不可缺少的。在识别过程中必须出现，否则识别的语音将为其它语义群。此类词往往共同构成语义群最小的语法结构，该语法不仅能够表示唯一确定的语义，而且是不能再精简词汇的最简语法。在识别过程中，如果捕获的用户语音中某语义群的主体词没有出现或没有完全出现，则表明该语义群的语义肯定不是系统期望获取的语义；反之，如果语义中所有的主体词均在获取的用户语音中出现，则表明该语义群中含有对应的语义，并且需要进一步的分析处理。

主体词以外的词汇本发明中称为缺省词汇，是指可以缺省的非必要的词汇。该类词在识别语法文件中根据实际的语音需要可以出现也可以不出现，此类词虽然可能是构成某种表述方式的必备词汇，但却不是表达语义群语义的必要词汇，在语义群中主要起到补充说明的作用。

对于特定的一个词，上述的属性分类并不是固定不变的，需要根据语音交互系统所支持的业务功能和所需构造的语义群对其进行定义。

在当前使用的语音系统为用于邮件管理的电话语音邮件系统时，以按绝对顺序点播“第N条”邮件的特定交互环境为例。由于只有一项业务，因此可以确定主体词为“第”、“N”、“条”，其中N是一个任意的自然数，“条”还可以替换成它的近义词“个”、“封”等作为主体词。当进行语音识别时，将不含有或未完全含有“第”、“N”、“条”的语义群排除，只找出完全含有这几个主体词的语义群，由于只有此一项业务，因此可以判断该语义群的语义为用户要点播第N条邮件。

这样只有含有全部主体词的语义群，系统才对其进行识别、理解。最终的识别结果只可能是在获取的交互语音中含有其所有主体词的语义群。这样不仅排除了大量与交互语音完全不相关的可能识别，而且有效的排除了大量非主体词可能导致的识别错误和识别歧义，此种方法在本发明中称作主体词排歧义法。该方法不仅可以独立进行语义识别，而且也为进一步的灵活、精确提取用户语义奠定了基础。

对于语义较多的多种业务的语音交互环境，采用方法时主体词的划分则会有所不同。因为在这里主体词是作为理解语义的基础和语义间区别的标志，所以确定主体词时需要考虑到语义之间的区分，不能出现两个语义主体词完全相同的情况。

例如对于邮件、新闻组合业务，可以按表1所示的方法划分词的属性。

业务1	来自	某人	的	第	N	条	来自	某人	的	邮件
业务1	来自	某人	的	第	N	条	来自	某人	的	邮件	业务2	热门	新闻	的	第	N	条	热门		的	新闻

表1

由于在组合业务系统中单纯根据“第”、“N”、“条”的语义是无法准确判断用户的业务意图的，因此需要将原来在单一业务系统中处于缺省词地位的“邮件”、“新闻”两词在各自的语义群中定义为主体词中的一部分，划分到主体词中来。于是，针对邮件业务语义群中的主体词为“第”、“N”、“条”、“邮件”；而新闻业务语义群中的主体词则为“第”、“N”、“条”、“新闻”，即表1中的带下划线的文字。在语音交互过程中，系统只有捕获到一个语义群中所有的主体词，即“第”、“N”、“条”、“邮件”，或“第”、“N”、“条”、“新闻”才对其进行进一步的处理。

但此种做法由于主体词过多，不利于与用户灵活交互过程的实现，特别是随着系统业务功能的不断增多，可能对识别率产生不利的影响。

因此，本发明第二个较佳的实施方式是：主体词仍然保留原有单一业务的主体词结构，预先统计出对某一语义不同表述所有可能出现的词，即统计出所有可能的缺省词汇。如果通过主体词无法唯一确定语义群的语义，则进一步将其在缺省词汇中比较，如果该语义群的词汇完全包含在某个语义所有可能缺省词汇中，则判定当前语义群所表述的语义为该语义。

例如对于上述收听邮件、新闻两种业务的情况。如果系统捕获到的语音为“热门的第N条”，由于本实施例中的主体词仍保留原单一业务的结构，即“第”、“N”、“条”，则此时系统首先判断所捕获语义群中是否含有所有主体词，由于两项业务的主体词完全相同，因此无法通过主体词进行区分，则进一步在缺省词汇中查找，由于“热门”不可能作为邮件业务的修饰语，它只可能作为新闻业务的缺省词，因此可以判定该语义群所表述的是收听第N条新闻业务。

并且，第二实施例方案中更好更准确的方法是：将统计出的表述每个语义所有可能出现的词按它们在语义群中可能出现的位置顺序进行合并和排列，在比较时进一步比较语义群中词的位置与缺省词是否一致。

在实际进行工作中，可以将同一语义的不同表述归类为几个表述方式，统计出每个表述方式中每一位置可能出现的替换词，最后再将这些表述方式组合合并。

以接听“第N条”邮件业务为例。

对于“接听第N条邮件”这一语义，可能的典型表述方式，例如可分为以下四类：

1)主语前置——我接着想听第N条邮件。

2)主语后置——接着我想听第N条邮件。

3)主语省略——开始读第N条邮件。

4)祈使语气——请给我读第N条邮件。

首先确定该语义交互中必须出现的主体词为：“第”、“N”、“条”(个、封)。而其它的词均为可以实现缺省的部分，如表2中所示不带下划线的文字，因此列入缺省词。然后根据对人群语言习惯的调查和统计，统计出所有可能的表述方式，并将它们归入以上四类，生成表2。

我

继续接着再再来还

听想听要

第

一二三四五六

条个封

信邮件信件

吧

					七八九十	七八九十	七八九十
					七八九十	七八九十	七八九十				接着	我	听想听要		第	一二三四五六七八九十	一二三四五六七八九十	一二三四五六七八九十	条个封	信邮件信件	吧
请麻烦劳驾	替帮给为	我	读念跳转换	第	一二三四五六七八九十	一二三四五六七八九十	一二三四五六七八九十	条个封	信邮件信件	吧	接着	我	听想听要		第	一二三四五六七八九十	一二三四五六七八九十	一二三四五六七八九十	条个封	信邮件信件	吧
请麻烦劳驾	替帮给为	我	读念跳转换	第	一二三四五六七八九十	一二三四五六七八九十	一二三四五六七八九十	条个封	信邮件信件	吧	开始			读念跳转换	第	一二三四五六七八九十	一二三四五六七八九十	一二三四五六七八九十	条个封	信邮件信件	吧

表2

表2中每一行代表一类表述方式，每一类表述由该行中所有单元格共同组成，其中单元格中的多个词汇在使用过程中根据需要可以相互替换。此四类主要表达方式如果不采用缺省逻辑处理，将需要为其编写大约747000条独立的语法规则，这不仅一种非常繁杂的工作而且将对语音识别的效果将产生极其不利的影响。

四类主要表达方式确定后，接下来便是将其有机地融合成为一个能够实现自组织的语义群，并得到如表3所示唯一的语法规则，该语法规则不仅含盖了上述四条语法规则中的语义各种不同的表达方式，而且将可能识别处理的潜在表达方式扩展到8100000条。

我

请麻烦劳驾

继续接着再再来还

替帮给为

我

开始

听想听要

读念跳转换

第

一二三四五六七八九十

条个封

信邮件信件

吧

表3

这样就可以形成该语义的一个超级语法，当一个语义群无法通过主体词确定其意思时，就可以将其放在备选语义的超级语法中进行比较，找出与超级语法完全符合的一个语义。

对于“接听第N条新闻”，可以采用同样的方法构建它的超级语法，从而形成两个语义分支。每个语义分支不仅能够分别针对各自业务为特定的语音识别提供支持，而且能够保留原有单一业务主体词语义下能够实现的各种灵活交互方式。

本发明第三个较佳的实施方式是，进一步将每个语义所有可能出现的词中主体词以外的词作进一步划分，将构成某种表述方式所必须具备的基础词的属性定义为关键词，将余下对构成某种表达方式起辅助作用的词的属性定义为普通词。在进行缺省词比较时，只比较关键词，而对普通词可以忽略不进行比较，这样又可以进一步增加本发明语音识别的灵活性。

本发明第四个较佳的实施方式是，为本发明所划分的不同属性的词付与一定的权值。将主体词的权值设定为最大，将关键词的权值设定为较小，将普通词的权值设定为最小。

在进行语音识别时，将满足条件的语义群分别放在每个其所包含全部主体词语义的超级语法中，分别计算出该语义群在每个超级语法中的权值之和，然后找出权值之和最大的并认为此语义即为该语义群的语义。这一方法在本发明中称为的“语义理解的精确逼近法”。

主体词仍然保留原有单一业务的主体词结构，主体词可以不含有区别其它语义所必须的词，而与其它语义的主体词一致。一般设定主体词权值为10。

关键词在同类语义中构成某种表述方式所需具备的基础词汇，此类词一般为动词、名词等实词，其往往是构成某种表述方式的必备词汇，但却不是表达语义群语义的必备词汇。一般设定其权值为1～2。

普通词则主要是由一些口语化、个性化的虚词构成，该类词在识别过程种主要对语义结果进行微调，以满足个性化系统的需求。该类词在语义分析处理中占的权值最小，一般其权值为0.1。

仍以接听邮件和新闻业务为例。根据表述习惯可提供如表4所示的简化的两种语义分支。

属性	关键词		普通词	主体词			关键词	普通词	关键词
属性	关键词		普通词	主体词			关键词	普通词	关键词	语义分支1	来自	某人	的	第	N	条	来自	某人	的	邮件
语义分支2	热门	新闻	的	第	N	条	热门	的	新闻	语义分支1	来自	某人	的	第	N	条	来自	某人	的	邮件

表4

当系统捕获到用户的语音信息时，先找出该语音信息的语义群中所含有的系统设定的主体词，即“第”、“N”、“条”(个、封)，如果主体词在获取的交互语音中没有出现或出现的不完全，则表明该语义群中与捕获语音的语义信息不匹配，将其排除。这一过程在本发明中称之为“语义理解的主体词排歧义法”。

若捕获得到的语音为“热门的第N条”，由于该语义群中含有“第”、“N”、“条”全部的主体词，则可根据“语义理解的精确逼近法”进行进一步的识别。

关键词的权值设定为1时，两种语义分支对相关属性词权值的统计过程分别如下：

语义分支1匹配度＝0.1(的)+10(第)+10(N)+10(条)＝30.1语义分支2匹配度＝1(热门)+0.1(的)+10(第)+10(N)+10(条)＝31.1

由此可知语义分支2的匹配度大于语义分支1的匹配度，语义分支2更逼近识别得到的语音的真实语义，即用户希望对第N条热门新闻进行相关操作。可见该语义群中虽然没有“邮件”、“新闻”这样的标志性词，但系统同样可以识别辨认，这是采取上述第一种实施例所述方法，即主体词识别法时无法实现的，从而极大的提高了语音交互的灵活性。

在精确逼近语义的过程中，若捕获的识别语音仅含有主体词或其中含有大量关键词、普通词，均可能出现几个分支语义同时具有相同的最大匹配度。对于此种情况，系统会在现有确定语义群的基础上与对用户提供更加明确的引导提示，再根据用户信输入的语音信息利用“主体词排歧义法”和“语义理解的精确逼近法”进行识别，以实现不断逼近用户语义的过程。

由于语音交互业务中每个交互步骤只需要识别几个特定的语义，而每个交互步骤在时间上不会同时进行，因此上述几个实施例中主体词均可以针对每一交互步骤来确定，即根据每个交互步骤的所有语义设定主体词，不同交互步骤的主体词可以重复。这不仅使主体词的设定变得更容易，而且也可以尽量减少每个语义主体词的数量，使语义识别更加灵活。

Claims

1、一种自然语言的组织和识别方法，其特征在于，该方法包括：

预先设定为明确表述一个语义所必须出现的主体词；

2、根据权利要求1所述的方法，其特征在于，所述主体词进一步包括：将区别不同语义所必须的词一起划分为主体词。

3、根据权利要求1所述的方法，其特征在于，该方法进一步包括：预先统计出表述每个语义所有要出现的词，如果当前语义群中包含一个以上语义的全部主体词，则将该语义群的词汇与该一个以上语义所有要出现的词逐一比较，如果该语义群的词汇完全包含在某个语义所有要出现的词中，则判定该语义为当前语义群所表述的语义。

4、根据权利要求3所述的方法，其特征在于，该方法进一步包括：将统计出的表述每个语义所有要出现的词按其在语义群中出现的至少一种位置顺序进行合并和排列，则所述比较进一步包括比较所述语义群中词汇的位置顺序和所述每个语义每种词汇位置顺序是否一致。

5、根据权利要求4所述的方法，其特征在于，该方法进一步包括：将对同一语义的不同表述归类为一种以上的表述方式，统计出每种表述方式中每一位置能出现的替换词，再将所有表述方式组合合并。

6、根据权利要求3或4所述的方法，其特征在于，该方法进一步包括：将构成每种表述方式中所有要出现的非主体词作进一步划分，设定构成每种表述方式所必须具备的基础词为关键词，并设定余下的所有词汇为普通词，如果当前语义群中包含一个以上语义的全部主体词，则将该语义群的词汇与该一个以上语义的关键词比较，如果该语义群的关键词完全包含在某个语义的关键词中，则判定该语义为当前语义群所表述的语义。

7、根据权利要求6所述的方法，其特征在于，该方法进一步包括：将所述主体词的权值设置为最大，将所述关键词的权值设置为较小，将所述普通词的权值设置为最小，如果当前语义群中包含一个以上语义的全部主体词，则分别计算当前语义群的词汇在对应每个语义的权值之和，判定所得权值之和最大的语义为该语义群所表述的语义。

8、根据权利要求1所述的方法，其特征在于，该方法具体包括：所述主体词是在每个交互步骤中针对每个语义进行设定的。

9、根据权利要求1所述的方法，其特征在于，所述语义群是语音信息中连续发出的一段语音。