CN109241332B

CN109241332B - 一种通过语音确定语义的方法及系统

Info

Publication number: CN109241332B
Application number: CN201811224723.4A
Authority: CN
Inventors: 魏誉荧
Original assignee: Guangdong Genius Technology Co Ltd
Current assignee: Guangdong Genius Technology Co Ltd
Priority date: 2018-10-19
Filing date: 2018-10-19
Publication date: 2021-09-24
Anticipated expiration: 2038-10-19
Also published as: CN109241332A

Abstract

本发明提供了一种通过语音确定语义的方法及系统，其方法包括：建立关键词对应的音频信息库和层级关系库；获取用户语音信息，将所述用户语音信息与所述音频信息库中的音频信息进行匹配，标记所述用户语音信息中包含的所有的关键词；统计标记的关键词的数量，根据所述层级关系库分析所述标记的关键词之间的层级关系；根据所述数量和/或所述层级关系确定所述用户语音信息的语义。本发明通过用户语音信息中的关键词确定用户语音信息中的语义，避免语音信息过长时对整条语音信息逐一进行语义解析导致解析时间过长以及语义解析不完整。

Description

一种通过语音确定语义的方法及系统

技术领域

本发明涉及信息处理技术领域，尤指一种通过语音确定语义的方法及系统。

背景技术

随着网络技术的迅速发展，智能终端逐渐设计人们生活的方方面面，因此人们也越来越习惯地使用智能终端完成各种需求。而且随着人工智能相关技术的日益成熟，各类终端的智能化程度也越来越高。语音交互作为智能终端应用中主流的交互方式之一，极大地方便了各个用户的使用，例如通过语音控制智能设备的开启关闭以及切换各种使用模式，或者通过语音控制手机满足自身的不同需求，如查天气、查股票、听音乐等，或者用户在开车双手不方便操作时与智能车载设备进行语音交互以完成导航、电台查询、音乐查询等应用需求。各类智能终端在与用户语音交互的过程中，会获取到大量的语音信息，并且需要对获取的语音的语义进行识别解析，从而才能做出相应正确的反馈。

现有技术中智能终端接收包含用户需求的语音信息，对该语音信息进行语音识别后得到对应的识别文本，再对识别文本进行语义理解后，系统根据语义理解结果对用户的需求做出相应的反馈，但是当语音信息过长或者过多时，智能终端不仅处理速度较慢，导致需要较长的处理时间，而且对过长的语音信息的语义理解的效果不是很理想。因此，如何正确快速理解语音数据的语义是人机语音交互过程中需要解决的问题。

发明内容

本发明的目的是提供一种通过语音确定语义的方法及系统，实现通过用户语音信息中的关键词确定用户语音信息中的语义，避免语音信息过长时对整条语音信息逐一进行语义解析导致解析时间过长以及语义解析不完整。

本发明提供的技术方案如下：

本发明提供一种通过语音确定语义的方法，其特征在于，包括：

建立关键词对应的音频信息库和层级关系库；

获取用户语音信息，将所述用户语音信息与所述音频信息库中的音频信息进行匹配，标记所述用户语音信息中包含的所有的关键词；

统计标记的关键词的数量，根据所述层级关系库分析所述标记的关键词之间的层级关系；

根据所述数量和/或所述层级关系确定所述用户语音信息的语义。

优选的，所述的建立关键词对应的音频信息库和层级关系库具体包括：

获取关键词的相关信息，所述相关信息包括关键词、关键词音频信息、关键词词义、关键词类别和关键词层级；

根据所述关键词音频信息建立所述音频信息库；

根据所述关键词词义、所述关键词类别和所述关键词层级建立所述层级关系库。

优选的，所述的获取用户语音信息，将所述用户语音信息与所述音频信息库中的音频信息进行匹配，标记所述用户语音信息中包含的所有的关键词具体包括：

获取所述用户语音信息；

对所述用户语音信息进行分词标注，根据标注结果在所述用户语音信息相应区域标记语音切分标签；

根据所述语音切分标签切分所述用户语音信息得到多个用户音频信息，将所述用户音频信息与所述音频信息库中的音频信息进行匹配，标记所述用户音频信息中包含的关键词。

优选的，所述的根据所述数量和所述层级关系确定所述用户语音信息的语义：

当所述数量为一时，所述标记的关键词的词义为所述用户语音信息的语义；

当所述数量大于等于二时，根据所述层级关系确定所述用户语音信息的语义。

优选的，所述的当所述数量大于等于二时，根据所述层级关系确定所述用户语音信息的语义具体包括：

当所述标记的关键词是同级时，若所述标记的关键词的词义相似，则任一关键词的词义为所述用户语音信息的语义；

当所述标记的关键词是同级时，若所述标记的关键词中至少一个关键词的词义与其余关键词的词义不相似，则所述用户语音信息的语义为多重；

当所述标记的关键词非同级时，若所述标记的关键词之间存在包含关系，则存在包含关系的关键词中层级关系的最后一级的关键词的词义为所述用户语音信息的语义；

当所述标记的关键词非同级时，若所述标记的关键词之间非包含关系，则所述用户语音信息的语义为多重。

本发明还提供一种通过语音确定语义的系统，其特征在于，包括：

数据库建立模块，建立关键词对应的音频信息库和层级关系库；

标记模块，获取用户语音信息，将所述用户语音信息与所述数据库建立模块建立的所述音频信息库中的音频信息进行匹配，标记所述用户语音信息中包含的所有的关键词；

处理模块，统计所述标记模块标记的关键词的数量，根据所述数据库建立模块建立的所述层级关系库分析所述标记的关键词之间的层级关系；

控制模块，根据所述处理模块统计的所述数量和/或所述处理模块分析的所述层级关系确定所述用户语音信息的语义。

优选的，所述数据库建立模块具体包括：

第一获取单元，获取关键词的相关信息，所述相关信息包括关键词、关键词音频信息、关键词词义、关键词类别和关键词层级；

数据库建立单元，根据所述第一获取单元获取的所述关键词音频信息建立所述音频信息库；

所述数据库建立单元，根据所述第一获取单元获取的所述关键词词义、所述关键词类别和所述关键词层级建立所述层级关系库。

优选的，所述标记模块具体包括：

第二获取单元，获取所述用户语音信息；

标记单元，对所述第二获取单元获取的所述用户语音信息进行分词标注，根据标注结果在所述用户语音信息相应区域标记语音切分标签；

切分单元，根据所述标记单元标记的所述语音切分标签切分所述用户语音信息得到多个用户音频信息；

所述标记单元，将所述切分单元切分得到的所述用户音频信息与所述音频信息库中的音频信息进行匹配，标记所述用户音频信息中包含的关键词。

优选的，所述控制模块具体包括：

识别单元，识别所述处理模块统计的所述数量；

处理单元，当所述识别单元识别出所述数量为一时，所述标记的关键词的词义为所述用户语音信息的语义；

所述处理单元，当所述识别单元识别出所述数量大于等于二时，根据所述层级关系确定所述用户语音信息的语义。

优选的，所述处理单元具体包括：

第一识别子单元，识别所述标记的关键词的级别；

第二识别子单元，当所述第一识别子单元识别出所述标记的关键词是同级时，识别所述标记的关键词的词义；

处理子单元，若所述第二识别子单元识别出所述标记的关键词的词义相似，则任一关键词的词义为所述用户语音信息的语义；

所述处理子单元，若所述第二识别子单元识别出所述标记的关键词中至少一个关键词的词义与其余关键词的词义不相似，则所述用户语音信息的语义为多重；

第三识别子单元，当所述第一识别子单元识别出所述标记的关键词非同级时，识别所述标记的关键词之间的关系；

所述处理子单元，若所述第三识别子单元识别出所述标记的关键词之间存在包含关系，则存在包含关系的关键词中层级关系的最后一级的关键词的词义为所述用户语音信息的语义；

所述处理子单元，若若所述第三识别子单元识别出所述标记的关键词之间非包含关系，则所述用户语音信息的语义为多重。

通过本发明提供的一种通过语音确定语义的方法及系统，能够带来以下至少一种有益效果：

1、本发明中通过用户语音信息中的关键词确定用户语音信息中的语义，避免需要对用户语音信息逐字逐句地进行解析，一方面降低了对系统解析能力的要求，语音信息越长，越难解析出正确的语义，另一方面提高了语义解析的速度，节省时间。

2、本发明中将用户语音信息切分成多个用户音频信息，再将用户音频信息和音频信息库中的音频信息进行匹配，匹配速度更快，而且不容易造成遗漏或其它原因导致报错。

3、本发明中将用户信息中包含的所有关键词根据数量以及相互之间的层级关系的情况进行分类，从而采取对应的确定语义的方式，对于包含关键词较多而且较为复杂的语音信息也能快速确定语义。

附图说明

下面将以明确易懂的方式，结合附图说明优选实施方式，对一种通过语音确定语义的方法及系统的上述特性、技术特征、优点及其实现方式予以进一步说明。

图1是本发明一种通过语音确定语义的方法的第一个实施例的流程图；

图2是本发明一种通过语音确定语义的方法的第二个实施例的流程图；

图3是本发明一种通过语音确定语义的方法的第三个实施例的流程图；

图4是本发明一种通过语音确定语义的方法的第四个实施例的流程图；

图5是本发明一种通过语音确定语义的系统的第五个实施例的结构示意图；

图6是本发明一种通过语音确定语义的系统的第六个实施例的结构示意图；

图7是本发明一种通过语音确定语义的系统的第七个实施例的结构示意图；

图8是本发明一种通过语音确定语义的系统的第八个实施例的结构示意图。

附图标号说明：

1000通过语音确定语义的系统

1100数据库建立模块 1110第一获取单元 1120数据库建立单元

1200标记模块 1210第二获取单元 1220标记单元 1230切分单元

1300处理模块

1400控制模块 1410识别单元 1420处理单元

1421第一识别子单元 1422第二识别子单元

1423处理子单元 1424第三识别子单元

具体实施方式

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

为使图面简洁，各图中只示意性地表示出了与本发明相关的部分，它们并不代表其作为产品的实际结构。另外，以使图面简洁便于理解，在有些图中具有相同结构或功能的部件，仅示意性地绘示了其中的一个，或仅标出了其中的一个。在本文中，“一个”不仅表示“仅此一个”，也可以表示“多于一个”的情形。

本发明的第一实施例，如图1所示，一种通过语音确定语义的方法，包括：

S100建立关键词对应的音频信息库和层级关系库。

具体的，对于关键词的选取，在某一特定的技术领域，可以选择收集大量该技术领域的相关文献、音频等资料，分析统计资料中词语出现的频率，根据用户设置将出现的频率高于预设阈值的词语选定为关键词。

由于收集的资料的渠道以及数量有限，另外出于技术保密的原因，能收集到的公开的资料中涉及当前各行各业的最新技术的资料较少，可能造成最新技术的关联词出现的频率较低，系统智能选取关键词时可能将此类关键词筛选出去，因此关键词还可以由用户进行人为补充，例如在系统分析出收集到的资料中词语出现的频率之后，由各个领域的技术人员在筛选出的词语中选择关键词或者补充关键词。

对于确定的关键词，可以选择通过词性的类别进行分类，那么在后续的关键词匹配中，能够首先缩小匹配音频信息的范围，不需要每次将每个用户语音信息和音频信息库的每个音频信息逐一匹配，导致工作量大而且没有实质的意义。

由于当今社会每时每刻都会产生新的信息，词语出现的频率并不是一成不变的，新技术的关联词出现的频率会增加，已经淘汰或者面临淘汰的相关技术的关联词的频率则会降低，因此系统根据预设要求实时或周期性获取新增的相关资料对关键词进行调整，由于关键词的数量直接影响后续的匹配速度，用户可以适当增加或减少关键词，在保证系统处理速度的情况下保持适当数量的关键词。

S200获取用户语音信息，将所述用户语音信息与所述音频信息库中的音频信息进行匹配，标记所述用户语音信息中包含的所有的关键词。

具体的，获取用户语音信息，可以是用户实时输入的语音，例如用户通过语音控制智能手机实现相应的需求，如查天气、查股票、听音乐等，系统识别出相应的关键词则能够做出相应的反馈。还可以是预先录制好的音频，例如用户从网上下载的多个音频但没有时间逐一试听选取自己需要的主题的音频，因此通过匹配音频信息库中的音频信息确定关键词，从而能够将多个音频的主题进行区分。

S300统计标记的关键词的数量，根据所述层级关系库分析所述标记的关键词之间的层级关系。

具体的，统计标记的关键词的数量，对同一关键词进行合并，但是不对词义相同或相近的关键词进行合并，例如标记的关键词为“水杯”和“水杯”，则统计的关键词的数量为一，标记的关键词为“水杯”和“茶杯”，则统计的关键词的数量为二。

根据层级关系库分析标记的关键词之间的层级关系，确定标记的关键词在层级关系库中相应的位置，从而就能得到标记的关键词之间相应的层级关系，例如标记的关键词为“家具”和“床”，确定“家具”和“床”在层级关系库中的位置，得到家具属于大分类的层级，具体细分为床、衣柜、书桌、书柜等，从层级关系上说家具的类别中包含有床，因此在标记的关键词中床在层级关系中的最后一级。

S400根据所述数量和/或所述层级关系确定所述用户语音信息的语义。

具体的，根据标记的用户语音信息中包含的所有的关键词的数量和/或层级关系确定语义，其中包含两层判断，首先是根据标记的关键词的数量进行识别，识别之后如果需要则再根据标记的关键词之间的层级关系确定用户语音信息的语义。

本实施例中，通过将用户语音信息与音频信息库中的音频信息进行匹配确定用户语音信息中的所有的关键词，从而确定用户语音信息中的语义，实际上是将关键词的词义转化为用户语音信息的语义。

当输入的用户语音信息过长时，现有技术是将用户语音信息转化为识别文本，然后对文本逐字逐句地进行解析，因此要求系统具有解析长句的能力，对服务器、处理器的性能要求较高。

而且很多时候用户实时输入的语音信息比较口语化，并没有严格的逻辑性，而大部分的系统解析文字是基于一定的逻辑性对句子进行处理从而确定语义，例如首先确定一句话中的成分，确定主语、谓语、宾语、补语、状语等，然后确定每个词语的词性，最后分析得出语义，语音信息过于口语化会对系统解析造成一定的困难。

本实施例中，根据关键词确定用户语音信息的语义，相较于对用户语音信息逐字逐句地进行解析，能够更加快速地解析出用户语音信息的语义，并且不存在解析出的语义出错或者完全不相关。

本发明第二实施例，是上述第一实施例的优化实施例，如图2所示，包括：

S110获取关键词的相关信息，所述相关信息包括关键词、关键词音频信息、关键词词义、关键词类别和关键词层级。

具体地，当系统智能选取确定或人工选取补充确定关键词之后，获取选定的关键词的相关信息，相关信息包括关键词、关键词音频信息、关键词词义、关键词类别和关键词层级。建立关键词和对应的关键词音频信息、关键词词义、关键词类别和关键词层级的对应关系。

其中，即便是同一关键词，不同年龄不同地区的人的口音会有区别，以及同一关键词还有书面语、行内用语、口语、方言及俚语等各种表达方式，因此同一关键词可能对应多种不同的关键词音频信息。

另外，同一关键词在不同领域或者句子词性不同或者是放置在句子的不同位置就可能导致关键词词义不同，尽量齐全地获取同一关键词的词性以及所有词义，在最后确定用户语音信息的语义时，对于相应确定的关键词，系统可以选择全部展示给用户由用户自己选定相应的关键词词义，或者由系统判断用户语音信息的所属技术领域以及在句子中所处的位置，按照词义的可能性将关键词的所有词义进行相关度排序再展示给用户供用户选择确定语义。

确定关键词的类别，即了解关键词所属的大类以及各个细分类别，可以确定每个关键词在在相应的类别层级关系中相应的层级，从而在出现多个关键词时有助于语义的确定。

S120根据所述关键词音频信息建立所述音频信息库。

具体地，根据关键词相应的关键词音频信息建立音频信息库，其中，一个关键词对应一个或多个关键词音频信息，当识别出用户语音信息包含上述关键词音频信息中的任意一个时，均对应上述关键词。而且用户可以根据关键词的词性或者所属技术领域或者所属类别等对音频信息库进行分类。那么在后续的音频匹配过程中，可以先对音频中词语的词性或者所涉及的技术领域或者所属类别进行相应的判断，然后在相应的分类组中再进行匹配，从而可以加快匹配速度。

S130根据所述关键词词义、所述关键词类别和所述关键词层级建立所述层级关系库。

具体地，根据关键词相应的关键词词义、关键词类别和关键词层级建立层级关系库。在确定关键词之后，相应识别该关键词的类别，根据关键词的不同，该关键词可能本身就属于大类别，也可能属于划分较细的细分类别中，因此层级关系库中的层级关系应当建立完全，所有选取的关键词都应该在层级关系库中有相应的位置。

并且从分类的角度多个关键词的同级关系以及包含与被包含的关系等也在层级关系库中体现。另外由于同一关键词可能属于多个不同领域，那么在每个领域中该关键词的类别和层级都互不相同。

并且同一关键词在不同领域中的词义各不相同，因此在建立好各关键词之间的层级关系之后，将相应的关键词的词义关联至对应位置的关键词，也就是说，同一关键词在某一技术领域的层级对应该关键词在该技术领域的词义，在另一技术领域的层级则对应另一技术领域的词义。

本实施例中，当系统智能选取确定或人工选取补充确定关键词之后，需要获取选定的关键词的相关信息，然后根据关键词的相关信息建立对应的音频信息库和层级关系库，以便后续对用户语音信息进行匹配，其中相关信息包括关键词、关键词音频信息、关键词词义、关键词类别和关键词层级。

音频信息库可以根据关键词的词性或关键词所属技术领域等特征进行分类然后对后续的用户语音信息进行分类匹配，从而加快匹配速度，快速准确地匹配出用户语音信息中所包含的关键词。

同样的，同一关键词在不同领域所属的类别和所在的层级关系不同，因此在后续根据用户语音信息中包含的关键词确定语义的过程中，如果包含多个关键词则需要识别用户语音信息中包含的关键词所属的技术领域，才能准确识别关键词之间的层级关系，从而确定语义。

本发明第三实施例，是上述第一实施例的优化实施例，如图3所示，包括：

S100建立关键词对应的音频信息库和层级关系库。

S210获取所述用户语音信息。

具体地，获取用户语音信息，获取的可以是用户实时输入的语音，例如用户通过语音控制智能手机实现相应的需求，如查天气、查股票、听音乐等。还可以是用户输入预先录制好的音频，例如用户从网上下载的多个音频或者用户自己录制的音频等。

S220对所述用户语音信息进行分词标注，根据标注结果在所述用户语音信息相应区域标记语音切分标签。

具体地，对获取的用户语音信息进行分词标注，首先将用户语音信息转化为识别文本，确定每一句语音中句子相应的成分，然后根据每个成分的划分进行分词标注，还可以选择识别句子中词语的词性，然后根据词语的词性进行分词标注。对于太过于口语化或者方言口音过重或者俚语等无法通过逻辑判断句子的成分或者词语的词性的用户语音信息，则是将每一段系统无法判断的部分进行标注。

然后根据分词标注的结果在用户语音信息相应的位置标记语音切分标签，也就是说根据分词标注的结果将用户语音信息通过语音切分标签分割成多个部分。

S230根据所述语音切分标签切分所述用户语音信息得到多个用户音频信息，将所述用户音频信息与所述音频信息库中的音频信息进行匹配，标记所述用户音频信息中包含的关键词。

具体地，根据语音切分标签切分用户语音信息从而得到多个用户音频信息，由于语音切分标签是根据用户语音信息转化的识别文本中的句子的成分或者词语的词性进行标记的，得到的多个用户音频信息中可能存在较短的仅仅包含无意义的虚词等类似内容的音频，因此根据分词标注的结果，选择标注过程中识别为无意义的字、词对应的用户音频信息，将此类用户音频信息筛选掉，仅将剩余的用户音频信息和音频信息库中的音频信息进行匹配，减少需要匹配的用户音频信息的数量，从而提升匹配速度。

对于明确识别出成分或者词语词性的用户音频信息，可以对该用户音频信息涉及的技术领域做进一步判断，以便于在匹配过程中优先将该用户音频信息和音频信息库中相应的技术领域中的音频信息进行匹配，从而快速得到匹配结果。只有在对相应技术领域中的音频信息匹配没有结果时，才选择在音频信息库中扩大匹配范围。

对于上述用户语音信息中太过于口语化或者方言口音过重或者俚语等部分组成的用户音频信息，由于前面无法通过逻辑判断句子的成分或者词语的词性，无法针对技术领域缩小匹配范围，因此直接将相应的用户音频信息和音频信息库中的音频信息逐一进行匹配，从而得出匹配结果。

对于此类太过于口语化或者方言口音过重或者俚语等部分组成的用户音频信息，无论系统的匹配结果如何，都可以选择是否需要用户人工识别。如果系统没有匹配到相应的音频，可以通知用户由用户进行人工识别判断。如果系统匹配到相应的音频，也可以选择由用户进行进一步校核。

本实施例中，将获取的用户语音信息进行分词标注，根据分词标注的结果对用户语音信息进行切分得到多个用户音频信息，对于得到的用户音频信息，不同类别的用户音频信息选择不同的处理方式，从而节省音频匹配时间，最终加快语义的确定速度。

首先筛选掉其中仅包含无意义字、词的用户音频信息，此类用户音频信息不包含实质内容，对后续语义的确定没有影响，筛选掉可以减少后续音频匹配的工作量。

另外对于其中已经明确在句子中的成分或者词语词性的用户音频信息，则是根据技术领域或者词语词性缩小匹配范围，避免对于每个用户音频信息都将音频信息库中的音频信息逐一进行匹配，通过前期的技术领域或者词语词性识别减少一部分匹配工作。

最后对于系统无法通过识别文字逻辑性判断技术领域或者词语词性的用户音频信息，则只能选择将音频信息库中的音频信息逐一进行匹配。

本发明第四实施例，是上述第一实施例的优化实施例，如图4所示，包括：

S100建立关键词对应的音频信息库和层级关系库。

S410当所述数量为一时，所述标记的关键词的词义为所述用户语音信息的语义。

具体地，统计所有的用户音频信息与音频信息库中的音频信息匹配到的关键词的数量，如果匹配完所有的用户音频信息有且仅有一个关键词，那么该关键词的词义就是用户语音信息的语义，从层级关系库中获取该关键词的词义确定对应用户语音信息的语义。

S420当所述数量大于等于二时，根据所述层级关系确定所述用户语音信息的语义。

具体地，统计所有的用户音频信息与音频信息库中的音频信息匹配到的关键词的数量，如果关键词的数量大于等于二，则需要根据上述多个关键词之间的层级关系来决定关键词的取舍，从而选取一个或多个关键词确定用户语音信息的语义。

S421当所述标记的关键词是同级时，若所述标记的关键词的词义相似，则任一关键词的词义为所述用户语音信息的语义。

具体地，当统计所有标记的关键词的数量大于等于二时，从层级关系上看，如果标记的关键词是同级，并且关键词的词义相近或相似，则选取任一关键词的词义为用户语音信息的语义。

例如标记的关键词为“水杯”和“茶杯”，统计的关键词的数量为二，并且两者都属于杯子的分类组，则认为“水杯”和“茶杯”属于同级，并且两者词义相近，那么可以将水杯或茶杯作为用户语音信息的语义。

S422当所述标记的关键词是同级时，若所述标记的关键词中至少一个关键词的词义与其余关键词的词义不相似，则所述用户语音信息的语义为多重。

具体地，当统计所有标记的关键词的数量大于等于二时，从层级关系上看，如果标记的关键词是同级，但是关键词中至少一个关键词的词义与其余关键词的词义不相似，则用户语音信息的语义为多重。

例如标记的关键词为“床”和“书桌”，统计的关键词的数量为二，并且两者都属于家具的分类组，则认为“床”和“书桌”属于同级，但是两者得词义并不相近或相似，则认为用户语音信息的语义为多重。

对于认为语义是多重的用户语音信息，可以按照预设规定选取语义，例如将最先出现的关键词作为用户语音信息的语义，或者统计关键词出现的频率，并将词义相近或相似的关键词统计为同一类，然后将统计频率最高的关键词作为用户语音信息的词义，或者将所有关键词的词义都输出作为用户语音信息的词义，再或者将系统统计结果包括关键词出现时间、出现频率展示给用户，由用户自主决定用户语音信息的语义。

S423当所述标记的关键词非同级时，若所述标记的关键词之间存在包含关系，则存在包含关系的关键词中层级关系的最后一级的关键词的词义为所述用户语音信息的语义。

具体地，当统计所有标记的关键词的数量大于等于二时，从层级关系上看，如果标记的关键词不是同级，但是标记的关键词之间存在包含关系，则将存在包含关系的关键词中层级关系的最后一级的关键词的词义作为用户语音信息的语义。

例如标记的关键词为“床”和“家具”，统计的关键词的数量为二，但是“床”属于“家具”的分类组，则认为“床”和““家具”不属于同级，而且两者存在包含关系，在层级关系中“床”属于最后一级，则认为床是用户语音信息的语义。

S424当所述标记的关键词非同级时，若所述标记的关键词之间非包含关系，则所述用户语音信息的语义为多重。

具体地，当统计所有标记的关键词的数量大于等于二时，从层级关系上看，如果标记的关键词不是同级，并且标记的关键词之间不存在包含关系，则用户语音信息的语义为多重。对于认为语义是多重的用户语音信息，根据上述内容所说按照预设规定选取语义。

例如标记的关键词为“床”和“面包”，统计的关键词的数量为二，但是从层级关系上看两者没有任何关系，两者都既不属于属于同级，也不存在包含关系，因此认为用户语音信息的语义为多重。

本实施例中，在匹配得出所有的用户音频信息中的关键词并进行标记之后，同级标记的关键词的数量。根据关键词的数量以及关键词相互之间的层级关系，分成不同的类型智能选取关键词从而快速准确地确定用户语音信息的语义。

本发明的第五实施例，如图5所示，一种通过语音确定语义的系统1000，包括：

数据库建立模块1100，建立关键词对应的音频信息库和层级关系库。

具体地，数据库建立模块1100中包括选取关键词。对于关键词的选取，在某一特定的技术领域，可以选择收集大量该技术领域的相关文献、音频等资料，分析统计资料中词语出现的频率，根据用户设置将出现的频率高于预设阈值的词语选定为关键词。

标记模块1200，获取用户语音信息，将所述用户语音信息与所述数据库建立模块1100建立的所述音频信息库中的音频信息进行匹配，标记所述用户语音信息中包含的所有的关键词。

具体的，标记模块1200获取用户语音信息，可以是用户实时输入的语音，例如用户通过语音控制智能手机实现相应的需求，如查天气、查股票、听音乐等，系统识别出相应的关键词则能够做出相应的反馈。还可以是预先录制好的音频，例如用户从网上下载的多个音频但没有时间逐一试听选取自己需要的主题的音频，因此通过匹配音频信息库中的音频信息确定关键词，从而能够将多个音频的主题进行区分。

处理模块1300，统计所述标记模块1200标记的关键词的数量，根据所述数据库建立模块1100建立的所述层级关系库分析所述标记的关键词之间的层级关系。

具体的，处理模块1300统计标记模块1200标记的关键词的数量，对同一关键词进行合并，但是不对词义相同或相近的关键词进行合并，例如标记的关键词为“水杯”和“水杯”，则统计的关键词的数量为一，标记的关键词为“水杯”和“茶杯”，则统计的关键词的数量为二。

处理模块1300根据层级关系库分析标记模块1200标记的关键词之间的层级关系，确定标记的关键词在层级关系库中相应的位置，从而就能得到标记的关键词之间相应的层级关系，例如标记的关键词为“家具”和“床”，确定“家具”和“床”在层级关系库中的位置，得到家具属于大分类的层级，具体细分为床、衣柜、书桌、书柜等，从层级关系上说家具的类别中包含有床，因此在标记的关键词中床在层级关系中的最后一级。

控制模块1400，根据所述处理模块1300统计的所述数量和/或所述处理模块1300分析的所述层级关系确定所述用户语音信息的语义。

具体的，控制模块1400根据处理模块1300统计的标记的用户语音信息中包含的所有的关键词的数量和/或根据处理模块1300分析的层级关系确定语义，其中包含两层判断，首先是根据标记的关键词的数量进行识别，识别之后如果需要则再根据标记的关键词之间的层级关系确定用户语音信息的语义。

本发明第六实施例，是上述第五实施例的优化实施例，如图6所示，包括：

第一获取单元1110，获取关键词的相关信息，所述相关信息包括关键词、关键词音频信息、关键词词义、关键词类别和关键词层级。

具体地，当系统智能选取确定或人工选取补充确定关键词之后，第一获取单元1110获取选定的关键词的相关信息，相关信息包括关键词、关键词音频信息、关键词词义、关键词类别和关键词层级。建立关键词和对应的关键词音频信息、关键词词义、关键词类别和关键词层级的对应关系。

数据库建立单元1120，根据所述第一获取单元1110获取的所述关键词音频信息建立所述音频信息库。

具体地，数据库建立单元1120根据关键词相应的关键词音频信息建立音频信息库，其中，一个关键词对应一个或多个关键词音频信息，当识别出用户语音信息包含上述关键词音频信息中的任意一个时，均对应上述关键词。而且用户可以根据关键词的词性或者所属技术领域或者所属类别等对音频信息库进行分类。那么在后续的音频匹配过程中，可以先对音频中词语的词性或者所涉及的技术领域或者所属类别进行相应的判断，然后在相应的分类组中再进行匹配，从而可以加快匹配速度。

所述数据库建立单元1120，根据所述第一获取单元1110获取的所述关键词词义、所述关键词类别和所述关键词层级建立所述层级关系库。

具体地，数据库建立单元1120根据关键词相应的关键词词义、关键词类别和关键词层级建立层级关系库。在确定关键词之后，相应识别该关键词的类别，根据关键词的不同，该关键词可能本身就属于大类别，也可能属于划分较细的细分类别中，因此层级关系库中的层级关系应当建立完全，所有选取的关键词都应该在层级关系库中有相应的位置。

标记模块1200，获取用户语音信息，将所述用户语音信息与所述数据库建立模块1100建立的所述音频信息库中的音频信息进行匹配，标记所述用户语音信息中包含的所有的关键词；

处理模块1300，统计所述标记模块1200标记的关键词的数量，根据所述数据库建立模块1100建立的所述层级关系库分析所述标记的关键词之间的层级关系；

本发明第七实施例，是上述第五实施例的优化实施例，如图7所示，包括：

第二获取单元1210，获取所述用户语音信息。

具体地，第二获取单元1210获取用户语音信息，获取的可以是用户实时输入的语音，例如用户通过语音控制智能手机实现相应的需求，如查天气、查股票、听音乐等。还可以是用户输入预先录制好的音频，例如用户从网上下载的多个音频或者用户自己录制的音频等。

标记单元1220，对所述第二获取单元1210获取的所述用户语音信息进行分词标注，根据标注结果在所述用户语音信息相应区域标记语音切分标签。

具体地，标记单元1220对获取的用户语音信息进行分词标注，首先将用户语音信息转化为识别文本，确定每一句语音中句子相应的成分，然后根据每个成分的划分进行分词标注，还可以选择识别句子中词语的词性，然后根据词语的词性进行分词标注。对于太过于口语化或者方言口音过重或者俚语等无法通过逻辑判断句子的成分或者词语的词性的用户语音信息，则是将每一段系统无法判断的部分进行标注。

切分单元1230，根据所述标记单元1220标记的所述语音切分标签切分所述用户语音信息得到多个用户音频信息。

所述标记单元1220，将所述切分单元1230切分得到的所述用户音频信息与所述音频信息库中的音频信息进行匹配，标记所述用户音频信息中包含的关键词。

具体地，切分单元1230根据语音切分标签切分用户语音信息从而得到多个用户音频信息，由于语音切分标签是根据用户语音信息转化的识别文本中的句子的成分或者词语的词性进行标记的，得到的多个用户音频信息中可能存在较短的仅仅包含无意义的虚词等类似内容的音频，因此根据分词标注的结果，选择标注过程中识别为无意义的字、词对应的用户音频信息，将此类用户音频信息筛选掉，仅将剩余的用户音频信息和音频信息库中的音频信息进行匹配，减少需要匹配的用户音频信息的数量，从而提升匹配速度。

本发明第八实施例，是上述第五实施例的优化实施例，如图8所示，包括：

识别单元1410，识别所述处理模块1300统计的所述数量。

处理单元1420，当所述识别单元1410识别出所述数量为一时，所述标记的关键词的词义为所述用户语音信息的语义。

具体地，识别单元1410识别统计的所有的用户音频信息与音频信息库中的音频信息匹配到的关键词的数量，如果匹配完所有的用户音频信息有且仅有一个关键词，那么该关键词的词义就是用户语音信息的语义，从层级关系库中获取该关键词的词义确定对应用户语音信息的语义。

第一识别子单元1421，当所述识别单元1410识别出所述数量大于等于二时，识别所述标记的关键词的级别。

第二识别子单元1422，当所述第一识别子单元1421识别出所述标记的关键词是同级时，识别所述标记的关键词的词义。

处理子单元1423，若所述第二识别子单元1422识别出所述标记的关键词的词义相似，则任一关键词的词义为所述用户语音信息的语义。

所述处理子单元1423，若所述第二识别子单元1422识别出所述标记的关键词中至少一个关键词的词义与其余关键词的词义不相似，则所述用户语音信息的语义为多重。

第三识别子单元1424，当所述第一识别子单元1421识别出所述标记的关键词非同级时，识别所述标记的关键词之间的关系；

所述处理子单元1423，若所述第三识别子单元1424识别出所述标记的关键词之间存在包含关系，则存在包含关系的关键词中层级关系的最后一级的关键词的词义为所述用户语音信息的语义。

所述处理子单元1423，若若所述第三识别子单元1424识别出所述标记的关键词之间非包含关系，则所述用户语音信息的语义为多重。

应当说明的是，上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种通过语音确定语义的方法，其特征在于，包括：

建立关键词对应的音频信息库和层级关系库；

根据所述数量和所述层级关系确定所述用户语音信息的语义；

所述的建立关键词对应的音频信息库和层级关系库具体包括：

根据所述关键词音频信息建立所述音频信息库；

根据所述关键词词义、所述关键词类别和所述关键词层级建立所述层级关系库；

所述的获取用户语音信息，将所述用户语音信息与所述音频信息库中的音频信息进行匹配，标记所述用户语音信息中包含的所有的关键词具体包括：

获取所述用户语音信息；

2.根据权利要求1所述的通过语音确定语义的方法，其特征在于，所述的根据所述数量和所述层级关系确定所述用户语音信息的语义：

3.根据权利要求2所述的通过语音确定语义的方法，其特征在于，所述的当所述数量大于等于二时，根据所述层级关系确定所述用户语音信息的语义具体包括：

4.一种通过语音确定语义的系统，其特征在于，包括：

控制模块，根据所述处理模块统计的所述数量和所述处理模块分析的所述层级关系确定所述用户语音信息的语义；

所述数据库建立模块具体包括：

所述数据库建立单元，根据所述第一获取单元获取的所述关键词词义、所述关键词类别和所述关键词层级建立所述层级关系库；

所述标记模块具体包括：

第二获取单元，获取所述用户语音信息；

5.根据权利要求4所述的通过语音确定语义的系统，其特征在于，所述控制模块具体包括：

识别单元，识别所述处理模块统计的所述数量；

6.根据权利要求5所述的通过语音确定语义的系统，其特征在于，所述处理单元具体包括：

第一识别子单元，当所述识别单元识别出所述数量大于等于二时，识别所述标记的关键词的级别；