CN113380261A

CN113380261A - 一种人工智能语音采集处理器及方法

Info

Publication number: CN113380261A
Application number: CN202110575829.4A
Authority: CN
Inventors: 张海滨
Original assignee: Terminus Technology Group Co Ltd
Current assignee: Terminus Technology Group Co Ltd
Priority date: 2021-05-26
Filing date: 2021-05-26
Publication date: 2021-09-10
Anticipated expiration: 2041-05-26
Also published as: CN113380261B

Abstract

一种人工智能语音采集处理器及方法。人工智能语音采集处理器包括：多路复用器、语音编码器、语音活动检测器、记录和重放控制器、微控器和存储器，所述多路复用器的第一输入端用于输入待发送的语音数据，第二输入端用于输入接收的语音数据而后提供给语音编码器，语音活动检测器根据语音编码器提供的信息是否包含语音产生有音标识和无音标识；记录和重放控制器根据语音编码器提供的信息和语音活动检测器提供的标识组成有效语音语言数据和无音时间间隔，微控器包括人工智能模块，其被配置为根据记录和重放控制器提供的信息，对有效语音语言数据进行特征提取和识别生成音素数据，并将音素数据和无音时间间隔存储到存储器中。本发明提供的处理器及方法节省存储空间。

Description

一种人工智能语音采集处理器及方法

技术领域

本发明涉及一种人工智能语音采集处理器及方法，属于人工智能技术领域。

背景技术

在语音通讯中，有时需要记录通讯中交谈内容，为记录交谈内容需要大大的存储容器。现有技术中提供的语音记录不能有效地使用存储器空间，因此要求大容量存储器。

发明内容

为克服现有技术中存在的技术问题，本发明的发明目的是提供一种人工智能语音采集处理器及方法，其能有效地利用存储器的存储空间。

为实现所述发明目的，本发明提供一种语音采集处理器，包括：语音编码器5、解码器17，其特征在于，还包括第一多路复用器15、加法器23，第二多路复用器16、语音活动检测器4、记录和重放控制器20、微控器21和存储器22，其中，语音编码器5的输入端和语音解码器17的输出端均连接到加法器23的输入端和第二多路复用器16的输入端；加法器23的输出端也连接第二多路复用器16的输入端；第二多路复用器16输出端连接于记录和重放控制器20；语音解码器的输出端和记录和重放控制器20的输出端连接到第一多路复用器的输入端，第一多路复用器的输出端连接到扬声器；语音活动检测器根据第二多路复用器提供的信息是否包含语音产生有音标识和无音标识；记录和重放控制器根据第二多路复用器提供的信息和语音活动检测器提供的标识组成有效语音语言数据和无音时间间隔，微控器包括人工智能模块，其被配置为根据记录和重放控制器提供的信息，对有效语音语言数据进行特征提取和识别生成音素数据，并将音素数据和无音时间间隔存储到存储器中。

优选地，需要重放通话时，微控器从存储器中取出音素数据，而成生成有效语音语言数据，并将有效语音语言数据和无音时间间隔提供给记录和重放控制器20，通过记录和重放控制器20恢复为语音数据。

优选地，所述人工智能模块包括特征抽取模块和模式识别模块，特征抽取模块抽取有效的语音语言数据的特征，输出特征数据；模式识别模块根据从特征抽取模块输出的特征数据进行模式识别的生成音素数据。

为实现所述发明目的,本发明还提供一种语音采集处理方法，其特征在于，包括：通过语音活动检测检测需要存储的语音信息是否包含语音，若有语音，则产生有音标识，若无语音，则产生无音标识，并记录无语音的时间间隔；通过记录和重放控制器将需要存储的语音信息和语音活动检测器提供的标识组成有效语音语言数据和无音时间间隔；利用人工智能模块对记录和重放控制器提供的有效语音语言数据进行特征提取和识别生成音素数据，将音素数据和无音时间间隔存储到存储器中。

优选地，需要重放语音时，从存储器中取出音素数据，而成生成有效语音语言数据，并将有效语音数据和无音时间间隔提供给记录和重放控制器20,通过记录和重放控制器20恢复为语音数据。

优选地，所述人工智能模块特征抽取模块、模式识别模块和控制模块，其中，特征抽取模块被配置为抽取有效的语音语言信息的特征，输出特征数据；模式识别模块被配置为根据从特征抽取模块输出的特征数据，进行模式识别的处理,生成音素数据；控制模块，被配置为控制特征抽取模块以及模式识别模块，控制模式识别模块内的自组织竞争神经网络的构建或学习处理、以及基于构建的自组织竞争神经网络的语音语言数据的识别处理。

优选地，自组织竞争神经网络包括N层神经元,其通过如步骤构建:在步骤1中，在控制模块的控制下，控制从特征抽出模块输出的特征数据的大小，将句子单位的声音语言数据输入模式识别模块，此时，模式识别模块在预定时间段内基于从外部输入的以句子为单位的语音语言数据，将具有以句子为单位的语音语言数据作为核心函数的模板数据的神经元作为新神经元添加到第1级网络层；在步骤2中，在控制模块的控制下，从特征提取模块输出的输入数据的大小被改变，以短语为单位的语音语言数据被输入到模式识别模块，此时，模式识别模块在预定时间段内，基于从外部输入的以短语为单位的语音语言数据，将具有以短语为单位的语音语言数据作为核心函数的模板数据的神经元作为新的神经元添加到第2级网络层；依次类推，在将与上述步骤2同样的处理，构建第n(n＝3,..,N)级网络层网络层次，如果建立N层神经元，则过程可以返回到步骤1，并且可以从句子级别网络层级重复建立或学习。

与现有技术相比，本发明提供语音采集处理器大大地节省了存储器的存储空间。

附图说明

图1是本发明提供的语音采集处理器的组成框图；

图2是本发明提供的语音识别模块的组成框图；

图3是本发明提供的自组织竞争神经网络的结构示意图。

具体实施方式

下面结合附图详细说明本发明，相同的附图标记表示相同的部件。

图1是本发明提供的语音采集处理器的组成框图，如图1所示，本发明提供的语音采集处理器包括麦克风1、第一滤波器2、A/D转换器3、编码器5、发射电路7、双功器10、收发天线11、接收电路9、解码器17、D/A转换器14、第二滤波器13和扬声器12，发送时，麦克风1用于将语音信息转换为模拟电信息而后经第一滤波器2进行滤波而后传送给A/D转换器3；A/D转换器3将滤波后的模拟电信息转换为发送的数字信息，而后发送给语音编码器5；编码器5对发送的数字电信息进行信源编码、信道编码、交织处理得到发送数据而后送给发射电路7；发射电路7将发送数据调制到载频上得到高频调制波，而后经双功器10发送给收发天线11；收发天线11将发射电路发送来的高频调制波转换为电磁波而后发送到空间；接收时，收发天线将空间电磁波转换为电信息而后经双工器10发送给接收电路9，接收电路9从高频调制波中解调出接收的数据，而后发送给语音解码器17，解码器17对接收的数据进行解交织、信道解码、信源解码取出接收的语音数字信息，接收语音数字信息经D/A转换器转换为模拟语音信息，而后经扬声器/或耳机发出声音，接收的语音信息为通信对端传送的语音信息。

根据本发明，语音采集处理器还包括频率产生器8，其用于经发射电路的接收电路9提供各种高频等幅波。

本发明提供的语音采集处理器优选还包括加法器23、多路复用器16、记录和重放控制器20、微控器21、语音活动性检测器4和存储器22，其中，编码器5的输入端和解码器17的输出端也连接于也到加法器23和多路复用器16。加法器23的输出也输入到多路复用器16。多路复用器16的输出端连接到记录和重放控制器20的输入端，本发明中，由于多路复用器16的设置将来自解码器17的输出也提供到记录和重放控制器20的输入端，语音采集处理器可以在采集语音和播报时同时记录语音。当多路复用器16将加法器23的输出连接到记录和重放控制器20的输入时，同时记录输入和输出语音。

音活动性检测器4用于检测馈送给记录和重放控制器20的语音信息,响应无语音产生一个无音标识，响应语音,产生有音标识。来自话音活动性性检测器4的无音标志和有音标识、来自语音编码器5输入端的语音语言数据都提供给记录和重放控制器20，微控器包括人工智能模块，其被配置为根据记录和重放控制器20提供的信息，对有效语音语言数据进行特征提取和识别生成音素数据，并将音素数据和无音时间间隔存储到存储器22中，如此可大大地节省了存储空间。

当需要重放通话时，微控器从存储器22中取出有音素数据，而成生成有效语音语言数据，并根据有效语音数据和无音时间间隔提供给记录和重放控制器20，记录和重放控制器20恢复为语音数据并提供给多路复用器15，而后经D/A转换器14进行数模转换，经滤波器13滤波提供给扬声器重播记录的声音。

图2是本发明提供的人工智能语音识别模块的组成框图，如图2所示，人工智能语音识别模块包括：特征抽取模块111被配置为抽取有效的语音语言信息的特征，输出特征数据；模式识别模块112被配置为根据从特征抽取模块111输出的特征数据，进行模式识别的处理,生成音素数据。

另外，语音识别模块还包括控制模块，其控制特征抽取模块111以及模式识别模块112，控制模式识别模块112内的自组织竞争神经网络的构建或学习处理、以及基于构建的自组织竞争神经网络的语音语言数据的识别处理。特征提取单元111对有效的语音语言数据执行诸如离散化和频带分割的处理，以生成要输入到模式识别模块12的输入数据x。另外，特征提取单元111在控制模块的控制下，能够控制从特征提取单元111输出的特征数据(输入数据x)的大小。

图3是本发明提供的自组织竞争神经网络的结构示意图，本发明中，模式识别模块112具有如图3所示自组织竞争神经网络结构，该自组织竞争神经网络结构包括多个神经元(内核单元)，该多个神经元根据核函数(kernel函数)判断输入数据与模板数据之间的相似度。此外，这里所说的核函数是指输出某两个数据"矢量"的关系的函数。作为这样的核函数，可以使用任意的核函数，但优选使用以距离表示两个数据(矢量)的相互关系的函数。

本发明中，在模式识别模块112内构建的自组织竞争神经网络构造是根据训练数据构建或学习的。具体地，模式识别模块112通过以下方式来执行：在训练阶段，选择性地提取输入数据x中所包括的数据，基于该数据以自增生的方式依序添加神经元，并且根据基于Hebb定律的自组织算法将多个神经元彼此连接来形成网络。另外，这样构建的自组织竞争神经网络结构内的各神经元从特征提取模块111输出的特征数据取数据(输入数据x)(参照图3的实线箭头)或从前级的神经元输出的数据取数据(参照图3的虚线箭头)中的某一个作为其输入数据(向量)。每个神经元可以保持特征数据(语音数据)本身作为模板数据，并且还可以保持与特征数据(语音数据)相对应的数值标签等。第n(n＝2～N，其中N是等于或大于2的整数)层中神经元与前层的第(n-1)层中的神经元中的神经元相关联。在第1层中的每个神经元作为模板数据保持的特征数据是通过提取原始句子语音语言数据的特征而获得的。

下面将详细描述包含在第n(n＝2～N，其中N是等于或大于2的整数)层中的神经元中的模板数据(模板矩阵)。基于存在于第1层中的句字相对应的神经元

的激发存在于第2层中的短语相对应的神经元

基于存在于第2层中的短语相对应的神经元

的激发存在于第3层中的字相对应的神经元

和

基于存在于第3层中与字相对应的神经元

的激发存在于第4层中的音素相对应的神经元

例如,基于存在于第1层中的句字相对应的神经元

的激发存在于第2层中的短语相对应的神经元

基于存在于第2层中的短语相对应的神经元

“zhong guo(中国)”的激发存在于第3层中的字相对应的神经元

“zhong(中)”和

“guo(国)”；基于存在于第3层中与字相对应的神经元

的激发存在于第4层中的音素相对应的神经元

“zh”、“ong”“g”、“u”、“o”相对应的神经元

在模式识别模块112中,建立的自组织竞争神经网络结构中，彼此相关的神经元通过权重系数彼此连接，以便根据语音语言数据的分层识别级别以步进方式彼此相关。具体地，包括在自组织竞争神经网络结构中的每个神经元被包括在与语音语言数据的相应分层识别级别对应的多个网络层级中的任何一个网络层级中，并且包括在每个网络层级中的每个神经元仅在与相应网络层级相邻的网络层级中包括的神经元之间彼此连接。例如，如果假设分层识别级别是句子级、短语级、字级和音素级这四个级别，则模式识别模块112中构造的自组织竞争神经网络结构可以具有图3所示的结构。

另外，在图3所示的自组织竞争神经网络结构中，假设各级别间包含的神经元间的信号流只是单一方向。即，图3所示那样的自组织竞争神经网络构造是相互结合型神经网络，因此原理上能够进行双向的信号的流动，但在此设为不考虑反方向的信号的流动。

在自组织竞争神经网络结构中，包括神经元的输入侧网络层是识别语音语言数据的句子级网络层，其中，作为特征数据的输入数据x被直接输入到该神经元，并且该输入侧网络层是识别语音语言数据的相对长的(时间上长的)单元的句子级网络层，随着输入侧网络层的位置远离该输入侧网络层，提供识别语音语言数据的相对小的单元(诸如短句级网络层、字级网络层以及音素纱网络)的网络层。

另外，在图3所示的自组织竞争神经网络结构中，即使模板数据的大小不同，包含在该结构内的神经元也能相互结合，另外，由于因结合的其他神经元的激发而促使该神经元激发，所以通过利用该特性，能容易地构建具备图3所示的层次结构的自组织竞争神经网络结构。即，假设某两个神经元A和B分别预先保持不同大小的模板数据TA和TB。然后，例如，当神经元A基于某个输入数据而被激发时，该激发被传递给与该神经元A连接的神经元B，并且该神经元B可根据这些权重系数的值而被激发。因此，通过使用这种特性，例如，可实现从句子级网络层级中包括的神经元组到短语级网络层级中包括的神经元的连接，以使与分级识别(字级和音素级)对应的多个神经元以步进方式彼此相关联。在此，在具备图3所示那样的分层构造的自组织竞争神经网络构造中，其模式识别结果例如能够通过在自组织竞争神经网络构造内激发的所有神经元中选择激发率最大的神经元，并输出其值(类ID的值等)来得到。另外，在具有图3所示的分层结构的自组织竞争神经网络结构中，由于多个神经元以网络分层单位分阶段地配置，所以，其模式识别结果例如可以通过选择以各个网络分层单位中激发率最小的神经元，并输出其值(类ID的值等)来得到。

下面，详细说明在图2所示的语音识别模块，构建具有图3所示的层次结构的自我组织化神经网络结构的方法。在图2所示的语音识别模块中，从特征抽取模块111输出的特征数据(输入数据x)，在外部控制模块的控制下，输入到模式识别模块112，根据该输入的特征数据(输入数据x)，在模式识别模块112中，进行用于实现语音语言数据的模式识别处理的自组织竞神经网络结构的构建或学习。

本发明中，在控制模块的控制下，从特征提取模块111输出并输入到模式识别模块112的输入数据x在预定时段内从较大单位(例如，句子单位)到最小单位(例如，音素单位)按顺序改变。在控制模块的控制下，模式识别模块112首先建立能够在句子级别进行模式识别的网络，然后依次建立短语别、字级别以及音素级别的网络,从而构建具有图3所示的层次结构的自组织竞争神经网络结构。

下面，具体说明用于构建具有3所示的层次结构的自组织竞争神经网络结构的具体的步骤。首先，在步骤1中，在控制模块的控制下，控制从特征抽出模块111输出的特征数据(输入数据x)的大小，将句子单位的声音语言数据(与第1个识别级别对应的大小的单位的声音语言数据)输入模式识别模块112。在这种状态下，模式识别模块112在预定时间段T1内基于从外部输入的以句子为单位的语音语言数据，将具有以句子为单位的语音语言数据作为核心函数的模板数据的神经元作为新神经元添加到第1级网络层(句子级别网络层)中。在步骤2中，在完成了如上所述的网络的第一层次(句子级别网络层次)的构造之后，在控制模块的控制下，从特征提取模块111输出的输入数据x的大小被改变，以短语为单位的语音语言数据(具有对应于第二识别级别的大小的语音语言数据)被输入到模式识别模块112。在这种状态下，模式识别模块112在预定时间段T2内，基于从外部输入的以短语为单位的语音语言数据，将具有以短语为单位的语音语言数据作为核心函数的模板数据的神经元作为新的神经元添加到第2级网络层(短语级别网络层)中。此外，以这种方式添加的神经元通过权重系数与由作为输入数据x的以短语为单位的语音语言数据连锁激发的第一级网络层(句子级别网络层)中包括的神经元相连接。同样，在将与上述步骤2同样的处理应用于阶段n(n＝3，4，…)的处理，在规定的期间Pn进行，依次构建第n段的网络层次(例如，字层次网络层次、音素层次网络层次等)。在上述内容中，如果已经建立了目标第N级网络层级(例如，第四级音素级别网络层级)，则过程可以返回到步骤1，并且可以从句子级别网络层级重复建立或学习。此外，各步骤n的期间Tn(n＝1，2，...，N)也可以考虑各个网络层次的构建或学习所需的时间而适当地设为不同的期间。通过以上处理，构建具有图3所示的层次结构的自组织竞争神经网络结构。

虽然我们已经描述了其中神经网络层次结构的神经元保持特征数据(语音语言数据)本身作为模板数据的例子，但是如果第n(n＝2～N，N是大于等于2的整数)层次的神经网络层次结构的神经元保持模板矩阵，则可以学习具有如图3所示的层次结构的自组织竞争神经网络结构。句子级别、短语级别、字级别以及音素级别等)而分阶段地建立关系，所以，可以以高效率地进行对语音语言数据的模式识别处理，同时，可以使该系统结构自我适应性地发展，也可以灵活地适应环境的变化。

此外，在上述实施例中，除了具有基于语音语言数据激发的听觉模态的多个神经元之外，在模式识别模块112中构建的自组织竞争神经网络结构还可以包括具有基于图像数据激发的视觉、嗅觉和触觉中的至少一个模态的多个神经元。在这种情况下，例如，可以仅基于听觉语音语言数据的输入来激发具有视觉模态的神经元。

根据本发明另一实施例，还提供一种语音采集处理方法，包括：通过语音活动检测检测需要存储的语音信息是否包含语音，若有语音，则产生有音标识，若无语音，则产生无音标识，并记录无语音的时间间隔；通过记录和重放控制器将需要存储的语音信息和语音活动检测器提供的标识组成有效语音语言数据和无音时间间隔；利用人工智能模块对记录和重放控制器提供的有效语音语言数据进行特征提取和识别生成音素数据，将音素数据和无音时间间隔存储到存储器中。需要重放语音时，从存储器中取出音素数据，而成生成有效语音语言数据，并将有效语音数据和无音时间间隔提供给记录和重放控制器20,通过记录和重放控制器20恢复为语音数据

由于本发明将与有效的语音语言数据的音素数据及无语音的时间间隔存储于存储器中，因此大大地节省了存储器的存储空间。

虽然以上已结合附图对按照本发明目的构思和实例作了详尽说明，但本领域技术人员应当认识到，在没有脱离本发明构思的前提下，任何基于本发明作出的改进和变换仍然属于本发明保护范围内的内容。

Claims

1.一种语音采集处理器，包括：语音编码器(5)、解码器(17)，其特征在于，还包括第一多路复用器(15)、加法器(23)，第二多路复用器(16)、语音活动检测器(4)、记录和重放控制器(20)、微控器(21)和存储器(22)，其中，语音编码器(5)的输入端和语音解码器(17)的输出端均连接到加法器(23)的输入端和第二多路复用器(16)的输入端；加法器(23)的输出端也连接第二多路复用器(16)的输入端；第二多路复用器(16)输出端连接于记录和重放控制器(20)；语音解码器的输出端和记录和重放控制器(20)的输出端连接到第一多路复用器的输入端，第一多路复用器的输出端连接到扬声器；语音活动检测器根据第二多路复用器提供的信息是否包含语音产生有音标识和无音标识；记录和重放控制器根据第二多路复用器提供的信息和语音活动检测器提供的标识组成有效语音语言数据和无音时间间隔，微控器包括人工智能模块，其被配置为根据记录和重放控制器提供的信息，对有效语音语言数据进行特征提取和识别生成音素数据，并将音素数据和无音时间间隔存储到存储器中。

2.根据权利要求1所述的语音采集处理器，其特征在于，需要重放通话时，微控器从存储器中取出音素数据，而成生成有效语音语言数据，并将有效语音语言数据和无音时间间隔提供给记录和重放控制器(20)，通过记录和重放控制器(20)恢复为语音数据。

3.根据权利要求1所述的语音采集处理器，其特征在于，所述人工智能模块包括特征抽取模块和模式识别模块，特征抽取模块抽取有效的语音语言数据的特征，输出特征数据；模式识别模块根据从特征抽取模块输出的特征数据进行模式识别的生成音素数据。

4.一种语音采集处理方法，其特征在于，包括：通过语音活动检测检测需要存储的语音信息是否包含语音，若有语音，则产生有音标识，若无语音，则产生无音标识，并记录无语音的时间间隔；通过记录和重放控制器将需要存储的语音信息和语音活动检测器提供的标识组成有效语音语言数据和无音时间间隔；利用人工智能模块对记录和重放控制器提供的有效语音语言数据进行特征提取和识别生成音素数据，将音素数据和无音时间间隔存储到存储器中。

5.根据权利要求4所述的语音采集处理方法，其特征在于，需要重放语音时，从存储器中取出音素数据，而成生成有效语音语言数据，并将有效语音数据和无音时间间隔提供给记录和重放控制器(20),通过记录和重放控制器(20)恢复为语音数据。

6.根据权利要求5所述的语音采集处理方法，其特征在于，所述人工智能模块特征抽取模块、模式识别模块和控制模块，其中，特征抽取模块被配置为抽取有效的语音语言信息的特征，输出特征数据；模式识别模块被配置为根据从特征抽取模块输出的特征数据，进行模式识别的处理,生成音素数据；控制模块，被配置为控制特征抽取模块以及模式识别模块，控制模式识别模块内的自组织竞争神经网络的构建或学习处理、以及基于构建的自组织竞争神经网络的语音语言数据的识别处理。

7.根据权利要求6所述的语音采集处理方法，其特征在于，自组织竞争神经网络包括N层神经元,其通过如步骤构建:在步骤1中，在控制模块的控制下，控制从特征抽出模块输出的特征数据的大小，将句子单位的声音语言数据输入模式识别模块，此时，模式识别模块在预定时间段内基于从外部输入的以句子为单位的语音语言数据，将具有以句子为单位的语音语言数据作为核心函数的模板数据的神经元作为新神经元添加到第1级网络层；在步骤2中，在控制模块的控制下，从特征提取模块输出的输入数据的大小被改变，以短语为单位的语音语言数据被输入到模式识别模块，此时，模式识别模块在预定时间段内，基于从外部输入的以短语为单位的语音语言数据，将具有以短语为单位的语音语言数据作为核心函数的模板数据的神经元作为新的神经元添加到第2级网络层；依次类推，在将与上述步骤2同样的处理，构建第n(n＝3,..,N)级网络层网络层次，如果建立N层神经元，则过程可以返回到步骤1，并且可以从句子级别网络层级重复建立或学习。